このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240304となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# CPU上の大規模言語モデルの推論高速化
Inference Acceleration for Large Language Models on CPUs ( http://arxiv.org/abs/2406.07553v1 ) ライセンス: Link先を確認 | Ditto PS, Jithin VG, Adarsh MS, | (参考訳) 近年,様々な自然言語処理(NLP)タスクにおいて,大規模言語モデルの性能が顕著に向上している。
しかし、これらのモデルを現実世界のアプリケーションにデプロイするには、計算要求を処理するための効率的な推論ソリューションが必要であることが多い。
本稿では,大規模言語モデルの推論を高速化するためのCPUの利用について検討する。
具体的には,スループット向上のための並列化手法を提案する。
1) 現代のCPUアーキテクチャの並列処理能力の爆発
2) 推論要求をバッチする。
評価の結果,高速化された推論エンジンは1秒あたり18~22倍のトークンを生成できることがわかった。
より長いシーケンスとより大きなモデルで改善される。
これに加えて、NUMAノードを分離した同じマシンで複数のワーカを実行してトークン/sをさらに改善することもできます。
表2では4人の労働者で4倍の改善が加えられました。
これはまた、Gen-AIベースの製品や企業が環境に優しいものになるだろうが、我々の推定では、推論のCPU使用量によってLLMの消費電力が48.9%削減され、生産可能なスループットとレイテンシが提供できる。
In recent years, large language models have demonstrated remarkable performance across various natural language processing (NLP) tasks. However, deploying these models for real-world applications often requires efficient inference solutions to handle the computational demands. In this paper, we explore the utilization of CPUs for accelerating the inference of large language models. Specifically, we introduce a parallelized approach to enhance throughput by 1) Exploiting the parallel processing capabilities of modern CPU architectures, 2) Batching the inference request. Our evaluation shows the accelerated inference engine gives an 18-22x improvement in the generated token per sec. The improvement is more with longer sequence and larger models. In addition to this, we can also run multiple workers in the same machine with NUMA node isolation to further improvement in tokens/s. Table 2, we have received 4x additional improvement with 4 workers. This would also make Gen-AI based products and companies environment friendly, our estimates shows that CPU usage for Inference could reduce the power consumption of LLMs by 48.9% while providing production ready throughput and latency. | 翻訳日:2024-07-01 08:00:19 公開日:2024-03-04 |
# DRAK: LLMにおけるドメイン特化検索強化知識による分子インサイトのアンロック
DRAK: Unlocking Molecular Insights with Domain-Specific Retrieval-Augmented Knowledge in LLMs ( http://arxiv.org/abs/2406.18535v1 ) ライセンス: Link先を確認 | Jinzhe Liu, Xiangsheng Huang, Zhuo Chen, Yin Fang, | (参考訳) 大規模言語モデル(LLM)は、生体分子のような特定のドメインのユニークな構文に直面する。
既存の微調整やモダリティアライメント技術は、ドメイン知識ギャップを埋め、複雑な分子データを理解するのに苦労し、特殊な分野におけるLSMの進歩を制限する。
これらの制限を克服するために、特定のドメインにおける推論能力を高めることを目的としたドメイン固有検索強化知識(DRAK)と呼ばれる拡張可能で適応可能な非パラメトリックな知識注入フレームワークを提案する。
ナレッジ・アウェア・プロンプトとゴールド・ラベルが引き起こした推論を利用して、DRAKは分子領域と幅広い分析タスクを扱う能力に深い専門知識を発達させてきた。
2種類のDRAK変異体を評価し、DRAKがモル-インストラクションデータセット内の6つの分子タスクの以前のベンチマークを上回っていることを証明した。
大規模な実験は、DRAKの強烈な性能と分子的洞察を解き放つ可能性を強調し、特定の領域における知識集約的なタスクに取り組むためのLLMの統一的なパラダイムを提供した。
私たちのコードはまもなく利用可能になります。
Large Language Models (LLMs) encounter challenges with the unique syntax of specific domains, such as biomolecules. Existing fine-tuning or modality alignment techniques struggle to bridge the domain knowledge gap and understand complex molecular data, limiting LLMs' progress in specialized fields. To overcome these limitations, we propose an expandable and adaptable non-parametric knowledge injection framework named Domain-specific Retrieval-Augmented Knowledge (DRAK), aimed at enhancing reasoning capabilities in specific domains. Utilizing knowledge-aware prompts and gold label-induced reasoning, DRAK has developed profound expertise in the molecular domain and the capability to handle a broad spectrum of analysis tasks. We evaluated two distinct forms of DRAK variants, proving that DRAK exceeds previous benchmarks on six molecular tasks within the Mol-Instructions dataset. Extensive experiments have underscored DRAK's formidable performance and its potential to unlock molecular insights, offering a unified paradigm for LLMs to tackle knowledge-intensive tasks in specific domains. Our code will be available soon. | 翻訳日:2024-07-01 06:21:45 公開日:2024-03-04 |
# 不確実性下でのジョブショップスケジューリングの学習
Learning to Solve Job Shop Scheduling under Uncertainty ( http://arxiv.org/abs/2404.01308v1 ) ライセンス: Link先を確認 | Guillaume Infantes, Stéphanie Roussel, Pierre Pereira, Antoine Jacquet, Emmanuel Benazera, | (参考訳) ジョブショップスケジューリング問題(JSSP、Job-Shop Scheduling Problem)は、ミスパンや遅延などの基準を最小化するために、マシン上でタスクをスケジュールする必要がある組合せ最適化問題である。
より現実的なシナリオに対処するために、確率分布と各タスクの持続時間とを関連付ける。
我々の目標は、平均メイスパンを最小化するロバストなスケジュールを生成することである。
本稿では,解探索にDeep Reinforcement Learning (DRL) を用いた新しい手法を提案する。
本研究の主な貢献は、(1) DRL の JSSP への応用の進歩、一般化と拡張性の向上、(2) 不確実な期間で JSSP に対処する新しい方法である。
グラフニューラルネットワーク(GNN)とDRLを統合するWheatleyアプローチは、さらなる研究と応用のために公開されている。
Job-Shop Scheduling Problem (JSSP) is a combinatorial optimization problem where tasks need to be scheduled on machines in order to minimize criteria such as makespan or delay. To address more realistic scenarios, we associate a probability distribution with the duration of each task. Our objective is to generate a robust schedule, i.e. that minimizes the average makespan. This paper introduces a new approach that leverages Deep Reinforcement Learning (DRL) techniques to search for robust solutions, emphasizing JSSPs with uncertain durations. Key contributions of this research include: (1) advancements in DRL applications to JSSPs, enhancing generalization and scalability, (2) a novel method for addressing JSSPs with uncertain durations. The Wheatley approach, which integrates Graph Neural Networks (GNNs) and DRL, is made publicly available for further research and applications. | 翻訳日:2024-04-07 23:07:46 公開日:2024-03-04 |
# 確率的生成回路-デミスタフィケーション
Probabilistic Generating Circuits -- Demystified ( http://arxiv.org/abs/2404.02912v1 ) ライセンス: Link先を確認 | Sanyam Agarwal, Markus Bläser, | (参考訳) Zhang et al (ICML 2021, PLMR 139, pp. 12447-1245) は確率回路(PC)と行列点過程(DPP)を統合する確率生成回路(PGC)を導入した。
第一に、PGCは分布を全く異なる方法で保存し、確率質量関数の代わりに確率生成多項式を計算する。
しかしながら、PGCは負の重みを許容するが、古典的なPCは全ての重みが負でないと仮定する。
我々の論文の主な洞察の1つは、負の重みが異なる表現ではなく、PGCの力の原因であるということである。
PGCは、特に、任意のPGCを、多項式の爆発だけで負の重みを持つPCに変換する方法を示す。
PGCは二進確率変数に対してのみZhangらによって定義された。
画像サイズが大きい分類変数に対する PGCs は NP = P でない限りトラクタブルな辺化をサポートしていないことを証明する一方、画像サイズが大きい分類変数を負の重みを持つPCとしてモデル化できることが示される。
これらは、引き分け可能なマージン化を可能にする。
この意味で、負の重みを持つPCは、厳密な PGC を仮定する。
Zhang et al. (ICML 2021, PLMR 139, pp. 12447-1245) introduced probabilistic generating circuits (PGCs) as a probabilistic model to unify probabilistic circuits (PCs) and determinantal point processes (DPPs). At a first glance, PGCs store a distribution in a very different way, they compute the probability generating polynomial instead of the probability mass function and it seems that this is the main reason why PGCs are more powerful than PCs or DPPs. However, PGCs also allow for negative weights, whereas classical PCs assume that all weights are nonnegative. One of the main insights of our paper is that the negative weights are responsible for the power of PGCs and not the different representation. PGCs are PCs in disguise, in particular, we show how to transform any PGC into a PC with negative weights with only polynomial blowup. PGCs were defined by Zhang et al. only for binary random variables. As our second main result, we show that there is a good reason for this: we prove that PGCs for categorial variables with larger image size do not support tractable marginalization unless NP = P. On the other hand, we show that we can model categorial variables with larger image size as PC with negative weights computing set-multilinear polynomials. These allow for tractable marginalization. In this sense, PCs with negative weights strictly subsume PGCs. | 翻訳日:2024-04-07 23:07:46 公開日:2024-03-04 |
# サイバー犯罪とオンライン詐欺における良心の武器化 : 新しいシステム理論
Weaponization of Conscience in Cybercrime and Online Fraud: A Novel Systems Theory ( http://arxiv.org/abs/2403.14667v1 ) ライセンス: Link先を確認 | Michelle Espinoza, | (参考訳) 本論では, 詐欺師が行為を偽装したり, 他人を強要したり, 被害者を欺いたりするための, 複雑なシステムと戦術としての良心の武器化の概念を紹介する。
本研究は、軍事プロパガンダと心理学的操作原理の理論的基盤から導かれる概念的アプローチを採用し、良心の兵器化に対する理解と防御のためのレンズとして機能させる。
This article introduces the concept of weaponization of conscience as a complex system and tactic employed by fraudsters to camouflage their activity, coerce others, or to deceive their victims. This study adopts a conceptual approach, drawing from the theoretical underpinnings of military propaganda and psychological operations doctrines and adapting them to serve as a lens through which to understand and defend against weaponization of conscience. | 翻訳日:2024-04-01 03:43:10 公開日:2024-03-04 |
# 大規模言語モデルによる学習性能予測 : 成人リテラシーの研究
Predicting Learning Performance with Large Language Models: A Study in Adult Literacy ( http://arxiv.org/abs/2403.14668v1 ) ライセンス: Link先を確認 | Liang Zhang, Jionghao Lin, Conrad Borchers, John Sabatini, John Hollander, Meng Cao, Xiangen Hu, | (参考訳) 知的学習システム(ITS)は、社会参加、雇用機会、生涯学習の重要な要素である成人リテラシー教育を著しく強化した。
GPT-4のような大規模言語モデル(LLM)を含む先進AIモデルの、ITSにおける成人リテラシープログラムにおける学習性能予測への応用について検討した。
本研究の動機は,LLMが固有の推論と計算能力に基づいて学習性能を予測することにある。
ITS, AutoTutor からの理解データセットを読み取ることにより, 5倍のクロスバリデーション手法による学習性能の予測において, GPT-4 と従来の機械学習手法の予測能力を評価する。
その結果,GPT-4は,ベイズ的知識追跡,性能因子分析,スパース因子分析リテラル(SPARFA-Lite),テンソル因子化,eXtreme Gradient Boosting(XGBoost)といった従来の機械学習手法と競合する予測能力を示すことがわかった。
XGBoost(ローカルマシンでトレーニング)はGPT-4よりも予測精度が高いが、GPT-4の選択したXGBoostとその後のGPT-4プラットフォームでのチューニングは、ローカルマシンの実行よりも優れたパフォーマンスを示している。
さらに,GPT-4とグリッド検索によるハイパーパラメータチューニングの検討では,XGBoostをケーススタディとして,自動化アプローチの安定性が低いにもかかわらず,同等の性能が示唆された。
我々の研究は、予測精度を高め、成人リテラシー教育をパーソナライズするために、従来の機械学習モデルとLCMを統合する可能性を強調し、将来の研究の基盤をITSに組み込むことによって、この分野に貢献する。
Intelligent Tutoring Systems (ITSs) have significantly enhanced adult literacy training, a key factor for societal participation, employment opportunities, and lifelong learning. Our study investigates the application of advanced AI models, including Large Language Models (LLMs) like GPT-4, for predicting learning performance in adult literacy programs in ITSs. This research is motivated by the potential of LLMs to predict learning performance based on its inherent reasoning and computational capabilities. By using reading comprehension datasets from the ITS, AutoTutor, we evaluate the predictive capabilities of GPT-4 versus traditional machine learning methods in predicting learning performance through five-fold cross-validation techniques. Our findings show that the GPT-4 presents the competitive predictive abilities with traditional machine learning methods such as Bayesian Knowledge Tracing, Performance Factor Analysis, Sparse Factor Analysis Lite (SPARFA-Lite), tensor factorization and eXtreme Gradient Boosting (XGBoost). While XGBoost (trained on local machine) outperforms GPT-4 in predictive accuracy, GPT-4-selected XGBoost and its subsequent tuning on the GPT-4 platform demonstrates superior performance compared to local machine execution. Moreover, our investigation into hyper-parameter tuning by GPT-4 versus grid-search suggests comparable performance, albeit with less stability in the automated approach, using XGBoost as the case study. Our study contributes to the field by highlighting the potential of integrating LLMs with traditional machine learning models to enhance predictive accuracy and personalize adult literacy education, setting a foundation for future research in applying LLMs within ITSs. | 翻訳日:2024-04-01 03:43:10 公開日:2024-03-04 |
# POLARISを用いたシカゴ地域の移動・技術・需要シナリオの大規模評価
Large-Scale Evaluation of Mobility, Technology and Demand Scenarios in the Chicago Region Using POLARIS ( http://arxiv.org/abs/2403.14669v1 ) ライセンス: Link先を確認 | Joshua Auld, Jamie Cook, Krishna Murthy Gurumurthy, Nazmul Khan, Charbel Mansour, Aymeric Rousseau, Olcay Sahin, Felipe de Souza, Omer Verbas, Natalia Zuniga-Garcia, | (参考訳) 車両のコネクティビティ、自動化、電気化、新しい共有および代替モビリティのモード、高度な輸送システム需要と供給管理戦略といった分野での急速な技術進歩と革新は、主要なパフォーマンスと株価指標に対する潜在的な影響に関する多くの疑問と研究を動機付けている。
これらの開発領域のいくつかは、渋滞の減少や旅行時間といった全体的な利益に対して相乗効果があるかもしれないし、そうでないかもしれない。
本研究では,活動に基づくエージェントベースの旅行需要予測ツールPOLARISを中心としたエンドツーエンドのモデリングワークフローの利用について検討し,シカゴ地域での様々な技術展開と運用方針の効果について考察した。
この研究の目的は、直接的な影響を探究し、様々な政策と技術シナリオ間の相互作用を観察し、将来の利益をより正確に評価することであった。
本研究では,Eコマースとオンデマンド配送契約によって定義されたさまざまな需要シナリオに対する供給介入(混雑価格,輸送拡大,Tncポリシ,オフアワー貨物ポリシー,接続信号最適化)と,電気自動車の市場浸透を考慮した実験のシナリオ設計のための,モビリティ,エネルギ,エネルギ,エネルギ,エネルギ,エコノミクス,および全体的な効率に関するシステム成果指標を分析した。
さまざまなメトリクスの優先順位によって、全体の移動時間を7%に削減し、システムの効率を最大53%向上できる戦略の組み合わせを見つけました。
その結果、様々な介入を共同で検討することの重要性が示された。
Rapid technological progress and innovation in the areas of vehicle connectivity, automation and electrification, new modes of shared and alternative mobility, and advanced transportation system demand and supply management strategies, have motivated numerous questions and studies regarding the potential impact on key performance and equity metrics. Several of these areas of development may or may not have a synergistic outcome on the overall benefits such as reduction in congestion and travel times. In this study, the use of an end-to-end modeling workflow centered around an activity-based agent-based travel demand forecasting tool called POLARIS is explored to provide insights on the effects of several different technology deployments and operational policies in combination for the Chicago region. The objective of the research was to explore the direct impacts and observe any interactions between the various policy and technology scenarios to help better characterize and evaluate their potential future benefits. We analyze system outcome metrics on mobility, energy and emissions, equity and environmental justice and overall efficiency for a scenario design of experiments that looks at combinations of supply interventions (congestion pricing, transit expansion, tnc policy, off-hours freight policy, connected signal optimization) for different potential demand scenarios defined by e-commerce and on-demand delivery engagement, and market penetration of electric vehicles. We found different combinations of strategies that can reduce overall travel times up to 7% and increase system efficiency up to 53% depending on how various metrics are prioritized. The results demonstrate the importance of considering various interventions jointly. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-04 |
# JEP-KD:視覚音声認識のための予測アーキテクチャに基づく知識蒸留
JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition ( http://arxiv.org/abs/2403.18843v1 ) ライセンス: Link先を確認 | Chang Sun, Hong Yang, Bo Qin, | (参考訳) 視覚音声認識(VSR)タスクは、視覚的に意味情報を伝達する固有の制限のため、一般的には、自動音声認識(ASR)よりも理論的性能天井が低いと認識される。
そこで本研究では,JEP-KD(Joint-Embedding Predictive Architecture)と名づけられたJEP-KD(Joint-Embedding Predictive Architecture)を用いた高度な知識蒸留手法を提案する。
JEP-KDの中心は、埋め込み層に生成ネットワークを組み込むことで、ビデオエンコーダのセマンティックな特徴抽出能力を高め、事前訓練されたASRモデルのエンコーダのオーディオ機能と密に連携させる。
このアプローチは、VSRとASRのパフォーマンスギャップを徐々に小さくすることを目的としている。
また、JEP-KDフレームワークのための総合的なマルチモーダル・マルチステージトレーニング体制を確立し、トレーニングプロセスの堅牢性と有効性を高める。
実験の結果、JEP-KDはVSRモデルの性能を大幅に改善し、異なるVSRプラットフォーム間での汎用性を実証し、他のマルチモーダルタスクにおける広範なアプリケーションの可能性を示している。
Visual Speech Recognition (VSR) tasks are generally recognized to have a lower theoretical performance ceiling than Automatic Speech Recognition (ASR), owing to the inherent limitations of conveying semantic information visually. To mitigate this challenge, this paper introduces an advanced knowledge distillation approach using a Joint-Embedding Predictive Architecture (JEPA), named JEP-KD, designed to more effectively utilize audio features during model training. Central to JEP-KD is the inclusion of a generative network within the embedding layer, which enhances the video encoder's capacity for semantic feature extraction and brings it into closer alignment with the audio features from a pre-trained ASR model's encoder. This approach aims to progressively reduce the performance gap between VSR and ASR. Moreover, a comprehensive multimodal, multistage training regimen for the JEP-KD framework is established, bolstering the robustness and efficacy of the training process. Experiment results demonstrate that JEP-KD significantly improves the performance of VSR models and demonstrates versatility across different VSR platforms, indicating its potential for broader application within other multimodal tasks. | 翻訳日:2024-04-01 02:25:04 公開日:2024-03-04 |
# 動的システムの高精度かつ効率的な予測のためのハイブリッド化と次世代貯留層計算
Hybridizing Traditional and Next-Generation Reservoir Computing to Accurately and Efficiently Forecast Dynamical Systems ( http://arxiv.org/abs/2403.18953v1 ) ライセンス: Link先を確認 | Ravi Chepuri, Dael Amzalag, Thomas Antonsen Jr., Michelle Girvan, | (参考訳) Reservoir Computer (RC) は時系列予測のための強力な機械学習アーキテクチャである。
近年,次世代貯水池コンピュータ (NGRC) が登場し,計算コストの削減やデータ要求の低減など,RCに対して明確な優位性を提供している。
しかし、NGRCはデータ中のサンプリング時間に対する感度や非線形性のタイプなど、RCとは異なる実践的な難しさを持っている。
本稿では,複雑・カオス力学系の時系列予測のためのハイブリッドRC-NGRC手法を提案する。
我々のハイブリッドアプローチは, RC と NGRC のコンポーネントだけでは不十分な状況下で, 短時間の予測を正確に生成し, 力学系の長期統計を捉えることができることを示す。
ハイブリッドRC-NGRCアプローチの利点は、両方のコンポーネントが予測能力に制限されている場合に最も顕著である。
これらの条件下では, 小型貯水池を用いたハイブリッドRC-NGRC法(N \approx 100$)が, はるかに大きな貯水池を有する純粋なRCに匹敵する予測性能(N \approx 1000$)を達成できることを示す。
Reservoir computers (RCs) are powerful machine learning architectures for time series prediction. Recently, next generation reservoir computers (NGRCs) have been introduced, offering distinct advantages over RCs, such as reduced computational expense and lower data requirements. However, NGRCs have their own practical difficulties distinct from those of RCs, including sensitivity to sampling time and type of nonlinearities in the data. Here, we introduce a hybrid RC-NGRC approach for time series forecasting of complex and chaotic dynamical systems. We show that our hybrid approach can produce accurate short term predictions and capture the long term statistics of dynamical systems in situations where the RC and NGRC components alone are insufficient. The advantage of the hybrid RC-NGRC approach is most pronounced when both components are limited in their prediction capabilities, e.g. for a small RC and a large sampling time in the training data. Under these conditions, we show for several chaotic systems that the hybrid RC-NGRC method with a small reservoir ($N \approx 100$) can achieve prediction performance rivaling that of a pure RC with a much larger reservoir ($N \approx 1000$), illustrating that the hybrid approach offers significant gains in computational efficiency over traditional RCs while simultaneously addressing some of the limitations of NGRCs. | 翻訳日:2024-04-01 02:25:04 公開日:2024-03-04 |
# BaCon: バランスのとれた特徴レベルのコントラスト学習による非バランスな半教師あり学習の促進
BaCon: Boosting Imbalanced Semi-supervised Learning via Balanced Feature-Level Contrastive Learning ( http://arxiv.org/abs/2403.12986v1 ) ライセンス: Link先を確認 | Qianhan Feng, Lujing Xie, Shijie Fang, Tong Lin, | (参考訳) 半教師付き学習(SSL)は、ディープラーニングにおける広範なアノテーションの必要性を減らしますが、SSLにおける不均衡なデータ分散のより現実的な課題は、まだ明らかにされていません。
クラス不均衡半教師学習(CISSL)では、信頼できない擬似ラベルによって引き起こされるバイアスは、不均衡なデータ分布によって悪化させることができる。
既存のほとんどのメソッドは、再重み付けや再サンプリングを通じて、インスタンスレベルでこの問題に対処するが、パフォーマンスはバイアス付きバックボーン表現に依存しているため、非常に制限されている。
その他の方法は、機能ブレンディングのような機能レベルの調整を行うが、好ましくないノイズをもたらす可能性がある。
本稿では、CISSL問題に対するよりバランスのとれた特徴分布のボーナスについて論じ、さらにバランスのとれた特徴レベルコントラスト学習法(BaCon)を提案する。
提案手法は、よく設計されたコントラスト的な方法で、インスタンスの表現の分布を直接正規化する。
特に、クラスワイドの特徴中心は正のアンカーとして計算され、負のアンカーは単純で効果的なメカニズムによって選択される。
分布関連温度調整を利用して、クラスワイドコントラストの度合いを動的に制御する。
提案手法は, CIFAR10-LT, CIFAR100-LT, STL10-LT, SVHN-LTデータセットを様々な設定で包括的に実験することにより, その有効性を示す。
例えば、BaConはCIFAR10-LTのインスタンスレベルのFixMatchベースのABCを1.21%の精度で上回り、CIFAR100-LTのCoSSLの精度は0.63%向上した。
より極端な不均衡の度合いに直面すると、BaConは他の方法よりも堅牢性も向上する。
Semi-supervised Learning (SSL) reduces the need for extensive annotations in deep learning, but the more realistic challenge of imbalanced data distribution in SSL remains largely unexplored. In Class Imbalanced Semi-supervised Learning (CISSL), the bias introduced by unreliable pseudo-labels can be exacerbated by imbalanced data distributions. Most existing methods address this issue at instance-level through reweighting or resampling, but the performance is heavily limited by their reliance on biased backbone representation. Some other methods do perform feature-level adjustments like feature blending but might introduce unfavorable noise. In this paper, we discuss the bonus of a more balanced feature distribution for the CISSL problem, and further propose a Balanced Feature-Level Contrastive Learning method (BaCon). Our method directly regularizes the distribution of instances' representations in a well-designed contrastive manner. Specifically, class-wise feature centers are computed as the positive anchors, while negative anchors are selected by a straightforward yet effective mechanism. A distribution-related temperature adjustment is leveraged to control the class-wise contrastive degrees dynamically. Our method demonstrates its effectiveness through comprehensive experiments on the CIFAR10-LT, CIFAR100-LT, STL10-LT, and SVHN-LT datasets across various settings. For example, BaCon surpasses instance-level method FixMatch-based ABC on CIFAR10-LT with a 1.21% accuracy improvement, and outperforms state-of-the-art feature-level method CoSSL on CIFAR100-LT with a 0.63% accuracy improvement. When encountering more extreme imbalance degree, BaCon also shows better robustness than other methods. | 翻訳日:2024-03-25 07:27:10 公開日:2024-03-04 |
# SBDDにおける特異性の再考 - デルタスコアの活用とエネルギー誘導拡散
Rethinking Specificity in SBDD: Leveraging Delta Score and Energy-Guided Diffusion ( http://arxiv.org/abs/2403.12987v1 ) ライセンス: Link先を確認 | Bowen Gao, Minsi Ren, Yuyan Ni, Yanwen Huang, Bo Qiang, Zhi-Ming Ma, Wei-Ying Ma, Yanyan Lan, | (参考訳) SBDD(Structure-based Drug Design)の分野では、ドッキングスコア(ドッキングスコア)の観点から、ディープラーニングベースの生成モデルは優れたパフォーマンスを実現している。
しかし、さらなる研究により、既存の分子生成法とドッキングスコアの両方が特異性の観点から考慮されていないことが示され、これは生成分子が親和性が高いほとんど全てのタンパク質ポケットに結合していることを意味する。
そこで本研究では,分子結合の特異性を評価するための新しい指標であるDelta Scoreを紹介する。
生成のためのこの知見をさらに取り入れるために,活性化合物をデコイとする対照的な学習を用いた革新的なエネルギー誘導アプローチを開発し,高い特異性を持つ分子の創出に向けての生成モデルを誘導する。
実験の結果,本手法はデルタスコアを向上するだけでなく,従来のドッキングスコアを維持・改善し,SBDDと現実世界のニーズのギャップを埋めることに成功した。
In the field of Structure-based Drug Design (SBDD), deep learning-based generative models have achieved outstanding performance in terms of docking score. However, further study shows that the existing molecular generative methods and docking scores both have lacked consideration in terms of specificity, which means that generated molecules bind to almost every protein pocket with high affinity. To address this, we introduce the Delta Score, a new metric for evaluating the specificity of molecular binding. To further incorporate this insight for generation, we develop an innovative energy-guided approach using contrastive learning, with active compounds as decoys, to direct generative models toward creating molecules with high specificity. Our empirical results show that this method not only enhances the delta score but also maintains or improves traditional docking scores, successfully bridging the gap between SBDD and real-world needs. | 翻訳日:2024-03-25 07:27:10 公開日:2024-03-04 |
# 対向的パッチ攻撃に対する物体検出・分類AIモデルのロバスト性の改善
Improving the Robustness of Object Detection and Classification AI models against Adversarial Patch Attacks ( http://arxiv.org/abs/2403.12988v1 ) ライセンス: Link先を確認 | Roie Kazoom, Raz Birman, Ofer Hadar, | (参考訳) ディープニューラルネットワーク(DNN)の整合性を損なうために開発された敵パッチ攻撃は、オブジェクト検出と分類タスクのために設計された人工知能(AI)システムに大きな影響を及ぼす。
この研究の主な目的は、オブジェクトの検出と分類をターゲットとする現実世界の物理的攻撃からモデルを守ることである。
我々は攻撃手法を解析し、堅牢な防御手法を提案する。
我々は,物体形状,テクスチャ,位置を利用する逆パッチ攻撃を用いて,モデル信頼度を20%以上下げることに成功した。
塗装前処理技術を活用して、元の信頼性レベルを効果的に復元し、これらの脅威を緩和する堅牢な防御の重要性を実証する。
交通標識分類のためのAIモデルを微調整した後、我々はこれをシミュレートしたパッチベースの物理的逆境攻撃に適応し、誤分類をおこなった。
敵攻撃にも拘わらず,本手法はモデルレジリエンスを著しく向上させ,高精度かつ信頼性の高いローカライゼーションを実現している。
この貢献により、敵の課題に対するオブジェクト検出と分類ネットワークのレジリエンスと信頼性が向上し、重要なアプリケーションのための堅牢な基盤を提供する。
Adversarial patch attacks, crafted to compromise the integrity of Deep Neural Networks (DNNs), significantly impact Artificial Intelligence (AI) systems designed for object detection and classification tasks. The primary purpose of this work is to defend models against real-world physical attacks that target object detection and classification. We analyze attack techniques and propose a robust defense approach. We successfully reduce model confidence by over 20% using adversarial patch attacks that exploit object shape, texture and position. Leveraging the inpainting pre-processing technique, we effectively restore the original confidence levels, demonstrating the importance of robust defenses in mitigating these threats. Following fine-tuning of an AI model for traffic sign classification, we subjected it to a simulated pixelized patch-based physical adversarial attack, resulting in misclassifications. Our inpainting defense approach significantly enhances model resilience, achieving high accuracy and reliable localization despite the adversarial attacks. This contribution advances the resilience and reliability of object detection and classification networks against adversarial challenges, providing a robust foundation for critical applications. | 翻訳日:2024-03-25 07:27:10 公開日:2024-03-04 |
# シューティングスタイルと攻撃的役割に基づくクラスタリング選手によるバスケットボールの攻撃的ラインアップ解析
Offensive Lineup Analysis in Basketball with Clustering Players Based on Shooting Style and Offensive Role ( http://arxiv.org/abs/2403.13821v1 ) ライセンス: Link先を確認 | Kazuhiro Yamada, Keisuke Fujii, | (参考訳) バスケットボールの試合では、得点効率はゲーム当たりの多くの攻撃的所有のために重要な意味を持つ。
スコアリング効率を向上させるには、多様なプレースタイルを持つプレイヤー間の効果的なコラボレーションが必要である。
これまでの研究では,バスケットボールのラインナップが分析されているが,その演奏スタイルの適合性は定量的に検討されていない。
本研究の目的は,演奏スタイルの整合性がスコアリング効率に与える影響を,攻撃のみに焦点をあてて,より具体的に分析することである。
本研究では、追跡データを用いたシューティングスタイルクラスタリングと、アノテートされたプレイタイプと高度な統計に基づく攻撃的なロールクラスタリングの2つの方法を用いる。
前者には、解釈可能な手作りショットの特徴と、射撃スタイルの分布間のワッサーシュタイン距離が利用された。
後者では、初めてソフトクラスタリングがプレイタイプデータに適用された。
その後、これらの2つのクラスタリングから得られたラインアップ情報に基づいて、スコアリング効率を表す統計を予測した機械学習モデルベイズモデルを訓練し、解釈した。
これらの手法は、5人のプレイヤーの組み合わせがどの効果をもたらすか、どのプレイヤーの組み合わせが良い効果をもたらすかという洞察を与える。
In a basketball game, scoring efficiency holds significant importance due to the numerous offensive possessions per game. Enhancing scoring efficiency necessitates effective collaboration among players with diverse playing styles. In previous studies, basketball lineups have been analyzed, but their playing style compatibility has not been quantitatively examined. The purpose of this study is to analyze more specifically the impact of playing style compatibility on scoring efficiency, focusing only on offense. This study employs two methods to capture the playing styles of players on offense: shooting style clustering using tracking data, and offensive role clustering based on annotated playtypes and advanced statistics. For the former, interpretable hand-crafted shot features and Wasserstein distances between shooting style distributions were utilized. For the latter, soft clustering was applied to playtype data for the first time. Subsequently, based on the lineup information derived from these two clusterings, machine learning models Bayesian models that predict statistics representing scoring efficiency were trained and interpreted. These approaches provide insights into which combinations of five players tend to be effective and which combinations of two players tend to produce good effects. | 翻訳日:2024-03-25 07:07:37 公開日:2024-03-04 |
# 一般化帰納的因数分解問題
Generalized Implicit Factorization Problem ( http://arxiv.org/abs/2304.08718v3 ) ライセンス: Link先を確認 | Yansong Feng, Abderrahmane Nitaj, Yanbin Pan, | (参考訳) Implicit Factorization Problem は 5 と Ritzenhofen が PKC'09 で最初に導入した。
この問題は、2つのRSA moduli $N_1=p_1q_1$ と $N_2=p_2q_2$ を素因子が最小有意ビット数(LSB)を共有するときに分解することを目的としている。
彼らはこの問題に対処する格子ベースのアルゴリズムを提案し、それを$k>2$ RSA moduli に拡張した。
それ以来、$p_1$と$p_2$がいくつかの重要なビット(MSB)を共有する場合や、中間ビット、MSBとLSBを同じ位置に共有する場合など、Implicit Factorization Problemのいくつかのバリエーションが研究されている。
本稿では,異なる素数に対して,共有ビットが異なる位置,未知の位置にある不特定因数分解問題のより一般的な事例について検討する。
格子に基づくアルゴリズムを提案し,その効率を一定の条件下で解析する。
分析を支援するために実験結果も提示する。
The Implicit Factorization Problem was first introduced by May and Ritzenhofen at PKC'09. This problem aims to factorize two RSA moduli $N_1=p_1q_1$ and $N_2=p_2q_2$ when their prime factors share a certain number of least significant bits (LSBs). They proposed a lattice-based algorithm to tackle this problem and extended it to cover $k>2$ RSA moduli. Since then, several variations of the Implicit Factorization Problem have been studied, including the cases where $p_1$ and $p_2$ share some most significant bits (MSBs), middle bits, or both MSBs and LSBs at the same position. In this paper, we explore a more general case of the Implicit Factorization Problem, where the shared bits are located at different and unknown positions for different primes. We propose a lattice-based algorithm and analyze its efficiency under certain conditions. We also present experimental results to support our analysis. | 翻訳日:2024-03-17 17:20:31 公開日:2024-03-04 |
# サム, カウント, 投票のためのプライベート, 効率的, 最適K-ノルムおよび楕円型ガウスノイズ
Private, Efficient, and Optimal K-Norm and Elliptic Gaussian Noise For Sum, Count, and Vote ( http://arxiv.org/abs/2309.15790v2 ) ライセンス: Link先を確認 | Matthew Joseph, Alexander Yu, | (参考訳) 微分プライベートな計算は、ある$d$次元統計学の$\ell_p$感度に束縛されて始まることが多い。
純粋な微分プライバシーのために、$K$-normメカニズムは統計学的(そしておそらくは非$$\ell_p$)ノルムを使ってこのアプローチを改善することができる。
しかし、そのようなメカニズムをサンプリングするには、対応する標準球からのサンプリングが必要である。
これらは$d$次元凸多面体であり、既知の最も高速な一般サンプリングアルゴリズムは$\tilde O(d^{3+\omega})$であり、$\omega \geq 2$は行列乗法指数である。
偏微分プライバシーのためには、楕円型ガウスノイズは球状ガウスノイズよりも類似した改善をもたらすが、問題固有の楕円型ノイズを計算する一般的な方法は、各インスタンスに対して半定値プログラムを解く必要がある。
本稿では, 総和, カウント, 投票の単純な問題について考察し, 両方の設定においてより高速なアルゴリズムを提供する。
我々は、最適偏微分プライベートな$K$-norm機構サンプリング器を構築し、最適な偏微分プライベートなガウス雑音に対する閉形式式を導出する。
それらのランタイムはそれぞれ$\tilde O(d^2)$と$O(1)$であり、結果のアルゴリズムはすべて有意義な精度の改善をもたらす。
より広範に、問題固有の感度空間解析は、個人的な付加音に対する見落とされがちなツールである可能性が示唆された。
Differentially private computation often begins with a bound on some $d$-dimensional statistic's $\ell_p$ sensitivity. For pure differential privacy, the $K$-norm mechanism can improve on this approach using statistic-specific (and possibly non-$\ell_p$) norms. However, sampling such mechanisms requires sampling from the corresponding norm balls. These are $d$-dimensional convex polytopes, for which the fastest known general sampling algorithm takes time $\tilde O(d^{3+\omega})$, where $\omega \geq 2$ is the matrix multiplication exponent. For concentrated differential privacy, elliptic Gaussian noise offers similar improvement over spherical Gaussian noise, but the general method for computing the problem-specific elliptic noise requires solving a semidefinite program for each instance. This paper considers the simple problems of sum, count, and vote and provides faster algorithms in both settings. We construct optimal pure differentially private $K$-norm mechanism samplers and derive closed-form expressions for optimal concentrated differentially private elliptic Gaussian noise. Their runtimes are, respectively, $\tilde O(d^2)$ and $O(1)$, and the resulting algorithms all yield meaningful accuracy improvements. More broadly, we suggest that problem-specific sensitivity space analysis may be an overlooked tool for private additive noise. | 翻訳日:2024-03-17 17:10:47 公開日:2024-03-04 |
# 反復多項式系に対するDegree境界の解法
Solving Degree Bounds For Iterated Polynomial Systems ( http://arxiv.org/abs/2310.03637v2 ) ライセンス: Link先を確認 | Matthias Johann Steiner, | (参考訳) Arithmetization-Oriented暗号とハッシュ関数について、Gr\"オブナーベースアタックは、一般的に最も競争力のあるアタックベクターであると考えられている。
残念ながら、Gr\"オブナー基底アルゴリズムの複雑さは特別な場合のみ理解されており、これらの場合がほとんどの暗号多項式系には適用されないことは言うまでもない。
そのため、暗号学者は、設計の安全性を評価するために、実験、外挿、仮説に頼らなければならない。
線形代数ベースのGr\"オブナー基底アルゴリズムの複雑さを定量化するための確立された尺度は、いわゆる解次数である。
カミナタ・アンド・ゴラは、多項式系上のある一般性条件の下では、解次数は常にカステルヌオボ・マンフォード正則性によって上界であり、従ってマコーレー境界(英語版)(Macaulay bound)によって下界され、入力多項式の次数と変数の数だけを考慮に入れている。
本稿では、その枠組みを対称暗号とハッシュ関数の標準多項式モデルである反復多項式系に拡張する。
特に、MIMC、Feistel-MiMC、Feistel-MiMC-Hash、Hades、GMiMCに対する様々な攻撃に対する解度境界を証明した。
我々の境界は、これらの設計に対する「Gr\」基本攻撃の仮定された複雑さと一致しており、我々の知る限り、これらの複雑さの数学的証明が提供されるのはこれが初めてである。
さらに、次数降下の多項式を研究することで、対応する反復多項式系のいくつかの解が基底場に由来することを条件に、MIMC, Feistel-MiMC および Feistel-MiMC-Hash に対する攻撃に対するカステルヌオボ-マンフォード正則性の低い境界を証明できる。
したがって、正則性に基づく解度推定は、暗号多項式系において望ましい性質である特定のしきい値を超えることは決してできない。
For Arithmetization-Oriented ciphers and hash functions Gr\"obner basis attacks are generally considered as the most competitive attack vector. Unfortunately, the complexity of Gr\"obner basis algorithms is only understood for special cases, and it is needless to say that these cases do not apply to most cryptographic polynomial systems. Therefore, cryptographers have to resort to experiments, extrapolations and hypotheses to assess the security of their designs. One established measure to quantify the complexity of linear algebra-based Gr\"obner basis algorithms is the so-called solving degree. Caminata \& Gorla revealed that under a certain genericity condition on a polynomial system the solving degree is always upper bounded by the Castelnuovo-Mumford regularity and henceforth by the Macaulay bound, which only takes the degrees and number of variables of the input polynomials into account. In this paper we extend their framework to iterated polynomial systems, the standard polynomial model for symmetric ciphers and hash functions. In particular, we prove solving degree bounds for various attacks on MiMC, Feistel-MiMC, Feistel-MiMC-Hash, Hades and GMiMC. Our bounds fall in line with the hypothesized complexity of Gr\"obner basis attacks on these designs, and to the best of our knowledge this is the first time that a mathematical proof for these complexities is provided. Moreover, by studying polynomials with degree falls we can prove lower bounds on the Castelnuovo-Mumford regularity for attacks on MiMC, Feistel-MiMC and Feistel-MiMC-Hash provided that only a few solutions of the corresponding iterated polynomial system originate from the base field. Hence, regularity-based solving degree estimations can never surpass a certain threshold, a desirable property for cryptographic polynomial systems. | 翻訳日:2024-03-17 17:10:47 公開日:2024-03-04 |
# データ駆動によるモバイルVPNサービスSwitching Preferencesの理解
"I just hated it and I want my money back": Data-driven Understanding of Mobile VPN Service Switching Preferences in The Wild ( http://arxiv.org/abs/2403.01648v1 ) ライセンス: Link先を確認 | Rohit Raj, Mridul Newar, Mainack Mondal, | (参考訳) VPN(Virtual Private Networks)は、数百万のユーザが利用し、世界中の複数のVPNプロバイダが利用している、重要なプライバシ・エンハンシング技術(PET)である。
その目的のために、以前の研究ではVPNユーザの使用、認識、採用、およびプロバイダの認識について検討した。
しかし、VPNプロバイダ間の切り替えの理由や、ユーザのVPNエクスペリエンスを向上すると思われる機能について、現時点では調査されていない。
この作業は、このギャップを埋めることを目的としており、VPNから他のVPNへ切り替える際、既存のユーザーを駆り立てる基本的な要因に光を当てている。
この研究では、主要なVPNアプリ20の13万件以上のレビューを分析し、1,305件の明示的な言及と切り替えの意図を特定しました。
NLPに基づく分析では、ユーザが切り替える動機となる要因の異なるクラスタが明らかになりました。
6つの人気のあるVPNレコメンデーションサイトから376のブログを調べたところ、コンテンツに偏りが見られ、ユーザの好みに無関心であることが判明した。
私たちは、異なる利害関係者に対する作業の重要な意味を特定して結論付けます。
この作業のデータとコードはhttps://github.com/Mainack/switch-vpn-datacode-sec24で公開されている。
Virtual Private Networks (VPNs) are a crucial Privacy-Enhancing Technology (PET) leveraged by millions of users and catered by multiple VPN providers worldwide; thus, understanding the user preferences for the choice of VPN apps should be of importance and interest to the security community. To that end, prior studies looked into the usage, awareness and adoption of VPN users and the perceptions of providers. However, no study so far has looked into the user preferences and underlying reasons for switching among VPN providers and identified features that presumably enhance users' VPN experience. This work aims to bridge this gap and shed light on the underlying factors that drive existing users when they switch from one VPN to another. In this work, we analyzed over 1.3 million reviews from 20 leading VPN apps, identifying 1,305 explicit mentions and intents to switch. Our NLP-based analysis unveiled distinct clusters of factors motivating users to switch. An examination of 376 blogs from six popular VPN recommendation sites revealed biases in the content, and we found ignorance towards user preferences. We conclude by identifying the key implications of our work for different stakeholders. The data and code for this work is available at https://github.com/Mainack/switch-vpn-datacode-sec24. | 翻訳日:2024-03-17 17:10:47 公開日:2024-03-04 |
# DECOR: マシンラーニングベースの攻撃に対するロジックロックの強化
DECOR: Enhancing Logic Locking Against Machine Learning-Based Attacks ( http://arxiv.org/abs/2403.01789v1 ) ライセンス: Link先を確認 | Yinghua Hu, Kaixin Yang, Subhajit Dutta Chowdhury, Pierluigi Nuzzo, | (参考訳) 論理ロック(LL)は集積回路の有望な知的財産保護対策として注目されている。
しかし、機械学習(ML)による最近の攻撃は、正しい鍵値と回路構造との相関を利用して、複数のLLスキームにおいて正しい鍵を予測する可能性を示している。
本稿では、LL方式におけるロックされた回路網リストと正しい鍵値との相関を著しく低減できるランダム化アルゴリズムに基づく汎用LL拡張手法を提案する。
その結果,提案手法は,最先端のMLベースの攻撃の精度を50%程度まで下げることができ,ランダムな推測に対して無視可能な優位性が得られることがわかった。
Logic locking (LL) has gained attention as a promising intellectual property protection measure for integrated circuits. However, recent attacks, facilitated by machine learning (ML), have shown the potential to predict the correct key in multiple LL schemes by exploiting the correlation of the correct key value with the circuit structure. This paper presents a generic LL enhancement method based on a randomized algorithm that can significantly decrease the correlation between locked circuit netlist and correct key values in an LL scheme. Numerical results show that the proposed method can efficiently degrade the accuracy of state-of-the-art ML-based attacks down to around 50%, resulting in negligible advantage versus random guessing. | 翻訳日:2024-03-17 17:10:47 公開日:2024-03-04 |
# 産業侵入検知システムの展開課題
Deployment Challenges of Industrial Intrusion Detection Systems ( http://arxiv.org/abs/2403.01809v1 ) ライセンス: Link先を確認 | Konrad Wolsing, Eric Wagner, Frederik Basels, Patrick Wagner, Klaus Wehrle, | (参考訳) インダストリアル・コントロール・システムズ(ICS)に対するサイバー攻撃による脅威のエスカレートにより、カスタマイズされたインダストリアル・侵入検知システム(IIDS)の開発が研究で大きな注目を集めた。
既存の文献では、制御された環境で評価された効果的なIIDSソリューションを提案するが、実際の産業環境でのデプロイメントにはいくつかの課題がある。
本稿は,IIDSモデルのトレーニングに十分な量のデータが必要であること,特に真のICSデータのみを対象としたIIDSのトレーニングにおいて,適切なハイパーパラメータの発見に関わる課題について述べる。
複数の最先端IIDSと多種多様なデータセットで実施された実証実験を通じて、これらの課題がIIDSをデプロイする際の臨界点を確立する。
本研究は, 実産業環境における記録・ラベル付け攻撃の複雑さを考慮し, 監視型IIDSに対する広範囲にわたる悪意あるトレーニングデータの必要性を示唆するものである。
さらに、他のIIDSは、良心的なトレーニングデータのみを必要とすることで、以前の問題を回避しているが、これらは適切なハイパーパラメータを設定することの難しさに悩まされ、性能も低下する可能性がある。
これらの課題に光を当てることで、ICSに効果的なサイバーセキュリティソリューションを展開するために必要な制限と考慮事項の理解を深めることを目指しています。
With the escalating threats posed by cyberattacks on Industrial Control Systems (ICSs), the development of customized Industrial Intrusion Detection Systems (IIDSs) received significant attention in research. While existing literature proposes effective IIDS solutions evaluated in controlled environments, their deployment in real-world industrial settings poses several challenges. This paper highlights two critical yet often overlooked aspects that significantly impact their practical deployment, i.e., the need for sufficient amounts of data to train the IIDS models and the challenges associated with finding suitable hyperparameters, especially for IIDSs training only on genuine ICS data. Through empirical experiments conducted on multiple state-of-the-art IIDSs and diverse datasets, we establish the criticality of these issues in deploying IIDSs. Our findings show the necessity of extensive malicious training data for supervised IIDSs, which can be impractical considering the complexity of recording and labeling attacks in actual industrial environments. Furthermore, while other IIDSs circumvent the previous issue by requiring only benign training data, these can suffer from the difficulty of setting appropriate hyperparameters, which likewise can diminish their performance. By shedding light on these challenges, we aim to enhance the understanding of the limitations and considerations necessary for deploying effective cybersecurity solutions in ICSs, which might be one reason why IIDSs see few deployments. | 翻訳日:2024-03-17 17:10:47 公開日:2024-03-04 |
# MaliGNNoma: セキュアクラウドFPGAのためのGNNベースの悪意回路分類器
MaliGNNoma: GNN-Based Malicious Circuit Classifier for Secure Cloud FPGAs ( http://arxiv.org/abs/2403.01860v1 ) ライセンス: Link先を確認 | Lilas Alrahis, Hassan Nassar, Jonas Krautter, Dennis Gnad, Lars Bauer, Jorg Henkel, Mehdi Tahoori, | (参考訳) クラウドフィールドプログラミング可能なゲートアレイ(FPGA)のセキュリティは、悪意のある回路構成を通じて、障害およびサイドチャネル攻撃を試みる信頼できないユーザによる課題に直面している。
フォールトインジェクション攻撃は、サービスの否定、機能の破壊、秘密情報の漏洩につながる可能性がある。
この脅威は、マルチテナンシのシナリオでさらに増幅される。
FPGAにロードする前にそのような脅威を検出することは重要であるが、既存の手法では高度な攻撃を特定するのが困難である。
悪意のあるFPGA構成を正確に識別する機械学習ベースのソリューションであるMaliGNNomaを提案する。
ネットリストスキャニングメカニズムとして機能し、クラウドサービスプロバイダによって、必要なマルチ層セキュリティシステム内の初期セキュリティレイヤとして使用できる。
FPGAネットリスト固有のグラフ表現を活用することで、MaliGNNomaはグラフニューラルネットワーク(GNN)を使用して、現在のアプローチを超越した、独特な悪意のある特徴を学習する。
透明性を高めるために、MaliGNNomaはGNNのパラメータ化説明器を使用し、FPGAの構成をラベル付けし、悪意のある分類に責任を持つサブ回路をピンポイントする。
Xilinx UltraScale+ FPGAを用いたZCU102ボード上での広範囲な実験を通じて、暗号アクセラレータのような良性モジュールに基づくような高度な攻撃を含む悪意のある構成の検出におけるMaliGNNomaの有効性を検証する。
MaliGNNomaは、それぞれ98.24%と97.88%の分類精度と精度を達成し、最先端技術を上回っている。
我々は,MaliGNNomaと5つの最先端走査法を比較し,MaliGNNomaが検出した全ての攻撃ベクトルが既存のソリューションで認識されるわけではないことを明らかにし,その有効性を強調した。
さらに、MaliGNNomaとその関連するデータセットを公開しています。
The security of cloud field-programmable gate arrays (FPGAs) faces challenges from untrusted users attempting fault and side-channel attacks through malicious circuit configurations. Fault injection attacks can result in denial of service, disrupting functionality or leaking secret information. This threat is further amplified in multi-tenancy scenarios. Detecting such threats before loading onto the FPGA is crucial, but existing methods face difficulty identifying sophisticated attacks. We present MaliGNNoma, a machine learning-based solution that accurately identifies malicious FPGA configurations. Serving as a netlist scanning mechanism, it can be employed by cloud service providers as an initial security layer within a necessary multi-tiered security system. By leveraging the inherent graph representation of FPGA netlists, MaliGNNoma employs a graph neural network (GNN) to learn distinctive malicious features, surpassing current approaches. To enhance transparency, MaliGNNoma utilizes a parameterized explainer for the GNN, labeling the FPGA configuration and pinpointing the sub-circuit responsible for the malicious classification. Through extensive experimentation on the ZCU102 board with a Xilinx UltraScale+ FPGA, we validate the effectiveness of MaliGNNoma in detecting malicious configurations, including sophisticated attacks, such as those based on benign modules, like cryptography accelerators. MaliGNNoma achieves a classification accuracy and precision of 98.24% and 97.88%, respectively, surpassing state-of-the-art. We compare MaliGNNoma with five state-of-the-art scanning methods, revealing that not all attack vectors detected by MaliGNNoma are recognized by existing solutions, further emphasizing its effectiveness. Additionally, we make MaliGNNoma and its associated dataset publicly available. | 翻訳日:2024-03-17 17:10:47 公開日:2024-03-04 |
# MTS: 仮想ネットワークにマルチテナンシをもたらす
MTS: Bringing Multi-Tenancy to Virtual Networking ( http://arxiv.org/abs/2403.01862v1 ) ライセンス: Link先を確認 | Kashyap Thimmaraju, Saad Hermak, Gábor Rétvári, Stefan Schmid, | (参考訳) マルチテナントクラウドコンピューティングは、リソース共有、エラスティック価格、スケーラビリティの面で大きなメリットを提供するが、セキュリティの状況も変化し、ネットワーク内においてもテナント間の強力な隔離の必要性がもたらされる。
本論文は,マルチテナントがクラウドコンピューティングで広く利用されているが,ネットワーク仮想化に現在使用されている仮想スイッチ設計はテナント分離のための十分なサポートを欠いているという観察から動機付けられたものである。
したがって、マルチテナント仮想ネットワークのコンテキストに安全な設計のベストプラクティスをもたらす仮想スイッチアーキテクチャ MTS を提案し、実装し、評価する: 仮想スイッチの分割化、最小限のプライベート実行、全てのネットワーク通信の完全仲介、テナント間で共有される信頼性の高いコンピューティングベースを減らす。
私たちは、コモディティコンポーネントからMSSを構築し、段階的にデプロイ可能で安価なクラウドオペレーターへのアップグレードパスを提供します。
私たちの大規模な実験は、マイクロベンチマークとクラウドアプリケーションの両方に拡張され、デプロイ方法によっては、MTSが1.5~2倍のスループットを生み出す可能性があることを示しています。
MTSはオープンソースソフトウェアとして利用可能である。
Multi-tenant cloud computing provides great benefits in terms of resource sharing, elastic pricing, and scalability, however, it also changes the security landscape and introduces the need for strong isolation between the tenants, also inside the network. This paper is motivated by the observation that while multi-tenancy is widely used in cloud computing, the virtual switch designs currently used for network virtualization lack sufficient support for tenant isolation. Hence, we present, implement, and evaluate a virtual switch architecture, MTS, which brings secure design best-practice to the context of multi-tenant virtual networking: compartmentalization of virtual switches, least-privilege execution, complete mediation of all network communication, and reducing the trusted computing base shared between tenants. We build MTS from commodity components, providing an incrementally deployable and inexpensive upgrade path to cloud operators. Our extensive experiments, extending to both micro-benchmarks and cloud applications, show that, depending on the way it is deployed, MTS may produce 1.5-2x the throughput compared to state-of-the-art, with similar or better latency and modest resource overhead (1 extra CPU). MTS is available as open source software. | 翻訳日:2024-03-17 17:10:47 公開日:2024-03-04 |
# 5GコアネットワークWeb技術の浸透試験
Penetration Testing of 5G Core Network Web Technologies ( http://arxiv.org/abs/2403.01871v1 ) ライセンス: Link先を確認 | Filippo Giambartolomei, Marc Barceló, Alessandro Brighente, Aitor Urbieta, Mauro Conti, | (参考訳) 仮想ネットワーク機能のような技術のおかげで、モバイルネットワークの第5世代(5G)は、オンデマンドで異なるタイプのユーザにリソースを動的に割り当てる。
仮想化は5Gコアまで拡張され、そこではソフトウェア定義ネットワークとネットワークスライシングがカスタマイズ可能な環境を実装している。
これらの技術は、アプリケーションプログラミングインターフェースやWeb技術を介して制御することができ、それによってセキュリティリスクと設定を継承する。
5Gコアの脆弱な実装を利用する攻撃者は、ネットワーク資産を特権的に制御し、その可用性を損なう可能性がある。
しかし、現在5Gコアネットワークのウェブセキュリティに関するセキュリティ評価は行われていない。
本稿では,Webセキュリティの観点から,初めて5Gコアのセキュリティ評価を行う。
我々はSTRIDE脅威モデリングアプローチを用いて、脅威ベクトルと関連する攻撃の完全なリストを定義する。
一連のセキュリティテストツールのおかげで、これらの脅威をすべてカバーし、5Gコアのセキュリティをテストする。
特に、Open5GS、Free5Gc、OpenAirInterfaceの3つの重要なオープンソース5Gコア実装をテストする。
我々の分析によると、これらのコアは少なくとも2つの特定攻撃ベクトルに対して脆弱であり、将来の5Gコアネットワークの開発におけるセキュリティ対策の強化を要求されている。
Thanks to technologies such as virtual network function the Fifth Generation (5G) of mobile networks dynamically allocate resources to different types of users in an on-demand fashion. Virtualization extends up to the 5G core, where software-defined networks and network slicing implement a customizable environment. These technologies can be controlled via application programming interfaces and web technologies, inheriting hence their security risks and settings. An attacker exploiting vulnerable implementations of the 5G core may gain privileged control of the network assets and disrupt its availability. However, there is currently no security assessment of the web security of the 5G core network. In this paper, we present the first security assessment of the 5G core from a web security perspective. We use the STRIDE threat modeling approach to define a complete list of possible threat vectors and associated attacks. Thanks to a suite of security testing tools, we cover all of these threats and test the security of the 5G core. In particular, we test the three most relevant open-source 5G core implementations, i.e., Open5GS, Free5Gc, and OpenAirInterface. Our analysis shows that all these cores are vulnerable to at least two of our identified attack vectors, demanding increased security measures in the development of future 5G core networks. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# I DPID It My Way! ソフトウェア定義ネットワークにおけるカバータイムチャネル
I DPID It My Way! A Covert Timing Channel in Software-Defined Networks ( http://arxiv.org/abs/2403.01878v1 ) ライセンス: Link先を確認 | Robert Krösche, Kashyap Thimmaraju, Liron Schiff, Stefan Schmid, | (参考訳) ソフトウェア定義ネットワークは、より信頼性が高く、正式に検証可能な通信ネットワークを可能にする、有望な新しいパラダイムであると考えられている。
しかし,本論文は,データプレーンが物理的に切断された場合でも,SDNテレポーテーションに基づく隠蔽チャネルに対して,制御プレーンをSDN(Software-Defined Networks)の中心に位置するデータプレーンから分離できることを示唆している。
本稿ではSDNテレポーテーションに基づく隠れ時間チャネルの理論モデルと設計について述べる。
我々は、一般的なSDNスイッチであるOpen vSwitchと、一般的なSDNコントローラであるONOSを使用して、カバートチャネルを実装した。
試作機の評価では, 制御器の負荷下であっても, 20ビット/秒のスループットが約90%の通信精度で可能であることが示された。
またスループットをさらに向上させる手法についても論じる。
Software-defined networking is considered a promising new paradigm, enabling more reliable and formally verifiable communication networks. However, this paper shows that the separation of the control plane from the data plane, which lies at the heart of Software-Defined Networks (SDNs), can be exploited for covert channels based on SDN Teleportation, even when the data planes are physically disconnected. This paper describes the theoretical model and design of our covert timing channel based on SDN Teleportation. We implement our covert channel using a popular SDN switch, Open vSwitch, and a popular SDN controller, ONOS. Our evaluation of the prototype shows that even under load at the controller, throughput rates of 20 bits per second are possible, with a communication accuracy of approximately 90\%. We also discuss techniques to increase the throughput further. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# Mirage: ソフトウェア定義ネットワークにおけるクロスパス攻撃に対する防御
Mirage: Defense against CrossPath Attacks in Software Defined Networks ( http://arxiv.org/abs/2403.02172v1 ) ライセンス: Link先を確認 | Shariq Murtuza, Krishna Asawa, | (参考訳) Software-Defined Networks (SDN)は、さまざまな敵からの永続的な脅威に直面する。
これらの攻撃者は異なる動機を持ち、悪質な目的を達成するために様々な戦術に従う。
本研究では、SDNにおけるCrossPath攻撃の影響に焦点を当て、この攻撃を検知するだけでなく軽減するフレームワークであるMirageを紹介します。
当社のフレームワークであるMirageは、攻撃を受けないSDNスイッチを検出し、逆行経路のリコネッサンスを予防し、SDNにおけるCrossPath攻撃を効果的に軽減する。
CrossPath攻撃は、データとコントロールプレーンをデータプレーントラフィックに接続する共有リンクを圧倒することで、間接的にコントロールプレーンを攻撃するリンクフラッド攻撃の一種である。
この攻撃は、データとコントロールプレーンの両方が、トラフィックの送信と受信に同じ物理リンクを使用するバンドSDNに限られている。
私たちのフレームワークであるMirageは、攻撃者がネットワーク内の共有リンクを特定するために敵の経路偵察を起動することを防ぎ、悪用を防ぎ、この攻撃を防ぎます。
ミラージュは敵の航路偵察を停止させるだけでなく、一度検知された時点で進行中の攻撃に迅速に対処する機能も備えている。
Mirageは経路の多様性を使ってネットワークパケットをリルートし、タイミングに基づく測定を防ぐ。
Mirageはまた、タイミングアタックを防ぐために、短い生きたフローテーブルルールを適用することもできる。
これらの対策は、SDN環境のセキュリティを強化するために慎重に設計されている。
さらに,Mirageによる経路偵察の防止,クロスパス攻撃の検出,進行中の脅威の軽減に有効であることを示す実験結果を共有した。
当社のフレームワークは,これらの有害な活動からネットワークを保護し,SDNセキュリティに関する貴重な洞察を提供する。
The Software-Defined Networks (SDNs) face persistent threats from various adversaries that attack them using different methods to mount Denial of Service attacks. These attackers have different motives and follow diverse tactics to achieve their nefarious objectives. In this work, we focus on the impact of CrossPath attacks in SDNs and introduce our framework, Mirage, which not only detects but also mitigates this attack. Our framework, Mirage, detects SDN switches that become unreachable due to being under attack, takes proactive measures to prevent Adversarial Path Reconnaissance, and effectively mitigates CrossPath attacks in SDNs. A CrossPath attack is a form of link flood attack that indirectly attacks the control plane by overwhelming the shared links that connect the data and control planes with data plane traffic. This attack is exclusive to in band SDN, where the data and the control plane, both utilize the same physical links for transmitting and receiving traffic. Our framework, Mirage, prevents attackers from launching adversarial path reconnaissance to identify shared links in a network, thereby thwarting their abuse and preventing this attack. Mirage not only stops adversarial path reconnaissance but also includes features to quickly counter ongoing attacks once detected. Mirage uses path diversity to reroute network packet to prevent timing based measurement. Mirage can also enforce short lived flow table rules to prevent timing attacks. These measures are carefully designed to enhance the security of the SDN environment. Moreover, we share the results of our experiments, which clearly show Mirage's effectiveness in preventing path reconnaissance, detecting CrossPath attacks, and mitigating ongoing threats. Our framework successfully protects the network from these harmful activities, giving valuable insights into SDN security. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# IoTシステムのためのデータ信頼の構築
Building Trust in Data for IoT Systems ( http://arxiv.org/abs/2403.02225v1 ) ライセンス: Link先を確認 | Davide Margaria, Alberto Carelli, Andrea Vesco, | (参考訳) 現在、Internet of Thingsプラットフォームは幅広いアプリケーションドメインにデプロイされています。
セキュリティ要件のあるユースケースには、IoTノードによって生成されたデータが、システムレベルで安全クリティカルあるいは責任クリティカルな決定を行うための基盤となる、というものもある。
課題は、エンドツーエンドからデータの信頼性を証明し、検証しながら、データ交換のためのソリューションを開発することである。
本稿では,IOTA分散レジャー技術とTrusted Platform Moduleの2つのルート・オブ・トラストを利用して,Trust in Dataを提供するためのプロトコルを新たに提案する。
本稿では,提案手法の設計について述べ,重要な設計側面と関連するトレードオフについて論じる。
本稿では,その実現可能性を確認し,達成可能な性能を評価するために,Proof-of-Conceptの実装と実験的評価を行う。
Nowadays, Internet of Things platforms are being deployed in a wide range of application domains. Some of these include use cases with security requirements, where the data generated by an IoT node is the basis for making safety-critical or liability-critical decisions at system level. The challenge is to develop a solution for data exchange while proving and verifying the authenticity of the data from end-to-end. In line with this objective, this paper proposes a novel solution with the proper protocols to provide Trust in Data, making use of two Roots of Trust that are the IOTA Distributed Ledger Technology and the Trusted Platform Module. The paper presents the design of the proposed solution and discusses the key design aspects and relevant trade-offs. The paper concludes with a Proof-of-Concept implementation and an experimental evaluation to confirm its feasibility and to assess the achievable performance. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# スマートグリッド統合の保存:スマートグリッドにおける偽データ注入攻撃のセキュア検出のための差分プライバシーフレームワーク
Preserving Smart Grid Integrity: A Differential Privacy Framework for Secure Detection of False Data Injection Attacks in the Smart Grid ( http://arxiv.org/abs/2403.02324v1 ) ライセンス: Link先を確認 | Nikhil Ravi, Anna Scaglione, Sean Peisert, Parth Pradhan, | (参考訳) 本稿では,FDI(False Data Injection)によるシステム異常や悪いデータを検出するために,電力測定を問合せするための差分プライバシ(DP)に基づくフレームワークを提案する。
提案手法では,信頼できない第三者がFDI攻撃などの異常仮説を検証できると同時に,仮説検証に十分な統計データを無作為にリリースすることで,消費とシステムマトリックスデータを隠蔽する。
本稿では,ガウス雑音による測定モデルと攻撃を表すスパース雑音ベクトルを考察し,最適検定統計量はカイ二乗確率変数であることを示した。
攻撃の可能性を検出するため,電力注入やシステムマトリックスに関するプライベート情報を明らかにしない新しいDPチ方形ノイズ機構を提案する。
提案するフレームワークは、機密性のある電力系統データのプライバシーを維持しながら、FDIを検出する堅牢なソリューションを提供する。
In this paper, we present a framework based on differential privacy (DP) for querying electric power measurements to detect system anomalies or bad data caused by false data injections (FDIs). Our DP approach conceals consumption and system matrix data, while simultaneously enabling an untrusted third party to test hypotheses of anomalies, such as an FDI attack, by releasing a randomized sufficient statistic for hypothesis-testing. We consider a measurement model corrupted by Gaussian noise and a sparse noise vector representing the attack, and we observe that the optimal test statistic is a chi-square random variable. To detect possible attacks, we propose a novel DP chi-square noise mechanism that ensures the test does not reveal private information about power injections or the system matrix. The proposed framework provides a robust solution for detecting FDIs while preserving the privacy of sensitive power system data. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# Free Proxy Unmasked: Free Proxy Servicesの脆弱性と経時的分析
Free Proxies Unmasked: A Vulnerability and Longitudinal Analysis of Free Proxy Services ( http://arxiv.org/abs/2403.02445v1 ) ライセンス: Link先を確認 | Naif Mehanna, Walter Rudametkin, Pierre Laperdrix, Antoine Vastel, | (参考訳) フリープロキシはWebの初期から広く普及しており、ユーザがジオブロックされたコンテンツをバイパスし、IPアドレスを隠すのに役立つ。
さまざまなプロキシプロバイダがインターネットの高速化やプライバシの向上を約束し、リストは数百のフリープロキシで構成されている。
しかし、有償のプロキシサービスは暗号化された接続のサポートと高い安定性を宣伝する一方で、フリープロキシはそのような保証を欠いていることが多く、コンテンツの盗聴や修正のような悪意ある行為をしがちである。
さらに、プロキシをインストールするためにデバイスを悪用することを奨励する市場もある。
本稿では,11 のプロバイダから収集した自由な Web プロキシの安定性,セキュリティ,潜在的操作について,30 ヶ月にわたる縦断的研究を行った。
収集したプロキシは640,600以上あり、毎日累計でテストしました。
テストでは、少なくとも1回は、34.5%のプロキシがアクティブであり、フリープロキシの一般的な不安定性を示している。
地理的には、ほとんどのプロキシは米国と中国に由来する。
Shodan検索エンジンを活用して、プロキシのIPアドレスに4,452の異なる脆弱性を特定しました。
プロキシのIPアドレスのソフトウェア解析の結果,42,206個がMikroTikルータ上で動作していることがわかった。
さらに悪いことに、私たちはコンテンツを操作する16,923のプロキシを発見しました。
最終的に、我々の研究は、無料のウェブプロキシの使用がユーザーのプライバシーとセキュリティに重大なリスクをもたらすことを明らかにした。
分析で明らかになった不安定性、脆弱性、悪意のある行動の可能性は、フリープロキシに頼らないようユーザに強く警告します。
Free-proxies have been widespread since the early days of the Web, helping users bypass geo-blocked content and conceal their IP addresses. Various proxy providers promise faster Internet or increased privacy while advertising their lists comprised of hundreds of readily available free proxies. However, while paid proxy services advertise the support of encrypted connections and high stability, free proxies often lack such guarantees, making them prone to malicious activities such as eavesdropping or modifying content. Furthermore, there is a market that encourages exploiting devices to install proxies. In this paper, we present a 30-month longitudinal study analyzing the stability, security, and potential manipulation of free web proxies that we collected from 11 providers. Our collection resulted in over 640,600 proxies, that we cumulatively tested daily. We find that only 34.5% of proxies were active at least once during our tests, showcasing the general instability of free proxies. Geographically, a majority of proxies originate from the US and China. Leveraging the Shodan search engine, we identified 4,452 distinct vulnerabilities on the proxies' IP addresses, including 1,755 vulnerabilities that allow unauthorized remote code execution and 2,036 that enable privilege escalation on the host device. Through the software analysis on the proxies' IP addresses, we find that 42,206 of them appear to run on MikroTik routers. Worryingly, we also discovered 16,923 proxies that manipulate content, indicating potential malicious intent by proxy owners. Ultimately, our research reveals that the use of free web proxies poses significant risks to users' privacy and security. The instability, vulnerabilities, and potential for malicious actions uncovered in our analysis lead us to strongly caution users against relying on free proxies. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# モバイルデバイスの高齢者のサイバーセキュリティ能力
Cybersecurity competence of older adult users of mobile devices ( http://arxiv.org/abs/2403.02459v1 ) ライセンス: Link先を確認 | Simon Vrhovec, Igor Bernik, Damjan Fujs, Damjan Vavpotič, | (参考訳) 本研究は,スマートフォンおよびタブレットの高齢者ユーザを対象とした,デバイス習熟度,サポート能力,サイバーセキュリティ能力に関する横断的研究について報告する。
その結果, サイバーセキュリティ能力は, デバイス能力とサポート能力の両方に関係していることがわかった。
いずれのモバイルデバイスのユーザと非ユーザのサイバーセキュリティ能力には差はなかった。
スマートフォンとタブレットの両方のユーザは、非ユーザよりもはるかに高いデバイス能力を持っていた。
タブレットのユーザは、非ユーザよりもサポートの可用性が著しく高かったが、スマートフォンのユーザと非ユーザの間には、大きな違いはなかった。
This work reports on a cross-sectional study on device proficiency, support availability and cybersecurity competence of older adult users of smartphones and/or tablets. Results indicate that cybersecurity competence is associated with both device proficiency and support availability although the variance explained is relatively low. There were no differences in cybersecurity competence between users and non-users of either mobile devices. Users of both smartphones and tablets had significantly higher device proficiency than non-users. Users of tablets had significantly higher support availability than non-users while there were no significant differences between users and non-users of smartphones. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# Catch'em all: Rare, Prominent, and novel Malware Familiesの分類
Catch'em all: Classification of Rare, Prominent, and Novel Malware Families ( http://arxiv.org/abs/2403.02546v1 ) ライセンス: Link先を確認 | Maksim E. Eren, Ryan Barron, Manish Bhattarai, Selma Wanna, Nicholas Solovyev, Kim Rasmussen, Boian S. Alexandrov, Charles Nicholas, | (参考訳) 国家の安全はマルウェアによって脅かされている。
昨年、研究者は13億件の既知のマルウェアの検体を報告し、分析にデータ駆動機械学習(ML)メソッドを使用する動機となった。
しかし、既存のMLアプローチの欠点は、その大量採用を妨げる。
これらの課題には、新しいマルウェアの検出と、クラス不均衡に直面してマルウェア分類を実行する能力が含まれる。
我々の研究はMalwareDNAによるこれらの欠点に対処している。
本稿では, クラス不均衡下での安定したタスク性能を示す。マルウェアファミリー分類と, 排除率の増加や拒否選択率の上昇によるトレードオフによる新規マルウェア検出である。
National security is threatened by malware, which remains one of the most dangerous and costly cyber threats. As of last year, researchers reported 1.3 billion known malware specimens, motivating the use of data-driven machine learning (ML) methods for analysis. However, shortcomings in existing ML approaches hinder their mass adoption. These challenges include detection of novel malware and the ability to perform malware classification in the face of class imbalance: a situation where malware families are not equally represented in the data. Our work addresses these shortcomings with MalwareDNA: an advanced dimensionality reduction and feature extraction framework. We demonstrate stable task performance under class imbalance for the following tasks: malware family classification and novel malware detection with a trade-off in increased abstention or reject-option rate. | 翻訳日:2024-03-17 17:01:02 公開日:2024-03-04 |
# クラウドのセキュリティ保証: デジタル法医学的準備の暗号化戦略
Cloud Security Assurance: Strategies for Encryption in Digital Forensic Readiness ( http://arxiv.org/abs/2403.04794v1 ) ライセンス: Link先を確認 | Ahmed MohanRaj Alenezi, | (参考訳) 本稿では,暗号化とディジタル法医学的準備を通じて,クラウドセキュリティを強化する戦略について検討する。
クラウドコンピューティングの採用は、組織に前例のない利益をもたらしたが、同時に新たなセキュリティ課題ももたらした。
暗号化は、クラウド環境内のデータの機密性と整合性を保護する上で重要な役割を果たす。
さまざまな暗号化技術とキー管理プラクティスが、データのプライバシと規制遵守に影響を及ぼすとともに議論されている。
さらに,クラウド上での効果的なインシデント応答と調査を容易にする上で,ディジタル法医学的準備の重要性について検討した。
クラウド環境におけるディジタル法医学の実施に関わる課題に対処し,これらの課題を克服するための戦略を提案する。
暗号化とデジタル法医学的準備を密集したセキュリティ戦略に統合することにより、新たな脅威に対するレジリエンスを強化し、クラウドベースの運用に対する信頼を維持することが可能になる。
This paper explores strategies for enhancing cloud security through encryption and digital forensic readiness. The adoption of cloud computing has brought unprecedented benefits to organizations but also introduces new security challenges. Encryption plays a crucial role in protecting data confidentiality and integrity within cloud environments. Various encryption techniques and key management practices are discussed, along with their implications for data privacy and regulatory compliance. Additionally, the paper examines the importance of digital forensic readiness in facilitating effective incident response and investigation in the cloud. Challenges associated with conducting digital forensics in cloud environments are addressed, and strategies for overcoming these challenges are proposed. By integrating encryption and digital forensic readiness into a cohesive security strategy, organizations can strengthen their resilience against emerging threats and maintain trust in their cloud-based operations. | 翻訳日:2024-03-17 16:51:18 公開日:2024-03-04 |
# ディープラーニング・機械学習・統計的手法を用いた生存モデリング:入院後の死亡予測のための比較分析
Survival modeling using deep learning, machine learning and statistical methods: A comparative analysis for predicting mortality after hospital admission ( http://arxiv.org/abs/2403.06999v1 ) ライセンス: Link先を確認 | Ziwen Wang, Jin Wee Lee, Tanujit Chakraborty, Yilin Ning, Mingxuan Liu, Feng Xie, Marcus Eng Hock Ong, Nan Liu, | (参考訳) 生存分析は、時間から時間までの結果を研究し、時間とともに起こる事象の確率を動的に理解するために不可欠である。
従来の統計モデルから最先端の機械学習アルゴリズムまで、さまざまなサバイバル分析技術は、医療介入と政策決定をサポートする。
しかし、その比較性能については現在も議論が続いている。
コックス比例ハザード(CoxPH)、ステップワイドコックスPH、弾性ネットペナル化コックスモデル(RSF)、ランダムサバイバルフォレスト(Random Survival Forests)、グラディエントブースティングマシン(GBM)学習、オートスコアサバイバル(AutoScore-Survival)、ディープサーブ(DeepSurv)、ニューラルネットワーク(CoxTime)に基づく時間依存コックスモデル(DeepHitサバイバルニューラルネットワーク)など、いくつかの生存分析手法の比較検討を行った。
モデル適合度にはコンコーダンス指標(C-index)を適用し,キャリブレーションには積分ブライアスコア(IBS)を適用し,モデルの解釈可能性を検討した。
ケーススタディでは,2017年から2019年まで,第3次病院救急科で入院した患者の振り返り分析を行い,患者の人口動態,臨床病理学的特徴,過去のデータから90日間の死亡率を予測した。
C-indexの結果、DeepSurvは最高の差別を生み出す(DeepSurv: 0.893; CoxTime: 0.892; DeepHit: 0.891)。
DeepSurv (IBS: 0.041) のキャリブレーションは最高であり、次に RSF (IBS: 0.042) と GBM (IBS: 0.0421) が全変数を使用した。
さらに、AutoScore-Survivalは最小限の変数部分集合を使い、容易に解釈でき、優れた識別と校正を行うことができる(C-index: 0.867; IBS: 0.044)。
すべてのモデルは満足のいくものだったが、DeepSurvは最高の差別と校正を示した。
さらにAutoScore-Survivalは、より微妙なモデルと優れた解釈性を提供する。
Survival analysis is essential for studying time-to-event outcomes and providing a dynamic understanding of the probability of an event occurring over time. Various survival analysis techniques, from traditional statistical models to state-of-the-art machine learning algorithms, support healthcare intervention and policy decisions. However, there remains ongoing discussion about their comparative performance. We conducted a comparative study of several survival analysis methods, including Cox proportional hazards (CoxPH), stepwise CoxPH, elastic net penalized Cox model, Random Survival Forests (RSF), Gradient Boosting machine (GBM) learning, AutoScore-Survival, DeepSurv, time-dependent Cox model based on neural network (CoxTime), and DeepHit survival neural network. We applied the concordance index (C-index) for model goodness-of-fit, and integral Brier scores (IBS) for calibration, and considered the model interpretability. As a case study, we performed a retrospective analysis of patients admitted through the emergency department of a tertiary hospital from 2017 to 2019, predicting 90-day all-cause mortality based on patient demographics, clinicopathological features, and historical data. The results of the C-index indicate that deep learning achieved comparable performance, with DeepSurv producing the best discrimination (DeepSurv: 0.893; CoxTime: 0.892; DeepHit: 0.891). The calibration of DeepSurv (IBS: 0.041) performed the best, followed by RSF (IBS: 0.042) and GBM (IBS: 0.0421), all using the full variables. Moreover, AutoScore-Survival, using a minimal variable subset, is easy to interpret, and can achieve good discrimination and calibration (C-index: 0.867; IBS: 0.044). While all models were satisfactory, DeepSurv exhibited the best discrimination and calibration. In addition, AutoScore-Survival offers a more parsimonious model and excellent interpretability. | 翻訳日:2024-03-17 16:41:26 公開日:2024-03-04 |
# マルチプレイヤーゲームにおけるポジション
Feint in Multi-Player Games ( http://arxiv.org/abs/2403.07932v1 ) ライセンス: Link先を確認 | Junyu Liu, Wangkai Jin, Xiangjun Peng, | (参考訳) 本稿では,マルチプレイヤーゲームにおけるFeintの最初の形式化,実装,定量的評価について紹介する。
我々の研究は、時間的、空間的、およびそれらの集団的影響の観点から、マルチプレイヤーゲームの観点から、最初にFeintを定式化する。
この形式化は、Feintが相当な影響力を持つことができる非推移的アクティブマルコフゲームモデルに基づいて構築されている。
そこで本稿では,現在までのマルチエージェントモデリング(いわゆるマルチエージェント強化学習)の最先端の進展の下で,マルチプレイヤーゲームにおけるFeintの実践的実装について検討する。
最後に,本研究は,デザインの有効性を定量的に検討し,フェントの設計は(1)ゲームから得られる報酬の獲得を大幅に改善すること,(2)マルチプレイヤーゲームの多様性を著しく改善すること,(3)時間消費の観点からは無視できないオーバーヘッドしか生じないことを示す。
We conclude that our design of Feint is effective and practical, to make multi-player Games。
This paper introduces the first formalization, implementation and quantitative evaluation of Feint in Multi-Player Games. Our work first formalizes Feint from the perspective of Multi-Player Games, in terms of the temporal, spatial, and their collective impacts. The formalization is built upon Non-transitive Active Markov Game Model, where Feint can have a considerable amount of impacts. Then, our work considers practical implementation details of Feint in Multi-Player Games, under the state-of-the-art progress of multi-agent modeling to date (namely Multi-Agent Reinforcement Learning). Finally, our work quantitatively examines the effectiveness of our design, and the results show that our design of Feint can (1) greatly improve the reward gains from the game; (2) significantly improve the diversity of Multi-Player Games; and (3) only incur negligible overheads in terms of time consumption. We conclude that our design of Feint is effective and practical, to make Multi-Player Games more interesting. | 翻訳日:2024-03-17 16:41:26 公開日:2024-03-04 |
# オフライン2人プレイのゼロサムマルコフゲーム
Corruption-Robust Offline Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2403.07933v1 ) ライセンス: Link先を確認 | Andi Nika, Debmalya Mandal, Adish Singla, Goran Radanović, | (参考訳) オフライン2プレイヤーゼロサムマルコフゲームにおけるデータ破損の堅牢性について検討する。
2人のプレーヤーの現実的な軌跡のデータセットが与えられた場合、相手は$\epsilon$-fractionを変更できる。
学習者の目標は、破損したデータから近似的なナッシュ平衡ポリシーペアを特定することである。
データカバレッジと汚職の程度が異なる線形マルコフゲームにおいてこの問題を考える。
まず、学習者の最適度以下のギャップに情報理論の下限を与える。
次に,悲観的最小値イテレーションアルゴリズムのロバストなバージョンを提案する。これは,破損したデータとクリーンなデータのみを対象とするものである。
データ破損下でのオフライン2プレイヤーゼロサムマルコフゲームにおいて、Nash平衡ポリシーを学習する問題を初めて評価した点に留意する。
We study data corruption robustness in offline two-player zero-sum Markov games. Given a dataset of realized trajectories of two players, an adversary is allowed to modify an $\epsilon$-fraction of it. The learner's goal is to identify an approximate Nash Equilibrium policy pair from the corrupted data. We consider this problem in linear Markov games under different degrees of data coverage and corruption. We start by providing an information-theoretic lower bound on the suboptimality gap of any learner. Next, we propose robust versions of the Pessimistic Minimax Value Iteration algorithm, both under coverage on the corrupted data and under coverage only on the clean data, and show that they achieve (near)-optimal suboptimality gap bounds with respect to $\epsilon$. We note that we are the first to provide such a characterization of the problem of learning approximate Nash Equilibrium policies in offline two-player zero-sum Markov games under data corruption. | 翻訳日:2024-03-17 16:41:26 公開日:2024-03-04 |
# 火災工学における大規模言語モデル:ドメイン知識に関する技術的問題の検討 Large Language Models in Fire Engineering: An Examination of Technical Questions Against Domain Knowledge ( http://arxiv.org/abs/2403.04795v1 ) ライセンス: Link先を確認 | Haley Hostetter, M.Z. Naser, Xinyan Huang, John Gales | (参考訳) このコミュニケーションは,openai の chatgpt と google の bard という2つのチャットボットを比較し,火災安全関連質問に対する応答を評価することによって,火災工学の文脈における予備的な知見を示す。
構造的な火災設計、防火戦略、避難、建築コードコンプライアンス、火災抑制システム(一部は防火試験(FPE)によく見られるものに似ている)など、様々な火災工学的な問題やシナリオが作成・検討された。
結果はチャットボットの性能にいくつかの重要な違いを示し、ChatGPTは比較的優れた性能を示した。
そして、このコミュニケーションは、さらなる改善と研究のための領域を概説しながら、重要な情報への即時アクセスを提供することで、チャットボット技術が火災工学の実践に革命をもたらす可能性を浮き彫りにしている。
確実に、そしてそれが成熟すれば、この技術はエンジニアの実践と教育に欠かせないものになるだろう。 This communication presents preliminary findings from comparing two recent chatbots, OpenAI's ChatGPT and Google's Bard, in the context of fire engineering by evaluating their responses in handling fire safety related queries. A diverse range of fire engineering questions and scenarios were created and examined, including structural fire design, fire prevention strategies, evacuation, building code compliance, and fire suppression systems (some of which resemble those commonly present in the Fire Protection exam (FPE)). The results reveal some key differences in the performance of the chatbots, with ChatGPT demonstrating a relatively superior performance. Then, this communication highlights the potential for chatbot technology to revolutionize fire engineering practices by providing instant access to critical information while outlining areas for further improvement and research. Evidently, and when it matures, this technology will likely be elemental to our engineers' practice and education. | 翻訳日:2024-03-11 22:17:42 公開日:2024-03-04 |
# 時系列データ駆動型2相マルチスプライト因果関係アンサンブルモデル A Data-Driven Two-Phase Multi-Split Causal Ensemble Model for Time Series ( http://arxiv.org/abs/2403.04793v1 ) ライセンス: Link先を確認 | Zhipeng Ma, Marco Kemmerling, Daniel Buschmann, Chrismarie Enslin, Daniel L\"utticke, Robert H. Schmitt | (参考訳) 因果推論は、多くの分野における因果関係を発見するための基本的な研究テーマである。
しかし、すべてのアルゴリズムが与えられたデータセットに等しく適しているわけではない。
例えば、あるアプローチは線形関係のみを識別できるが、他のアプローチは非線形性に適用できる。
アルゴリズムはさらにノイズに対する感度と、結合された時系列対非結合時系列から因果情報を推測する能力に異なる。
したがって、異なるアルゴリズムは、しばしば同じ入力に対して異なる因果関係を生成する。
より堅牢な因果推論結果を達成するために,本論文では,異なる因果基底アルゴリズムの強みを組み合わせた,データ駆動型2相多相因果アンサンブルモデルを提案する。
既存の手法と比較して,提案手法は第1フェーズにおけるデータ分割方式によるノイズの影響を低減する。
これを実現するために、まずデータを複数のパーティションに分割し、各パーティションにベースアルゴリズムを適用する。
その後、ガウス混合モデルは、妥当になりそうな異なる分割から派生した因果関係を同定するために用いられる。
第2フェーズでは、各ベースアルゴリズムから特定された関係を3つの組み合わせルールに基づいてマージする。
提案手法は,複数の指標を用いて評価され,その内,新たに開発された因果的アンサンブルアプローチの評価指標である。
本研究では,異なる状況下で因果関係を知りながら因果関係の検出方法をテストするために,異なるボリュームと複雑さを持つ3つの合成データセットを用いて実験を行った。
これらの実験では、因果関係のアンサンブルはそれぞれの基本アルゴリズムより優れている。
現実的な応用では、提案手法を用いることでより堅牢で信頼性の高い因果関係が得られる。 Causal inference is a fundamental research topic for discovering the cause-effect relationships in many disciplines. However, not all algorithms are equally well-suited for a given dataset. For instance, some approaches may only be able to identify linear relationships, while others are applicable for non-linearities. Algorithms further vary in their sensitivity to noise and their ability to infer causal information from coupled vs. non-coupled time series. Therefore, different algorithms often generate different causal relationships for the same input. To achieve a more robust causal inference result, this publication proposes a novel data-driven two-phase multi-split causal ensemble model to combine the strengths of different causality base algorithms. In comparison to existing approaches, the proposed ensemble method reduces the influence of noise through a data partitioning scheme in the first phase. To achieve this, the data are initially divided into several partitions and the base algorithms are applied to each partition. Subsequently, Gaussian mixture models are used to identify the causal relationships derived from the different partitions that are likely to be valid. In the second phase, the identified relationships from each base algorithm are then merged based on three combination rules. The proposed ensemble approach is evaluated using multiple metrics, among them a newly developed evaluation index for causal ensemble approaches. We perform experiments using three synthetic datasets with different volumes and complexity, which are specifically designed to test causality detection methods under different circumstances while knowing the ground truth causal relationships. In these experiments, our causality ensemble outperforms each of its base algorithms. In practical applications, the use of the proposed method could hence lead to more robust and reliable causality results. | 翻訳日:2024-03-11 22:17:25 公開日:2024-03-04 |
# 言語バリアを破る:多言語LLMアプリケーションにおいて直接推論は事前翻訳より優れているか? Breaking the Language Barrier: Can Direct Inference Outperform Pre-Translation in Multilingual LLM Applications? ( http://arxiv.org/abs/2403.04792v1 ) ライセンス: Link先を確認 | Yotam Intrator, Matan Halfon, Roman Goldenberg, Reut Tsarfaty, Matan Eyal, Ehud Rivlin, Yossi Matias, Natalia Aizenberg | (参考訳) 大規模言語モデルは多言語アプリケーションにおいて大きな可能性を秘めている。
しかし、主に英語中心の事前学習から生じる固有のバイアスは、推論前に英語以外の入力を英語に翻訳するなど、翻訳前の広範囲にわたる実践につながった。
本研究は,多言語タスクにおいて高い性能が確立されている PaLM2 モデル (Anil et al., 2023) の文脈における事前翻訳の必要性を再評価する。
これまでの類似研究から除外されたオープンソース生成タスクを含む,108言語と6つの多様なベンチマークに関する包括的な調査を提供する。
本研究は,paLM2における直接推論の利点を浮き彫りにして,事前翻訳のパラダイムに挑戦するものである。
具体的には、PaLM2-Lは108言語中94言語において、翻訳前よりも一貫して優れている。
これらの発見は、より効率的で効果的な多言語応用への道を開き、翻訳前の制限を緩和し、言語の真正性を解き放つ。 Large language models hold significant promise in multilingual applications. However, inherent biases stemming from predominantly English-centric pre-training have led to the widespread practice of pre-translation, i.e., translating non-English inputs to English before inference, leading to complexity and information loss. This study re-evaluates the need for pre-translation in the context of PaLM2 models (Anil et al., 2023), which have been established as highly performant in multilingual tasks. We offer a comprehensive investigation across 108 languages and 6 diverse benchmarks, including open-end generative tasks, which were excluded from previous similar studies. Our findings challenge the pre-translation paradigm established in prior research, highlighting the advantages of direct inference in PaLM2. Specifically, PaLM2-L consistently outperforms pre-translation in 94 out of 108 languages. These findings pave the way for more efficient and effective multilingual applications, alleviating the limitations associated with pre-translation and unlocking linguistic authenticity. | 翻訳日:2024-03-11 22:17:00 公開日:2024-03-04 |
# LLM vs. Lawyers: 大英判例法データセットにおける概要判断のサブセットの同定 LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK Case Law Dataset ( http://arxiv.org/abs/2403.04791v1 ) ライセンス: Link先を確認 | Ahmed Izzidien and Holli Sargeant and Felix Steffek | (参考訳) 法律の計算研究を行うためには、特定の法的問題に関連する裁判所決定のデータセットを効率的に特定することが不可欠だが、困難な作業である。
本研究は,英国の裁判所決定の膨大なコーパスから事例,すなわち要約判断を分離する方法に関して,大判コーパスと協働する文献のギャップに対処するものである。
本稿では,(1)エキスパート生成キーワードと論理演算子を利用した従来の自然言語処理に基づく手法と,(2)コンテンツ固有のプロンプトに基づいてケースを分類するClaude 2大規模言語モデルの革新的応用を提案する。
英国裁判所判決356,011 のケンブリッジ法コーパスを用いて,重み付き f1 スコア 0.94 とキーワード 0.78 の判定を行った。
反復的な洗練にもかかわらず、キーワードに基づく検索ロジックは法言語におけるニュアンスを捉えるのに失敗する。
我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップすることができる。
この論文は、高度な自然言語処理を活用して中核的な法的研究課題に取り組むための先駆的なステップであり、これらの技術が体系的なギャップを埋め、法情報のアクセシビリティを高めることができるかを実証している。
抽出されたデータセットメトリクスを共有し,要約判断に関するさらなる研究を支援する。 To undertake computational research of the law, efficiently identifying datasets of court decisions that relate to a specific legal issue is a crucial yet challenging endeavour. This study addresses the gap in the literature working with large legal corpora about how to isolate cases, in our case summary judgments, from a large corpus of UK court decisions. We introduce a comparative analysis of two computational methods: (1) a traditional natural language processing-based approach leveraging expert-generated keywords and logical operators and (2) an innovative application of the Claude 2 large language model to classify cases based on content-specific prompts. We use the Cambridge Law Corpus of 356,011 UK court decisions and determine that the large language model achieves a weighted F1 score of 0.94 versus 0.78 for keywords. Despite iterative refinement, the search logic based on keywords fails to capture nuances in legal language. We identify and extract 3,102 summary judgment cases, enabling us to map their distribution across various UK courts over a temporal span. The paper marks a pioneering step in employing advanced natural language processing to tackle core legal research tasks, demonstrating how these technologies can bridge systemic gaps and enhance the accessibility of legal information. We share the extracted dataset metrics to support further research on summary judgments. | 翻訳日:2024-03-11 22:16:41 公開日:2024-03-04 |
# 大規模言語モデルのオンライントレーニング:チャットしながら学ぶ Online Training of Large Language Models: Learn while chatting ( http://arxiv.org/abs/2403.04790v1 ) ライセンス: Link先を確認 | Juhao Liang, Ziwei Wang, Zhuoheng Ma, Jianquan Li, Zhiyi Zhang, Xiangbo Wu and Benyou Wang | (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を劇的に革新させ、広く使われている優れた能力を提供している。
しかしながら、LLMとユーザ間の既存の相互作用パラダイムは、柔軟性、カスタマイズの制限、永続的な学習の欠如によって制約される。
この柔軟性は特に顕著であり、特にプログラミングスキルを持たないユーザーは、モデルを拡張またはパーソナライズするための道に制限を加えている。
既存のフレームワークは、計算の非効率さとユーザフレンドリなインターフェースの欠如により、モデルトレーニングとデプロイメントプロセスをさらに複雑にする。
これらの課題を克服するために、AIエージェントやオンライン/オフラインの知識ベースといった外部インタラクションによる個人カスタマイズの柔軟性と、永続的でリアルタイムなモデル更新の利点を融合した「外部インタラクションを用いたオンライントレーニング」という新しいインタラクションパラダイムを導入する。 Large Language Models(LLMs) have dramatically revolutionized the field of Natural Language Processing(NLP), offering remarkable capabilities that have garnered widespread usage. However, existing interaction paradigms between LLMs and users are constrained by either inflexibility, limitations in customization, or a lack of persistent learning. This inflexibility is particularly evident as users, especially those without programming skills, have restricted avenues to enhance or personalize the model. Existing frameworks further complicate the model training and deployment process due to their computational inefficiencies and lack of user-friendly interfaces. To overcome these challenges, this paper introduces a novel interaction paradigm-'Online Training using External Interactions'-that merges the benefits of persistent, real-time model updates with the flexibility for individual customization through external interactions such as AI agents or online/offline knowledge bases. | 翻訳日:2024-03-11 22:15:58 公開日:2024-03-04 |
# TopicDiff:マルチモーダル会話感情検出のためのトピック強化拡散手法 TopicDiff: A Topic-enriched Diffusion Approach for Multimodal Conversational Emotion Detection ( http://arxiv.org/abs/2403.04789v1 ) ライセンス: Link先を確認 | Jiamin Luo, Jingjing Wang, Guodong Zhou | (参考訳) MCE(Multimodal Conversational Emotion)の検出は、一般的に音響、視覚、言語モダリティにまたがるものであり、マルチメディアコミュニティへの関心が高まっている。
従来の研究は主に、単一の言語モダリティにおける話題情報を考慮しつつ、音響的・視覚的な話題情報を常に無視しながら、会話の中で文脈的情報を学ぶことに集中していた。
そこで本研究では,MCEタスクのマルチモーダルトピック情報を取得するために,モデルに依存しないトピック拡張(TopicDiff)手法を提案する。
特に,拡散モデルとニューラルトピックモデルを統合することで,トピック情報の収集におけるニューラルトピックモデルの多様性不足問題を軽減する。
詳細な評価は、最先端のmceベースラインに対するトピックディフの大幅な改善を示し、mceに対するマルチモーダルなトピック情報の重要性と、そのような情報取得におけるトピックディフの有効性を正当化している。
さらに,音声と視覚における話題情報が,言語よりも識別的かつ頑健であることの興味深い発見を観察した。 Multimodal Conversational Emotion (MCE) detection, generally spanning across the acoustic, vision and language modalities, has attracted increasing interest in the multimedia community. Previous studies predominantly focus on learning contextual information in conversations with only a few considering the topic information in single language modality, while always neglecting the acoustic and vision topic information. On this basis, we propose a model-agnostic Topic-enriched Diffusion (TopicDiff) approach for capturing multimodal topic information in MCE tasks. Particularly, we integrate the diffusion model into neural topic model to alleviate the diversity deficiency problem of neural topic model in capturing topic information. Detailed evaluations demonstrate the significant improvements of TopicDiff over the state-of-the-art MCE baselines, justifying the importance of multimodal topic information to MCE and the effectiveness of TopicDiff in capturing such information. Furthermore, we observe an interesting finding that the topic information in acoustic and vision is more discriminative and robust compared to the language. | 翻訳日:2024-03-11 22:15:40 公開日:2024-03-04 |
# 航空事故報告書のトピックモデリング分析:LDAモデルとNMFモデルの比較 Topic Modeling Analysis of Aviation Accident Reports: A Comparative Study between LDA and NMF Models ( http://arxiv.org/abs/2403.04788v1 ) ライセンス: Link先を確認 | Aziida Nanyonga, Hassan Wasswa and Graham Wild | (参考訳) 航空安全は現代世界で最重要であり、事故の軽減と安全基準の改善を継続的に約束している。
この取り組みの中心は、航空事故の報告の分析、航空事故の背景にある原因や要因を洞察する豊富な文献資源である。
本稿では,航空機事故報告分析の文脈において,LDA(Latent Dirichlet Allocation)とNon- negative Matrix Factorization(NMF)の2つの主要なトピックモデリング手法を比較した。
この研究は、NTSB(National Transportation Safety Board)データセットを利用して、事故報告の中で潜伏するテーマやパターンを識別するプロセスを自動化し、合理化することを目的としている。
コヒーレンス値(c_v)メトリクスは、生成されたトピックの品質を評価するために使われた。
LDAは、トピック内の単語間のより強い意味的関連性を示す、より高いトピックコヒーレンスを示す。
同時にnmfは、個別かつ粒度の異なるトピックの生成に優れ、航空事故の特定の側面をより焦点を絞った分析を可能にした。 Aviation safety is paramount in the modern world, with a continuous commitment to reducing accidents and improving safety standards. Central to this endeavor is the analysis of aviation accident reports, rich textual resources that hold insights into the causes and contributing factors behind aviation mishaps. This paper compares two prominent topic modeling techniques, Latent Dirichlet Allocation (LDA) and Non-negative Matrix Factorization (NMF), in the context of aviation accident report analysis. The study leverages the National Transportation Safety Board (NTSB) Dataset with the primary objective of automating and streamlining the process of identifying latent themes and patterns within accident reports. The Coherence Value (C_v) metric was used to evaluate the quality of generated topics. LDA demonstrates higher topic coherence, indicating stronger semantic relevance among words within topics. At the same time, NMF excelled in producing distinct and granular topics, enabling a more focused analysis of specific aspects of aviation accidents. | 翻訳日:2024-03-11 22:15:21 公開日:2024-03-04 |
# 変位から分布へ:計算モデルのパラメータの不確かさを定量化する機械学習フレームワーク From Displacements to Distributions: A Machine-Learning Enabled Framework for Quantifying Uncertainties in Parameters of Computational Models ( http://arxiv.org/abs/2403.03233v1 ) ライセンス: Link先を確認 | Taylor Roper and Harri Hakula and Troy Butler | (参考訳) この研究は、工学系のモデリングにおける不確実性の源であるアレタリック(既約)とてんかん(既約)の両方を定量化する2つのフレームワークを組み合わせるための新しい拡張を提示する。
データ一貫性(DC)フレームワークは、与えられた関心の量(QoI)マップに対するプルバックおよびプッシュフォワード測度の観点から、アレタリック不確実性を定量化するための逆問題とソリューションを提供する。
残念ながら、事前に指定されたQoIマップは、システム出力に関連するデータの収集に先立って利用できるとは限らない。
データ自体は、しばしば測定エラー(すなわち認識の不確実性)によって汚染され、有用なqoiを特定するプロセスが複雑になる。
Learning Uncertain Quantities (LUQ)フレームワークは、ノイズの多いデータセットを学習されたQoIマップのサンプルに変換してDCベースのインバージョンを可能にする、3段階の機械学習プロセスを定義する。
時空間データセットに存在する最も有用な量的情報を学習できるロバストなフィルタリングステップをluqで開発する。
学習したQoIマップは、シミュレーションおよび観測されたデータセットを分散に変換し、DCベースの逆変換を実行する。
また,新しい空間データセットが得られたときに時間とともに反復するDCベースのインバージョン手法を開発し,定量的診断を用いて各イテレーションにおけるインバージョンの品質と影響を同定する。
Kernel Hilbert Space理論の再現は、学習したQoIマップを数学的に解析し、フィルタリングされたデータを評価するための定量的十分性テストを開発するために利用される。
最後の2つの例は、提示されたフレームワークのさまざまな側面を示すために、革命の貝殻の製造に関するものだ。 This work presents novel extensions for combining two frameworks for quantifying both aleatoric (i.e., irreducible) and epistemic (i.e., reducible) sources of uncertainties in the modeling of engineered systems. The data-consistent (DC) framework poses an inverse problem and solution for quantifying aleatoric uncertainties in terms of pullback and push-forward measures for a given Quantity of Interest (QoI) map. Unfortunately, a pre-specified QoI map is not always available a priori to the collection of data associated with system outputs. The data themselves are often polluted with measurement errors (i.e., epistemic uncertainties), which complicates the process of specifying a useful QoI. The Learning Uncertain Quantities (LUQ) framework defines a formal three-step machine-learning enabled process for transforming noisy datasets into samples of a learned QoI map to enable DC-based inversion. We develop a robust filtering step in LUQ that can learn the most useful quantitative information present in spatio-temporal datasets. The learned QoI map transforms simulated and observed datasets into distributions to perform DC-based inversion. We also develop a DC-based inversion scheme that iterates over time as new spatial datasets are obtained and utilizes quantitative diagnostics to identify both the quality and impact of inversion at each iteration. Reproducing Kernel Hilbert Space theory is leveraged to mathematically analyze the learned QoI map and develop a quantitative sufficiency test for evaluating the filtered data. An illustrative example is utilized throughout while the final two examples involve the manufacturing of shells of revolution to demonstrate various aspects of the presented frameworks. | 翻訳日:2024-03-07 17:15:13 公開日:2024-03-04 |
# 3次元ゲノム構造予測のための機械学習と深層学習 Machine and deep learning methods for predicting 3D genome organization ( http://arxiv.org/abs/2403.03231v1 ) ライセンス: Link先を確認 | Brydon P. G. Wall, My Nguyen, J. Chuck Harrell, Mikhail G. Dozmorov | (参考訳) 3次元(3d)クロマチン相互作用、例えばエンハンサー-プロモター相互作用(epis)、ループ、位相的結合ドメイン(tad)、a/bコンパートメントは遺伝子発現を調節することにより、幅広い細胞プロセスにおいて重要な役割を果たす。
近年のクロマチンコンホメーションキャプチャ技術は、単一細胞でも様々な3D構造のゲノムワイドプロファイリングを可能にしている。
しかし、現在の3D構造のカタログは、技術、ツール、データ解像度の低さにより不完全で信頼性の低いままである。
機械学習の手法は、3Dインタラクションの欠如や解像度の改善の代替として登場した。
これらの方法は、ゲノムアノテーションデータ(ChIP-seq、DNAse-seqなど)、DNAシークエンシング情報(k-mers、転写因子結合部位(TFBS)モチーフ)、その他のゲノム特性を用いてゲノムの特徴とクロマチン相互作用の関係を学習する。
本稿では,3種類の3次元相互作用(EPI,クロマチン相互作用,TAD境界)を予測するための計算ツールについて述べる。
また、3次元相互作用の計算予測の障害を指摘し、今後の研究方向性を提案する。 Three-Dimensional (3D) chromatin interactions, such as enhancer-promoter interactions (EPIs), loops, Topologically Associating Domains (TADs), and A/B compartments play critical roles in a wide range of cellular processes by regulating gene expression. Recent development of chromatin conformation capture technologies has enabled genome-wide profiling of various 3D structures, even with single cells. However, current catalogs of 3D structures remain incomplete and unreliable due to differences in technology, tools, and low data resolution. Machine learning methods have emerged as an alternative to obtain missing 3D interactions and/or improve resolution. Such methods frequently use genome annotation data (ChIP-seq, DNAse-seq, etc.), DNA sequencing information (k-mers, Transcription Factor Binding Site (TFBS) motifs), and other genomic properties to learn the associations between genomic features and chromatin interactions. In this review, we discuss computational tools for predicting three types of 3D interactions (EPIs, chromatin interactions, TAD boundaries) and analyze their pros and cons. We also point out obstacles of computational prediction of 3D interactions and suggest future research directions. | 翻訳日:2024-03-07 17:14:42 公開日:2024-03-04 |
# 大規模言語モデルは神経科学結果の予測において人間の専門家を上回る Large language models surpass human experts in predicting neuroscience results ( http://arxiv.org/abs/2403.03230v1 ) ライセンス: Link先を確認 | Xiaoliang Luo, Akilles Rechardt, Guangzhi Sun, Kevin K. Nejad, Felipe Y\'a\~nez, Bati Yilmaz, Kangjoo Lee, Alexandra O. Cohen, Valentina Borghesani, Anton Pashkov, Daniele Marinazzo, Jonathan Nicholas, Alessandro Salatiello, Ilia Sucholutsky, Pasquale Minervini, Sepehr Razavi, Roberta Rocca, Elkhan Yusifov, Tereza Okalova, Nianlong Gu, Martin Ferianc, Mikail Khona, Kaustubh R. Patil, Pui-Shee Lee, Rui Mata, Nicholas E. Myers, Jennifer K Bizley, Sebastian Musslick, Isil Poyraz Bilgin, Guiomar Niso, Justin M. Ales, Michael Gaebler, N Apurva Ratan Murty, Chloe M. Hall, Jessica Dafflon, Sherry Dongqi Bao, Bradley C. Love | (参考訳) 科学的な発見は、何十年にもわたって研究を合成することに悩まされている。
大規模言語モデル(llm)はソリューションを提供する。
膨大な科学文献で訓練されたLSMは、人間の専門家よりも新しい結果を予測するためにノイズがあるが、関連する研究結果を統合する可能性がある。
この可能性を評価するために、我々は神経科学の結果を予測する前向きなベンチマークであるBrainBenchを作成しました。
LLMは実験結果を予測する専門家を上回っている。
神経科学の文献をチューニングしたLLMであるBrainGPTは、まだ改善していません。
人間の専門家のように、LLMが予測に自信がある場合には、その予測が正しい可能性が高いため、人間とLLMが協力して発見する未来が予想される。
我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。 Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors. | 翻訳日:2024-03-07 17:14:14 公開日:2024-03-04 |
# 不確かさの許容性:2次元心エコー図による右室容積予測のためのアンサンブルモデリングのための教師付きツリーカーネルのハーネス Embracing Uncertainty Flexibility: Harnessing a Supervised Tree Kernel to Empower Ensemble Modelling for 2D Echocardiography-Based Prediction of Right Ventricular Volume ( http://arxiv.org/abs/2403.03229v1 ) ライセンス: Link先を確認 | Tuan A. Bohoran, Polydoros N. Kampaktsis, Laura McLaughlin, Jay Leb, Gerry P. McCann, Archontis Giannakidis | (参考訳) 右室機能低下は,多くの状況において臨床効果を強く予測する。
広範に利用可能な2次元心エコー図(2de)からの表データを用いてrv容積を定量化するアンサンブル回帰法の臨床展開を促進するため,不確かさスコアによる容積予測を補完する手法を提案する。
そこで本研究では,学習木構造を用いて対象インスタンスに最も近いトレーニングサンプルを識別し,その出力を柔軟にモデル化するために,複数の分散型を用いるインスタンスベース手法を提案する。
提案フレームワークの確率的およびポイント予測的性能は,100のエンドダイアストリックとエンドシストリックrvからなる比較的小さなデータセット上で評価される。
mriから点性能の基準値を得た。
その結果、我々のフレキシブルアプローチは、他の最先端手法よりも確率的および点性能が向上することを示した。
提案フレームワークの適切性は,例示ケースを提供することによって示される。
推定された不確実性は、動脈硬化型とてんかん型の両方を具現化する。
この研究は、意思決定プロセスの強化とリスクの低減に使用できるため、信頼できる人工知能と一致している。
提案するパイプラインの臨床応用を向上するために必要な2DEビューの数を減らすために,本フレームワークの特徴的重要性スコアを活用できる。 The right ventricular (RV) function deterioration strongly predicts clinical outcomes in numerous circumstances. To boost the clinical deployment of ensemble regression methods that quantify RV volumes using tabular data from the widely available two-dimensional echocardiography (2DE), we propose to complement the volume predictions with uncertainty scores. To this end, we employ an instance-based method which uses the learned tree structure to identify the nearest training samples to a target instance and then uses a number of distribution types to more flexibly model the output. The probabilistic and point-prediction performances of the proposed framework are evaluated on a relatively small-scale dataset, comprising 100 end-diastolic and end-systolic RV volumes. The reference values for point performance were obtained from MRI. The results demonstrate that our flexible approach yields improved probabilistic and point performances over other state-of-the-art methods. The appropriateness of the proposed framework is showcased by providing exemplar cases. The estimated uncertainty embodies both aleatoric and epistemic types. This work aligns with trustworthy artificial intelligence since it can be used to enhance the decision-making process and reduce risks. The feature importance scores of our framework can be exploited to reduce the number of required 2DE views which could enhance the proposed pipeline's clinical application. | 翻訳日:2024-03-07 17:14:02 公開日:2024-03-04 |
# consci\^encia e mec\^anica qu\^antica: uma abordagem filos\'ofica Consci\^encia e mec\^anica qu\^antica: uma abordagem filos\'ofica ( http://arxiv.org/abs/2201.09663v7 ) ライセンス: Link先を確認 | Raoni Arroyo | (参考訳) 本書は、標準的な非相対論的量子力学のオントロジー的含意と、測定問題の解決に「意識」の概念を用いることを扱っている。 This book deals with some ontological implications of standard non-relativistic quantum mechanics, and the use of the notion of `consciousness' to solve the measurement problem. | 翻訳日:2024-03-07 04:41:32 公開日:2024-03-04 |
# 擬似POVMを用いた量子計測の最適シミュレーション Optimal Simulation of Quantum Measurements via the Likelihood POVMs ( http://arxiv.org/abs/2109.12586v3 ) ライセンス: Link先を確認 | Arun Padakandla | (参考訳) POVMや解析手法,量子被覆補題の新たな証明の新たなフレームワークを開発することにより,二部体状態上の分離可能な量子計測のシミュレーションに対処する。
漸近的なケースに自然に一般化する新しいワンショット内接に加えて、現在知られているすべての内接を回収することで、最も一般的な分散測定シナリオにおいて、開発手法の力、一般性、普遍性を示す。
上記の結果に加えて、このフレームワークは最も自然でシンプルなPOVMシミュレーションプロトコルとして魅力的です。 By developing a new framework of likelihood POVMs, analysis techniques and a new proof of the quantum covering lemma, we address the simulation of separable quantum measurement over bipartite states. In addition to a new one shot inner bound that naturally generalizes to the asymptotic case, we demonstrate the power, generality and universality of the developed techniques in the most general distributed measurement scenario by recovering all current known inner bounds. In addition to the above results, this framework is appealing in being the most natural and simple POVM simulation protocol. | 翻訳日:2024-03-07 04:41:06 公開日:2024-03-04 |
# 深層強化学習を促進する適応的合理的アクティベーション Adaptive Rational Activations to Boost Deep Reinforcement Learning ( http://arxiv.org/abs/2102.09407v4 ) ライセンス: Link先を確認 | Quentin Delfosse, Patrick Schramowski, Martin Mundt, Alejandro Molina and Kristian Kersting | (参考訳) 生物学の最近の知見は、知性はニューロン間の接続から生じるだけでなく、個々のニューロンが以前予想されていたよりも計算責任を担っていることを示している。
この観点は、異なる強化学習環境を常に変化させる状況において重要であるが、現在のアプローチでは、主に静的アクティベーション関数を使用している。
本研究では,適応型アクティベーション関数に合理性が適している理由と,それらのニューラルネットワークへの包含が重要である理由について述べる。
残差ネットワークの繰り返しに着想を得て、有理単位が残差接続の下で閉じている条件を導出し、自然な正則化(recurrent-rational)を定式化する。
我々は,Atariゲームにおいて,(繰り返しの)アクティベーションを伴う人気アルゴリズムの装備が一貫した改善をもたらし,特に単純なDQNをDDQNやRainbowと競合する固いアプローチに変換することを実証した。 Latest insights from biology show that intelligence not only emerges from the connections between neurons but that individual neurons shoulder more computational responsibility than previously anticipated. This perspective should be critical in the context of constantly changing distinct reinforcement learning environments, yet current approaches still primarily employ static activation functions. In this work, we motivate why rationals are suitable for adaptable activation functions and why their inclusion into neural networks is crucial. Inspired by recurrence in residual networks, we derive a condition under which rational units are closed under residual connections and formulate a naturally regularised version: the recurrent-rational. We demonstrate that equipping popular algorithms with (recurrent-)rational activations leads to consistent improvements on Atari games, especially turning simple DQN into a solid approach, competitive to DDQN and Rainbow. | 翻訳日:2024-03-07 04:39:13 公開日:2024-03-04 |
# 繰り返し第一価格オークションにおける最適ノンレグレット学習 Optimal No-regret Learning in Repeated First-price Auctions ( http://arxiv.org/abs/2003.09795v7 ) ライセンス: Link先を確認 | Yanjun Han, Zhengyuan Zhou, Tsachy Weissman | (参考訳) オンライン学習は,競売の終了時にのみ入賞者を観察し,その累積利益を最大化するために適応入札を学習する,繰り返し第1価格オークションにおいて学習する。
この目標を達成するために、入札者は検閲されたフィードバックに直面し、もし入札に勝ったら、他の入札者の最も高い入札を見ることができず、それは未知の分布から引き出された「textit{iid}」であると仮定する。
本稿では,1価オークションの2つの構造的性質,すなわち,フィードバック構造とペイオフ関数を活用し,ほぼ最適に近い$\widetilde{o}(\sqrt{t})$ regretboundを実現する最初の学習アルゴリズムを開発した。
まず,最初の価格オークションにおけるフィードバック構造を,部分順序付けされたコンテキストバンディット,アクション間のグラフフィードバックの組み合わせ(bid),コンテキスト間のクロスラーニング(プライベート値),コンテキスト上の部分順序として定式化した。
我々は、この枠組みの強みと弱みの両立を立証し、反逆的文脈では不可能でありながら、アクション/コンテキストサイズからほぼ独立している後悔が可能であることを示す。
特に、このフレームワークは、入札者のプライベート値が \emph{iid} である場合、最初の価格のオークションに対して$O(\sqrt{T}\log^{2.5}T)$ regret をもたらす。
上記のフレームワークの限界にもかかわらず、一価オークションの特別報酬関数を更に活用し、反対に生成されたプライベート値が存在する場合でもサンプル効率のよいアルゴリズムを開発する。
我々は,このアルゴリズムに対して$O(\sqrt{T}\log^3 T)$ regret boundを定め,第一価格オークションにおける最適学習保証の完全な評価を提供する。 We study online learning in repeated first-price auctions where a bidder, only observing the winning bid at the end of each auction, learns to adaptively bid in order to maximize her cumulative payoff. To achieve this goal, the bidder faces censored feedback: if she wins the bid, then she is not able to observe the highest bid of the other bidders, which we assume is \textit{iid} drawn from an unknown distribution. In this paper, we develop the first learning algorithm that achieves a near-optimal $\widetilde{O}(\sqrt{T})$ regret bound, by exploiting two structural properties of first-price auctions, i.e. the specific feedback structure and payoff function. We first formulate the feedback structure in first-price auctions as partially ordered contextual bandits, a combination of the graph feedback across actions (bids), the cross learning across contexts (private values), and a partial order over the contexts. We establish both strengths and weaknesses of this framework, by showing a curious separation that a regret nearly independent of the action/context sizes is possible under stochastic contexts, but is impossible under adversarial contexts. In particular, this framework leads to an $O(\sqrt{T}\log^{2.5}T)$ regret for first-price auctions when the bidder's private values are \emph{iid}. Despite the limitation of the above framework, we further exploit the special payoff function of first-price auctions to develop a sample-efficient algorithm even in the presence of adversarially generated private values. We establish an $O(\sqrt{T}\log^3 T)$ regret bound for this algorithm, hence providing a complete characterization of optimal learning guarantees for first-price auctions. | 翻訳日:2024-03-07 04:38:19 公開日:2024-03-04 |
# 全スピン読み出しによる1軸ツイスト量子Cram\'{e}r-Rao結合の飽和 Saturating the one-axis twisting quantum Cram\'{e}r-Rao bound with a total spin readout ( http://arxiv.org/abs/2207.11462v3 ) ライセンス: Link先を確認 | T.J. Volkoff and Michael J. Martin | (参考訳) 1軸ねじれスピンコヒーレント状態を持つ干渉法において、最小の量子クレード(e)r-rao境界は、1軸ツイストへの1回の呼び出し、時間反転1軸ツイストへの呼び出し、最終的な全スピン測定(すなわちツイスト・アントウィストプロトコル)の漸近誤差法によって飽和していることを示す。
この結果は、まず、1軸ねじれのメロジカル位相図が1つの量子フィッシャー情報値$N(N+1)/2$で常に漸近的に特徴づけられ、その後、この値が飽和するモーメントの方法を持つツイスト・アンウィストプロトコルを構築することによって導かれる。
有限レンジ一軸ねじれの場合も同様に解析され、短レンジと長距離の相互作用状態の両方において、メトロジカル位相図の単純な関数形式が見つかる。
数値的な証拠は、ツイスト型プロトコルの有限レンジ類似は、すべての相互作用時間に対して有限レンジの1軸ツイストスピンコヒーレント状態と干渉法で達成可能な最低量子Cram\'{e}r-Rao境界を漸近的に飽和させるモーメント誤差の方法を示すことができることを示唆している。 We show that the lowest quantum Cram\'{e}r-Rao bound achievable in interferometry with a one-axis twisted spin coherent state is saturated by the asymptotic method of moments error of a protocol that uses one call to the one-axis twisting, one call to time-reversed one-axis twisting, and a final total spin measurement (i.e., a twist-untwist protocol). The result is derived by first showing that the metrological phase diagram for one-axis twisting is asymptotically characterized by a single quantum Fisher information value $N(N+1)/2$ for all times, then constructing a twist-untwist protocol having a method of moments error that saturates this value. The case of finite-range one-axis twisting is similarly analyzed, and a simple functional form for the metrological phase diagram is found in both the short-range and long-range interaction regimes. Numerical evidence suggests that the finite-range analogues of twist-untwist protocols can exhibit a method of moments error that asymptotically saturates the lowest quantum Cram\'{e}r-Rao bound achievable in interferometry with finite-range one-axis twisted spin coherent states for all interaction times. | 翻訳日:2024-03-07 04:32:29 公開日:2024-03-04 |
# CLMFormer: トランスフォーマーに基づく長期時系列予測システムの再活性化のためのデータ冗長化 CLMFormer: Mitigating Data Redundancy to Revitalize Transformer-based Long-Term Time Series Forecasting System ( http://arxiv.org/abs/2207.07827v4 ) ライセンス: Link先を確認 | Mingjie Li, Rui Liu, Guangsi Shi, Mingfei Han, Changling Li, Lina Yao, Xiaojun Chang, and Ling Chen | (参考訳) 時系列予測(LTSF)は様々な応用において重要な役割を果たす。
Transformerとその変種はLTSFの事実上のバックボーンとなり、長いシーケンスデータの処理に特有な機能を提供する。
しかし、Fedformer や Informer のような既存の Transformer ベースのモデルは、わずか数回で検証セット上で最高のパフォーマンスを達成し、Transformer のキャパシティを過小評価する可能性を示している。
この過剰適合に寄与する理由の1つは、データ拡張プロセスにおけるローリング予測設定から生じるデータ冗長性であり、特に非常に類似したデータを持つ長いシーケンスにおいて顕著である。
本稿では,カリキュラム学習とメモリ駆動型デコーダの導入により,この問題に対処する新しい手法を提案する。
具体的には,トレーニングサンプルにベルヌーイノイズを徐々に導入し,隣接するデータポイント間の類似度を効果的に破壊する。
予測精度をさらに高めるため,メモリ駆動デコーダを導入する。
このコンポーネントは、時系列データにおける季節傾向と依存関係をキャプチャし、時間的関係を利用して予測プロセスを促進する。
6つの実寿命ltsfベンチマークの実験結果から,本手法はトランスフォーマーモデルにシームレスに接続可能であり,本手法はトランスフォーマーモデルのltsf性能を最大30%向上させる。 Long-term time-series forecasting (LTSF) plays a crucial role in various practical applications. Transformer and its variants have become the de facto backbone for LTSF, offering exceptional capabilities in processing long sequence data. However, existing Transformer-based models, such as Fedformer and Informer, often achieve their best performances on validation sets after just a few epochs, indicating potential underutilization of the Transformer's capacity. One of the reasons that contribute to this overfitting is data redundancy arising from the rolling forecasting settings in the data augmentation process, particularly evident in longer sequences with highly similar adjacent data. In this paper, we propose a novel approach to address this issue by employing curriculum learning and introducing a memory-driven decoder. Specifically, we progressively introduce Bernoulli noise to the training samples, which effectively breaks the high similarity between adjacent data points. To further enhance forecasting accuracy, we introduce a memory-driven decoder. This component enables the model to capture seasonal tendencies and dependencies in the time-series data and leverages temporal relationships to facilitate the forecasting process. The experimental results on six real-life LTSF benchmarks demonstrate that our approach can be seamlessly plugged into varying Transformer-based models, with our approach enhancing the LTSF performances of various Transformer-based models by maximally 30%. | 翻訳日:2024-03-07 04:31:56 公開日:2024-03-04 |
# 対角化のためのダブルブラケット量子アルゴリズム Double-bracket quantum algorithms for diagonalization ( http://arxiv.org/abs/2206.11772v3 ) ライセンス: Link先を確認 | Marek Gluza | (参考訳) 本研究は、対角化量子回路を得るためのフレームワークとして二重ブラケット反復を提案する。
量子コンピュータ上のそれらの実装は、変分的に選択できる対角進化を持つ入力ハミルトニアンによって生成される包含進化からなる。
キュービットオーバーヘッドや制御単位演算は必要ないが、回路深さは再帰ステップの数に応じて指数関数的に増加する。
短期的な実装の実現を可能にするため、対角展開生成器の最適化と再帰段階の継続が提案されている。
実際、この数値的な例のおかげで、ダブルブラケット反復の表現力は、関連する量子モデルの固有状態をほとんど再帰的なステップで近似するのに十分である。
非構造回路のブルートフォース最適化と比較すると、ダブルブラケットの繰り返しは同じトレーサビリティの制限を受けない。
さらに、量子位相推定に必要よりも実装コストが低いため、短期的な量子コンピューティング実験に適している。
より広範に、この研究は、対角化とは異なるタスクのためのいわゆるダブルブラケットフローに基づく目的の量子アルゴリズムを構築するための経路を開き、実用的な物理問題に向けられた量子コンピューティングツールキットを拡大する。 This work proposes double-bracket iterations as a framework for obtaining diagonalizing quantum circuits. Their implementation on a quantum computer consists of interlacing evolutions generated by the input Hamiltonian with diagonal evolutions which can be chosen variationally. No qubit overheads or controlled-unitary operations are needed but the method is recursive which makes the circuit depth grow exponentially with the number of recursion steps. To make near-term implementations viable, the proposal includes optimization of diagonal evolution generators and of recursion step durations. Indeed, thanks to this numerical examples show that the expressive power of double-bracket iterations suffices to approximate eigenstates of relevant quantum models with few recursion steps. Compared to brute-force optimization of unstructured circuits double-bracket iterations do not suffer from the same trainability limitations. Moreover, with an implementation cost lower than required for quantum phase estimation they are more suitable for near-term quantum computing experiments. More broadly, this work opens a pathway for constructing purposeful quantum algorithms based on so-called double-bracket flows also for tasks different from diagonalization and thus enlarges the quantum computing toolkit geared towards practical physics problems. | 翻訳日:2024-03-07 04:31:31 公開日:2024-03-04 |
# カーネル正規化畳み込みネットワーク Kernel Normalized Convolutional Networks ( http://arxiv.org/abs/2205.10089v4 ) ライセンス: Link先を確認 | Reza Nasirigerdeh, Reihaneh Torkzadehmahani, Daniel Rueckert, Georgios Kaissis | (参考訳) 既存の畳み込みニューラルネットワークアーキテクチャは、モデルを効果的にトレーニングするためにバッチ正規化(BatchNorm)に依存することが多い。
しかし、BatchNormは小さなバッチサイズではパフォーマンスが悪く、差分プライバシーには適用できない。
これらの制限に対処するために、カーネル正規化(kernelnorm)とカーネル正規化畳み込み層を提案し、それらをカーネル正規化畳み込みネットワーク(knconvnets)にメインビルディングブロックとして組み込む。
我々は、BatchNormレイヤを転送しながら、最先端のResNetに対応するKNConvNetを実装します。
画像分類やセマンティクスセグメンテーションにおいて,knconvnetsはバッチノルムに比べて高い性能や競合性能を達成していることを示す。
また、非プライベートおよび差分プライベートトレーニングにおけるレイヤベースやグループ正規化など、バッチ非依存の競合相手を著しく上回っている。
これを踏まえると、KernelNormは、レイヤのバッチ独立性とグループ正規化と、BatchNormのパフォーマンス上の利点を組み合わせたものだ。 Existing convolutional neural network architectures frequently rely upon batch normalization (BatchNorm) to effectively train the model. BatchNorm, however, performs poorly with small batch sizes, and is inapplicable to differential privacy. To address these limitations, we propose the kernel normalization (KernelNorm) and kernel normalized convolutional layers, and incorporate them into kernel normalized convolutional networks (KNConvNets) as the main building blocks. We implement KNConvNets corresponding to the state-of-the-art ResNets while forgoing the BatchNorm layers. Through extensive experiments, we illustrate that KNConvNets achieve higher or competitive performance compared to the BatchNorm counterparts in image classification and semantic segmentation. They also significantly outperform their batch-independent competitors including those based on layer and group normalization in non-private and differentially private training. Given that, KernelNorm combines the batch-independence property of layer and group normalization with the performance advantage of BatchNorm. | 翻訳日:2024-03-07 04:29:58 公開日:2024-03-04 |
# 乳がん検診における多視点ハイパーコンプレックス学習 Multi-View Hypercomplex Learning for Breast Cancer Screening ( http://arxiv.org/abs/2204.05798v3 ) ライセンス: Link先を確認 | Eleonora Lopez, Eleonora Grassucci, Martina Valleriani, Danilo Comminiello | (参考訳) 伝統的に、乳がん分類のための深層学習法は単一視点解析を行う。
しかし,放射線科医はマンモグラフィ所見に含まれる相関関係から,マンモグラフィ検査を構成する4つの視点をすべて同時に分析し,腫瘍の同定に重要な情報を提供する。
これを踏まえ、いくつかの研究がマルチビュー手法を提案し始めている。
それにもかかわらず、既存のアーキテクチャでは、マンモグラムビューは分離した畳み込み枝によって独立した画像として処理されるため、それらの相関は失われる。
このような限界を克服するため,本稿では,パラメータ化ハイパーコンプレックスニューラルネットワークを用いた多視点乳癌分類のための方法論的アプローチを提案する。
超複素代数的性質のおかげで、我々のネットワークは、マンモグラムを構成する異なるビュー間の既存の相関をモデル化し、活用することができる。
これは、ハイパープレプレックスネットワークが、標準的なニューラルモデルのようなグローバルな特性と、実数値ネットワークがモデリングで失敗するビュー間相関のような局所的な関係の両方を捉えているためである。
PHResNets と PHYSEnet と PHYBOnet の 4 ビュー試験を行うために設計されたアーキテクチャを定義する。
公開データセットを用いて実施した広範囲な実験的評価により,提案したモデルが,提案したマルチビューアーキテクチャによる乳がん分類のメリットを証明し,実測値と最先端手法を明らかに上回ることを示す。
また, マンモグラム解析以外の方法の一般化を, 異なるベンチマークを考慮し, セグメンテーションなどの細かなタスクも検討した。
実験の完全な再現性のための完全なコードと事前訓練されたモデルは、https://github.com/ispamm/PHBreast.comで無料で利用可能です。 Traditionally, deep learning methods for breast cancer classification perform a single-view analysis. However, radiologists simultaneously analyze all four views that compose a mammography exam, owing to the correlations contained in mammography views, which present crucial information for identifying tumors. In light of this, some studies have started to propose multi-view methods. Nevertheless, in such existing architectures, mammogram views are processed as independent images by separate convolutional branches, thus losing correlations among them. To overcome such limitations, in this paper, we propose a methodological approach for multi-view breast cancer classification based on parameterized hypercomplex neural networks. Thanks to hypercomplex algebra properties, our networks are able to model, and thus leverage, existing correlations between the different views that comprise a mammogram, thus mimicking the reading process performed by clinicians. This happens because hypercomplex networks capture both global properties, as standard neural models, as well as local relations, i.e., inter-view correlations, which real-valued networks fail at modeling. We define architectures designed to process two-view exams, namely PHResNets, and four-view exams, i.e., PHYSEnet and PHYBOnet. Through an extensive experimental evaluation conducted with publicly available datasets, we demonstrate that our proposed models clearly outperform real-valued counterparts and state-of-the-art methods, proving that breast cancer classification benefits from the proposed multi-view architectures. We also assess the method generalizability beyond mammogram analysis by considering different benchmarks, as well as a finer-scaled task such as segmentation. Full code and pretrained models for complete reproducibility of our experiments are freely available at https://github.com/ispamm/PHBreast. | 翻訳日:2024-03-07 04:29:41 公開日:2024-03-04 |
# デジタルヘルスサービスの強化:パーソナライズされた運動目標設定のための機械学習アプローチ Enhancing Digital Health Services: A Machine Learning Approach to Personalized Exercise Goal Setting ( http://arxiv.org/abs/2204.00961v3 ) ライセンス: Link先を確認 | Ji Fang, Vincent CS Lee, Hao Ji, Haiyan Wang | (参考訳) 近年、デジタルヘルスの利用が増加しており、健康なライフスタイルを促進するために毎日の運動目標を設定して、ユーザに頻繁な運動を促すための広範なガイダンスを提供している。
これらの包括的なガイドは、様々なパーソナライズされた行動要因の考慮から進化した。
それにもかかわらず、既存のアプローチはユーザーの動的行動や健康状態の変化をしばしば無視している。
本研究は, ふりかえりデータと現実的な行動軌跡を用いて, 運動目標を動的に更新する機械学習アルゴリズムを開発することで, このギャップを埋めることを目的とする。
運動能力評価のための深層強化学習アルゴリズムを,適合度・疲労効果を考慮した手法として設計した。
深層強化学習アルゴリズムは、深層学習技術を組み合わせて時系列データを分析し、ユーザの運動行動を推測する。
さらに,強化学習のための非同期アドバンテージアクタ-クリティックアルゴリズムを用いて,探索と搾取による最適運動強度を判定する。
この研究で使用される個人化された運動データと生体計測データは、歩行、スポーツログ、ランニングを含む公開データセットから収集された。
本研究では,運動目標設定における機械学習手法の有効性を,異なる運動目標設定戦略で比較するため,統計的解析・推論テストを行った。 The utilization of digital health has increased recently, and these services provide extensive guidance to encourage users to exercise frequently by setting daily exercise goals to promote a healthy lifestyle. These comprehensive guides evolved from the consideration of various personalized behavioral factors. Nevertheless, existing approaches frequently neglect the users dynamic behavior and the changing in their health conditions. This study aims to fill this gap by developing a machine learning algorithm that dynamically updates auto-suggestion exercise goals using retrospective data and realistic behavior trajectory. We conducted a methodological study by designing a deep reinforcement learning algorithm to evaluate exercise performance, considering fitness-fatigue effects. The deep reinforcement learning algorithm combines deep learning techniques to analyse time series data and infer user exercise behavior. In addition, we use the asynchronous advantage actor-critic algorithm for reinforcement learning to determine the optimal exercise intensity through exploration and exploitation. The personalized exercise data and biometric data used in this study were collected from publicly available datasets, encompassing walking, sports logs, and running. In our study, we conducted The statistical analyses/inferential tests to compare the effectiveness of machine learning approach in exercise goal setting across different exercise goal setting strategies. | 翻訳日:2024-03-07 04:28:10 公開日:2024-03-04 |
# 擬微分ニューラル演算子:偏微分方程式の解演算子学習のための一般化フーリエニューラル演算子 Pseudo-Differential Neural Operator: Generalized Fourier Neural Operator for Learning Solution Operators of Partial Differential Equations ( http://arxiv.org/abs/2201.11967v3 ) ライセンス: Link先を確認 | Jin Young Shin, Jae Yong Lee, Hyung Ju Hwang | (参考訳) 2つの関数空間間のマッピングを学ぶことは、かなりの研究の注目を集めている。
しかし、偏微分方程式(PDE)の解演算子を学ぶことは科学計算の課題である。
フーリエニューラル演算子(FNO)は、最近、解演算子を学ぶために提案され、優れた性能を達成した。
本研究では,fno におけるフーリエ積分作用素を解析・一般化する新しい \textit{pseudo-differential integral operator} (pdio) を提案する。
PDIOは、ある記号によって特徴づけられる一般化微分作用素である擬微分作用素にインスパイアされている。
ニューラルネットワークを用いてこのシンボルをパラメータ化し、ニューラルネットワークに基づくシンボルがスムーズなシンボルクラスに含まれることを示す。
その後、PDIO が有界線型作用素であることを確認し、従ってソボレフ空間において連続である。
PDIOとニューラル演算子を組み合わせて, PDNO(textit{pseudo-differential neural operator})を開発し, PDEの非線形解演算子を学習する。
提案モデルの有効性をDarcyフローとNavier-Stokes方程式を用いて実験的に検証した。
その結果,提案するpdnoは既存のニューラルオペレータのアプローチに匹敵することがわかった。 Learning the mapping between two function spaces has garnered considerable research attention. However, learning the solution operator of partial differential equations (PDEs) remains a challenge in scientific computing. Fourier neural operator (FNO) was recently proposed to learn solution operators, and it achieved an excellent performance. In this study, we propose a novel \textit{pseudo-differential integral operator} (PDIO) to analyze and generalize the Fourier integral operator in FNO. PDIO is inspired by a pseudo-differential operator, which is a generalized differential operator characterized by a certain symbol. We parameterize this symbol using a neural network and demonstrate that the neural network-based symbol is contained in a smooth symbol class. Subsequently, we verify that the PDIO is a bounded linear operator, and thus is continuous in the Sobolev space. We combine the PDIO with the neural operator to develop a \textit{pseudo-differential neural operator} (PDNO) and learn the nonlinear solution operator of PDEs. We experimentally validate the effectiveness of the proposed model by utilizing Darcy flow and the Navier-Stokes equation. The obtained results indicate that the proposed PDNO outperforms the existing neural operator approaches in most experiments. | 翻訳日:2024-03-07 04:26:55 公開日:2024-03-04 |
# 可変超伝導量子ビットを用いた量子センシング:最適化と高速化 Quantum sensing with tunable superconducting qubits: optimization and speed-up ( http://arxiv.org/abs/2211.08344v4 ) ライセンス: Link先を確認 | Sergey Danilin, Nicholas Nugent, Martin Weides | (参考訳) センシングとメトロロジーは、より正確なデータセットの必要性を常に満たし、研究者が理論モデルの妥当性についてより信頼できる結論を出すことによって、基礎科学や応用において重要な役割を果たす。
センサーはユビキタスです。
これらは重力イメージング、地質学、ナビゲーション、セキュリティ、タイムキーピング、分光、化学、磁気測定、医療、医療など幅広い分野のアプリケーションで使われている。
量子技術の現在の進歩は、必然的に新しい能力を持つセンサーとしての量子システムの使用を探求するきっかけとなった。
本稿では、波長可変トランスモン量子ビットセンサを用いたキタエフ位相推定アルゴリズムによる外部磁束の量子エンハンスセンシングの最適化について述べる。
最大量子ビット遷移周波数の異なるセンサに対して最適なフラックス偏差点を提供する。
所定の設計に対してデコヒーレンス率の推定を行う。
センシングに2-$と3-$qubitのエンタングル状態を使用することは、単一のqubitケースとシミュレーションで比較される。
フラックスセンシング精度は10^{-8}\cdot\Phi_0$に達し、時間とともに$\sim\ 1/t$とスケールする。 Sensing and metrology play an important role in fundamental science and applications by fulfilling the ever-present need for more precise data sets and by allowing researchers to make more reliable conclusions on the validity of theoretical models. Sensors are ubiquitous. They are used in applications across a diverse range of fields including gravity imaging, geology, navigation, security, timekeeping, spectroscopy, chemistry, magnetometry, healthcare, and medicine. Current progress in quantum technologies has inevitably triggered the exploration of the use of quantum systems as sensors with new and improved capabilities. This article describes the optimization of the quantum-enhanced sensing of external magnetic fluxes with a Kitaev phase estimation algorithm based on a sensor with tunable transmon qubits. It provides the optimal flux biasing point for sensors with different maximal qubit transition frequencies. An estimation of decoherence rates is made for a given design. The use of $2-$ and $3-$qubit entangled states for sensing are compared in simulation with the single qubit case. The flux sensing accuracy reaches $10^{-8}\cdot\Phi_0$ and scales with time as $\sim\ 1/t$ which proves the speed-up of sensing with high ultimate accuracy. | 翻訳日:2024-03-07 04:20:48 公開日:2024-03-04 |
# SMiLE:知識グラフリンク予測のためのスキーマ強化マルチレベルコントラスト学習 SMiLE: Schema-augmented Multi-level Contrastive Learning for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2210.04870v3 ) ライセンス: Link先を確認 | Miao Peng, Ben Liu, Qianqian Xie, Wenjie Xu, Hua Wang, Min Peng | (参考訳) リンク予測は知識グラフにおけるエンティティ間の欠落リンクを推測するタスクである。
埋め込みに基づく手法は三重項間の関係パターンをモデル化することでこの問題に対処する効果を示した。
しかし、リンク予測タスクはエンティティの近傍でコンテキスト情報を必要とすることが多いが、既存の埋め込み方式ではそれを捕捉できない。
さらに、異なる文脈における実体表現の多様性にはほとんど注意が払われず、しばしば誤った予測結果をもたらす。
このような状況下では,知識グラフのスキーマには特定の文脈情報が含まれており,文脈間のエンティティの一貫性を保つのに有用であると考えられる。
本稿では,知識グラフリンク予測を行うためのSMILE(Schema-augmented Multi-level contrastive LEarning framework)を提案する。
具体的には,まずネットワークスキーマを事前の制約として活用し,事前のスキーマ情報と文脈情報の両方を得るための多レベルコントラスト学習手法を用いて,事前学習を行った。
次に、各トリプルの監督の下でモデルを微調整し、リンク予測のための微妙な表現を学習する。
各コンポーネントを徹底的に分析した4つの知識グラフデータセットの大規模な実験結果から,提案手法の有効性が示された。
SMiLEの実装はhttps://github.com/GKNL/SMiLEで公開されている。 Link prediction is the task of inferring missing links between entities in knowledge graphs. Embedding-based methods have shown effectiveness in addressing this problem by modeling relational patterns in triples. However, the link prediction task often requires contextual information in entity neighborhoods, while most existing embedding-based methods fail to capture it. Additionally, little attention is paid to the diversity of entity representations in different contexts, which often leads to false prediction results. In this situation, we consider that the schema of knowledge graph contains the specific contextual information, and it is beneficial for preserving the consistency of entities across contexts. In this paper, we propose a novel Schema-augmented Multi-level contrastive LEarning framework (SMiLE) to conduct knowledge graph link prediction. Specifically, we first exploit network schema as the prior constraint to sample negatives and pre-train our model by employing a multi-level contrastive learning method to yield both prior schema and contextual information. Then we fine-tune our model under the supervision of individual triples to learn subtler representations for link prediction. Extensive experimental results on four knowledge graph datasets with thorough analysis of each component demonstrate the effectiveness of our proposed framework against state-of-the-art baselines. The implementation of SMiLE is available at https://github.com/GKNL/SMiLE. | 翻訳日:2024-03-07 04:19:24 公開日:2024-03-04 |
# 特徴属性記述器における境界認識の不確かさ Boundary-Aware Uncertainty for Feature Attribution Explainers ( http://arxiv.org/abs/2210.02419v5 ) ライセンス: Link先を確認 | Davin Hill, Aria Masoomi, Max Torop, Sandesh Ghimire, Jennifer Dy | (参考訳) ポストホックな説明手法は、高スループットアプリケーションにおいてブラックボックス分類器を理解する上で重要なツールとなっている。
しかし、ハイパフォーマンスな分類器は、しばしば高度に非線形であり、決定境界付近で複雑な振る舞いを示し、不安定で誤解を招く局所的な説明につながる。
そのため、この説明方法の不確かさを定量化し、いつ説明が信頼できるかを理解する必要性が差し迫っている。
本稿では,決定境界認識の不確実性と説明関数近似不確実性を組み合わせた統一不確実性推定を生成するガウス過程説明不確実性(gpec)フレームワークを提案する。
対象のブラックボックス決定境界の複雑さを捉えた新しい測地線ベースのカーネルを提案する。
提案するカーネルの類似性は,決定境界の複雑さによって増大することを示す。
提案するフレームワークは非常に柔軟で,ブラックボックス分類器や特徴属性法で使用することができる。
複数の表と画像のデータセットに対する実験結果から,GPECの不確実性推定は既存手法と比較して説明の理解を向上させることが示された。 Post-hoc explanation methods have become a critical tool for understanding black-box classifiers in high-stakes applications. However, high-performing classifiers are often highly nonlinear and can exhibit complex behavior around the decision boundary, leading to brittle or misleading local explanations. Therefore there is an impending need to quantify the uncertainty of such explanation methods in order to understand when explanations are trustworthy. In this work we propose the Gaussian Process Explanation UnCertainty (GPEC) framework, which generates a unified uncertainty estimate combining decision boundary-aware uncertainty with explanation function approximation uncertainty. We introduce a novel geodesic-based kernel, which captures the complexity of the target black-box decision boundary. We show theoretically that the proposed kernel similarity increases with decision boundary complexity. The proposed framework is highly flexible; it can be used with any black-box classifier and feature attribution method. Empirical results on multiple tabular and image datasets show that the GPEC uncertainty estimate improves understanding of explanations as compared to existing methods. | 翻訳日:2024-03-07 04:19:03 公開日:2024-03-04 |
# 仮想キメラの個体群を合成する生成的形状構成フレームワーク A Generative Shape Compositional Framework to Synthesise Populations of Virtual Chimaeras ( http://arxiv.org/abs/2210.01607v2 ) ライセンス: Link先を確認 | Haoran Dou, Seppo Virtanen, Nishant Ravikumar, Alejandro F. Frangi | (参考訳) 医療機器のシリコン内試験を行うには、十分な変動を捉えつつ、可視性を維持した解剖学の仮想集団を生成することが不可欠である。
しかし、すべての解剖学的形態が、人口の個体ごとに常に利用できるわけではない。
したがって、欠如/部分的重複した解剖学的情報は、集団内の個人間でしばしば利用可能である。
複雑な解剖学的構造に対する生成的形状モデルを導入し、未ペアデータセットのデータセットから学習する。
提案する生成モデルは、自然のヒトのキメラとは対照的に、仮想キメラを造った完全な複雑な形状集合を合成することができる。
本フレームワークを応用し,心サブストラクチャのサンプルに寄与する全身形状の集合体データベースから仮想キメラを構築する。
具体的には,訓練集団の関心構造毎に観察される形状の変動を捉える部分認識生成型モデルと,前者が合成した構造を多元的な形状集合体として組み立て,構成する空間構成ネットワークの2つの構成要素からなる生成型合成フレームワークを提案する(viz. virtual chimaeras)。
また,空間構成ネットワークを部分的に重なり合うデータと弱いラベルで訓練できる,新しい自己教師あり学習方式を提案する。
イギリスのバイオバンクで利用可能な心磁気共鳴画像から得られた心臓構造の形状を用いて,このアプローチを訓練し,検証した。
本手法は汎用性と特異性の観点からpcaベースの形状モデル(完全データで学習)を著しく上回っている。
これは, 合成心室仮想集団は, pcaベースの形状モデルによって生成されるものよりも, 形状変化の度合いが高いため, 提案手法が優れていることを示す。 Generating virtual populations of anatomy that capture sufficient variability while remaining plausible is essential for conducting in-silico trials of medical devices. However, not all anatomical shapes of interest are always available for each individual in a population. Hence, missing/partially-overlapping anatomical information is often available across individuals in a population. We introduce a generative shape model for complex anatomical structures, learnable from datasets of unpaired datasets. The proposed generative model can synthesise complete whole complex shape assemblies coined virtual chimaeras, as opposed to natural human chimaeras. We applied this framework to build virtual chimaeras from databases of whole-heart shape assemblies that each contribute samples for heart substructures. Specifically, we propose a generative shape compositional framework which comprises two components - a part-aware generative shape model which captures the variability in shape observed for each structure of interest in the training population; and a spatial composition network which assembles/composes the structures synthesised by the former into multi-part shape assemblies (viz. virtual chimaeras). We also propose a novel self supervised learning scheme that enables the spatial composition network to be trained with partially overlapping data and weak labels. We trained and validated our approach using shapes of cardiac structures derived from cardiac magnetic resonance images available in the UK Biobank. Our approach significantly outperforms a PCA-based shape model (trained with complete data) in terms of generalisability and specificity. This demonstrates the superiority of the proposed approach as the synthesised cardiac virtual populations are more plausible and capture a greater degree of variability in shape than those generated by the PCA-based shape model. | 翻訳日:2024-03-07 04:18:44 公開日:2024-03-04 |
# 説明可能な人工知能のための因果関係に基づく分類法 Causality-Inspired Taxonomy for Explainable Artificial Intelligence ( http://arxiv.org/abs/2208.09500v2 ) ライセンス: Link先を確認 | Pedro C. Neto, Tiago Gon\c{c}alves, Jo\~ao Ribeiro Pinto, Wilson Silva, Ana F. Sequeira, Arun Ross, Jaime S. Cardoso | (参考訳) 同じ硬貨の2つの側面として、因果関係と説明可能な人工知能(xAI)が最初に提案され、異なる目的で開発された。
しかし、後者は因果関係の枠組みのレンズを通して見ることでのみ完結することができる。
そこで本研究では,xAI アプローチ開発のための環境を創出する,xAI の因果性に着想を得た新しいフレームワークを提案する。
その適用性を示すために、バイオメトリックスはケーススタディとして使用された。
このために、生体計測の多様さと様々なタスクに関する81の研究論文を分析した。
我々は,これら各手法を,新しいxAIラダーに基づいて分類し,今後の方向性について考察した。 As two sides of the same coin, causality and explainable artificial intelligence (xAI) were initially proposed and developed with different goals. However, the latter can only be complete when seen through the lens of the causality framework. As such, we propose a novel causality-inspired framework for xAI that creates an environment for the development of xAI approaches. To show its applicability, biometrics was used as case study. For this, we have analysed 81 research papers on a myriad of biometric modalities and different tasks. We have categorised each of these methods according to our novel xAI Ladder and discussed the future directions of the field. | 翻訳日:2024-03-07 04:17:16 公開日:2024-03-04 |
# 準カオス量子スクランブラのための効率的なデコーダの学習 Learning efficient decoders for quasi-chaotic quantum scramblers ( http://arxiv.org/abs/2212.11338v4 ) ライセンス: Link先を確認 | Lorenzo Leone, Salvatore F.E. Oliviero, Seth Lloyd and Alioscia Hamma | (参考訳) 量子情報のスクランブルは、ランダム化とベンチマークプロトコル、量子カオスの開始、ブラックホール物理学の根底にある重要な特徴である。
scrambler [arxiv:1710.03363] の完全な知識があれば、この情報をスクランブルすることもできます。
従来のスクランブラーの知識がなくても,効率的なデコーダの構築を可能にする学習アルゴリズムにより,スクランブル情報を検索できることを示す。
驚くべきことに、デコーダは古典的コンピュータ上でクリフォード演算子として効率的に表現できるという意味では古典的である。
古典的なデコーダは、完全な量子カオスがなければ、古典的なコンピュータでは効率的にシミュレートできないランダムなユニタリによってスクランブルされた情報の1つを忠実に検索できる。
この結果は、量子ユニタリのサルエント性質を古典形式に学習することができ、量子カオスの意味に新しい光を当てることを示している。
さらに,t$ドープクリフォード回路の代数的構造,すなわち,t非クリフォードゲートを含むクリフォード回路,それらのゲート複雑性,および独立興味を持つ学習可能性に関する結果を得る。
特に、$t$ドープされたクリフォード回路$U_t$は、局所ユニタリ作用素$u_t$、すなわち$U_t=U_{0} u_{t}U_{0}^{\prime}$をサンドイッチする2つのクリフォード回路$U_{0},U^{\prime}_0$に分解できることを示す。
局所ユニタリ作用素 $u_t$ は、非クリフォードゲート$t$を含み、少なくとも$t$ qubits では自明に作用する。
単純な系として、$t$-doped clifford回路のゲート複雑性は$o(n^2+t^3)$であり、$\mathrm{poly}(n,2^t)$リソースを用いた効率的なプロセストモグラフィーが認められる。 Scrambling of quantum information is an important feature at the root of randomization and benchmarking protocols, the onset of quantum chaos, and black-hole physics. Unscrambling this information is possible given perfect knowledge of the scrambler [arXiv:1710.03363.]. We show that one can retrieve the scrambled information even without any previous knowledge of the scrambler, by a learning algorithm that allows the building of an efficient decoder. Remarkably, the decoder is classical in the sense that it can be efficiently represented on a classical computer as a Clifford operator. It is striking that a classical decoder can retrieve with fidelity one all the information scrambled by a random unitary that cannot be efficiently simulated on a classical computer, as long as there is no full-fledged quantum chaos. This result shows that one can learn the salient properties of quantum unitaries in a classical form, and sheds a new light on the meaning of quantum chaos. Furthermore, we obtain results concerning the algebraic structure of $t$-doped Clifford circuits, i.e., Clifford circuits containing t non-Clifford gates, their gate complexity, and learnability that are of independent interest. In particular, we show that a $t$-doped Clifford circuit $U_t$ can be decomposed into two Clifford circuits $U_{0},U^{\prime}_0$ that sandwich a local unitary operator $u_t$, i.e., $U_t=U_{0} u_{t}U_{0}^{\prime}$. The local unitary operator $u_t$ contains $t$ non-Clifford gates and acts nontrivially on at most $t$ qubits. As simple corollaries, the gate complexity of the $t$-doped Clifford circuit $U_t$ is $O(n^2+t^3)$, and it admits a efficient process tomography using $\mathrm{poly}(n,2^t)$ resources. | 翻訳日:2024-03-07 04:10:03 公開日:2024-03-04 |
# クリフォードデコーダによる量子情報のスクランブル化 Unscrambling Quantum Information with Clifford decoders ( http://arxiv.org/abs/2212.11337v5 ) ライセンス: Link先を確認 | Salvatore F.E. Oliviero, Lorenzo Leone, Seth Lloyd and Alioscia Hamma | (参考訳) 量子情報スクランブル(quantum information scrambling)は、局所的な相関を破壊し、システム全体に情報を拡散し、非局所的な自由度にそれを効果的に隠蔽する単一プロセスである。
原理的には、この情報を解き放つことはユニタリ力学(B. Yoshida and A. Kitaev, arXiv:1710.03363.)の完全な知識で可能である。
しかし、このレターは、内部力学の以前の知識がなくても、ローカルサブシステムの外部情報を監視することで、未知のスクランブラから情報を効率的に復号できることを示した。
驚くべきことに、未知の内部ダイナミクスを持つスクランブラは、急速に混合されているが完全にカオスではないため、クリフォードデコーダを用いて復号化可能である。
スクランブルユニタリの本質的性質は指数関数的に複雑であっても効率的に回復することができる。
特に、$t$非クリフォードゲートからなるユニタリ演算子は、$t\le n$までクリフォードデコーダを認めている。 Quantum information scrambling is a unitary process that destroys local correlations and spreads information throughout the system, effectively hiding it in nonlocal degrees of freedom. In principle, unscrambling this information is possible with perfect knowledge of the unitary dynamics [B. Yoshida and A. Kitaev, arXiv:1710.03363.]. However, this Letter demonstrates that even without previous knowledge of the internal dynamics, information can be efficiently decoded from an unknown scrambler by monitoring the outgoing information of a local subsystem. Surprisingly, we show that scramblers with unknown internal dynamics, which are rapidly mixing but not fully chaotic, can be decoded using Clifford decoders. The essential properties of a scrambling unitary can be efficiently recovered, even if the process is exponentially complex. Specifically, we establish that a unitary operator composed of $t$ non-Clifford gates admits a Clifford decoder up to $t\le n$. | 翻訳日:2024-03-07 04:09:19 公開日:2024-03-04 |
# 開量子光学系における非平衡熱力学と発電 Nonequilibrium thermodynamics and power generation in open quantum optomechanical systems ( http://arxiv.org/abs/2212.10194v2 ) ライセンス: Link先を確認 | Paulo J. Paulino, Igor Lesanovsky, Federico Carollo | (参考訳) キャビティ光力学システムは、電磁エネルギーを機械作業に変換するためのパラダイム的設定である。
キャビティモードに結合した原子の実験は非平衡状態において実現され、非熱的散逸ダイナミクスをエンコードし、弱い系-バスカップリングの枠組みの外へ落下する現象論的モデルによって記述される。
この事実は量子エンジンとして解釈する(例えば、明確に定義された効率の導出)。
ここでは、開量子空洞-原子系の一貫した熱力学的記述を示す。
我々のアプローチは、その非平衡の性質を生かし、持続的な放熱電流の観点から完全に解釈可能なエネルギー収支に達する。
原子とキャビティモードの相互作用は、さらに非平衡相転移と創発的挙動を生じさせ、集合的多体現象がエンジン操作に与える影響を評価することができる。
これを実現するために、弱と強光力学的結合に関する2つの熱力学的限界を定義する。
我々は, 時間結晶エンジンに着目したアイデアを説明し, 発電, エネルギー変換効率, メタ安定挙動の出現について考察する。 Cavity optomechanical systems are a paradigmatic setting for the conversion of electromagnetic energy into mechanical work. Experiments with atoms coupled to cavity modes are realized in nonequilibrium conditions, described by phenomenological models encoding non-thermal dissipative dynamics and falling outside the framework of weak system-bath couplings. This fact makes their interpretation as quantum engines, e.g., the derivation of a well-defined efficiency, quite challenging. Here, we present a consistent thermodynamic description of open quantum cavity-atom systems. Our approach takes advantage of their nonequilibrium nature and arrives at an energetic balance which is fully interpretable in terms of persistent dissipated heat currents. The interaction between atoms and cavity modes can further give rise to nonequilibrium phase transitions and emergent behavior and allows to assess the impact of collective many-body phenomena on the engine operation. To enable this, we define two thermodynamic limits related to a weak and to a strong optomechanical coupling, respectively. We illustrate our ideas focussing on a time-crystal engine and discuss power generation, energy-conversion efficiency, and emergence of metastable behavior in both limits. | 翻訳日:2024-03-07 04:09:01 公開日:2024-03-04 |
# 臨界不安定二層系の量子コヒーレンス Quantum Coherence of Critical Unstable Two-Level Systems ( http://arxiv.org/abs/2212.06031v3 ) ライセンス: Link先を確認 | Dimitrios Karamitros, Thomas McKelvey, Apostolos Pilaftsis | (参考訳) 量子ビットのブロッホ球形式を用いて不安定な2レベル量子系の力学を詳細に研究する。
このような不安定な量子ビット系のブロッホベクトル表現を用いることで、いわゆるエネルギーレベルベクトルと減衰幅ベクトルである ${\bf e}$ と ${\bf\gamma}$ が互いに直交し、パラメータ $r = |{\bf \gamma}|/(2|{\bf e}|)$ が 1 未満となるような、新しい臨界シナリオのクラスを特定する。
最も驚くべきことに、臨界不安定な量子ビット系は、システムの適切に定義された共沈系で解析された場合、コヒーレンス・デコヒーレンス振動のような非定型的な振る舞いを示す。
同じフレームで、純粋な臨界量子ビットを記述する単位ブロッホベクトル ${\bf b}$ は、同じ時間間隔で不等な領域を掃き、一方、ベクトル ${\bf e}$ の周りで回転する。
これらの現象は、2レベル量子系のエネルギーレベル差によって通常の振動パターンを越えて現れる。
興味深いことに、これらの新機能は準クリティカルなシナリオでも継続するので、ベクトル ${\bf e}$ と ${\bf\gamma}$ は互いに完全に直交するものではない。
量子情報および不安定な中間子-アタイムソンおよび他のシステムへの適用について論じる。 We study in detail the dynamics of unstable two-level quantum systems by adopting the Bloch-sphere formalism of qubits. By employing the Bloch-vector representation for such unstable qubit systems, we identify a novel class of critical scenarios in which the so-called energy-level and decay-width vectors, ${\bf E}$ and ${\bf\Gamma}$, are orthogonal to one another, and the parameter $r = |{\bf \Gamma}|/(2|{\bf E}|)$ is less than 1. Most remarkably, we find that critical unstable qubit systems exhibit atypical behaviours like coherence--decoherence oscillations when analysed in an appropriately defined co-decaying frame of the system. In the same frame, a unit Bloch vector ${\bf b}$ describing a pure critical qubit will sweep out unequal areas during equal intervals of time, while rotating about the vector ${\bf E}$. These phenomena emerge beyond the usual oscillatory pattern due to the energy-level difference of the two-level quantum system. Interestingly enough, we observe that these new features will persist even for quasi-critical scenarios, in which the vectors ${\bf E}$ and ${\bf\Gamma}$ are not perfectly orthogonal to each other. Applications of our results to quantum information and to unstable meson--antimeson and other systems are discussed. | 翻訳日:2024-03-07 04:08:21 公開日:2024-03-04 |
# 伝達型敵攻撃におけるモデルアンサンブルの再考 Rethinking Model Ensemble in Transfer-based Adversarial Attacks ( http://arxiv.org/abs/2303.09105v2 ) ライセンス: Link先を確認 | Huanran Chen, Yichi Zhang, Yinpeng Dong, Xiao Yang, Hang Su, Jun Zhu | (参考訳) ディープラーニングモデルには、敵対的な例に対する堅牢性がないことが広く認識されている。
相反する例の興味深い特性は、異なるモデルにまたがって転送できることであり、被害者のモデルを知ることなくブラックボックス攻撃を可能にする。
転送性を改善する効果的な戦略は、モデルのアンサンブルを攻撃することである。
しかし、以前の作品では、異なるモデルの出力を平均化しており、モデルアンサンブルメソッドが転送可能性を強く改善できる理由と方法に関する詳細な分析を欠いている。
本稿では,敵攻撃におけるアンサンブルを再考し,モデルアンサンブルの共通弱点を2つの特性で定義する。
1)損失景観の平坦性,及び
2)各モデルの局所的最適度との密接性。
両特性が伝達可能性と強く相関していることを実証的および理論的に示し,これら2つの特性を促進させることにより,より伝達可能な逆例を生成する共通弱攻撃(CWA)を提案する。
画像分類と物体検出の両タスクの実験結果から, 対向的伝達性向上へのアプローチの有効性が検証された。
また,本手法を応用して,実効性を示すgoogleのbardであるblack-box large vision-languageモデルにも適用した。
コードは \url{https://github.com/huanranchen/adversarialattacks}で入手できる。 It is widely recognized that deep learning models lack robustness to adversarial examples. An intriguing property of adversarial examples is that they can transfer across different models, which enables black-box attacks without any knowledge of the victim model. An effective strategy to improve the transferability is attacking an ensemble of models. However, previous works simply average the outputs of different models, lacking an in-depth analysis on how and why model ensemble methods can strongly improve the transferability. In this paper, we rethink the ensemble in adversarial attacks and define the common weakness of model ensemble with two properties: 1) the flatness of loss landscape; and 2) the closeness to the local optimum of each model. We empirically and theoretically show that both properties are strongly correlated with the transferability and propose a Common Weakness Attack (CWA) to generate more transferable adversarial examples by promoting these two properties. Experimental results on both image classification and object detection tasks validate the effectiveness of our approach to improving the adversarial transferability, especially when attacking adversarially trained models. We also successfully apply our method to attack a black-box large vision-language model -- Google's Bard, showing the practical effectiveness. Code is available at \url{https://github.com/huanranchen/AdversarialAttacks}. | 翻訳日:2024-03-07 04:01:10 公開日:2024-03-04 |
# CFR-ICL:インタラクティブ画像セグメンテーションのための反復クリックロスを用いたカスケードフォワードリファインメント CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for Interactive Image Segmentation ( http://arxiv.org/abs/2303.05620v2 ) ライセンス: Link先を確認 | Shoukun Sun, Min Xian, Fei Xu, Luca Capriotti, Tiankai Yao | (参考訳) クリックベースのインタラクティブセグメンテーションは、ユーザクリックのガイダンスで画像から興味の対象を抽出することを目的としている。
最近の作業は、アウトプットからのフィードバックを利用することで、全体的なパフォーマンスを実現しています。
しかし、ほとんどの最先端のアプローチでは。
1) 推論段階は, 柔軟性のないヒューリスティックな規則を伴い, 個別の細分化モデルが必要となる。
2)ユーザのクリック数とモデルパフォーマンスはバランスが取れない。
そこで,本研究では,cfr(カスケードフォワードリファインメント),icl(反復クリック損失),sesem画像拡張の3つの新しいコンポーネントを含む,クリックベースおよびマスクガイドによるインタラクティブ画像セグメンテーションフレームワークを提案する。
CFRは、セグメンテーション結果を粗い方法で生成する統合推論フレームワークを提供する。
提案したICLでは,モデルのトレーニングによりセグメンテーションを改善し,ユーザインタラクションを同時に低減することができる。
提案手法は,インタラクティブな画像セグメンテーションのための大規模かつ多様なトレーニングセットを作成するための包括的手法である。
大規模な実験は、5つの公開データセットに対する提案手法の最先端性能を示す。
注目すべきことに、我々のモデルは、バークレーとDAVISの以前の最先端アプローチにおいて、それぞれ0.95のIoUを超えるために必要なクリック数(クリック数)を33.2\%、および15.5\%削減する。 The click-based interactive segmentation aims to extract the object of interest from an image with the guidance of user clicks. Recent work has achieved great overall performance by employing feedback from the output. However, in most state-of-the-art approaches, 1) the inference stage involves inflexible heuristic rules and requires a separate refinement model, and 2) the number of user clicks and model performance cannot be balanced. To address the challenges, we propose a click-based and mask-guided interactive image segmentation framework containing three novel components: Cascade-Forward Refinement (CFR), Iterative Click Loss (ICL), and SUEM image augmentation. The CFR offers a unified inference framework to generate segmentation results in a coarse-to-fine manner. The proposed ICL allows model training to improve segmentation and reduce user interactions simultaneously. The proposed SUEM augmentation is a comprehensive way to create large and diverse training sets for interactive image segmentation. Extensive experiments demonstrate the state-of-the-art performance of the proposed approach on five public datasets. Remarkably, our model reduces by 33.2\%, and 15.5\% the number of clicks required to surpass an IoU of 0.95 in the previous state-of-the-art approach on the Berkeley and DAVIS sets, respectively. | 翻訳日:2024-03-07 04:00:48 公開日:2024-03-04 |
# 安定化剤エントロピーの相転移と効率的な純度推定 Phase transition in Stabilizer Entropy and efficient purity estimation ( http://arxiv.org/abs/2302.07895v3 ) ライセンス: Link先を確認 | Lorenzo Leone, Salvatore F. E. Oliviero, Gianluca Esposito, Alioscia Hamma | (参考訳) 安定化器エントロピー(SE)は、パウリ作用素に基づいて状態の拡散を定量化する。
非安定化性の計算可能な尺度であり、量子計算に有用な資源である。
seは量子システムの周りを移動でき、その複雑な特徴からサブシステムを効果的に浄化することができる。
残余サブシステムseに非クリフォード資源の密度関数としての相転移が存在することを示す。
このフェーズ遷移は、$poly(n)exp(t)$多くのクエリを必要とするサブシステム純度推定プロトコルの開始を印字し、安定化状態から状態に備える$t$非クリフォードゲートを含む回路に印をつける。
そして、$t=O(\log_2 n)$の場合、多項式資源による純度を推定し、高い絡み合った状態に対しては、既知の最先端アルゴリズムよりも指数的なスピードアップを達成する。 Stabilizer Entropy (SE) quantifies the spread of a state in the basis of Pauli operators. It is a computationally tractable measure of non-stabilizerness and thus a useful resource for quantum computation. SE can be moved around a quantum system, effectively purifying a subsystem from its complex features. We show that there is a phase transition in the residual subsystem SE as a function of the density of non-Clifford resources. This phase transition has important operational consequences: it marks the onset of a subsystem purity estimation protocol that requires $poly(n)exp(t)$ many queries to a circuit containing $t$ non-Clifford gates that prepares the state from a stabilizer state. Then, for $t=O(\log_2 n)$, it estimates the purity with polynomial resources and, for highly entangled states, attains an exponential speed-up over the known state-of-the-art algorithms. | 翻訳日:2024-03-07 03:59:31 公開日:2024-03-04 |
# 二重量子井戸を用いた微小キャビティの強い機械的スクイーズ Strong mechanical squeezing in microcavity with double quantum wells ( http://arxiv.org/abs/2302.00534v3 ) ライセンス: Link先を確認 | Muhammad Asjad, Berihu Teklu, and Hichem Eleuch | (参考訳) 二色レーザーで励起された移動端ミラーを備えたキャビティ内に2つの量子井戸を配置したハイブリッド量子システムにおいて、メカニカル共振器のスクイーズ状態を生成する。
エキシトンモードとメカニカル共振器はマイクロキャビティフィールドを介して間接的に相互作用する。
生成した結合条件下では, 実験パラメータで解決されたサイドバンド状態を超えて, 機械モードのスクイーズを予測できる。
最後に, メカニカルモードのスクイーズは, フォノン熱浴温度に対して頑健であることを示す。 We address the creation of squeezed states of a mechanical resonator in a hybrid quantum system consisting of two quantum wells placed inside a cavity with a moving end mirror pumped by bichromatic laser fields. The exciton mode and mechanical resonator interact indirectly via microcavity fields. Under the conditions of the generated coupling, we predict squeezing of the mechanical-mode beyond the resolved side-band regime with available experimental parameters. Finally, we show that the squeezing of the mechanical mode is robust against the phonon thermal bath temperature. | 翻訳日:2024-03-07 03:58:51 公開日:2024-03-04 |
# 化学フィードバックによるドメイン非依存的分子生成 Domain-Agnostic Molecular Generation with Chemical Feedback ( http://arxiv.org/abs/2301.11259v6 ) ライセンス: Link先を確認 | Yin Fang, Ningyu Zhang, Zhuo Chen, Lingbing Guo, Xiaohui Fan, Huajun Chen | (参考訳) 望ましい性質を持つ分子の生成は、科学者が分子構造を設計し、化学物質や医薬品の設計に貴重な支援を提供する方法に革命をもたらした。
しかし、分子生成における言語モデルの可能性にもかかわらず、構文的または化学的に欠陥のある分子を生成すること、ドメインの焦点が狭いこと、アノテートされたデータや外部の分子データベースによって多様で実現可能な分子を作るのに苦労することといった課題に直面している。
これらの課題に対処するために,分子生成に特化した分子言語モデルであるMolGenを紹介する。
1億以上の分子SELFIESを再構築することで、モルゲンは構造的および文法的な洞察を内部化する。
これはドメインに依存しない分子プレフィックスチューニングによってさらに強化され、多様なドメイン間の堅牢な知識伝達を促進する。
重要なことに、我々の化学フィードバックパラダイムは、モデルが分子幻覚から遠ざけ、モデルの推定確率と実世界の化学選好の一致を確実にする。
良く知られたベンチマークに関する大規模な実験は、Penalized logP、QED、分子ドッキングなどの特性におけるMollGenの最適化能力を裏付けるものである。
さらなる分析により、分子の分布を正確に把握し、複雑な構造パターンを識別し、化学空間を効率的に探索する能力が確認された。
コードはhttps://github.com/zjunlp/molgenで入手できる。 The generation of molecules with desired properties has become increasingly popular, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face challenges such as generating syntactically or chemically flawed molecules, having narrow domain focus, and struggling to create diverse and feasible molecules due to limited annotated data or external molecular databases. To tackle these challenges, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. Through the reconstruction of over 100 million molecular SELFIES, MolGen internalizes structural and grammatical insights. This is further enhanced by domain-agnostic molecular prefix tuning, fostering robust knowledge transfer across diverse domains. Importantly, our chemical feedback paradigm steers the model away from molecular hallucinations, ensuring alignment between the model's estimated probabilities and real-world chemical preferences. Extensive experiments on well-known benchmarks underscore MolGen's optimization capabilities in properties such as penalized logP, QED, and molecular docking. Additional analyses confirm its proficiency in accurately capturing molecule distributions, discerning intricate structural patterns, and efficiently exploring the chemical space. Code is available at https://github.com/zjunlp/MolGen. | 翻訳日:2024-03-07 03:57:11 公開日:2024-03-04 |
# サポートラインを用いた多次元クラスタの生成 Generating Multidimensional Clusters With Support Lines ( http://arxiv.org/abs/2301.10327v3 ) ライセンス: Link先を確認 | Nuno Fachada, Diogo de Andrade | (参考訳) 合成データは、クラスタリング技術の評価、実際のデータの補完と拡張、与えられた問題空間のより完全なカバレッジを可能にするために不可欠である。
結果として、合成データジェネレータは、よく理解された生成手順と、クラスタ分析アルゴリズムを体系的に調査するための解釈可能な手段を提供しながら、膨大な量のデータを生成する可能性がある。
本稿では,任意の分布を用いて線分をサポートする多次元クラスタを作成可能な合成データ生成のためのモジュール手法であるclugenを提案する。
Clugenはオープンソースで、包括的なユニットテストとドキュメント化が行われ、Python、R、Julia、MATLAB/Octaveエコシステムで利用できる。
提案手法は,様々な次元においてリッチで多様な結果を生み出すことができ,クラスタリングアルゴリズムの評価に適しており,多様なクラスタリング関連研究タスクにおいて広く利用されるフレームワークとなる可能性を秘めている。 Synthetic data is essential for assessing clustering techniques, complementing and extending real data, and allowing for more complete coverage of a given problem's space. In turn, synthetic data generators have the potential of creating vast amounts of data -- a crucial activity when real-world data is at premium -- while providing a well-understood generation procedure and an interpretable instrument for methodically investigating cluster analysis algorithms. Here, we present Clugen, a modular procedure for synthetic data generation, capable of creating multidimensional clusters supported by line segments using arbitrary distributions. Clugen is open source, comprehensively unit tested and documented, and is available for the Python, R, Julia, and MATLAB/Octave ecosystems. We demonstrate that our proposal can produce rich and varied results in various dimensions, is fit for use in the assessment of clustering algorithms, and has the potential to be a widely used framework in diverse clustering-related research tasks. | 翻訳日:2024-03-07 03:56:49 公開日:2024-03-04 |
# 非線形チャネル補償用変圧器の光学系への応用 Application of Transformers for Nonlinear Channel Compensation in Optical Systems ( http://arxiv.org/abs/2304.13119v2 ) ライセンス: Link先を確認 | Behnam Behinaein Hamgini, Hossein Najafi, Ali Bakhshali, and Zhuhong Zhang | (参考訳) 本稿ではトランスフォーマに基づく非線形光チャネル等化器を提案する。
並列計算を活用し、シンボル列にまたがるメモリに直接参加することにより、コヒーレントな長距離伝送における非線形等化にトランスフォーマーを効果的に使用できることを示す。
本稿では,トランスフォーマーのエンコーダ部を実装し,その性能を多種多様なハイパーパラメータで解析する。
各繰り返しでシンボルのブロックを処理し、エンコーダの出力のサブセットを慎重に選択することにより、異なる複雑さの制約に対して効率的な非線形補償を実現できることを示す。
また,非線形摂動理論にインスパイアされた物理インフォームドマスクを用いて,注意機構の計算複雑性を低減することを提案する。 In this paper, we introduce a new nonlinear optical channel equalizer based on Transformers. By leveraging parallel computation and attending directly to the memory across a sequence of symbols, we show that Transformers can be used effectively for nonlinear equalization in coherent long-haul transmission. For this application, we present an implementation of the encoder part of the Transformer and analyze its performance over a wide range of different hyper-parameters. It is shown that by processing blocks of symbols at each iteration and carefully selecting subsets of the encoder's output to be processed together, an efficient nonlinear compensation can be achieved for different complexity constraints. We also propose the use of a physic-informed mask inspired by nonlinear perturbation theory for reducing the computational complexity of the attention mechanism. | 翻訳日:2024-03-07 03:50:35 公開日:2024-03-04 |
# 非摂動型Zou-Wang-Mandel効果 Nonperturbative Zou-Wang-Mandel effect ( http://arxiv.org/abs/2304.09149v2 ) ライセンス: Link先を確認 | T. J. Volkoff and Diego A. R. Dalvit | (参考訳) ズー・ワン・マンデル効果(Zuu-Wang-Mandel effect、ZWM)は、位相シフト源を通過しない光経路に関連する光モードに光相シフトが印加される光子不分化性と連続可変絡み合いによる顕著な結果である。
連続変数のガウス状態の正準形式をzwm実験のモード構造に当てはめることにより、光路同一性を実装する物理的結果が4つの有効光学モードの絡み合いを支配する二次スクイージングの再正規化であることを示す。
ZWM干渉パターンと正規化一階コヒーレンス関数の非摂動式を導出する。
4モード以上を持つ$\mathcal{H}$-graph状態への一般化は、最小例を分析するのに使われる一般的な方法から直接従う。
レーザーシード信号モードを用いたZWM干渉計は、位相シフトを通さない光子を検出してアイドラー位相シフトを推定し、パスアイデンティティを高忠実に実装した場合、レーザーシードのSU(1,1)$干渉計に匹敵する最適感度を示す。 The Zou-Wang-Mandel (ZWM) effect is a remarkable consequence of photon indistinguishability and continuous-variable entanglement in which an optical phase shift is imprinted on photonic modes associated with optical paths that that do not pass through the phase shift source. By bringing the canonical formalism of continuous-variable Gaussian states to bear on the mode-structure of the ZWM experiment, we show that the physical consequence of implementing optical path identity is a renormalization of quadrature squeezing which governs the entanglement of four effective optical modes. Nonperturbative expressions for the ZWM interference patterns and normalized first-order coherence function are derived. Generalizations to $\mathcal{H}$-graph states with more than four modes directly follow from the general method used to analyze the minimal example. We show that a ZWM interferometer with a laser-seeded signal mode, which estimates an idler phase shift by detecting photons that did not propagate through the phase shift, exhibits an optimal sensitivity comparable to that of a laser-seeded $SU(1,1)$ interferometer if path identity is implemented with high fidelity. | 翻訳日:2024-03-07 03:49:17 公開日:2024-03-04 |
# パーソナリティを考慮した人間中心型マルチモーダル推論:新しいタスク,データセット,ベースライン Personality-aware Human-centric Multimodal Reasoning: A New Task, Dataset and Baselines ( http://arxiv.org/abs/2304.02313v2 ) ライセンス: Link先を確認 | Yaochen Zhu, Xiangqing Shen, Rui Xia | (参考訳) 性格特性、感情、信念は個人の行動選択と意思決定プロセスを形成する。
しかし、情緒的コンピューティングコミュニティは通常、パーソナリティ特性の予測に焦点を当てているが、行動予測における応用を見落としている。
別の例として、マルチモーダル推論タスクは将来の状態や行動の予測を強調したが、個性的特徴の組み入れをしばしば無視していた。
本研究は,パーソナリティを意識した人間中心マルチモーダル推論(phmr:human-centric multimodal reasoning, phmr)と呼ばれる新しいタスクを提案する。
225文字と1kサンプルを包含する6つのテレビ番組に基づくデータセットを構築した。
タスクのベンチマークを確立するために,関連するタスクから適応した3つのベースライン,事前学習された2つのモデル,マルチモーダルな2つの大規模言語モデルを提案する。
実験結果から,人中心型マルチモーダル推論性能が向上することが示唆された。
実生活シーンにおけるパーソナリティアノテーションの欠如を更に解決するため,人間中心型マルチモーダル推論タスク(T2)と呼ばれる拡張タスクと対応するデータセットとメソッドを導入する。
データセットとコードはGitHubで公開します。 Personality traits, emotions, and beliefs shape individuals' behavioral choices and decision-making processes. However, for one thing, the affective computing community normally focused on predicting personality traits but overlooks their application in behavior prediction. For another, the multimodal reasoning task emphasized the prediction of future states and behaviors but often neglected the incorporation of individual personality traits. In this work, we introduce a new task called Personality-aware Human-centric Multimodal Reasoning (PHMR) (T1), with the goal of forecasting the future behavior of a particular individual using multimodal information from past instances, while integrating personality factors. We accordingly construct a new dataset based on six television shows, encompassing 225 characters and 12k samples. To establish a benchmark for the task, we propose seven baseline methods: three adapted from related tasks, two pre-trained model, and two multimodal large language models. The experimental results demonstrate that incorporating personality traits enhances human-centric multimodal reasoning performance. To further solve the lack of personality annotation in real-life scenes, we introduce an extension task called Personality-predicted Human-centric Multimodal Reasoning task (T2) along with the corresponding dataset and method. We will make our dataset and code available on GitHub. | 翻訳日:2024-03-07 03:47:23 公開日:2024-03-04 |
# RGB熱セマンティックセマンティックセグメンテーションのための補間ランダムマスキング Complementary Random Masking for RGB-Thermal Semantic Segmentation ( http://arxiv.org/abs/2303.17386v2 ) ライセンス: Link先を確認 | Ukcheol Shin, Kyunghyun Lee, In So Kweon, Jean Oh | (参考訳) rgb-サーマルセマンティクスセグメンテーションは、悪天候や照明条件において、信頼できるセマンティクスシーン理解を実現する潜在的な解決策の1つである。
しかし,従来の研究は主に,マルチモーダルな入力の性質を考慮せずに,マルチモーダルな融合モジュールの設計に重点を置いている。
したがって、ネットワークは単一のモダリティに過剰依存し易くなり、各モダリティに対する相補的かつ有意義な表現を学ぶことが困難になる。
本稿では,
1)RGB-T画像と相補的ランダムマスキング戦略
2) クリーンとマスキング入力の自己蒸留損失
提案したマスキング戦略は,単一モードにおける過度信頼を防ぐ。
また、1つのモダリティが部分的に利用可能である場合でも、ネットワークにオブジェクトの分割と分類を強制することで、ニューラルネットワークの精度と堅牢性も向上する。
また, 自己蒸留損失は, ネットワークに対して, 相補的かつ有意義な表現を単一モダリティまたは相補的マスク様相から抽出することを促す。
提案手法に基づき、3つのrgb-tセマンティクスセグメンテーションベンチマークにおいて最先端の性能を実現する。
ソースコードはhttps://github.com/ukcheolshin/crm_rgbtsegで入手できます。 RGB-thermal semantic segmentation is one potential solution to achieve reliable semantic scene understanding in adverse weather and lighting conditions. However, the previous studies mostly focus on designing a multi-modal fusion module without consideration of the nature of multi-modality inputs. Therefore, the networks easily become over-reliant on a single modality, making it difficult to learn complementary and meaningful representations for each modality. This paper proposes 1) a complementary random masking strategy of RGB-T images and 2) self-distillation loss between clean and masked input modalities. The proposed masking strategy prevents over-reliance on a single modality. It also improves the accuracy and robustness of the neural network by forcing the network to segment and classify objects even when one modality is partially available. Also, the proposed self-distillation loss encourages the network to extract complementary and meaningful representations from a single modality or complementary masked modalities. Based on the proposed method, we achieve state-of-the-art performance over three RGB-T semantic segmentation benchmarks. Our source code is available at https://github.com/UkcheolShin/CRM_RGBTSeg. | 翻訳日:2024-03-07 03:46:59 公開日:2024-03-04 |
# 情報量による変動量子ランドスケープの解析 Analyzing variational quantum landscapes with information content ( http://arxiv.org/abs/2303.16893v3 ) ライセンス: Link先を確認 | Adri\'an P\'erez-Salinas, Hao Wang, Xavier Bonet-Monroig | (参考訳) 変分量子アルゴリズムにおける量子回路のパラメータは、その最適化硬度に関する関連する情報を含む風景を誘導する。
本研究は,パラメータ空間内の点間の変動の尺度である情報内容のレンズを用いて,そのような景観を考察する。
我々の主要な貢献は、情報内容と勾配の平均的ノルムを結びつけ、その推定器に堅牢な解析的境界を提供する。
この結果は、いかなる(古典的または量子的な)変動風景にも当てはまる。
本研究では,バレン高原問題の場合の勾配のスケーリングを数値的に検討し,解析的アンダースタチングを検証する。
このような場合、勾配のスケーリング前要素を見積もることができます。
我々の研究は、短期量子コンピュータに適したデータ駆動方式で変動量子アルゴリズムを解析する新しい方法を提供する。 The parameters of the quantum circuit in a variational quantum algorithm induce a landscape that contains the relevant information regarding its optimization hardness. In this work we investigate such landscapes through the lens of information content, a measure of the variability between points in parameter space. Our major contribution connects the information content to the average norm of the gradient, for which we provide robust analytical bounds on its estimators. This result holds for any (classical or quantum) variational landscape. We validate the analytical understating by numerically studying the scaling of the gradient in an instance of the barren plateau problem. In such instance we are able to estimate the scaling pre-factors in the gradient. Our work provides a new way to analyze variational quantum algorithms in a data-driven fashion well-suited for near-term quantum computers. | 翻訳日:2024-03-07 03:46:39 公開日:2024-03-04 |
# リアルタイムバス到着予測:都市移動性向上のための深層学習アプローチ Real-Time Bus Arrival Prediction: A Deep Learning Approach for Enhanced Urban Mobility ( http://arxiv.org/abs/2303.15495v3 ) ライセンス: Link先を確認 | Narges Rashvand, Sanaz Sadat Hosseini, Mona Azarbayjani, Hamed Tabkhi | (参考訳) 都市部では、バスの交通は公共交通の重要な手段であるが、正確な到着時間と信頼性の確保には困難が伴う。
この格差は、特にバスの交通に強く依存している地域では、しばしば遅延と乗客数の減少に繋がる。
一般的な課題は、実際のバスの到着時刻と予定時刻のミスマッチであり、固定されたスケジュールの混乱に繋がる。
本研究は,ニューヨーク市バスデータを用いて,予定時刻から実際のバス到着までの所要時間は平均8分であった。
本研究は,様々な交通点(駅)におけるバスの到着時刻を予測するための,革新的でaiに基づくデータ駆動手法を導入し,大都市内の全バス路線を総合的に予測する。
本手法は,完全接続型ニューラルネットワークの展開を通じて,公共バス輸送システムの精度と効率を高める。
総合評価では,200以上のバス路線と200万のデータポイントを包含し,到着時刻推定に40秒未満の誤差率を示した。
さらに、検証セットの各データポイントの推測時間を0.006ms以下に記録し、バス輸送システムの時間性と信頼性を大幅に向上させるニューラルネットワークベースのアプローチの可能性を示す。 In urban settings, bus transit stands as a significant mode of public transportation, yet faces hurdles in delivering accurate and reliable arrival times. This discrepancy often culminates in delays and a decline in ridership, particularly in areas with a heavy reliance on bus transit. A prevalent challenge is the mismatch between actual bus arrival times and their scheduled counterparts, leading to disruptions in fixed schedules. Our study, utilizing New York City bus data, reveals an average delay of approximately eight minutes between scheduled and actual bus arrival times. This research introduces an innovative, AI-based, data-driven methodology for predicting bus arrival times at various transit points (stations), offering a collective prediction for all bus lines within large metropolitan areas. Through the deployment of a fully connected neural network, our method elevates the accuracy and efficiency of public bus transit systems. Our comprehensive evaluation encompasses over 200 bus lines and 2 million data points, showcasing an error margin of under 40 seconds for arrival time estimates. Additionally, the inference time for each data point in the validation set is recorded at below 0.006 ms, demonstrating the potential of our Neural-Net-based approach in substantially enhancing the punctuality and reliability of bus transit systems. | 翻訳日:2024-03-07 03:45:54 公開日:2024-03-04 |
# LLM-grounded Diffusion:大規模言語モデルを用いたテキスト間拡散モデルのプロンプト理解の促進 LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models ( http://arxiv.org/abs/2305.13655v3 ) ライセンス: Link先を確認 | Long Lian, Boyi Li, Adam Yala, Trevor Darrell | (参考訳) 最近のテキストから画像への拡散モデルの進歩は、リアルで多様な画像を生成する素晴らしい結果をもたらした。
しかし、これらのモデルはまだ、数量化や空間的推論を含むような複雑なプロンプトに苦しむ。
本研究は拡散モデルにおける迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデル(LLM)を基底生成に活用する。
第1段階で、LLMは、所望の画像を記述する所定のプロンプトからキャプション付きバウンディングボックスを含むシーンレイアウトを生成する。
第2段階では、新しいコントローラがレイアウト基底画像生成のためのオフザシェルフ拡散モデルを導出する。
どちらの段階も、追加のモデルパラメータ最適化なしで既存の事前訓練モデルを利用する。
提案手法は, 4つのタスクにまたがる生成精度を平均2倍にし, 様々な機能を必要とするプロンプトに従って, 画像の正確な生成において, ベース拡散モデルと強いベースラインを著しく上回っている。
さらに,命令ベースのマルチラウンドシーン仕様を実現し,基礎となる拡散モデルではサポートされていない言語でプロンプトを処理できる。
我々は,より複雑なプロンプトを正確に追従することで,ユーザの創造性を解き放つことを期待する。
私たちのコード、デモ、ベンチマークは、https://llm-grounded-diffusion.github.ioで利用可能です。 Recent advancements in text-to-image diffusion models have yielded impressive results in generating realistic and diverse images. However, these models still struggle with complex prompts, such as those that involve numeracy and spatial reasoning. This work proposes to enhance prompt understanding capabilities in diffusion models. Our method leverages a pretrained large language model (LLM) for grounded generation in a novel two-stage process. In the first stage, the LLM generates a scene layout that comprises captioned bounding boxes from a given prompt describing the desired image. In the second stage, a novel controller guides an off-the-shelf diffusion model for layout-grounded image generation. Both stages utilize existing pretrained models without additional model parameter optimization. Our method significantly outperforms the base diffusion model and several strong baselines in accurately generating images according to prompts that require various capabilities, doubling the generation accuracy across four tasks on average. Furthermore, our method enables instruction-based multi-round scene specification and can handle prompts in languages not supported by the underlying diffusion model. We anticipate that our method will unleash users' creativity by accurately following more complex prompts. Our code, demo, and benchmark are available at: https://llm-grounded-diffusion.github.io | 翻訳日:2024-03-07 03:41:53 公開日:2024-03-04 |
# 地質相生成のための安定な深層対向学習手法 A stable deep adversarial learning approach for geological facies generation ( http://arxiv.org/abs/2305.13318v3 ) ライセンス: Link先を確認 | Ferdinand Bhavsar, Nicolas Desassis, Fabien Ors, Thomas Romary | (参考訳) 観測不能な体積の地質相のシミュレーションは、様々な地球科学の応用において不可欠である。
問題の複雑さを考えると、深層生成学習は従来の統計シミュレーションモデルの限界、特に物理リアリズムの欠如を克服するための有望なアプローチである。
本研究は, 地下の蛇行流路を条件付きシミュレーションするための, 生成的対向ネットワークと深部変動推論の適用性を検討することを目的とする。
本稿では,創発的深層学習のアプローチ,特に敵対的アプローチと,学習の促進を目的とした安定化技術について概説する。
確率過程に基づくモデルflumyを用いて2次元および3次元シミュレーションを行った。
形態指標を用いて,提案手法と生成逆数ネットワークの初期イテレーションを比較した。
その結果,近年の安定化技術を利用することで,ターゲットデータ分布から生成型逆ネットワークを効率的にサンプリングできることがわかった。
さらに,提案手法の潜在変数モデル特性を用いて条件付きシミュレーションをシミュレートする能力を示す。 The simulation of geological facies in an unobservable volume is essential in various geoscience applications. Given the complexity of the problem, deep generative learning is a promising approach to overcome the limitations of traditional geostatistical simulation models, in particular their lack of physical realism. This research aims to investigate the application of generative adversarial networks and deep variational inference for conditionally simulating meandering channels in underground volumes. In this paper, we review the generative deep learning approaches, in particular the adversarial ones and the stabilization techniques that aim to facilitate their training. The proposed approach is tested on 2D and 3D simulations generated by the stochastic process-based model Flumy. Morphological metrics are utilized to compare our proposed method with earlier iterations of generative adversarial networks. The results indicate that by utilizing recent stabilization techniques, generative adversarial networks can efficiently sample from target data distributions. Moreover, we demonstrate the ability to simulate conditioned simulations through the latent variable model property of the proposed approach. | 翻訳日:2024-03-07 03:41:12 公開日:2024-03-04 |
# トポロジック・アグノシズムを克服する: 骨格トポロジカル・アウェアネスによる骨格に基づく行動認識の強化 Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action Recognition through Redefined Skeletal Topology Awareness ( http://arxiv.org/abs/2305.11468v3 ) ライセンス: Link先を確認 | Yuxuan Zhou, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Yifeng Geng, Xuansong Xie | (参考訳) グラフ畳み込みネットワーク(GCN)は、長い間、骨格に基づく行動認識の最先端を定義しており、グラフの隣接行列を通して人間の関節トポロジーの複雑なダイナミクスを解き放つ能力を活用してきた。
しかし、これらの最先端モデルには固有の欠陥があり、モデルの重みとともに隣接行列を最適化する傾向がある。
このプロセスは、一見効率的だが、骨の接続データが徐々に崩壊し、マップに求めていたトポロジーとは無関係なモデルで終わる。
そこで我々は,(1) 骨結合を符号化する革新的な経路を, グラフ距離のパワーを利用して構築する3つの戦略を提案する。
このアプローチは、従来のGCNでしばしば失われる重要なトポロジカルニュアンスを保存する。
2) 骨格配列の時間的平均は, 控えめな視線にもかかわらず, 行動特異的な情報を持っている。
3) 異なる行動にまたがる共同対共同関係の強い変動がみられた。
この発見は、人間の動きを象徴する関係構成のバリエーションを捉えるための単一の隣接行列の限界を明らかにする。
この進化は、パラメータを実質的なマージン(40%以上)で削減し、元のGCNよりもパフォーマンスを高めます。
私たちのフルモデルであるblockgcnは、小さなモデルサイズに対するスケルトンベースのアクション認識の新しい標準を確立します。
その高精度、特に大規模なNTU RGB+D 120データセットは、BlockGCNの有効性の説得力のある証明である。 Graph Convolutional Networks (GCNs) have long defined the state-of-the-art in skeleton-based action recognition, leveraging their ability to unravel the complex dynamics of human joint topology through the graph's adjacency matrix. However, an inherent flaw has come to light in these cutting-edge models: they tend to optimize the adjacency matrix jointly with the model weights. This process, while seemingly efficient, causes a gradual decay of bone connectivity data, culminating in a model indifferent to the very topology it sought to map. As a remedy, we propose a threefold strategy: (1) We forge an innovative pathway that encodes bone connectivity by harnessing the power of graph distances. This approach preserves the vital topological nuances often lost in conventional GCNs. (2) We highlight an oft-overlooked feature - the temporal mean of a skeletal sequence, which, despite its modest guise, carries highly action-specific information. (3) Our investigation revealed strong variations in joint-to-joint relationships across different actions. This finding exposes the limitations of a single adjacency matrix in capturing the variations of relational configurations emblematic of human movement, which we remedy by proposing an efficient refinement to Graph Convolutions (GC) - the BlockGC. This evolution slashes parameters by a substantial margin (above 40%), while elevating performance beyond original GCNs. Our full model, the BlockGCN, establishes new standards in skeleton-based action recognition for small model sizes. Its high accuracy, notably on the large-scale NTU RGB+D 120 dataset, stand as compelling proof of the efficacy of BlockGCN. | 翻訳日:2024-03-07 03:40:36 公開日:2024-03-04 |
# 絡み合い力学におけるメソスコピック揺らぎ Mesoscopic fluctuations in entanglement dynamics ( http://arxiv.org/abs/2305.09962v2 ) ライセンス: Link先を確認 | Lih-King Lim, Cunzhong Lou, and Chushun Tian | (参考訳) ゆらぎ現象を理解することは多体物理学の発展において主要な役割を果たす。
絡み合いの時間発展は、エキゾチックな量子物質から量子の熱化まで、多体物理学における幅広い対象に必須である。
情報の動的過程から考えると、絡み合いの進化の揺らぎは伝統的な物理量の平衡外ゆらぎとは概念的に異なる。
彼らの研究はいまだ解明されていない。
ここでは、多体波動関数の進化における創発的ランダム構造を、相互作用可能か非相互作用的かの2種類の格子モデルで明らかにする。
これは、波の干渉の起源のメソスコピックな揺らぎのパラダイムに陥る、平衡外の絡み合いゆらぎを引き起こす。
具体的には、絡み合いエントロピーの分散は各クラスにおいて普遍的なスケーリング則に従い、全分布はガウス上面とガンマ下尾部を示す。
これらの統計は、システムの微視的詳細と絡み合いプローブの選択から独立しており、メソスコピックの普遍性のクラスを広げている。
これらはメソスコピックデバイスにおける絡み合いの制御に実用的な意味を持つ。 Understanding fluctuation phenomena plays a dominant role in the development of many-body physics. The time evolution of entanglement is essential to a broad range of subjects in many-body physics, ranging from exotic quantum matter to quantum thermalization. Stemming from various dynamical processes of information, fluctuations in entanglement evolution differ conceptually from out-of-equilibrium fluctuations of traditional physical quantities. Their studies remain elusive. Here we uncover an emergent random structure in the evolution of the many-body wavefunction in two classes of integrable -- either interacting or noninteracting -- lattice models. It gives rise to out-of-equilibrium entanglement fluctuations which fall into the paradigm of mesoscopic fluctuations of wave interference origin. Specifically, the entanglement entropy variance obeys a universal scaling law, in each class, and the full distribution displays a sub-Gaussian upper and a sub-Gamma lower tail. These statistics are independent of both the system's microscopic details and the choice of entanglement probes, and broaden the class of mesoscopic universalities. They have practical implications for controlling entanglement in mesoscopic devices. | 翻訳日:2024-03-07 03:39:15 公開日:2024-03-04 |
# 時間知識グラフ補完のためのプロンプト付き事前学習言語モデル Pre-trained Language Model with Prompts for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2305.07912v2 ) ライセンス: Link先を確認 | Wenjie Xu, Ben Liu, Miao Peng, Xu Jia, Min Peng | (参考訳) 時間知識グラフ補完(TKGC)は、事実の欠落部分を完成させるために既知のタイムスタンプでの推論を含む重要なタスクであり、近年ますます注目を集めている。
既存の手法のほとんどは、時間スタンプから情報を不正確に抽出しながら、グラフニューラルネットワークに基づく表現の学習に重点を置いている。
これらの問題に対処するため,我々は新しいtkgcモデル,すなわちtkgc (ppt) のプロンプト付き事前学習言語モデルを提案する。
サンプルの四重項を事前訓練した言語モデル入力に変換し、タイムスタンプ間の間隔を異なるプロンプトに変換し、暗黙的な意味情報を持つ一貫性のある文を生成する。
我々は、TKGCタスクをマスク付きトークン予測タスクに変換するためのマスキング戦略でモデルを訓練し、事前訓練された言語モデルにおける意味情報を活用することができる。
3つのベンチマークデータセットに関する実験と広範な分析によって、我々のモデルは4つのメトリクスを持つ他のモデルと比較して大きな競合性を示している。
我々のモデルは、時間的知識グラフからの情報を言語モデルに効果的に組み込むことができる。 Temporal Knowledge graph completion (TKGC) is a crucial task that involves reasoning at known timestamps to complete the missing part of facts and has attracted more and more attention in recent years. Most existing methods focus on learning representations based on graph neural networks while inaccurately extracting information from timestamps and insufficiently utilizing the implied information in relations. To address these problems, we propose a novel TKGC model, namely Pre-trained Language Model with Prompts for TKGC (PPT). We convert a series of sampled quadruples into pre-trained language model inputs and convert intervals between timestamps into different prompts to make coherent sentences with implicit semantic information. We train our model with a masking strategy to convert TKGC task into a masked token prediction task, which can leverage the semantic information in pre-trained language models. Experiments on three benchmark datasets and extensive analysis demonstrate that our model has great competitiveness compared to other models with four metrics. Our model can effectively incorporate information from temporal knowledge graphs into the language models. | 翻訳日:2024-03-07 03:38:09 公開日:2024-03-04 |
# Vision Transformer Off-the-Shelf:Few-Shot Class-Agnostic Countingのサプライスベースライン Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot Class-Agnostic Counting ( http://arxiv.org/abs/2305.04440v2 ) ライセンス: Link先を確認 | Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu | (参考訳) CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。
このタスクは典型的には、クエリ画像と例題の特徴をそれぞれ抽出し、その特徴の類似性をマッチングすることで対処される。
本研究では、特に視覚変換器(ViT)を用いて、自己注意の中で特徴抽出と類似性マッチングを同時に行うことにより、CACを抽出・マッチングで単純化できることを示す。
我々は,このような単純化の理論的根拠を,自己着想を分離した視点から明らかにする。
CACViTと呼ばれる結果のモデルは、CACパイプラインを1つの事前訓練されたプレーンViTに単純化する。
さらに,vitのリサイズと正規化によるスケールの損失と桁違いの情報を補うために,スケールとサイズ埋め込みのための2つの効果的な戦略を提案する。
FSC147とCARPKデータセットの大規模な実験は、CACViTが最先端のCACアプローチ(23.60%のエラー低減)と一般化の両方で著しく優れており、CACViTがCACの簡潔で強力なベースラインを提供することを示している。
コードは利用可能だ。 Class-agnostic counting (CAC) aims to count objects of interest from a query image given few exemplars. This task is typically addressed by extracting the features of query image and exemplars respectively and then matching their feature similarity, leading to an extract-then-match paradigm. In this work, we show that CAC can be simplified in an extract-and-match manner, particularly using a vision transformer (ViT) where feature extraction and similarity matching are executed simultaneously within the self-attention. We reveal the rationale of such simplification from a decoupled view of the self-attention. The resulting model, termed CACViT, simplifies the CAC pipeline into a single pretrained plain ViT. Further, to compensate the loss of the scale and the order-of-magnitude information due to resizing and normalization in plain ViT, we present two effective strategies for scale and magnitude embedding. Extensive experiments on the FSC147 and the CARPK datasets show that CACViT significantly outperforms state-of-the art CAC approaches in both effectiveness (23.60% error reduction) and generalization, which suggests CACViT provides a concise and strong baseline for CAC. Code will be available. | 翻訳日:2024-03-07 03:36:45 公開日:2024-03-04 |
# 行列積状態をもつ量子不純物問題のダイナミクスのシミュレーション Simulations of the dynamics of quantum impurity problems with matrix product states ( http://arxiv.org/abs/2304.13756v2 ) ライセンス: Link先を確認 | Matteo M. Wauters, Chia-Min Chung, Lorenzo Maffi, Michele Burrello | (参考訳) アンダーソン不純物モデルは強い相関量子系の研究におけるパラダイム的な例であり、電子的鉛と結合した相互作用量子ドットを記述する。
本研究では,行列積状態シミュレーションに基づいて量子クエンチに追従したモデルダイナミクスを調べることで近藤効果の出現を特徴付ける。
不純物磁化の緩和は、不純物-鉛ハイブリッド化と量子ドット反発の関数として近藤温度の予測された普遍スケーリングの推定を可能にする。
さらに,シミュレーションにより,クエンチ後の非平衡準定常状態における電流の評価が可能となった。
これらの値を通して,電圧バイアス $v_b$ と不純物化学ポテンシャル $v_g$ に対するコンダクタンスの依存性について検討した。
以上の結果はクーロン遮断されたデバイス、特にナノワイヤで誘起される量子ドットにおける輸送測定に関係している。 The Anderson impurity model is a paradigmatic example in the study of strongly correlated quantum systems and describes an interacting quantum dot coupled to electronic leads. In this work, we characterize the emergence of the Kondo effect by investigating the model dynamics following a quantum quench based on matrix product state simulations. The relaxation of the impurity magnetization allows for the estimate of the predicted universal scaling of the Kondo temperature as a function of the impurity-lead hybridization and quantum dot repulsion. Additionally, our simulations permit us to evaluate the current in the nonequilibrium quasi-steady state appearing after the quench. Through their values, we examine the dependence of the conductance on the voltage bias $V_b$ and on the impurity chemical potential $V_g$, which displays a zero-bias Kondo peak. Our results are relevant for transport measurements in Coulomb blockaded devices, and, in particular, in quantum dots induced in nanowires. | 翻訳日:2024-03-07 03:36:19 公開日:2024-03-04 |
# Intelligent Grimm - 潜伏拡散モデルによるオープンエンドビジュアルストーリーテリング Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models ( http://arxiv.org/abs/2306.00973v3 ) ライセンス: Link先を確認 | Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, Weidi Xie | (参考訳) 生成モデルは最近、テキストから画像への生成において例外的な能力を示してきたが、画像シーケンスの生成にはいまだに苦労している。
本研究では,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,新しい課題に焦点を当てる。
私たちは以下の3つの貢献をします
(i)視覚的なストーリーテリングのタスクを実現するために、対応するテキストプロンプトと先行するイメージキャプチャペアを条件付けして現在のフレームを生成できる、新しい視覚言語コンテキストモジュール「storygen」と呼ばれる学習ベースの自己回帰画像生成モデルを提案する。
(II)視覚的ストーリーテリングの欠如に対処するため,オンラインビデオとオープンソース電子書籍をソーシングし,多様なキャラクター,ストーリーライン,芸術スタイルを備えた大規模データセットを構築するための処理パイプラインを構築した。
3) 定量的実験と人的評価により,StoryGen の優位性を検証し,StoryGen が最適化せずに未知の文字に一般化し,一貫性のある内容と一貫した文字で画像列を生成することを示した。
コード、データセット、モデルはhttps://haoningwu3639.github.io/StoryGen_Webpage/で入手できる。 Generative models have recently exhibited exceptional capabilities in text-to-image generation, but still struggle to generate image sequences coherently. In this work, we focus on a novel, yet challenging task of generating a coherent image sequence based on a given storyline, denoted as open-ended visual storytelling. We make the following three contributions: (i) to fulfill the task of visual storytelling, we propose a learning-based auto-regressive image generation model, termed as StoryGen, with a novel vision-language context module, that enables to generate the current frame by conditioning on the corresponding text prompt and preceding image-caption pairs; (ii) to address the data shortage of visual storytelling, we collect paired image-text sequences by sourcing from online videos and open-source E-books, establishing processing pipeline for constructing a large-scale dataset with diverse characters, storylines, and artistic styles, named StorySalon; (iii) Quantitative experiments and human evaluations have validated the superiority of our StoryGen, where we show StoryGen can generalize to unseen characters without any optimization, and generate image sequences with coherent content and consistent character. Code, dataset, and models are available at https://haoningwu3639.github.io/StoryGen_Webpage/ | 翻訳日:2024-03-07 03:30:06 公開日:2024-03-04 |
# リアルタイム予算制約による安全オフライン強化学習 Safe Offline Reinforcement Learning with Real-Time Budget Constraints ( http://arxiv.org/abs/2306.00603v2 ) ライセンス: Link先を確認 | Qian Lin, Bo Tang, Zifan Wu, Chao Yu, Shangqin Mao, Qianlong Xie, Xingxing Wang, Dong Wang | (参考訳) safe real-world deployment of reinforcement learning (rl) の推進を目指して,safe rlの研究が近年,大きな進展を遂げている。
しかし、既存の文献の多くは、トレーニング中に安全予算の危険な違反が引き起こされる可能性の高いオンライン環境に焦点を当てている。
さらに、多くの現実世界のアプリケーションでは、学習したポリシーが動的に決定された安全予算(すなわち制約しきい値)にリアルタイムで応答する必要がある。
本稿では, オフライン環境下でのリアルタイム予算制約問題を対象として, トラジェクトリに基づくReal-time Budget Inference (TREBI) を提案し, トラジェクトリ分布の観点からこの問題をモデル化し, 拡散モデル計画を通じて解決する。
理論的には,オフライン環境でのエピソディック報酬とコストに対する推定誤差のバウンドを証明し,trebiの性能保証を提供する。
幅広いシミュレーションタスクと実世界の大規模広告アプリケーションにおける経験的な結果から,オフライン環境でのリアルタイム予算制約問題を解決する上で,trebiの能力が示された。 Aiming at promoting the safe real-world deployment of Reinforcement Learning (RL), research on safe RL has made significant progress in recent years. However, most existing works in the literature still focus on the online setting where risky violations of the safety budget are likely to be incurred during training. Besides, in many real-world applications, the learned policy is required to respond to dynamically determined safety budgets (i.e., constraint threshold) in real time. In this paper, we target at the above real-time budget constraint problem under the offline setting, and propose Trajectory-based REal-time Budget Inference (TREBI) as a novel solution that models this problem from the perspective of trajectory distribution and solves it through diffusion model planning. Theoretically, we prove an error bound of the estimation on the episodic reward and cost under the offline setting and thus provide a performance guarantee for TREBI. Empirical results on a wide range of simulation tasks and a real-world large-scale advertising application demonstrate the capability of TREBI in solving real-time budget constraint problems under offline settings. | 翻訳日:2024-03-07 03:29:42 公開日:2024-03-04 |
# シナプスの重量分布は可塑性の幾何学に依存する Synaptic Weight Distributions Depend on the Geometry of Plasticity ( http://arxiv.org/abs/2305.19394v2 ) ライセンス: Link先を確認 | Roman Pogodin, Jonathan Cornford, Arna Ghosh, Gauthier Gidel, Guillaume Lajoie, Blake Richards | (参考訳) 計算神経科学における文学の発展は、脳のシナプス可塑性の研究に近似する勾配降下と学習アルゴリズムを活用する。
しかし、この研究の大部分はシナプス変化のための距離の選択(すなわちシナプス可塑性の幾何学)という重要な前提を無視している。
勾配降下は距離がユークリッドであると仮定するが、他の多くの距離は可能であり、生物学が必ずしもユークリッド幾何学を使う理由はない。
ここでは, 鏡面降下による理論的な道具を用いて, シナプス重みの分布がシナプス可塑性の幾何学に依存することを示す。
これらの結果を用いて実験的に観測された対数正規重み分布が標準勾配降下(ユークリッド幾何学)と一致せず、非ユークリッド距離であることを示す。
最後に,学習前後のシナプス重み分布を比較することにより,異なるシナプスジオメトリを実験的にテストできることを示す。
全体として, ユークリッド的シナプス幾何学を仮定したシナプス可塑性に関する理論的研究の現在のパラダイムは誤導される可能性があり, 脳におけるシナプス可塑性の真の形状を実験的に決定できることが示されている。 A growing literature in computational neuroscience leverages gradient descent and learning algorithms that approximate it to study synaptic plasticity in the brain. However, the vast majority of this work ignores a critical underlying assumption: the choice of distance for synaptic changes - i.e. the geometry of synaptic plasticity. Gradient descent assumes that the distance is Euclidean, but many other distances are possible, and there is no reason that biology necessarily uses Euclidean geometry. Here, using the theoretical tools provided by mirror descent, we show that the distribution of synaptic weights will depend on the geometry of synaptic plasticity. We use these results to show that experimentally-observed log-normal weight distributions found in several brain areas are not consistent with standard gradient descent (i.e. a Euclidean geometry), but rather with non-Euclidean distances. Finally, we show that it should be possible to experimentally test for different synaptic geometries by comparing synaptic weight distributions before and after learning. Overall, our work shows that the current paradigm in theoretical work on synaptic plasticity that assumes Euclidean synaptic geometry may be misguided and that it should be possible to experimentally determine the true geometry of synaptic plasticity in the brain. | 翻訳日:2024-03-07 03:29:22 公開日:2024-03-04 |
# 多視点特徴選択のための多目的遺伝的アルゴリズム Multi-Objective Genetic Algorithm for Multi-View Feature Selection ( http://arxiv.org/abs/2305.18352v2 ) ライセンス: Link先を確認 | Vandad Imani, Carlos Sevilla-Salcedo, Elaheh Moradi, Vittorio Fortino, and Jussi Tohka | (参考訳) マルチビューデータセットは、補完情報を提供することで予測モデルを強化するさまざまな形式のデータを提供する。
しかし、多視点データの利用は高次元データの増加につながるため、予測モデルに大きな課題が生じ、一般化の低さにつながる。
したがって、マルチビューデータセットからの適切な特徴選択は、貧弱な一般化に対処するだけでなく、モデルの解釈可能性を高めるために重要である。
従来の特徴選択法の成功にもかかわらず、それらはモダリティにまたがる本質的な情報の活用に限界があり、一般化性に欠け、特定の分類タスクに適合する。
本稿では,従来の特徴選択手法の制約を克服する新しい遺伝的アルゴリズム戦略を提案する。
提案手法はMulti-view multi-jective feature selection genetic algorithm (MMFS-GA) と呼ばれ、ビュー内の特徴の最適なサブセットと統合されたフレームワークによるビューを同時に選択する。
MMFS-GAフレームワークは、バイナリとマルチクラスの両方の分類タスクにおいて、多視点データセットにおける特徴選択の優れたパフォーマンスと解釈可能性を示す。
合成データと実データを含む3つのベンチマークデータセットの評価結果から,最良基準法よりも優れた結果が得られた。
この作業は、マルチビュー機能選択のための有望なソリューションを提供し、マルチビューデータセットのさらなる研究のための新たな可能性を開く。 Multi-view datasets offer diverse forms of data that can enhance prediction models by providing complementary information. However, the use of multi-view data leads to an increase in high-dimensional data, which poses significant challenges for the prediction models that can lead to poor generalization. Therefore, relevant feature selection from multi-view datasets is important as it not only addresses the poor generalization but also enhances the interpretability of the models. Despite the success of traditional feature selection methods, they have limitations in leveraging intrinsic information across modalities, lacking generalizability, and being tailored to specific classification tasks. We propose a novel genetic algorithm strategy to overcome these limitations of traditional feature selection methods for multi-view data. Our proposed approach, called the multi-view multi-objective feature selection genetic algorithm (MMFS-GA), simultaneously selects the optimal subset of features within a view and between views under a unified framework. The MMFS-GA framework demonstrates superior performance and interpretability for feature selection on multi-view datasets in both binary and multiclass classification tasks. The results of our evaluations on three benchmark datasets, including synthetic and real data, show improvement over the best baseline methods. This work provides a promising solution for multi-view feature selection and opens up new possibilities for further research in multi-view datasets. | 翻訳日:2024-03-07 03:29:00 公開日:2024-03-04 |
# 雑音との戦い - 確率的投影型量子固有解法 Fighting noise with noise: a stochastic projective quantum eigensolver ( http://arxiv.org/abs/2306.14540v4 ) ライセンス: Link先を確認 | Maria-Andreea Filip | (参考訳) 現在の量子計算のうるさい中間スケールの量子時代において、利用可能なハードウェアは量子ビット数とノイズレベルの両方で非常に制限されており、現在の多くのハイブリッド量子古典アルゴリズムが非自明な量子化学問題に応用されるのを妨げている。
本稿では、従来の量子モンテカルロアルゴリズム(波動関数とハミルトニアンの両方の確率的サンプリング)の基本的な考え方を量子アルゴリズムに適用し、量子リソースコストを大幅に削減することを提案する。
仮想時間伝搬に基づく射影型量子固有解器の文脈において、我々は、現在の最先端固有解器と比較して系の基底状態エネルギーを収束させるために、量子状態の必要なサンプリングを2次に減らす物理観測値の推定方法を提案する。
この方法は励起状態の計算にも等しく適用でき、ハミルトニアン系の確率近似と組み合わせることで、量子デバイス上の一般化学に対するハミルトニアンシミュレーションに有望な短期的アプローチを提供する。 In the current noisy intermediate scale quantum era of quantum computation, available hardware is severely limited by both qubit count and noise levels, precluding the application of many current hybrid quantum-classical algorithms to non-trivial quantum chemistry problems. In this paper we propose applying some of the fundamental ideas of conventional Quantum Monte Carlo algorithms -- stochastic sampling of both the wavefunction and the Hamiltonian -- to quantum algorithms in order to significantly decrease quantum resource costs. In the context of an imaginary-time propagation based projective quantum eigensolver, we present a novel approach to estimating physical observables which leads to a two order of magnitude reduction in the required sampling of the quantum state to converge the ground state energy of a system relative to current state-of-the-art eigensolvers. The method can be equally applied to excited-state calculations and, combined with stochastic approximations of the system Hamiltonian, provides a promising near-term approach to Hamiltonian simulation for general chemistry on quantum devices. | 翻訳日:2024-03-07 03:20:39 公開日:2024-03-04 |
# 局所的変動尺度によるランダム変数のロバスト統計的比較 Robust Statistical Comparison of Random Variables with Locally Varying Scale of Measurement ( http://arxiv.org/abs/2306.12803v2 ) ライセンス: Link先を確認 | Christoph Jansen, Georg Schollmeyer, Hannah Blocher, Julian Rodemann, Thomas Augustin | (参考訳) 異なる次元の多次元構造のような局所的に異なる測定スケールを持つ空間は、統計学や機械学習において非常に一般的である。
それでも、その中にエンコードされた情報全体をどのように適切に活用するかというオープンな疑問として理解されている。
このような非標準空間への写像の確率変数の期待(集合)に基づく順序を考えることでこの問題に対処する。
この順序は、確率的支配と予想順序を、全くまたはそれぞれ完全でない基構造が与えられる極端な場合として含む。
提案した一般化確率支配(GSD)順序に対する(正規化)統計的テストの導出,線形最適化による運用,不正確な確率モデルによる堅牢化を行う。
本研究は, 多次元貧困測定, ファイナンス, 医療データを用いて行った。 Spaces with locally varying scale of measurement, like multidimensional structures with differently scaled dimensions, are pretty common in statistics and machine learning. Nevertheless, it is still understood as an open question how to exploit the entire information encoded in them properly. We address this problem by considering an order based on (sets of) expectations of random variables mapping into such non-standard spaces. This order contains stochastic dominance and expectation order as extreme cases when no, or respectively perfect, cardinal structure is given. We derive a (regularized) statistical test for our proposed generalized stochastic dominance (GSD) order, operationalize it by linear optimization, and robustify it by imprecise probability models. Our findings are illustrated with data from multidimensional poverty measurement, finance, and medicine. | 翻訳日:2024-03-07 03:20:18 公開日:2024-03-04 |
# 信頼性不確かさ推定のための密度不確かさ層 Density Uncertainty Layers for Reliable Uncertainty Estimation ( http://arxiv.org/abs/2306.12497v2 ) ライセンス: Link先を確認 | Yookoon Park, David M. Blei | (参考訳) ディープニューラルネットワークの予測の不確実性を評価することは、深層学習の安全性に関する応用に不可欠である。
ベイズ深層学習はモデル不確かさを推定するための原則的な枠組みを提供するが、パラメータの後部を近似する一般的なアプローチは予測不確かさの信頼できる推定を達成できないことが多い。
本稿では,モデルの予測分散を入力の実証密度に基礎を置くという,信頼性の高い予測不確実性のための新しい基準を提案する。
つまり、トレーニングデータでは不可能な入力に対する不確実性が高く、より予測可能な入力に対する不確実性も低くする必要がある。
この基準を運用するために、設計により不確かさを満足する確率的ニューラルネットワークアーキテクチャである密度不確かさ層を開発する。
UCIおよびCIFAR-10/100における密度不確実性層について検討した。
既存のアプローチと比較して、密度の不確実性層はより信頼性の高い不確実性推定と堅牢な分散外検出性能を提供する。 Assessing the predictive uncertainty of deep neural networks is crucial for safety-related applications of deep learning. Although Bayesian deep learning offers a principled framework for estimating model uncertainty, the common approaches that approximate the parameter posterior often fail to deliver reliable estimates of predictive uncertainty. In this paper, we propose a novel criterion for reliable predictive uncertainty: a model's predictive variance should be grounded in the empirical density of the input. That is, the model should produce higher uncertainty for inputs that are improbable in the training data and lower uncertainty for inputs that are more probable. To operationalize this criterion, we develop the density uncertainty layer, a stochastic neural network architecture that satisfies the density uncertain criterion by design. We study density uncertainty layers on the UCI and CIFAR-10/100 uncertainty benchmarks. Compared to existing approaches, density uncertainty layers provide more reliable uncertainty estimates and robust out-of-distribution detection performance. | 翻訳日:2024-03-07 03:20:04 公開日:2024-03-04 |
# molインストラクション:大規模言語モデルのための大規模生体分子インストラクションデータセット Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models ( http://arxiv.org/abs/2306.08018v5 ) ライセンス: Link先を確認 | Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, Huajun Chen | (参考訳) 大規模言語モデル(LLM)は、タスクハンドリング能力と革新的な出力を持ち、様々な分野において大きな進歩をもたらした。
しかし、生体分子研究などの専門領域での能力は限られている。
この課題に対処するために,生体分子ドメイン用に設計された包括的命令データセットであるMoll-Instructionsを導入する。
Mol-Instructionsは分子指向命令、タンパク質指向命令、生体分子テキスト命令の3つの重要な構成要素を含んでいる。
各コンポーネントは、生体分子の特徴や行動に関するLCMの理解と予測能力の向上を目的としている。
本研究では,生体分子研究の複雑な領域における大規模モデルの性能向上におけるモルインストラクションの有効性を実証し,生体分子研究コミュニティの進展を促す。
Mol-Instructionsは、現在進行中の研究のために公開されている。 Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a comprehensive instruction dataset designed for the biomolecular domain. Mol-Instructions encompasses three key components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions. Each component aims to improve the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on LLMs, we demonstrate the effectiveness of Mol-Instructions in enhancing large models' performance in the intricate realm of biomolecular studies, thus fostering progress in the biomolecular research community. Mol-Instructions is publicly available for ongoing research and will undergo regular updates to enhance its applicability. | 翻訳日:2024-03-07 03:16:58 公開日:2024-03-04 |
# ネットワーク内計算におけるメタバースの動的部分計算オフロード Dynamic Partial Computation Offloading for the Metaverse in In-Network Computing ( http://arxiv.org/abs/2306.06022v2 ) ライセンス: Link先を確認 | Ibrahim Aliyu, Seungmin Oh, Namseok Ko, Tai-Won Um, Jinsul Kim | (参考訳) ネットワーク内のコンピューティング(COIN)パラダイムは、未使用のネットワークリソースを活用して、メタバースなどの計算要求アプリケーションに対応するタスクを実行する、有望なソリューションである。
本稿では,コイン環境における複数のサブタスクのメタバースにおける部分計算オフロード問題を検討し,計算資源状態の変化に基づいてオフロードポリシーを動的に調整しながら,消費電力と遅延を最小限に抑える。
問題はNPハードであり、ユーザ側のタスク分割問題(TSP)とCOIN側のタスクオフロード問題(TOP)の2つのサブプロブレムに変換する。
我々は、TSPを順序付きポテンシャルゲームとしてモデル化し、Nash平衡(NE)を得るための分散アルゴリズムを提案する。
次に,TOPをマルコフ決定プロセスとしてモデル化し,最適オフロードポリシーの解法としてDouble Deep Q-network (DDQN)を提案する。
知的エージェントが特定の確率でランダムにオフロード決定をサンプリングする従来のDDQNアルゴリズムとは異なり、COINエージェントはTSPとディープニューラルネットワークのNEを探索する。
最後に,シミュレーションの結果から,提案手法によりCOINエージェントがポリシーを更新し,より情報的決定を行えるようになり,従来のベースラインに比べて時間とともに性能が向上することが明らかとなった。 The computing in the network (COIN) paradigm is a promising solution that leverages unused network resources to perform tasks to meet computation-demanding applications, such as the metaverse. In this vein, we consider the partial computation offloading problem in the metaverse for multiple subtasks in a COIN environment to minimize energy consumption and delay while dynamically adjusting the offloading policy based on the changing computational resource status. The problem is NP-hard, and we transform it into two subproblems: the task-splitting problem (TSP) on the user side and the task-offloading problem (TOP) on the COIN side. We model the TSP as an ordinal potential game and propose a decentralized algorithm to obtain its Nash equilibrium (NE). Then, we model the TOP as a Markov decision process and propose the double deep Q-network (DDQN) to solve for the optimal offloading policy. Unlike the conventional DDQN algorithm, where intelligent agents sample offloading decisions randomly within a certain probability, the COIN agent explores the NE of the TSP and the deep neural network. Finally, the simulation results reveal that the proposed model approach allows the COIN agent to update its policies and make more informed decisions, leading to improved performance over time compared to the traditional baseline | 翻訳日:2024-03-07 03:16:13 公開日:2024-03-04 |
# 部分的情報分解を用いたフェデレーション学習における地域・グローバルフェアネストレードオフのデミステレーション Demystifying Local and Global Fairness Trade-offs in Federated Learning Using Partial Information Decomposition ( http://arxiv.org/abs/2307.11333v2 ) ライセンス: Link先を確認 | Faisal Hamman, Sanghamitra Dutta | (参考訳) 本研究は,フェデレートラーニング(FL)におけるグループフェアネストレードオフに対する情報理論的視点を,性別や人種などのセンシティブな属性に対して提示する。
既存の作業は、トレードオフを常に考慮することなく、しばしば$\textit{global fairness}$(すべてのクライアントでモデルが異なる)または$\textit{local fairness}$(各クライアントでモデルが異なる)のいずれかに焦点を当てます。
flにおけるグローバル・フェアネスとローカル・フェアネスの相互作用、特にデータ・ヘテロゲニティの下での理解が不足している。
このギャップに対処するために、情報理論における部分的情報分解(PID)と呼ばれる仕事の本体を活用し、FLにおける不公平な3つの源、すなわち$\textit{Unique Disparity}$、$\textit{Redundant Disparity}$、$\textit{Masked Disparity}$を最初に識別する。
これら3つの相違点が、カノニカルな例を用いて、グローバルとローカルの公平性にどのように寄与するかを実証する。
この分解は、グローバルとローカルのフェアネスのトレードオフに関する基本的な制限を導き出すのに役立ちます。
我々は、$\textit{Accuracy and Global-Local Fairness Optimality Problem (AGLFOP)}$を導入し、精度と公平性のトレードオフの理論的限界を定義する凸最適化を行い、FL戦略がデータセットとクライアント分布を付与できる最高のパフォーマンスを特定する。
また, 合成データセットとADULTデータセットについて, 理論的知見を裏付ける実験結果を示した。 This work presents an information-theoretic perspective to group fairness trade-offs in federated learning (FL) with respect to sensitive attributes, such as gender, race, etc. Existing works often focus on either $\textit{global fairness}$ (overall disparity of the model across all clients) or $\textit{local fairness}$ (disparity of the model at each client), without always considering their trade-offs. There is a lack of understanding regarding the interplay between global and local fairness in FL, particularly under data heterogeneity, and if and when one implies the other. To address this gap, we leverage a body of work in information theory called partial information decomposition (PID), which first identifies three sources of unfairness in FL, namely, $\textit{Unique Disparity}$, $\textit{Redundant Disparity}$, and $\textit{Masked Disparity}$. We demonstrate how these three disparities contribute to global and local fairness using canonical examples. This decomposition helps us derive fundamental limits on the trade-off between global and local fairness, highlighting where they agree or disagree. We introduce the $\textit{Accuracy and Global-Local Fairness Optimality Problem (AGLFOP)}$, a convex optimization that defines the theoretical limits of accuracy and fairness trade-offs, identifying the best possible performance any FL strategy can attain given a dataset and client distribution. We also present experimental results on synthetic datasets and the ADULT dataset to support our theoretical findings. | 翻訳日:2024-03-07 03:11:08 公開日:2024-03-04 |
# fairgp:表面温度エミュレーションのためのベイズエネルギー収支モデル FaIRGP: A Bayesian Energy Balance Model for Surface Temperatures Emulation ( http://arxiv.org/abs/2307.10052v2 ) ライセンス: Link先を確認 | Shahine Bouabid, Dino Sejdinovic, Duncan Watson-Parris | (参考訳) エミュレータ(英: emulators)または縮小複雑気候モデル(英: reduced complexity climate model)は、最小の計算資源で主要な気候量の投影を生成する地球系モデルである。
時系列モデリングやより高度な機械学習技術を用いて、データ駆動エミュレータは有望な研究手段として登場し、最先端の地球システムモデルと視覚的に区別できない、空間的に解決された気候応答を生み出している。
しかし、物理的な解釈能力の欠如は、広く採用されることを制限している。
本研究では,エネルギー収支モデルの物理温度応答方程式を満たすデータ駆動エミュレータであるFaIRGPを紹介する。
結果は、 \textit{ というエミュレータです。
(i)} は統計機械学習モデルの柔軟性を享受し、データから学習することができる。
(ii)} は、気候システムに関する推論に使用できる解釈可能なパラメータを持つ堅牢な物理的接地を有する。
さらに、ベイズ的アプローチは原理的かつ数学的に計算可能な不確実性定量化を可能にする。
本モデルは,将来の現実的なシナリオにおいて,地球平均表面温度と空間表面温度の巧みなエミュレーションを示す。
データから学ぶ能力は、エネルギーバランスモデルよりも優れていますが、堅牢な物理的基盤は、純粋なデータ駆動モデルの落とし穴に対して安全です。
また,FaIRGPを用いて大気上における放射率の予測を行い,検出や属性,降水エミュレーションなどの応用における数学的トラクタビリティの利点について議論する。
この研究が、気候エミュレーションにおけるデータ駆動手法の採用拡大に寄与することを願っている。 Emulators, or reduced complexity climate models, are surrogate Earth system models that produce projections of key climate quantities with minimal computational resources. Using time-series modelling or more advanced machine learning techniques, data-driven emulators have emerged as a promising avenue of research, producing spatially resolved climate responses that are visually indistinguishable from state-of-the-art Earth system models. Yet, their lack of physical interpretability limits their wider adoption. In this work, we introduce FaIRGP, a data-driven emulator that satisfies the physical temperature response equations of an energy balance model. The result is an emulator that \textit{(i)} enjoys the flexibility of statistical machine learning models and can learn from data, and \textit{(ii)} has a robust physical grounding with interpretable parameters that can be used to make inference about the climate system. Further, our Bayesian approach allows a principled and mathematically tractable uncertainty quantification. Our model demonstrates skillful emulation of global mean surface temperature and spatial surface temperatures across realistic future scenarios. Its ability to learn from data allows it to outperform energy balance models, while its robust physical foundation safeguards against the pitfalls of purely data-driven models. We also illustrate how FaIRGP can be used to obtain estimates of top-of-atmosphere radiative forcing and discuss the benefits of its mathematical tractability for applications such as detection and attribution or precipitation emulation. We hope that this work will contribute to widening the adoption of data-driven methods in climate emulation. | 翻訳日:2024-03-07 03:10:04 公開日:2024-03-04 |
# 超微細相互作用を持つ磁性体の核磁化による暗黒物質検出 Dark matter detection using nuclear magnetization in magnet with hyperfine interaction ( http://arxiv.org/abs/2307.08577v2 ) ライセンス: Link先を確認 | So Chigusa, Takeo Moroi, Kazunori Nakayama, Thanaporn Sichanugrist | (参考訳) 我々は、強い超微細相互作用を持つ磁石の磁気励起により、宇宙の暗黒物質(DM)、すなわち、軸および暗黒光子の質量$\sim 10^{-6}$ eVと$\sim 10^{-4}$ eVを検出する可能性を考える。
特に、缶詰反強磁性体MnCO$_3$を具体的な候補物質として考える。
ハイパーファイン相互作用によって許される核スピンと電子スピンの間のスピン移動により、核スピンは有効(電子スピン誘起)磁場によって自然に高偏極化し、互いに長距離相互作用を持つ。
核スピンの集団沈降(すなわち核マグノン)は、核子-DM相互作用を通じてDM磁場によって生成されるが、電子-核スピン混合による電子-DM相互作用にも敏感である。
従来の核スピンプリセッション実験と比較して、DMセンサとしてのこのシステムは、小さな静磁場を印加するだけで高い周波数に敏感である。
この系はまた、DMプローブに利用可能な追加チャネルとして、核スピンと混合された電子スピンの集合的占有も持つ。
LC共振回路に付随する誘導ピックアップループや光子計数装置を備えた光子キャビティなど,適切な読み出し設定下での感度を推定する。
本手法は,光ボソニックdmの未探索パラメータ領域をカバーすることを示す。 We consider the possibility to detect cosmic light dark matter (DM), i.e., axions and dark photons, of mass $\sim 10^{-6}$ eV and $\sim 10^{-4}$ eV, by magnetic excitation in a magnet with strong hyperfine interaction. In particular, we consider a canted anti-ferromagnet, MnCO$_3$, as a concrete candidate material. With spin transfer between nuclear and electron spins allowed by the hyperfine interaction, nuclear spins become naturally highly polarized due to an effective (electron-spin-induced) magnetic field, and have long-range interactions with each other. The collective precession of nuclear spins, i.e., a nuclear magnon, can be generated by the DM field through the nucleon-DM interaction, while they are also sensitive to the electron-DM interaction through the electron-nuclear spin mixing. Compared with conventional nuclear-spin precession experiments, this system as a DM sensor is sensitive to higher frequency needing only a small static magnetic field applied. The system also has collective precession of electron spins, mixed with nuclear spins, as the additional channels that can be used for DM probes. We estimate the sensitivity under appropriate readout setups such as an inductive pick-up loop associated with an LC resonant circuit, or a photon cavity with a photon counting device. We show that this method covers an unexplored parameter region of light bosonic DM. | 翻訳日:2024-03-07 03:09:15 公開日:2024-03-04 |
# 被写体絡み合い状態の生成関数 Generating function for projected entangled-pair states ( http://arxiv.org/abs/2307.08083v2 ) ライセンス: Link先を確認 | Wei-Lin Tu, Laurens Vanderstraeten, Norbert Schuch, Hyun-Yong Lee, Naoki Kawashima, Ji-Yao Chen | (参考訳) 図式和は、投影された対流状態の現代の応用、特に2次元量子多体系の低エネルギー励起の計算において一般的なボトルネックである。
この問題を解決するために,行列積状態の文脈でこれまで提案されていたテンソルネットワーク図式和に対する生成関数アプローチを拡張する。
一粒子励起の形で、生成関数の定式化において励起状態が効率的に計算できることを示し、システムの動的構造因子を評価するためにさらに利用することができる。
正方格子上のスピン-$1/2$横場イジングモデルとハイゼンベルク模型のベンチマーク結果は望ましい精度を示し,既知の結果とよく一致している。
次に、同一格子上のスピン-$1/2$$$j_1$-$j_2$モデルを調べ、ギャップのないスピン液体相の力学特性を調べる。
我々は多粒子励起への一般化に関する議論を締めくくった。 Diagrammatic summation is a common bottleneck in modern applications of projected entangled-pair states, especially in computing low-energy excitations of a two-dimensional quantum many-body system. To solve this problem, here we extend the generating function approach for tensor network diagrammatic summation, a scheme previously proposed in the context of matrix product states. Taking the form of a one-particle excitation, we show that the excited state can be computed efficiently in the generating function formalism, which can further be used in evaluating the dynamical structure factor of the system. Our benchmark results for the spin-$1/2$ transverse-field Ising model and Heisenberg model on the square lattice provide a desirable accuracy, showing good agreement with known results. We then study the spin-$1/2$ $J_1$-$J_2$ model on the same lattice and investigate the dynamical properties of the putative gapless spin liquid phase. We conclude with a discussion on generalizations to multi-particle excitations. | 翻訳日:2024-03-07 03:08:51 公開日:2024-03-04 |
# 大規模言語モデルによるソフトウェアテスト:サーベイ、ランドスケープ、ビジョン Software Testing with Large Language Models: Survey, Landscape, and Vision ( http://arxiv.org/abs/2307.07221v3 ) ライセンス: Link先を確認 | Junjie Wang, Yuchao Huang, Chunyang Chen, Zhe Liu, Song Wang, Qing Wang | (参考訳) 事前訓練された大規模言語モデル(LLM)は、最近、自然言語処理と人工知能のブレークスルー技術として登場し、大規模なデータセットを処理し、幅広いタスクにわたって顕著なパフォーマンスを示すことができる。
一方、ソフトウェアテストは、ソフトウェア製品の品質と信頼性を確保するための基礎となる重要な仕事である。
ソフトウェアシステムのスコープと複雑さが拡大し続ければ、より効果的なソフトウェアテスト技術の必要性がますます緊急になり、LCMの使用のような革新的なアプローチの領域が生まれます。
本稿では,ソフトウェアテストにおけるllmの利用について概観する。
ソフトウェアテストとLLMの両方の観点から、ソフトウェアテストにLLMを使用した102の関連研究を分析します。
本稿では,LLMが一般的に使用されるソフトウェアテストタスクについて,テストケースの準備とプログラムの修復が最も代表的なソフトウェアテストタスクについて,詳細な議論を行う。
また、一般的に使われているLLM、採用されるプロンプトエンジニアリングのタイプ、およびこれらLLMに付随する技術も分析する。
また、この方向性における重要な課題と潜在的な機会をまとめている。
この作業は、この領域における将来の研究のロードマップとして機能し、探究の潜在的な方法を強調し、ソフトウェアテストにおけるLLMの使用に関する現在の理解におけるギャップを特定します。 Pre-trained large language models (LLMs) have recently emerged as a breakthrough technology in natural language processing and artificial intelligence, with the ability to handle large-scale datasets and exhibit remarkable performance across a wide range of tasks. Meanwhile, software testing is a crucial undertaking that serves as a cornerstone for ensuring the quality and reliability of software products. As the scope and complexity of software systems continue to grow, the need for more effective software testing techniques becomes increasingly urgent, making it an area ripe for innovative approaches such as the use of LLMs. This paper provides a comprehensive review of the utilization of LLMs in software testing. It analyzes 102 relevant studies that have used LLMs for software testing, from both the software testing and LLMs perspectives. The paper presents a detailed discussion of the software testing tasks for which LLMs are commonly used, among which test case preparation and program repair are the most representative. It also analyzes the commonly used LLMs, the types of prompt engineering that are employed, as well as the accompanied techniques with these LLMs. It also summarizes the key challenges and potential opportunities in this direction. This work can serve as a roadmap for future research in this area, highlighting potential avenues for exploration, and identifying gaps in our current understanding of the use of LLMs in software testing. | 翻訳日:2024-03-07 03:08:08 公開日:2024-03-04 |
# One-Versus-Others の注意: 臨床データに対するスケーラブルなマルチモーダル統合 One-Versus-Others Attention: Scalable Multimodal Integration for Clinical Data ( http://arxiv.org/abs/2307.05435v3 ) ライセンス: Link先を確認 | Michal Golovanevsky, Eva Schiller, Akira Nair, Ritambhara Singh, Carsten Eickhoff | (参考訳) マルチモーダル学習モデルは、質問応答から自動運転まで、さまざまなタスクにおける単一モダリティアプローチを上回ってますます重要になっている。
マルチモーダル学習の重要性にもかかわらず、既存の取り組みはNLPアプリケーションに焦点を合わせており、モダリティの数は典型的には4つ未満である(オーディオ、ビデオ、テキスト、画像)。
しかし、医療分野などの他の分野のデータ入力には、X線、PETスキャン、MRI、遺伝子スクリーニング、臨床ノートなどが含まれ、効率的かつ正確な情報融合の必要性が生じる可能性がある。
多くの最先端モデルは、ペアワイズ・クロスモーダル・アテンションに依存しており、3つ以上のモダリティを持つアプリケーションではうまくスケールしない。
n$モダリティの場合、コンピューティングの注意はn \choose 2$オペレーションとなり、かなりの量の計算リソースが必要になる可能性がある。
そこで本研究では,モダリティ数に線形にスケールし,n$の注意操作しか必要とせず,既存のクロスモーダル注意アルゴリズムと比較して計算量を大幅に削減する,新たなドメイン中立的注意機構であるone-versus-others(ovo) attentionを提案する。
3つの多様な実世界のデータセットと追加のシミュレーション実験を用いて,本手法は計算コストを低減しつつ,一般的な融合技術と比較して性能を向上することを示した。 Multimodal learning models have become increasingly important as they surpass single-modality approaches on diverse tasks ranging from question-answering to autonomous driving. Despite the importance of multimodal learning, existing efforts focus on NLP applications, where the number of modalities is typically less than four (audio, video, text, images). However, data inputs in other domains, such as the medical field, may include X-rays, PET scans, MRIs, genetic screening, clinical notes, and more, creating a need for both efficient and accurate information fusion. Many state-of-the-art models rely on pairwise cross-modal attention, which does not scale well for applications with more than three modalities. For $n$ modalities, computing attention will result in $n \choose 2$ operations, potentially requiring considerable amounts of computational resources. To address this, we propose a new domain-neutral attention mechanism, One-Versus-Others (OvO) attention, that scales linearly with the number of modalities and requires only $n$ attention operations, thus offering a significant reduction in computational complexity compared to existing cross-modal attention algorithms. Using three diverse real-world datasets as well as an additional simulation experiment, we show that our method improves performance compared to popular fusion techniques while decreasing computation costs. | 翻訳日:2024-03-07 03:07:29 公開日:2024-03-04 |
# ガラス表面セグメンテーションにおける内部外境界注意融合 Internal-External Boundary Attention Fusion for Glass Surface Segmentation ( http://arxiv.org/abs/2307.00212v2 ) ライセンス: Link先を確認 | Dongshen Han and Seungkyu Lee and Chaoning Zhang and Heechan Yoon and Hyukmin Kwon and Hyun-Cheol Kim and Hyon-Gon Choo | (参考訳) 透明な物体や鏡のガラス表面は、他の反射面や透過面の視覚的な外観も含むため、その視覚的な外観によって独特で明確に特徴付けられることはない。
単色画像からガラス領域を検出することは難しい課題である。
近年の深層学習では,ガラス表面と非ガラス表面の視認性の遷移が観察されるガラス表面境界の記述に注意が向けられている。
本研究では,ガラス表面の境界がガラスの物体の特徴に与える影響を解析的に検討する。
x線やctスキャンのような難易度の高い画像タイプを持つ先行意味セグメンテーションアプローチに触発されて,ガラス表面の視覚特性を単一色画像から個別に学習し,選択的に統合する内部外境界注意モジュールを提案する。
提案手法は, 有望な結果を示す最新手法と比較し, 6つの公開ベンチマークで評価した。 Glass surfaces of transparent objects and mirrors are not able to be uniquely and explicitly characterized by their visual appearances because they contain the visual appearance of other reflected or transmitted surfaces as well. Detecting glass regions from a single-color image is a challenging task. Recent deep-learning approaches have paid attention to the description of glass surface boundary where the transition of visual appearances between glass and non-glass surfaces are observed. In this work, we analytically investigate how glass surface boundary helps to characterize glass objects. Inspired by prior semantic segmentation approaches with challenging image types such as X-ray or CT scans, we propose separated internal-external boundary attention modules that individually learn and selectively integrate visual characteristics of the inside and outside region of glass surface from a single color image. Our proposed method is evaluated on six public benchmarks comparing with state-of-the-art methods showing promising results. | 翻訳日:2024-03-07 03:06:00 公開日:2024-03-04 |
# 小さな言語モデルはレコメンダとして役立つか?
データ中心のコールドスタートレコメンデーションに向けて Could Small Language Models Serve as Recommenders? Towards Data-centric Cold-start Recommendations ( http://arxiv.org/abs/2306.17256v5 ) ライセンス: Link先を確認 | Xuansheng Wu, Huachi Zhou, Yucheng Shi, Wenlin Yao, Xiao Huang, Ninghao Liu | (参考訳) 推薦システムは、ユーザが以前の行動に基づいてマッチしたアイテムを見つけるのに役立つ。
パーソナライズされたレコメンデーションは、システムコールドスタートレコメンデーションとして知られるスタートアップにとって実践的な問題である、歴史的なユーザとイテムの相互作用が欠如している場合に困難になる。
既存の研究ではユーザまたはアイテムのコールドスタートの問題を扱っていますが、システムコールドスタートのシナリオにはソリューションが不足しています。
本稿では,言語モデルの文脈内学習に基づくシンプルかつ効果的なアプローチであるPromptRecを提案し,ユーザとアイテムプロファイルを含む自然言語上での感情分析タスクに推奨タスクを変換する。
しかし、この単純なアプローチは、大規模な言語モデルから生まれる強力なコンテキスト内学習能力に大きく依存しており、オンラインレコメンデーションにかなりの遅延が生じる可能性がある。
そこで本研究では,(1)モデル事前学習のための洗練されたコーパスを構築すること,(2)プロンプト事前学習による分解プロンプトテンプレートを構築すること,からなる,データ中心パイプラインを用いたレコメンダシステムのための小型言語モデルを提案する。
これらはそれぞれ、トレーニングデータと推論データの開発に対応する。
パイプラインは、コンテキスト内のレコメンデーションと言語モデリングの間の接続を形式化する理論的フレームワークによってサポートされている。
提案手法を評価するため,提案手法は冷間開始推奨ベンチマークを導入し,拡張された小型言語モデルにより,推定時間17.%の大規模モデルに匹敵する冷間開始推奨性能が得られることを示した。
私たちの知る限りでは、システムコールドスタートレコメンデーション問題に取り組む最初の研究である。
我々の発見は今後の研究に貴重な洞察をもたらすだろう。
ベンチマークと実装はhttps://github.com/JacksonWuxs/PromptRec.comで公開されている。 Recommendation systems help users find matched items based on their previous behaviors. Personalized recommendation becomes challenging in the absence of historical user-item interactions, a practical problem for startups known as the system cold-start recommendation. While existing research addresses cold-start issues for either users or items, we still lack solutions for system cold-start scenarios. To tackle the problem, we propose PromptRec, a simple but effective approach based on in-context learning of language models, where we transform the recommendation task into the sentiment analysis task on natural language containing user and item profiles. However, this naive approach heavily relies on the strong in-context learning ability emerged from large language models, which could suffer from significant latency for online recommendations. To solve the challenge, we propose to enhance small language models for recommender systems with a data-centric pipeline, which consists of: (1) constructing a refined corpus for model pre-training; (2) constructing a decomposed prompt template via prompt pre-training. They correspond to the development of training data and inference data, respectively. The pipeline is supported by a theoretical framework that formalizes the connection between in-context recommendation and language modeling. To evaluate our approach, we introduce a cold-start recommendation benchmark, and the results demonstrate that the enhanced small language models can achieve comparable cold-start recommendation performance to that of large models with only $17\%$ of the inference time. To the best of our knowledge, this is the first study to tackle the system cold-start recommendation problem. We believe our findings will provide valuable insights for future works. The benchmark and implementations are available at https://github.com/JacksonWuxs/PromptRec. | 翻訳日:2024-03-07 03:05:44 公開日:2024-03-04 |
# 連続力学対称性を持つフロッケ系:キャラクタリゼーション、時間依存ネーター電荷、可積分性 Floquet systems with continuous dynamical symmetries: characterization, time-dependent Noether charge, and integrability ( http://arxiv.org/abs/2308.02143v2 ) ライセンス: Link先を確認 | Yukio Kaneko and Tatsuhiko N. Ikeda | (参考訳) ヒルベルト空間上の時間変換とユニタリ変換からなる連続力学対称性(cds)を持つ量子フロッケ(周期駆動)系について検討する。
離散的なものとは異なり、CDSはハミルトニアン$H(t)$を強く制約し、有限次元固有値問題を解くことでフロケ状態をすべて得ることができる。
さらに、ネーターの定理は時間に依存しない保存電荷をもたらし、その期待値は進化を通して時間に依存しない。
ひずみ項のないダイヤモンドにおける窒素空孔中心の有効モデルであるseminal rabiモデルと回転場におけるハイゼンベルクスピンモデルにおいて、cdsの影響を例示する。
この結果はフロケ状態の体系的な解法を提供し、準エネルギー図のハイブリダイゼーションを避ける方法を説明する。 We study quantum Floquet (periodically-driven) systems having continuous dynamical symmetry (CDS) consisting of a time translation and a unitary transformation on the Hilbert space. Unlike the discrete ones, the CDS strongly constrains the possible Hamiltonians $H(t)$ and allows us to obtain all the Floquet states by solving a finite-dimensional eigenvalue problem. Besides, Noether's theorem leads to a time-dependent conservation charge, whose expectation value is time-independent throughout evolution. We exemplify these consequences of CDS in the seminal Rabi model, an effective model of a nitrogen-vacancy center in diamonds without strain terms, and Heisenberg spin models in rotating fields. Our results provide a systematic way of solving for Floquet states and explain how they avoid hybridization in quasienergy diagrams. | 翻訳日:2024-03-07 03:00:38 公開日:2024-03-04 |
# LLMの道徳と法的推論の心理学的考察 Exploring the psychology of LLMs' Moral and Legal Reasoning ( http://arxiv.org/abs/2308.01264v2 ) ライセンス: Link先を確認 | Guilherme F. C. F. Almeida, Jos\'e Luiz Nunes, Neele Engelmann, Alex Wiegmann, Marcelo de Ara\'ujo | (参考訳) 大規模言語モデル(llm)は、さまざまなドメインにわたるタスクにおいて、専門家レベルのパフォーマンスを示す。
llmによって引き起こされた倫理的問題と将来のバージョンを調整する必要性は、芸術モデルが道徳的および法的問題に対してどのように責任を負うかを知ることが重要である。
本稿では,実験心理学の手法を用いてこの問題を調査する。
我々は,Google の Gemini Pro や Anthropic の Claude 2.1,OpenAI の GPT-4,Meta の Llama 2 Chat 70b を例に,実験文献から8つの研究結果を再現した。
GPT-4は、テストした他のすべてのモデルに対して明確なリードを取っているので、全体のアライメントについては、モデルが異なることが分かっています。
それでも、LLM生成応答がヒトの反応と強く相関している場合でも、体系的な違いはみられ、モデルが人間の間に存在する影響を誇張する傾向にある。
これは、人間の参加者を現在の最先端のLLMに置き換える提案を心理的研究で推奨し、機械心理学の特有の側面についてさらなる研究の必要性を強調している。 Large language models (LLMs) exhibit expert-level performance in tasks across a wide range of different domains. Ethical issues raised by LLMs and the need to align future versions makes it important to know how state of the art models reason about moral and legal issues. In this paper, we employ the methods of experimental psychology to probe into this question. We replicate eight studies from the experimental literature with instances of Google's Gemini Pro, Anthropic's Claude 2.1, OpenAI's GPT-4, and Meta's Llama 2 Chat 70b. We find that alignment with human responses shifts from one experiment to another, and that models differ amongst themselves as to their overall alignment, with GPT-4 taking a clear lead over all other models we tested. Nonetheless, even when LLM-generated responses are highly correlated to human responses, there are still systematic differences, with a tendency for models to exaggerate effects that are present among humans, in part by reducing variance. This recommends caution with regards to proposals of replacing human participants with current state-of-the-art LLMs in psychological research and highlights the need for further research about the distinctive aspects of machine psychology. | 翻訳日:2024-03-07 03:00:21 公開日:2024-03-04 |
# マーカーレス皮膚登録に基づくUS \&MRI画像融合 US \& MRI Image Fusion Based on Markerless Skin Registration ( http://arxiv.org/abs/2307.14288v4 ) ライセンス: Link先を確認 | Martina Paccini, Giacomo Paschina, Stefano De Beni, Andrei Stefanov, Velizar Kolev, Giuseppe Patan\`e | (参考訳) 本稿では,3次元CT/MR画像とリアルタイム超音波(US)取得を組み合わせた,革新的な自動核融合イメージングシステムを提案する。
このシステムは、外部の物理的マーカーや複雑なトレーニングの必要性をなくし、異なる経験レベルを持つ医師に画像融合を可能にする。
統合システムには、患者固有の表面取得のためのポータブル3Dカメラ、電磁トラッキングシステム、米国コンポーネントが含まれる。
融合アルゴリズムは、皮膚のセグメンテーションと硬直的共存という2つの主要な部分から構成される。
共同登録ソフトウェアは、CT/MR画像から抽出した表面を患者固有の座標と整合させ、迅速かつ効果的な融合を促進する。
異なる設定での実験的テストは、システムの正確性、計算効率、ノイズ堅牢性、オペレータ独立性を検証する。
共同登録誤差は、許容範囲=1$cm以下である。 This paper presents an innovative automatic fusion imaging system that combines 3D CT/MR images with real-time ultrasound (US) acquisition. The system eliminates the need for external physical markers and complex training, making image fusion feasible for physicians with different experience levels. The integrated system involves a portable 3D camera for patient-specific surface acquisition, an electromagnetic tracking system, and US components. The fusion algorithm comprises two main parts: skin segmentation and rigid co-registration, both integrated into the US machine. The co-registration software aligns the surface extracted from CT/MR images with patient-specific coordinates, facilitating rapid and effective fusion. Experimental testing in different settings validates the system's accuracy, computational efficiency, noise robustness, and operator independence. The co-registration error remains under the acceptable range of~$1$ cm. | 翻訳日:2024-03-07 02:58:53 公開日:2024-03-04 |
# KVN: ステレオポース推定のための微分可能なRANSACによる投票ネットワーク KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose Estimation ( http://arxiv.org/abs/2307.11543v3 ) ライセンス: Link先を確認 | Ivano Donadi and Alberto Pretto | (参考訳) オブジェクトポーズ推定は、いくつかのロボティクスや拡張現実アプリケーションで利用される基本的なコンピュータビジョンタスクである。
多くの確立されたアプローチでは、RANSAC (Random sample consensus) を用いて2D-3Dキーポイント対応を予測し、PnP (Perspective-n-Point) アルゴリズムを用いてオブジェクトのポーズを推定する。
RANSACは非微分可能であるため、通信はエンドツーエンドで直接学習することはできない。
本稿では,ステレオ画像に基づく物体ポーズ推定問題に対処する。
一 識別可能なRANSAC層をよく知られた単眼ポーズ推定網に導入すること。
二 複数ビューから情報を融合できる不確実性駆動型多視点pnpソルバの活用
提案手法は,難易度の高い公開ステレオオブジェクトポーズ推定データセットと,透明テーブルウェアデータセット(ttd)と呼ばれるカスタム構築データセットについて評価し,最近の他のアプローチに対して最先端の結果を得る。
さらに,本研究では,RANSAC層が提案手法の精度において重要な役割を担っていることを示す。
本稿では,本手法とTTDデータセットのコードについて述べる。 Object pose estimation is a fundamental computer vision task exploited in several robotics and augmented reality applications. Many established approaches rely on predicting 2D-3D keypoint correspondences using RANSAC (Random sample consensus) and estimating the object pose using the PnP (Perspective-n-Point) algorithm. Being RANSAC non-differentiable, correspondences cannot be directly learned in an end-to-end fashion. In this paper, we address the stereo image-based object pose estimation problem by i) introducing a differentiable RANSAC layer into a well-known monocular pose estimation network; ii) exploiting an uncertainty-driven multi-view PnP solver which can fuse information from multiple views. We evaluate our approach on a challenging public stereo object pose estimation dataset and a custom-built dataset we call Transparent Tableware Dataset (TTD), yielding state-of-the-art results against other recent approaches. Furthermore, in our ablation study, we show that the differentiable RANSAC layer plays a significant role in the accuracy of the proposed method. We release with this paper the code of our method and the TTD dataset. | 翻訳日:2024-03-07 02:56:04 公開日:2024-03-04 |
# 量子コンピュータ上での量子バックフローのシミュレーション Simulating quantum backflow on a quantum computer ( http://arxiv.org/abs/2309.02245v2 ) ライセンス: Link先を確認 | Arseni Goussev and Jaewoo Joo | (参考訳) 量子バックフロー(Quantum backflow)は、自由粒子の確率密度が粒子の運動量と反対方向に移動する反直感効果である。
粒子が電気的に帯電されている場合、その効果は電流の方向と運動量とのコントラストと見なすことができる。
これまで、量子バックフローの実験的な観測は行われていない。
しかし、この効果は数値的に(古典的コンピュータを用いて)、光学的に(古典的光を用いて)シミュレートされている。
本研究では,実際の量子コンピュータを用いた量子バックフローの最初のシミュレーションを行う。 Quantum backflow is a counterintuitive effect in which the probability density of a free particle moves in the direction opposite to the particle's momentum. If the particle is electrically charged, then the effect can be viewed as the contrast between the direction of electric current and that of the momentum. To date, there has been no direct experimental observation of quantum backflow. However, the effect has been simulated numerically (using classical computers) and optically (using classical light). In this study, we present the first simulation of quantum backflow using a real quantum computer. | 翻訳日:2024-03-07 02:51:16 公開日:2024-03-04 |
# 一般量子エネルギー遷移の位相空間幾何学 Phase space geometry of general quantum energy transitions ( http://arxiv.org/abs/2309.01178v2 ) ライセンス: Link先を確認 | Alfredo M. Ozorio de Almeida | (参考訳) 静的ハミルトニアンの粗い固有準位に対する混合密度作用素は、対応する古典エネルギー殻上のピークを持つスペクトルウィグナー関数によって位相空間で表される。
シェルに沿った軌道セグメントの作用は、内部におけるウィグナー振動の位相を決定する。
一般の外部時間依存ハミルトニアンによって駆動される任意のエネルギーシェル間の古典的な遷移は、スムーズな確率密度を持つ。
ここで、エネルギーまたは駆動時間のいずれかと振動する対応する一対の粗粒エネルギー準位間の遷移に対するさらなる寄与は、4つの軌道セグメント(一対のエネルギーシェルに2つ、駆動ハミルトニアンが生成する2つ)によって決定され、密閉複軌道を形成する。
その順番に、このセグメンテーションの列は、4つの量子進化(静的内部ハミルトニアンによって生成されるペアと駆動ハミルトニアンによって生成されるペア)を組み合わせた複合ユニタリ作用素の半古典的表現に属する。
閉じた化合物軌道は連続した族に属することが示され、ハミルトニアンの双方によって生成される古典的流れが通勤する点にシードされる。 The mixed density operator for coarsegrained eigenlevels of a static Hamiltonian is represented in phase space by the spectral Wigner function, which has its peak on the corresponding classical energy shell. The action of trajectory segments along the shell determine the phase of the Wigner oscillations in its interior. The classical transitions between any pair of energy shells, driven by a general external time dependent Hamiltonian, also have a smooth probability density. It is shown here that a further contribution to the transition between the corresponding pair of coarsegrained energy levels, which oscillates with either energy, or the driving time, is determined by four trajectory segments (two in the pair of energy shells and two generated by the driving Hamiltonian) that join exactly to form a closed compound orbit. In its turn, this sequence of segments belongs to the semiclassical expression of a compound unitary operator that combines four quantum evolutions: a pair generated by the static internal Hamiltonian and a pair generated by the driving Hamiltonian. The closed compound orbits are shown to belong to continuous families, which are initially seeded at points where the classical flow generated by both Hamiltonians commute. | 翻訳日:2024-03-07 02:50:47 公開日:2024-03-04 |
# 動的多体フレア点における破壊共鳴の収束 The confluence of fractured resonances at points of dynamical, many--body flare ( http://arxiv.org/abs/2308.12346v2 ) ライセンス: Link先を確認 | Bitan De, Gabriela W\'ojtowicz, Marek M. Rams, Michael Zwolak, and Jakub Zakrzewski | (参考訳) 共鳴輸送は、ある空間媒体に周波数の一致があるときに起こり、ある貯水池から別の貯水池へ粒子を閉鎖する効率を高める。
我々は、周期的に駆動される多体格子において、空間的に破壊された共鳴の集合が存在することを実証した。これらの'emanate'は、駆動周波数と多体相互作用強度が変化するときに生じる内部表面の散乱に起因する2つの必須共鳴から生じる、レンズフレアを連想させる散乱である。
これらの破断共鳴の合流は輸送を劇的に増加させる。
ある合流点では、相互作用強度は有限であり、周期駆動の対向回転項との相互作用によって本質的な共鳴が発生する。我々は、破断共鳴の起源と構造、およびシステムパラメータとのコンダクタンスのスケーリングについて論じる。これらの結果は、オープンで駆動された多体系の豊かさの新しい例を提供する。 Resonant transport occurs when there is a matching of frequencies across some spatial medium, increasing the efficiency of shuttling particles from one reservoir to another. We demonstrate that in a periodically driven, many--body titled lattice, there are sets of spatially fractured resonances. These ``emanate'' from two essential resonances due to scattering off internal surfaces created when the driving frequency and many--body interaction strength vary, a scattering reminiscent of lens flare. The confluence of these fractured resonances dramatically enhances transport. At one confluence, the interaction strength is finite and the essential resonance arises due to the interplay of interaction with the counter--rotating terms of the periodic drive. We discuss the origin and structure of the fractured resonances, as well as the scaling of the conductance with system parameters. These results furnish a new example of the richness of open, driven, many--body systems. | 翻訳日:2024-03-07 02:49:43 公開日:2024-03-04 |
# スパイク反強磁性ニューロンを用いたパターン認識 Pattern recognition using spiking antiferromagnetic neurons ( http://arxiv.org/abs/2308.09071v2 ) ライセンス: Link先を確認 | Hannah Bradley (1), Steven Louis (2), Andrei Slavin (1), and Vasyl Tyberkevych (1) ((1) Department of Physics, Oakland University, (2) Department of Electrical Engineering, Oakland University) | (参考訳) スピントロニクスデバイスは、ニューロモルフィックコンピューティングのためのナノスケールでエネルギー効率の良い人工ニューロンの開発に有望な道を提供する。
反強磁性(AFM)振動子では、生物学的ニューロンの多くの特徴を模倣する超高速な人工ニューロンが作られることが示されている。
本研究では、パターン認識を行うために、AFMニューロンのニューラルネットワークを訓練する。
スパイクパターン結合ニューロン(span)と呼ばれる単純な機械学習アルゴリズムは、ニューロンスパイクの時間的位置に依存するが、トレーニング中に使用される。
afmニューラルネットワークは、物理時間のマイクロ秒以下において、指定された時間ウィンドウ内でスパイクを生成してグリッドから成るシンボルを認識するように訓練される。
さらに、望ましくないスパイクを抑制するために出力層を追加してマルチシンボリック認識を実現する。
AFMニューロンとSPANアルゴリズムを利用して、ピコジュールの順序に基づいて、全体の消費電力で高精度な認識が可能なニューラルネットワークを構築する。 Spintronic devices offer a promising avenue for the development of nanoscale, energy-efficient artificial neurons for neuromorphic computing. It has previously been shown that with antiferromagnetic (AFM) oscillators, ultra-fast spiking artificial neurons can be made that mimic many unique features of biological neurons. In this work, we train an artificial neural network of AFM neurons to perform pattern recognition. A simple machine learning algorithm called spike pattern association neuron (SPAN), which relies on the temporal position of neuron spikes, is used during training. In under a microsecond of physical time, the AFM neural network is trained to recognize symbols composed from a grid by producing a spike within a specified time window. We further achieve multi-symbol recognition with the addition of an output layer to suppress undesirable spikes. Through the utilization of AFM neurons and the SPAN algorithm, we create a neural network capable of high-accuracy recognition with overall power consumption on the order of picojoules. | 翻訳日:2024-03-07 02:47:31 公開日:2024-03-04 |
# 生成逆ネットワークのための統一電源損失関数 A Unifying Generator Loss Function for Generative Adversarial Networks ( http://arxiv.org/abs/2308.07233v2 ) ライセンス: Link先を確認 | Justin Veiner, Fady Alajaji, Bahman Gharesifard | (参考訳) 従来のGAN(VanillaGAN)システムのように、標準的な(または古典的な)判別器損失関数を使用する二重目的生成逆数ネットワーク(GAN)に対して、$\alpha$-parametrized generator loss関数を導入する。
ジェネレータ損失関数は対称クラス確率推定型関数である$\mathcal{L}_\alpha$に基づいており、結果として得られるGANシステムは$\mathcal{L}_\alpha$-GANと呼ばれる。
最適判別器の下では、ジェネレータの最適化問題は、jensen-$f_\alpha$-divergence(jensen-shannon divergenceの自然な一般化)を最小化することであり、ここで、$f_\alpha$は損失関数$\mathcal{l}_\alpha$で表される凸関数である。
また、この$\mathcal{L}_\alpha$-GAN問題は、VanillaGAN、Least Squares GAN (LSGAN)、Least $k$th order GAN (L$k$GAN)、最近導入された$(\alpha_D,\alpha_G)$-GAN with $\alpha_D=1$など、文学における多くのGAN問題として回復することを示した。
最後に、MNIST、CIFAR-10、Stacked MNISTの3つのデータセットを用いて実験を行い、$\mathcal{L}_\alpha$-GANシステムの様々な例のパフォーマンスを示す。 A unifying $\alpha$-parametrized generator loss function is introduced for a dual-objective generative adversarial network (GAN), which uses a canonical (or classical) discriminator loss function such as the one in the original GAN (VanillaGAN) system. The generator loss function is based on a symmetric class probability estimation type function, $\mathcal{L}_\alpha$, and the resulting GAN system is termed $\mathcal{L}_\alpha$-GAN. Under an optimal discriminator, it is shown that the generator's optimization problem consists of minimizing a Jensen-$f_\alpha$-divergence, a natural generalization of the Jensen-Shannon divergence, where $f_\alpha$ is a convex function expressed in terms of the loss function $\mathcal{L}_\alpha$. It is also demonstrated that this $\mathcal{L}_\alpha$-GAN problem recovers as special cases a number of GAN problems in the literature, including VanillaGAN, Least Squares GAN (LSGAN), Least $k$th order GAN (L$k$GAN) and the recently introduced $(\alpha_D,\alpha_G)$-GAN with $\alpha_D=1$. Finally, experimental results are conducted on three datasets, MNIST, CIFAR-10, and Stacked MNIST to illustrate the performance of various examples of the $\mathcal{L}_\alpha$-GAN system. | 翻訳日:2024-03-07 02:47:17 公開日:2024-03-04 |
# フェルミオンおよびボソニックガウス状態のクリロフ複雑性 Krylov Complexity of Fermionic and Bosonic Gaussian States ( http://arxiv.org/abs/2309.10382v3 ) ライセンス: Link先を確認 | Kiran Adhikari, Adwait Rijal, Ashok Kumar Aryal, Mausam Ghimire, Rajeev Singh, Christian Deppe | (参考訳) \emph{complexity} の概念は、量子情報を含む複数の分野において重要となり、量子状態のカオス的進化を観測するための代替の計量となる。
本稿では,量子複雑性の特殊な形式である \emph{krylov complexity} に着目し,すべての可能な直交基底上での量子状態の拡散を曖昧かつ本質的に有意義に評価する。
我々の研究はガウス量子状態の文脈にあり、ボソニック系とフェルミオン系の両方の基本であり、共分散行列によって完全に説明できる。
共分散行列は必須であるが, 相対位相情報の欠如により, クリロフ複雑性を計算するには不十分であることを示す。
以上より, 相対共分散行列はガウス量子状態のクリロフ複雑性の上限となることが示唆された。
また、熱場二重状態(TFD)とディラック場に対するクリロフ複雑性の計算によるホログラフィック双対性の候補として複雑性を提唱する理論に対するクリロフ複雑性の影響についても検討する。 The concept of \emph{complexity} has become pivotal in multiple disciplines, including quantum information, where it serves as an alternative metric for gauging the chaotic evolution of a quantum state. This paper focuses on \emph{Krylov complexity}, a specialized form of quantum complexity that offers an unambiguous and intrinsically meaningful assessment of the spread of a quantum state over all possible orthogonal bases. Our study is situated in the context of Gaussian quantum states, which are fundamental to both Bosonic and Fermionic systems and can be fully described by a covariance matrix. We show that while the covariance matrix is essential, it is insufficient alone for calculating Krylov complexity due to its lack of relative phase information. Our findings suggest that the relative covariance matrix can provide an upper bound for Krylov complexity for Gaussian quantum states. We also explore the implications of Krylov complexity for theories proposing complexity as a candidate for holographic duality by computing Krylov complexity for the thermofield double States (TFD) and Dirac field. | 翻訳日:2024-03-07 02:40:48 公開日:2024-03-04 |
# renderocc: 2次元レンダリングを監督するビジョン中心の3d占有率予測 RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering Supervision ( http://arxiv.org/abs/2309.09502v2 ) ライセンス: Link先を確認 | Mingjie Pan, Jiaming Liu, Renrui Zhang, Peixiang Huang, Xiaoqi Li, Bing Wang, Hongwei Xie, Li Liu, Shanghang Zhang | (参考訳) 3D占有率予測は、ロボットの知覚と自律運転の分野で大きな可能性を秘めており、3Dシーンをセマンティックラベル付きグリッドセルに定量化している。
最近の作品は、主に3dボクセル空間の完全な占有ラベルを用いて監督を行っている。
しかし、高価なアノテーションプロセスや曖昧なラベルは、3D占有モデルのユーザビリティとスケーラビリティを厳しく制限している。
そこで本稿では,2dラベルのみを用いて3d占有モデルのトレーニングを行うための新しいパラダイムであるrenderoccを提案する。
具体的には,多視点画像からnerf型3次元ボリューム表現を抽出し,ボリュームレンダリング技術を用いて2次元レンダリングを行い,2次元セマンティクスと奥行きラベルからの直接3次元監視を可能にする。
さらに,逐次フレームを活用し,各対象に対する総合的な2次元レンダリングを構築する自律運転シナリオにおいて,スパース視点の問題に対処する補助レイ法を提案する。
我々の知る限り、RenderOccは2Dラベルだけでマルチビュー3D占有モデルをトレーニングする最初の試みであり、高価な3D占有アノテーションへの依存を減らす。
大規模な実験により、RenderOccは3Dラベルで完全に教師されたモデルに匹敵するパフォーマンスを達成し、現実世界のアプリケーションにおけるこのアプローチの重要性を強調している。 3D occupancy prediction holds significant promise in the fields of robot perception and autonomous driving, which quantifies 3D scenes into grid cells with semantic labels. Recent works mainly utilize complete occupancy labels in 3D voxel space for supervision. However, the expensive annotation process and sometimes ambiguous labels have severely constrained the usability and scalability of 3D occupancy models. To address this, we present RenderOcc, a novel paradigm for training 3D occupancy models only using 2D labels. Specifically, we extract a NeRF-style 3D volume representation from multi-view images, and employ volume rendering techniques to establish 2D renderings, thus enabling direct 3D supervision from 2D semantics and depth labels. Additionally, we introduce an Auxiliary Ray method to tackle the issue of sparse viewpoints in autonomous driving scenarios, which leverages sequential frames to construct comprehensive 2D rendering for each object. To our best knowledge, RenderOcc is the first attempt to train multi-view 3D occupancy models only using 2D labels, reducing the dependence on costly 3D occupancy annotations. Extensive experiments demonstrate that RenderOcc achieves comparable performance to models fully supervised with 3D labels, underscoring the significance of this approach in real-world applications. | 翻訳日:2024-03-07 02:39:57 公開日:2024-03-04 |
# 拡散確率モデルを用いたLiDARデータ合成 LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2309.09256v2 ) ライセンス: Link先を確認 | Kazuto Nakashima, Ryo Kurazume | (参考訳) 3D LiDARデータの生成モデリングは、スケーラブルなシミュレーション、シーン操作、LiDARポイントクラウドのスパース・トゥ・ディエンス・コンプリートといった自律移動ロボットのための有望なアプリケーションにおいて、新たな課題である。
既存のアプローチは、深層生成モデルを用いた画像ベースのLiDARデータ生成の実現可能性を示しているが、彼らは依然として忠実さとトレーニング安定性に苦慮している。
本研究では,LDARデータのための新しい生成モデルであるR2DMを提案する。R2DMは,距離と反射強度のイメージ表現に基づいて,多種多様で高忠実な3Dシーンポイント雲を生成できる。
提案手法は拡散確率モデル(ddpms)を用いており,近年,生成モデルフレームワークにおいて印象的な結果が得られた。
DDPMをLiDAR領域で効果的に訓練するために、まずデータ表現、損失関数、空間帰納バイアスの詳細な分析を行う。
R2DMモデルを活用することで、DDPMの強力な機能に基づいた柔軟なLiDAR補完パイプラインも導入します。
提案手法は,KITTI-360データセットとKITTI-Rawデータセットのタスク生成において,既存の手法を超えていることを示す。
プロジェクトページはhttps://kazuto1011.github.io/r2dm.com/で閲覧できます。 Generative modeling of 3D LiDAR data is an emerging task with promising applications for autonomous mobile robots, such as scalable simulation, scene manipulation, and sparse-to-dense completion of LiDAR point clouds. While existing approaches have demonstrated the feasibility of image-based LiDAR data generation using deep generative models, they still struggle with fidelity and training stability. In this work, we present R2DM, a novel generative model for LiDAR data that can generate diverse and high-fidelity 3D scene point clouds based on the image representation of range and reflectance intensity. Our method is built upon denoising diffusion probabilistic models (DDPMs), which have shown impressive results among generative model frameworks in recent years. To effectively train DDPMs in the LiDAR domain, we first conduct an in-depth analysis of data representation, loss functions, and spatial inductive biases. Leveraging our R2DM model, we also introduce a flexible LiDAR completion pipeline based on the powerful capabilities of DDPMs. We demonstrate that our method surpasses existing methods in generating tasks on the KITTI-360 and KITTI-Raw datasets, as well as in the completion task on the KITTI-360 dataset. Our project page can be found at https://kazuto1011.github.io/r2dm. | 翻訳日:2024-03-07 02:39:35 公開日:2024-03-04 |
# モジュール型ロボット構成の最適化 : 語彙遺伝アルゴリズムによるアプローチ Optimizing Modular Robot Composition: A Lexicographic Genetic Algorithm Approach ( http://arxiv.org/abs/2309.08399v2 ) ライセンス: Link先を確認 | Jonathan K\"ulz and Matthias Althoff | (参考訳) 産業用ロボットは、タスク要求や環境の変化に適応する能力に制限のある汎用ハードウェアとして設計されている。
一方、モジュラーロボットは柔軟性があり、多様なニーズに合わせて簡単にカスタマイズできる。
形態学、すなわちロボットの形態と構造は、主要なパフォーマンス指標の取得コスト、サイクル時間、エネルギー効率に大きな影響を及ぼす。
しかし、特定のタスクに最適なモジュール構成を特定することは未解決の問題であり、タスクに適したモジュールロボットを開発する上で大きなハードルとなる。
以前のアプローチでは、設計空間の適切な探索や、複雑なタスクに適応する可能性に欠けていた。
本研究では, 遺伝的アルゴリズムと解候補の辞書評価を組み合わせることで, この問題を克服し, 探索空間を探索する手法を提案する。
提案手法は最先端のベースラインを上回っており, クラッタ環境における産業タスクのためのモジュールロボットを合成できることを実証する。 Industrial robots are designed as general-purpose hardware with limited ability to adapt to changing task requirements or environments. Modular robots, on the other hand, offer flexibility and can be easily customized to suit diverse needs. The morphology, i.e., the form and structure of a robot, significantly impacts the primary performance metrics acquisition cost, cycle time, and energy efficiency. However, identifying an optimal module composition for a specific task remains an open problem, presenting a substantial hurdle in developing task-tailored modular robots. Previous approaches either lack adequate exploration of the design space or the possibility to adapt to complex tasks. We propose combining a genetic algorithm with a lexicographic evaluation of solution candidates to overcome this problem and navigate search spaces exceeding those in prior work by magnitudes in the number of possible compositions. We demonstrate that our approach outperforms a state-of-the-art baseline and is able to synthesize modular robots for industrial tasks in cluttered environments. | 翻訳日:2024-03-07 02:39:07 公開日:2024-03-04 |
# 道路損傷検出のためのGANとテクスチャ合成の統合 Integrating GAN and Texture Synthesis for Enhanced Road Damage Detection ( http://arxiv.org/abs/2309.06747v2 ) ライセンス: Link先を確認 | Tengyang Chen and Jiangtao Ren | (参考訳) 交通安全・道路整備の分野では、安全運転の確保と道路耐久性の延長には、道路損傷の正確な検出が不可欠である。
しかし、現在の方法は限られたデータのためにしばしば不足する。
以前の試みでは、Generative Adversarial Networksを使用して、さまざまな形状の損傷を生成し、それを手動で適切な位置に組み込んだ。
しかし、この問題は十分に検討されておらず、2つの課題に直面している。
まず、重度の多様性を無視しながら損傷の位置と形だけを豊かにし、現実主義はさらに改善する必要がある。
第二に、かなりの量の手作業が必要です。
これらの課題に対処するため、我々は革新的なアプローチを提案する。
GANを用いて様々な形状の損傷を発生させるだけでなく,道路のテクスチャを抽出するためのテクスチャ合成技術も活用している。
これらの2つの要素は異なる重みで混合され、合成された損傷の重症度を制御し、ポアソンブレンドによって元の画像に埋め込むことができる。
本手法は,損傷の重大さと背景との整合性を両立させる。
作業コストを削減するため,組込み時の自動サンプル選択に構造的類似性を利用する。
原画像の各拡張データは、重大度レベルが異なるバージョンを含む。
分散ドリフトを緩和するための簡単なスクリーニング戦略を実装した。
公道損傷データセットを用いて実験を行う。
提案手法は手作業の必要性を解消するだけでなく,mAPを4.1%改善し,F1スコアを4.5%改善する。 In the domain of traffic safety and road maintenance, precise detection of road damage is crucial for ensuring safe driving and prolonging road durability. However, current methods often fall short due to limited data. Prior attempts have used Generative Adversarial Networks to generate damage with diverse shapes and manually integrate it into appropriate positions. However, the problem has not been well explored and is faced with two challenges. First, they only enrich the location and shape of damage while neglect the diversity of severity levels, and the realism still needs further improvement. Second, they require a significant amount of manual effort. To address these challenges, we propose an innovative approach. In addition to using GAN to generate damage with various shapes, we further employ texture synthesis techniques to extract road textures. These two elements are then mixed with different weights, allowing us to control the severity of the synthesized damage, which are then embedded back into the original images via Poisson blending. Our method ensures both richness of damage severity and a better alignment with the background. To save labor costs, we leverage structural similarity for automated sample selection during embedding. Each augmented data of an original image contains versions with varying severity levels. We implement a straightforward screening strategy to mitigate distribution drift. Experiments are conducted on a public road damage dataset. The proposed method not only eliminates the need for manual labor but also achieves remarkable enhancements, improving the mAP by 4.1% and the F1-score by 4.5%. | 翻訳日:2024-03-07 02:38:49 公開日:2024-03-04 |
# g$-mapper:マッパー建設でカバーを学ぶ $G$-Mapper: Learning a Cover in the Mapper Construction ( http://arxiv.org/abs/2309.06634v2 ) ライセンス: Link先を確認 | Enrique Alvarado, Robin Belton, Emily Fischer, Kang-Ju Lee, Sourabh Palande, Sarah Percival, Emilie Purvine | (参考訳) Mapperアルゴリズムは、与えられたデータセットの構造を反映したグラフを出力するトポロジカルデータ解析(TDA)の可視化技術である。
しかし、マッパーアルゴリズムは`nice'マッパーグラフを生成するためにいくつかのパラメータをチューニングする必要がある。
本稿では,カバーパラメータの選択に注目する。
本稿では,マッパーグラフの被覆を,統計的正規性テストに従って繰り返し分割することにより最適化するアルゴリズムを提案する。
このアルゴリズムは、anderson-darlingテストを繰り返し適用することで、k$-meansで最適なクラスタ数を検索する$g$-meansクラスタリングに基づいている。
分割処理はガウス混合モデルを用いて,所定のデータの分布に応じてカバーを慎重に選択する。
合成および実世界のデータセットの実験では、我々のアルゴリズムがカバーを生成して、Mapperグラフがデータセットの本質を保ちながら、非常に高速に動作することを示す。 The Mapper algorithm is a visualization technique in topological data analysis (TDA) that outputs a graph reflecting the structure of a given dataset. However, the Mapper algorithm requires tuning several parameters in order to generate a ``nice" Mapper graph. This paper focuses on selecting the cover parameter. We present an algorithm that optimizes the cover of a Mapper graph by splitting a cover repeatedly according to a statistical test for normality. Our algorithm is based on $G$-means clustering which searches for the optimal number of clusters in $k$-means by iteratively applying the Anderson-Darling test. Our splitting procedure employs a Gaussian mixture model to carefully choose the cover according to the distribution of the given data. Experiments for synthetic and real-world datasets demonstrate that our algorithm generates covers so that the Mapper graphs retain the essence of the datasets, while also running significantly fast. | 翻訳日:2024-03-07 02:38:28 公開日:2024-03-04 |
# SAソルバー:拡散モデルの高速サンプリングのための確率アダムズソルバー SA-Solver: Stochastic Adams Solver for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2309.05019v2 ) ライセンス: Link先を確認 | Shuchen Xue, Mingyang Yi, Weijian Luo, Shifeng Zhang, Jiacheng Sun, Zhenguo Li, Zhi-Ming Ma | (参考訳) 拡散確率モデル(DPM)は生成タスクでかなりの成功を収めた。
DPM からのサンプリングは、時間を要する拡散 SDE や ODE の解法と等価であるため、改良された微分方程式解法に基づく多数の高速サンプリング手法が提案されている。
このような手法の多くは、その優れた効率性から拡散 ode の解法を考える。
しかし、確率的サンプリングは、多様で高品質なデータを生成する上で、さらなる利点をもたらす可能性がある。
本研究では、分散制御拡散SDEと線形多重ステップSDEソルバの2つの側面から確率的サンプリングを包括的に分析する。
そこで本研究では, 拡散SDEを解き, 高品質なデータを生成するための効率的な確率アダムズ法である SA-Solver を提案する。
実験の結果, SA-Solverは以下の結果を得た。
1) 従来の数段サンプリング法と比較して改善又は同等の性能を有する。
2) 適切な関数評価 (NFE) の下で, かなりのベンチマークデータセットのSOTA FIDスコアが得られた。 Diffusion Probabilistic Models (DPMs) have achieved considerable success in generation tasks. As sampling from DPMs is equivalent to solving diffusion SDE or ODE which is time-consuming, numerous fast sampling methods built upon improved differential equation solvers are proposed. The majority of such techniques consider solving the diffusion ODE due to its superior efficiency. However, stochastic sampling could offer additional advantages in generating diverse and high-quality data. In this work, we engage in a comprehensive analysis of stochastic sampling from two aspects: variance-controlled diffusion SDE and linear multi-step SDE solver. Based on our analysis, we propose SA-Solver, which is an improved efficient stochastic Adams method for solving diffusion SDE to generate data with high quality. Our experiments show that SA-Solver achieves: 1) improved or comparable performance compared with the existing state-of-the-art sampling methods for few-step sampling; 2) SOTA FID scores on substantial benchmark datasets under a suitable number of function evaluations (NFEs). | 翻訳日:2024-03-07 02:37:19 公開日:2024-03-04 |
# 変化点検出機構を有するホッフィング木に基づく連続学習シナリオのための天然ガス消費量予測システム A Natural Gas Consumption Forecasting System for Continual Learning Scenarios based on Hoeffding Trees with Change Point Detection Mechanism ( http://arxiv.org/abs/2309.03720v3 ) ライセンス: Link先を確認 | Radek Svoboda, Sebastian Basterrech, J\k{e}drzej Kozal, Jan Plato\v{s}, Micha{\l} Wo\'zniak | (参考訳) 天然ガス消費の予測は、季節性やトレンドを考慮して、その供給と消費を計画し、主に工業企業による生産コストの最適化に不可欠である。
しかし、供給に対する脅威の時においても、個々の消費者のニーズを満たすためにこの原料の供給を保証し、社会のエネルギー安全を確保する重要な要素である。
本稿では,データストリーム処理を用いた連続学習機能付きモデルコレクション選択のための,変化点検出統合による天然ガス消費の多段階予測について紹介する。
提案手法に基づく予測モデルの性能を,天然ガス消費予測の複雑な実世界のユースケースで評価した。
我々は,予測モデルとしてHoeffding Tree Predictionorを用い,変化点検出のためのPruned Exact Linear Time (PELT) アルゴリズムを開発した。
変更点検出統合により、連続した時間フレームに対して異なるモデルコレクションを選択することができる。
これにより、検出された変化点の密度が異なる予測シナリオに対して、3つのモデル収集選択手順(エラーフィードバックループの有無)を定義し、評価する。
これらのモデルと変化点非依存のベースラインアプローチを比較した。
実験では,モデルコレクション選択手順に関わらず,変更点が少ないと予測誤差が小さくなることを示した。
また、予測誤差フィードバックを省略したモデル収集選択手順は、連続学習タスクに適したより堅牢な予測モデルをもたらす。 Forecasting natural gas consumption, considering seasonality and trends, is crucial in planning its supply and consumption and optimizing the cost of obtaining it, mainly by industrial entities. However, in times of threats to its supply, it is also a critical element that guarantees the supply of this raw material to meet individual consumers' needs, ensuring society's energy security. This article introduces a novel multistep ahead forecasting of natural gas consumption with change point detection integration for model collection selection with continual learning capabilities using data stream processing. The performance of the forecasting models based on the proposed approach is evaluated in a complex real-world use case of natural gas consumption forecasting. We employed Hoeffding tree predictors as forecasting models and the Pruned Exact Linear Time (PELT) algorithm for the change point detection procedure. The change point detection integration enables selecting a different model collection for successive time frames. Thus, three model collection selection procedures (with and without an error feedback loop) are defined and evaluated for forecasting scenarios with various densities of detected change points. These models were compared with change point agnostic baseline approaches. Our experiments show that fewer change points result in a lower forecasting error regardless of the model collection selection procedure employed. Also, simpler model collection selection procedures omitting forecasting error feedback leads to more robust forecasting models suitable for continual learning tasks. | 翻訳日:2024-03-07 02:35:59 公開日:2024-03-04 |
# 移動マニピュレーションのためのアクティブ・パーセプティブ・モーション・ジェネレーション Active-Perceptive Motion Generation for Mobile Manipulation ( http://arxiv.org/abs/2310.00433v2 ) ライセンス: Link先を確認 | Snehal Jauhri, Sophie Lueth, Georgia Chalvatzaki | (参考訳) モバイルマニピュレーション(moma)システムは、移動や環境とのインタラクションが可能な空間が拡大していることから、モビリティとデクスタリティのメリットを取り入れている。
しかし、車載センサー、例えばエンボディカメラを装備したとしても、家計などの未構造化・散在環境におけるタスク関連視覚情報を抽出することは困難である。
そこで本研究では,移動マニピュレータのためのアクティブな知覚パイプラインを導入し,未知のクラッタシーンの把握など,操作作業に有用な動作を生成する。
提案手法である actpermoma は,経路のサンプリングと経路別ユーティリティの計算により,後退水平方向にロボットパスを生成する。
これらのユーティリティは、シーン再構築のための視覚情報ゲイン(IG)を最大化し、例えば、到達可能性の最大化により、成功を把握できるタスク指向の目的を最大化する。
本手法は,両腕のティアーゴ++モマロボットを用いて,障害物のあるクラッタシーンで移動把持を行うシミュレーション実験において有効であることを示す。
様々なユーティリティやパラメータの寄与を実証的に分析し、アクティブな知覚目標の有無に関わらず、代表的なベースラインと比較する。
最後に,実世界への移動把握戦略の移転を実証し,アクティブ・パーセプティブなMoMaの方向性を示す。 Mobile Manipulation (MoMa) systems incorporate the benefits of mobility and dexterity, due to the enlarged space in which they can move and interact with their environment. However, even when equipped with onboard sensors, e.g., an embodied camera, extracting task-relevant visual information in unstructured and cluttered environments, such as households, remains challenging. In this work, we introduce an active perception pipeline for mobile manipulators to generate motions that are informative toward manipulation tasks, such as grasping in unknown, cluttered scenes. Our proposed approach, ActPerMoMa, generates robot paths in a receding horizon fashion by sampling paths and computing path-wise utilities. These utilities trade-off maximizing the visual Information Gain (IG) for scene reconstruction and the task-oriented objective, e.g., grasp success, by maximizing grasp reachability. We show the efficacy of our method in simulated experiments with a dual-arm TIAGo++ MoMa robot performing mobile grasping in cluttered scenes with obstacles. We empirically analyze the contribution of various utilities and parameters, and compare against representative baselines both with and without active perception objectives. Finally, we demonstrate the transfer of our mobile grasping strategy to the real world, indicating a promising direction for active-perceptive MoMa. | 翻訳日:2024-03-07 02:31:08 公開日:2024-03-04 |
# 重み付き多重測度に対するエントロピー不確実性関係 Entropic uncertainty relations for multiple measurements assigned with biased weights ( http://arxiv.org/abs/2309.16955v2 ) ライセンス: Link先を確認 | Shan Huang, Hua-Lei Yin, Zeng-Bing Chen, and Shengjun Wu | (参考訳) ハイゼンベルクの不確実性原理を定式化するエントロピー的方法は、量子情報理論の応用において基本的な役割を果たすだけでなく、量子システムの真の非古典的特徴を示す上でも不可欠である。
本稿では、量子系の個々のコピーの測定が不均一な確率で選択されるシナリオにおいて、R\'{e}nyiエントロピー不確実性関係(EURs)を考察する。
観測者の測定結果に関する総合的な情報の欠如を特徴付けるEURとは対照的に,複数の測定値に対するエントロピーの重み付け和に対する状態依存的な下限を確立する。
したがって、従来のEURは全ての重みが等しい特別な場合に対応しており、そのような場合、我々の結果は概して以前のものよりも強いことを示す。
さらに, エントロピックステアリング基準を例として, 異なる測定値に割り当てられた重みを最適化することにより, 現実的な量子タスクにおいてEURが有利であることを示す。
重要なことに、この最適化は量子リソースを必要とせず、古典的コンピュータ上で効率的に計算できる。 The entropic way of formulating Heisenberg's uncertainty principle not only plays a fundamental role in applications of quantum information theory but also is essential for manifesting genuine nonclassical features of quantum systems. In this paper we investigate R\'{e}nyi entropic uncertainty relations (EURs) in the scenario where measurements on individual copies of a quantum system are selected with nonuniform probabilities. In contrast with EURs that characterize an observer's overall lack of information about outcomes with respect to a collection of measurements, we establish state-dependent lower bounds on the weighted sum of entropies over multiple measurements. Conventional EURs thus correspond to the special cases when all weights are equal, and in such cases, we show our results are generally stronger than previous ones. Moreover, taking the entropic steering criterion as an example, we numerically verify that our EURs could be advantageous in practical quantum tasks by optimizing the weights assigned to different measurements. Importantly, this optimization does not require quantum resources and is efficiently computable on classical computers. | 翻訳日:2024-03-07 02:30:02 公開日:2024-03-04 |
# 公正な表現に毒を盛る Towards Poisoning Fair Representations ( http://arxiv.org/abs/2309.16487v2 ) ライセンス: Link先を確認 | Tianci Liu, Haoyu Wang, Feijie Wu, Hengtong Zhang, Pan Li, Lu Su, Jing Gao | (参考訳) 公正な機械学習は、年齢層や女性のような特定のサブグループに対するモデル予測バイアスを緩和しようと試みている。
近年,深層ニューラルネットワークによって訓練された公正表現学習 (frl) は,データから人口統計情報を含まない表現を推定し,分類や他の下流タスクへの入力として用いるという優れた性能を示している。
FRL法の開発にもかかわらず、敵シナリオ下でモデル堅牢性をベンチマークする一般的なプロトコルであるデータ中毒攻撃下での脆弱性は未調査である。
データ中毒攻撃は、浅層モデル分類器に公正性制約を組み込んだ古典的公正機械学習手法のために開発された。
しかしながら、これらの攻撃はFRLでは特にフェアネスの目標とモデルアーキテクチャが異なるため不足している。
本研究は、FRLを攻撃した最初のデータ中毒フレームワークを提案する。
訓練データに慎重に作製した毒素サンプルを注入することにより,人口統計情報を含む不公平な表現を可能な限り出力するように誘導する。
この攻撃は、効果的な近似解が提案される、禁止された二段階最適化を伴う。
必要な数の毒サンプルに関する理論的分析が導出され、攻撃に対する防御に光を放つ。
ベンチマークフェアネスデータセットと最先端フェア表現学習モデルに関する実験は,攻撃の優位性を示している。 Fair machine learning seeks to mitigate model prediction bias against certain demographic subgroups such as elder and female. Recently, fair representation learning (FRL) trained by deep neural networks has demonstrated superior performance, whereby representations containing no demographic information are inferred from the data and then used as the input to classification or other downstream tasks. Despite the development of FRL methods, their vulnerability under data poisoning attack, a popular protocol to benchmark model robustness under adversarial scenarios, is under-explored. Data poisoning attacks have been developed for classical fair machine learning methods which incorporate fairness constraints into shallow-model classifiers. Nonetheless, these attacks fall short in FRL due to notably different fairness goals and model architectures. This work proposes the first data poisoning framework attacking FRL. We induce the model to output unfair representations that contain as much demographic information as possible by injecting carefully crafted poisoning samples into the training data. This attack entails a prohibitive bilevel optimization, wherefore an effective approximated solution is proposed. A theoretical analysis on the needed number of poisoning samples is derived and sheds light on defending against the attack. Experiments on benchmark fairness datasets and state-of-the-art fair representation learning models demonstrate the superiority of our attack. | 翻訳日:2024-03-07 02:29:42 公開日:2024-03-04 |
# フィルタ構造融合を用いたコントラスト連続多視点クラスタリング Contrastive Continual Multi-view Clustering with Filtered Structural Fusion ( http://arxiv.org/abs/2309.15135v2 ) ライセンス: Link先を確認 | Xinhang Wan, Jiyuan Liu, Hao Yu, Ao Li, Xinwang Liu, Ke Liang, Zhibin Dong, En Zhu | (参考訳) ビュー間の一貫性と補完的な情報を抽出して、ビューを事前に収集するアプリケーションでは、マルチビュークラスタリングが繁栄する。
しかし、データビューが順次収集されるシナリオ、すなわちリアルタイムデータを見落としている。
プライバシーの問題やメモリの負荷のため、これらの状況では以前の見解は時間とともに利用できない。
いくつかの方法が提案されているが、安定塑性ジレンマに閉じ込められている。
具体的には、これらの手法は、新しい視点が得られたときの事前知識を破滅的に忘れてしまう。
このような破滅的な忘れ問題(CFP)はクラスタリング性能の獲得と影響を難しくする。
そこで本研究では,フィルタ構造融合(CCMVC-FSF)を用いたContrastive Continual Multi-view Clustering法を提案する。
正確には、データ相関がクラスタリングにおいて重要な役割を担い、事前知識が新しいビューのクラスタリングプロセスを導くべきであると考え、フィルタされた構造情報を格納する固定サイズのデータバッファを開発し、これを利用してコントラスト学習による頑健な分割マトリックスの生成を導出する。
さらに,CCMVC-FSFと半教師付き学習と知識蒸留を理論的に結びつける。
大規模な実験は提案手法の優れた性能を示す。 Multi-view clustering thrives in applications where views are collected in advance by extracting consistent and complementary information among views. However, it overlooks scenarios where data views are collected sequentially, i.e., real-time data. Due to privacy issues or memory burden, previous views are not available with time in these situations. Some methods are proposed to handle it but are trapped in a stability-plasticity dilemma. In specific, these methods undergo a catastrophic forgetting of prior knowledge when a new view is attained. Such a catastrophic forgetting problem (CFP) would cause the consistent and complementary information hard to get and affect the clustering performance. To tackle this, we propose a novel method termed Contrastive Continual Multi-view Clustering with Filtered Structural Fusion (CCMVC-FSF). Precisely, considering that data correlations play a vital role in clustering and prior knowledge ought to guide the clustering process of a new view, we develop a data buffer with fixed size to store filtered structural information and utilize it to guide the generation of a robust partition matrix via contrastive learning. Furthermore, we theoretically connect CCMVC-FSF with semi-supervised learning and knowledge distillation. Extensive experiments exhibit the excellence of the proposed method. | 翻訳日:2024-03-07 02:29:22 公開日:2024-03-04 |
# 効率的なエネルギー輸送とトラップのための量子エミッタリングの利用 Harnessing quantum emitter rings for efficient energy transport and trapping ( http://arxiv.org/abs/2309.11376v2 ) ライセンス: Link先を確認 | Raphael Holzinger, Jonah Peter, Stefan Ostermann, Helmut Ritsch and Susanne Yelin | (参考訳) 低光条件下での効率的な励起エネルギーの輸送と収穫は、自然界や量子技術においても重要なプロセスである。
ここでは,2レベル量子エミッタの構成における励起エネルギー輸送に対する量子光学的視点を定式化し,特に障害に対する効率とロバスト性を重視した。
サブ波長間隔を持つエミッタリングの周期幾何学について検討し, 近接場双極子-双極子相互作用により集合電子状態が出現する。
このシステムは、励起輸送に特に適しており、エネルギー障害や放射性脱コヒーレンスから保護されている集団のサブラジアント状態を引き起こす。
リングジオメトリと他の構成を比較すると、前者は入射光を吸収し、輸送し、トラップするより効率的であることが示される。
我々の発見は、量子エミッタの特定の選択について無知であるため、光子輸送特性に優れた量子技術のための一般的な設計原理を示し、自然光ハーベスティングシステムの高効率エネルギー輸送効率をもたらす潜在的なメカニズムを解明する可能性がある。 Efficient transport and harvesting of excitation energy under low light conditions is an important process in nature and quantum technologies alike. Here we formulate a quantum optics perspective to excitation energy transport in configurations of two-level quantum emitters with a particular emphasis on efficiency and robustness against disorder. We study a periodic geometry of emitter rings with subwavelength spacing, where collective electronic states emerge due to near-field dipole-dipole interactions. The system gives rise to collective subradiant states that are particularly suited to excitation transport and are protected from energy disorder and radiative decoherence. Comparing ring geometries with other configurations shows that that the former are more efficient in absorbing, transporting, and trapping incident light. Because our findings are agnostic as to the specific choice of quantum emitters, they indicate general design principles for quantum technologies with superior photon transport properties and may elucidate potential mechanisms resulting in the highly efficient energy transport efficiencies in natural light-harvesting systems. | 翻訳日:2024-03-07 02:26:14 公開日:2024-03-04 |
# 顔のランドマーク検出とドメイン分離・再構築の協調学習による顔行動単位検出の促進 Boosting Facial Action Unit Detection Through Jointly Learning Facial Landmark Detection and Domain Separation and Reconstruction ( http://arxiv.org/abs/2310.05207v5 ) ライセンス: Link先を確認 | Ziqiao Shang, Li Yu | (参考訳) 近年,非ラベル顔画像の多数を監督的顔行動単位(AU)検出フレームワークに導入する方法が課題となっている。
本稿では,AUドメインの分離と再構築,および顔のランドマーク検出をホモ構造的顔抽出モジュールのパラメータを共有することで共同で学習するマルチタスク学習を実現する新しいAU検出フレームワークを提案する。
さらに,単純なプロジェクタによるコントラスト学習に基づく新たな特徴アライメントスキームと,コントラスト損失の改善を提案する。
2つのベンチマークによる実験結果は、野生でのAU検出の最先端手法に対する我々の優位性を示している。 Recently how to introduce large amounts of unlabeled facial images in the wild into supervised Facial Action Unit (AU) detection frameworks has become a challenging problem. In this paper, we propose a new AU detection framework where multi-task learning is introduced to jointly learn AU domain separation and reconstruction and facial landmark detection by sharing the parameters of homostructural facial extraction modules. In addition, we propose a new feature alignment scheme based on contrastive learning by simple projectors and an improved contrastive loss, which adds four additional intermediate supervisors to promote the feature reconstruction process. Experimental results on two benchmarks demonstrate our superiority against the state-of-the-art methods for AU detection in the wild. | 翻訳日:2024-03-07 02:21:25 公開日:2024-03-04 |
# orliczは、確率変数の一貫して拘束された統計と環境指標への応用を後悔する Orlicz regrets to consistently bound statistics of random variables with an application to environmental indicators ( http://arxiv.org/abs/2310.05168v2 ) ライセンス: Link先を確認 | Hidekazu Yoshioka, Yumi Yoshioka | (参考訳) 確率的に変化する環境変数を評価することは、より良い環境管理と修復スキームを設計するための主要なトピックである。
水質指標や洪水,干ばつ水位など,これらの変数の上下両方の評価は重要であり,統一された数学的枠組みの中で一貫して評価されるべきである。
そこで本研究では,確率変数の統計を上下ともに一貫して拘束する新たなオルリックス後悔のペアを提案する。
ここでは,上限値と下限値が共通係数で評価され,パラメータ値がこれまでに提案されたリスク対策と異なることを示す。
orlicz regretsは、末尾の振る舞いに基づいて確率変数の統計を柔軟に評価することができる。
オルリッツの後悔と分岐リスク対策との明確な結びつきは、それらをよりよく理解するために利用された。
そこで我々は,オルリッツの遺言と発散リスク尺度の対応に十分な条件を求め,さらに勾配降下型数値アルゴリズムを用いて計算する。
最後に,31年間の水質データの統計的評価を,日本の河川環境における重要な環境指標として,提案手法を適用した。 Evaluating environmental variables that vary stochastically is the principal topic for designing better environmental management and restoration schemes. Both the upper and lower estimates of these variables, such as water quality indices and flood and drought water levels, are important and should be consistently evaluated within a unified mathematical framework. We propose a novel pair of Orlicz regrets to consistently bound the statistics of random variables both from below and above. Here, consistency indicates that the upper and lower bounds are evaluated with common coefficients and parameter values being different from some of the risk measures proposed thus far. Orlicz regrets can flexibly evaluate the statistics of random variables based on their tail behavior. The explicit linkage between Orlicz regrets and divergence risk measures was exploited to better comprehend them. We obtain sufficient conditions to pose the Orlicz regrets as well as divergence risk measures, and further provide gradient descent-type numerical algorithms to compute them. Finally, we apply the proposed mathematical framework to the statistical evaluation of 31-year water quality data as key environmental indicators in a Japanese river environment. | 翻訳日:2024-03-07 02:21:15 公開日:2024-03-04 |
# beyond dark patterns: 倫理的ソフトウェア設計のための概念ベースのフレームワーク Beyond Dark Patterns: A Concept-Based Framework for Ethical Software Design ( http://arxiv.org/abs/2310.02432v2 ) ライセンス: Link先を確認 | Evan Caragay, Katherine Xiong, Jonathan Zong, Daniel Jackson | (参考訳) 現在のダークパターンの研究は、デザイナーに何をすべきかを教えています。
避けるべきパターンとその基本原則に焦点を当てた以前のアプローチとは対照的に、偏差を判断できるポジティブな期待行動に基づくフレームワークを提案する。
この期待された振る舞いを明確にするために、アプリケーションを構成する機能の抽象的なユニットという概念を使います。
設計は、そのコンセプトがユーザの期待に反しているときに暗く、ユーザの費用でアプリケーションプロバイダに利益をもたらすと定義します。
ユーザ期待は異なる場合があるが、ユーザーは複数のアプリケーションで同じ概念に遭遇するので、標準的な概念として概念カタログに記録することができる。
既存の暗黒パターンの記述能力,ニュアンス設計の評価,共通アプリケーション機能の文書化という3つの研究を通じて,フレームワークとコンセプトカタログを評価した。 Current dark pattern research tells designers what not to do, but how do they know what to do? In contrast to prior approaches that focus on patterns to avoid and their underlying principles, we present a framework grounded in positive expected behavior against which deviations can be judged. To articulate this expected behavior, we use concepts -- abstract units of functionality that compose applications. We define a design as dark when its concepts violate users' expectations, and benefit the application provider at the user's expense. Though user expectations can differ, users tend to develop common expectations as they encounter the same concepts across multiple applications, which we can record in a concept catalog as standard concepts. We evaluate our framework and concept catalog through three studies, illustrating their ability to describe existing dark patterns, evaluate nuanced designs, and document common application functionality. | 翻訳日:2024-03-07 02:19:01 公開日:2024-03-04 |
# 空間と時間を表す言語モデル Language Models Represent Space and Time ( http://arxiv.org/abs/2310.02207v3 ) ライセンス: Link先を確認 | Wes Gurnee, Max Tegmark | (参考訳) 大規模言語モデル(LLM)の能力は、表面統計学の膨大なコレクションや、現実世界を反映したより一貫性のある基底表現の集合を単に学習するだけなのかという議論を引き起こしている。
Llama-2モデルの3つの空間的データセット(世界,アメリカ,ニューヨーク)と3つの時間的データセット(歴史図形,アートワーク,ニュースヘッドライン)の学習された表現を分析して,後者の証拠を発見した。
LLMは複数のスケールにわたる空間と時間の線形表現を学ぶ。
これらの表現は変化を促すために堅牢であり、異なる実体タイプ(都市やランドマークなど)で統一される。
さらに,空間座標と時間座標を確実にエンコードする個々の「空間ニューロン」と「時間ニューロン」を同定した。
さらなる調査が必要であるが、現代のllmは実世界のリッチな時空間表現を学習し、世界モデルの基本要素を持っていることを示唆する。 The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a set of more coherent and grounded representations that reflect the real world. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual "space neurons" and "time neurons" that reliably encode spatial and temporal coordinates. While further investigation is needed, our results suggest modern LLMs learn rich spatiotemporal representations of the real world and possess basic ingredients of a world model. | 翻訳日:2024-03-07 02:18:18 公開日:2024-03-04 |
# OceanGPT: 海洋科学タスクのための大規模言語モデル OceanGPT: A Large Language Model for Ocean Science Tasks ( http://arxiv.org/abs/2310.02031v6 ) ライセンス: Link先を確認 | Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Daxiong Ji, Guozhou Zheng, Huajun Chen | (参考訳) 生命と生物多様性の貯水池である海洋科学は、地球の表面の70%以上を海洋がカバーしていることを考えると、非常に重要である。
近年,Large Language Models (LLM) の進歩が科学のパラダイムを変えつつある。
他の領域での成功にもかかわらず、現在のLLMは海洋学者のようなドメインの専門家のニーズに応えられず、海洋科学のためのLLMのポテンシャルは過小評価されている。
内在的な理由は、海洋データの巨大で複雑な性質と、より高い粒度と知識の豊かさの必要性である。
これらの問題を緩和するため,海洋分野における初のLCMであるOceanGPTを紹介した。
マルチエージェント協調に基づく命令を生成する,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるDoInstructを提案する。
さらに,海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。
総合的な実験ではあるが、OceanGPTは海洋科学のタスクの高度な知識知識を示すだけでなく、海洋技術における予備的なインテリジェンス能力も得る。
コード、データ、チェックポイントは近々https://github.com/zjunlp/KnowLM.comで公開される。 Ocean science, which delves into the oceans that are reservoirs of life and biodiversity, is of great significance given that oceans cover over 70% of our planet's surface. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in science. Despite the success in other domains, current LLMs often fall short in catering to the needs of domain experts like oceanographers, and the potential of LLMs for ocean science is under-explored. The intrinsic reason may be the immense and intricate nature of ocean data as well as the necessity for higher granularity and richness in knowledge. To alleviate these issues, we introduce OceanGPT, the first-ever LLM in the ocean domain, which is expert in various ocean science tasks. We propose DoInstruct, a novel framework to automatically obtain a large volume of ocean domain instruction data, which generates instructions based on multi-agent collaboration. Additionally, we construct the first oceanography benchmark, OceanBench, to evaluate the capabilities of LLMs in the ocean domain. Though comprehensive experiments, OceanGPT not only shows a higher level of knowledge expertise for oceans science tasks but also gains preliminary embodied intelligence capabilities in ocean technology. Codes, data and checkpoints will soon be available at https://github.com/zjunlp/KnowLM. | 翻訳日:2024-03-07 02:18:03 公開日:2024-03-04 |
# 行列積状態の絡み合い非対称性の普遍公式 A universal formula for the entanglement asymmetry of matrix product states ( http://arxiv.org/abs/2310.01962v2 ) ライセンス: Link先を確認 | Luca Capizzi, Vittorio Vitale | (参考訳) 対称性の破れは物質の量子位相を理解する基本的な概念であり、ほとんどが局所次数パラメータのレンズを通して研究されている。
近年, 動的対称性の回復機構の解明に用いられてきた, 対称破れの絡み合いに基づく新しいプローブが, \textit{entanglement asymmetry} の名称で紹介されている。
ここでは、有限結合次元を持つ行列積状態のエンタングルメント非対称性について、大容量極限で有効である普遍式を提供する。
離散群や連続群の絡み合い非対称性は対称性の破れパターンにのみ依存し、他の微視的特徴とは関係がないことを示す。 Symmetry breaking is a fundamental concept in understanding quantum phases of matter, studied so far mostly through the lens of local order parameters. Recently, a new entanglement-based probe of symmetry breaking has been introduced under the name of \textit{entanglement asymmetry}, which has been employed to investigate the mechanism of dynamical symmetry restoration. Here, we provide a universal formula for the entanglement asymmetry of matrix product states with finite bond dimension, valid in the large volume limit. We show that the entanglement asymmetry of any compact -- discrete or continuous -- group depends only on the symmetry breaking pattern, and is not related to any other microscopic features. | 翻訳日:2024-03-07 02:17:41 公開日:2024-03-04 |
# 双極子量子シミュレータによる乱れ効果によるプログラマブル秩序と基礎相 Programmable order by disorder effect and underlying phases through dipolar quantum simulators ( http://arxiv.org/abs/2310.00849v2 ) ライセンス: Link先を確認 | Huan-Kuang Wu, Takafumi Suzuki, Naoki Kawashima, Wei-Lin Tu | (参考訳) 本研究では,2種類の量子シミュレータについて理論的および数値的手法を用いて検討する。
最初の結果は、円状リドベルク原子からなる量子シミュレータでプログラム可能な$S=1/2$系の障害効果による量子秩序に関する知識を提供する。
全磁化が 0 であるとき、一組の亜指数退化基底状態が古典的極限に存在し、構成が大きな自由度を持つ連続弦からなる。
可能な構成はすべて、stripe(上下のスピンがまっすぐに整列する)とkinked(上と下のスピンがジグザグのスピンチェーンを形成する)のパターンにフォーカスしています。
実空間摂動理論を応用して、近傍のスピン交換結合である$J$が考慮された場合の先行次エネルギー補正を推定し、全体モデルが空間異方性を持つ有効XXZモデルとなる。
我々の計算は、stripe構成を好むデジェネラシーの解消を示している。
j$が大きくなると、無限に投影されたエンタングルペア状態を採用し、縮退持ち上げの効果を数値的にチェックし、スピン交換結合項が強い場合でもストライプパターンが好まれることを示した。
次に,光格子内の双極子-双極子相互作用を持つ低温原子ガスからなる量子シミュレータを用いて,傾斜極角を持つ双極子ボソニックモデルについて検討する。
原子を三角形格子に配置し、極角を傾けることで、ボゾン系でも対角異方性を実現することができる。
クラスター平均場理論計算により,傾斜角の異なる様々な位相図を示し,超固体を含む豊富な位相を示す。
提案手法は、量子効果と異常な位相の研究における量子シミュレータによる実現可能なシナリオを示す。 In this work, we study two different quantum simulators through various theoretical and numerical tools. Our first result provides knowledge upon the quantum order by disorder effect of the $S=1/2$ system, which is programmable in a quantum simulator composed of circular Rydberg atoms. When the total magnetization is zero, a set of sub-extensive degenerate ground states is present in the classical limit, composed of continuous strings whose configuration enjoys a large degree of freedom. Among all possible configurations, we focus on the stripe (up and down spins aligning straightly) and kinked (up and down spins forming zigzag spin chains) patterns. Adopting the real space perturbation theory, we estimate the leading order energy correction when the nearest-neighbor spin exchange coupling, $J$, is considered, and the overall model becomes an effective XXZ model with a spatial anisotropy. Our calculation demonstrates a lifting of the degeneracy, favoring the stripe configuration. When $J$ becomes larger, we adopt the infinite projected entangled-pair state and numerically check the effect of degeneracy lifting, showing that even when the spin exchange coupling term is strong the stripe pattern is still favored. Next, we study the dipolar bosonic model with tilted polar angle which can be realized through a quantum simulator composed of cold atomic gas with dipole-dipole interaction in an optical lattice. By placing the atoms in a triangular lattice and tilting the polar angle, the diagonal anisotropy can also be realized in the bosonic system. With our cluster mean-field theory calculation, we provide various phase diagrams with different tilted angles, showing the abundant underlying phases including the supersolid. Our proposals indicate realizable scenarios through quantum simulators in studying the quantum effect as well as extraordinary phases. | 翻訳日:2024-03-07 02:17:02 公開日:2024-03-04 |
# リング・ア・ベル!
拡散モデルにおける概念除去手法の信頼性について Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? ( http://arxiv.org/abs/2310.10012v3 ) ライセンス: Link先を確認 | Yu-Lin Tsai, Chia-Yi Hsu, Chulin Xie, Chih-Hsun Lin, Jia-You Chen, Bo Li, Pin-Yu Chen, Chia-Mu Yu, Chun-Ying Huang | (参考訳) 安定拡散(sd)などのt2i合成のための拡散モデルは、最近、高品質なコンテンツを生成するための例外的な能力を示している。
しかし、この進歩は、著作権、禁止、制限されたコンテンツ、またはnsfw画像の作成において、潜在的な誤用に関するいくつかの懸念を引き起こした。
評価段階で安全フィルタを実装したり、望ましくない概念やスタイルを排除するための微調整モデルによって、このような問題を解決する努力がなされているが、幅広いプロンプトに対処する上での安全対策の有効性はほとんど未定である。
本研究では,新しい概念検索アルゴリズムを1つ提案し,その安全性について検討する。
本稿では,T2I拡散モデルに対するモデルに依存しないレッドチームツールであるRing-A-Bellを紹介する。
具体的には、ring-a-bellはまず概念抽出を行い、敏感で不適切な概念の全体的表現を得る。
その後、抽出された概念を活用することで、ring-a-bellは拡散モデルの問題のあるプロンプトと対応する不適切なコンテンツの生成を自動的に識別し、デプロイされた安全機構の信頼性を評価することができる。
最後に、Midjourneyなどのオンラインサービスやさまざまなコンセプト削除方法をテストすることで、我々の手法を実証的に検証する。
この結果から, 安全プロンプトベンチマークの操作により, 既存の安全機構を回避できると考えられるプロンプトを変換し, 実質的に有害な内容の生成につながるような, いわゆる安全機構の欠陥を明らかにすることができた。
私たちのコードはhttps://github.com/chiayi-hsu/ring-a-bellで利用可能です。 Diffusion models for text-to-image (T2I) synthesis, such as Stable Diffusion (SD), have recently demonstrated exceptional capabilities for generating high-quality content. However, this progress has raised several concerns of potential misuse, particularly in creating copyrighted, prohibited, and restricted content, or NSFW (not safe for work) images. While efforts have been made to mitigate such problems, either by implementing a safety filter at the evaluation stage or by fine-tuning models to eliminate undesirable concepts or styles, the effectiveness of these safety measures in dealing with a wide range of prompts remains largely unexplored. In this work, we aim to investigate these safety mechanisms by proposing one novel concept retrieval algorithm for evaluation. We introduce Ring-A-Bell, a model-agnostic red-teaming tool for T2I diffusion models, where the whole evaluation can be prepared in advance without prior knowledge of the target model. Specifically, Ring-A-Bell first performs concept extraction to obtain holistic representations for sensitive and inappropriate concepts. Subsequently, by leveraging the extracted concept, Ring-A-Bell automatically identifies problematic prompts for diffusion models with the corresponding generation of inappropriate content, allowing the user to assess the reliability of deployed safety mechanisms. Finally, we empirically validate our method by testing online services such as Midjourney and various methods of concept removal. Our results show that Ring-A-Bell, by manipulating safe prompting benchmarks, can transform prompts that were originally regarded as safe to evade existing safety mechanisms, thus revealing the defects of the so-called safety mechanisms which could practically lead to the generation of harmful contents. Our codes are available at https://github.com/chiayi-hsu/Ring-A-Bell. | 翻訳日:2024-03-07 02:10:37 公開日:2024-03-04 |
# 意味格子解析による自動音声認識システムにおける文脈認識の改善 Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring ( http://arxiv.org/abs/2310.09680v4 ) ライセンス: Link先を確認 | Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha | (参考訳) 自動音声認識(asr)は大きな研究の関心を集めている。
近年のブレークスルーは、会話エージェントの構築において重要な進歩である音声言語を忠実に翻訳するなど、ASRシステムに異なる見通しを与えている。
しかし、文脈依存の単語や句を正確に識別するという課題はいまだに差し迫っている。
本研究では,多種多様な語彙や話し言葉の書き起こしを正確に配信する深層学習モデルの力を活用した意味的格子処理により,ASRシステム内の文脈認識を強化する新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,より高精度な言語モデルと音響モデルを統合する。
我々は,変換器モデルを用いて,単語誤り率(WER)を低下させることで,単語格子が優れた能力を発揮することを適切に評価した。
実験分析により,提案フレームワークがlibrispeechデータセット上で有効であることを示す。 Automatic Speech Recognition (ASR) has witnessed a profound research interest. Recent breakthroughs have given ASR systems different prospects such as faithfully transcribing spoken language, which is a pivotal advancement in building conversational agents. However, there is still an imminent challenge of accurately discerning context-dependent words and phrases. In this work, we propose a novel approach for enhancing contextual recognition within ASR systems via semantic lattice processing leveraging the power of deep learning models in accurately delivering spot-on transcriptions across a wide variety of vocabularies and speaking styles. Our solution consists of using Hidden Markov Models and Gaussian Mixture Models (HMM-GMM) along with Deep Neural Networks (DNN) models integrating both language and acoustic modeling for better accuracy. We infused our network with the use of a transformer-based model to properly rescore the word lattice achieving remarkable capabilities with a palpable reduction in Word Error Rate (WER). We demonstrate the effectiveness of our proposed framework on the LibriSpeech dataset with empirical analyses. | 翻訳日:2024-03-07 02:09:27 公開日:2024-03-04 |
# HIO-SDF:階層的インクリメンタルオンライン署名距離場 HIO-SDF: Hierarchical Incremental Online Signed Distance Fields ( http://arxiv.org/abs/2310.09463v2 ) ライセンス: Link先を確認 | Vasileios Vasilopoulos, Suveer Garg, Jinwook Huh, Bhoram Lee, Volkan Isler | (参考訳) 巨大で複雑な移動ロボットの作業空間のよい表現は、空間効率が良いが、関連する幾何学的詳細を符号化できる必要がある。
未知の環境を探索する場合、オンライン形式で段階的に更新する必要がある。
本稿では,環境をSDF(Signed Distance Field)として表現する新しい手法であるHIO-SDFを紹介する。
sdfのアート表現の状態は、ニューラルネットワークまたはvoxelグリッドに基づいている。
ニューラルネットワークはSDFを継続的に表現することができる。
しかし、ニューラルネットワークは、トレーニングのために広範なセンサー履歴が保存されない限り、以前観測された環境の部分を忘れる傾向があるため、段階的な更新は難しい。
ボクセルに基づく表現はこの問題を持たないが、特に詳細な大きな環境では空間効率が良くない。
HIO-SDFは、ニューラルネットワークをトレーニングするための高解像度のローカル情報とともに、環境の観測部分をキャプチャする粗いボクセルグリッドを使用する階層的アプローチを用いて、これらの表現の利点を組み合わせる。
HIO-SDFは,全テストシーンの平均SDF誤差をアート連続表現の状態よりも46%低くし,粗大なSDFグリッドと同じ解像度で離散表現よりも30%低い誤差を達成している。
https://samsunglabs.github.io/HIO-SDF-project-page/ A good representation of a large, complex mobile robot workspace must be space-efficient yet capable of encoding relevant geometric details. When exploring unknown environments, it needs to be updatable incrementally in an online fashion. We introduce HIO-SDF, a new method that represents the environment as a Signed Distance Field (SDF). State of the art representations of SDFs are based on either neural networks or voxel grids. Neural networks are capable of representing the SDF continuously. However, they are hard to update incrementally as neural networks tend to forget previously observed parts of the environment unless an extensive sensor history is stored for training. Voxel-based representations do not have this problem but they are not space-efficient especially in large environments with fine details. HIO-SDF combines the advantages of these representations using a hierarchical approach which employs a coarse voxel grid that captures the observed parts of the environment together with high-resolution local information to train a neural network. HIO-SDF achieves a 46% lower mean global SDF error across all test scenes than a state of the art continuous representation, and a 30% lower error than a discrete representation at the same resolution as our coarse global SDF grid. Videos and code are available at: https://samsunglabs.github.io/HIO-SDF-project-page/ | 翻訳日:2024-03-07 02:09:16 公開日:2024-03-04 |
# laguerre-gaussモードのコヒーレント状態 Coherent states of the Laguerre-Gauss modes ( http://arxiv.org/abs/2310.08510v2 ) ライセンス: Link先を確認 | M. P. Morales Rodr\'iguez, O. S. Maga\~na-Loaiza, B. Perez-Garcia, L. M. Nieto Calzada, F. Marroqu\'in and B. M. Rodr\'iguez-Lara | (参考訳) 大きな量子フォトニクスシステムは、古典的計算限界を超える可能性を秘めているが、その状態準備は依然として課題である。
本稿では,これらの系の励起モードをラゲール・ガウスモードの物理特性にマッピングすることで,多粒子動力学を研究する方法を提案する。
我々は、励起数ダイナミクスとラゲール・ガウスモードの進化との直接関係を確立するコヒーレント状態を構成する。
これは、量子多粒子系の基本的な側面をテストするための汎用プラットフォームとして、光子横空間の自由度を強調している。 Large quantum photonic systems hold promise for surpassing classical computational limits, yet their state preparation remains a challenge. We propose an alternative approach to study multiparticle dynamics by mapping the excitation mode of these systems to physical properties of the Laguerre-Gauss modes. We construct coherent states establishing a direct link between excitation number dynamics and the evolution of the Laguerre-Gauss mode. This highlights the photon transverse spatial degree of freedom as a versatile platform for testing fundamental aspects of quantum multiparticle systems. | 翻訳日:2024-03-07 02:08:54 公開日:2024-03-04 |
# 雑音ラベルを用いた局所グラフクラスタリング Local Graph Clustering with Noisy Labels ( http://arxiv.org/abs/2310.08031v2 ) ライセンス: Link先を確認 | Artur Back de Luca, Kimon Fountoulakis, Shenghao Yang | (参考訳) テキスト、画像、ラベルなどの追加ノード情報を持つグラフに対する機械学習問題への関心が高まり、グラフ全体の処理にコストを要するメソッドが一般化した。
しかし、そのようなデータから有用な情報を抽出する高速ローカルメソッド(グラフ全体にアクセスすることなく)の開発には、ほとんど努力が払われていない。
そこで本研究では,ノード情報追加のプロキシとしてノイズノードラベルを用いた局所グラフクラスタリングを提案する。
この設定では、ノードはクラスタのアフィリエイトに基づいて初期バイナリラベルを受け取る。
その後、これらのラベルのほんの一部が反転する。
局所グラフクラスタリングにノイズラベルを組み込むことの利点について検討する。
そこで,このようなラベル付き重み付きグラフを構築し,グラフ拡散に基づく局所クラスタリング手法の性能について検討した。
理論的観点から、独立ノイズノードラベルを持つランダムグラフにおいて、単一のシードノードを持つ未知のターゲットクラスタを復元することを検討する。
重み付きグラフの拡散を高い確率で利用することで、ターゲットクラスタのより正確な回復を可能にするラベルノイズの十分な条件を提供する。
このアプローチは、与えられたラベルだけを使うか、ラベルのない元のグラフで拡散を使うよりも効果的である。
実験により,属性付きグラフから数個のサンプルを用いて,信頼性の高いノードラベルが得られることを示す。
さらに、重み付きグラフの拡散によるこれらのラベルの利用により、複数の実世界のデータセット間の局所クラスタリング性能が大幅に向上し、F1スコアが最大13%向上する。 The growing interest in machine learning problems over graphs with additional node information such as texts, images, or labels has popularized methods that require the costly operation of processing the entire graph. Yet, little effort has been made to the development of fast local methods (i.e. without accessing the entire graph) that extract useful information from such data. To that end, we propose a study of local graph clustering using noisy node labels as a proxy for additional node information. In this setting, nodes receive initial binary labels based on cluster affiliation: 1 if they belong to the target cluster and 0 otherwise. Subsequently, a fraction of these labels is flipped. We investigate the benefits of incorporating noisy labels for local graph clustering. By constructing a weighted graph with such labels, we study the performance of graph diffusion-based local clustering method on both the original and the weighted graphs. From a theoretical perspective, we consider recovering an unknown target cluster with a single seed node in a random graph with independent noisy node labels. We provide sufficient conditions on the label noise under which, with high probability, using diffusion in the weighted graph yields a more accurate recovery of the target cluster. This approach proves more effective than using the given labels alone or using diffusion in the label-free original graph. Empirically, we show that reliable node labels can be obtained with just a few samples from an attributed graph. Moreover, utilizing these labels via diffusion in the weighted graph leads to significantly better local clustering performance across several real-world datasets, improving F1 scores by up to 13%. | 翻訳日:2024-03-07 02:08:44 公開日:2024-03-04 |
# 安定拡散は3Dシーンについて何を知っているのか? What Does Stable Diffusion Know about the 3D Scene? ( http://arxiv.org/abs/2310.06836v2 ) ライセンス: Link先を確認 | Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman | (参考訳) 安定拡散のような生成モデルの最近の進歩は、高光写実画像の生成を可能にする。
本研究の目的は,拡散ネットワークを探索し,画像中の3次元シーンの異なる特性をどの程度「理解」するかを判断することである。
この目的のために、以下の貢献をしている。
(i)これらの特性の特徴について識別分類器を訓練することにより,市販の拡散モデルの特徴が3dシーンの物理的な「プロペラティティ」をコードしているかを評価するプロトコルを提案する。
プローブはプロパティのアノテーションを備えた実際のイメージのデータセットに適用される。
(ii)このプロトコルをシーン幾何学,シーン素材,サポート関係,照明,ビュー依存測度を含む特性に適用する。
(iii) 安定拡散の特徴は, シーン形状, 支持関係, 影, 奥行きなど, 様々な特性の識別学習に適しているが, 咬合や材料の性能は低下している。
また,DINOv1,CLIP,VQGANなどの大規模ネットワークにもプローブを適用し,DINOv2は安定拡散と同様の性能を示し,DINOv1,CLIP,VQGANよりも優れていた。 Recent advances in generative models like Stable Diffusion enable the generation of highly photo-realistic images. Our objective in this paper is to probe the diffusion network to determine to what extent it 'understands' different properties of the 3D scene depicted in an image. To this end, we make the following contributions: (i) We introduce a protocol to evaluate whether features of an off-the-shelf diffusion model encode a number of physical 'properties' of the 3D scene, by training discriminative classifiers on the features for these properties. The probes are applied on datasets of real images with annotations for the property. (ii) We apply this protocol to properties covering scene geometry, scene material, support relations, lighting, and view dependent measures. (iii) We find that features from Stable Diffusion are good for discriminative learning of a number of properties, including scene geometry, support relations, shadows and depth, but less performant for occlusion and material. (iv) We also apply the probes to other networks trained at large-scale, including DINO, CLIP and VQGAN, and find that DINOv2 has a similar performance to Stable Diffusion, while outperforming DINOv1, CLIP and VQGAN. | 翻訳日:2024-03-07 02:07:40 公開日:2024-03-04 |
# 大規模言語モデルにおける多言語脱獄問題 Multilingual Jailbreak Challenges in Large Language Models ( http://arxiv.org/abs/2310.06474v3 ) ライセンス: Link先を確認 | Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing | (参考訳) 大きな言語モデル(LLM)は、幅広いタスクにわたって顕著な機能を示すが、悪意のある命令がLLMを操作して望ましくない振る舞いを示す、‘jailbreak’問題のような潜在的な安全上の懸念を生じさせる。
LLMに関連する潜在的なリスクを軽減するために、いくつかの予防策が開発されているが、それらは主に英語に焦点を当てている。
本研究では, LLM内に多言語ジェイルブレイクが存在することを明らかにするとともに, 意図しない, 意図しない2つのリスクシナリオを検討する。
意図しないシナリオは、非英語のプロンプトを使用してLLMをクエリし、不注意に安全メカニズムをバイパスすることである。
実験の結果,意図しないシナリオでは,言語の利用率が減少するにつれて,安全でないコンテンツの割合が増加することがわかった。
特に、低リソース言語は、ChatGPTとGPT-4の両方で、高リソース言語と比較して有害なコンテンツに遭遇する確率が約3倍である。
意図的なシナリオでは、多言語プロンプトは悪意のある命令の悪影響を悪化させ、驚くべきことに安全でない出力の80.92\%、GPT-440.71\%である。
このような課題に対処するため、安全微調整のための多言語学習データを自動的に生成する新しいフレームワーク「textsc{Self-Defense}」を提案する。
実験結果から,このようなデータで微調整したChatGPTは,安全でないコンテンツ生成を大幅に削減できることがわかった。
データは \url{https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs} で公開されている。 While large language models (LLMs) exhibit remarkable capabilities across a wide range of tasks, they pose potential safety concerns, such as the ``jailbreak'' problem, wherein malicious instructions can manipulate LLMs to exhibit undesirable behavior. Although several preventive measures have been developed to mitigate the potential risks associated with LLMs, they have primarily focused on English. In this study, we reveal the presence of multilingual jailbreak challenges within LLMs and consider two potential risky scenarios: unintentional and intentional. The unintentional scenario involves users querying LLMs using non-English prompts and inadvertently bypassing the safety mechanisms, while the intentional scenario concerns malicious users combining malicious instructions with multilingual prompts to deliberately attack LLMs. The experimental results reveal that in the unintentional scenario, the rate of unsafe content increases as the availability of languages decreases. Specifically, low-resource languages exhibit about three times the likelihood of encountering harmful content compared to high-resource languages, with both ChatGPT and GPT-4. In the intentional scenario, multilingual prompts can exacerbate the negative impact of malicious instructions, with astonishingly high rates of unsafe output: 80.92\% for ChatGPT and 40.71\% for GPT-4. To handle such a challenge in the multilingual context, we propose a novel \textsc{Self-Defense} framework that automatically generates multilingual training data for safety fine-tuning. Experimental results show that ChatGPT fine-tuned with such data can achieve a substantial reduction in unsafe content generation. Data is available at \url{https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs}. | 翻訳日:2024-03-07 02:07:19 公開日:2024-03-04 |
# フェデレートコトレーニングによる感性データ保護 Protecting Sensitive Data through Federated Co-Training ( http://arxiv.org/abs/2310.05696v2 ) ライセンス: Link先を確認 | Amr Abourayya and Jens Kleesiek and Kanishka Rao and Erman Ayday and Bharat Rao and Geoff Webb and Michael Kamp | (参考訳) 多くのアプリケーションでは、センシティブなデータは本質的に分散しており、プライバシの懸念のためにプールされることはない。
フェデレートラーニングにより、ローカルモデルのパラメータを反復的に集約することで、データをプールすることなく、協調的にモデルをトレーニングすることが可能になります。
しかし、共有モデルのパラメータからセンシティブなデータを推測することは可能である。
我々は,モデルパラメータの代わりに公開ラベル付きデータセット上で,クライアントがハードラベルを共有するフェデレーションコトレーニング手法を提案する。
共有ラベルのコンセンサスは、クライアントがローカルモデルをトレーニングするためにプライベートデータと組み合わせて使用するラベルなしデータセットの擬似ラベルを形成する。
ハードラベルの共有はモデルパラメータの共有よりもプライバシーを著しく向上させる。
同時に、federated co-trainingは、federated learningに匹敵するモデル品質を達成する。
さらに、フェデレーション学習で使用されるパラメータアグリゲーションに役立たない(段階的に強化された)決定木、ルールアンサンブル、ランダムフォレストといったローカルモデルの使用も可能です。 In many applications, sensitive data is inherently distributed and may not be pooled due to privacy concerns. Federated learning allows us to collaboratively train a model without pooling the data by iteratively aggregating the parameters of local models. It is possible, though, to infer upon the sensitive data from the shared model parameters. We propose to use a federated co-training approach where clients share hard labels on a public unlabeled dataset instead of model parameters. A consensus on the shared labels forms a pseudo labeling for the unlabeled dataset that clients use in combination with their private data to train local models. We show that sharing hard labels substantially improves privacy over sharing model parameters. At the same time, federated co-training achieves a model quality comparable to federated learning. Moreover, it allows us to use local models such as (gradient boosted) decision trees, rule ensembles, and random forests that do not lend themselves to the parameter aggregation used in federated learning. | 翻訳日:2024-03-07 02:06:18 公開日:2024-03-04 |
# 古典的トフォリゲートのフル磁気的実装 Full-magnetic implementation of a classical Toffoli gate ( http://arxiv.org/abs/2310.17422v3 ) ライセンス: Link先を確認 | Davide Nuzzi, Leonardo Banchi, Ruggero Vaia, Enrico Compagno, Alessandro Cuccoli, Paola Verrucchi, Sougato Bose | (参考訳) トッフォリゲート(英: toffoli gate)は、ランダウアーの原理によるエネルギー散逸を回避したエネルギー効率の良い古典的計算パラダイムである可逆計算の必須成分である。
本稿では,トッホリゲートに必要な3ビットのうちの1つを具現化した3つの古典スピンを用いて,トッホリゲートの磁気的実装を実現するための異なる構成を解析する。
この方式では、異なる制御スピン構成により、目標スピンを条件付き反転可能な有効場を生成する。
本研究では,局所制御の程度,スピンスピン相互作用を動的に切り替える能力,古典スピンを安定させるために必要な単一スピン異方性に着目し,従来の技術との互換性を示す。 The Toffoli gate is the essential ingredient for reversible computing, an energy efficient classical computational paradigm that evades the energy dissipation resulting from Landauer's principle. In this paper we analyze different setups to realize a magnetic implementation of the Toffoli gate using three interacting classical spins, each one embodying one of the three bits needed for the Toffoli gate. In our scheme, different control-spins configurations produce an effective field capable of conditionally flipping the target spin. We study what are the experimental requirements for the realization of our scheme, focusing on the degree of local control, the ability to dynamically switch the spin-spin interactions, and the required single-spin anisotropies to make the classical spin stable, showing that these are compatible with current technology. | 翻訳日:2024-03-07 02:01:33 公開日:2024-03-04 |
# 局所量子場の経路積分による粒子検出器モデル Particle detector models from path integrals of localized quantum fields ( http://arxiv.org/abs/2310.16083v3 ) ライセンス: Link先を確認 | Bruno de S. L. Torres | (参考訳) シュウィンガー・ケルディッシュ経路積分を用いて、相対論的量子情報 (rqi) における局所量子場理論とより一般的な局所プローブのモデルとの接続を描く。
プローブとして使用される局所化された場の到達不能モードを積分して追跡することにより、摂動理論の先頭の順において、プローブ場の有限個のモードのダイナミクスは、ちょうど有限個の調和振動子unruh-dewitt(udw)検出器のそれであることを示す。
等価性は、プローブターゲット場系の入力状態の比較的一般的なクラスと、検出器として含む任意の数のモードに対して有効である。
経路積分はまた、追跡された追加モードの存在により摂動理論のより高い順序でUDWモデルの補正を得る体系的な方法を与える閉形式式も提供する。
このアプローチは、最近提案された量子場理論のための検出器ベースとフィールド理論ベースの測定フレームワーク(Phys. D 109, 045013 (2024))の間の橋渡しと拡張し、また、経路積分法がより一般的な分野であるRQIと他の物理学領域における粒子検出器モデルの間の潜在的な接続を指している。 Using the Schwinger-Keldysh path integral, we draw a connection between localized quantum field theories and more commonly used models of local probes in Relativistic Quantum Information (RQI). By integrating over and then tracing out the inaccessible modes of the localized field being used as a probe, we show that, at leading order in perturbation theory, the dynamics of any finite number of modes of the probe field is exactly that of a finite number of harmonic-oscillator Unruh-DeWitt (UDW) detectors. The equivalence is valid for a rather general class of input states of the probe-target field system, as well as for any arbitrary number of modes included as detectors. The path integral also provides a closed-form expression which gives us a systematic way of obtaining the corrections to the UDW model at higher orders in perturbation theory due to the existence of the additional modes that have been traced out. This approach vindicates and extends a recently proposed bridge between detector-based and field-theory-based measurement frameworks for quantum field theory [Phys. Rev. D 109, 045013 (2024)], and also points to potential connections between particle detector models in RQI and other areas of physics where path integral methods are more commonplace -- in particular, the Wilsonian approach to the renormalization group and effective field theories. | 翻訳日:2024-03-07 02:01:06 公開日:2024-03-04 |
# 高速双曲型決定木アルゴリズム Fast hyperboloid decision tree algorithms ( http://arxiv.org/abs/2310.13841v2 ) ライセンス: Link先を確認 | Philippe Chlenski, Ethan Turok, Antonio Moretti, Itsik Pe'er | (参考訳) 双曲幾何学は、実世界のデータの階層構造を捉えることに効果があるため、機械学習で注目を集めている。
近隣が指数関数的に成長する双曲空間は、大きな利点をもたらし、様々なアプリケーションに対して常に最先端の結果をもたらす。
しかし、双曲型分類器はしばしば計算問題に悩まされる。
リーマン最適化に依拠する手法は、リーマン多様体上の演算の演算の計算要求の増加から引き起こされる、しばしば緩みを示す。
これらの課題に対応するために,決定木アルゴリズムを双曲空間に拡張したHyperDTを提案する。
重要なのは、ハイパーDTは計算集約的なリーマン最適化、数値的に不安定な指数と対数写像、あるいは内部積を利用してユークリッド決定木アルゴリズムを双曲空間に適応させることで点間のペア比較の必要性を排除している。
提案手法は概念的に単純であり,高次元ユークリッド空間に固有のスケーラビリティ問題を緩和しつつ,一定時間決定複雑性を維持する。
hyperdtを基盤として,双曲的ランダムフォレストモデルhyperrfを導入する。
多様なデータセットにわたる広範なベンチマークは、これらのモデルの優れたパフォーマンスを強調し、ハイパボリックデータ分析のための素早く、正確で、正確で、ユーザフレンドリなツールキットを提供する。 Hyperbolic geometry is gaining traction in machine learning for its effectiveness at capturing hierarchical structures in real-world data. Hyperbolic spaces, where neighborhoods grow exponentially, offer substantial advantages and consistently deliver state-of-the-art results across diverse applications. However, hyperbolic classifiers often grapple with computational challenges. Methods reliant on Riemannian optimization frequently exhibit sluggishness, stemming from the increased computational demands of operations on Riemannian manifolds. In response to these challenges, we present hyperDT, a novel extension of decision tree algorithms into hyperbolic space. Crucially, hyperDT eliminates the need for computationally intensive Riemannian optimization, numerically unstable exponential and logarithmic maps, or pairwise comparisons between points by leveraging inner products to adapt Euclidean decision tree algorithms to hyperbolic space. Our approach is conceptually straightforward and maintains constant-time decision complexity while mitigating the scalability issues inherent in high-dimensional Euclidean spaces. Building upon hyperDT we introduce hyperRF, a hyperbolic random forest model. Extensive benchmarking across diverse datasets underscores the superior performance of these models, providing a swift, precise, accurate, and user-friendly toolkit for hyperbolic data analysis. | 翻訳日:2024-03-07 01:59:45 公開日:2024-03-04 |
# grok か not か - 腐敗したアルゴリズムデータセットの一般化と記憶の分離 To grok or not to grok: Disentangling generalization and memorization on corrupted algorithmic datasets ( http://arxiv.org/abs/2310.13061v2 ) ライセンス: Link先を確認 | Darshil Doshi, Aritra Das, Tianyu He, Andrey Gromov | (参考訳) ロバストな一般化は、特にトレーニング可能なパラメータの数がとても多い場合、ディープラーニングにおける大きな課題である。
一般に、ネットワークが特定の例のセットを記憶しているか、基礎となるルール(またはその両方)を理解しているかどうかを知ることは非常に困難である。
この課題を動機として,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルを提案する。
すなわち、多層パーセプトロン (mlp) と変圧器アーキテクチャ (transformer architecture) をモジュラー算術タスクで訓練し、ラベルの($\xi \cdot 100\%$) が破損する(例えば、トレーニングセットにおけるモジュラー操作の結果は誤りである)。
私たちはそれを示します
(i)ネットワークは、破損したラベル \emph{and} を同時に100\%$の一般化を達成することができる。
(ii)記憶ニューロンを識別し、刈り取ることができ、破損したデータの精度を低下させ、破損していないデータの精度を向上させることができる。
(iii)重量減少、ドロップアウト、バッチノルムなどの正規化手法は、最適化中に破損したデータを無視するようネットワークに強制し、破損していないデータセットにおいて100ドル=%の精度を達成する。
(4) これらの正則化法の効果は(`メカニカル')解釈可能である: 重みの減衰とドロップアウトはすべてのニューロンに一般化表現を学習させ、BatchNormは記憶ニューロンの出力を増幅し、一般化ニューロンの出力を増幅する。
最後に、正規化が存在する場合、トレーニングダイナミクスには2つの連続した段階があることを示す: まず、ネットワークは、高列車のemph{and}テスト精度に達する \emph{grokking}ダイナミクスを実行し、第二に、列車の精度が突然100\%$から100 (1-\xi)\%$になるような記憶的な表現を解き放つ。 Robust generalization is a major challenge in deep learning, particularly when the number of trainable parameters is very large. In general, it is very difficult to know if the network has memorized a particular set of examples or understood the underlying rule (or both). Motivated by this challenge, we study an interpretable model where generalizing representations are understood analytically, and are easily distinguishable from the memorizing ones. Namely, we consider multi-layer perceptron (MLP) and Transformer architectures trained on modular arithmetic tasks, where ($\xi \cdot 100\%$) of labels are corrupted (\emph{i.e.} some results of the modular operations in the training set are incorrect). We show that (i) it is possible for the network to memorize the corrupted labels \emph{and} achieve $100\%$ generalization at the same time; (ii) the memorizing neurons can be identified and pruned, lowering the accuracy on corrupted data and improving the accuracy on uncorrupted data; (iii) regularization methods such as weight decay, dropout and BatchNorm force the network to ignore the corrupted data during optimization, and achieve $100\%$ accuracy on the uncorrupted dataset; and (iv) the effect of these regularization methods is (``mechanistically'') interpretable: weight decay and dropout force all the neurons to learn generalizing representations, while BatchNorm de-amplifies the output of memorizing neurons and amplifies the output of the generalizing ones. Finally, we show that in the presence of regularization, the training dynamics involves two consecutive stages: first, the network undergoes \emph{grokking} dynamics reaching high train \emph{and} test accuracy; second, it unlearns the memorizing representations, where the train accuracy suddenly jumps from $100\%$ to $100 (1-\xi)\%$. | 翻訳日:2024-03-07 01:59:10 公開日:2024-03-04 |
# アルツハイマー病分類のための二重注意モジュール(3D-DAM)を用いた再現性3D畳み込みニューラルネットワーク A reproducible 3D convolutional neural network with dual attention module (3D-DAM) for Alzheimer's disease classification ( http://arxiv.org/abs/2310.12574v2 ) ライセンス: Link先を確認 | Thanh Phuong Vu, Tien Nhat Nguyen, N. Minh Nhat Hoang, and Gia Minh Hoang | (参考訳) アルツハイマー病は最も一般的な神経変性疾患の1つであり、アミロイドβプラークとタウタングルの蓄積が特徴である。
近年,アルツハイマー病の診断において深層学習のアプローチが期待されている。
本研究では,アルツハイマー病分類のための2重注意モジュールを備えた3次元畳み込みニューラルネットワークを用いた再現性モデルを提案する。
このモデルをADNIデータベースでトレーニングし,2つの独立したデータセット(AIBLとOASIS1)で本手法の一般化性を検証した。
本手法は,mci進行分類の91.94%,adniデータセットのアルツハイマー病分類の96.30%の精度で最先端の分類性能を達成した。
さらに、モデルは優れた一般化可能性を示し、AIBLデータセットでは86.37%、OASIS1データセットでは83.42%の精度を達成した。
これらの結果から,本提案手法はこの分野における最近の研究と比較して,競争性能と一般化性を有することが示された。 Alzheimer's disease is one of the most common types of neurodegenerative disease, characterized by the accumulation of amyloid-beta plaque and tau tangles. Recently, deep learning approaches have shown promise in Alzheimer's disease diagnosis. In this study, we propose a reproducible model that utilizes a 3D convolutional neural network with a dual attention module for Alzheimer's disease classification. We trained the model in the ADNI database and verified the generalizability of our method in two independent datasets (AIBL and OASIS1). Our method achieved state-of-the-art classification performance, with an accuracy of 91.94% for MCI progression classification and 96.30% for Alzheimer's disease classification on the ADNI dataset. Furthermore, the model demonstrated good generalizability, achieving an accuracy of 86.37% on the AIBL dataset and 83.42% on the OASIS1 dataset. These results indicate that our proposed approach has competitive performance and generalizability when compared to recent studies in the field. | 翻訳日:2024-03-07 01:58:28 公開日:2024-03-04 |
# 自然勾配サーロゲートによる最適化分布 Optimising Distributions with Natural Gradient Surrogates ( http://arxiv.org/abs/2310.11837v2 ) ライセンス: Link先を確認 | Jonathan So, Richard E. Turner | (参考訳) 自然勾配法は様々な設定で確率分布のパラメータを最適化するために使われており、しばしば高速収束手順をもたらす。
残念なことに、多くの関心の分布に対して、自然勾配の計算には多くの課題がある。
本研究では,自然勾配の計算が容易なサーロゲート分布のパラメータに対して,最適化を1として再設計することを含む,このような問題に取り組むための新しい手法を提案する。
本稿では,この手法を応用できる既存手法の例をいくつか紹介し,その手法を様々な問題に適用する新しい手法を提案する。
本手法は,自然勾配を効率的に対象とする分布の集合を拡張する。
さらに、高速で理解しやすく、標準のautodiffソフトウェアを使って簡単に実装でき、長いモデル固有の導出を必要としない。
本稿では,最大確率推定と変分推論タスクについて述べる。 Natural gradient methods have been used to optimise the parameters of probability distributions in a variety of settings, often resulting in fast-converging procedures. Unfortunately, for many distributions of interest, computing the natural gradient has a number of challenges. In this work we propose a novel technique for tackling such issues, which involves reframing the optimisation as one with respect to the parameters of a surrogate distribution, for which computing the natural gradient is easy. We give several examples of existing methods that can be interpreted as applying this technique, and propose a new method for applying it to a wide variety of problems. Our method expands the set of distributions that can be efficiently targeted with natural gradients. Furthermore, it is fast, easy to understand, simple to implement using standard autodiff software, and does not require lengthy model-specific derivations. We demonstrate our method on maximum likelihood estimation and variational inference tasks. | 翻訳日:2024-03-07 01:57:42 公開日:2024-03-04 |
# bayesdiff:ベイズ推論による拡散の画素方向の不確かさの推定 BayesDiff: Estimating Pixel-wise Uncertainty in Diffusion via Bayesian Inference ( http://arxiv.org/abs/2310.11142v2 ) ライセンス: Link先を確認 | Siqi Kou, Lei Gan, Dequan Wang, Chongxuan Li, Zhijie Deng | (参考訳) 拡散モデルは印象的な画像生成能力を持つが、低品質な世代はいまだに存在し、適切なサンプル単位の計量が欠如しているため、その同定は依然として困難である。
これを解決するために,ベイズ推定に基づく拡散モデルから世代別不確実性推定器であるベイズディフを提案する。
特に,拡散の不確かさのダイナミクスを特徴付けるための新しい不確かさ反復原理を導出し,ラプラス近似を用いてベイズ推定を効率的に行う。
推定画素単位の不確実性は、低忠実度画像をフィルタリングするサンプルワイドメトリックに集約できるだけでなく、成功した世代を増大させ、テキスト・ツー・イメージタスクの失敗世代におけるアーティファクトの修正に役立つ。
大規模な実験はベイズディフの有効性と実用化への期待を示す。 Diffusion models have impressive image generation capability, but low-quality generations still exist, and their identification remains challenging due to the lack of a proper sample-wise metric. To address this, we propose BayesDiff, a pixel-wise uncertainty estimator for generations from diffusion models based on Bayesian inference. In particular, we derive a novel uncertainty iteration principle to characterize the uncertainty dynamics in diffusion, and leverage the last-layer Laplace approximation for efficient Bayesian inference. The estimated pixel-wise uncertainty can not only be aggregated into a sample-wise metric to filter out low-fidelity images but also aids in augmenting successful generations and rectifying artifacts in failed generations in text-to-image tasks. Extensive experiments demonstrate the efficacy of BayesDiff and its promise for practical applications. | 翻訳日:2024-03-07 01:57:12 公開日:2024-03-04 |
# Denevil: インストラクション学習による大規模言語モデルの倫理的価値の解読とナビゲート Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning ( http://arxiv.org/abs/2310.11053v3 ) ライセンス: Link先を確認 | Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu | (参考訳) 大規模言語モデル(LLM)は前例のない突破口をたどったが、日常生活への統合が進むと、非倫理的コンテンツによって社会的リスクが生じる可能性がある。
偏見のような特定の問題に関する広範な研究にもかかわらず、LLMの本質的な価値は道徳哲学の観点からほとんど解明されていない。
この研究は道徳的基礎理論を生かした倫理的価値観へと発展する。
信頼性の低い従来の差別的評価を超えて、LLMの価値の脆弱性を動的に活用し、倫理の侵害を発生的方法で誘発する新しいプロンプト生成アルゴリズムであるDeNEVILを提案する。
そこで我々は,500以上の値の原理をカバーする2,397のプロンプトからなる高品質なデータセットであるMoralPromptを構築し,本質的な値をLLMのスペクトルにわたってベンチマークする。
ほとんどのモデルは本質的に不一致しており、さらなる倫理的価値の調整を必要としていることに気付きました。
そこで本研究では,LLM出力の値コンプライアンスを学習によって大幅に向上し,適切な値命令を生成するためのコンテキスト内アライメント手法であるVILMOを開発した。
我々の手法はブラックボックスやオープンソースモデルに適しており、LLMの倫理的価値を研究する上で有望な第一歩となる。 Large Language Models (LLMs) have made unprecedented breakthroughs, yet their increasing integration into everyday life might raise societal risks due to generated unethical content. Despite extensive study on specific issues like bias, the intrinsic values of LLMs remain largely unexplored from a moral philosophy perspective. This work delves into ethical values utilizing Moral Foundation Theory. Moving beyond conventional discriminative evaluations with poor reliability, we propose DeNEVIL, a novel prompt generation algorithm tailored to dynamically exploit LLMs' value vulnerabilities and elicit the violation of ethics in a generative manner, revealing their underlying value inclinations. On such a basis, we construct MoralPrompt, a high-quality dataset comprising 2,397 prompts covering 500+ value principles, and then benchmark the intrinsic values across a spectrum of LLMs. We discovered that most models are essentially misaligned, necessitating further ethical value alignment. In response, we develop VILMO, an in-context alignment method that substantially enhances the value compliance of LLM outputs by learning to generate appropriate value instructions, outperforming existing competitors. Our methods are suitable for black-box and open-source models, offering a promising initial step in studying the ethical values of LLMs. | 翻訳日:2024-03-07 01:56:55 公開日:2024-03-04 |
# 単一光子による高次状態生成のためのガウス型ボーソンサンプラーのシード化 Seeding Gaussian boson samplers with single photons for enhanced state generation ( http://arxiv.org/abs/2311.03432v2 ) ライセンス: Link先を確認 | Valerio Crescimanna, Aaron Z. Goldberg, Khabat Heshami | (参考訳) 非ガウス量子状態は連続変数系を持つフォールトトレラント量子計算に不可欠である。
通常、そのような状態の生成は成功確率と結果の状態の品質の間のトレードオフを伴う。
例えば、圧縮された光をマルチモード干渉計に注入し、光子数出力の特定のパターンを1つのモードを除いてポストセレクトすることは、基本的に確率的タスクであり、猫の状態、ゴッテマン・キタエフ・プレスキル状態(GKP)などを生成することができる。
我々は、この構成に非ガウス的資源状態、特に単一光子を加え、それが望ましい状態の品質と生成可能性をどのように改善するかを示す。
たった2つのモードで、単一の光子源を追加することで、GKP状態の忠実度が0.68から0.95に改善され、そして1秒加えると、成功確率が8倍になる。
これらのことは、光の望ましい状態を生成するための追加の共通の非ガウス的資源の有用性を示している。 Non-Gaussian quantum states are crucial to fault-tolerant quantum computation with continuous-variable systems. Usually, generation of such states involves trade-offs between success probability and quality of the resultant state. For example, injecting squeezed light into a multimode interferometer and postselecting on certain patterns of photon-number outputs in all but one mode, a fundamentally probabilistic task, can herald the creation of cat states, Gottesman-Kitaev-Preskill (GKP) states, and more. We consider the addition of a non-Gaussian resource state, particularly single photons, to this configuration and show how it improves the qualities and generation probabilities of desired states. With only two modes, adding a single photon source improves GKP-state fidelity from 0.68 to 0.95 and adding a second then increases the success probability eightfold; for cat states with a fixed target fidelity, the probability of success can be improved by factors of up to 4 by adding single-photon sources. These demonstrate the usefulness of additional commonplace non-Gaussian resources for generating desirable states of light. | 翻訳日:2024-03-07 01:50:50 公開日:2024-03-04 |
# 潜時変量モデルによる単腕試験による治療効果の推定 Estimating treatment effects from single-arm trials via latent-variable modeling ( http://arxiv.org/abs/2311.03002v2 ) ライセンス: Link先を確認 | Manuel Haussmann, Tran Minh Son Le, Viivi Halla-aho, Samu Kurki, Jussi V. Leinonen, Miika Koskinen, Samuel Kaski, Harri L\"ahdesm\"aki | (参考訳) ランダム化制御試験(RCTs)は治療効果推定の標準として受け入れられているが、倫理的理由や禁止費用のために実現不可能である。
すべての患者が治療グループに属するシングルアームトライアルは、有効な代替手段であるが、外部コントロールグループにアクセスする必要がある。
このシナリオに対して, 構造的欠損パターンをモデル化することにより, 共変量観測の欠如を考慮できる, 同定可能な深潜時変量モデルを提案する。
提案手法では,グループ固有表現と識別可能な共有潜在表現の両方を学ぶために,償却変分推論を用いる。
(i)治療群又は「em」に対して治療結果が得られない場合の患者一致
(ii) 両群とも, 直接処理効果推定の結果が得られていると仮定する。
我々は、公開ベンチマークと、公開RTT研究と実世界の電子健康記録からなるデータセットを用いて、モデルを評価した。
従来の方法と比較して, 直接的治療効果評価と患者マッチングによる効果評価の両方において, 性能が向上した。 Randomized controlled trials (RCTs) are the accepted standard for treatment effect estimation but they can be infeasible due to ethical reasons and prohibitive costs. Single-arm trials, where all patients belong to the treatment group, can be a viable alternative but require access to an external control group. We propose an identifiable deep latent-variable model for this scenario that can also account for missing covariate observations by modeling their structured missingness patterns. Our method uses amortized variational inference to learn both group-specific and identifiable shared latent representations, which can subsequently be used for {\em (i)} patient matching if treatment outcomes are not available for the treatment group, or for {\em (ii)} direct treatment effect estimation assuming outcomes are available for both groups. We evaluate the model on a public benchmark as well as on a data set consisting of a published RCT study and real-world electronic health records. Compared to previous methods, our results show improved performance both for direct treatment effect estimation as well as for effect estimation via patient matching. | 翻訳日:2024-03-07 01:50:21 公開日:2024-03-04 |
# 胸部x線写真解釈のための統一的・カスタマイズされた命令チューニングによるマルチタスクトランスフォーマの学習 Learning A Multi-Task Transformer Via Unified And Customized Instruction Tuning For Chest Radiograph Interpretation ( http://arxiv.org/abs/2311.01092v2 ) ライセンス: Link先を確認 | Lijian Xu, Ziyu Ni, Xinglong Liu, Xiaosong Wang, Hongsheng Li, and Shaoting Zhang | (参考訳) マルチモーダルディープラーニングモデルの出現は,過去10年間に臨床応用に大きな影響を与えてきた。
しかし、ほとんどのモデルはシングルタスクに限られており、病気の診断は実際はマルチタスクの手順である。
本稿では,カスタマイズした命令調律を組み込んだマルチモーダル臨床タスク用に設計された統一トランスフォーマーモデルを示す。
まず、画像レベルのタスクと画素レベルのタスクの両方を含む、カスタマイズされたチューニングのための134万の命令と(約100万のラジオグラフを含む)地対からなるマルチタスクトレーニングデータセットを構成する。
そこで, 同種モデル入力と出力を用いて, 視覚集約的なタスクを単一学習フレームワークに統合し, 臨床解釈性の向上を図る。
最後に,複数タスクの胸部X線ベンチマークにおいて,直接推論と微調整の両方で先行技術と比較して,モデル全体の優れた性能を示す。
3人の放射線学者が記録されたものに対する報告を更に評価し、マルチタスクモデルの強化された説明可能性を示した。 The emergence of multi-modal deep learning models has made significant impacts on clinical applications in the last decade. However, the majority of models are limited to single-tasking, without considering disease diagnosis is indeed a multi-task procedure. Here, we demonstrate a unified transformer model specifically designed for multi-modal clinical tasks by incorporating customized instruction tuning. We first compose a multi-task training dataset comprising 13.4 million instruction and ground-truth pairs (with approximately one million radiographs) for the customized tuning, involving both image- and pixel-level tasks. Thus, we can unify the various vision-intensive tasks in a single training framework with homogeneous model inputs and outputs to increase clinical interpretability in one reading. Finally, we demonstrate the overall superior performance of our model compared to prior arts on various chest X-ray benchmarks across multi-tasks in both direct inference and finetuning settings. Three radiologists further evaluate the generated reports against the recorded ones, which also exhibit the enhanced explainability of our multi-task model. | 翻訳日:2024-03-07 01:50:02 公開日:2024-03-04 |
# Video2Music: Affective Multimodal Transformer Modelを用いたビデオからの適切な音楽生成 Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model ( http://arxiv.org/abs/2311.00968v2 ) ライセンス: Link先を確認 | Jaeyong Kang, Soujanya Poria, Dorien Herremans | (参考訳) 音楽生成の分野で多くの研究が目覚ましいパフォーマンスを示しているが、付随するビデオにマッチする音楽を直接生成できるモデルはほとんどない。
そこで本研究では,提供ビデオにマッチする生成型音楽AIフレームワークであるVideo2Musicを開発した。
私たちは最初、ユニークなミュージックビデオのコレクションをキュレートした。
次に,音楽ビデオの分析を行い,意味,シーンオフセット,動き,感情の特徴について検討した。
これらの特徴を音楽生成モデルへのインプットの導出として利用する。
音声ファイルをmidiとコードに書き起こし、音の密度やラウドネスなどの特徴を抽出する。
これにより、MuVi-Syncと呼ばれるリッチなマルチモーダルデータセットが作成され、新しいAffective Multimodal Transformer(AMT)モデルをトレーニングし、ビデオから音楽を生成する。
このモデルは、ビデオと音楽との情緒的類似性を強制する新しいメカニズムを含んでいる。
最後に、bigruに基づく回帰モデルに基づいて後処理を行い、映像特徴に基づいて音符密度とラウドネスを推定する。
これにより、異なるリズムとボリュームで生成された和音の動的レンダリングが保証される。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
ユーザ調査により、音楽とビデオのマッチングの質とともに音楽の質が確認された。
提案したAMTモデルは、新しいMuVi-Syncデータセットとともに、ビデオの音楽生成の新しいタスクのための有望なステップを提供する。 Numerous studies in the field of music generation have demonstrated impressive performance, yet virtually no models are able to directly generate music to match accompanying videos. In this work, we develop a generative music AI framework, Video2Music, that can match a provided video. We first curated a unique collection of music videos. Then, we analysed the music videos to obtain semantic, scene offset, motion, and emotion features. These distinct features are then employed as guiding input to our music generation model. We transcribe the audio files into MIDI and chords, and extract features such as note density and loudness. This results in a rich multimodal dataset, called MuVi-Sync, on which we train a novel Affective Multimodal Transformer (AMT) model to generate music given a video. This model includes a novel mechanism to enforce affective similarity between video and music. Finally, post-processing is performed based on a biGRU-based regression model to estimate note density and loudness based on the video features. This ensures a dynamic rendering of the generated chords with varying rhythm and volume. In a thorough experiment, we show that our proposed framework can generate music that matches the video content in terms of emotion. The musical quality, along with the quality of music-video matching is confirmed in a user study. The proposed AMT model, along with the new MuVi-Sync dataset, presents a promising step for the new task of music generation for videos. | 翻訳日:2024-03-07 01:49:25 公開日:2024-03-04 |
# 一般情報構造と非マルコフ環境下における確率制御のQラーニング Q-Learning for Stochastic Control under General Information Structures and Non-Markovian Environments ( http://arxiv.org/abs/2311.00123v2 ) ライセンス: Link先を確認 | Ali Devran Kara and Serdar Yuksel | (参考訳) 第一の貢献として、確率的反復に対する収束定理、特にQ学習は、一般、おそらくは非マルコフ的確率的環境の下で反復する。
我々の収束条件には、エルゴード性と肯定性基準が含まれる。
環境における反復と条件の限界と収束のための初期化の正確な特徴付けを行う。
第2の貢献として,非マルコフ環境を含む様々な確率的制御問題に対するこの定理の意義と応用について論じる。
(i)連続空間を持つ完全観測マルコフ決定過程(mdps)の量子化近似(量子化がマルコフ構造を分解する場合)
(II) フェラー連続性の弱い部分観測可能MDPS(POMDP)とフィルタ安定性の軽度バージョン(コントローラによるモデルの知識を必要とする)の量子化近似
(iii)一様制御されたフィルタ安定性の下でのpomdpの有限窓近似と(モデルに関する知識を必要としない)
(iv)新しいクラスである主観的q学習平衡に学習ダイナミクスが収束するマルチエージェントモデルについて検討する。
収束定理に加えて、上記の定理のいくつかの意味は文献に新しいものであり、その他は収束定理の応用として解釈される。
いくつか未解決の問題が指摘されている。 As a primary contribution, we present a convergence theorem for stochastic iterations, and in particular, Q-learning iterates, under a general, possibly non-Markovian, stochastic environment. Our conditions for convergence involve an ergodicity and a positivity criterion. We provide a precise characterization on the limit of the iterates and conditions on the environment and initializations for convergence. As our second contribution, we discuss the implications and applications of this theorem to a variety of stochastic control problems with non-Markovian environments involving (i) quantized approximations of fully observed Markov Decision Processes (MDPs) with continuous spaces (where quantization break down the Markovian structure), (ii) quantized approximations of belief-MDP reduced partially observable MDPS (POMDPs) with weak Feller continuity and a mild version of filter stability (which requires the knowledge of the model by the controller), (iii) finite window approximations of POMDPs under a uniform controlled filter stability (which does not require the knowledge of the model), and (iv) for multi-agent models where convergence of learning dynamics to a new class of equilibria, subjective Q-learning equilibria, will be studied. In addition to the convergence theorem, some implications of the theorem above are new to the literature and others are interpreted as applications of the convergence theorem. Some open problems are noted. | 翻訳日:2024-03-07 01:49:03 公開日:2024-03-04 |
# 線形モデルのためのロバスト因果バンディット Robust Causal Bandits for Linear Models ( http://arxiv.org/abs/2310.19794v2 ) ライセンス: Link先を確認 | Zirui Yan, Arpan Mukherjee, Burak Var{\i}c{\i}, Ali Tajer | (参考訳) 因果系における報酬関数を最適化するための実験の逐次設計は、因果包帯(CB)における介入のシーケンシャル設計によって効果的にモデル化することができる。
CBに関する既存の文献では、因果モデルが時間とともに一定であることが重要な仮定である。
しかし、この仮定は、常に時間モデルゆらぎを経る複雑なシステムでは必ずしも成り立たない。
本稿では,このようなモデル変動に対するCBの堅牢性について述べる。
焦点は線形構造方程式モデル(SEM)による因果系である。
SEMと時間変化の前・後統計モデルは、すべて不明である。
累積的後悔(cumulative regret)は設計基準として採用され、その目的は、因果モデル全体とそのゆらぎを認識したオラクルに対して、最小の累積後悔を引き起こす一連の介入を設計することである。
第一に, 既存手法ではモデル偏差の例さえあれば, 後悔する部分線形性が維持できないことが判明した。
特に、モデルの偏差を持つインスタンス数が$t^\frac{1}{2l}$で、$t$が時間軸であり、$l$がグラフの最長因果経路である場合、既存のアルゴリズムは、$t$で線形後悔する。
次に、ロバストなcbアルゴリズムを設計し、その後悔を解析し、後悔の上位及び情報理論的下限を設定する。
具体的には、$N$ノードと最大次数$d$のグラフにおいて、モデル偏差$C$の一般的な測度の下で、累積後悔は$\tilde{\mathcal{O}}(d^{L-\frac{1}{2}}(\sqrt{NT} + NC))$で上界、下界$\Omega(d^{\frac{L}{2}-2}\max\{\sqrt{T},d^2C\})$で下界となる。
これらの境界を比較すると、提案アルゴリズムは$C$が$o(\sqrt{T})$であるときにほぼ最適な$\tilde{\mathcal{O}}(\sqrt{T})$後悔を達成し、より広い範囲の$C$に対してサブ線形後悔を維持する。 Sequential design of experiments for optimizing a reward function in causal systems can be effectively modeled by the sequential design of interventions in causal bandits (CBs). In the existing literature on CBs, a critical assumption is that the causal models remain constant over time. However, this assumption does not necessarily hold in complex systems, which constantly undergo temporal model fluctuations. This paper addresses the robustness of CBs to such model fluctuations. The focus is on causal systems with linear structural equation models (SEMs). The SEMs and the time-varying pre- and post-interventional statistical models are all unknown. Cumulative regret is adopted as the design criteria, based on which the objective is to design a sequence of interventions that incur the smallest cumulative regret with respect to an oracle aware of the entire causal model and its fluctuations. First, it is established that the existing approaches fail to maintain regret sub-linearity with even a few instances of model deviation. Specifically, when the number of instances with model deviation is as few as $T^\frac{1}{2L}$, where $T$ is the time horizon and $L$ is the longest causal path in the graph, the existing algorithms will have linear regret in $T$. Next, a robust CB algorithm is designed, and its regret is analyzed, where upper and information-theoretic lower bounds on the regret are established. Specifically, in a graph with $N$ nodes and maximum degree $d$, under a general measure of model deviation $C$, the cumulative regret is upper bounded by $\tilde{\mathcal{O}}(d^{L-\frac{1}{2}}(\sqrt{NT} + NC))$ and lower bounded by $\Omega(d^{\frac{L}{2}-2}\max\{\sqrt{T},d^2C\})$. Comparing these bounds establishes that the proposed algorithm achieves nearly optimal $\tilde{\mathcal{O}}(\sqrt{T})$ regret when $C$ is $o(\sqrt{T})$ and maintains sub-linear regret for a broader range of $C$. | 翻訳日:2024-03-07 01:48:41 公開日:2024-03-04 |
# ホッジ合成エッジガウス過程 Hodge-Compositional Edge Gaussian Processes ( http://arxiv.org/abs/2310.19450v3 ) ライセンス: Link先を確認 | Maosheng Yang, Viacheslav Borovitskiy, Elvin Isufi | (参考訳) 本稿では,簡素な2-複体の辺集合上で定義される関数をモデル化するための原理的ガウス過程(gps)を提案する。
このアプローチは、エッジフローが離散的発散とカールによって特徴づけられるネットワーク上のフロー型データを学習することを目的としている。
ホッジ分解に基づいて,まず,様々な用途に適する分岐フリーおよびカールフリーエッジGPのクラスを開発する。
次にそれらを組み合わせて、任意のエッジ関数を表現するのに十分な表現性を持つ \emph{Hodge-compositional edge GPs} を生成する。
これらのGPはエッジ関数の異なるホッジ成分の直接的および独立的な学習を促進するため、ハイパーパラメータ最適化時にそれらの関連性を捉えることができる。
これらの可能性を強調するために、通貨取引所、海流、水道網におけるフローデータ推論に適用し、代替モデルと比較する。 We propose principled Gaussian processes (GPs) for modeling functions defined over the edge set of a simplicial 2-complex, a structure similar to a graph in which edges may form triangular faces. This approach is intended for learning flow-type data on networks where edge flows can be characterized by the discrete divergence and curl. Drawing upon the Hodge decomposition, we first develop classes of divergence-free and curl-free edge GPs, suitable for various applications. We then combine them to create \emph{Hodge-compositional edge GPs} that are expressive enough to represent any edge function. These GPs facilitate direct and independent learning for the different Hodge components of edge functions, enabling us to capture their relevance during hyperparameter optimization. To highlight their practical potential, we apply them for flow data inference in currency exchange, ocean currents and water supply networks, comparing them to alternative models. | 翻訳日:2024-03-07 01:47:57 公開日:2024-03-04 |
# 知識接地対話生成における幻覚を減少させるシーケンスレベル確信性 Sequence-Level Certainty Reduces Hallucination In Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2310.18794v2 ) ライセンス: Link先を確認 | Yixin Wan, Fanyou Wu, Weijie Xu, Srinivasan H. Sengamedu | (参考訳) 本研究では,知識基盤対話生成(KGDG)における幻覚に関する共通テーマとして,シーケンスレベルの確実性を提案する。
幻覚レベルと2種類のシーケンスレベルの確実性(確率的確実性と意味的確実性)の相関について検討する。
実験結果から, モデル応答における両タイプのシーケンスレベルの確実性が, 幻覚の低レベルと相関していることが判明した。
さらに,CRR(Certainty-based Response Ranking)を提案する。この手法は,応答候補をそのシーケンスレベルの確実性に基づいてランク付けし,高い確信度で回答を出力する。
シーケンスレベルの確実性の定義に従って、確率的CRR(P-CRR)とセマンティックCRR(S-CRR)の2種類のCRRアプローチを設計する。
P-CRRは、列全体の算術平均対数確率を用いて、個々のサンプルモデル応答をランク付けする。
S-CRRは、意味空間からの確実性推定にアプローチし、その意味的確実性レベルに基づいてモデル応答候補をentailment-based Agreement Score (AS)で測定する。
3つのKGDGデータセット、3つの復号法、および4つの異なるモデルにわたる広範な実験を通して、モデル幻覚の低減におけるCRR法の有効性を検証する。 In this work, we propose sequence-level certainty as a common theme over hallucination in Knowledge Grounded Dialogue Generation (KGDG). We explore the correlation between the level of hallucination and two types of sequence-level certainty: probabilistic certainty and semantic certainty. Empirical results reveal that a higher level of both types of sequence-level certainty in model responses is correlated with a lower level of hallucination. We further propose Certainty-based Response Ranking (CRR), a decoding-time hallucination mitigation method that ranks response candidates based on their sequence-level certainty and outputs the answer with the highest certainty level. Aligning with our definitions of sequence-level certainty, we design 2 types of CRR approaches: Probabilistic CRR (P-CRR) and Semantic CRR (S-CRR). P-CRR ranks individually sampled model responses using the arithmetic mean log-probability of the entire sequence. S-CRR approaches certainty estimation from meaning-space, and ranks model response candidates based on their semantic certainty level as measured by an entailment-based Agreement Score (AS). Through extensive experiments across 3 KGDG datasets, 3 decoding methods, and 4 different models, we validate the effectiveness of the CRR methods in reducing model hallucination. | 翻訳日:2024-03-07 01:47:40 公開日:2024-03-04 |
# DySurv: ICUにおける生存予測のための動的ディープラーニングモデル DySurv: Dynamic Deep Learning Model for Survival Prediction in the ICU ( http://arxiv.org/abs/2310.18681v2 ) ライセンス: Link先を確認 | Munib Mesinovic, Peter Watkinson, Tingting Zhu | (参考訳) サバイバル分析は、医療における動的リスク予測に役立つ時間から時間までの分布の推定に焦点を当てている。
古典的coxモデルを超えて、比例ハザードの制約的な仮定から遠ざかるディープラーニング技術が開発されている。
従来の統計モデルは静的な情報しか含まないことが多いが,本研究では,患者電子健康記録からの静的および時系列測定を組み合わせて,死亡リスクを動的に推定する,条件付き変分オートエンコーダベースの手法であるdysurvを提案する。
DySurvは、深層学習を含む既存の手法よりも優れており、MIMIC-IVとeICUの実際の集中治療単位データで評価されている。
DySurvの予測能力は一貫しており、サバイバル推定は、マルチタスクケースにおける条件付き変分推論に基づく動的ディープラーニングモデルがサバイバル分析の堅牢なモデルであるという考えを支持する様々なデータセットに分散している。 Survival analysis focuses on estimating time-to-event distributions which can help in dynamic risk prediction in healthcare. Extending beyond the classical Cox model, deep learning techniques have been developed which moved away from the constraining assumptions of proportional hazards. Traditional statistical models often only include static information where, in this work, we propose a novel conditional variational autoencoder-based method called DySurv, which uses a combination of static and time-series measurements from patient electronic health records to estimate the risk of death dynamically. DySurv has been tested on several time-to-event benchmarks where it outperforms existing methods, including deep learning methods, and we evaluate it on real-world intensive care unit data from MIMIC-IV and eICU. The predictive capacity of DySurv is consistent and the survival estimates remain disentangled across different datasets supporting the idea that dynamic deep learning models based on conditional variational inference in multi-task cases can be robust models for survival analysis. | 翻訳日:2024-03-07 01:47:18 公開日:2024-03-04 |
# 無限次元ベイズ逆問題に対する適応作用素学習 Adaptive operator learning for infinite-dimensional Bayesian inverse problems ( http://arxiv.org/abs/2310.17844v2 ) ライセンス: Link先を確認 | Zhiwei Gao, Liang Yan, Tao Zhou | (参考訳) 偏微分方程式 (PDE) によって支配されるベイズ逆問題 (BIP) の基本計算問題は、連続した前方モデル評価の要求に由来する。
このようなコストを削減するための一般的な戦略は、高価なモデルシミュレーションを演算子学習を用いた計算効率の良い近似に置き換えることである。
しかし、近似モデルを直接使用するとモデリングエラーが発生し、逆問題の不適切さが悪化する可能性がある。
このような手法を効果的に実施するには,精度と効率のバランスが不可欠である。
そこで本研究では,サロゲートを局所領域で精度の高いものにすることで,モデリング誤差を徐々に低減できる適応型演算子学習フレームワークを開発した。
これは、事前訓練された近似モデルを、後続計算過程において、グレディアルゴリズムによって選択された列車入力点で適応的に微調整することで達成される。
提案手法の有効性を検証するため,我々はDeepOnetを用いてサロゲートとアンセントカルマンインバージョン(UKI)を構築し,それぞれBIP解を近似する。
さらに、UKIフレームワークを用いた線形ケースにおいて、厳密な収束を保証する。
このアプローチは、ダーシーフロー、熱源反転問題、反応拡散問題など、いくつかのベンチマークでテストされている。
その結果,逆精度を維持しながら計算コストを大幅に削減できることがわかった。 The fundamental computational issues in Bayesian inverse problems (BIP) governed by partial differential equations (PDEs) stem from the requirement of repeated forward model evaluations. A popular strategy to reduce such costs is to replace expensive model simulations with computationally efficient approximations using operator learning, motivated by recent progress in deep learning. However, using the approximated model directly may introduce a modeling error, exacerbating the already ill-posedness of inverse problems. Thus, balancing between accuracy and efficiency is essential for the effective implementation of such approaches. To this end, we develop an adaptive operator learning framework that can reduce modeling error gradually by forcing the surrogate to be accurate in local areas. This is accomplished by adaptively fine-tuning the pre-trained approximate model with train- ing points chosen by a greedy algorithm during the posterior computational process. To validate our approach, we use DeepOnet to construct the surrogate and unscented Kalman inversion (UKI) to approximate the BIP solution, respectively. Furthermore, we present a rigorous convergence guarantee in the linear case using the UKI framework. The approach is tested on a number of benchmarks, including the Darcy flow, the heat source inversion problem, and the reaction-diffusion problem. The numerical results show that our method can significantly reduce computational costs while maintaining inversion accuracy. | 翻訳日:2024-03-07 01:46:47 公開日:2024-03-04 |
# ベンチマークにおけるエンドユーザの優先性: 教師なし時系列異常検出のためのOrionBench Making the End-User a Priority in Benchmarking: OrionBench for Unsupervised Time Series Anomaly Detection ( http://arxiv.org/abs/2310.17748v2 ) ライセンス: Link先を確認 | Sarah Alnegheimish, Laure Berti-Equille, Kalyan Veeramachaneni | (参考訳) 時系列異常検出は、医療における患者のモニタリング、財務の予測、エネルギーの予測メンテナンスなど、多くのアプリケーション領域で一般的な問題である。
これにより、最近ではディープラーニングベースの手法を含む、多くの異常検出方法が出現した。
新しく開発されたモデルを比較するためにいくつかのベンチマークが提案されているが、通常は限られたデータセットに対して1回の実行に依存しており、比較はいくつかのモデルに限定されている。
我々はorionbenchを提案する。orionbenchは教師なし時系列異常検出のためのユーザ中心の連続保守型ベンチマークである。
このフレームワークは、モデルを表現するための普遍的な抽象化、新しいパイプラインとデータセットを追加する拡張性、ハイパーパラメータの標準化、パイプライン検証、公開ベンチマークによる頻繁なリリースを提供する。
OrionBenchの使用状況と,3年間で公開された16リリースにわたるパイプラインの進行状況について紹介する。
さらに、OrionBenchで経験した2つの実際のシナリオを調べ、教師なし時系列異常検出における連続ベンチマークの重要性を強調します。 Time series anomaly detection is a prevalent problem in many application domains such as patient monitoring in healthcare, forecasting in finance, or predictive maintenance in energy. This has led to the emergence of a plethora of anomaly detection methods, including more recently, deep learning based methods. Although several benchmarks have been proposed to compare newly developed models, they usually rely on one-time execution over a limited set of datasets and the comparison is restricted to a few models. We propose OrionBench -- a user centric continuously maintained benchmark for unsupervised time series anomaly detection. The framework provides universal abstractions to represent models, extensibility to add new pipelines and datasets, hyperparameter standardization, pipeline verification, and frequent releases with published benchmarks. We demonstrate the usage of OrionBench, and the progression of pipelines across 16 releases published over the course of three years. Moreover, we walk through two real scenarios we experienced with OrionBench that highlight the importance of continuous benchmarks in unsupervised time series anomaly detection. | 翻訳日:2024-03-07 01:46:24 公開日:2024-03-04 |
# 原子ドープ光子エンジン:放射圧による量子系からの機械的作業の抽出 An atom-doped photon engine: Extracting mechanical work from a quantum system via radiation pressure ( http://arxiv.org/abs/2311.15712v2 ) ライセンス: Link先を確認 | \'Alvaro Tejero, Daniel Manzano, Pablo I. Hurtado | (参考訳) マイクロスケールでの効率的な熱変換の可能性は、古典的な熱機関よりも量子的に優れているという期待から、量子熱エンジンを理解するための激しい研究のきっかけとなった。
本研究では,原子ドープ光量子空洞を用いたピストンを放射圧で推進するモデルを提案する。
このモデルは、量子電磁力学のjaynes-cummings hamiltonianに基づくもので、熱エネルギー注入による機械的作業の生成を示す。
本稿では, alicki の作業定義, 準静的変換解析, 有限時間プロトコルの数値計算を用いてピストン展開の等価性を確立する。
さらに,このモデルを用いて量子オットーとカルノーのエンジンを構築し,その性能を様々な条件下でのエネルギー,作業出力,効率,電力の面で比較した。
このモデルにより、オープン量子システムから有用な仕事を抽出し、ネットの動きを生成し、仕事と熱の量子概念に光を当てるプラットフォームを提供する。 The possibility of efficiently converting heat into work at the microscale has triggered an intense research effort to understand quantum heat engines, driven by the hope of quantum superiority over classical counterparts. In this work, we introduce a model featuring an atom-doped optical quantum cavity propelling a classical piston through radiation pressure. The model, based on the Jaynes-Cummings Hamiltonian of quantum electrodynamics, demonstrates the generation of mechanical work through thermal energy injection. We establish the equivalence of the piston expansion work with Alicki's work definition, analytically for quasistatic transformations and numerically for finite time protocols. We further employ the model to construct quantum Otto and Carnot engines, comparing their performance in terms of energetics, work output, efficiency, and power under various conditions. This model thus provides a platform to extract useful work from an open quantum system to generate net motion, and sheds light on the quantum concepts of work and heat. | 翻訳日:2024-03-07 01:41:29 公開日:2024-03-04 |
# コンテンツ対応レイアウト生成のための検索拡張レイアウト変換器 Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation ( http://arxiv.org/abs/2311.13602v2 ) ライセンス: Link先を確認 | Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa | (参考訳) コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
本稿では,現在のレイアウト生成手法が,高次元レイアウト構造のための限られたトレーニングデータに苦しむことを論じる。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
本モデルは,様々な制御可能な生成タスクに検索拡張を適用し,統一アーキテクチャ内で高品質なレイアウトを実現する。
我々の広範囲な実験により、RALFは制約付きおよび制約なしの設定の両方でコンテンツ認識レイアウトをうまく生成し、ベースラインを大幅に上回ることを示した。 Content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited training data for the high-dimensional layout structure. We show that a simple retrieval augmentation can significantly improve the generation quality. Our model, which is named Retrieval-Augmented Layout Transformer (RALF), retrieves nearest neighbor layout examples based on an input image and feeds these results into an autoregressive generator. Our model can apply retrieval augmentation to various controllable generation tasks and yield high-quality layouts within a unified architecture. Our extensive experiments show that RALF successfully generates content-aware layouts in both constrained and unconstrained settings and significantly outperforms the baselines. | 翻訳日:2024-03-07 01:39:52 公開日:2024-03-04 |
# BadCLIP:マルチモーダルコントラスト学習におけるデュアルエンベッド型バックドアアタック BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning ( http://arxiv.org/abs/2311.12075v3 ) ライセンス: Link先を確認 | Siyuan Liang, Mingli Zhu, Aishan Liu, Baoyuan Wu, Xiaochun Cao, Ee-Chien Chang | (参考訳) バックドア攻撃の研究は、モデル著作権保護と防御強化に有用である。
既存のバックドア攻撃は、CLIPのようなマルチモーダルなコントラスト学習モデルに感染したが、MCLモデルのための特別なバックドア防御によって容易に対処できる。
本稿では,バックドア攻撃が防御後にも有効であり続けるという現実シナリオにおける脅威を明らかにし,バックドア検出に抵抗し,微調整防御をモデル化する \emph{\toolns}攻撃を導入する。
これを実現するため,ベイズ支配の観点からモチベーションを導き,バックドア攻撃のための二重埋め込み誘導フレームワークを提案する。
具体的には,視覚的トリガパターンが埋め込み空間のテキスト的ターゲットセマンティクスに近似することを保証し,そのような自然なトリガパターンに対するバックドア学習によって引き起こされる微妙なパラメータ変動を検出することが困難である。
さらに、汚染されたサンプルを目標視機能に合わせるために視覚トリガーパターンを最適化し、クリーンな微調整によるバックドアアンラーニングを阻害する。
広範囲にわたる実験により,SOTAのバックドアディフェンスの存在下での攻撃は最先端のベースライン(+45.3% ASR)を著しく上回り,これらの緩和と検出戦略は事実上効果がないことが示された。
さらに,ダウンストリームタスクなど,より厳密なシナリオを効果的に攻撃する手法を提案する。
本稿では,マルチモーダル・コントラッシブ・ラーニングの実践的適用に伴う潜在的な脅威に対する認識を高め,より堅牢な防御機構の開発を促進すると信じている。 Studying backdoor attacks is valuable for model copyright protection and enhancing defenses. While existing backdoor attacks have successfully infected multimodal contrastive learning models such as CLIP, they can be easily countered by specialized backdoor defenses for MCL models. This paper reveals the threats in this practical scenario that backdoor attacks can remain effective even after defenses and introduces the \emph{\toolns} attack, which is resistant to backdoor detection and model fine-tuning defenses. To achieve this, we draw motivations from the perspective of the Bayesian rule and propose a dual-embedding guided framework for backdoor attacks. Specifically, we ensure that visual trigger patterns approximate the textual target semantics in the embedding space, making it challenging to detect the subtle parameter variations induced by backdoor learning on such natural trigger patterns. Additionally, we optimize the visual trigger patterns to align the poisoned samples with target vision features in order to hinder the backdoor unlearning through clean fine-tuning. Extensive experiments demonstrate that our attack significantly outperforms state-of-the-art baselines (+45.3% ASR) in the presence of SoTA backdoor defenses, rendering these mitigation and detection strategies virtually ineffective. Furthermore, our approach effectively attacks some more rigorous scenarios like downstream tasks. We believe that this paper raises awareness regarding the potential threats associated with the practical application of multimodal contrastive learning and encourages the development of more robust defense mechanisms. | 翻訳日:2024-03-07 01:39:36 公開日:2024-03-04 |
# 高忠実な人物中心の主題から画像への合成 High-fidelity Person-centric Subject-to-Image Synthesis ( http://arxiv.org/abs/2311.10329v3 ) ライセンス: Link先を確認 | Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin | (参考訳) 現在の被写体駆動画像生成手法は、人中心画像生成において重大な課題に遭遇する。
その理由は、事前訓練された共通拡散を微調整することで、意味的シーンと個人生成を学習するからである。
正確には、現実的な人物を生成するためには、事前訓練されたモデルを十分に調整する必要がある。
さらに, 十分な微調整を施しても, 現場と人物の同時学習が品質の妥協につながるため, 高忠実な人物を生成できない。
本稿では,上記の学習不均衡と品質の妥協を解消する効果的な協調生成パイプラインであるface-diffuserを提案する。
具体的には,まずテキスト駆動拡散モデル (TDM) と主観拡張拡散モデル (SDM) の2つの専門的な事前学習拡散モデルを開発し,シーン生成と人物生成を行う。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
第1段と第2段はそれぞれTDMとSDMによって行われる。
課題・シーン融合段階は,新規かつ高効率なメカニズムであるsnf(saliency-adaptive noise fusion)によって達成された協調である。
具体的には, 分類器なしの誘導応答と生成画像の塩分率との間には, 強固な関係があることを示す。
各時間ステップにおいて、SNFは各モデルの特異な強度を活用し、両方のモデルから予測されたノイズを、正当性を考慮した方法で自動的に空間ブレンディングすることができる。
広範な実験により、フェイスディフューザの有効性とロバスト性が実証された。 Current subject-driven image generation methods encounter significant challenges in person-centric image generation. The reason is that they learn the semantic scene and person generation by fine-tuning a common pre-trained diffusion, which involves an irreconcilable training imbalance. Precisely, to generate realistic persons, they need to sufficiently tune the pre-trained model, which inevitably causes the model to forget the rich semantic scene prior and makes scene generation over-fit to the training data. Moreover, even with sufficient fine-tuning, these methods can still not generate high-fidelity persons since joint learning of the scene and person generation also lead to quality compromise. In this paper, we propose Face-diffuser, an effective collaborative generation pipeline to eliminate the above training imbalance and quality compromise. Specifically, we first develop two specialized pre-trained diffusion models, i.e., Text-driven Diffusion Model (TDM) and Subject-augmented Diffusion Model (SDM), for scene and person generation, respectively. The sampling process is divided into three sequential stages, i.e., semantic scene construction, subject-scene fusion, and subject enhancement. The first and last stages are performed by TDM and SDM respectively. The subject-scene fusion stage, that is the collaboration achieved through a novel and highly effective mechanism, Saliency-adaptive Noise Fusion (SNF). Specifically, it is based on our key observation that there exists a robust link between classifier-free guidance responses and the saliency of generated images. In each time step, SNF leverages the unique strengths of each model and allows for the spatial blending of predicted noises from both models automatically in a saliency-aware manner. Extensive experiments confirm the impressive effectiveness and robustness of the Face-diffuser. | 翻訳日:2024-03-07 01:38:44 公開日:2024-03-04 |
# $\textit{Dial BeInfo for Faithfulness}$:Behavioural Fine-Tuningによる情報探索対話の実態改善 $\textit{Dial BeInfo for Faithfulness}$: Improving Factuality of Information-Seeking Dialogue via Behavioural Fine-Tuning ( http://arxiv.org/abs/2311.09800v2 ) ライセンス: Link先を確認 | Evgeniia Razumovskaia, Ivan Vuli\'c, Pavle Markovi\'c, Tomasz Cichy, Qian Zheng, Tsung-Hsien Wen, Pawe{\l} Budzianowski | (参考訳) システムはユーザのクエリに応答し、応答が有意義で、システムに提供された知識に合致するようにすべきである。
しかし、現代の大言語モデルのほとんどは幻覚に悩まされており、知識源に支持されない、あるいは矛盾しない応答を生成する。
情報検索対話システムの課題を緩和し、信頼性を高めるために、情報閲覧対話を支援するために行動調整を適用するシンプルかつ効果的な手法であるbeinfoを紹介する。
3つの標準データセットに基づいて、BeInfo}で調整されたモデルが、BeInfo-tuning中に見られるデータセットとドメイン、およびゼロショット方式で適用された未確認ドメインの両方の知識ソースに対して、かなり忠実になることを示す。
さらに,beinfoでチューニングされた3bパラメータ(例えばflan-t5)のモデルでは,実際の「プロダクション」対話からのデータに対して強いパフォーマンスを示し,そのような現実的なドメイン内対話の限られた量でチューニングした場合,gpt4よりも優れていた。 Factuality is a crucial requirement in information seeking dialogue: the system should respond to the user's queries so that the responses are meaningful and aligned with the knowledge provided to the system. However, most modern large language models suffer from hallucinations, that is, they generate responses not supported by or contradicting the knowledge source. To mitigate the issue and increase faithfulness of information-seeking dialogue systems, we introduce BeInfo, a simple yet effective method that applies behavioural tuning to aid information-seeking dialogue. Relying on three standard datasets, we show that models tuned with BeInfo} become considerably more faithful to the knowledge source both for datasets and domains seen during BeInfo-tuning, as well as on unseen domains, when applied in a zero-shot manner. In addition, we show that the models with 3B parameters (e.g., Flan-T5) tuned with BeInfo demonstrate strong performance on data from real `production' conversations and outperform GPT4 when tuned on a limited amount of such realistic in-domain dialogues. | 翻訳日:2024-03-07 01:38:15 公開日:2024-03-04 |
# 機械学習画像分割を用いた3次元組織培養の非破壊的定量的生存率解析 Nondestructive, quantitative viability analysis of 3D tissue cultures using machine learning image segmentation ( http://arxiv.org/abs/2311.09354v2 ) ライセンス: Link先を確認 | Kylie J. Trettner, Jeremy Hsieh, Weikun Xiao, Jerry S.H. Lee, Andrea M. Armani | (参考訳) 異なる細胞培養条件下での細胞の集団生存率の確認は、通常、平均測色指標に依存しており、単純な二分読み出しでしばしば報告される。
近年の研究では、セル特性のキャラクタリゼーションを自動化するために、画像に基づくディープラーニングモデルと有効性評価技術を組み合わせている。
しかし,細胞培養条件における細胞状態の持続性と摂動応答を評価するための生存可能性測定のさらなる発展が必要である。
本研究では,3次元培養における細胞生存率の定量化のための画像処理アルゴリズムについて述べる。
提案アルゴリズムは,1対の人的専門家に対して,数日にわたる全体像と培養マトリクスの合成を行う。
膵癌スフェロイドに対する既知の治療の効果を縦断的に検討した。
ハイコンテントイメージングシステムで撮影された画像を用いて、アルゴリズムは個々のスフェロイドおよび全ウェルレベルでの生存率を追跡することに成功した。
提案手法は,専門家と比較して分析時間を97%削減する。
本手法は、使用する顕微鏡やイメージングシステムとは無関係であるため、生物学的・臨床的研究における3次元培養解析の堅牢性と再現性を向上させるための基礎となる。 Ascertaining the collective viability of cells in different cell culture conditions has typically relied on averaging colorimetric indicators and is often reported out in simple binary readouts. Recent research has combined viability assessment techniques with image-based deep-learning models to automate the characterization of cellular properties. However, further development of viability measurements to assess the continuity of possible cellular states and responses to perturbation across cell culture conditions is needed. In this work, we demonstrate an image processing algorithm for quantifying cellular viability in 3D cultures without the need for assay-based indicators. We show that our algorithm performs similarly to a pair of human experts in whole-well images over a range of days and culture matrix compositions. To demonstrate potential utility, we perform a longitudinal study investigating the impact of a known therapeutic on pancreatic cancer spheroids. Using images taken with a high content imaging system, the algorithm successfully tracks viability at the individual spheroid and whole-well level. The method we propose reduces analysis time by 97% in comparison to the experts. Because the method is independent of the microscope or imaging system used, this approach lays the foundation for accelerating progress in and for improving the robustness and reproducibility of 3D culture analysis across biological and clinical research. | 翻訳日:2024-03-07 01:37:54 公開日:2024-03-04 |
# グラフニューラルネットワークサロゲートモデルの解釈可能な微調整 Interpretable Fine-Tuning for Graph Neural Network Surrogate Models ( http://arxiv.org/abs/2311.07548v2 ) ライセンス: Link先を確認 | Shivam Barwey and Romit Maulik | (参考訳) データ駆動のサーロゲートモデリングは近年、メッシュベースのデータ表現を直接操作できるグラフニューラルネットワーク(gnns)の出現により、能力が急増している。
この研究の目標は、gnnの解釈可能な微調整戦略の導入と、非構造化メッシュベースの流体動力学モデリングへの応用である。
最終結果は、サブグラフに対応する物理空間内の領域を分離し、ベースラインの予測能力を保ちながら予測タスクに本質的に関連付けられている強化された微調整モデルである。
これらの構造は、細調整されたGNNによって同定され、フォワードパスで適応的に生成され、ベースラインモデルアーキテクチャ、最適化目標、既知の問題固有物理の間の説明可能なリンクとして機能する。
さらに、正規化手順を通じて、微調整されたGNNを使用して、予測される予測エラーの大多数に対応するグラフノードを推論時に識別し、ベースラインモデルに新たな解釈可能なエラータグ機能を追加することもできる。
レイノルズ数の高い後向きステップを流れる流れから導出される非構造流れ場データを用いてデモを行う。 Data-driven surrogate modeling has surged in capability in recent years with the emergence of graph neural networks (GNNs), which can operate directly on mesh-based representations of data. The goal of this work is to introduce an interpretable fine-tuning strategy for GNNs, with application to unstructured mesh-based fluid dynamics modeling. The end result is an enhanced fine-tuned model that isolates regions in physical space, corresponding to sub-graphs, that are intrinsically linked to the forecasting task while retaining the predictive capability of the baseline. These structures, identified by the fine-tuned GNNs, are adaptively produced in the forward pass and serve as explainable links between the baseline model architecture, the optimization goal, and known problem-specific physics. Additionally, through a regularization procedure, the fine-tuned GNNs can also be used to identify, during inference, graph nodes that correspond to a majority of the anticipated forecasting error, adding a novel interpretable error-tagging capability to baseline models. Demonstrations are performed using unstructured flow field data sourced from flow over a backward-facing step at high Reynolds numbers. | 翻訳日:2024-03-07 01:37:06 公開日:2024-03-04 |
# 楕円対称分布の混合に基づく最大推定とクラスタリングのための非パラメトリック整合性 Nonparametric consistency for maximum likelihood estimation and clustering based on mixtures of elliptically-symmetric distributions ( http://arxiv.org/abs/2311.06108v2 ) ライセンス: Link先を確認 | Pietro Coretto and Christian Hennig | (参考訳) 集団バージョンを推定するための楕円対称分布の混合物に対する最大極大推定器の整合性を示し、基礎となる分布$P$は非パラメトリックであり、その推定器が基底となる混合物のクラスに必ずしも属さない。
P$ が十分に分離されているが非パラメトリック分布の混合である場合、推定器の集団バージョンの成分は、よく分離された$P$ の成分に対応することが示される。
このことは、もしこれらのサブポピュレーションが混合モデルが仮定したものと異なるとしても、$P$が十分に分離されたサブポピュレーションを持つ場合のクラスタ分析にそのような推定子を使用するための理論的正当化を与える。 The consistency of the maximum likelihood estimator for mixtures of elliptically-symmetric distributions for estimating its population version is shown, where the underlying distribution $P$ is nonparametric and does not necessarily belong to the class of mixtures on which the estimator is based. In a situation where $P$ is a mixture of well enough separated but nonparametric distributions it is shown that the components of the population version of the estimator correspond to the well separated components of $P$. This provides some theoretical justification for the use of such estimators for cluster analysis in case that $P$ has well separated subpopulations even if these subpopulations differ from what the mixture model assumes. | 翻訳日:2024-03-07 01:36:43 公開日:2024-03-04 |
# 雑音対応強化学習エージェントを用いた量子誤り訂正符号とエンコーダの同時発見 Simultaneous Discovery of Quantum Error Correction Codes and Encoders with a Noise-Aware Reinforcement Learning Agent ( http://arxiv.org/abs/2311.04750v2 ) ライセンス: Link先を確認 | Jan Olle, Remmy Zen, Matteo Puviani, Florian Marquardt | (参考訳) ノイズから量子状態を保護する最適な方法を見つけることは、全ての量子技術において際立った課題であり、量子エラー補正(QEC)はこの問題に対処する最も有望な戦略である。
QECコードの構築は、歴史的に人間の創造性を生かした複雑な作業であり、コードの大規模な動物園が発見された。
しかし、現実のシナリオでは、2つの課題がある:これらの符号は典型的には理想的なノイズモデルの下での性能のみに分類され、実装固有の最適符号化回路は知られていない。
本研究では,与えられたゲートセット,キュービット接続,エラーモデルに対して,qec符号とそのエンコーディング回路の両方を自動的に検出する深層強化学習エージェントを訓練する。
本稿では,様々な雑音モデルに対して同時に符号化戦略を作成することを学び,異なる状況間の洞察の伝達を生かしたノイズ認識メタエージェントの概念を紹介する。
さらに、安定化器形式とベクトル化クリフォードシミュレータを用いることにより、我々のRL実装は極めて効率的であり、多くのコードとエンコーダを1秒で生成でき、コード距離は3から5、最大20の物理量子ビットである。
我々のアプローチは、量子ハードウェアプラットフォームの全領域にわたるQECアプローチのハードウェア適応型高速化発見への扉を開く。 Finding optimal ways to protect quantum states from noise remains an outstanding challenge across all quantum technologies, and quantum error correction (QEC) is the most promising strategy to address this issue. Constructing QEC codes is a complex task that has historically been powered by human creativity with the discovery of a large zoo of families of codes. However, in the context of real-world scenarios there are two challenges: these codes have typically been categorized only for their performance under an idealized noise model and the implementation-specific optimal encoding circuit is not known. In this work, we train a Deep Reinforcement Learning agent that automatically discovers both QEC codes and their encoding circuits for a given gate set, qubit connectivity, and error model. We introduce the concept of a noise-aware meta-agent, which learns to produce encoding strategies simultaneously for a range of noise models, thus leveraging transfer of insights between different situations. Moreover, thanks to the use of the stabilizer formalism and a vectorized Clifford simulator, our RL implementation is extremely efficient, allowing us to produce many codes and their encoders from scratch within seconds, with code distances varying from 3 to 5 and with up to 20 physical qubits. Our approach opens the door towards hardware-adapted accelerated discovery of QEC approaches across the full spectrum of quantum hardware platforms of interest. | 翻訳日:2024-03-07 01:36:30 公開日:2024-03-04 |
# ScAR:LiDARオブジェクト検出のための逆ロバストネスのスケーリング ScAR: Scaling Adversarial Robustness for LiDAR Object Detection ( http://arxiv.org/abs/2312.03085v2 ) ライセンス: Link先を確認 | Xiaohu Lu and Hayder Radha | (参考訳) モデルの敵対的堅牢性は、入力データに対する小さな摂動という形で敵の攻撃に抵抗する能力である。
Fast Sign Gradient Method (FSGM) やProjected Gradient Descend (PGD) のような普遍的敵攻撃法はLiDARオブジェクト検出に人気があるが、タスク固有の敵攻撃に比べてしばしば不十分である。
さらに、これらの普遍的手法は一般に、実際の応用では入手が困難であるモデルの情報への無制限アクセスを必要とする。
これらの制約に対処するため、LiDARオブジェクト検出のためのブラックボックススケーリング適応ロバストネス(ScAR)法を提案する。
KITTI,Waymo,nuScenesなどの3Dオブジェクト検出データセットの統計特性を解析した結果,モデルの予測は3Dインスタンスのスケーリングに敏感であることが判明した。
本稿では,モデル認識攻撃,分布認識攻撃,ブラインド攻撃の3つのブラックボックススケーリング攻撃手法を提案する。
また,これら3つの対向攻撃に対するモデルの堅牢性を改善するために,対向スケーリングの例を生成する戦略も導入する。
異なる3次元オブジェクト検出アーキテクチャの公開データセットにおける他の手法との比較により,提案手法の有効性が示された。
私たちのコードはhttps://github.com/xiaohulugo/ScAR-IROS2023で公開されています。 The adversarial robustness of a model is its ability to resist adversarial attacks in the form of small perturbations to input data. Universal adversarial attack methods such as Fast Sign Gradient Method (FSGM) and Projected Gradient Descend (PGD) are popular for LiDAR object detection, but they are often deficient compared to task-specific adversarial attacks. Additionally, these universal methods typically require unrestricted access to the model's information, which is difficult to obtain in real-world applications. To address these limitations, we present a black-box Scaling Adversarial Robustness (ScAR) method for LiDAR object detection. By analyzing the statistical characteristics of 3D object detection datasets such as KITTI, Waymo, and nuScenes, we have found that the model's prediction is sensitive to scaling of 3D instances. We propose three black-box scaling adversarial attack methods based on the available information: model-aware attack, distribution-aware attack, and blind attack. We also introduce a strategy for generating scaling adversarial examples to improve the model's robustness against these three scaling adversarial attacks. Comparison with other methods on public datasets under different 3D object detection architectures demonstrates the effectiveness of our proposed method. Our code is available at https://github.com/xiaohulugo/ScAR-IROS2023. | 翻訳日:2024-03-07 01:31:35 公開日:2024-03-04 |
# MUFFIN: インストラクションフォローを改善するための多面的インストラクションの計算 MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following ( http://arxiv.org/abs/2312.02436v2 ) ライセンス: Link先を確認 | Renze Lou, Kai Zhang, Jian Xie, Yuxuan Sun, Janice Ahn, Hanzi Xu, Yu Su, Wenpeng Yin | (参考訳) 大規模言語モデル(llm)の領域では、命令追従能力の強化は、しばしば拡張的なトレーニングデータのキュレーションを伴う。
これは2つの主要なスキームによって達成される。
i)スケーリング入力: タスク命令毎のペア(入出力)を増幅し、より良い命令順守を目指す。
ii) 入力自由タスクのスケーリング: タスクを拡大し、それぞれが(指示、出力)ペアで構成されます(もはや別の入力を必要としない)。
しかし、Scaling-Inputs の LLM は入力に対して過度に敏感であり、誤った解釈や命令への不適合につながる。
逆に、Scaling Input-Free Tasksは相当数のタスクを必要とするが、Scaling-Inputsのインスタンスを扱う場合の命令処理では効果が低い。
MUFFINは命令追従型データセットキュレーションの新しいスキームである。
具体的には、これらのタスクを様々な入力ファセットで多様化することにより、入力毎のタスクを自動的にスケールする。
4つのゼロショットベンチマーク(Scaling-Inputs)とScaling Input-Free Tasksスキーム(Scaling Input-Free Tasksスキーム)にまたがる実験結果から、MUFFINで訓練されたLLMは、上記の2つのスキームで訓練されたものに比べて、一般的に優れた命令追従能力を示すことが明らかになった。 In the realm of large language models (LLMs), enhancing instruction-following capability often involves curating expansive training data. This is achieved through two primary schemes: i) Scaling-Inputs: Amplifying (input, output) pairs per task instruction, aiming for better instruction adherence. ii) Scaling Input-Free Tasks: Enlarging tasks, each composed of an (instruction, output) pair (without requiring a separate input anymore). However, LLMs under Scaling-Inputs tend to be overly sensitive to inputs, leading to misinterpretation or non-compliance with instructions. Conversely, Scaling Input-Free Tasks demands a substantial number of tasks but is less effective in instruction following when dealing with instances in Scaling-Inputs. This work introduces MUFFIN, a new scheme of instruction-following dataset curation. Specifically, we automatically Scale Tasks per Input by diversifying these tasks with various input facets. Experimental results across four zero-shot benchmarks, spanning both Scaling-Inputs and Scaling Input-Free Tasks schemes, reveal that LLMs, at various scales, trained on MUFFIN generally demonstrate superior instruction-following capabilities compared to those trained on the two aforementioned schemes. | 翻訳日:2024-03-07 01:31:10 公開日:2024-03-04 |
# 税金コンプライアンスのためにグローバルに分散したソフトウェアアーキテクチャを記述する Describing Globally Distributed Software Architectures for Tax Compliance ( http://arxiv.org/abs/2312.00925v2 ) ライセンス: Link先を確認 | Michael Dorner and Oliver Treidler and Tom-Eric Kunz and Ehsan Zabardast and Daniel Mendez and Darja \v{S}mite and Maximilian Capraro and Krzysztof Wnuk | (参考訳) 背景: 異なる国の組織単位が所有するソフトウェアコンポーネントの企業内再利用は課税可能である。
目的:本稿では,税務当局の懸念を利害関係者として紹介するとともに,ソフトウェア企業がグローバルに分散したソフトウェアアーキテクチャを税務当局にいかに記述できるかを検討する。
方法: 実験シミュレーションでは,(1)税務当局の懸念を背景とする視点を開発し,(2)多国籍企業から大規模でグローバルに分散したマイクロサービスアーキテクチャの視点を作成し,(3)4人の税務専門家によるパネルによるソフトウェアアーキテクチャ記述の評価を行う。
結果: 提案する建築的視点を適切に把握し, 課税利害関係者の懸念を十分に満たした。
アーキテクチャの説明では、当社のケース会社の2560マイクロサービス間の再利用関係の約70%がクロスボーダであり、従って課税可能であることが分かりました。
しかし、所有者の曖昧な管轄権と、コード所有とソフトウェアコンポーネントの定義の不十分さは、我々のソフトウェアアーキテクチャ記述の有用性と説明力を制限する大きなノイズをもたらす。
結論: ソフトウェアアーキテクチャの記述はすでにしっかりとした基盤を提供しており、ソフトウェアアーキテクチャにおける税順守の重要性を明らかにしています。 Background: The company-internal reuse of software components owned by organizational units in different countries is taxable. Objective: In this article, we introduce the concerns of tax authorities as stakeholders and investigate how software companies can describe their globally distributed software architectures to tax authorities. Method: In an experimental simulation, we (1) develop a viewpoint that frames the concerns of tax authorities, (2) create a view of a large-scale, globally distributed microservice architecture from a multinational enterprise, and (3) evaluate the resulting software architecture description with a panel of four tax experts. Results: The panel found our proposed architectural viewpoint properly and sufficiently frames the concerns of taxation stakeholders. The architecture description reveals that almost 70% of all reuse relationships between the 2560 microservices from our case company are cross-border and, therefore, taxable. However, unclear jurisdictions of owners and potentially insufficient definitions of code ownership and software component introduce significant noise to the view that limits the usefulness and explanatory power of our software architecture description. Conclusion: Although our software architecture description already provides a solid foundation and reveals the importance of tax compliance in software architectures, we stumbled over several fundamental open questions, forming new frontiers in software engineering. | 翻訳日:2024-03-07 01:29:43 公開日:2024-03-04 |
# 高密度光追跡:ドットをつなぐ Dense Optical Tracking: Connecting the Dots ( http://arxiv.org/abs/2312.00786v3 ) ライセンス: Link先を確認 | Guillaume Le Moing, Jean Ponce, Cordelia Schmid | (参考訳) 近年のポイントトラッキング手法では,映像のかなりの部分を通して任意のシーンポイントの軌跡を再現することが可能である。
しかし、単一のフレームで観測されるすべてのポイントを妥当な時間内に追跡するには、実際には遅すぎる。
本稿では,この問題を解決する新しい,シンプルかつ効率的な方法であるDOTを紹介する。
まず、オフザシェルフ点追跡アルゴリズムを用いて、動き境界のキー領域からトラックの小さなセットを抽出する。
ソースフレームとターゲットフレームが与えられた後、DOTは隣り合う補間を通して密集した流れ場と可視性マスクの粗い初期推定を計算し、学習可能な光学フロー推定器を用いてそれらを精算し、オクルージョンを明示的に処理し、接地構造対応による合成データに基づいて訓練する。
我々は、DOTが現在の光学フロー技術よりもはるかに正確であることを示し、OmniMotionのような洗練された"ユニバーサル"トラッカーよりも優れており、CoTrackerのような最良の点追跡アルゴリズムと同等か、あるいは同等であることを示した。
合成および実ビデオによる定量的および定性的な実験は、提案手法の可能性を実証する。
私たちのアプローチの機能を示すコード、データ、ビデオは、プロジェクトwebページ(https://16lemoing.github.io/dot.com/)で利用可能です。 Recent approaches to point tracking are able to recover the trajectory of any scene point through a large portion of a video despite the presence of occlusions. They are, however, too slow in practice to track every point observed in a single frame in a reasonable amount of time. This paper introduces DOT, a novel, simple and efficient method for solving this problem. It first extracts a small set of tracks from key regions at motion boundaries using an off-the-shelf point tracking algorithm. Given source and target frames, DOT then computes rough initial estimates of a dense flow field and visibility mask through nearest-neighbor interpolation, before refining them using a learnable optical flow estimator that explicitly handles occlusions and can be trained on synthetic data with ground-truth correspondences. We show that DOT is significantly more accurate than current optical flow techniques, outperforms sophisticated "universal" trackers like OmniMotion, and is on par with, or better than, the best point tracking algorithms like CoTracker while being at least two orders of magnitude faster. Quantitative and qualitative experiments with synthetic and real videos validate the promise of the proposed approach. Code, data, and videos showcasing the capabilities of our approach are available in the project webpage: https://16lemoing.github.io/dot . | 翻訳日:2024-03-07 01:29:21 公開日:2024-03-04 |
# CFDソルバと結合した物理拘束型ニューラル正規微分方程式による剛性化学速度論のモデル化 A Posteriori Evaluation of a Physics-Constrained Neural Ordinary Differential Equations Approach Coupled with CFD Solver for Modeling Stiff Chemical Kinetics ( http://arxiv.org/abs/2312.00038v3 ) ライセンス: Link先を確認 | Tadbhagya Kumar, Anuj Kumar, Pinaki Pal | (参考訳) 詳細な化学の解法に関連する高い計算コストは、乱流反応流の予測計算流体力学(CFD)シミュレーションに重大な課題をもたらす。
これらのモデルは、しばしば結合された強常微分方程式(ODE)の系を必要とする。
より高速なサロゲートモデルを開発するためにディープラーニング技術が実験されているが、CFDソルバと確実に統合できないことが多い。
この不安定性は、深層学習手法がodeソルバとの互換性を保証せずにトレーニングエラーを最適化し、時間とともにエラーの蓄積につながるため生じる。
近年,neuralodeに基づく手法は,化学動力学を効果的にモデル化することで,有望な解決法を提供している。
本研究では,トレーニング中の損失関数に直接質量保存制約を組み込むことにより,強固な化学動力学のためのニューロデドフレームワークを拡張する。
これにより、総質量と元素質量が保存されることが保証され、cfdソルバとの信頼性の高い下流統合のための重要な要件となる。
物理拘束型ニューラルネットワーク(PC-NODE)による水素-空気混合物の均一自己着火に関する概念実証実験を行った。
以上の結果から, この強化は, 物質保存基準に対する物理的整合性を向上するだけでなく, 堅牢性も向上することが示された。
最後に、訓練されたpcノードモデルと3d cfdソルバを結合して化学源の項を計算する事で後進研究を行う。
PC-NODEは純粋にデータ駆動型ニューラルドアプローチと比較してより正確であることが示されている。
さらに、PC-NODEは、トレーニング体制の内部(補間能力)と外部(補間能力)から初期状態を確認するための堅牢性と一般化性を示す。 The high computational cost associated with solving for detailed chemistry poses a significant challenge for predictive computational fluid dynamics (CFD) simulations of turbulent reacting flows. These models often require solving a system of coupled stiff ordinary differential equations (ODEs). While deep learning techniques have been experimented with to develop faster surrogate models, they often fail to integrate reliably with CFD solvers. This instability arises because deep learning methods optimize for training error without ensuring compatibility with ODE solvers, leading to accumulation of errors over time. Recently, NeuralODE-based techniques have offered a promising solution by effectively modeling chemical kinetics. In this study, we extend the NeuralODE framework for stiff chemical kinetics by incorporating mass conservation constraints directly into the loss function during training. This ensures that the total mass and the elemental mass are conserved, a critical requirement for reliable downstream integration with CFD solvers. Proof-of-concept studies are performed with physics-constrained neuralODE (PC-NODE) approach for homogeneous autoignition of hydrogen-air mixture over a range of composition and thermodynamic conditions. Our results demonstrate that this enhancement not only improves the physical consistency with respect to mass conservation criteria but also ensures better robustness. Lastly, a posteriori studies are performed wherein the trained PC-NODE model is coupled with a 3D CFD solver for computing the chemical source terms. PC-NODE is shown to be more accurate relative to the purely data-driven neuralODE approach. Moreover, PC-NODE also exhibits robustness and generalizability to unseen initial conditions from within (interpolative capability) as well as outside (extrapolative capability) the training regime. | 翻訳日:2024-03-07 01:29:01 公開日:2024-03-04 |
# 適応実験における半パラメトリック効率的な推論 Semiparametric Efficient Inference in Adaptive Experiments ( http://arxiv.org/abs/2311.18274v3 ) ライセンス: Link先を確認 | Thomas Cook, Alan Mishler, Aaditya Ramdas | (参考訳) 本研究では, 治療や管理に対する課題の割り当てを規定する政策が時間とともに変化しうる連続的な実験において, 平均治療効果の効率的な推定の問題を考える。
まず、アダプティブ拡張逆確率重み推定器の中央極限定理を提案し、これは半パラメトリック効率が良く、従来の文献よりも弱い仮定の下で得られる。
この中心極限定理は、固定標本サイズでの効率的な推論を可能にする。
次に、従来の方法よりもかなり厳密な漸近的および漸近的信頼シーケンスを導出した逐次推論の設定を検討する。
これらのanytime-validメソッドは、データに依存した停止時間(サンプルサイズ)での推論を可能にする。
さらに,近年のオフポリティクス推定文献から得られた確率スコアトランケーション手法を用いて,漸近的分散に影響を与えずに,推定器の有限サンプル分散を低減する。
実験結果から,本手法は時間一様誤差制御を維持しつつ,従来文献で開発された手法よりも信頼性が低いことを示す。 We consider the problem of efficient inference of the Average Treatment Effect in a sequential experiment where the policy governing the assignment of subjects to treatment or control can change over time. We first provide a central limit theorem for the Adaptive Augmented Inverse-Probability Weighted estimator, which is semiparametric efficient, under weaker assumptions than those previously made in the literature. This central limit theorem enables efficient inference at fixed sample sizes. We then consider a sequential inference setting, deriving both asymptotic and nonasymptotic confidence sequences that are considerably tighter than previous methods. These anytime-valid methods enable inference under data-dependent stopping times (sample sizes). Additionally, we use propensity score truncation techniques from the recent off-policy estimation literature to reduce the finite sample variance of our estimator without affecting the asymptotic variance. Empirical results demonstrate that our methods yield narrower confidence sequences than those previously developed in the literature while maintaining time-uniform error control. | 翻訳日:2024-03-07 01:28:13 公開日:2024-03-04 |
# TransNAS-TSAD:時系列異常検出における多目的ニューラルネットワーク探索のためのハーネス変換器 TransNAS-TSAD: Harnessing Transformers for Multi-Objective Neural Architecture Search in Time Series Anomaly Detection ( http://arxiv.org/abs/2311.18061v3 ) ライセンス: Link先を確認 | Ijaz Ul Haq, Byung Suk Lee and Donna M. Rizzo | (参考訳) 様々な産業におけるリアルタイムデータ収集の急増は、単変量および多変量時系列データの両方において高度な異常検出の必要性を浮き彫りにした。
本稿では,TransNAS-TSADを提案する。TransNAS-TSADはニューラルアーキテクチャサーチ(NAS)とトランスフォーマーアーキテクチャを相乗化するフレームワークで,NSGA-IIアルゴリズムの最適化によって拡張されている。
このアプローチは時系列データの複雑さに効果的に取り組み、計算効率と検出精度のバランスをとる。
評価の結果,TransNAS-TSADはアーキテクチャ適応性と複雑な検索空間の効率的な探索により従来の異常検出モデルを超え,多様なデータシナリオに顕著な改善をもたらすことがわかった。
また,効率・精度・複雑度スコア(eacs)をモデルの性能評価のための新しい指標として導入し,精度と計算資源のバランスを強調する。
TransNAS-TSADは時系列異常検出の新しいベンチマークを設定し、複雑な現実世界のアプリケーションに汎用的で効率的なソリューションを提供する。
この研究は、幅広い産業アプリケーションにおけるTransNAS-TSADの可能性を強調し、この分野における将来の発展の道を開く。 The surge in real-time data collection across various industries has underscored the need for advanced anomaly detection in both univariate and multivariate time series data. This paper introduces TransNAS-TSAD, a framework that synergizes the transformer architecture with neural architecture search (NAS), enhanced through NSGA-II algorithm optimization. This approach effectively tackles the complexities of time series data, balancing computational efficiency with detection accuracy. Our evaluation reveals that TransNAS-TSAD surpasses conventional anomaly detection models due to its tailored architectural adaptability and the efficient exploration of complex search spaces, leading to marked improvements in diverse data scenarios. We also introduce the Efficiency-Accuracy-Complexity Score (EACS) as a new metric for assessing model performance, emphasizing the balance between accuracy and computational resources. TransNAS-TSAD sets a new benchmark in time series anomaly detection, offering a versatile, efficient solution for complex real-world applications. This research highlights the TransNAS-TSAD potential across a wide range of industry applications and paves the way for future developments in the field. | 翻訳日:2024-03-07 01:27:37 公開日:2024-03-04 |
# 非パラメトリック教師なし学習を用いた局所化遷移の解析 An analysis of localization transitions using non-parametric unsupervised learning ( http://arxiv.org/abs/2311.16050v2 ) ライセンス: Link先を確認 | Carlo Vanoni, Vittorio Vitale | (参考訳) 本稿では,不規則量子系における局在遷移の研究の新しい視点を提案し,不規則量子系の古典的符号化構成によって生成されるデータ空間の幾何学的遷移として,臨界特性がどのように見なされるかを示す。
単粒子問題であるにもかかわらず、相互作用するシステムの特徴を示すことで知られる正規ランダムグラフ上で、アンダーソンモデルに対する我々のアプローチを示す。
文献の最もよく知られた結果と一致して,遷移点と臨界指数を推定する。
本研究は,実世界のシナリオにおける手法の適用可能性について,簡易かつコヒーレントな説明を提供する。 We propose a new viewpoint on the study of localization transitions in disordered quantum systems, showing how critical properties can be seen also as a geometric transition in the data space generated by the classically encoded configurations of the disordered quantum system. We showcase our approach to the Anderson model on regular random graphs, known for displaying features of interacting systems, despite being a single-particle problem. We estimate the transition point and critical exponents in agreement with the best-known results in the literature. We provide a simple and coherent explanation of our findings, discussing the applicability of the method in real-world scenarios with a modest number of measurements. | 翻訳日:2024-03-07 01:26:39 公開日:2024-03-04 |
# 深層クラスタリングのための環境調和型近傍精錬所 Contextually Affinitive Neighborhood Refinery for Deep Clustering ( http://arxiv.org/abs/2312.07806v2 ) ライセンス: Link先を確認 | Chunlin Yu, Ye Shi, Jingya Wang | (参考訳) 自己教師付き学習のこれまでの取り組みは、インスタンス識別の観点から深いクラスタリングの研究を啓蒙してきた。
この基盤の上に構築された最近の研究は、意味的に類似したインスタンスをグループ化することの重要性を強調している。
これを実現する効果的な方法の一つは、近傍一貫性によって保存される意味構造を促進することである。
しかし、周辺地域のサンプルは互いに近接しているため制限される可能性があり、実質的に多様な監視信号を提供しない可能性がある。
画像検索の文脈における多彩な再ランク付け手法に着想を得て,より情報に富んだ隣人を,文脈に親和性のある(仲間)近傍で発掘し,その際,地域間一貫性を促進するために,効率的なオンライン再ランク付けプロセスを採用することを提案する。
クラスタ境界近傍の固有近傍雑音を緩和するため, 雑音近傍の問題を回避すべく, 漸進的に緩和された境界フィルタリング手法を提案する。
提案手法は,汎用的な自己教師型フレームワークに容易に統合でき,いくつかのベンチマークで最先端の手法よりも優れている。 Previous endeavors in self-supervised learning have enlightened the research of deep clustering from an instance discrimination perspective. Built upon this foundation, recent studies further highlight the importance of grouping semantically similar instances. One effective method to achieve this is by promoting the semantic structure preserved by neighborhood consistency. However, the samples in the local neighborhood may be limited due to their close proximity to each other, which may not provide substantial and diverse supervision signals. Inspired by the versatile re-ranking methods in the context of image retrieval, we propose to employ an efficient online re-ranking process to mine more informative neighbors in a Contextually Affinitive (ConAff) Neighborhood, and then encourage the cross-view neighborhood consistency. To further mitigate the intrinsic neighborhood noises near cluster boundaries, we propose a progressively relaxed boundary filtering strategy to circumvent the issues brought by noisy neighbors. Our method can be easily integrated into the generic self-supervised frameworks and outperforms the state-of-the-art methods on several popular benchmarks. | 翻訳日:2024-03-07 01:19:50 公開日:2024-03-04 |
# MP5: アクティブ・パーセプションによるMinecraftのマルチモーダルなオープンエンド・エボダイドシステム MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception ( http://arxiv.org/abs/2312.07472v3 ) ライセンス: Link先を確認 | Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao | (参考訳) 人間のような方法で、長期のオープンワールドタスクを解決できるエンボディシステムを設計することは、長年の目標である。
しかし、既存のアプローチは通常、これらのタスクの論理的分解と文脈的実行によって引き起こされる複雑な困難に悩まされる。
この目的のために我々は,課題のあるMinecraftシミュレータ上に構築されたオープンエンドマルチモーダル・エンボディドシステムMP5を紹介した。これは,実現可能なサブオブジェクトを分解し,高度な状況認識計画を作成し,目標条件付き能動認識スキームとの頻繁な通信により実施する。
具体的には、MP5はMLLM(Multimodal Large Language Models)の最近の進歩の上に開発されており、システムはスケジュールや協調が可能な機能モジュールに変調され、最終的に定義済みのコンテキスト依存タスクとプロセス依存タスクを解決する。
大規模な実験により、MP5は困難なプロセス依存タスクで22%の成功率、コンテキストに大きく依存するタスクで91%の成功率を達成した。
さらに、MP5は、全く新しい多くのオープンエンドタスクに対処する驚くべき能力を示す。 It is a long-lasting goal to design an embodied system that can solve long-horizon open-world tasks in human-like ways. However, existing approaches usually struggle with compound difficulties caused by the logic-aware decomposition and context-aware execution of these tasks. To this end, we introduce MP5, an open-ended multimodal embodied system built upon the challenging Minecraft simulator, which can decompose feasible sub-objectives, design sophisticated situation-aware plans, and perform embodied action control, with frequent communication with a goal-conditioned active perception scheme. Specifically, MP5 is developed on top of recent advances in Multimodal Large Language Models (MLLMs), and the system is modulated into functional modules that can be scheduled and collaborated to ultimately solve pre-defined context- and process-dependent tasks. Extensive experiments prove that MP5 can achieve a 22% success rate on difficult process-dependent tasks and a 91% success rate on tasks that heavily depend on the context. Moreover, MP5 exhibits a remarkable ability to address many open-ended tasks that are entirely novel. | 翻訳日:2024-03-07 01:18:58 公開日:2024-03-04 |
# 全スライド画像分類のためのシェープ値対応プログレッシブプログレッシブPseudo Bag Augmentation Shapley Values-enabled Progressive Pseudo Bag Augmentation for Whole Slide Image Classification ( http://arxiv.org/abs/2312.05490v2 ) ライセンス: Link先を確認 | Renao Yan, Qiehe Sun, Cheng Jin, Yiqing Liu, Yonghong He, Tian Guan, Hao Chen | (参考訳) 計算病理学において、全スライド画像(WSI)分類は、そのギガピクセル解像度と制限された細かいアノテーションのため、非常に難しい課題である。
多重インスタンス学習(MIL)は、弱教師付きソリューションを提供するが、バッグレベルのラベルからインスタンスレベルの情報を精製することは複雑である。
従来のMIL手法のほとんどは、スライディングラベルの予測に寄与するインスタンス重要度スコア(IIS)を推定するために注意スコアを使用するが、これらは重要なインスタンスを特定する際に注意分布や不正確な結果をもたらすことが多い。
そこで本研究では,協調ゲーム理論に着想を得た新たなアプローチを提案する。シャプレー値を用いて各インスタンスの寄与度を評価し,iis推定を改善する。
次に、Shapley値の計算を注意して高速化し、強化されたインスタンス識別と優先順位付けを保持する。
さらに、推定IISに基づく疑似バッグのプログレッシブ割り当てのためのフレームワークを導入し、MILモデルにおけるよりバランスのとれた注意分布を奨励する。
CAMELYON-16, BRACS, TCGA-LUNGデータセットに関する広範な実験は、既存の最先端アプローチよりもメソッドが優れていることを示す。
受け入れ次第、コードをリリースします。 In computational pathology, whole slide image (WSI) classification presents a formidable challenge due to its gigapixel resolution and limited fine-grained annotations. Multiple instance learning (MIL) offers a weakly supervised solution, yet refining instance-level information from bag-level labels remains complex. While most of the conventional MIL methods use attention scores to estimate instance importance scores (IIS) which contribute to the prediction of the slide labels, these often lead to skewed attention distributions and inaccuracies in identifying crucial instances. To address these issues, we propose a new approach inspired by cooperative game theory: employing Shapley values to assess each instance's contribution, thereby improving IIS estimation. The computation of the Shapley value is then accelerated using attention, meanwhile retaining the enhanced instance identification and prioritization. We further introduce a framework for the progressive assignment of pseudo bags based on estimated IIS, encouraging more balanced attention distributions in MIL models. Our extensive experiments on CAMELYON-16, BRACS, and TCGA-LUNG datasets show our method's superiority over existing state-of-the-art approaches, offering enhanced interpretability and class-wise insights. We will release the code upon acceptance. | 翻訳日:2024-03-07 01:17:48 公開日:2024-03-04 |
# AI生成画像の自然性を探る Exploring the Naturalness of AI-Generated Images ( http://arxiv.org/abs/2312.05476v3 ) ライセンス: Link先を確認 | Zijian Chen, Wei Sun, Haoning Wu, Zicheng Zhang, Jun Jia, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Xiongkuo Min, Guangtao Zhai, Wenjun Zhang | (参考訳) 人工知能生成画像(AGI)の拡散は、画像自然度評価(INA)問題を大幅に拡大した。
限られた歪み(例えば、露光、コントラスト、色再現)を持つトーンマップ画像に主にフォーカスする初期の定義とは異なり、AI生成画像上のINAは、より多様な内容を持ち、低レベルの技術的歪みや高レベルの合理性歪みを含む複数の視点からの影響を受け得るため、特に困難である。
本稿では,AI生成画像の視覚的自然性をベンチマークし,評価する第一歩を踏み出す。
まず,AI生成画像自然性(AGIN)データベースを構築し,技術・合理性の観点からの認識だけでなく,全体自然性に関する人間の意見を収集する大規模主観的研究を行った。
agin は自然性が技術的および合理性の歪みによって普遍的かつ異様に影響を受けることを検証する。
第2に、人間の評価を整列するAGIの自然性を自動予測する統合目的画像自然度評価器(JOINT)を提案する。
具体的には、技術面と合理性面の両方を共同学習することにより、自然性評価における人間の推論を模倣する。
自然性評価において,より主観的に一貫性のある結果を提供するため,ジョイントがベースラインを著しく上回っていることを実証する。 The proliferation of Artificial Intelligence-Generated Images (AGIs) has greatly expanded the Image Naturalness Assessment (INA) problem. Different from early definitions that mainly focus on tone-mapped images with limited distortions (e.g., exposure, contrast, and color reproduction), INA on AI-generated images is especially challenging as it has more diverse contents and could be affected by factors from multiple perspectives, including low-level technical distortions and high-level rationality distortions. In this paper, we take the first step to benchmark and assess the visual naturalness of AI-generated images. First, we construct the AI-Generated Image Naturalness (AGIN) database by conducting a large-scale subjective study to collect human opinions on the overall naturalness as well as perceptions from technical and rationality perspectives. AGIN verifies that naturalness is universally and disparately affected by technical and rationality distortions. Second, we propose the Joint Objective Image Naturalness evaluaTor (JOINT), to automatically predict the naturalness of AGIs that aligns human ratings. Specifically, JOINT imitates human reasoning in naturalness evaluation by jointly learning both technical and rationality features. We demonstrate that JOINT significantly outperforms baselines for providing more subjectively consistent results on naturalness assessment. | 翻訳日:2024-03-07 01:17:23 公開日:2024-03-04 |
# ハール測度に基づく量子リウヴィルの定理 Quantum Liouville's theorem based on Haar measure ( http://arxiv.org/abs/2312.04778v2 ) ライセンス: Link先を確認 | B.Q. Song, J.D.H. Smith, L. Luo, J. Wang | (参考訳) liouville theorem (lt) は、任意のポテンシャルが与えられた位相空間における分布関数のロバストな非圧縮性を示す。
しかし、その量子一般化であるウィグナーフローは圧縮可能であり、すなわちLTは条件的にのみ真である(例えば完全な調和ポテンシャルに対して)。
我々は、ハミルトニアンの任意のポテンシャル(相互作用の有無)に対する量子リウヴィル定理(リゴラス非圧縮性)を開発した。
ハール測度は、ウィグナーのスキームで用いられるシンプレクティック測度 dp^dq の代わりに、中心的な役割を果たす。
この議論は、特定の空間や座標に依存しない一般測度理論に基づいている。
例えば、なぜハール測度とメートル法保存が古典的ケースで機能しないのかを論じる。
統計学、位相相転移、エルゴード理論などにおける定理の応用について論じる。 Liouville theorem (LT) reveals robust incompressibility of distribution function in phase space, given arbitrary potentials. However, its quantum generalization, Wigner flow, is compressible, i.e., LT is only conditionally true (e.g., for perfect Harmonic potential). We develop quantum Liouville theorem (rigorous incompressibility) for arbitrary potentials (interacting or not) in Hamiltonians. Haar measure, instead of symplectic measure dp^dq used in Wigner's scheme, plays a central role. The argument is based on general measure theory, independent of specific spaces or coordinates. Comparison of classical and quantum is made: for instance, we address why Haar measure and metric preservation do not work in the classical case. Applications of theorems in statistics, topological phase transition, ergodic theory, etc. are discussed. | 翻訳日:2024-03-07 01:16:17 公開日:2024-03-04 |
# strong, less, and superior: ドメイン一般化意味セグメンテーションのためのビジョン基盤モデルを活用する Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.04265v4 ) ライセンス: Link先を確認 | Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng | (参考訳) 本稿では、まず、ドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)の文脈において、様々なビジョン基礎モデル(VFM)を評価し、活用する。
より強力な事前学習モデルとより少ない訓練可能なパラメータを上向きの一般化性に活用する動機により、DGSSのVFMをパラメータ効率よく活用するための堅牢な微調整手法、すなわちReinを導入する。
トレーニング可能なトークンセットに基づいて構築され、それぞれが異なるインスタンスにリンクされ、機能マップを各レイヤからバックボーン内の次のレイヤに正確に洗練し、転送する。
このプロセスは、単一の画像内のさまざまなカテゴリの多様な改良を生み出す。
トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率的に微調整する。
さまざまな設定にわたる大規模な実験は、Reinが最先端のメソッドを大幅に上回っていることを示している。
注目すべきは、凍結したバックボーン内のトレーニング可能なパラメータのわずか1%で、Reinは実際の都市シーンデータセットにアクセスすることなく、Cityscapesで68.1%のmIoUを達成したことだ。 In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 68.1% on the Cityscapes, without accessing any real urban-scene datasets.Code is available at https://github.com/w1oves/Rein.git. | 翻訳日:2024-03-07 01:15:48 公開日:2024-03-04 |
# 技術的重複検出のためのシームス構造を有するGPT-3インベディングの精製 Refining GPT-3 Embeddings with a Siamese Structure for Technical Post Duplicate Detection ( http://arxiv.org/abs/2312.15068v2 ) ライセンス: Link先を確認 | Xingfang Wu, Heng Li, Nobukazu Yoshioka, Hironori Washizaki, Foutse Khomh | (参考訳) 技術的オンラインコミュニティの1つのゴールは、開発者が一箇所で正しい答えを見つけるのを助けることである。
一つの質問は異なる言葉で異なる方法で問うことができ、技術的フォーラムに重複するポストが存在する。
重複投稿の発見とリンクに関する問題は、開発者コミュニティと研究者の両方の注目を集めている。
例えばstack overflowでは,重複記事のマークとクローズに投票ベースのメカニズムを採用している。
しかし、これら繰り返し発生する重複投稿にタイムリーに対処することは、課題を生じ続けている。
そのため,技術フォーラム投稿の重複投稿を自動的に検出する手法が提案されている。
既存のメソッドは、投稿の意味を十分に把握できない手作りの類似度メトリクスに依存するか、パフォーマンスを改善するための監督の欠如によって、制限に苦しめられている。
さらに、これらの手法の効率は、大量のデータに対して実用的でないペアワイズ特徴生成への依存によって妨げられる。
本研究では,重複検出タスクのためのgpt-3組込みを採用し,改良する。
GPT-3埋め込みはポストのセマンティクスを正確に表現できると仮定する。
さらに,gpt-3組込みに基づくシャム語ベースのネットワークを訓練することにより,技術フォーラム投稿における重複関係を正確に捉えた潜在埋め込みを実現する。
ベンチマークデータセットを用いた実験により,提案手法の有効性を確認し,ベースライン法と比較して優れた性能を示す。
最近のStack Overflowダンプで構築したデータセットに適用すると、Top-1、Top-5、Top-30の精度はそれぞれ23.1%、43.9%、68.9%に達します。
マニュアル研究により,技術フォーラムでラベルなしの複製を発見できる可能性を確認した。 One goal of technical online communities is to help developers find the right answer in one place. A single question can be asked in different ways with different wordings, leading to the existence of duplicate posts on technical forums. The question of how to discover and link duplicate posts has garnered the attention of both developer communities and researchers. For example, Stack Overflow adopts a voting-based mechanism to mark and close duplicate posts. However, addressing these constantly emerging duplicate posts in a timely manner continues to pose challenges. Therefore, various approaches have been proposed to detect duplicate posts on technical forum posts automatically. The existing methods suffer from limitations either due to their reliance on handcrafted similarity metrics which can not sufficiently capture the semantics of posts, or their lack of supervision to improve the performance. Additionally, the efficiency of these methods is hindered by their dependence on pair-wise feature generation, which can be impractical for large amount of data. In this work, we attempt to employ and refine the GPT-3 embeddings for the duplicate detection task. We assume that the GPT-3 embeddings can accurately represent the semantics of the posts. In addition, by training a Siamese-based network based on the GPT-3 embeddings, we obtain a latent embedding that accurately captures the duplicate relation in technical forum posts. Our experiment on a benchmark dataset confirms the effectiveness of our approach and demonstrates superior performance compared to baseline methods. When applied to the dataset we constructed with a recent Stack Overflow dump, our approach attains a Top-1, Top-5, and Top-30 accuracy of 23.1%, 43.9%, and 68.9%, respectively. With a manual study, we confirm our approach's potential of finding unlabelled duplicates on technical forums. | 翻訳日:2024-03-07 01:11:26 公開日:2024-03-04 |
# クロスコヴァリエートな歩行認識:ベンチマーク Cross-Covariate Gait Recognition: A Benchmark ( http://arxiv.org/abs/2312.14404v4 ) ライセンス: Link先を確認 | Shinan Zou, Chao Fan, Jianbo Xiong, Chuanfu Shen, Shiqi Yu, Jin Tang | (参考訳) 歩行データセットは歩行研究に不可欠である。
しかし,本研究では,従来の制約付きデータセットや新興実世界のデータセットが,共変量多様性に関して不足していることを示す。
このギャップを埋めるため、私たちは、CCGRデータセットの収集に20ヶ月の懸命な努力を払っています。
CCGRデータセットには970人の被験者と約1.6万のシーケンスがあり、ほぼすべての被験者は33のビューと53の異なる共変体を持っている。
既存のデータセットと比較すると、CCGRは個体数と個体レベルの多様性の両方を持っている。
さらに、ビューとコ変数はよくラベル付けされ、異なる要因の影響を分析することができる。
CCGRは、RGB、パース、シルエット、ポーズなど、さまざまな種類の歩行データを提供し、研究者に探索のための包括的なリソースを提供する。
本稿では,新たに提案する解析データを用いて,多変量歩行認識に深く取り組むために,解析に基づく歩行認識(parsinggait)を提案する。
我々は広範な実験を行った。
私たちの主な結果は以下のとおりです。
1) 歩行認識の実用的応用において, クロスコヴァリエートが重要な課題として出現する。
2)ParsingGaitは,さらなる進歩の可能性を示す。
3)既存のSOTA法はCCGRで43%未満の精度を達成し,クロスコバルト歩行認識の緊急性を強調した。
リンク: https://github.com/shinanzou/ccgr。 Gait datasets are essential for gait research. However, this paper observes that present benchmarks, whether conventional constrained or emerging real-world datasets, fall short regarding covariate diversity. To bridge this gap, we undertake an arduous 20-month effort to collect a cross-covariate gait recognition (CCGR) dataset. The CCGR dataset has 970 subjects and about 1.6 million sequences; almost every subject has 33 views and 53 different covariates. Compared to existing datasets, CCGR has both population and individual-level diversity. In addition, the views and covariates are well labeled, enabling the analysis of the effects of different factors. CCGR provides multiple types of gait data, including RGB, parsing, silhouette, and pose, offering researchers a comprehensive resource for exploration. In order to delve deeper into addressing cross-covariate gait recognition, we propose parsing-based gait recognition (ParsingGait) by utilizing the newly proposed parsing data. We have conducted extensive experiments. Our main results show: 1) Cross-covariate emerges as a pivotal challenge for practical applications of gait recognition. 2) ParsingGait demonstrates remarkable potential for further advancement. 3) Alarmingly, existing SOTA methods achieve less than 43% accuracy on the CCGR, highlighting the urgency of exploring cross-covariate gait recognition. Link: https://github.com/ShinanZou/CCGR. | 翻訳日:2024-03-07 01:10:09 公開日:2024-03-04 |
# ランダム化コンパイルによる適応フィードバックに対する中間回路測定の準確率的読み出し補正 Quasi-Probabilistic Readout Correction of Mid-Circuit Measurements for Adaptive Feedback via Measurement Randomized Compiling ( http://arxiv.org/abs/2312.14139v3 ) ライセンス: Link先を確認 | Akel Hashim, Arnaud Carignan-Dugas, Larry Chen, Christian Juenger, Neelay Fruitwala, Yilun Xu, Gang Huang, Joel J. Wallman, Irfan Siddiqi | (参考訳) 量子計測は量子コンピューティングの基本的な構成要素である。
しかし、現代の量子コンピュータでは、測定は量子ゲートよりも誤差が高く、非単位誤差や測定クロストークによる非局所相関の影響を受けやすい。
読み出しエラーは後処理で軽減できるが、組合せ的に大きな可能な状態の数を特徴付ける必要があるため、キュービット数では非効率である。
本研究では, ランダム化コンパイルを用いた単純な確率的誤差モデルに補正し, 指数的に大きな混乱行列における単一準備状態の測定から再構成した準確率分布による読み出し誤差の効率的な緩和を可能にすることを示す。
8個の超伝導トランスモン量子ビットのレジスタに適用される多数の異なる準備状態に対して行列反転をせずに読み出し誤差を補正することにより、このアプローチのスケーラビリティとパワーを実証する。
さらに,この手法を疑似確率的誤りキャンセラによるアクティブフィードバックに用いる中回路計測に拡張できることを示すとともに,エンタングルメモリ量子ビットにおけるビットフリップ誤りの検出・修正に用いるアンシラ量子ビットにおける測定誤差の補正を実証する。
提案手法は,多数の量子ビット上での読み出し誤差の補正を可能にするとともに,非局所量子ビット上での条件演算に中間回路計測結果を用いた適応回路における読み出し誤差の補正手法を提供する。 Quantum measurements are a fundamental component of quantum computing. However, on modern-day quantum computers, measurements can be more error prone than quantum gates, and are susceptible to nonunital errors as well as non-local correlations due to measurement crosstalk. While readout errors can be mitigated in post-processing, it is inefficient in the number of qubits due to a combinatorially-large number of possible states that need to be characterized. In this work, we show that measurement errors can be tailored into a simple stochastic error model using randomized compiling, enabling the efficient mitigation of readout errors via quasi-probability distributions reconstructed from the measurement of a single preparation state in an exponentially large confusion matrix. We demonstrate the scalability and power of this approach by correcting readout errors without matrix inversion on a large number of different preparation states applied to a register of a eight superconducting transmon qubits. Moreover, we show that this method can be extended to mid-circuit measurements used for active feedback via quasi-probabilistic error cancellation, and demonstrate the correction of measurement errors on an ancilla qubit used to detect and actively correct bit-flip errors on an entangled memory qubit. Our approach enables the correction of readout errors on large numbers of qubits, and offers a strategy for correcting readout errors in adaptive circuits in which the results of mid-circuit measurements are used to perform conditional operations on non-local qubits in real time. | 翻訳日:2024-03-07 01:09:46 公開日:2024-03-04 |
# nomiracl: 頑健な多言語検索型世代を知らない時を知る NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation ( http://arxiv.org/abs/2312.11361v2 ) ライセンス: Link先を確認 | Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi Rezagholizadeh, Jimmy Lin | (参考訳) Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
しかし、先行研究は異なる言語ファミリーの包括的評価を欠いているため、外部検索された知識におけるエラーに対するllmの堅牢性の評価が困難である。
この問題を解決するために,18言語にまたがるRAGにおけるLDMロバスト性を評価するための人間アノテーション付きデータセットであるNoMIRACLを構築した。
NoMIRACLは非関連サブセットと関連するサブセットの両方を含んでいる。
非関連サブセットのクエリは、非関連サブセットであると判断されたパスを含むが、関連するサブセットのクエリは、少なくとも1つの判断された関連するパスを含む。
2つの指標を用いてLCMのロバスト性を測定する。
(i)幻覚率、非関連部分集合の通路に回答が存在しない場合、回答を幻覚する傾向の測定モデル、及び
(二)誤差率、関係部分集合内の関連通路を認識するためのモデル不正確さの測定。
本研究では,多言語対応LLMのロバスト性を測定し,ほとんどのモデルが2つの能力のバランスをとるのに苦労していることを観察する。
llama-2、orca-2、flan-t5のようなモデルは、非関連部分集合の幻覚率が88%以上であるのに対し、ミストラル全体の幻覚は少ないが、関連部分集合の誤差率は74.9%である。
全体として、GPT-4は両サブセットの最良のトレードオフを提供するのが観察され、LCMの堅牢性を改善するために必要な今後の作業が強調された。 Retrieval-augmented generation (RAG) grounds large language model (LLM) output by leveraging external knowledge sources to reduce factual hallucinations. However, prior works lack a comprehensive evaluation of different language families, making it challenging to evaluate LLM robustness against errors in external retrieved knowledge. To overcome this, we establish NoMIRACL, a human-annotated dataset for evaluating LLM robustness in RAG across 18 typologically diverse languages. NoMIRACL includes both a non-relevant and a relevant subset. Queries in the non-relevant subset contain passages judged as non-relevant, whereas queries in the relevant subset include at least a single judged relevant passage. We measure LLM robustness using two metrics: (i) hallucination rate, measuring model tendency to hallucinate an answer, when the answer is not present in passages in the non-relevant subset, and (ii) error rate, measuring model inaccuracy to recognize relevant passages in the relevant subset. In our work, we measure robustness for a wide variety of multilingual-focused LLMs and observe that most of the models struggle to balance the two capacities. Models such as LLAMA-2, Orca-2, and FLAN-T5 observe more than an 88% hallucination rate on the non-relevant subset, whereas, Mistral overall hallucinates less, but can achieve up to a 74.9% error rate on the relevant subset. Overall, GPT-4 is observed to provide the best tradeoff on both subsets, highlighting future work necessary to improve LLM robustness. | 翻訳日:2024-03-07 01:07:38 公開日:2024-03-04 |
# 発作映像解析のための深層学習手法の検討 Deep Learning Approaches for Seizure Video Analysis: A Review ( http://arxiv.org/abs/2312.10930v2 ) ライセンス: Link先を確認 | David Ahmedt-Aristizabal, Mohammad Ali Armin, Zeeshan Hayder, Norberto Garcia-Cairasco, Lars Petersson, Clinton Fookes, Simon Denman, Aileen McGonigal | (参考訳) 発作は、表情の変化のような他の観察可能な特徴が伴うか、伴わないかで異なる行動シーケンスで組織される運動の制御における一時的な混乱として現れる。
これらの臨床症状の分析は、臨床現場でビデオ録画された事象を評価する際に、観察者によって異なる。
評価の正確性と一貫性を高めるため、発作のコンピュータ支援ビデオ解析が自然な道として登場した。
医学応用の分野では、ディープラーニングとコンピュータビジョンのアプローチが大幅に進歩している。
歴史的に, これらの手法は診断データを用いた疾患の検出, 分類, 予測に用いられているが, 臨床てんかんにおけるビデオベースモーション検出の応用は限定的に検討されている。
ビジョンベースの技術は臨床専門知識を置き換えるものではないが、定量的な証拠と意思決定支援を提供することで、医療の意思決定と患者のケアに大きく貢献することができる。
行動監視ツールは、客観的情報の提供、困難なイベントの検出、ドキュメントの取り組みの削減、限られた専門知識を持つ領域へのアセスメント機能拡張など、いくつかの利点を提供している。
これらの主な応用は,(1)発作検出法の改善,(2)発作タイプと脳内局在の予測のための精巧なセミロジカル解析である。
本稿では,視覚系システムにおける発作映像の解析における基礎技術について詳述し,過去7年間の研究に焦点を当てたセミロジカル検出と分析の成功を強調する。
さらに,映像に基づくセミロジカル解析のための統合システムにより,既存技術が相互接続される方法を示す。 Seizure events can manifest as transient disruptions in the control of movements which may be organized in distinct behavioral sequences, accompanied or not by other observable features such as altered facial expressions. The analysis of these clinical signs, referred to as semiology, is subject to observer variations when specialists evaluate video-recorded events in the clinical setting. To enhance the accuracy and consistency of evaluations, computer-aided video analysis of seizures has emerged as a natural avenue. In the field of medical applications, deep learning and computer vision approaches have driven substantial advancements. Historically, these approaches have been used for disease detection, classification, and prediction using diagnostic data; however, there has been limited exploration of their application in evaluating video-based motion detection in the clinical epileptology setting. While vision-based technologies do not aim to replace clinical expertise, they can significantly contribute to medical decision-making and patient care by providing quantitative evidence and decision support. Behavior monitoring tools offer several advantages such as providing objective information, detecting challenging-to-observe events, reducing documentation efforts, and extending assessment capabilities to areas with limited expertise. The main applications of these could be (1) improved seizure detection methods; (2) refined semiology analysis for predicting seizure type and cerebral localization. In this paper, we detail the foundation technologies used in vision-based systems in the analysis of seizure videos, highlighting their success in semiology detection and analysis, focusing on work published in the last 7 years. Additionally, we illustrate how existing technologies can be interconnected through an integrated system for video-based semiology analysis. | 翻訳日:2024-03-07 01:07:09 公開日:2024-03-04 |
# Q-Segment: 血管型診断のためのイメージインセンサー Q-Segment: Segmenting Images In-Sensor for Vessel-Based Medical Diagnosis ( http://arxiv.org/abs/2312.09854v3 ) ライセンス: Link先を確認 | Pietro Bonazzi, Yawei Li, Sizhen Bian, Michele Magno | (参考訳) 本稿では,ディープラーニングモデルを直接センサに展開することへの関心が高まっている。
本稿では,量子化リアルタイムセグメンテーションアルゴリズム"q-segment"を提案し,センサ内プロセッサであるsony imx500を用いた低消費電力エッジビジョンプラットフォームについて包括的評価を行う。
このモデルの主な目的の1つは、血管ベースの診断のためのエンドツーエンドのイメージセグメンテーションを実現することである。
IMX500プラットフォーム上に展開されたQ-Segmentは、センサー内での超低推論時間と72mWの消費電力を実現している。
提案したネットワークと,フロートおよび量子化の両方の最先端モデルを比較し,提案手法が計算効率の面で,例えばERFNetの75倍の係数で,様々なプラットフォーム上の既存ネットワークより優れていることを示す。
このネットワークは、接続をスキップするエンコーダ・デコーダ構造を採用しており、2進法の精度は97.25%、受信器動作特性曲線(AUC)は96.97%である。
また、IMX500処理コアと、低消費電力のマルチコアARM Cortex-Mマイクロコントローラ、シングルコアARM Cortex-M4を比較し、エンドツーエンドの低レイテンシ(17ms)と電力消費(254mW)でセンサ内処理を実現できることを示す。
この研究は、エッジベースのイメージセグメンテーションに関する貴重な洞察をもたらし、低消費電力環境に適した効率的なアルゴリズムの基礎を築いた。 This paper addresses the growing interest in deploying deep learning models directly in-sensor. We present "Q-Segment", a quantized real-time segmentation algorithm, and conduct a comprehensive evaluation on a low-power edge vision platform with an in-sensors processor, the Sony IMX500. One of the main goals of the model is to achieve end-to-end image segmentation for vessel-based medical diagnosis. Deployed on the IMX500 platform, Q-Segment achieves ultra-low inference time in-sensor only 0.23 ms and power consumption of only 72mW. We compare the proposed network with state-of-the-art models, both float and quantized, demonstrating that the proposed solution outperforms existing networks on various platforms in computing efficiency, e.g., by a factor of 75x compared to ERFNet. The network employs an encoder-decoder structure with skip connections, and results in a binary accuracy of 97.25% and an Area Under the Receiver Operating Characteristic Curve (AUC) of 96.97% on the CHASE dataset. We also present a comparison of the IMX500 processing core with the Sony Spresense, a low-power multi-core ARM Cortex-M microcontroller, and a single-core ARM Cortex-M4 showing that it can achieve in-sensor processing with end-to-end low latency (17 ms) and power concumption (254mW). This research contributes valuable insights into edge-based image segmentation, laying the foundation for efficient algorithms tailored to low-power environments. | 翻訳日:2024-03-07 01:05:48 公開日:2024-03-04 |
# T-PRIME:エッジでの機械学習のためのトランスフォーマーベースのプロトコル識別 T-PRIME: Transformer-based Protocol Identification for Machine-learning at the Edge ( http://arxiv.org/abs/2401.04837v2 ) ライセンス: Link先を確認 | Mauro Belgiovine, Joshua Groen, Miquel Sirera, Chinenye Tassie, Ayberk Yark{\i}n Y{\i}ld{\i}z, Sage Trudeau, Stratis Ioannidis, Kaushik Chowdhury | (参考訳) スペクトル共有により、同じ標準(例えば802.11ファミリ)や異なる標準(例えばLTEとDVB)の異なるプロトコルが重なり合う周波数帯域で共存できる。
このパラダイムが広まるにつれて、無線システムはプリアンブルの意図的な歪み、信号対雑音比の極低、挑戦的なチャネル条件の下で、アクティブな送信機や未許可波形をリアルタイムで識別するためにも進化する必要がある。
我々は,T-PRIME(Transformer-based machine learning approach)の設計を通じて,相関型プレアンブルマッチング手法の制約を克服する。
T-PRIMEは、プリアンブルのみを超えるシーケンスパターンを見て、そのアテンションメカニズムを通じて送信フレームの構造設計を学習する。
まず、Transformerモデルを比較し、従来の手法や最先端のニューラルネットワークよりも優れていることを示す。
次に、DeepWaveのAIR-Tプラットフォーム上でのT-PRIMEのリアルタイム実現可能性を分析します。
第3に、トレーニングには66GBのOTA(Over-the-air)WiFi送信データセットを使用しており、コミュニティ利用のコードとともにリリースされている。
その結果、シミュレーションシナリオでは、ほぼ完全な分類精度(すなわち、$>98\%$)が示され、低SNR域のレガシーメソッドよりも100\%$検出精度が向上し、OTA単一プロトコール伝送の分類精度が97\%$、干渉シナリオにおける最大75\%$ダブルプロトコール分類精度が示された。 Spectrum sharing allows different protocols of the same standard (e.g., 802.11 family) or different standards (e.g., LTE and DVB) to coexist in overlapping frequency bands. As this paradigm continues to spread, wireless systems must also evolve to identify active transmitters and unauthorized waveforms in real time under intentional distortion of preambles, extremely low signal-to-noise ratios and challenging channel conditions. We overcome limitations of correlation-based preamble matching methods in such conditions through the design of T-PRIME: a Transformer-based machine learning approach. T-PRIME learns the structural design of transmitted frames through its attention mechanism, looking at sequence patterns that go beyond the preamble alone. The paper makes three contributions: First, it compares Transformer models and demonstrates their superiority over traditional methods and state-of-the-art neural networks. Second, it rigorously analyzes T-PRIME's real-time feasibility on DeepWave's AIR-T platform. Third, it utilizes an extensive 66 GB dataset of over-the-air (OTA) WiFi transmissions for training, which is released along with the code for community use. Results reveal nearly perfect (i.e. $>98\%$) classification accuracy under simulated scenarios, showing $100\%$ detection improvement over legacy methods in low SNR ranges, $97\%$ classification accuracy for OTA single-protocol transmissions and up to $75\%$ double-protocol classification accuracy in interference scenarios. | 翻訳日:2024-03-07 01:00:09 公開日:2024-03-04 |
# フラクショナル次連続ダイナミクスを用いたグラフニューラルネットワークの結合:ロバストネススタディ Coupling Graph Neural Networks with Fractional Order Continuous Dynamics: A Robustness Study ( http://arxiv.org/abs/2401.04331v2 ) ライセンス: Link先を確認 | Qiyu Kang, Kai Zhao, Yang Song, Yihang Xie, Yanan Zhao, Sijie Wang, Rui She, and Wee Peng Tay | (参考訳) 本研究では,グラフニューラル分数次微分方程式(FDE)モデルのロバスト性について精査する。
このフレームワークは、時間差分カプトー微分を実装することで、従来のグラフニューラル(整数階)常微分方程式(ODE)モデルを超えて拡張する。
分数計算を利用することで、従来のグラフニューラルネットワークodeモデルに見られるメモリレスマルコフ更新から逸脱して、機能更新プロセス中に長期記憶を考慮できる。
グラフニューラルODEモデルよりもグラフニューラルFDEモデルの優位性は、攻撃や摂動のない環境で確立されている。
従来のグラフニューラルODEモデルは、既存の文献における敵攻撃の存在下での安定性とレジリエンスの程度が証明されているが、グラフニューラルFDEモデルの堅牢性は、特に敵対的条件下では、ほとんど解明されていない。
本稿では,グラフニューラルFDEモデルの堅牢性を詳細に評価する。
我々は,グラフニューラルFDEモデルの頑健性特性を概説する理論基盤を確立し,入力やグラフトポロジの乱れに対して,より厳密な出力摂動境界を維持することを強調した。
実験結果より,グラフニューラルネットワークfdeモデルのロバスト性がさらに向上し,対向ロバストなアプリケーションにおけるその可能性を強調した。 In this work, we rigorously investigate the robustness of graph neural fractional-order differential equation (FDE) models. This framework extends beyond traditional graph neural (integer-order) ordinary differential equation (ODE) models by implementing the time-fractional Caputo derivative. Utilizing fractional calculus allows our model to consider long-term memory during the feature updating process, diverging from the memoryless Markovian updates seen in traditional graph neural ODE models. The superiority of graph neural FDE models over graph neural ODE models has been established in environments free from attacks or perturbations. While traditional graph neural ODE models have been verified to possess a degree of stability and resilience in the presence of adversarial attacks in existing literature, the robustness of graph neural FDE models, especially under adversarial conditions, remains largely unexplored. This paper undertakes a detailed assessment of the robustness of graph neural FDE models. We establish a theoretical foundation outlining the robustness characteristics of graph neural FDE models, highlighting that they maintain more stringent output perturbation bounds in the face of input and graph topology disturbances, compared to their integer-order counterparts. Our empirical evaluations further confirm the enhanced robustness of graph neural FDE models, highlighting their potential in adversarially robust applications. | 翻訳日:2024-03-07 00:59:11 公開日:2024-03-04 |
# 自己スーパービジョンクラスタリングとエネルギーベースモデルのベイズ統合 A Bayesian Unification of Self-Supervised Clustering and Energy-Based Models ( http://arxiv.org/abs/2401.00873v2 ) ライセンス: Link先を確認 | Emanuele Sansone and Robin Manhaeve | (参考訳) 自己教師付き学習は、大量のラベルのないデータを活用するための一般的かつ強力な手法であり、文献に様々な訓練目的が提案されている。
本研究では,最先端の自己教師型学習目標のベイズ解析を行い,各クラスの基本となる確率的グラフィカルモデルを解明し,第一原理から導出するための標準化された方法論を提案する。
分析はまた、確率に基づく生成モデルと自己教師付き学習を統合する自然な方法を示している。
我々は、クラスタベースの自己教師型学習とエネルギーモデルの範囲内でこの概念をインスタンス化し、最も重要な障害モードを確実に罰する新しい下位境界を導入する。
さらに、新たに提案された下界は、停止勾配や運動量エンコーダ、あるいは特殊なクラスタリング層といった非対称な要素を必要とせずに、標準的なバックボーンアーキテクチャのトレーニングを可能にする。
SVHN, CIFAR10, CIFAR100などの合成および実世界のデータを用いた実験により, 目的関数がクラスタリング, 生成, アウト・オブ・ディストリビューション検出性能において, 既存の自己教師あり学習戦略より優れていることを示す。
また,GEDIをニューロシンボリック・フレームワークに統合することで,推論ショートカット問題を緩和し,分類性能の向上により高品質なシンボル表現を学習できることを実証した。 Self-supervised learning is a popular and powerful method for utilizing large amounts of unlabeled data, for which a wide variety of training objectives have been proposed in the literature. In this study, we perform a Bayesian analysis of state-of-the-art self-supervised learning objectives, elucidating the underlying probabilistic graphical models in each class and presenting a standardized methodology for their derivation from first principles. The analysis also indicates a natural means of integrating self-supervised learning with likelihood-based generative models. We instantiate this concept within the realm of cluster-based self-supervised learning and energy models, introducing a novel lower bound which is proven to reliably penalize the most important failure modes. Furthermore, this newly proposed lower bound enables the training of a standard backbone architecture without the necessity for asymmetric elements such as stop gradients, momentum encoders, or specialized clustering layers - typically introduced to avoid learning trivial solutions. Our theoretical findings are substantiated through experiments on synthetic and real-world data, including SVHN, CIFAR10, and CIFAR100, thus showing that our objective function allows to outperform existing self-supervised learning strategies in terms of clustering, generation and out-of-distribution detection performance by a wide margin. We also demonstrate that GEDI can be integrated into a neuro-symbolic framework to mitigate the reasoning shortcut problem and to learn higher quality symbolic representations thanks to the enhanced classification performance. | 翻訳日:2024-03-07 00:57:37 公開日:2024-03-04 |
# 任意文体におけるテキスト生成の学習 Learning to Generate Text in Arbitrary Writing Styles ( http://arxiv.org/abs/2312.17242v2 ) ライセンス: Link先を確認 | Aleem Khan, Andrew Wang, Sophia Hager, Nicholas Andrews | (参考訳) 文体制御テキスト生成における先行研究は、多作文学作家のスタイルをエミュレートし、形式的あるいは非公式なテキストを作成し、生成されたテキストの毒性を緩和するといったタスクに重点を置いてきた。
これらのスタイルの豊富なデモンストレーションが利用可能であり、その結果、現代の言語モデルは、プロンプトまたは判別制御によって、それらをエミュレートすることができる。
しかし、アシスタントを書くようなアプリケーションでは、潜在的に小さな記述サンプルに基づいて、言語モデルが著者特有のスタイルでテキストを生成することが望ましい。
例えば、特定の方言で書く人は、同じ方言を保持する提案を書くことを好むことがある。
命令を調整した言語モデルでは,プロンプトで示す著者固有のスタイルを再現するのに苦労する場合がある。
そこで我々は,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。
提案手法 (StyleMC) は, 著者適応型言語モデルとシーケンスレベルの推論を組み合わせることで, 文体整合性の向上を実現し, 非条件生成やスタイル転送など, 様々な条件で有効であることがわかった。
さらに,提案手法は,オリジナルの意味を保ちながら,著者をマスクする文書を編集することで,効果的な匿名化手法として機能することを発見した。 Prior work in style-controlled text generation has focused on tasks such as emulating the style of prolific literary authors, producing formal or informal text, and mitigating toxicity of generated text. Plentiful demonstrations of these styles are available, and as a result modern language models are often able to emulate them, either via prompting or discriminative control. However, in applications such as writing assistants, it is desirable for language models to produce text in an author-specific style on the basis of a potentially small writing sample. For example, someone writing in a particular dialect may prefer writing suggestions that retain the same dialect. We find that instruction-tuned language models can struggle to reproduce author-specific style demonstrated in a prompt. Instead, we propose to guide a language model to generate text in a target style using contrastively-trained representations that capture stylometric features. Our approach (StyleMC) combines an author-adapted language model with sequence-level inference to improve stylistic consistency, and is found to be effective in a variety of conditions, including unconditional generation and style transfer. Additionally, we find that the proposed approach can serve as an effective anonymization method, by editing a document to mask authorship while preserving the original meaning | 翻訳日:2024-03-07 00:57:09 公開日:2024-03-04 |
# FP6-LLM:FP6-Centric Algorithm-System Co-Designによる大規模言語モデルの効率的な実行 FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design ( http://arxiv.org/abs/2401.14112v2 ) ライセンス: Link先を確認 | Haojun Xia, Zhen Zheng, Xiaoxia Wu, Shiyang Chen, Zhewei Yao, Stephen Youn, Arash Bakhtiari, Michael Wyatt, Donglin Zhuang, Zhongzhu Zhou, Olatunji Ruwase, Yuxiong He, Shuaiwen Leon Song | (参考訳) 6ビット量子化(FP6)は、大規模言語モデル(LLM)のサイズを効果的に削減し、様々なアプリケーションにわたってモデル品質を一定に保つ。
しかし、既存のシステムは、FP6量子化のためのTensor Coreサポートを提供しておらず、LLM推論における実用的なパフォーマンス向上に苦慮している。
gpu上でfp6量子化をサポートするのは,(1)不規則なビット幅を持つモデル重みのメモリアクセス,(2)重み脱量子化のランタイムオーバヘッドが高いためである。
これらの問題に対処するために,様々な量子化ビット幅の浮動小数点重みを統一したTensor Coreをサポートする,最初のフルスタックGPUカーネル設計手法であるTC-FPxを提案する。
我々は,TC-FPxカーネルを既存の推論システムに統合し,量子化LSM推論のための新しいエンドツーエンドサポート(FP6-LLM)を提供する。
実験の結果、FP6-LLMは1つのGPUだけでLLaMA-70bの推論を可能にし、FP16ベースラインよりも1.69x-2.65倍高い正規化推論スループットを実現している。
ソースコードはhttps://github.com/usyd-fsalab/fp6_llmで公開されている。 Six-bit quantization (FP6) can effectively reduce the size of large language models (LLMs) and preserve the model quality consistently across varied applications. However, existing systems do not provide Tensor Core support for FP6 quantization and struggle to achieve practical performance improvements during LLM inference. It is challenging to support FP6 quantization on GPUs due to (1) unfriendly memory access of model weights with irregular bit-width and (2) high runtime overhead of weight de-quantization. To address these problems, we propose TC-FPx, the first full-stack GPU kernel design scheme with unified Tensor Core support of float-point weights for various quantization bit-width. We integrate TC-FPx kernel into an existing inference system, providing new end-to-end support (called FP6-LLM) for quantized LLM inference, where better trade-offs between inference cost and model quality are achieved. Experiments show that FP6-LLM enables the inference of LLaMA-70b using only a single GPU, achieving 1.69x-2.65x higher normalized inference throughput than the FP16 baseline. The source code is publicly available at https://github.com/usyd-fsalab/fp6_llm. | 翻訳日:2024-03-07 00:51:16 公開日:2024-03-04 |
# MRIによる皮質表面のテンプレートによる再構成のための神経変形場 Neural deformation fields for template-based reconstruction of cortical surfaces from MRI ( http://arxiv.org/abs/2401.12938v2 ) ライセンス: Link先を確認 | Fabian Bongratz, Anne-Marie Rickmann, Christian Wachinger | (参考訳) 脳皮質表面の再構成はMRI(MRI)における大脳皮質の定量的解析の前提条件である。
既存のセグメンテーションに基づく手法では、表面の登録と表面抽出を分離する。
本稿では,脳テンプレートからMRIスキャンの皮質表面への変形場を学習するディープメッシュ変形技術であるVox2Cortex-Flowを紹介する。
この目的のために、変形記述常微分方程式を連続的にモデル化する幾何ニューラルネットワークを提案する。
ネットワークアーキテクチャは畳み込み層とグラフ畳み込み層で構成されており、画像とメッシュを同時に扱うことができる。
V2C-Flowは非常に高速で、4つの皮質表面全てを推測するのに2秒もかからない。
さらに、V2C-Flowは、白質と真珠の表面を共同でモデル化し、それらの交叉を避ける最初のアプローチである。
内部および外部試験データに関する総合的な実験により、V2C-Flowは精度の点で最先端の皮質表面をもたらすことが示された。
さらに, 確立された対応はFreeSurferよりも一貫性が高く, 大脳皮質のパーセレーションや大脳皮質の厚みの集団解析に直接利用できることを示す。 The reconstruction of cortical surfaces is a prerequisite for quantitative analyses of the cerebral cortex in magnetic resonance imaging (MRI). Existing segmentation-based methods separate the surface registration from the surface extraction, which is computationally inefficient and prone to distortions. We introduce Vox2Cortex-Flow (V2C-Flow), a deep mesh-deformation technique that learns a deformation field from a brain template to the cortical surfaces of an MRI scan. To this end, we present a geometric neural network that models the deformation-describing ordinary differential equation in a continuous manner. The network architecture comprises convolutional and graph-convolutional layers, which allows it to work with images and meshes at the same time. V2C-Flow is not only very fast, requiring less than two seconds to infer all four cortical surfaces, but also establishes vertex-wise correspondences to the template during reconstruction. In addition, V2C-Flow is the first approach for cortex reconstruction that models white matter and pial surfaces jointly, therefore avoiding intersections between them. Our comprehensive experiments on internal and external test data demonstrate that V2C-Flow results in cortical surfaces that are state-of-the-art in terms of accuracy. Moreover, we show that the established correspondences are more consistent than in FreeSurfer and that they can directly be utilized for cortex parcellation and group analyses of cortical thickness. | 翻訳日:2024-03-07 00:50:00 公開日:2024-03-04 |
# incprompt: リハーサルフリークラスインクリメンタル学習のためのタスクアウェアインクリメンタルプロンプト INCPrompt: Task-Aware incremental Prompting for Rehearsal-Free Class-incremental Learning ( http://arxiv.org/abs/2401.11667v2 ) ライセンス: Link先を確認 | Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang | (参考訳) 本稿では,破滅的忘れを効果的に解決する革新的な連続学習ソリューションであるINCPromptを紹介する。
INCPromptの重要な革新は、タスク関連情報をキャプチャする適応型キーラーナーとタスク認識プロンプトを使用することである。
このユニークな組み合わせはタスク間の一般的な知識をカプセル化し、タスク固有の知識をエンコードする。
複数の連続学習ベンチマークを総合的に評価した結果,incpromptが既存のアルゴリズムよりも優れていることが示され,高い性能を維持しながら壊滅的忘れることの軽減効果が示された。
これらの結果は,タスク認識の漸進的促進が継続的な学習性能に与える影響を浮き彫りにした。 This paper introduces INCPrompt, an innovative continual learning solution that effectively addresses catastrophic forgetting. INCPrompt's key innovation lies in its use of adaptive key-learner and task-aware prompts that capture task-relevant information. This unique combination encapsulates general knowledge across tasks and encodes task-specific knowledge. Our comprehensive evaluation across multiple continual learning benchmarks demonstrates INCPrompt's superiority over existing algorithms, showing its effectiveness in mitigating catastrophic forgetting while maintaining high performance. These results highlight the significant impact of task-aware incremental prompting on continual learning performance. | 翻訳日:2024-03-07 00:48:53 公開日:2024-03-04 |
# PartIR: 機械学習のためのSPMD分割戦略の構築 PartIR: Composing SPMD Partitioning Strategies for Machine Learning ( http://arxiv.org/abs/2401.11202v3 ) ライセンス: Link先を確認 | Sami Alabed, Daniel Belov, Bart Chrzaszcz, Juliana Franco, Dominik Grewe, Dougal Maclaurin, James Molloy, Tom Natan, Tamara Norman, Xiaoyue Pan, Adam Paszke, Norman A. Rink, Michael Schaarschmidt, Timur Sitdikov, Agnieszka Swietlik, Dimitrios Vytiniotis, Joel Wee | (参考訳) 現代の大規模ニューラルネットワーク(NN)のトレーニングには、データ、モデル、オプティマイザシャーディングを含む並列化戦略の組み合わせが必要である。
戦略が複雑さを増すと、分割ツールの必要性が増す。
1) 簡潔な戦略の構成を可能にする表現的,及び
2) 性能を解析的に推定できる。
我々は,nnパーティショニングシステムの設計であるpartirを提案する。
PartIRは書き直しに対する漸進的なアプローチに重点を置いており、ハードウェアとランタイムに依存しない。
シャーディング戦略を構成するためのシンプルだが強力なAPIと,それらを検証するためのシミュレータを提示する。
このプロセスは、手動と自動の両方が可能なハイレベルなプログラマ発行のパーティショニング戦略によって駆動される。
重要なことに、戦術はモデルコードとは別々に指定され、変更が容易になります。
我々は,その予測可能性,表現性,ピーク性能に達する能力を示すため,複数のモデルでpartirを評価した。
. Training of modern large neural networks (NN) requires a combination of parallelization strategies encompassing data, model, or optimizer sharding. When strategies increase in complexity, it becomes necessary for partitioning tools to be 1) expressive, allowing the composition of simpler strategies, and 2) predictable to estimate performance analytically. We present PartIR, our design for a NN partitioning system. PartIR is focused on an incremental approach to rewriting and is hardware-and-runtime agnostic. We present a simple but powerful API for composing sharding strategies and a simulator to validate them. The process is driven by high-level programmer-issued partitioning tactics, which can be both manual and automatic. Importantly, the tactics are specified separately from the model code, making them easy to change. We evaluate PartIR on several different models to demonstrate its predictability, expressibility, and ability to reach peak performance.. | 翻訳日:2024-03-07 00:48:42 公開日:2024-03-04 |
# 風を吹いて風を吹く:言語モデルの編集が与える影響 Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models ( http://arxiv.org/abs/2401.10647v2 ) ライセンス: Link先を確認 | Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria | (参考訳) 急速に進歩する人工知能の分野では、red-teaming や jailbreaking large language models (llms) の概念が重要な研究分野として浮上している。
このアプローチは、これらのモデルの安全性と堅牢性の評価と強化において特に重要である。
本稿では,モデル編集による修正の複雑な結果について検討し,モデル精度の向上と倫理的整合性維持の複雑な関係を明らかにする。
正確な情報を注入することはモデルの信頼性に不可欠であるが、モデルの基礎的なフレームワークをパラドックス的に不安定化し、予測不可能で潜在的に安全でない振る舞いをもたらす。
さらに、この安全でない振る舞いを同一領域と横断領域の両方で調査するベンチマークデータセットNicheHazardQAを提案する。
私たちの研究のこの側面は、モデルの安全性指標やガードレールにどのように影響するかに光を当てています。
この結果から,対象の編集を体系的に適用し,結果のモデル行動を評価することで,モデル編集がトピックのリピートに有効なツールであることが示唆された。 In the rapidly advancing field of artificial intelligence, the concept of Red-Teaming or Jailbreaking large language models (LLMs) has emerged as a crucial area of study. This approach is especially significant in terms of assessing and enhancing the safety and robustness of these models. This paper investigates the intricate consequences of such modifications through model editing, uncovering a complex relationship between enhancing model accuracy and preserving its ethical integrity. Our in-depth analysis reveals a striking paradox: while injecting accurate information is crucial for model reliability, it can paradoxically destabilize the model's foundational framework, resulting in unpredictable and potentially unsafe behaviors. Additionally, we propose a benchmark dataset NicheHazardQA to investigate this unsafe behavior both within the same and cross topical domain. This aspect of our research sheds light on how the edits, impact the model's safety metrics and guardrails. Our findings show that model editing serves as a cost-effective tool for topical red-teaming by methodically applying targeted edits and evaluating the resultant model behavior. | 翻訳日:2024-03-07 00:48:29 公開日:2024-03-04 |
# 光学的ツイーザにおけるアルカリ-地球原子の長寿命円環 Long-Lived Circular Rydberg Qubits of Alkaline-Earth Atoms in Optical Tweezers ( http://arxiv.org/abs/2401.10625v2 ) ライセンス: Link先を確認 | Christian H\"olzl, Aaron G\"otzelmann, Einius Pultinevicius, Moritz Wirth, Florian Meinert | (参考訳) rydberg原子の量子シミュレータとコンピュータにおけるコヒーレンス時間とゲートフィダリティは、rydberg状態の寿命によって基本的に制限される。
円のリドベルク状態は、最大角運動量のために減衰から効果的に保護できるため、この制限を桁違いに克服する非常に有望な候補である。
光トワイザーに閉じ込められたアルカリ-地球円形リドベルグ原子を初めて実現し,光学活性型イオンコアによる新規な制御可能性を示した。
具体的には、非常に高い n$ (n=79$) の円状状態 ($^{88}$sr) の生成を示す。
我々は室温で2.55msの寿命を計測し、空洞支援による黒体放射の抑制によって達成される。
近傍多様体の円状に符号化されたマイクロ波量子ビットのコヒーレント制御を示し、ラムゼーおよびスピンエコー分光法を用いてコヒーレンス時間を特徴付ける。
最後に、Sr$^+$コア偏光率を利用した円状状態ツイーザトラップを、量子ビット上のトラップ誘起光シフトの測定により定量化する。
我々の研究は、2価原子の円リドベルグ状態を持つ量子シミュレーションの経路を開き、光学活性核イオンに関連する創発的ツールボックスを利用する。 Coherence time and gate fidelities in Rydberg atom quantum simulators and computers are fundamentally limited by the Rydberg state lifetime. Circular Rydberg states are highly promising candidates to overcome this limitation by orders of magnitude, as they can be effectively protected from decay due to their maximum angular momentum. We report the first realization of alkaline-earth circular Rydberg atoms trapped in optical tweezers, which provide unique and novel control possibilities due to the optically active ionic core. Specifically, we demonstrate creation of very high-$n$ ($n=79$) circular states of $^{88}$Sr. We measure lifetimes as long as 2.55 ms at room temperature, which are achieved via cavity-assisted suppression of black-body radiation. We show coherent control of a microwave qubit encoded in circular states of nearby manifolds, and characterize the qubit coherence time via Ramsey and spin-echo spectroscopy. Finally, circular state tweezer trapping exploiting the Sr$^+$ core polarizability is quantified via measurements of the trap-induced light shift on the qubit. Our work opens routes for quantum simulations with circular Rydberg states of divalent atoms, exploiting the emergent toolbox associated with the optically active core ion. | 翻訳日:2024-03-07 00:48:10 公開日:2024-03-04 |
# スウィング:より高帯域対応のショートカットリング Swing: Short-cutting Rings for Higher Bandwidth Allreduce ( http://arxiv.org/abs/2401.09356v2 ) ライセンス: Link先を確認 | Daniele De Sensi and Tommaso Bonato and David Saam and Torsten Hoefler | (参考訳) allreduceの集団運用は、分散システム上で動作するワークロードのランタイムのかなりの部分を占めている。
その性能を決定する要因の1つは、通信ノード間の距離であり、特にトーラスのようなネットワークでは、高い距離は同一リンク上で複数のメッセージが転送されることを意味する。
トーラスネットワークは機械学習ワークロード(Google TPUやAmazon Trainiumデバイスなど)に最適化されたシステムや、Top500スーパーコンピュータで広く利用されている。
トーラスネットワーク上でのアレーダ性能を改善するために,トーラス方向を切り替えることで通信ノード間距離を低く抑える新しいアルゴリズムSwingを導入する。
解析および実験により,swingは32bから128mibまでのベクトルに対する最大3倍のallreduceアルゴリズムで,その形状や大きさに関わらず,トーラスやトーラスのような位相に勝ることを示した。 The allreduce collective operation accounts for a significant fraction of the runtime of workloads running on distributed systems. One factor determining its performance is the distance between communicating nodes, especially on networks like torus, where a higher distance implies multiple messages being forwarded on the same link, thus reducing the allreduce bandwidth. Torus networks are widely used on systems optimized for machine learning workloads (e.g., Google TPUs and Amazon Trainium devices), as well as on some of the Top500 supercomputers. To improve allreduce performance on torus networks we introduce Swing, a new algorithm that keeps a low distance between communicating nodes by swinging between torus directions. Our analysis and experimental evaluation show that Swing outperforms by up to 3x existing allreduce algorithms for vectors ranging from 32B to 128MiB, on different types of torus and torus-like topologies, regardless of their shape and size. | 翻訳日:2024-03-07 00:47:50 公開日:2024-03-04 |
# audio flamingo: 数少ない学習と対話能力を備えた新しい音声言語モデル Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities ( http://arxiv.org/abs/2402.01831v2 ) ライセンス: Link先を確認 | Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro | (参考訳) LLMの多様な実世界の応用には、音声(非音声音声や非言語音声など)を理解するための大きな言語モデル(LLM)の強化が重要である。
本稿では,新しい音声言語モデルであるAudio Flamingoを提案する。
1)音声理解能力の強いこと。
2【文脈内学習・検索による未認識のタスクに迅速に適応する能力】
3) 強いマルチターン対話能力。
これらの能力でモデルを強化するために、一連のトレーニングテクニック、アーキテクチャ設計、データ戦略を導入します。
様々な音声理解タスクの広範囲な評価により,本手法の有効性を確認し,新たな最先端ベンチマークを設定した。
当社のデモwebサイトは、下記のとおりです。 Augmenting large language models (LLMs) to understand audio -- including non-speech sounds and non-verbal speech -- is critically important for diverse real-world applications of LLMs. In this paper, we propose Audio Flamingo, a novel audio language model with 1) strong audio understanding abilities, 2) the ability to quickly adapt to unseen tasks via in-context learning and retrieval, and 3) strong multi-turn dialogue abilities. We introduce a series of training techniques, architecture design, and data strategies to enhance our model with these abilities. Extensive evaluations across various audio understanding tasks confirm the efficacy of our method, setting new state-of-the-art benchmarks. Our demo website is: \url{https://audioflamingo.github.io/}. | 翻訳日:2024-03-07 00:41:34 公開日:2024-03-04 |
# サイド情報を用いたゼロエラー関数計算における量子アドバンテージ Quantum advantage in zero-error function computation with side information ( http://arxiv.org/abs/2402.01549v2 ) ライセンス: Link先を確認 | Ruoyu Meng and Aditya Ramamoorthy | (参考訳) サイド情報を用いたゼロエラー関数計算の問題を考える。
Alice はソース $X$ を持ち、Bob はソース $Y$ と相関しており、古典的または量子的チャネルを介して通信することができる。
Bobはゼロエラーで$f(X,Y)$を計算したい。
我々は、アリスがボブに送らなければならない最小限の情報量をゼロエラーで特徴付けることを目指している。
古典的な設定では、この量は、適切に定義された$m$-instance "confusion graph" の彩色数である$\chi(g^{(m)})$の漸近的な成長に依存する。
本稿では、$G^{(m)}$の構造的特徴を示し、同一の単一インスタンス混同グラフを持つ2つの関数計算シナリオを示す。
しかし、あるケースでは量子伝送を古典的伝送に対して使用するという厳格な利点があるが、もう一方の場合ではそのような利点はない。 We consider the problem of zero-error function computation with side information. Alice has a source $X$ and Bob has correlated source $Y$ and they can communicate via either classical or a quantum channel. Bob wants to calculate $f(X,Y)$ with zero error. We aim to characterize the minimum amount of information that Alice needs to send to Bob for this to happen with zero-error. In the classical setting, this quantity depends on the asymptotic growth of $\chi(G^{(m)})$, the chromatic number of an appropriately defined $m$-instance "confusion graph". In this work we present structural characterizations of $G^{(m)}$ and demonstrate two function computation scenarios that have the same single-instance confusion graph. However, in one case there a strict advantage in using quantum transmission as against classical transmission, whereas there is no such advantage in the other case. | 翻訳日:2024-03-07 00:40:45 公開日:2024-03-04 |
# 正の人工知能の設計法の開発と評価 Developing and Evaluating a Design Method for Positive Artificial Intelligence ( http://arxiv.org/abs/2402.01499v2 ) ライセンス: Link先を確認 | Willem van der Maden, Derek Lomas, Paul Hekkert | (参考訳) ai(artificial intelligence, 人工知能)が進歩を続けるにつれ、ポジティブな社会的影響の確保が重要になる。
しかし、「善のためのAI」の開発は、複雑な人間の価値とシステムの整合性に重大な課題をもたらす。
現在、これらの課題に取り組むための成熟した方法が欠けている。
本稿では,このギャップに対処するPositive AI設計手法を提示し,評価する。
この方法は、幸福な願望を具体的な実践に翻訳する人間中心のプロセスを提供する。
まず,フィードバックサイクルの連続計測によって支援されるウェルビーイングのコンテキスト化,運用,最適化,実装という4つのステップについて説明する。
次に,初心者設計者がこの手法を適用し,有効性とユーザビリティに関連する強みと弱みを明らかにする複数のケーススタディを行った。
次に、専門家評価研究は、得られた概念の質を評価し、それを適度に高く評価し、実現可能性、望ましさ、そして、意図した幸福の利益を達成するための妥当性を評価した。
これらの研究は、AI設計を改善する方法の能力の予備的検証を提供するとともに、複雑なステップのサポートの開発のような改善が必要な領域を提示する。
例や評価ヒューリスティックのような提案された適応は弱点に対処できる。
さらなる研究は、複数のプロジェクトに対する持続的な適用を検討するべきである。
この人間中心のアプローチは、害を避けるだけでなく、積極的に人類に利益をもたらす「幸福のためのAI」のビジョンを実現することを約束している。 As artificial intelligence (AI) continues advancing, ensuring positive societal impacts becomes critical, especially as AI systems become increasingly ubiquitous in various aspects of life. However, developing "AI for good" poses substantial challenges around aligning systems with complex human values. Presently, we lack mature methods for addressing these challenges. This article presents and evaluates the Positive AI design method aimed at addressing this gap. The method provides a human-centered process to translate wellbeing aspirations into concrete practices. First, we explain the method's four key steps: contextualizing, operationalizing, optimizing, and implementing wellbeing supported by continuous measurement for feedback cycles. We then present a multiple case study where novice designers applied the method, revealing strengths and weaknesses related to efficacy and usability. Next, an expert evaluation study assessed the quality of the resulting concepts, rating them moderately high for feasibility, desirability, and plausibility of achieving intended wellbeing benefits. Together, these studies provide preliminary validation of the method's ability to improve AI design, while surfacing areas needing refinement like developing support for complex steps. Proposed adaptations such as examples and evaluation heuristics could address weaknesses. Further research should examine sustained application over multiple projects. This human-centered approach shows promise for realizing the vision of 'AI for Wellbeing' that does not just avoid harm, but actively benefits humanity. | 翻訳日:2024-03-07 00:40:30 公開日:2024-03-04 |
# SmartCooper: アダプティブフュージョンと判断機構を備えた垂直協調知覚 SmartCooper: Vehicular Collaborative Perception with Adaptive Fusion and Judger Mechanism ( http://arxiv.org/abs/2402.00321v3 ) ライセンス: Link先を確認 | Yuang Zhang, Haonan An, Zhengru Fang, Guowen Xu, Yuan Zhou, Xianhao Chen and Yuguang Fang | (参考訳) 近年,コネクテッド・アンド・コネクテッド・オートモーティブ・ビークル(cav)の協調認識による道路安全性向上の可能性から,自動運転が注目されている。
しかしながら、車両の伝送環境における時間変動は、通信資源の動的割り当てを要求する。
さらに、協調知覚の文脈では、すべてのCAVが価値あるデータに貢献しているわけではなく、一部のCAVデータが協調知覚に有害な影響を与えることを認識することが重要である。
本稿では,CAVデータ融合を促進するための通信最適化と判断機構を組み込んだ適応型協調認識フレームワークであるSmartCooperを紹介する。
我々のアプローチは、通信制約を考慮しながら車両の接続を最適化することから始まる。
次に、学習可能なエンコーダを訓練し、チャネル状態情報(CSI)に基づいて圧縮率を動的に調整する。
その後、適応デコーダによって再構成された有害画像データをフィルタリングする判定機構を考案する。
提案アルゴリズムの有効性をOpenCOODプラットフォーム上で評価する。
その結果,非ジュッジャー方式に比べて通信コストが23.10倍に大幅に削減された。
さらに、最先端のスキームと比較して、結合(ap@iou)上の交点の平均精度が7.15\%向上した。 In recent years, autonomous driving has garnered significant attention due to its potential for improving road safety through collaborative perception among connected and autonomous vehicles (CAVs). However, time-varying channel variations in vehicular transmission environments demand dynamic allocation of communication resources. Moreover, in the context of collaborative perception, it is important to recognize that not all CAVs contribute valuable data, and some CAV data even have detrimental effects on collaborative perception. In this paper, we introduce SmartCooper, an adaptive collaborative perception framework that incorporates communication optimization and a judger mechanism to facilitate CAV data fusion. Our approach begins with optimizing the connectivity of vehicles while considering communication constraints. We then train a learnable encoder to dynamically adjust the compression ratio based on the channel state information (CSI). Subsequently, we devise a judger mechanism to filter the detrimental image data reconstructed by adaptive decoders. We evaluate the effectiveness of our proposed algorithm on the OpenCOOD platform. Our results demonstrate a substantial reduction in communication costs by 23.10\% compared to the non-judger scheme. Additionally, we achieve a significant improvement on the average precision of Intersection over Union (AP@IoU) by 7.15\% compared with state-of-the-art schemes. | 翻訳日:2024-03-07 00:39:08 公開日:2024-03-04 |
# 大規模言語モデルのプロンプト駆動型保護について On Prompt-Driven Safeguarding for Large Language Models ( http://arxiv.org/abs/2401.18018v2 ) ライセンス: Link先を確認 | Chujie Zheng, Fan Yin, Hao Zhou, Fandong Meng, Jie Zhou, Kai-Wei Chang, Minlie Huang, Nanyun Peng | (参考訳) 安全プロンプトによるモデル入力の待機は、有害なインテントを含むクエリに準拠しない大規模言語モデル(llm)を保護する一般的なプラクティスである。
しかし, 安全プロンプトの動作機構はまだ明らかになっていないため, LLMの安全性向上のために自動最適化を行う可能性を妨げている。
そこで本研究では,安全対策の効果をモデル表現の観点から検討する。
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
代わりに、クエリの表現は安全プロンプトによって同じ方向に移動され、クエリが無害である場合でもモデルが拒否しやすくなる(つまり、アシストを拒否する)。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
安全性プロンプトを連続的でトレーニング可能な埋め込みとして扱い、モデルの拒絶確率が増加する方向に沿って有害/ハームレスクエリの表現を移動させる。
ドメイン外のベンチマークで8つのLDMを用いた実験により、DROは人間の安全プロンプトの保護性能を著しく向上し、一般的なモデル能力を損なうことなく、強力なベースラインを上回っていることが示された。 Prepending model inputs with safety prompts is a common practice for safeguarding large language models (LLMs) from complying with queries that contain harmful intents. However, the working mechanisms of safety prompts have not been revealed yet, which hinders the potential for automatically optimizing them to improve LLM safety. To this end, we investigate the impact of safety prompts from the perspective of model representations. We find that in models' representation space, harmful and harmless queries can be largely distinguished, but this is not noticeably enhanced by safety prompts. Instead, the queries' representations are moved by safety prompts in similar directions where models become more prone to refusal (i.e., refusing to provide assistance) even when the queries are harmless. Inspired by these findings, we propose a method called DRO (Directed Representation Optimization) for automatic safety prompt optimization. It treats safety prompts as continuous, trainable embeddings and learns to move the representations of harmful/harmless queries along/opposite the direction in which the model's refusal probability increases. Experiments with eight LLMs on out-of-domain benchmarks demonstrate that DRO remarkably improves the safeguarding performance of human-crafted safety prompts and outperforms strong baselines, without compromising the general model capability. | 翻訳日:2024-03-07 00:38:51 公開日:2024-03-04 |
# 大規模モデル時代のデータ拡張に関する調査 A Survey on Data Augmentation in Large Model Era ( http://arxiv.org/abs/2401.15422v2 ) ライセンス: Link先を確認 | Yue Zhou, Chenlu Guo, Xu Wang, Yi Chang, and Yuan Wu | (参考訳) 大きな言語と拡散モデルを含む大きなモデルは、人間のレベルの知性を近似する上で非常に有望であり、学術分野と産業分野の両方から大きな関心を集めている。
しかし、これらの大規模モデルのトレーニングは大量の高品質なデータを必要とし、これらのモデルへの継続的な更新により、既存の高品質なデータの貯蓄はすぐに枯渇する可能性がある。
この課題は、データ拡張手法に焦点をあてた研究の急増を引き起こした。
大規模モデルを活用することで、これらのデータ拡張技術は従来のアプローチを上回っている。
本稿では,大規模モデル駆動型データ拡張手法について,包括的視点で概観する。
まず,関連研究の分類を,画像強調,テキスト増補,ペア化データ増補の3つのカテゴリに分類することから始める。
続いて,大規模モデルに基づくデータ拡張に関連する各種データ後処理手法について検討した。
この議論は、自然言語処理、コンピュータビジョン、音声信号処理におけるこれらのデータ拡張手法のアプリケーション群を包含する範囲に拡大する。
さまざまなシナリオにわたる大規模モデルベースのデータ拡張の成功と限界を評価する。
レビューをまとめると、データ拡張分野における将来の探索に向けた今後の課題と道筋を強調する。
我々の目標は、研究者に重要な洞察を与え、最終的にはより洗練された大型モデルの進歩に寄与することである。
https://github.com/MLGroup-JLU/LLM-data-aug-survey。 Large models, encompassing large language and diffusion models, have shown exceptional promise in approximating human-level intelligence, garnering significant interest from both academic and industrial spheres. However, the training of these large models necessitates vast quantities of high-quality data, and with continuous updates to these models, the existing reservoir of high-quality data may soon be depleted. This challenge has catalyzed a surge in research focused on data augmentation methods. Leveraging large models, these data augmentation techniques have outperformed traditional approaches. This paper offers an exhaustive review of large model-driven data augmentation methods, adopting a comprehensive perspective. We begin by establishing a classification of relevant studies into three main categories: image augmentation, text augmentation, and paired data augmentation. Following this, we delve into various data post-processing techniques pertinent to large model-based data augmentation. Our discussion then expands to encompass the array of applications for these data augmentation methods within natural language processing, computer vision, and audio signal processing. We proceed to evaluate the successes and limitations of large model-based data augmentation across different scenarios. Concluding our review, we highlight prospective challenges and avenues for future exploration in the field of data augmentation. Our objective is to furnish researchers with critical insights, ultimately contributing to the advancement of more sophisticated large models. We consistently maintain the related open-source materials at: https://github.com/MLGroup-JLU/LLM-data-aug-survey. | 翻訳日:2024-03-07 00:36:52 公開日:2024-03-04 |
# 汎用マルチモーダル推論におけるニューラルネットワークの一般化能力について On the generalization capacity of neural networks during generic multimodal reasoning ( http://arxiv.org/abs/2401.15030v2 ) ライセンス: Link先を確認 | Takuya Ito, Soham Dan, Mattia Rigotti, James Kozloski, Murray Campbell | (参考訳) Transformerの出現は、人間のような能力を実証する大規模言語モデル(LLM)の開発につながった。
マルチモーダル・ドメインに対するこのモデルの一般化と、他の様々なベース・ニューラルネットワーク・アーキテクチャを評価するために、マルチモーダル・ジェネライゼーションの能力を評価し比較した。
そこで,本研究では,od(out-of-distribution)一般化性能を評価するためのマルチモーダル・クエスチョン・アンワー・ベンチマーク(multimodal question-answer benchmark)を提案する。
モデルアーキテクチャ(例えば、rnn、transformers、perceiversなど)、複数の注目層を持つモデル、あるいは入力ドメイン間の相互接続メカニズムを活用したモデルの方が優れていることが分かりました。
我々の肯定的な結果は、マルチモーダルインプットを統合する上で必要となる重要なアーキテクチャ的特徴として、マルチモーダルインプットと系統的一般化があることを示す。
一方、これらのアーキテクチャの特徴はいずれも生産的な一般化につながらず、特定の種類のマルチモーダル一般化に対する既存のアーキテクチャの基本的限界を示唆している。
これらの結果は、マルチモーダル推論のための現代のニューラルモデルの基礎となる特定のアーキテクチャコンポーネントの強みと限界を示している。
最後に、将来の研究のために、複数のマルチモーダル一般化スプリットを備えた構成可能なベンチマークであるジェネリックcog(gcog)を提供する。 The advent of the Transformer has led to the development of large language models (LLM), which appear to demonstrate human-like capabilities. To assess the generality of this class of models and a variety of other base neural network architectures to multimodal domains, we evaluated and compared their capacity for multimodal generalization. We introduce a multimodal question-answer benchmark to evaluate three specific types of out-of-distribution (OOD) generalization performance: distractor generalization (generalization in the presence of distractors), systematic compositional generalization (generalization to new task permutations), and productive compositional generalization (generalization to more complex tasks structures). We found that across model architectures (e.g., RNNs, Transformers, Perceivers, etc.), models with multiple attention layers, or models that leveraged cross-attention mechanisms between input domains, fared better. Our positive results demonstrate that for multimodal distractor and systematic generalization, either cross-modal attention or models with deeper attention layers are key architectural features required to integrate multimodal inputs. On the other hand, neither of these architectural features led to productive generalization, suggesting fundamental limitations of existing architectures for specific types of multimodal generalization. These results demonstrate the strengths and limitations of specific architectural components underlying modern neural models for multimodal reasoning. Finally, we provide Generic COG (gCOG), a configurable benchmark with several multimodal generalization splits, for future studies to explore. | 翻訳日:2024-03-07 00:36:28 公開日:2024-03-04 |
# SALAD-Bench: 大規模言語モデルの階層的で総合的な安全性ベンチマーク SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models ( http://arxiv.org/abs/2402.05044v3 ) ライセンス: Link先を確認 | Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao | (参考訳) 大規模言語モデル(LLM)の急速な発展の中で、堅牢な安全性確保が最重要である。
この重要なニーズを満たすために, LLM, 攻撃, 防御方法の評価に特化して設計された安全ベンチマークである \emph{SALAD-Bench} を提案する。
SALAD-Benchは、その規模、多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて従来のベンチマークを超越し、標準的なクエリから、攻撃、防御修正、多重選択に富んだ複雑なものまで、厳密な質問によって構築されている。
そこで本研究では,QA 対に対する LLM ベースの MD-Judge という,攻撃強化クエリに特化して,シームレスで信頼性の高い評価を実現する,革新的な評価手法を提案する。
SALAD-Bench を標準 LLM の安全性評価から LLM 攻撃および防御手法評価まで拡張し、共同用途の実用性を確保する。
我々の広範な実験は、新興脅威に対するLLMの弾力性と、現代の防衛戦術の有効性に光を当てた。
データと評価はhttps://github.com/OpenSafetyLab/SALAD-BENCHで公開されている。 In the rapidly evolving landscape of Large Language Models (LLMs), ensuring robust safety measures is paramount. To meet this crucial need, we propose \emph{SALAD-Bench}, a safety benchmark specifically designed for evaluating LLMs, attack, and defense methods. Distinguished by its breadth, SALAD-Bench transcends conventional benchmarks through its large scale, rich diversity, intricate taxonomy spanning three levels, and versatile functionalities.SALAD-Bench is crafted with a meticulous array of questions, from standard queries to complex ones enriched with attack, defense modifications and multiple-choice. To effectively manage the inherent complexity, we introduce an innovative evaluators: the LLM-based MD-Judge for QA pairs with a particular focus on attack-enhanced queries, ensuring a seamless, and reliable evaluation. Above components extend SALAD-Bench from standard LLM safety evaluation to both LLM attack and defense methods evaluation, ensuring the joint-purpose utility. Our extensive experiments shed light on the resilience of LLMs against emerging threats and the efficacy of contemporary defense tactics. Data and evaluator are released under https://github.com/OpenSafetyLab/SALAD-BENCH. | 翻訳日:2024-03-07 00:31:31 公開日:2024-03-04 |
# 必要なものは2発か?
乳房超音波画像分割におけるラベル効率の検討 Is Two-shot All You Need? A Label-efficient Approach for Video Segmentation in Breast Ultrasound ( http://arxiv.org/abs/2402.04921v2 ) ライセンス: Link先を確認 | Jiajun Zeng, Dong Ni, Ruobing Huang | (参考訳) 乳房超音波(bus)ビデオからの乳腺病変分画は早期診断と治療に有用であった。
既存のビデオオブジェクトセグメンテーション(VOS)メソッドは、しばしば医学的なデータセットにはアクセスできない高密度アノテーションを必要とする。
さらに、累積的なエラーと明確な時空認識の欠如に苦しむ。
本研究では,BUSビデオセグメンテーションのための新しい2ショットトレーニングパラダイムを提案する。
自由範囲の時空一貫性をキャプチャできるだけでなく、ソース依存の強化スキームも利用できる。
このラベル効率のよい学習フレームワークは、難しい社内のバスビデオデータセット上で検証される。
その結果、トレーニングラベルが1.9%しか与えられていないものに比べてパフォーマンスが向上した。 Breast lesion segmentation from breast ultrasound (BUS) videos could assist in early diagnosis and treatment. Existing video object segmentation (VOS) methods usually require dense annotation, which is often inaccessible for medical datasets. Furthermore, they suffer from accumulative errors and a lack of explicit space-time awareness. In this work, we propose a novel two-shot training paradigm for BUS video segmentation. It not only is able to capture free-range space-time consistency but also utilizes a source-dependent augmentation scheme. This label-efficient learning framework is validated on a challenging in-house BUS video dataset. Results showed that it gained comparable performance to the fully annotated ones given only 1.9% training labels. | 翻訳日:2024-03-07 00:31:05 公開日:2024-03-04 |
# 適応的勾配法で正方形ルートを除去できるか?
2次展望 Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective ( http://arxiv.org/abs/2402.03496v3 ) ライセンス: Link先を確認 | Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani | (参考訳) adam(w)のような適応勾配最適化は、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。
彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。
これらの方法はしばしば近似二階法として動機づけられるが、平方根は基本的な差を表す。
本研究では,根を取り除くと適応的手法の挙動がどう変化するか,すなわち2次動機づけの強化について検討する。
驚くべきことに、このような二乗根なし適応法は畳み込みアーキテクチャの一般化ギャップをsgdに縮めつつ、トランスフォーマー上でのルートベースの対応式の性能を維持している。
二階視点は、非対角プレコンディショナーを用いた適応法の開発にも実用的な利点がある。
shampooのようなルートベースとは対照的に、数値的に不安定な行列平方根は必要とせず、低精度でうまく機能する。
これは、現在見過ごされている適応性の役割が適応的手法の成功に与えられているかという重要な疑問を提起する。 Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e. strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for the development of adaptive methods with non-diagonal preconditioner. In contrast to root-based counterparts like Shampoo, they do not require numerically unstable matrix square roots and therefore work well in low precision, which we demonstrate empirically. This raises important questions regarding the currently overlooked role of adaptivity for the success of adaptive methods since the success is often attributed to sign descent induced by the root. | 翻訳日:2024-03-07 00:29:57 公開日:2024-03-04 |
# uehlingポテンシャルの微分方程式 Differential equation for the Uehling potential ( http://arxiv.org/abs/2402.03360v5 ) ライセンス: Link先を確認 | Alexei M. Frolov | (参考訳) uehlingポテンシャルの2階微分方程式は明示的に導出される。
この微分方程式の右辺は、2つのマクドナルド函数の線型結合で、$K_{0}(b r)$と$K_{1}(b r)$である。
この中心ポテンシャルは、数電子および多電子原子、イオン、ムロン原子、バイムロン原子/イオンおよび他の類似系における真空分極の最低次補正を記述するため、多くのqed問題に大きな関心を寄せている。 The second-order differential equation for the Uehling potential is derived explicitly. The right side of this differential equation is a linear combination of the two Macdonald's functions $K_{0}(b r)$ and $K_{1}(b r)$. This central potential is of great interest in many QED problems, since it describes the lowest-order correction for vacuum polarization in few- and many-electron atoms, ions, muonic and bi-muonic atoms/ions as well as in other similar systems. | 翻訳日:2024-03-07 00:29:38 公開日:2024-03-04 |
# NLIに基づくゼロショット感情分類のための英語のプロンプト English Prompts are Better for NLI-based Zero-Shot Emotion Classification than Target-Language Prompts ( http://arxiv.org/abs/2402.03223v2 ) ライセンス: Link先を確認 | Patrick Barrei{\ss} and Roman Klinger and Jeremy Barnes | (参考訳) テキストにおける感情分類は、テキスト刺激を解釈するために必要とされる認知的推論プロセスが関与しているため、困難で主観的な課題である。
加えて、感情カテゴリのセットは非常にドメイン固有です。
例えば、文学分析は美的感情(例えば、美しいものを見つけるなど)を使う必要があり、ソーシャルメディア分析は、基本的な感情カテゴリーとは対照的に、きめ細かいセット(例えば、怒りと不快さを分離する)の恩恵を受ける。
これによりタスクはゼロショット分類の興味深いフィールドとなり、モデル開発時にラベルセットが知られていない。
残念なことに、感情分析のほとんどのリソースは英語であり、それゆえ、感情分析のほとんどの研究は、テキストラベルの言語モデルを促進することを含む、英語で行われている。
どちらの言語で、非英語のテキストに感情ラベルを付けるべきか?
英語以外のデータでも、英語プロンプト付きのラベルをリクエストできるため、多言語大言語モデルにアクセスできる場合、これは特に興味深いことです。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。 Emotion classification in text is a challenging and subjective task, due to the involved cognitive inference processes that are required to interpret a textual stimulus. In addition, the set of emotion categories is highly domain-specific. For instance, literature analysis might require the use of aesthetic emotions (e.g., finding something beautiful), and social media analysis could benefit from fine-grained sets (e.g., separating anger from annoyance) in contrast to basic emotion categories. This renders the task an interesting field for zero-shot classifications, in which the label set is not known at model development time. Unfortunately, most resources for emotion analysis are English, and therefore, most studies on emotion analysis have been performed in English, including those that involve prompting language models for text labels. This leaves us with a research gap that we address in this paper: In which language should we prompt for emotion labels on non-English texts? This is particularly of interest when we have access to a multilingual large language model, because we could request labels with English prompts even for non-English data. Our experiments with natural language inference-based language models show that it is consistently better to use English prompts even if the data is in a different language. | 翻訳日:2024-03-07 00:29:29 公開日:2024-03-04 |
# Toon Aging: アーティストのポートレートスタイルの転送で顔の再老化 ToonAging: Face Re-Aging upon Artistic Portrait Style Transfer ( http://arxiv.org/abs/2402.02733v2 ) ライセンス: Link先を確認 | Bumsoo Kim, Abdul Muqeet, Kyuchul Lee, Sanghyun Seo | (参考訳) 顔の再描画はコンピュータビジョンとグラフィックスにおいて顕著な分野であり、映画、広告、ライブストリーミングといったフォトリアリスティックな領域で重要な応用がある。
近年,漫画やイラスト,アニメーションといったノンフォトリアリスティックなイメージに顔のリエイジを適用する必要性が,様々なエンターテイメント分野の延長として現れている。
しかし、NPR画像上の見かけの年齢をシームレスに編集できるネットワークが存在しないことは、これらのタスクが素直なアプローチに制限され、各タスクを順次適用することを意味している。
これはしばしば不快なアーティファクトとドメイン間の不一致による顔属性の喪失をもたらす。
本稿では,1つの生成ステップで顔再老化とポートレート・スタイル・トランスファーを組み合わせた,新しい一段階顔再老化手法を提案する。
同じPRドメイン内でトレーニングされた既存の顔のリエイジとスタイル転送ネットワークを活用します。
本手法は異なる潜伏ベクトルを特異的に融合し,老化関連属性の管理とnprの出現を管理する。
従来型のアプローチを採用することで,ドメインレベルの微調整アプローチよりも柔軟性が向上する。
これは、再使用のためのペアデータセットと、スタイリングのためのドメインレベルのデータ駆動アプローチの制限に効果的に対処する。
実験の結果,本モデルはサンプルのスタイルを伝達しながら,自然外観と制御性の両方を保ちながら,無作為に再生画像を生成することができることがわかった。 Face re-aging is a prominent field in computer vision and graphics, with significant applications in photorealistic domains such as movies, advertising, and live streaming. Recently, the need to apply face re-aging to non-photorealistic images, like comics, illustrations, and animations, has emerged as an extension in various entertainment sectors. However, the absence of a network capable of seamlessly editing the apparent age on NPR images means that these tasks have been confined to a naive approach, applying each task sequentially. This often results in unpleasant artifacts and a loss of facial attributes due to domain discrepancies. In this paper, we introduce a novel one-stage method for face re-aging combined with portrait style transfer, executed in a single generative step. We leverage existing face re-aging and style transfer networks, both trained within the same PR domain. Our method uniquely fuses distinct latent vectors, each responsible for managing aging-related attributes and NPR appearance. Adopting an exemplar-based approach, our method offers greater flexibility than domain-level fine-tuning approaches, which typically require separate training or fine-tuning for each domain. This effectively addresses the limitation of requiring paired datasets for re-aging and domain-level, data-driven approaches for stylization. Our experiments show that our model can effortlessly generate re-aged images while simultaneously transferring the style of examples, maintaining both natural appearance and controllability. | 翻訳日:2024-03-07 00:28:50 公開日:2024-03-04 |
# LQER:LLMの低域量子化誤差再構成 LQER: Low-Rank Quantization Error Reconstruction for LLMs ( http://arxiv.org/abs/2402.02446v2 ) ライセンス: Link先を確認 | Cheng Zhang, Jianyi Cheng, George A. Constantinides, and Yiren Zhao | (参考訳) 大規模言語モデル(LLM)の学習後の量子化は困難である。
本稿では,量子化と低ランク近似を組み合わせたLQER(Low-rank Quantization Error Reduction)を導入する。
lqerは、アクティベーション誘起スケールマトリックスを利用して、量子化誤差の特異値分布を望ましい分布に向けて推進し、知識蒸留、グリッド探索、勾配ベース反復最適化を必要とせず、様々なllmおよび下流タスクでほぼ損失のないw4a8量子化を可能にする。
既存の方法とは異なり、LQERの計算パターンは、不規則なメモリ位置から高精度な重みを収集する特別なScatterおよびGatherプロセスを必要としない。
我々のW4A8 LLMは6つの人気下流タスクでほぼ無作為なパフォーマンスを実現し、一方1.36$\times$のハードウェアリソースは最先端の最先端手法よりも少ない。
論文が受け入れられたら、フレームワークをオープンソースにします。 Post-training quantization of Large Language Models (LLMs) is challenging. In this work, we introduce Low-rank Quantization Error Reduction (LQER), which combines quantization and low-rank approximation to recover the model capability. LQER leverages an activation-induced scale matrix to drive the singular value distribution of quantization error towards a desirable distribution, which enables nearly-lossless W4A8 quantization on various LLMs and downstream tasks without the need for knowledge distillation, grid search, or gradient-base iterative optimization. Unlike existing methods, the computation pattern of LQER eliminates the need for specialized Scatter and Gather processes to collect high-precision weights from irregular memory locations. Our W4A8 LLMs achieve near-lossless performance on six popular downstream tasks, while using 1.36$\times$ fewer hardware resources than the leading state-of-the-art method. We will open-source our framework once the paper is accepted. | 翻訳日:2024-03-07 00:27:47 公開日:2024-03-04 |
# RecNet:マルチロボットマップ共有と再構成のためのレンジイメージ埋め込みによる可逆的ポイントクラウドエンコーディング RecNet: An Invertible Point Cloud Encoding through Range Image Embeddings for Multi-Robot Map Sharing and Reconstruction ( http://arxiv.org/abs/2402.02192v2 ) ライセンス: Link先を確認 | Nikolaos Stathoulopoulos, Mario A.V. Saucedo, Anton Koval and George Nikolakopoulos | (参考訳) 本稿では,資源拘束型ロボットの分野とマルチロボットシステムにおける効果的な位置認識の必要性について,両課題を同時に解決する新しいアプローチであるRecNetを紹介する。
RecNetの方法論の中核は、3Dポイントクラウドをレンジイメージに投影し、エンコーダ・デコーダフレームワークを使用してそれらを圧縮し、その後レンジイメージを再構築し、元のポイントクラウドを復元する。
さらに、RecNetはこのプロセスから抽出した潜伏ベクトルを効率的な位置認識タスクに利用する。
このアプローチは、同等の場所認識結果を達成するだけでなく、ロボット間での共有に適したコンパクトな表現も維持する。
recnetの評価は、位置認識性能、再構成された点雲の構造的類似性、および潜在ベクトルのみを共有することに由来する帯域幅伝達の利点を含む、一連の指標を含んでいる。
提案手法は,公開データセットとフィールド実験の両方を用いて評価し,その有効性と実世界の応用の可能性を確認する。 In the field of resource-constrained robots and the need for effective place recognition in multi-robotic systems, this article introduces RecNet, a novel approach that concurrently addresses both challenges. The core of RecNet's methodology involves a transformative process: it projects 3D point clouds into range images, compresses them using an encoder-decoder framework, and subsequently reconstructs the range image, restoring the original point cloud. Additionally, RecNet utilizes the latent vector extracted from this process for efficient place recognition tasks. This approach not only achieves comparable place recognition results but also maintains a compact representation, suitable for sharing among robots to reconstruct their collective maps. The evaluation of RecNet encompasses an array of metrics, including place recognition performance, the structural similarity of the reconstructed point clouds, and the bandwidth transmission advantages, derived from sharing only the latent vectors. Our proposed approach is assessed using both a publicly available dataset and field experiments$^1$, confirming its efficacy and potential for real-world applications. | 翻訳日:2024-03-07 00:27:14 公開日:2024-03-04 |
# 大規模言語モデルによる推論における前提順序 Premise Order Matters in Reasoning with Large Language Models ( http://arxiv.org/abs/2402.08939v2 ) ライセンス: Link先を確認 | Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou | (参考訳) 大規模言語モデル(llm)は様々な領域において驚くべき推論性能を達成している。
しかし、推論タスクの領域では、私たちは不安定さを発見します: LLMは、そのような順序付けが基礎となるタスクを変えないという事実にもかかわらず、前提の順序付けに対して驚くほど脆弱です。
特に、前提順序が中間推論ステップで要求されるコンテキストと整合すると、LCMが最高の性能を達成することを観察する。
例えば帰納的推論タスクでは、プロンプト(ランダム順序付けとは対照的に)における基底真理証明と同じ順序で前提を提示することで、モデルの精度が劇的に向上する。
まず,様々なllmにおける推論に対する前提順序の影響について検討し,前提順序の変更によって性能が30%以上低下する可能性が示唆された。
さらに,GSM8KをベースとしたベンチマークR-GSMをリリースし,数学的な問題解決の順序付け効果を検証し,元のGSM8Kベンチマークと比較して精度の大幅な低下を観測した。 Large language models (LLMs) have accomplished remarkable reasoning performance in various domains. However, in the domain of reasoning tasks, we discover a frailty: LLMs are surprisingly brittle to the ordering of the premises, despite the fact that such ordering does not alter the underlying task. In particular, we observe that LLMs achieve the best performance when the premise order aligns with the context required in intermediate reasoning steps. For example, in deductive reasoning tasks, presenting the premises in the same order as the ground truth proof in the prompt (as opposed to random ordering) drastically increases the model's accuracy. We first examine the effect of premise ordering on deductive reasoning on a variety of LLMs, and our evaluation shows that permuting the premise order can cause a performance drop of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to examine the ordering effect for mathematical problem-solving, and we again observe a significant drop in accuracy, relative to the original GSM8K benchmark. | 翻訳日:2024-03-07 00:21:16 公開日:2024-03-04 |
# Aspect-based Sentiment Analysis のための拡張可能な多角核融合ネットワーク Extensible Multi-Granularity Fusion Network for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2402.07787v3 ) ライセンス: Link先を確認 | Xiaowei Zhao, Yong Zhou, Xiujuan Xu, Yu Liu | (参考訳) Aspect-based Sentiment Analysis (ABSA)は、感情情報を理解するためにテキスト内の感情表現を評価する。
従来の研究では、知識グラフのような外部知識を統合して、ABSAモデルのセマンティックな特徴を強化していた。
近年,グラフニューラルネットワーク (GNN) の構文解析への依存性と構成木の利用について検討している。
absaの発展に伴い、より革新的な言語的および構造的特徴(例えば潜在グラフ)が取り入れられているが、これは複雑さと混乱をもたらす。
現在、多様な言語的・構造的特徴をABSAに統合するためのスケーラブルなフレームワークは存在しない。
本稿では,依存性や構成構文,注意の意味,外部知識グラフなどの情報を統合したEMGF(Extensible Multi-Granularity Fusion)ネットワークを提案する。
EMGFはマルチアンカー三重項学習と直交射影を備えており、各粒度特徴と相乗的相互作用の結合ポテンシャルを効率よく利用し、計算コストを増すことなく累積効果をもたらす。
SemEval 2014とTwitterデータセットの実験的発見は、EMGFが既存のABSAメソッドよりも優れていることを裏付けている。 Aspect-based Sentiment Analysis (ABSA) evaluates sentiment expressions within a text to comprehend sentiment information. Previous studies integrated external knowledge, such as knowledge graphs, to enhance the semantic features in ABSA models. Recent research has examined the use of Graph Neural Networks (GNNs) on dependency and constituent trees for syntactic analysis. With the ongoing development of ABSA, more innovative linguistic and structural features are being incorporated (e.g. latent graph), but this also introduces complexity and confusion. As of now, a scalable framework for integrating diverse linguistic and structural features into ABSA does not exist. This paper presents the Extensible Multi-Granularity Fusion (EMGF) network, which integrates information from dependency and constituent syntactic, attention semantic , and external knowledge graphs. EMGF, equipped with multi-anchor triplet learning and orthogonal projection, efficiently harnesses the combined potential of each granularity feature and their synergistic interactions, resulting in a cumulative effect without additional computational expenses. Experimental findings on SemEval 2014 and Twitter datasets confirm EMGF's superiority over existing ABSA methods. | 翻訳日:2024-03-07 00:20:42 公開日:2024-03-04 |
# フローマッチングをベースとしたゼロショットテキスト音声ラグ Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like ( http://arxiv.org/abs/2402.07383v2 ) ライセンス: Link先を確認 | Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Chung-Hsien Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng | (参考訳) 笑いは人間の発話の最も表現力と自然な側面の1つであり、感情、社会的手がかり、ユーモアを伝える。
しかし、ほとんどのTTSシステムは、現実的で適切な笑い声を作り出す能力がなく、アプリケーションやユーザー体験を制限している。
自然笑いを発生させる先行研究はあったが、生成する笑いのタイミングや種類を制御できるという点では不足していた。
本研究では,発話タイミングと表情を正確に制御した短い音声プロンプトに基づいて,任意の話者の自然な笑い声を生成することができるゼロショットTSであるELaTEを提案する。
具体的には、elateは音声の特徴を模倣する音声プロンプト、生成された音声の内容を示すテキストプロンプト、笑いの開始時と終了時のいずれかの笑い表現を制御する入力、あるいは模倣される笑いを含む追加の音声プロンプトに作用する。
条件付きフローマッチングに基づくゼロショットttsの基礎に基づくモデルを開発し,笑い検出器からのフレームレベル表現を付加条件として微調整した。
大規模な事前学習データと小規模な笑い条件データを混合する簡単な手法を用いて,事前学習されたゼロショットTSモデルの品質を損なうことなく,訓練済みのゼロショットTSモデルを簡単に微調整して正確な制御性で自然笑いを生成することができることを示した。
客観的および主観的評価により,従来のモデルに比べて,格段に高い品質と制御性で笑い声を生成できることが示される。
デモサンプルはhttps://aka.ms/elate/を参照。 Laughter is one of the most expressive and natural aspects of human speech, conveying emotions, social cues, and humor. However, most text-to-speech (TTS) systems lack the ability to produce realistic and appropriate laughter sounds, limiting their applications and user experience. While there have been prior works to generate natural laughter, they fell short in terms of controlling the timing and variety of the laughter to be generated. In this work, we propose ELaTE, a zero-shot TTS that can generate natural laughing speech of any speaker based on a short audio prompt with precise control of laughter timing and expression. Specifically, ELaTE works on the audio prompt to mimic the voice characteristic, the text prompt to indicate the contents of the generated speech, and the input to control the laughter expression, which can be either the start and end times of laughter, or the additional audio prompt that contains laughter to be mimicked. We develop our model based on the foundation of conditional flow-matching-based zero-shot TTS, and fine-tune it with frame-level representation from a laughter detector as additional conditioning. With a simple scheme to mix small-scale laughter-conditioned data with large-scale pre-training data, we demonstrate that a pre-trained zero-shot TTS model can be readily fine-tuned to generate natural laughter with precise controllability, without losing any quality of the pre-trained zero-shot TTS model. Through objective and subjective evaluations, we show that ELaTE can generate laughing speech with significantly higher quality and controllability compared to conventional models. See https://aka.ms/elate/ for demo samples. | 翻訳日:2024-03-07 00:19:57 公開日:2024-03-04 |
# 教育研究のためのオンプレミス超電導量子コンピュータ On-Premises Superconducting Quantum Computer for Education and Research ( http://arxiv.org/abs/2402.07315v2 ) ライセンス: Link先を確認 | Jami R\"onkk\"o, Olli Ahonen, Ville Bergholm, Alessio Calzona, Attila Geresdi, Hermanni Heimonen, Johannes Heinsoo, Vladimir Milchakov, Stefan Pogorzalek, Matthew Sarsby, Mykhailo Savytskyi, Stefan Seegerer, Fedor \v{S}imkovic IV, P.V. Sriluckshmy, Panu T. Vesanen and Mikio Nakahara | (参考訳) 量子技術への世界的関心が高まり、教育と研究のために関連する物理システムにアクセスする必要性が高まっている。
本稿では,超伝導技術を利用した市販のオンサイト量子コンピュータを紹介し,その基本ハードウェアとソフトウェアコンポーネントについて考察する。
このシステムは,量子理論と量子コンピューティングの深い理解と量子概念の教育にどのように利用できるかを示す。
将来の人材に学びの機会を提供し、技術進歩に貢献する。
さらに,最近の注目すべき成果を再現して,研究におけるその利用を実証する。 With a growing interest in quantum technology globally, there is an increasing need for accessing relevant physical systems for education and research. In this paper we introduce a commercially available on-site quantum computer utilizing superconducting technology, offering insights into its fundamental hardware and software components. We show how this system can be used in education to teach quantum concepts and deepen understanding of quantum theory and quantum computing. It offers learning opportunities for future talent and contributes to technological progress. Additionally, we demonstrate its use in research by replicating some notable recent achievements. | 翻訳日:2024-03-07 00:19:27 公開日:2024-03-04 |
# 最後のダンス : 拡散モデルとベイズアプローチによるロバストなバックドア攻撃 The last Dance : Robust backdoor attack via diffusion models and bayesian approach ( http://arxiv.org/abs/2402.05967v2 ) ライセンス: Link先を確認 | Orson Mengara | (参考訳) 拡散モデルは最先端のディープラーニング生成モデルであり、ノイズの漸進的な付加と雑音化を通じて前方および後方拡散過程を学習する原理に基づいて訓練される。
本稿では,Hugging Faceフレームワークなどの音声ベースのDNNモデル,特に,時間を節約し,より効率的に結果を得る強力な機械学習モデルであるトランスフォーマーベースの人工知能モデルに焦点をあてる。
我々は、人工知能研究の世界で人気のあるフレームワークであるHugging Faceから派生したオーディオトランスフォーマーにおけるバックドア攻撃("BacKBayDiffMod`"と呼ばれる)の実現可能性を示す。
本研究で開発されたバックドアアタックは, バックドア拡散サンプリングとベイズ的アプローチを取り入れた有毒モデルトレーニングデータに基づく。 Diffusion models are state-of-the-art deep learning generative models that are trained on the principle of learning forward and backward diffusion processes via the progressive addition of noise and denoising. In this paper, we aim to fool audio-based DNN models, such as those from the Hugging Face framework, primarily those that focus on audio, in particular transformer-based artificial intelligence models, which are powerful machine learning models that save time and achieve results faster and more efficiently. We demonstrate the feasibility of backdoor attacks (called `BacKBayDiffMod`) on audio transformers derived from Hugging Face, a popular framework in the world of artificial intelligence research. The backdoor attack developed in this paper is based on poisoning model training data uniquely by incorporating backdoor diffusion sampling and a Bayesian approach to the distribution of poisoned data. | 翻訳日:2024-03-07 00:17:55 公開日:2024-03-04 |
# リアルタイム起動と衝撃波予測のためのメソスケール交通予測 Mesoscale Traffic Forecasting for Real-Time Bottleneck and Shockwave Prediction ( http://arxiv.org/abs/2402.05663v2 ) ライセンス: Link先を確認 | Raphael Chekroun, Han Wang, Jonathan Lee, Marin Toromanoff, Sascha Hornauer, Fabien Moutarde, Maria Laura Delle Monache | (参考訳) 正確なリアルタイム交通状態予測は、交通制御研究において重要な役割を果たす。
特に、CIRCLESコンソーシアムプロジェクトは、データソース遅延の影響を軽減するために予測技術を必要とする。
megavandertest実験が成功した後、本論文は現在のシステムの限界を克服し、実験の次のイテレーションのリアルタイム交通状態推定を改善するためのより適切なアプローチを開発することを目的としている。
本稿では,SA-LSTMを提案する。SA-LSTMは,空間次元の自己認識(SA)と長短記憶(LSTM)を統合し,リアルタイムのメソスケール交通予測の最先端結果を得る。
本手法は,n段階SA-LSTMを用いた複数段階予測に拡張され,短期予測と長期予測のトレードオフにおいて従来の多段階予測手法よりも優れている。 Accurate real-time traffic state forecasting plays a pivotal role in traffic control research. In particular, the CIRCLES consortium project necessitates predictive techniques to mitigate the impact of data source delays. After the success of the MegaVanderTest experiment, this paper aims at overcoming the current system limitations and develop a more suited approach to improve the real-time traffic state estimation for the next iterations of the experiment. In this paper, we introduce the SA-LSTM, a deep forecasting method integrating Self-Attention (SA) on the spatial dimension with Long Short-Term Memory (LSTM) yielding state-of-the-art results in real-time mesoscale traffic forecasting. We extend this approach to multi-step forecasting with the n-step SA-LSTM, which outperforms traditional multi-step forecasting methods in the trade-off between short-term and long-term predictions, all while operating in real-time. | 翻訳日:2024-03-07 00:17:39 公開日:2024-03-04 |
# mtsa-snn:スパイクニューラルネットワークに基づくマルチモーダル時系列解析モデル MTSA-SNN: A Multi-modal Time Series Analysis Model Based on Spiking Neural Network ( http://arxiv.org/abs/2402.05423v2 ) ライセンス: Link先を確認 | Chengzhi Liu, Zheng Tao, Zihong Luo, Chenghao Liu | (参考訳) 時系列分析とモデリングは重要な研究領域である。
従来の人工ニューラルネットワークは、高い計算複雑性、時間的情報をキャプチャする能力の制限、イベント駆動データを扱うことの難しさにより、複雑な非定常時系列データに苦しむ。
これらの課題に対処するために、スパイキングニューラルネットワーク(MTSA-SNN)に基づくマルチモーダル時系列解析モデルを提案する。
パルスエンコーダは、時間画像とシーケンシャル情報の符号化を共通のパルスベース表現で統一する。
ジョイントラーニングモジュールは、マルチモーダルパルス信号から情報を融合するために、ジョイントラーニング機能と重み付け機構を用いる。
さらに,ウェーブレット変換処理を取り入れ,時間的情報を解析・評価するモデルの能力を高める。
実験の結果, 3つの複雑な時系列タスクにおいて優れた性能が得られた。
この作業は、複雑な時間情報の分析に関わる課題を克服する効果的なイベント駆動型アプローチを提供する。
ソースコードへのアクセスはhttps://github.com/Chenngzz/MTSA-SNN}{https://github.com/Chenngzz/MTSA-SNNで確認できる。 Time series analysis and modelling constitute a crucial research area. Traditional artificial neural networks struggle with complex, non-stationary time series data due to high computational complexity, limited ability to capture temporal information, and difficulty in handling event-driven data. To address these challenges, we propose a Multi-modal Time Series Analysis Model Based on Spiking Neural Network (MTSA-SNN). The Pulse Encoder unifies the encoding of temporal images and sequential information in a common pulse-based representation. The Joint Learning Module employs a joint learning function and weight allocation mechanism to fuse information from multi-modal pulse signals complementary. Additionally, we incorporate wavelet transform operations to enhance the model's ability to analyze and evaluate temporal information. Experimental results demonstrate that our method achieved superior performance on three complex time-series tasks. This work provides an effective event-driven approach to overcome the challenges associated with analyzing intricate temporal information. Access to the source code is available at https://github.com/Chenngzz/MTSA-SNN}{https://github.com/Chenngzz/MTSA-SNN | 翻訳日:2024-03-07 00:17:13 公開日:2024-03-04 |
# Q-Embroidery:量子分類器のファブリックへの量子誤差補正の織り込みに関する研究 Q-Embroidery: A Study on Weaving Quantum Error Correction into the Fabric of Quantum Classifiers ( http://arxiv.org/abs/2402.11127v3 ) ライセンス: Link先を確認 | Avimita Chatterjee, Debarshi Kundu and Swaroop Ghosh | (参考訳) 量子コンピューティングは、様々な分野の変換ポテンシャルを持っているが、その実用的応用はエラーの感受性によって妨げられている。
本研究は,量子誤り訂正符号(QECC)を複雑・多ビット分類タスクに適用することにより,先駆的な貢献を行う。
1量子ビットと2量子ビットの量子分類器をqecc、特にステアン符号と距離3と5の曲面符号で実装し、2次元および4次元のデータセットを解析した。
本研究は、ビットフリップ、位相フリップ、偏極誤差を含む様々な物理誤差に対して量子分類器の堅牢性と精度を高めるために、これらのQECCの性能を独自に評価する。
その結果、実用シナリオにおけるqeccの有効性は、理論上優位に留まらず、量子ビットの可用性、所望の精度、特定のタイプや物理的エラーのレベルなど様々な要因に依存することが強調された。 Quantum computing holds transformative potential for various fields, yet its practical application is hindered by the susceptibility to errors. This study makes a pioneering contribution by applying quantum error correction codes (QECCs) for complex, multi-qubit classification tasks. We implement 1-qubit and 2-qubit quantum classifiers with QECCs, specifically the Steane code, and the distance 3 & 5 surface codes to analyze 2-dimensional and 4-dimensional datasets. This research uniquely evaluates the performance of these QECCs in enhancing the robustness and accuracy of quantum classifiers against various physical errors, including bit-flip, phase-flip, and depolarizing errors. The results emphasize that the effectiveness of a QECC in practical scenarios depends on various factors, including qubit availability, desired accuracy, and the specific types and levels of physical errors, rather than solely on theoretical superiority. | 翻訳日:2024-03-07 00:11:44 公開日:2024-03-04 |
# MITS:表面コードを設計するための量子サーセラーストーン MITS: A Quantum Sorcerer Stone For Designing Surface Codes ( http://arxiv.org/abs/2402.11027v2 ) ライセンス: Link先を確認 | Avimita Chatterjee, Debarshi Kundu and Swaroop Ghosh | (参考訳) 量子コンピューティングの進化期には、量子エラー補正(QEC)の最も効率的なパラメータを決定することが最重要である。
様々な量子コンピュータは様々な種類の物理ノイズを持っている。
伝統的にシミュレータはフォワードパラダイムで動作し、距離、ラウンド、物理的エラーなどのパラメータを使って論理誤差率を出力する。
しかし、表面コードの最大距離とラウンドの使用は資源を浪費する可能性がある。
STIMのようなシミュレーションツールを使ってQECのコードパラメータを微調整する手法は、試行錯誤に依存する。
さらに、量子エラー率の日々の変動は、必要なQEC設定を変更できる。
結果として、現在の状況に合わせて適切なQECパラメータを迅速に決定できる自動化ソリューションが不可欠である。
このギャップを埋めるために、QEC符号を設計するためのよく知られたシミュレータSTIMをリバースエンジニアリングするツールであるMITSを紹介する。
MITSは、量子コンピュータの特定のノイズモデルとターゲット論理誤差率を入力として受け入れ、最適な表面コードラウンドとコード距離を出力する。
これにより、最小の量子ビットとゲートの使用が保証され、所望の論理エラーレートと、既存の量子ビット数とゲート忠実度に関するハードウェアの制限を調和させる。
学習/設計のための複数のヒューリスティックスと機械学習モデルを比較し,xgboostとランダムフォレスト回帰が最も有効であり,pearson相関係数は0.98,0.96であった。 In the evolving landscape of quantum computing, determining the most efficient parameters for Quantum Error Correction (QEC) is paramount. Various quantum computers possess varied types and amounts of physical noise. Traditionally, simulators operate in a forward paradigm, taking parameters such as distance, rounds, and physical error to output a logical error rate. However, usage of maximum distance and rounds of the surface code might waste resources. An approach that relies on trial and error to fine-tune QEC code parameters using simulation tools like STIM can be exceedingly time-consuming. Additionally, daily fluctuations in quantum error rates can alter the ideal QEC settings needed. As a result, there is a crucial need for an automated solution that can rapidly determine the appropriate QEC parameters tailored to the current conditions. To bridge this gap, we present MITS, a tool designed to reverse-engineer the well-known simulator STIM for designing QEC codes. MITS accepts the specific noise model of a quantum computer and a target logical error rate as input and outputs the optimal surface code rounds and code distances. This guarantees minimal qubit and gate usage, harmonizing the desired logical error rate with the existing hardware limitations on qubit numbers and gate fidelity. We explored and compared multiple heuristics and machine learning models for training/designing MITS and concluded that XGBoost and Random Forest regression were most effective, with Pearson correlation coefficients of 0.98 and 0.96 respectively. | 翻訳日:2024-03-07 00:10:58 公開日:2024-03-04 |
# フェデレーション学習における収束性向上:コントリビューション・アウェア・非同期アプローチ Enhancing Convergence in Federated Learning: A Contribution-Aware Asynchronous Approach ( http://arxiv.org/abs/2402.10991v4 ) ライセンス: Link先を確認 | Changxin Xu, Yuxin Qiao, Zhanxin Zhou, Fanghao Ni, and Jize Xiong | (参考訳) Federated Learning(FL)は、クライアントがプライバシを保持しながらデータ上でモデルをトレーニングできる分散機械学習パラダイムである。
フェデレート平均化(FedAvg)などのFLアルゴリズムは、多くのシナリオにおいてよく収束することが示されている。
しかし、これらの手法ではクライアントがローカルアップデートを同期的にサーバにアップロードする必要があるため、現実的なFL設定では遅くて信頼性が低い。
この問題に対処するため、研究者らは、クライアントが古いグローバルモデルを使用してローカルデータのトレーニングを継続できる非同期FLメソッドを開発した。
しかしながら、これらの手法のほとんどは、相対的なコントリビューションを考慮せずに、単に受信した更新をすべて集約する。
本稿では,受信した更新の安定性と統計的不均一性を考慮したコントリビューション対応非同期FL法を提案する。
本手法は,これらの要因に基づいて各更新のコントリビューションを動的に調整し,既存の方法と比較して収束を高速化する。 Federated Learning (FL) is a distributed machine learning paradigm that allows clients to train models on their data while preserving their privacy. FL algorithms, such as Federated Averaging (FedAvg) and its variants, have been shown to converge well in many scenarios. However, these methods require clients to upload their local updates to the server in a synchronous manner, which can be slow and unreliable in realistic FL settings. To address this issue, researchers have developed asynchronous FL methods that allow clients to continue training on their local data using a stale global model. However, most of these methods simply aggregate all of the received updates without considering their relative contributions, which can slow down convergence. In this paper, we propose a contribution-aware asynchronous FL method that takes into account the staleness and statistical heterogeneity of the received updates. Our method dynamically adjusts the contribution of each update based on these factors, which can speed up convergence compared to existing methods. | 翻訳日:2024-03-07 00:10:13 公開日:2024-03-04 |
# 構造フォトニック浴中の巨大原子を用いた量子光学 Quantum optics with giant atoms in a structured photonic bath ( http://arxiv.org/abs/2402.10275v2 ) ライセンス: Link先を確認 | L. Leonforte, X. Sun, D. Valenti, B. Spagnolo, F. Illuminati, A. Carollo, F. Ciccarello | (参考訳) 我々は、巨大原子による量子光学問題、すなわち量子エミッタを結合した非局所的に、任意の次元の構造化フォトニック浴(典型的には格子)に取り組むための一般的な枠組みを提案する。
この理論は、グリーン関数、原子-光子結合状態(BSs)、集合マスター方程式、デコヒーレンスフリーハミルトニアン(DFHs)の計算と一般的な性質を含み、巨大原子が架空の位置にある通常の原子と見なされる形式主義に支えられている。
主要な用途として, フォトニックバスの構造や寸法に関わらず, フォトニック連続体内外にも適用可能な巨大原子のdfhsを予測・設計するための一般的な基準を初めて提示する。
これは正方格子やフォトニックグラフェンのような2d浴槽で新しいdfhを示すために用いられる。 We present a general framework to tackle quantum optics problems with giant atoms, i.e. quantum emitters each coupled {\it non-locally} to a structured photonic bath (typically a lattice) of any dimension. The theory encompasses the calculation and general properties of Green's functions, atom-photon bound states (BSs), collective master equations and decoherence-free Hamiltonians (DFHs), and is underpinned by a formalism where a giant atom is formally viewed as a normal atom lying at a fictitious location. As a major application, we provide for the first time a general criterion to predict/engineer DFHs of giant atoms, which can be applied both in and out of the photonic continuum and regardless of the structure or dimensionality of the photonic bath. This is used to show novel DFHs in 2D baths such as a square lattice and photonic graphene. | 翻訳日:2024-03-07 00:09:55 公開日:2024-03-04 |
# 共鳴計数によるランダム行列の有限サイズ効果の研究 Investigating finite-size effects in random matrices by counting resonances ( http://arxiv.org/abs/2402.10271v2 ) ライセンス: Link先を確認 | Anton Kutlin, Carlo Vanoni | (参考訳) 共鳴カウントはランダム行列理論とアンダーソン局在法において直感的で広く使われているツールである。
その利点は単純さであり、原理的には任意のランダム行列アンサンブルに容易に適用できる。
欠点として、共鳴の概念は不定義であり、'共振数'は、参加エントロピー、フラクタル次元、ギャップ比(rパラメータ)のような一般に使用される物理観測可能な任意の物理観測値への直接マッピングを持たず、この方法の予測力を熱力学的限界に制限し、アンダーソン局在遷移の特定にのみ使用できる。
本研究では, 共振の概念を再評価し, 測定可能な量と関連づけ, 有限次元系への今後の応用の基礎を構築した。
論文のHTMLバージョンにアクセスし、著者たちと議論するには、https://enabla.com/pub/558を参照してください。 Resonance counting is an intuitive and widely used tool in Random Matrix Theory and Anderson Localization. Its undoubted advantage is its simplicity: in principle, it is easily applicable to any random matrix ensemble. On the downside, the notion of resonance is ill-defined, and the `number of resonances' does not have a direct mapping to any commonly used physical observable like the participation entropy, the fractal dimensions, or the gap ratios (r-parameter), restricting the method's predictive power to the thermodynamic limit only where it can be used for locating the Anderson localization transition. In this work, we reevaluate the notion of resonances and relate it to measurable quantities, building a foundation for the future application of the method to finite-size systems. To access the HTML version of the paper & discuss it with the authors, visit https://enabla.com/pub/558. | 翻訳日:2024-03-07 00:09:37 公開日:2024-03-04 |
# MC-DBN: モダリティ補完のためのディープリーフネットワークベースモデル MC-DBN: A Deep Belief Network-Based Model for Modality Completion ( http://arxiv.org/abs/2402.09782v2 ) ライセンス: Link先を確認 | Zihong Luo, Kexin He, Chengzhi Liu, Zheng Tao | (参考訳) マルチモーダル人工知能(AI)の最近の進歩は、株式市場の予測と心拍モニタリングの分野に革命をもたらした。
多様なデータソースを使用することで、予測精度が大幅に向上する。
それでも、追加データは常に元のデータセットと一致しない場合がある。
補間法は通常、モーダルデータの欠落値を扱うために使われるが、スパース情報の文脈では制限がある。
この課題に対処するため,我々はMC-DBN(Modality Completion Deep Belief Network Based Model)を提案する。
このアプローチでは、完全データの暗黙的な特徴を利用して、それ自身と追加の不完全なデータの間のギャップを補償する。
拡張されたマルチモーダルデータは、実世界の動的性質と密接に一致し、モデルの有効性を高めることが保証される。
我々は,MC-DBNモデルの評価を,市場予測領域と心拍モニタリング領域の2つのデータセットで行う。
総合的な実験では、マルチモーダルデータに存在するセマンティックディビジョンをブリッジするモデルの能力を示し、その後性能を向上する。
ソースコードはhttps://github.com/logan-0623/dbn-generateで入手できる。 Recent advancements in multi-modal artificial intelligence (AI) have revolutionized the fields of stock market forecasting and heart rate monitoring. Utilizing diverse data sources can substantially improve prediction accuracy. Nonetheless, additional data may not always align with the original dataset. Interpolation methods are commonly utilized for handling missing values in modal data, though they may exhibit limitations in the context of sparse information. Addressing this challenge, we propose a Modality Completion Deep Belief Network-Based Model (MC-DBN). This approach utilizes implicit features of complete data to compensate for gaps between itself and additional incomplete data. It ensures that the enhanced multi-modal data closely aligns with the dynamic nature of the real world to enhance the effectiveness of the model. We conduct evaluations of the MC-DBN model in two datasets from the stock market forecasting and heart rate monitoring domains. Comprehensive experiments showcase the model's capacity to bridge the semantic divide present in multi-modal data, subsequently enhancing its performance. The source code is available at: https://github.com/logan-0623/DBN-generate | 翻訳日:2024-03-07 00:08:38 公開日:2024-03-04 |
# スパースモデルのないスパースかつ忠実な説明 Sparse and Faithful Explanations Without Sparse Models ( http://arxiv.org/abs/2402.09702v2 ) ライセンス: Link先を確認 | Yiyang Sun, Zhi Chen, Vittorio Orlandi, Tong Wang, Cynthia Rudin | (参考訳) たとえモデルが世界規模で疎外されていなくても、そのモデルから決定されたことは、少数の機能によって正確かつ忠実に記述できる。
例えば、大口融資の申請は、信用履歴がないため、信用の信頼性に関する証拠を圧倒するため、誰かに拒否される可能性がある。
本研究では,機械学習モデルにおける空間性を測定する新しい手法であるスパース説明値(SEV)を紹介する。
上記のローン拒否例では、融資が拒否された理由を説明するのに1つの要素しか必要とされないため、sevは1である。
SEVは全体モデルの範囲ではなく、意思決定の間隔の尺度です。SEVが測定したように、たとえスパースでないとしても、多くの機械学習モデルが実際に低い決定の間隔を持っていることを示すことができます。
SEVはハイパーキューブ上の運動を用いて定義されており、実世界の制約を反映した運動制限を反映して、SEVを様々なモデルクラス上で一貫して定義することができる。
我々は、sevを精度を犠牲にすることなく削減し、グローバルにスパースモデルがなくても、スパースで完全に忠実な説明を提供するアルゴリズムを提案した。 Even if a model is not globally sparse, it is possible for decisions made from that model to be accurately and faithfully described by a small number of features. For instance, an application for a large loan might be denied to someone because they have no credit history, which overwhelms any evidence towards their creditworthiness. In this work, we introduce the Sparse Explanation Value (SEV), a new way of measuring sparsity in machine learning models. In the loan denial example above, the SEV is 1 because only one factor is needed to explain why the loan was denied. SEV is a measure of decision sparsity rather than overall model sparsity, and we are able to show that many machine learning models -- even if they are not sparse -- actually have low decision sparsity, as measured by SEV. SEV is defined using movements over a hypercube, allowing SEV to be defined consistently over various model classes, with movement restrictions reflecting real-world constraints. We proposed the algorithms that reduce SEV without sacrificing accuracy, providing sparse and completely faithful explanations, even without globally sparse models. | 翻訳日:2024-03-07 00:08:23 公開日:2024-03-04 |
# Web 3.0と量子セキュリティ:グローバルWeb 3.0ネットワークのための長距離無料空間QSDC Web 3.0 and Quantum Security: Long-Distance Free-Space QSDC for Global Web 3.0 Networks ( http://arxiv.org/abs/2402.09108v2 ) ライセンス: Link先を確認 | Yifan Zhou, Yew Kee Wong, Xinlin Zhou, Yan Shing Liang, Zi Yan Li | (参考訳) web 3.0の登場により、テクノロジーの急速な進歩は量子コンピューティングから差し迫った脅威に直面している。
web 2.0とweb 3.0の完全性を保護するセキュリティプロトコルは、量子攻撃と洗練された古典的脅威の両方の影響を受けやすくなっている。
本稿は,量子と古典の両方の文脈におけるセキュリティ侵害を防止する手段として,新しい長距離自由空間量子セキュアダイレクト通信(lf qsdc)を提案する。
LF QSDCは量子鍵分布(QKD)のような技術と異なり、暗号化されたデータ転送が鍵交換を妨害し、鍵ベースのシステム固有の弱点を減らし、制約を超える。
この属性の特異性は、量子力学ベースと相まって、量子コンピュータの暴行や高度な非量子危険から保護し、Web 3.0時代の信頼できないテネットとシームレスに調和する。
本研究の焦点は、LF QSDCのWeb 3.0ネットワークインフラストラクチャへの技術設計と導入であり、拡張範囲通信の有効性を強調している。
LF QSDCは、メモリDL04プロトコルに基づいており、我々の新しい量子認識低密度パリティチェック(LDPC)、ポインティング、取得、追跡(PAT)技術、およびAQCAによって拡張されている。
この手法を利用することで、世界中のWeb 3.0ネットワークのセキュリティを高めるだけでなく、量子的および洗練された古典的脅威が同時に存在する時代にも、その持続性を保証する。
その結果、LF QSDCは、常に進化するデジタル環境の中で、Web 3.0システムに適した堅牢なセキュリティソリューションとして際立っている。 With the advent of Web 3.0, the swift advancement of technology confronts an imminent threat from quantum computing. Security protocols safeguarding the integrity of Web 2.0 and Web 3.0 are growing more susceptible to both quantum attacks and sophisticated classical threats. The article introduces our novel long-distance free-space quantum secure direct communication (LF QSDC) as a method to safeguard against security breaches in both quantum and classical contexts. Differing from techniques like quantum key distribution (QKD), LF QSDC surpasses constraints by facilitating encrypted data transmission sans key exchanges, thus diminishing the inherent weaknesses of key-based systems. The distinctiveness of this attribute, coupled with its quantum mechanics base, protects against quantum computer assaults and advanced non-quantum dangers, harmonizing seamlessly with the untrustworthy tenets of the Web 3.0 age. The focus of our study is the technical design and incorporation of LF QSDC into web 3.0 network infrastructures, highlighting its efficacy for extended-range communication. LF QSDC is based on the memory DL04 protocol and enhanced with our novel Quantum-Aware Low-Density Parity Check (LDPC), Pointing, Acquisition, and Tracking (PAT) technologies, and Atmospheric Quantum Correction Algorithm (AQCA). Utilizing this method not only bolsters the security of worldwide Web 3.0 networks but also guarantees their endurance in a time when quantum and sophisticated classical threats exist simultaneously. Consequently, LF QSDC stands out as a robust security solution, well-suited for Web 3.0 systems amidst the constantly evolving digital environment. | 翻訳日:2024-03-07 00:07:35 公開日:2024-03-04 |
# VLSP 2023 -- ComOM Shared Task: A data Challenge for Comparison Opinion Mining from Vietnam Product Reviews Overview of the VLSP 2023 -- ComOM Shared Task: A Data Challenge for Comparative Opinion Mining from Vietnamese Product Reviews ( http://arxiv.org/abs/2402.13613v2 ) ライセンス: Link先を確認 | Hoang-Quynh Le, Duy-Cat Can, Khanh-Vinh Nguyen and Mai-Vu Tran | (参考訳) 本稿では,ベトナム語と音声処理に関する10$^{th}$ International Workshop on Vietnam Language and Speech Processing (VLSP 2023)の一部として開催された,ベトナム製品レビュー共有タスク(ComOM)における比較オピニオンマイニングの概要を紹介する。
本課題の主な目的は,ベトナムの製品レビューから比較意見を引き出す技術を開発することにより,自然言語処理の分野を前進させることである。
参加者は、被験者、対象、アスペクト、述語、比較タイプラベルを包含する比較文から、しばしば比較「クインタプル」を抽出するモデルを提案する。
人間の注釈付きデータセットは、ドキュメントが120ドル、非比較文が7427ドル、比較文が2468ドルです。
Exact match macro-averaged quintuple F1 score に基づいて評価とランク付けを行う。 This paper presents a comprehensive overview of the Comparative Opinion Mining from Vietnamese Product Reviews shared task (ComOM), held as part of the 10$^{th}$ International Workshop on Vietnamese Language and Speech Processing (VLSP 2023). The primary objective of this shared task is to advance the field of natural language processing by developing techniques that proficiently extract comparative opinions from Vietnamese product reviews. Participants are challenged to propose models that adeptly extract a comparative "quintuple" from a comparative sentence, encompassing Subject, Object, Aspect, Predicate, and Comparison Type Label. We construct a human-annotated dataset comprising $120$ documents, encompassing $7427$ non-comparative sentences and $2468$ comparisons within $1798$ sentences. Participating models undergo evaluation and ranking based on the Exact match macro-averaged quintuple F1 score. | 翻訳日:2024-03-07 00:01:55 公開日:2024-03-04 |
# 多変量時系列予測の活性化:系列間依存による学習可能な分解と系列内変動モデリング Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling ( http://arxiv.org/abs/2402.12694v2 ) ライセンス: Link先を確認 | Guoqi Yu, Jing Zou, Xiaowei Hu, Angelica I. Aviles-Rivero, Jing Qin and Shujun Wang | (参考訳) 多変量時系列の予測は重要であり、系列間の依存性や系列内変動を含む複雑なパターンの正確なモデリングを要求する。
時系列ごとに特徴的な傾向特性が問題となり、既存の手法は基本的な移動平均カーネルに依存しており、現実のデータにおける非線形構造や複雑な傾向に苦しむことがある。
そこで我々は,動的傾向情報をより合理的に捉えるための学習可能な分解戦略を導入する。
さらに,チャネルワイドな自己注意と自己回帰的自己注意によって実装された時系列予測の精度向上のために,シリーズ間の依存関係とシリーズ内変動を同時にキャプチャする2重注意モジュールを提案する。
本手法の有効性を評価するために,8つのオープンソースデータセットを対象に実験を行い,最新手法と比較した。
その結果,Leddam (Learnable Decomposition and Dual Attention Module) は,予測性能の大幅な向上を示すだけでなく,提案した分解戦略を11.87%から48.56%のMSE誤差劣化率で他の手法にプラグインできることがわかった。 Predicting multivariate time series is crucial, demanding precise modeling of intricate patterns, including inter-series dependencies and intra-series variations. Distinctive trend characteristics in each time series pose challenges, and existing methods, relying on basic moving average kernels, may struggle with the non-linear structure and complex trends in real-world data. Given that, we introduce a learnable decomposition strategy to capture dynamic trend information more reasonably. Additionally, we propose a dual attention module tailored to capture inter-series dependencies and intra-series variations simultaneously for better time series forecasting, which is implemented by channel-wise self-attention and autoregressive self-attention. To evaluate the effectiveness of our method, we conducted experiments across eight open-source datasets and compared it with the state-of-the-art methods. Through the comparison results, our Leddam (LEarnable Decomposition and Dual Attention Module) not only demonstrates significant advancements in predictive performance, but also the proposed decomposition strategy can be plugged into other methods with a large performance-boosting, from 11.87% to 48.56% MSE error degradation. | 翻訳日:2024-03-07 00:00:35 公開日:2024-03-04 |
# 現実から論理へ: 生データから計画のための象徴的な語彙、行動、モデルを創出する From Reals to Logic and Back: Inventing Symbolic Vocabularies, Actions, and Models for Planning from Raw Data ( http://arxiv.org/abs/2402.11871v4 ) ライセンス: Link先を確認 | Naman Shah, Jayesh Nagpal, Pulkit Verma, Siddharth Srivastava | (参考訳) 手作りの論理的状態と行動表現は、タスクや動作計画問題を含む長い水平ロボット計画問題の難解な計算複雑性を克服するために広く用いられている。
しかし、そのような表現を作成するには、ロボットに関する強い直感と詳細な知識を持つ専門家と、特定の環境で達成すべきタスクが必要である。
この人間の直感への依存を取り除くことは、非常に活発な研究分野である。
本稿では,無意味な高次元実数値ロボット軌道から始まる抽象状態と行動に対する論理的関係表現を自律的に学習する最初のアプローチを提案する。
学習された表現は、pddlライクなドメインモデルを構成する。
決定論的設定における経験的な結果は、強力な抽象表現は、ほんの一握りのロボットの軌跡から学べることを示し、学習された関係表現は、古典的な直感的なハイレベルなアクションの概念を含まないこと、そして学習されたモデルは、これまで手作りの抽象化なしで計画のスコープを超えたタスクに計画アルゴリズムをスケールすることを可能にする。 Hand-crafted, logic-based state and action representations have been widely used to overcome the intractable computational complexity of long-horizon robot planning problems, including task and motion planning problems. However, creating such representations requires experts with strong intuitions and detailed knowledge about the robot and the tasks it may need to accomplish in a given setting. Removing this dependency on human intuition is a highly active research area. This paper presents the first approach for autonomously learning generalizable, logic-based relational representations for abstract states and actions starting from unannotated high-dimensional, real-valued robot trajectories. The learned representations constitute auto-invented PDDL-like domain models. Empirical results in deterministic settings show that powerful abstract representations can be learned from just a handful of robot trajectories; the learned relational representations include but go beyond classical, intuitive notions of high-level actions; and that the learned models allow planning algorithms to scale to tasks that were previously beyond the scope of planning without hand-crafted abstractions. | 翻訳日:2024-03-06 23:58:39 公開日:2024-03-04 |
# ファンデーションモデル時代におけるソフトウェア工学の再考: 信頼できるFMウェア開発における課題のカタログ Rethinking Software Engineering in the Foundation Model Era: A Curated Catalogue of Challenges in the Development of Trustworthy FMware ( http://arxiv.org/abs/2402.15943v2 ) ライセンス: Link先を確認 | Ahmed E. Hassan, Dayi Lin, Gopi Krishnan Rajbahadur, Keheliya Gallaba, Filipe R. Cogo, Boyuan Chen, Haoxiang Zhang, Kishanthan Thangarajah, Gustavo Ansaldi Oliva, Jiahuei Lin, Wali Mohammad Abdullah, Zhen Ming Jiang | (参考訳) 大規模言語モデル(LLM)のような基礎モデル(FM)は、新しいユースケースやビジネスモデルを実現することでソフトウェア開発に革命をもたらした。
FMを用いて構築されたソフトウェアをFMwareと呼ぶ。
FMwareのユニークな特性(プロンプト、エージェント、オーケストレーションの必要性など)とFMの本質的な制限(幻覚など)が組み合わさって、ソフトウェア工学の全く新しい課題へとつながる。
当社の産業経験から、企業FMware開発を非生産的でコストがかかり、リスクが伴う10のSE4FMware課題を特定しました。
本稿では,これらの課題を詳細に議論し,期待するイノベーションへの道について述べる。
次に、FMArtsを紹介します。これは、信頼できるFMウェアのエンジニアリングのためのクレードル・ツー・グラブプラットフォームを構築するための長期的な取り組みです。
最後に
(i)FMArtのユニークな特性によって、大規模顧客向けの複雑なFMウェアをタイムリーに設計・開発できることを示す。
(ii)そうすることで学んだことを話し合う。
上記の課題の開示とそれに取り組むための取り組みが、認識を高めるだけでなく、より深く、より深い議論、知識共有、そしてソフトウェア工学の分野にわたる革新的なソリューションを促進することを願っています。 Foundation models (FMs), such as Large Language Models (LLMs), have revolutionized software development by enabling new use cases and business models. We refer to software built using FMs as FMware. The unique properties of FMware (e.g., prompts, agents, and the need for orchestration), coupled with the intrinsic limitations of FMs (e.g., hallucination) lead to a completely new set of software engineering challenges. Based on our industrial experience, we identified 10 key SE4FMware challenges that have caused enterprise FMware development to be unproductive, costly, and risky. In this paper, we discuss these challenges in detail and state the path for innovation that we envision. Next, we present FMArts, which is our long-term effort towards creating a cradle-to-grave platform for the engineering of trustworthy FMware. Finally, we (i) show how the unique properties of FMArts enabled us to design and develop a complex FMware for a large customer in a timely manner and (ii) discuss the lessons that we learned in doing so. We hope that the disclosure of the aforementioned challenges and our associated efforts to tackle them will not only raise awareness but also promote deeper and further discussions, knowledge sharing, and innovative solutions across the software engineering discipline. | 翻訳日:2024-03-06 23:52:46 公開日:2024-03-04 |
# Dazzleを通して見ることを学ぶ Learning to See Through Dazzle ( http://arxiv.org/abs/2402.15919v2 ) ライセンス: Link先を確認 | Xiaopeng Peng, Erin F. Fleet, Abbie T. Watnik, Grover A. Swartzlander | (参考訳) マシンビジョンはレーザーダズル(レーザーダズル)に影響を受けやすく、強烈なレーザー光は過飽和やセンサーピクセルへの恒久的な損傷によって環境の知覚を盲目かつ歪めることができる。
ここでは,レーザー光のエネルギーを拡散する波面符号化位相マスクを用い,サンドウィッチ生成逆向ネットワーク(sgan)を導入し,レーザー誘起画像の飽和度,マスク誘起画像のぼかし,未知の照明条件,様々なノイズ劣化などの複雑な画像劣化から画像を復元する。
SGANアーキテクチャは、2つのGANを学習可能な画像デコンボリューションモジュールの周りにラップすることで、識別的および生成的手法を組み合わせる。
さらに、ニューラルネットワークのスペクトルバイアスを低減し、高周波画像の詳細の学習を改善するために、フーリエ特徴表現を利用する。
エンドツーエンドのトレーニングには、公開画像から大量のトレーニングデータのリアルな物理ベースの合成が含まれる。
我々は、SGANをトレーニングし、ピークレーザー照射をセンサー飽和閾値の最大10^6$倍に抑えるようにした。
実験室から収集した合成データセットとデータを用いて, 学習モデルの評価を行った。
提案した画像復元モデルは,様々なシーンコンテンツ,レーザーパワー,入射レーザアングル,周囲照明強度,ノイズ特性に対して,最先端の手法を定量的かつ定性的に上回る。 Machine vision is susceptible to laser dazzle, where intense laser light can blind and distort its perception of the environment through oversaturation or permanent damage to sensor pixels. Here we employ a wavefront-coded phase mask to diffuse the energy of laser light and introduce a sandwich generative adversarial network (SGAN) to restore images from complex image degradations, such as varying laser-induced image saturation, mask-induced image blurring, unknown lighting conditions, and various noise corruptions. The SGAN architecture combines discriminative and generative methods by wrapping two GANs around a learnable image deconvolution module. In addition, we make use of Fourier feature representations to reduce the spectral bias of neural networks and improve its learning of high-frequency image details. End-to-end training includes the realistic physics-based synthesis of a large set of training data from publicly available images. We trained the SGAN to suppress the peak laser irradiance as high as $10^6$ times the sensor saturation threshold - the point at which camera sensors may experience damage without the mask. The trained model was evaluated on both a synthetic data set and data collected from the laboratory. The proposed image restoration model quantitatively and qualitatively outperforms state-of-the-art methods for a wide range of scene contents, laser powers, incident laser angles, ambient illumination strengths, and noise characteristics. | 翻訳日:2024-03-06 23:52:22 公開日:2024-03-04 |
# fusion エンコーダネットワーク Fusion Encoder Networks ( http://arxiv.org/abs/2402.15883v2 ) ライセンス: Link先を確認 | Stephen Pasteris, Chris Hicks, Vasilios Mavroudis | (参考訳) 本稿では,シーケンスを出力にマップするニューラルネットワークを作成するためのアルゴリズムである fusion encoder networks (fens) について述べる。
結果として得られるニューラルネットワークは対数深さ(ネットワークを介して伝播するデータの劣化を緩和する)のみを持ち、線形時間(または線形数のプロセッサで対数時間)でシーケンスを処理できる。
FENの最も重要な特性は、一定深度フィードフォワードニューラルネットワークの準線形数を並列にトレーニングすることで学習することである。
これらのネットワークの深さが一定であることは、バックプロパゲーションがうまく機能することを意味する。
現在、FENのパフォーマンスは、まだ実装されていないため、推測されているだけである。 In this paper we present fusion encoder networks (FENs): a class of algorithms for creating neural networks that map sequences to outputs. The resulting neural network has only logarithmic depth (alleviating the degradation of data as it propagates through the network) and can process sequences in linear time (or in logarithmic time with a linear number of processors). The crucial property of FENs is that they learn by training a quasi-linear number of constant-depth feed-forward neural networks in parallel. The fact that these networks have constant depth means that backpropagation works well. We note that currently the performance of FENs is only conjectured as we are yet to implement them. | 翻訳日:2024-03-06 23:51:55 公開日:2024-03-04 |
# llmは、ジェイルブレイクを実際に防げる:vision paper LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper ( http://arxiv.org/abs/2402.15727v2 ) ライセンス: Link先を確認 | Daoyuan Wu and Shuai Wang and Yang Liu and Ning Liu | (参考訳) Jailbreakingは、既製の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
最近のGreedy Coordinate Gradient(GCG)攻撃、"Do-Anything-Now"(DAN)の使用のようなジェイルブレイクテンプレートベースの攻撃、多言語ジェイルブレイクなど、より効果的なジェイルブレイク攻撃を提案する研究がかなりの数存在する。
対照的に、防御面の探索は比較的少ない。
本報告では,Jailbreakプロンプトの遅延を最小化し,通常のユーザプロンプトの遅延を無視して,既存のJailbreak攻撃を防ぎながら,軽量かつ実用的なSELFDEFENDを提案する。
我々の重要な洞察は、どのような種類のジェイルブレイク戦略が採用されるにせよ、最終的に彼らはLSMに送られたプロンプトに有害なプロンプト(例えば「爆弾を作る方法」)を含める必要があり、既存のLSMは、彼らの安全方針に違反しているような有害なプロンプトを効果的に認識できることを発見したことである。
この知見に基づき、ユーザプロンプトに有害なプロンプトが存在するかを同時にチェックし、「no」または有害なプロンプトのトークンが出力されると、通常のスタックでチェックポイントをトリガーするシャドースタックを設計する。
後者は、敵のプロンプトに対する説明可能なLSM応答も生成できる。
GPT-3.5/4における手動解析により,SELFDEFENDが様々なジェイルブレイクシナリオで有効であることを示す。
また、SELFDEFENDをさらに強化する3つの今後の方向性をリストアップする。 Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models (LLMs). A considerable amount of research exists proposing more effective jailbreak attacks, including the recent Greedy Coordinate Gradient (GCG) attack, jailbreak template-based attacks such as using "Do-Anything-Now" (DAN), and multilingual jailbreak. In contrast, the defensive side has been relatively less explored. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts. Our key insight is that regardless of the kind of jailbreak strategies employed, they eventually need to include a harmful prompt (e.g., "how to make a bomb") in the prompt sent to LLMs, and we found that existing LLMs can effectively recognize such harmful prompts that violate their safety policies. Based on this insight, we design a shadow stack that concurrently checks whether a harmful prompt exists in the user prompt and triggers a checkpoint in the normal stack once a token of "No" or a harmful prompt is output. The latter could also generate an explainable LLM response to adversarial prompts. We demonstrate our idea of SELFDEFEND works in various jailbreak scenarios through manual analysis in GPT-3.5/4. We also list three future directions to further enhance SELFDEFEND. | 翻訳日:2024-03-06 23:51:45 公開日:2024-03-04 |
# 量子二乗法における極限と分離と量子クナップサック問題 Limitations and Separations in the Quantum Sum-of-squares, and the Quantum Knapsack Problem ( http://arxiv.org/abs/2402.14752v2 ) ライセンス: Link先を確認 | M. B. Hastings | (参考訳) 図1に残されているSYKモデルの平方和に関する2つの疑問に答える。
まず(「リミテーション」)、次数 4$ majorana 作用素の可換関係を考えるが、それらに他の関係を課さない二乗和の断片は、基底状態エネルギーに束縛された等級の正しい順序を与えないことを示す。
第二に(「分離」)、ref. 1 で定義されるグラフ不変量 $\psi(g)$ が独立数 $\alpha(g)$ よりも厳密に大きいことを示す。
不変な $\psi(g)$ は、グラフ $g$ によって決定される可換関係に従うハミルトニアンのノルム上の束であり、$\alpha(g)\leq \psi(g) \leq \vartheta(g)$、ただし $\vartheta(\cdot)$ はlovasz theta関数である。
SYKモデルで$q\neq 4$のケースを簡潔に論じる。
量子クナップサック問題(quantum knapsack problem)と呼ばれる問題を定義する。 We answer two questions regarding the sum-of-squares for the SYK model left open in Ref. 1, both of which are related to graphs. First (a "limitation"), we show that a fragment of the sum-of-squares, in which one considers commutation relations of degree-$4$ Majorana operators but does not impose any other relations on them, does not give the correct order of magnitude bound on the ground state energy. Second (a "separation"), we show that the graph invariant $\Psi(G)$ defined in Ref. 1 may be strictly larger than the independence number $\alpha(G)$. The invariant $\Psi(G)$ is a bound on the norm of a Hamiltonian whose terms obey commutation relations determined by the graph $G$, and it was shown that $\alpha(G)\leq \Psi(G) \leq \vartheta(G)$, where $\vartheta(\cdot)$ is the Lovasz theta function. We briefly discuss the case of $q\neq 4$ in the SYK model. Separately, we define a problem that we call the quantum knapsack problem. | 翻訳日:2024-03-06 23:49:57 公開日:2024-03-04 |
# OmniPred:Universal Regressorsとしての言語モデル OmniPred: Language Models as Universal Regressors ( http://arxiv.org/abs/2402.14547v3 ) ライセンス: Link先を確認 | Xingyou Song, Oscar Li, Chansoo Lee, Bangding Yang, Daiyi Peng, Sagi Perel, Yutian Chen | (参考訳) 実験設計の広い視野において、回帰は、パラメータのセットが与えられたシステムやモデルの結果メトリクスを正確に予測する強力なツールであるが、伝統的に特定のタスクにのみ適用可能なメソッドに限られてきた。
本稿では,多種多様な実世界実験から得られた$(x,y)$の評価データに対して,汎用的なエンドツーエンドレグレッサとして言語モデルをトレーニングするためのフレームワークであるomnipredを提案する。
世界最大のブラックボックス最適化データベースであるGoogle Vizierからソースされたデータを用いて、我々の広範な実験は、数学的パラメータと値のテキスト表現のみによって、言語モデルは非常に正確な数値回帰が可能であり、複数のタスクをトレーニングする機会が与えられれば、従来の回帰モデルよりも大幅に向上することを示した。 Over the broad landscape of experimental design, regression has been a powerful tool to accurately predict the outcome metrics of a system or model given a set of parameters, but has been traditionally restricted to methods which are only applicable to a specific task. In this paper, we propose OmniPred, a framework for training language models as universal end-to-end regressors over $(x,y)$ evaluation data from diverse real world experiments. Using data sourced from Google Vizier, one of the largest blackbox optimization databases in the world, our extensive experiments demonstrate that through only textual representations of mathematical parameters and values, language models are capable of very precise numerical regression, and if given the opportunity to train over multiple tasks, can significantly outperform traditional regression models. | 翻訳日:2024-03-06 23:49:32 公開日:2024-03-04 |
# クラッタ環境における衝突検知ケーブル把持法 A Collision-Aware Cable Grasping Method in Cluttered Environment ( http://arxiv.org/abs/2402.14498v2 ) ライセンス: Link先を確認 | Lei Zhang, Kaixin Bai, Qiang Li, Zhaopeng Chen, Jianwei Zhang | (参考訳) 粗い環境での堅牢なケーブルグルーピングを容易にするために,ケーブルグレーピング・畳み込みニューラルネットワークを提案する。
物理シミュレーションを利用して,ケーブル把持の複雑さ,ケーブルとロボットグリッパーの衝突の要因を模倣した広範なデータセットを生成する。
近似凸分解法を用いて非凸ケーブルモデルを解析し,シミュレーションによる把持の試みに基づき,把持品質を自律的にラベル付けした。
CG-CNNは、このシミュレーションデータセットを用いて洗練され、ドメインランダム化技術によって強化される。
その後、訓練されたモデルは把持品質を予測し、最適な把持姿勢をロボットコントローラに案内して実行を行う。
把握効果は、合成と実世界の両方の設定で評価される。
衝突感度のモデルから、既知のケーブルでは92.3%、未知のケーブルでは88.4%の予測可能な成功率を達成した。
追加資料はhttps://leizhang-public.github.io/cg-cnn/ にある。 We introduce a Cable Grasping-Convolutional Neural Network designed to facilitate robust cable grasping in cluttered environments. Utilizing physics simulations, we generate an extensive dataset that mimics the intricacies of cable grasping, factoring in potential collisions between cables and robotic grippers. We employ the Approximate Convex Decomposition technique to dissect the non-convex cable model, with grasp quality autonomously labeled based on simulated grasping attempts. The CG-CNN is refined using this simulated dataset and enhanced through domain randomization techniques. Subsequently, the trained model predicts grasp quality, guiding the optimal grasp pose to the robot controller for execution. Grasping efficacy is assessed across both synthetic and real-world settings. Given our model implicit collision sensitivity, we achieved commendable success rates of 92.3% for known cables and 88.4% for unknown cables, surpassing contemporary state-of-the-art approaches. Supplementary materials can be found at https://leizhang-public.github.io/cg-cnn/ . | 翻訳日:2024-03-06 23:49:17 公開日:2024-03-04 |
# NeuroFlux: 適応型局所学習を用いたメモリ効率の良いCNNトレーニング NeuroFlux: Memory-Efficient CNN Training Using Adaptive Local Learning ( http://arxiv.org/abs/2402.14139v2 ) ライセンス: Link先を確認 | Dhananjay Saikumar and Blesson Varghese | (参考訳) リソース制約のあるモバイルおよびエッジ環境での効率的なon-device convolutional neural network(cnn)トレーニングは、オープンチャレンジである。
バックプロパゲーションは標準のアプローチであるが、GPUメモリに保持されるCNNモデル全体で中間的なアクティベーションを要求する層間依存関係が強いため、GPUメモリ集約である。
これにより、利用可能なGPUメモリ予算内でのトレーニングを可能にするために、バッチサイズを小さくする必要があるが、結果として、実質的かつ非現実的なトレーニング時間が得られる。
本稿では,メモリ制限シナリオに適した新しいCNNトレーニングシステムであるNeuroFluxを紹介する。
まず,gpuメモリ使用量を削減するために可変数のフィルタを用いる適応型補助ネットワークと,gpuメモリ制約に対応するだけでなく,トレーニングプロセスを高速化するブロック固有の適応型バッチサイズである。
neurofluxは、cnnをgpuメモリ使用量に基づいてブロックにセグメンテーションし、さらにこれらのブロックの各レイヤに補助ネットワークをアタッチする。
これにより、新しいトレーニングパラダイム$\textit{`adaptive local learning'}$の下で、典型的な層依存性が乱される。
さらにNeuroFluxは、中間アクティベーションを積極的にキャッシュし、以前にトレーニングされたブロックの冗長なフォワードパスを排除し、トレーニングプロセスをさらに加速する。
様々なハードウェアプラットフォームにおいて、neurofluxは、厳密なgpuメモリ予算の下で2.3$\times$から6.1$\times$のトレーニングスピードアップを示し、neurofluxは10.9$\times$から29.4$\times$のパラメータを持つ合理化されたモデルを生成する。 Efficient on-device Convolutional Neural Network (CNN) training in resource-constrained mobile and edge environments is an open challenge. Backpropagation is the standard approach adopted, but it is GPU memory intensive due to its strong inter-layer dependencies that demand intermediate activations across the entire CNN model to be retained in GPU memory. This necessitates smaller batch sizes to make training possible within the available GPU memory budget, but in turn, results in substantially high and impractical training time. We introduce NeuroFlux, a novel CNN training system tailored for memory-constrained scenarios. We develop two novel opportunities: firstly, adaptive auxiliary networks that employ a variable number of filters to reduce GPU memory usage, and secondly, block-specific adaptive batch sizes, which not only cater to the GPU memory constraints but also accelerate the training process. NeuroFlux segments a CNN into blocks based on GPU memory usage and further attaches an auxiliary network to each layer in these blocks. This disrupts the typical layer dependencies under a new training paradigm - $\textit{`adaptive local learning'}$. Moreover, NeuroFlux adeptly caches intermediate activations, eliminating redundant forward passes over previously trained blocks, further accelerating the training process. The results are twofold when compared to Backpropagation: on various hardware platforms, NeuroFlux demonstrates training speed-ups of 2.3$\times$ to 6.1$\times$ under stringent GPU memory budgets, and NeuroFlux generates streamlined models that have 10.9$\times$ to 29.4$\times$ fewer parameters. | 翻訳日:2024-03-06 23:47:50 公開日:2024-03-04 |
# 真のマルチパーティイト非局所および非極大絡み状態の自己検定 Self-testing of genuine multipartite non-local and non-maximally entangled states ( http://arxiv.org/abs/2403.00010v2 ) ライセンス: Link先を確認 | Ranendu Adhikary | (参考訳) 自己テストは、内部動作を最小限に抑えた量子システムの特徴付けを可能にする。
そのため、量子システムにとって最強の認証形態である。
既存の自己テストの文献では、最大に絡み合っていないが、真の多部非局所性を示す自己テスト状態は未解決の問題のままである。
これは多元系において、真の多元系非局所性は多元系量子相関の最も強い形態として認識されているため、特に重要である。
本稿では,任意の数の当事者を含むシナリオについて,ハーディ様のパラドックスを提案する。
このパラドックスは、真のマルチパーティライト非局所性を検出するツールであり、パラドックスの極限を最も無視する状態の特定と自己検査を可能にし、非最大多重パーティライト絡み状態となる。
最近の結果 [\textit{\v{S}upi\'c et al., Nature Physics, 2023}] は、全ての量子状態の自己テストの手段としてネットワーク自己テストを提案するが、ここでは、真の非局所的および非最大エンタングル状態の自己テストを行うための標準自己テストフレームワーク内で運用する。 Self-testing enables the characterization of quantum systems with minimal assumptions their internal working. As such it represents the strongest form of certification for quantum systems. In the existing self-testing literature, self-testing states which are not maximally entangled, but exhibit genuine multipartite nonlocality, have remained an open problem. This is particularly important because, for many-body systems, genuine multipartite nonlocality has been recognized as the strongest form of multipartite quantum correlation. In this work, we present a Hardy-like paradox for scenarios involving arbitrary number of parties. This paradox is a tool for detecting genuine multipartite nonlocality, allowing for the specific identification and self-testing of states that defy the paradox's limits the most, which turn out to be non-maximally multipartite entangled states. While recent results [\textit{\v{S}upi\'c et al., Nature Physics, 2023}] suggest network self-testing as a means to self-test all quantum states, here we operate within the standard self-testing framework to self-test genuine multipartite non-local and non-maximally entangled states. | 翻訳日:2024-03-06 23:42:28 公開日:2024-03-04 |
# 衣服デジタル化のためのベイズ微分物理 Bayesian Differentiable Physics for Cloth Digitalization ( http://arxiv.org/abs/2402.17664v2 ) ライセンス: Link先を確認 | Deshan Gong, Ningtao Mao, He Wang | (参考訳) 布のデジタル化のための新しい手法を提案する。
比較的カジュアルな設定で取得したデータから学習する既存の方法から逸脱し,厳密にテストされた測定プロトコルで取得したデータから学習し,布の物理パラメータを求める。
しかし、このデータは現在存在しないため、まず布の正確な測定を行う新しいデータセットを提案する。
さらに、データキャプチャプロセスの性質上、データサイズは現在のディープラーニングのものよりもかなり小さい。
小さなデータから学ぶために,実布の複雑な材料不均一性を推定する新しいベイズ微分可能な布モデルを提案する。
非常に限られたデータサンプルから高い精度でデジタル化することができる。
徹底的な評価と比較を通じて,布のディジタル化,限られたデータサンプルからの学習の効率化,素材の変動の把握の一般的さを示す。
コードとデータはhttps://github.com/realcrane/Bayesian-Differentiable-Physics-for-Cloth-Digitalizationで利用可能である。 We propose a new method for cloth digitalization. Deviating from existing methods which learn from data captured under relatively casual settings, we propose to learn from data captured in strictly tested measuring protocols, and find plausible physical parameters of the cloths. However, such data is currently absent, so we first propose a new dataset with accurate cloth measurements. Further, the data size is considerably smaller than the ones in current deep learning, due to the nature of the data capture process. To learn from small data, we propose a new Bayesian differentiable cloth model to estimate the complex material heterogeneity of real cloths. It can provide highly accurate digitalization from very limited data samples. Through exhaustive evaluation and comparison, we show our method is accurate in cloth digitalization, efficient in learning from limited data samples, and general in capturing material variations. Code and data are available https://github.com/realcrane/Bayesian-Differentiable-Physics-for-Cloth-Digitalization | 翻訳日:2024-03-06 23:41:40 公開日:2024-03-04 |
# 拡散モデルの構造誘導型対向訓練 Structure-Guided Adversarial Training of Diffusion Models ( http://arxiv.org/abs/2402.17563v2 ) ライセンス: Link先を確認 | Ling Yang, Haotian Qian, Zhilong Zhang, Jingwei Liu, Bin Cui | (参考訳) 拡散モデルは様々な生成的応用において例外的な効果を示した。
既存のモデルは、データ分散モデリングにおける損失と一致するスコアの重み付けを最小化することに重点を置いているが、そのトレーニングは主にインスタンスレベルの最適化に重点を置いており、サンプル間のペアワイズ関係を示している。
この制限に対処するために, 拡散モデル (SADM) の構造誘導逆行訓練を導入する。
この先駆的なアプローチでは、各トレーニングバッチでサンプル間の多様体構造を学ぶことをモデルに強制します。
モデルがデータ分布の真正な多様体構造を捕捉することを保証するため,ミニマックスゲームにおいて,拡散生成器の新たな構造判別器に対する対角訓練を提唱し,実多様体構造と生成された構造とを区別する。
SADMは既存の拡散トランスフォーマー(DiT)を大幅に改善し、12データセットにわたる画像生成およびクロスドメイン微調整タスクにおいて既存の手法よりも優れており、256x256と512x512の解像度でクラス条件の画像生成を行うために、ImageNetに1.58と2.11の最先端FIDを確立する。 Diffusion models have demonstrated exceptional efficacy in various generative applications. While existing models focus on minimizing a weighted sum of denoising score matching losses for data distribution modeling, their training primarily emphasizes instance-level optimization, overlooking valuable structural information within each mini-batch, indicative of pair-wise relationships among samples. To address this limitation, we introduce Structure-guided Adversarial training of Diffusion Models (SADM). In this pioneering approach, we compel the model to learn manifold structures between samples in each training batch. To ensure the model captures authentic manifold structures in the data distribution, we advocate adversarial training of the diffusion generator against a novel structure discriminator in a minimax game, distinguishing real manifold structures from the generated ones. SADM substantially improves existing diffusion transformers (DiT) and outperforms existing methods in image generation and cross-domain fine-tuning tasks across 12 datasets, establishing a new state-of-the-art FID of 1.58 and 2.11 on ImageNet for class-conditional image generation at resolutions of 256x256 and 512x512, respectively. | 翻訳日:2024-03-06 23:41:22 公開日:2024-03-04 |
# 拡散モデルの相転移はデータの階層性を明らかにする A Phase Transition in Diffusion Models Reveals the Hierarchical Nature of Data ( http://arxiv.org/abs/2402.16991v2 ) ライセンス: Link先を確認 | Antonio Sclocchi, Alessandro Favero, Matthieu Wyart | (参考訳) 実際のデータ構造を理解することは、現代のディープラーニング手法の進展において最重要である。
画像などの自然データは、階層的および組合せ的な方法で組織化された特徴で構成されており、学習中にニューラルネットワークがキャプチャする。
最近の進歩は、拡散モデルが高品質な画像を生成できることを示し、その基盤となる構造を捉える能力を示している。
我々はこの現象を階層的データ生成モデルで研究する。
画像のクラスのようなハイレベルな特徴を再構築する確率が突然低下する、あるしきい値時の位相遷移によって、t$ の時間後に作用する後方拡散過程が支配されることがわかった。
代わりに、画像の特定の詳細のような低レベルの特徴の再構成は、拡散過程全体にわたってスムーズに進化する。
この結果は、遷移を超えるとクラスが変わったが、生成されたサンプルは初期画像の低レベル要素で構成される可能性があることを示している。
我々は,これらの理論的知見を,クラス非条件画像ネット拡散モデルに関する数値実験により検証する。
本分析では,拡散モデルにおける時間とスケールの関係を特徴付け,組合せデータ特性をモデル化するための強力なツールとして生成モデルを前進させる。 Understanding the structure of real data is paramount in advancing modern deep-learning methodologies. Natural data such as images are believed to be composed of features organised in a hierarchical and combinatorial manner, which neural networks capture during learning. Recent advancements show that diffusion models can generate high-quality images, hinting at their ability to capture this underlying structure. We study this phenomenon in a hierarchical generative model of data. We find that the backward diffusion process acting after a time $t$ is governed by a phase transition at some threshold time, where the probability of reconstructing high-level features, like the class of an image, suddenly drops. Instead, the reconstruction of low-level features, such as specific details of an image, evolves smoothly across the whole diffusion process. This result implies that at times beyond the transition, the class has changed but the generated sample may still be composed of low-level elements of the initial image. We validate these theoretical insights through numerical experiments on class-unconditional ImageNet diffusion models. Our analysis characterises the relationship between time and scale in diffusion models and puts forward generative models as powerful tools to model combinatorial data properties. | 翻訳日:2024-03-06 23:40:34 公開日:2024-03-04 |
# オープンエンドのビジュアル品質比較に向けて Towards Open-ended Visual Quality Comparison ( http://arxiv.org/abs/2402.16641v2 ) ライセンス: Link先を確認 | Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, and Weisi Lin | (参考訳) 比較設定(例えば、ペアワイズ選択、リストワイズランキング)は、画像品質評価(iqa)のための幅広い主観的研究で採用されている。
本研究では,新たな大規模マルチモダリティモデル(LMM)のエッジを拡張し,視覚的品質比較をオープンエンド設定へ拡張する。
1)品質比較に関するオープンレンジ質問に回答できる。
2) 直接回答以上の詳細な推論を提供することができる。
そこで我々は,コ・インストラクトを提案する。
このオープンソースのオープンソースの視覚的品質比較器を訓練するために、2つのソースからCo-Instruct-562Kデータセットを収集します。
(a)LLMをマージした単一画像品質記述
b) ラベルなしデータに対する GPT-4V "Teacher" 応答
さらに、この設定をよりよく評価するために、LMMのマルチイメージ比較に関する最初のベンチマークであるMICBenchを提案する。
我々は、Co-Instructが最先端のオープンソースLMMよりも平均30%高い精度で達成できるだけでなく、既存のベンチマークと提案したMICBenchでGPT-4V(教師)よりも優れていることを示した。
私たちのモデルはhttps://huggingface.co/q-future/co-instructで公開しています。 Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, we extend the edge of emerging large multi-modality models (LMMs) to further advance visual quality comparison into open-ended settings, that 1) can respond to open-range questions on quality comparison; 2) can provide detailed reasonings beyond direct answers. To this end, we propose the Co-Instruct. To train this first-of-its-kind open-source open-ended visual quality comparer, we collect the Co-Instruct-562K dataset, from two sources: (a) LLM-merged single image quality description, (b) GPT-4V "teacher" responses on unlabeled data. Furthermore, to better evaluate this setting, we propose the MICBench, the first benchmark on multi-image comparison for LMMs. We demonstrate that Co-Instruct not only achieves in average 30% higher accuracy than state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher), on both existing related benchmarks and the proposed MICBench. Our model is published at https://huggingface.co/q-future/co-instruct. | 翻訳日:2024-03-06 23:39:54 公開日:2024-03-04 |
# テキスト誘導ビジュアル生成と編集のためのクロスモーダル文脈拡散モデル Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing ( http://arxiv.org/abs/2402.16627v2 ) ライセンス: Link先を確認 | Ling Yang, Zhilong Zhang, Zhaochen Yu, Jingwei Liu, Minkai Xu, Stefano Ermon, Bin Cui | (参考訳) 条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
それにもかかわらず、一般的なテキストガイドによるビジュアル拡散モデルは、主にテキストとビジュアルの関係をリバースプロセスにのみ組み込むことに重点を置いている。
この前方プロセスと逆プロセスの矛盾は、視覚合成結果におけるテキスト意味論の正確な伝達を制限する可能性がある。
本稿では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルなコンテキストをフォワードおよびリバースプロセスに組み込んだ,新しい汎用文脈拡散モデル(contextdiff)を提案する。
我々はこの文脈を2つのプロセスのすべての時間ステップに伝播させ、それらの軌道に適応させ、モーダルな条件付きモデリングを容易にする。
DDPMとDDIMの両方への文脈的拡散を理論的導出により一般化し,テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価におけるモデルの有効性を示す。
各タスクにおいて、ContextDiffは、テキスト条件と生成されたサンプルのセマンティックアライメントを大幅に向上させ、定量的および定性的な評価によって証明された。
私たちのコードはhttps://github.com/YangLing0818/ContextDiffで利用可能です。 Conditional diffusion models have exhibited superior performance in high-fidelity text-guided visual generation and editing. Nevertheless, prevailing text-guided visual diffusion models primarily focus on incorporating text-visual relationships exclusively into the reverse process, often disregarding their relevance in the forward process. This inconsistency between forward and reverse processes may limit the precise conveyance of textual semantics in visual synthesis results. To address this issue, we propose a novel and general contextualized diffusion model (ContextDiff) by incorporating the cross-modal context encompassing interactions and alignments between text condition and visual sample into forward and reverse processes. We propagate this context to all timesteps in the two processes to adapt their trajectories, thereby facilitating cross-modal conditional modeling. We generalize our contextualized diffusion to both DDPMs and DDIMs with theoretical derivations, and demonstrate the effectiveness of our model in evaluations with two challenging tasks: text-to-image generation, and text-to-video editing. In each task, our ContextDiff achieves new state-of-the-art performance, significantly enhancing the semantic alignment between text condition and generated samples, as evidenced by quantitative and qualitative evaluations. Our code is available at https://github.com/YangLing0818/ContextDiff | 翻訳日:2024-03-06 23:39:23 公開日:2024-03-04 |
# 系統的自己補正によるLLM機械翻訳の改良 Improving LLM-based Machine Translation with Systematic Self-Correction ( http://arxiv.org/abs/2402.16379v2 ) ライセンス: Link先を確認 | Zhaopeng Feng, Yan Zhang, Hao Li, Wenqiang Liu, Jun Lang, Yang Feng, Jian Wu, Zuozhu Liu | (参考訳) 大規模言語モデル (LLM) は機械翻訳 (MT) において驚くべき結果を得た。
しかし、人間による慎重な評価は、LLMが生成した翻訳には、まだ複数の誤りが含まれていることを明らかにしている。
重要なことは、そのようなエラー情報をLSMにフィードバックすることで、自己補正が生じ、翻訳性能が向上する可能性がある。
これらの知見に触発されて, 翻訳, 見積, Refine の略語である TER という, LLM に基づく自己訂正翻訳フレームワークを導入し, この方向への大きな一歩を踏み出した。
私たちの発見は
1)当社の自己修正フレームワークは,高リソース言語から低リソース言語まで,あるいは英語中心か,あるいは他言語中心かに関わらず,幅広い言語を対象とした翻訳品質の向上において,llmをうまく支援しています。
2) TERは,従来の方法と比較して,系統性及び解釈性に優れる。
3) 異なる推定戦略は、aiフィードバックに様々な影響をもたらし、最終補正の有効性に直接影響する。
さらに,LLMの翻訳能力と評価能力との関係について検討し,自己補正とクロスモデル補正を含む様々な実験を行った。
私たちのコードとデータはhttps://github.com/fzp0424/self_correct_mtで利用可能です。 Large Language Models (LLMs) have achieved impressive results in Machine Translation (MT). However, careful evaluations by human reveal that the translations produced by LLMs still contain multiple errors. Importantly, feeding back such error information into the LLMs can lead to self-correction and result in improved translation performance. Motivated by these insights, we introduce a systematic LLM-based self-correcting translation framework, named TER, which stands for Translate, Estimate, and Refine, marking a significant step forward in this direction. Our findings demonstrate that 1) our self-correction framework successfully assists LLMs in improving their translation quality across a wide range of languages, whether it's from high-resource languages to low-resource ones or whether it's English-centric or centered around other languages; 2) TER exhibits superior systematicity and interpretability compared to previous methods; 3) different estimation strategies yield varied impacts on AI feedback, directly affecting the effectiveness of the final corrections. We further compare different LLMs and conduct various experiments involving self-correction and cross-model correction to investigate the potential relationship between the translation and evaluation capabilities of LLMs. Our code and data are available at https://github.com/fzp0424/self_correct_mt | 翻訳日:2024-03-06 23:38:45 公開日:2024-03-04 |
# LLM型チャットボットのCitation-Enhanced Generation Citation-Enhanced Generation for LLM-based Chatbots ( http://arxiv.org/abs/2402.16063v3 ) ライセンス: Link先を確認 | Weitao Li, Junkai Li, Weizhi Ma, Yang Liu | (参考訳) 大規模言語モデル(llm)は、チャットボットへの統合など、さまざまなシナリオにわたる強力な汎用知性を示す。
しかし、LLMベースのチャットボットにとって重要な課題は、応答中に幻覚的コンテンツを生成できるため、適用性が著しく制限されることである。
検索拡張生成や人間フィードバックによる強化学習など幻覚を緩和するために様々な努力がなされているが、そのほとんどは追加のトレーニングとデータアノテーションを必要とする。
本稿では,検索議論と組み合わせたポストホックCitation-Enhanced Generation (CEG)アプローチを提案する。
世代ごとの幻覚の予防に焦点を当てた従来の研究とは異なり,本手法はポストホック方式でこの問題に対処する。
生成したコンテンツに関連する文書を検索するための検索モジュールを組み込んでおり、自然言語推論に基づく引用生成モジュールを採用している。
生成されたコンテンツ内のステートメントが参照を欠くと、私たちのモデルは全てのステートメントが引用によってサポートされるまでレスポンスを再生できます。
本手法は様々なllmが可能なトレーニングフリーなプラグインである。
種々の幻覚関連データセットを用いた実験により、3つのベンチマークによる幻覚検出と応答再生の両方において、我々のフレームワークは最先端の手法よりも優れていた。
コードとデータセットは公開されます。 Large language models (LLMs) exhibit powerful general intelligence across diverse scenarios, including their integration into chatbots. However, a vital challenge of LLM-based chatbots is that they may produce hallucinated content in responses, which significantly limits their applicability. Various efforts have been made to alleviate hallucination, such as retrieval augmented generation and reinforcement learning with human feedback, but most of them require additional training and data annotation. In this paper, we propose a novel post-hoc Citation-Enhanced Generation (CEG) approach combined with retrieval argumentation. Unlike previous studies that focus on preventing hallucinations during generation, our method addresses this issue in a post-hoc way. It incorporates a retrieval module to search for supporting documents relevant to the generated content, and employs a natural language inference-based citation generation module. Once the statements in the generated content lack of reference, our model can regenerate responses until all statements are supported by citations. Note that our method is a training-free plug-and-play plugin that is capable of various LLMs. Experiments on various hallucination-related datasets show our framework outperforms state-of-the-art methods in both hallucination detection and response regeneration on three benchmarks. Our codes and dataset will be publicly available. | 翻訳日:2024-03-06 23:37:41 公開日:2024-03-04 |
# コンテキスト知識をエンコードする言語モデルの規模は?
レイヤワイズ探究研究 How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study ( http://arxiv.org/abs/2402.16061v2 ) ライセンス: Link先を確認 | Tianjie Ju, Weiwei Sun, Wei Du, Xinwei Yuan, Zhaochun Ren, Gongshen Liu | (参考訳) これまでの研究は、事実の検索や文脈知識の処理において、大きな言語モデル(LLM)の興味深い能力を示してきた。
しかし、LLMが知識を符号化するレイヤーワイドな能力についての研究は限られており、内部メカニズムの理解に挑戦する。
本稿では,探索タスクを通じてllmの層別能力を調べるための最初の試みについて述べる。
我々はChatGPTの強力な生成能力を活用して探索データセットを構築し、様々な事実に対応する多種多様な一貫性のある証拠を提供する。
検証基準として$\mathcal V$-useable情報を使用し、異なるレイヤ間でコンテキスト知識をエンコードする能力をよりよく反映します。
その結果,(1)上位層における文脈知識のエンコード,(2)下位層における知識関連エンティティトークンのコンテクスト知識のエンコード,(3)下位層における他のトークンのコンテクスト知識の増大,(3)無関係なエビデンスを付与した際の中間層内でのコンテクスト知識の保持を徐々に忘れること,などが示唆された。
コードはhttps://github.com/jometeorie/probing_llamaで公開されている。 Previous work has showcased the intriguing capability of large language models (LLMs) in retrieving facts and processing context knowledge. However, only limited research exists on the layer-wise capability of LLMs to encode knowledge, which challenges our understanding of their internal mechanisms. In this paper, we devote the first attempt to investigate the layer-wise capability of LLMs through probing tasks. We leverage the powerful generative capability of ChatGPT to construct probing datasets, providing diverse and coherent evidence corresponding to various facts. We employ $\mathcal V$-usable information as the validation metric to better reflect the capability in encoding context knowledge across different layers. Our experiments on conflicting and newly acquired knowledge show that LLMs: (1) prefer to encode more context knowledge in the upper layers; (2) primarily encode context knowledge within knowledge-related entity tokens at lower layers while progressively expanding more knowledge within other tokens at upper layers; and (3) gradually forget the earlier context knowledge retained within the intermediate layers when provided with irrelevant evidence. Code is publicly available at https://github.com/Jometeorie/probing_llama. | 翻訳日:2024-03-06 23:37:25 公開日:2024-03-04 |
# 機械学習を用いた住宅のフレキシビリティの定量化と予測 Quantifying and Predicting Residential Building Flexibility Using Machine Learning Methods ( http://arxiv.org/abs/2403.01669v1 ) ライセンス: Link先を確認 | Patrick Salter, Qiuhua Huang, Paulo Cesar Tabares-Velasco | (参考訳) 住宅は2022年現在、アメリカ合衆国における電力消費のかなりの部分(35%)を占めている。
より多くの分散型エネルギーリソースがビルに設置されるにつれて、グリッドに柔軟性を提供する可能性も高まる。
建物が提供する柔軟性を利用するには、アグリゲータやシステムオペレーターが柔軟性を定量化し予測する必要がある。
この地域の以前の工事は主に商業用建物に焦点を合わせ、住宅用建物にはほとんど取り組んでいなかった。
このギャップに対処するため、まず2つの相補的柔軟性指標(電力とエネルギーの柔軟性)を提案し、続いて4時間・24時間予測地平線における住宅の時変および散発的柔軟性を予測するための機械学習に基づく主流モデルについて検討する。
長短メモリ(LSTM)モデルは最高の性能を達成し、平均誤差0.7kWで24時間先まで電力柔軟性を予測できる。
しかし、エネルギーの柔軟性のために、LSTMモデルは年間を通じて一貫した運用パターンを持つ負荷に対してのみ成功し、HVACシステムに関連するエネルギーの柔軟性を予測する際の課題に直面している。 Residential buildings account for a significant portion (35\%) of the total electricity consumption in the U.S. as of 2022. As more distributed energy resources are installed in buildings, their potential to provide flexibility to the grid increases. To tap into that flexibility provided by buildings, aggregators or system operators need to quantify and forecast flexibility. Previous works in this area primarily focused on commercial buildings, with little work on residential buildings. To address the gap, this paper first proposes two complementary flexibility metrics (i.e., power and energy flexibility) and then investigates several mainstream machine learning-based models for predicting the time-variant and sporadic flexibility of residential buildings at four-hour and 24-hour forecast horizons. The long-short-term-memory (LSTM) model achieves the best performance and can predict power flexibility for up to 24 hours ahead with the average error around 0.7 kW. However, for energy flexibility, the LSTM model is only successful for loads with consistent operational patterns throughout the year and faces challenges when predicting energy flexibility associated with HVAC systems. | 翻訳日:2024-03-06 20:28:50 公開日:2024-03-04 |
# 拡散過程による逆エネルギーモデルの改善 Improving Adversarial Energy-Based Model via Diffusion Process ( http://arxiv.org/abs/2403.01666v1 ) ライセンス: Link先を確認 | Cong Geng, Tian Han, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, S{\o}ren Hauberg, Bo Li | (参考訳) 生成モデルは強い生成能力を示し、効率的な確率推定は少ない。
エネルギーベースモデル~(EBM)は、非正規化密度を効率的にパラメータ化するための柔軟なエネルギー関数を定義するが、訓練が難しいことで悪名高い。
対戦型EMMは、従来のEMMで使用される高価なMCMCサンプリングを避けるためにミニマックストレーニングゲームを形成するジェネレータを導入するが、敵型EMMと他の強力な生成モデルとの間には顕著なギャップがある。
拡散モデルにインスパイアされた私たちは、長い過程をいくつかの小さなステップに分割するために、各デノナイジングステップにESMを組み込んだ。
さらに, 対称なジェフリー発散を採用し, 逆EBMにおける主な課題に対処するため, 発電機の訓練に後方分布のばらつきを導入する。
提案実験は, 既存の敵ESMと比較して, 発生率を著しく向上させるとともに, 効率的な密度推定に有用なエネルギー関数を提供する。 Generative models have shown strong generation ability while efficient likelihood estimation is less explored. Energy-based models~(EBMs) define a flexible energy function to parameterize unnormalized densities efficiently but are notorious for being difficult to train. Adversarial EBMs introduce a generator to form a minimax training game to avoid expensive MCMC sampling used in traditional EBMs, but a noticeable gap between adversarial EBMs and other strong generative models still exists. Inspired by diffusion-based models, we embedded EBMs into each denoising step to split a long-generated process into several smaller steps. Besides, we employ a symmetric Jeffrey divergence and introduce a variational posterior distribution for the generator's training to address the main challenges that exist in adversarial EBMs. Our experiments show significant improvement in generation compared to existing adversarial EBMs, while also providing a useful energy function for efficient density estimation. | 翻訳日:2024-03-06 20:28:32 公開日:2024-03-04 |
# 絡み合い基準と絡み合い検出プロトコルの分離 Separation between Entanglement Criteria and Entanglement Detection Protocols ( http://arxiv.org/abs/2403.01664v1 ) ライセンス: Link先を確認 | Zhenhuan Liu, Fuchuan Wei | (参考訳) エンタングルメント検出は量子情報科学における最も基本的な課題の一つであり、理論研究や量子システムベンチマークにおいて重要な役割を果たす。
研究者は、高い検出能力と小さな観測可能な数値を持つ強力な絡み合い基準を提案している。
それにもかかわらず、絡み合い基準は絡み合いの存在を決定する数学的規則のみを表す。
良好なエンタングルメント基準と効果的な実験エンタングルメント検出プロトコル(edp)との関係はよく分かっていない。
本研究では,EDPの検知能力とロバスト性に関する仮定を紹介し,それらを用いて絡み合い基準とEDPの違いを示す。
具体的には,未知の純二成分状態に対するエンタングルメント検出タスクを設計し,任意のedpのサンプル複雑性と適切なエンタングルメント基準の観測可能な数の指数的分離が可能であることを示す。
さらに, 最下位のサンプル複雑性を持つ最適edpは, 最少の観測量を持つ最適エンタングルメント基準に必ずしも一致するとは限らないことを見出した。
この結果は,量子メモリによる指数的高速化を証明し,多部絡み検出に一般化することができる。
本研究は,EDP設計の重要性と独立性を強調することで,絡み検出実験の実践的意義を実証する。 Entanglement detection is one of the most fundamental tasks in quantum information science, playing vital roles in theoretical studies and quantum system benchmarking. Researchers have proposed many powerful entanglement criteria with high detection capabilities and small observable numbers. Nonetheless, entanglement criteria only represent mathematical rules deciding the existence of entanglement. The relationship between a good entanglement criterion and an effective experimental entanglement detection protocol (EDP) is poorly understood. In this study, we introduce postulates for EDPs about their detection capabilities and robustness and use them to show the difference between entanglement criteria and EDPs. Specifically, we design an entanglement detection task for unknown pure bipartite states and demonstrate that the sample complexity of any EDP and the number of observables for a good entanglement criterion can have exponential separation. Furthermore, we discover that the optimal EDP with the lowest sample complexity does not necessarily correspond to the optimal entanglement criterion with the fewest observables. Our results can be used to prove the exponential speedups achieved through quantum memory and be generalized to multipartite entanglement detection. By highlighting the significance and independence of EDP design, our work holds practical implications for entanglement detection experiments. | 翻訳日:2024-03-06 20:28:16 公開日:2024-03-04 |
# PillarGen: Pillarベースのポイント生成ネットワークによるレーダポイントクラウド密度と品質の向上 PillarGen: Enhancing Radar Point Cloud Density and Quality via Pillar-based Point Generation Network ( http://arxiv.org/abs/2403.01663v1 ) ライセンス: Link先を確認 | Jisong Kim, Geonho Bang, Kwangjin Choi, Minjae Seong, Jaechang Yoo, Eunjong Pyo, Jun Won Choi | (参考訳) 本稿では,ピラーベースポイント生成ネットワーク (pilar-based point generation network, pillargen) と呼ばれる新しいポイント生成モデルを提案する。
PillarGenは、提供される入力ポイントクラウドに基づいて、密度と品質を向上した合成ポイントクラウドを生成することができる。
PillarGenモデルは以下の3つのステップを実行する。
1)柱符号化
2)占有柱予測(opp)、及び
3) Pillar to Point Generation (PPG)。
入力点雲は、柱格子構造を用いて符号化され、柱特徴を生成する。
そして、oppはポイント生成に使用するアクティブなピラーを決定し、アクティブなピラーごとに生成されるポイントの中心とポイントの数を予測する。
PPGは、OPPが提供する情報に基づいて、各アクティブピラーの合成点を生成する。
プロプライエタリなレーダデータセットを用いてPillarGenの性能を評価し,長距離レーダデータを監視対象とする短距離レーダデータの密度と品質の向上に着目した。
実験の結果,PillarGenは従来の点検法よりも定量的,定性的に優れていることがわかった。
また,鳥の眼球物体検出にピラーゲンを組み込むと,検出精度が大幅に向上することを確認した。 In this paper, we present a novel point generation model, referred to as Pillar-based Point Generation Network (PillarGen), which facilitates the transformation of point clouds from one domain into another. PillarGen can produce synthetic point clouds with enhanced density and quality based on the provided input point clouds. The PillarGen model performs the following three steps: 1) pillar encoding, 2) Occupied Pillar Prediction (OPP), and 3) Pillar to Point Generation (PPG). The input point clouds are encoded using a pillar grid structure to generate pillar features. Then, OPP determines the active pillars used for point generation and predicts the center of points and the number of points to be generated for each active pillar. PPG generates the synthetic points for each active pillar based on the information provided by OPP. We evaluate the performance of PillarGen using our proprietary radar dataset, focusing on enhancing the density and quality of short-range radar data using the long-range radar data as supervision. Our experiments demonstrate that PillarGen outperforms traditional point upsampling methods in quantitative and qualitative measures. We also confirm that when PillarGen is incorporated into bird's eye view object detection, a significant improvement in detection accuracy is achieved. | 翻訳日:2024-03-06 20:27:57 公開日:2024-03-04 |
# 教師付き学習問題の幾何学と安定性 Geometry and Stability of Supervised Learning Problems ( http://arxiv.org/abs/2403.01660v1 ) ライセンス: Link先を確認 | Facundo M\'emoli, Brantley Vose, Robert C. Williamson | (参考訳) 本稿では,教師付き学習課題間の距離の概念を導入し,リスク距離と呼ぶ。
サンプリングバイアス、ノイズ、制限されたデータ、近似などの深刻な問題が、これらの修正がどの程度リスク距離の下を移動できるかを制限することによって、特定の問題を変化させる可能性がある。
距離の確立により、教師付き学習問題の空間の幾何を探索し、明示的な測地学を提供し、分類問題の集合がより大規模な問題に密着していることを証明する。
また,リスク距離の2つの変種を提示する。1つは,特定の重みを問題の予測器に組み込むもので,もう1つは,問題のリスクランドスケープの輪郭に対してより敏感なものである。 We introduce a notion of distance between supervised learning problems, which we call the Risk distance. This optimal-transport-inspired distance facilitates stability results; one can quantify how seriously issues like sampling bias, noise, limited data, and approximations might change a given problem by bounding how much these modifications can move the problem under the Risk distance. With the distance established, we explore the geometry of the resulting space of supervised learning problems, providing explicit geodesics and proving that the set of classification problems is dense in a larger class of problems. We also provide two variants of the Risk distance: one that incorporates specified weights on a problem's predictors, and one that is more sensitive to the contours of a problem's risk landscape. | 翻訳日:2024-03-06 20:27:38 公開日:2024-03-04 |
# steane症候群抽出法によるbacon-shorコードの性能改善 Improved performance of the Bacon-Shor code with Steane's syndrome extraction method ( http://arxiv.org/abs/2403.01659v1 ) ライセンス: Link先を確認 | Guillermo Escobar-Arrieta, Mauricio Guti\'errez | (参考訳) 我々は,steane と shor 症候群の抽出法を bacon-shor コードと比較した。
本稿では,バコンソー符号の論理値である$|0\rangle_L$と$|+\rangle_L$をフラグライクな量子ビットを用いて生成したGreenberger-Horne-Zeilinger状態を検証することで,選択後の簡単な戦略を提案する。
偏極パウリ誤差モデルを用いて安定化器シミュレーションを行い,Steaneの手法がショアの手法よりもかなり優れていることを示す。
ステアンの手法はシュールよりも約1桁高い擬似スレッショルドを生じさせるだけでなく、その利点は距離-3から距離-9のベーコンソール符号へ進むにつれて単調に増加する。
Steaneの手法の利点は、ゲートエラーが測定誤差よりも支配的な体制において最大である。
ステイン法に提案する回路構成のいくつかは、公式にはフォールトトレラントではないが、実験的に関連する物理エラー率のための正式にフォールトトレラントなshorのプロトコルを上回っている。
このことは、完全符号距離を維持する形式的なフォールトトレラント回路の構築は、量子誤り訂正プロトコルの有用性を保証するために厳密には必要ないことを示唆している。
ポストセレクションに頼っているにもかかわらず、我々の手法は効率的である。
これらのプロトコルは、トラップされたイオンや中性原子のような長距離の量子ビット相互作用を持つプラットフォーム上で自然に実装できる。 We compare Steane's and Shor's syndrome extraction methods on the Bacon-Shor code. We propose a straightforward strategy based on post-selection to prepare the logical $|0\rangle_L$ and $|+\rangle_L$ states of the Bacon-Shor code by using flag-like qubits to verify their constituent Greenberger-Horne-Zeilinger states. We perform stabilizer simulations with a depolarizing Pauli error model and find that Steane's method significantly outperforms Shor's. Not only does Steane's method result in pseudo-thresholds that are about 1 order of magnitude higher than Shor's, but also its advantage increases monotonically as we go from a distance-3 to a distance-9 Bacon-Shor code. The advantage of Steane's method is the greatest in the regime where gate errors dominate over measurement errors. Some of the circuit constructions we propose for Steane's method are not formally fault-tolerant, yet outperform the formally fault-tolerant Shor's protocols for experimentally relevant physical error rates. This suggest that constructing formally fault-tolerant circuits that maintain the full code distance is not strictly necessary to guarantee the usefulness of a quantum error-correcting protocol. Despite relying on post-selection, we find that our methods can be efficient. These protocols would be naturally implementable on a platform with long-range qubit interactions like trapped ions or neutral atoms. | 翻訳日:2024-03-06 20:27:24 公開日:2024-03-04 |
# 歴史的発電と気象データを用いた階層的時間的畳み込みニューラルネットワークによる日頭地域太陽エネルギー予測 Day-ahead regional solar power forecasting with hierarchical temporal convolutional neural networks using historical power generation and weather data ( http://arxiv.org/abs/2403.01653v1 ) ライセンス: Link先を確認 | Maneesha Perera, Julian De Hoog, Kasun Bandara, Damith Senanayake, Saman Halgamuge | (参考訳) 地域の屋上太陽光発電システムの総発電量の予測を含む地域太陽発電予測は、エネルギーセクターにおける様々な利害関係者にとって重要な意味を持つ。
しかし、予測プロセスで考慮する必要がある地理的に分散した場所からの膨大な太陽発電と気象時系列は、正確な地域予測に困難をもたらす。
そのため、従来の研究は、地域内のすべての太陽発生時系列を付加する単一時系列(すなわち集約時系列)の予測に焦点を絞ったり、位置特異的気象効果を無視したり、位置特異的気象データを用いてそれぞれのPVサイト(すなわち個々の時系列)の太陽発生時系列を個別に予測したりすることで、多くの予測モデルを生み出した。
本研究では,各地域における天気データと時系列(集約,個人)の両タイプを効果的に活用する,深層学習に基づく地域予測手法を提案する。
本稿では,階層型時間畳み込みニューラルネットワークアーキテクチャ(htcnn)と,地域電力予測にhtcnnを適用するための2つの戦略を提案する。
まず,単一HTCNNを用いた地域予測について検討する。
次に、気象情報に基づいて地域を複数のサブリージョンに分割し、各サブリージョン毎に別個のhtcnnをトレーニングし、各サブリージョンの予測を追加して地域予測を生成する。
提案手法は,オーストラリア西部の101箇所から1年以上にわたって収集した大規模データセットを用いて評価し,1日先延ばしの予測を行った。
我々は、我々のアプローチをよく知られた代替手法と比較し、サブリージョンのHTCNNが個々のネットワークを減らし、予測スキルスコアが40.2%で統計的に有意な誤差を6.5%減少させることを示す。 Regional solar power forecasting, which involves predicting the total power generation from all rooftop photovoltaic systems in a region holds significant importance for various stakeholders in the energy sector. However, the vast amount of solar power generation and weather time series from geographically dispersed locations that need to be considered in the forecasting process makes accurate regional forecasting challenging. Therefore, previous work has limited the focus to either forecasting a single time series (i.e., aggregated time series) which is the addition of all solar generation time series in a region, disregarding the location-specific weather effects or forecasting solar generation time series of each PV site (i.e., individual time series) independently using location-specific weather data, resulting in a large number of forecasting models. In this work, we propose two deep-learning-based regional forecasting methods that can effectively leverage both types of time series (aggregated and individual) with weather data in a region. We propose two hierarchical temporal convolutional neural network architectures (HTCNN) and two strategies to adapt HTCNNs for regional solar power forecasting. At first, we explore generating a regional forecast using a single HTCNN. Next, we divide the region into multiple sub-regions based on weather information and train separate HTCNNs for each sub-region; the forecasts of each sub-region are then added to generate a regional forecast. The proposed work is evaluated using a large dataset collected over a year from 101 locations across Western Australia to provide a day ahead forecast. We compare our approaches with well-known alternative methods and show that the sub-region HTCNN requires fewer individual networks and achieves a forecast skill score of 40.2% reducing a statistically significant error by 6.5% compared to the best counterpart. | 翻訳日:2024-03-06 20:26:59 公開日:2024-03-04 |
# 個人に関する決定を下すための先進的自動システムの政府開発・活用への提言 Recommendations for Government Development and Use of Advanced Automated Systems to Make Decisions about Individuals ( http://arxiv.org/abs/2403.01649v1 ) ライセンス: Link先を確認 | Susan Landau, James X. Dempsey, Ece Kamar, Steven M. Bellovin | (参考訳) 競争性 -- 決定に効果的に挑戦する能力 -- は公平性の実装に不可欠である。
個人に関する政府の意思決定の文脈では、競争可能性はしばしば法的に正当な手続きの要素として求められ、特定の手続きは特定のプログラムに関連する州または連邦法によって要求される。
さらに、競争性はシステムエラーを発見する貴重な方法であり、継続的な評価やシステム改善に寄与する。
2024年1月24~25日,国立科学財団とウィリアム・アンド・フローレット財団の支援を受けて,我々は,先進的な自動意思決定,競争性,法律に関するワークショップのための,多種多様な官人,先進技術企業の代表者,学術・非営利セクターの技術・政策専門家,擁護者,利害関係者を招集した。
ワークショップの豊かで幅広い議論から知らされた私たちは、これらの推奨事項を提示します。
議論を要約した完全なレポートが準備中である。 Contestability -- the ability to effectively challenge a decision -- is critical to the implementation of fairness. In the context of governmental decision making about individuals, contestability is often constitutionally required as an element of due process; specific procedures may be required by state or federal law relevant to a particular program. In addition, contestability can be a valuable way to discover systemic errors, contributing to ongoing assessments and system improvement. On January 24-25, 2024, with support from the National Science Foundation and the William and Flora Hewlett Foundation, we convened a diverse group of government officials, representatives of leading technology companies, technology and policy experts from academia and the non-profit sector, advocates, and stakeholders for a workshop on advanced automated decision making, contestability, and the law. Informed by the workshop's rich and wide-ranging discussion, we offer these recommendations. A full report summarizing the discussion is in preparation. | 翻訳日:2024-03-06 20:26:27 公開日:2024-03-04 |
# JPEG 2000における完全スケーラブルな画像圧縮のためのニューラルネットワーク支援リフティングステップ Neural Network Assisted Lifting Steps For Improved Fully Scalable Lossy Image Compression in JPEG 2000 ( http://arxiv.org/abs/2403.01647v1 ) ライセンス: Link先を確認 | Xinyue Li, Aous Naman and David Taubman | (参考訳) 本研究は,従来のウェーブレット変換の昇降ステップを,ニューラルネットワークによる昇降ステップを追加することを提案する。
これらの追加ステップにより、ウェーブレットサブバンド間の残差(特にエイリアス情報)が減少し、解像度の低下による再構成画像の視覚的品質が向上する。
提案手法は、ハイ・ツー・ロー・ステップとロー・ツー・ハイ・ステップの2段階を含む。
ハイ・トゥ・ローステップはディテールバンドを同じ解像度で使用することによりローパスバンドのエイリアスを抑制するが、ロー・トゥ・ハイステップはディテールバンドからの冗長性をさらに取り除き、より高いエネルギー圧縮を達成することを目的としている。
提案した2つのリフトステップはエンドツーエンドでトレーニングされ、バックプロパゲーション中に量子化とコスト関数の非微分性を克服するために後方アニール方式を用いる。
重要なことに、本論文で採用されているネットワークはコンパクトで非線形性が限られており、完全にスケーラブルなシステムを実現している。
JPEG 2000の画像符号化標準に提案手法を適用することで、JPEG 2000の品質と解像度のスケーラビリティを保ちながら、幅広いビットレートで平均BDビットレートを最大17.4%削減できる。 This work proposes to augment the lifting steps of the conventional wavelet transform with additional neural network assisted lifting steps. These additional steps reduce residual redundancy (notably aliasing information) amongst the wavelet subbands, and also improve the visual quality of reconstructed images at reduced resolutions. The proposed approach involves two steps, a high-to-low step followed by a low-to-high step. The high-to-low step suppresses aliasing in the low-pass band by using the detail bands at the same resolution, while the low-to-high step aims to further remove redundancy from detail bands, so as to achieve higher energy compaction. The proposed two lifting steps are trained in an end-to-end fashion; we employ a backward annealing approach to overcome the non-differentiability of the quantization and cost functions during back-propagation. Importantly, the networks employed in this paper are compact and with limited non-linearities, allowing a fully scalable system; one pair of trained network parameters are applied for all levels of decomposition and for all bit-rates of interest. By employing the proposed approach within the JPEG 2000 image coding standard, our method can achieve up to 17.4% average BD bit-rate saving over a wide range of bit-rates, while retaining quality and resolution scalability features of JPEG 2000. | 翻訳日:2024-03-06 20:26:08 公開日:2024-03-04 |
# スピン-1原子に対する一般化ディッケモデルのダイナミクス Dynamics of a Generalized Dicke Model for Spin-1 Atoms ( http://arxiv.org/abs/2403.01716v1 ) ライセンス: Link先を確認 | Ofri Adiv and Scott Parkins | (参考訳) ディッケモデル(dicke model)は、原子のアンサンブルと光学キャビティの単一放射モードとの相互作用を記述する理論キャビティ量子電気力学(cavity qed)の定式である。
量子力学的および半古典的に2レベル原子について研究され、相転移、相乗法、カオスなどの様々な力学を実証している。
本研究では、独立な共回転結合項を持つ開スピン1ディックモデルと、原子エネルギーレベル構造の制御を可能にする二次ゼーマンシフトについて検討する。
2つの近似の下での演算子およびモーメント方程式の安定性について検討し, 系の相転移を示す。
これらの結果を補完するために,上記の近似を緩和し,システムを半分類的に検討する。
この半古典的モデルにおける定常状態および振動超放射への相転移の証拠とカオス力学の出現を示す。
モデルによって認識される多様で複雑な振る舞いは、そのダイナミクスをより厳密にマッピングする必要性を強調します。 The Dicke model is a staple of theoretical cavity Quantum Electrodynamics (cavity QED), describing the interaction between an ensemble of atoms and a single radiation mode of an optical cavity. It has been studied both quantum mechanically and semiclassically for two-level atoms, and demonstrates a rich variety of dynamics such as phase transitions, phase multistability, and chaos. In this work we explore an open, spin-1 Dicke model with independent co- and counter-rotating coupling terms as well as a quadratic Zeeman shift enabling control over the atomic energy-level structure. We investigate the stability of operator and moment equations under two approximations and show the system undergoes phase transitions. To compliment these results, we relax the aforementioned approximations and investigate the system semiclassically. We show evidence of phase transitions to steady-state and oscillatory superradiance in this semiclassical model, as well as the emergence of chaotic dynamics. The varied and complex behaviours admitted by the model highlights the need to more rigorously map its dynamics. | 翻訳日:2024-03-06 20:20:10 公開日:2024-03-04 |
# MCA:モーメントチャンネル注意ネットワーク MCA: Moment Channel Attention Networks ( http://arxiv.org/abs/2403.01713v1 ) ライセンス: Link先を確認 | Yangbo Jiang, Zhiwei Jiang, Le Han, Zenan Huang, Nenggan Zheng | (参考訳) チャネルアテンション機構は、ネットワークの表現能力を高めるためにチャネルウェイトを再調整する。
しかし、主流の手法は、しばしば、モデル全体のポテンシャルを著しく制限する機能スクラッシャーとして、グローバル平均プールにのみ依存する。
本稿では,ニューラルネットワークにおける特徴マップの統計的モーメントについて検討する。
本研究は,モデルキャパシティ向上における高次モーメントの重要性を明らかにする。
その結果、グローバルな空間的コンテキストを捉えるために、EMA(Extensive Moment Aggregation)と呼ばれる柔軟で包括的なメカニズムを導入する。
このメカニズムに基づいて,複数のモーメントベース情報を効率的に統合し,クロスモーメント畳み込み(cmc)モジュールによる計算コストを最小化するモーメントチャネルアテンション(mca)フレームワークを提案する。
CMCモジュールはチャネルワイドの畳み込み層を介して、複数の順序モーメント情報とクロスチャネル特徴をキャプチャする。
MCAブロックは軽量で、さまざまなニューラルネットワークアーキテクチャに容易に統合できるように設計されている。
古典的画像分類,オブジェクト検出,インスタンス分割タスクの実験結果から,提案手法が既存のチャネルアテンション手法よりも優れていることを示す。 Channel attention mechanisms endeavor to recalibrate channel weights to enhance representation abilities of networks. However, mainstream methods often rely solely on global average pooling as the feature squeezer, which significantly limits the overall potential of models. In this paper, we investigate the statistical moments of feature maps within a neural network. Our findings highlight the critical role of high-order moments in enhancing model capacity. Consequently, we introduce a flexible and comprehensive mechanism termed Extensive Moment Aggregation (EMA) to capture the global spatial context. Building upon this mechanism, we propose the Moment Channel Attention (MCA) framework, which efficiently incorporates multiple levels of moment-based information while minimizing additional computation costs through our Cross Moment Convolution (CMC) module. The CMC module via channel-wise convolution layer to capture multiple order moment information as well as cross channel features. The MCA block is designed to be lightweight and easily integrated into a variety of neural network architectures. Experimental results on classical image classification, object detection, and instance segmentation tasks demonstrate that our proposed method achieves state-of-the-art results, outperforming existing channel attention methods. | 翻訳日:2024-03-06 20:19:53 公開日:2024-03-04 |
# LLMはアーキテクチャ設計の決定を生成できるか?
-探究的実証的研究 Can LLMs Generate Architectural Design Decisions? -An Exploratory Empirical study ( http://arxiv.org/abs/2403.01709v1 ) ライセンス: Link先を確認 | Rudra Dhar, Karthik Vaidhyanathan, Vasudeva Varma | (参考訳) アーキテクチャ知識管理 (Architectural Knowledge Management, AKM) は、プロジェクトや組織内でのアーキテクチャ上の決定や設計に関連する情報の組織的な処理である。
AKMの重要なアーティファクトはアーキテクチャ決定レコード(ADR)であり、重要な設計決定を文書化している。
adrは、意思決定コンテキスト、意思決定、設計決定に関連するさまざまな側面を捉え、透明性、コラボレーション、理解を促進する文書である。
彼らの利点にもかかわらず、ADRによるソフトウェア開発の採用は、時間的制約や一貫性のない取り込みといった課題のために遅い。
大規模言語モデル(LLM)の最近の進歩は、ADR生成を容易にすることで、この採用ギャップを埋めるのに役立つかもしれない。
しかし, ADR 生成や理解における LLM の有効性は検討されていない。
この目的を達成するために,本研究では,意思決定コンテキストを考慮したALMを用いたADR生成の可能性を検討するための探索的研究を行う。
探索的研究では,0ショット,少数ショット,微調整によるGPTモデルとT5モデルを用いて,その文脈からADRの意思決定を生成する。
以上の結果から,GPT-4のような最先端のモデルでは,人間レベルの性能に欠けるが,関連性があり正確な設計決定が生成されることが示唆された。
さらに、GPT-3.5のようなよりコスト効率の良いモデルでは、数ショット設定で同様の結果が得られ、Flan-T5のような小さなモデルでは、微調整後に同等の結果が得られる。
結論として、この探索的研究は、LCMが設計決定を生成できることを示しているが、人間レベルの生成を達成し、標準化された普及を確立するためにはさらなる研究が必要である。 Architectural Knowledge Management (AKM) involves the organized handling of information related to architectural decisions and design within a project or organization. An essential artifact of AKM is the Architecture Decision Records (ADR), which documents key design decisions. ADRs are documents that capture decision context, decision made and various aspects related to a design decision, thereby promoting transparency, collaboration, and understanding. Despite their benefits, ADR adoption in software development has been slow due to challenges like time constraints and inconsistent uptake. Recent advancements in Large Language Models (LLMs) may help bridge this adoption gap by facilitating ADR generation. However, the effectiveness of LLM for ADR generation or understanding is something that has not been explored. To this end, in this work, we perform an exploratory study that aims to investigate the feasibility of using LLM for the generation of ADRs given the decision context. In our exploratory study, we utilize GPT and T5-based models with 0-shot, few-shot, and fine-tuning approaches to generate the Decision of an ADR given its Context. Our results indicate that in a 0-shot setting, state-of-the-art models such as GPT-4 generate relevant and accurate Design Decisions, although they fall short of human-level performance. Additionally, we observe that more cost-effective models like GPT-3.5 can achieve similar outcomes in a few-shot setting, and smaller models such as Flan-T5 can yield comparable results after fine-tuning. To conclude, this exploratory study suggests that LLM can generate Design Decisions, but further research is required to attain human-level generation and establish standardized widespread adoption. | 翻訳日:2024-03-06 20:19:32 公開日:2024-03-04 |
# テンソルネットワークによる局所ランダム量子回路の正確なモーメントの計算 Computing exact moments of local random quantum circuits via tensor networks ( http://arxiv.org/abs/2403.01706v1 ) ライセンス: Link先を確認 | Paolo Braccia, Pablo Bermejo, Lukasz Cincio, M. Cerezo | (参考訳) 量子情報の基本的なプリミティブは、$\mathbb{E}_U[{\rm Tr}[U\rho U^\dagger O]^t]$の計算である。
これらは、状態$\rho$をランダムなユニタリ$U$で送信し、ある分布からサンプリングし、観測可能な$O$を測定することで得られる期待値の分布を記述する。
これらのモーメントの正確な計算は一般に難しいが、u$ が局所ランダムゲートからなる場合、マルコフ連鎖のようなプロセスのモンテカルロシミュレーションを行うことで、$\mathbb{e}_u[{\rm tr}[u\rho u^\dagger o]^t]$ を推定することができる。
しかし、このアプローチは制限的に大量のサンプルを必要とするか、サインの問題に苦しむ可能性がある。
そこで本研究では,局所ゲートモーメント演算子が局所通勤基地に作用する小さな次元テンソルに写像されるテンソルネットワークを用いてモーメントを推定する。
表現論的なツールを利用することで、局所テンソル次元を研究し、深い回路から生じる行列積状態の結合次元に境界を与える。
我々はモンテカルロシミュレーションと比較し,その性能を著しく向上させることができることを示した。
次に、量子ニューラルネットワークが数千の量子ビットに作用し、数千のゲートを持つとき、テンソルネットワークが正確に2番目の瞬間を計算する方法を紹介します。
そこで本研究では,直交ランダムゲートを持つ回路の反集中現象を数値的に検討する。 A basic primitive in quantum information is the computation of the moments $\mathbb{E}_U[{\rm Tr}[U\rho U^\dagger O]^t]$. These describe the distribution of expectation values obtained by sending a state $\rho$ through a random unitary $U$, sampled from some distribution, and measuring the observable $O$. While the exact calculation of these moments is generally hard, if $U$ is composed of local random gates, one can estimate $\mathbb{E}_U[{\rm Tr}[U\rho U^\dagger O]^t]$ by performing Monte Carlo simulations of a Markov chain-like process. However, this approach can require a prohibitively large number of samples, or suffer from the sign problem. In this work, we instead propose to estimate the moments via tensor networks, where the local gates moment operators are mapped to small dimensional tensors acting on their local commutant bases. By leveraging representation theoretical tools, we study the local tensor dimension and we provide bounds for the bond dimension of the matrix product states arising from deep circuits. We compare our techniques against Monte Carlo simulations, showing that we can significantly out-perform them. Then, we showcase how tensor networks can exactly compute the second moment when $U$ is a quantum neural network acting on thousands of qubits and having thousands of gates. To finish, we numerically study the anticoncentration phenomena of circuits with orthogonal random gates, a task which cannot be studied via Monte Carlo due to sign problems. | 翻訳日:2024-03-06 20:19:04 公開日:2024-03-04 |
# Brilla AI: 国家科学と数学のクイズのためのAIコンテスト Brilla AI: AI Contestant for the National Science and Maths Quiz ( http://arxiv.org/abs/2403.01699v1 ) ライセンス: Link先を確認 | George Boateng, Jonathan Abrefah Mensah, Kevin Takyi Yeboah, William Edor, Andrew Kojo Mensah-Onumah, Naafi Dasana Ibrahim, and Nana Sam Yeboah | (参考訳) アフリカ大陸には十分な資格を持つ教師がおらず、適切な学習支援の提供を妨げている。
AIは限られた数の教師の努力を増強し、より良い学習結果をもたらす可能性がある。
この研究は、NSMQ AI Grand Challengeの最初の重要な成果を記述し、評価し、このAIのための堅牢で実世界のベンチマークを提案している。
NSMQ (英語: NSMQ) は、ガーナの2人の学生からなる3つのチームが、生物学、化学、物理学、数学の5段階にわたる質問に答えて、優勝チームが優勝するまでの5段階で競う、毎年開催される科学・数学の大会である。
この作業で私たちは,2023年のNSMQ Grand FinaleのRidlesラウンドで,非公式に競うために展開した,AI競技者のBrilla AIを開発しました。
brilla aiは現在、コンテストのリドルズラウンドをライブストリーミングするwebアプリとして利用可能であり、(1) 音声からテキストへの抽出 (2) 質問の抽出 (3) 質問への応答、(4) テキストから音声への変換の4つの機械学習システムを実行している。
デビュー当初、私たちのAIは3つの人間コンテストチームの前の4つの謎のうちの1つに答えました。
このAIの改良と拡張は、学生に科学教育を提供し、最終的にはアフリカ中で数百万人が1対1の学習インタラクションを持ち、科学教育を民主化するために展開される可能性がある。 The African continent lacks enough qualified teachers which hampers the provision of adequate learning support. An AI could potentially augment the efforts of the limited number of teachers, leading to better learning outcomes. Towards that end, this work describes and evaluates the first key output for the NSMQ AI Grand Challenge, which proposes a robust, real-world benchmark for such an AI: "Build an AI to compete live in Ghana's National Science and Maths Quiz (NSMQ) competition and win - performing better than the best contestants in all rounds and stages of the competition". The NSMQ is an annual live science and mathematics competition for senior secondary school students in Ghana in which 3 teams of 2 students compete by answering questions across biology, chemistry, physics, and math in 5 rounds over 5 progressive stages until a winning team is crowned for that year. In this work, we built Brilla AI, an AI contestant that we deployed to unofficially compete remotely and live in the Riddles round of the 2023 NSMQ Grand Finale, the first of its kind in the 30-year history of the competition. Brilla AI is currently available as a web app that livestreams the Riddles round of the contest, and runs 4 machine learning systems: (1) speech to text (2) question extraction (3) question answering and (4) text to speech that work together in real-time to quickly and accurately provide an answer, and then say it with a Ghanaian accent. In its debut, our AI answered one of the 4 riddles ahead of the 3 human contesting teams, unofficially placing second (tied). Improvements and extensions of this AI could potentially be deployed to offer science tutoring to students and eventually enable millions across Africa to have one-on-one learning interactions, democratizing science education. | 翻訳日:2024-03-06 20:18:33 公開日:2024-03-04 |
# webページのハイパーテキストエンティティ抽出 Hypertext Entity Extraction in Webpage ( http://arxiv.org/abs/2403.01698v1 ) ライセンス: Link先を確認 | Yifei Yang, Tianqiao Liu, Bo Shao, Hai Zhao, Linjun Shou, Ming Gong, Daxin Jiang | (参考訳) webページエンティティ抽出は、研究とアプリケーションの両方において、基本的な自然言語処理タスクである。
現在、Webページエンティティ抽出モデルの大部分は、テキストの内容とその構造情報を保持しようとする構造化データセットに基づいて訓練されている。
しかしながら、既存のデータセットはすべて、以前の作業で有効性を示すリッチハイパーテキスト機能(フォント色、フォントサイズなど)を見落としています。
この目的のために、まずeコマースドメインから \textbf{H}ypertext \textbf{E}ntity \textbf{E}xtraction \textbf{D}ataset (\textit{HEED}) を収集し、テキストとそれに対応する明示的なハイパーテキスト機能の両方を高品質なマニュアルエンティティアノテーションでスクラップする。
さらに、複数の機能を効率的に統合して、専門家の混合によるモデル性能を高め、最先端の小規模モデルやgpt-3.5-turboを含む強力なベースラインよりも優れる \textbf{mo}e-based \textbf{e}ntity \textbf{e}xtraction \textbf{f}ramework (\textit{moeef}) を提案する。
さらに, \textit{heed} のハイパーテキスト機能と \textit{moeef} のいくつかのモデルコンポーネントの有効性を解析した。 Webpage entity extraction is a fundamental natural language processing task in both research and applications. Nowadays, the majority of webpage entity extraction models are trained on structured datasets which strive to retain textual content and its structure information. However, existing datasets all overlook the rich hypertext features (e.g., font color, font size) which show their effectiveness in previous works. To this end, we first collect a \textbf{H}ypertext \textbf{E}ntity \textbf{E}xtraction \textbf{D}ataset (\textit{HEED}) from the e-commerce domains, scraping both the text and the corresponding explicit hypertext features with high-quality manual entity annotations. Furthermore, we present the \textbf{Mo}E-based \textbf{E}ntity \textbf{E}xtraction \textbf{F}ramework (\textit{MoEEF}), which efficiently integrates multiple features to enhance model performance by Mixture of Experts and outperforms strong baselines, including the state-of-the-art small-scale models and GPT-3.5-turbo. Moreover, the effectiveness of hypertext features in \textit{HEED} and several model components in \textit{MoEEF} are analyzed. | 翻訳日:2024-03-06 20:17:54 公開日:2024-03-04 |
# DyCE: ディープラーニング圧縮とスケーリングのための動的構成可能なエグジット DyCE: Dynamic Configurable Exiting for Deep Learning Compression and Scaling ( http://arxiv.org/abs/2403.01695v1 ) ライセンス: Link先を確認 | Qingyuan Wang, Barry Cardiff, Antoine Frapp\'e, Benoit Larras and Deepu John | (参考訳) 現代のディープラーニング(dl)モデルは、リソース制約のある環境で効果的に展開するためのスケーリングと圧縮技術の雇用を必要とする。
プルーニングや量子化といった既存の技術は一般に静的である。
一方、早期出口などの動的圧縮手法は、入力サンプルの難易度を認識し、必要に応じて計算を割り当てることで複雑さを低減する。
動的メソッドは、優れた柔軟性と静的メソッドと共存する可能性にもかかわらず、動的部分の変更が後のプロセスに影響を与えるため、実装に関して重大な課題をもたらす。
さらに、現在の動的圧縮設計のほとんどはモノリシックであり、ベースモデルと密に統合されているため、新しいベースモデルへの適応が複雑になる。
本稿では,設計上の考慮事項を相互およびベースモデルから分離する動的構成可能なアーリーエクイットフレームワークであるdyceについて述べる。
このフレームワークを利用することで、さまざまなタイプや出口の位置を事前に定義された設定に従って整理することができる。
また,計算量と性能のトレードオフに基づいて最適化された構成を生成する手法を提案する。
これにより、将来の研究者はシステム全体のパフォーマンスを損なうことなく、個々のエグジットの改善に集中することができる。
提案手法の有効性は,深部CNNを用いた画像分類タスクによって実証される。
DyCE は ResNet152 の 23.5% と ImageNet の ConvNextv2 の 25.9% で計算複雑性を著しく低減し、精度は 0.5% 未満である。
さらにdyceは、リアルタイム設定ときめ細かいパフォーマンスチューニングの観点から、既存の動的メソッドよりも優れている。 Modern deep learning (DL) models necessitate the employment of scaling and compression techniques for effective deployment in resource-constrained environments. Most existing techniques, such as pruning and quantization are generally static. On the other hand, dynamic compression methods, such as early exits, reduce complexity by recognizing the difficulty of input samples and allocating computation as needed. Dynamic methods, despite their superior flexibility and potential for co-existing with static methods, pose significant challenges in terms of implementation due to any changes in dynamic parts will influence subsequent processes. Moreover, most current dynamic compression designs are monolithic and tightly integrated with base models, thereby complicating the adaptation to novel base models. This paper introduces DyCE, an dynamic configurable early-exit framework that decouples design considerations from each other and from the base model. Utilizing this framework, various types and positions of exits can be organized according to predefined configurations, which can be dynamically switched in real-time to accommodate evolving performance-complexity requirements. We also propose techniques for generating optimized configurations based on any desired trade-off between performance and computational complexity. This empowers future researchers to focus on the improvement of individual exits without latent compromise of overall system performance. The efficacy of this approach is demonstrated through image classification tasks with deep CNNs. DyCE significantly reduces the computational complexity by 23.5% of ResNet152 and 25.9% of ConvNextv2-tiny on ImageNet, with accuracy reductions of less than 0.5%. Furthermore, DyCE offers advantages over existing dynamic methods in terms of real-time configuration and fine-grained performance tuning. | 翻訳日:2024-03-06 20:17:24 公開日:2024-03-04 |
# HanDiffuser:リアルな手触りでテキストから画像生成 HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances ( http://arxiv.org/abs/2403.01693v1 ) ライセンス: Link先を確認 | Supreeth Narasimhaswamy, Uttaran Bhattacharya, Xiang Chen, Ishita Dasgupta, Saayan Mitra, Minh Hoai | (参考訳) テキストから画像への生成モデルは高品質な人間を生成できるが、手を生成すると現実主義は失われる。
一般的なアーティファクトは、不規則な手のポーズ、形、不正確な指の数、物理的に目立たない指の向きなどである。
リアルな手による画像を生成するために, 生成過程に手埋め込みを注入することで現実感を実現する, handiffuser と呼ばれる新しい拡散ベースアーキテクチャを提案する。
HanDiffuserは、入力テキストプロンプトからSMPL-BodyとMANO-Handパラメータを生成するためのText-to-Hand-Params拡散モデルと、以前のコンポーネントが生成したプロンプトとハンドパラメータを条件に画像の合成を行うText-Guided Hand-Params-to-Image拡散モデルである。
3次元形状や関節レベルの指の位置,方向,調音など,手指表現の複数の側面を取り入れて,推論時の頑健な学習と信頼性向上を実現した。
定量的・定性的な広範囲な実験を行い,高品位手による画像生成における本手法の有効性を実証する。 Text-to-image generative models can generate high-quality humans, but realism is lost when generating hands. Common artifacts include irregular hand poses, shapes, incorrect numbers of fingers, and physically implausible finger orientations. To generate images with realistic hands, we propose a novel diffusion-based architecture called HanDiffuser that achieves realism by injecting hand embeddings in the generative process. HanDiffuser consists of two components: a Text-to-Hand-Params diffusion model to generate SMPL-Body and MANO-Hand parameters from input text prompts, and a Text-Guided Hand-Params-to-Image diffusion model to synthesize images by conditioning on the prompts and hand parameters generated by the previous component. We incorporate multiple aspects of hand representation, including 3D shapes and joint-level finger positions, orientations and articulations, for robust learning and reliable performance during inference. We conduct extensive quantitative and qualitative experiments and perform user studies to demonstrate the efficacy of our method in generating images with high-quality hands. | 翻訳日:2024-03-06 20:16:57 公開日:2024-03-04 |
# PI-AstroDeconv:天体画像デコンボリューションのための物理情報を用いた教師なし学習法 PI-AstroDeconv: A Physics-Informed Unsupervised Learning Method for Astronomical Image Deconvolution ( http://arxiv.org/abs/2403.01692v1 ) ライセンス: Link先を確認 | Shulei Ni, Yisheng Qiu, Yunchun Chen, Zihao Song, Hao Chen, Xuejian Jiang, and Huaxi Chen | (参考訳) 天文望遠鏡の撮像過程において、そのビームまたはポイントスプレッド関数(PSF)の分解は重要な課題である。
しかし、デコンボリューションは古典的かつ難解な逆計算問題をもたらす。
干渉計アレイや電波望遠鏡のようなビームやpsfが複雑で不正確な場合、結果として生じるぼやけた画像は、視覚的に解釈したり、従来の物理的検出法を用いて分析することがしばしば困難である。
従来の手法はしばしば特定の事前知識を欠いており、結果として最適でない性能をもたらすと論じている。
この問題に対処し,画像のデコンボリューションと再構成を実現するために,事前の物理情報を組み込んだ教師なしネットワークアーキテクチャを提案する。
ネットワークは、望遠鏡のPSFを事前の知識として活用しながらエンコーダ・デコーダ構造を採用する。
ネットワークトレーニング中,高速フーリエ変換(FFT)コンボリューションを導入し,高解像度入力画像とPSFの効率的な処理を実現した。
我々は,オートエンコーダ(AE)やU-Netなどの古典的回帰ネットワークを探索し,比較分析により総合的な性能評価を行った。 In the imaging process of an astronomical telescope, the deconvolution of its beam or Point Spread Function (PSF) is a crucial task. However, deconvolution presents a classical and challenging inverse computation problem. In scenarios where the beam or PSF is complex or inaccurately measured, such as in interferometric arrays and certain radio telescopes, the resultant blurry images are often challenging to interpret visually or analyze using traditional physical detection methods. We argue that traditional methods frequently lack specific prior knowledge, thereby leading to suboptimal performance. To address this issue and achieve image deconvolution and reconstruction, we propose an unsupervised network architecture that incorporates prior physical information. The network adopts an encoder-decoder structure while leveraging the telescope's PSF as prior knowledge. During network training, we introduced accelerated Fast Fourier Transform (FFT) convolution to enable efficient processing of high-resolution input images and PSFs. We explored various classic regression networks, including autoencoder (AE) and U-Net, and conducted a comprehensive performance evaluation through comparative analysis. | 翻訳日:2024-03-06 20:16:33 公開日:2024-03-04 |
# 混合測度のデンドログラム:有限混合モデルにおける潜在階層とモデル選択の学習 Dendrogram of mixing measures: Learning latent hierarchy and model selection for finite mixture models ( http://arxiv.org/abs/2403.01684v1 ) ライセンス: Link先を確認 | Dat Do, Linh Do, Scott A. McKinley, Jonathan Terhorst, XuanLong Nguyen | (参考訳) 本稿では,過剰に適合した潜在混合尺度の階層的クラスタリング木 (dendrogram) を用いて混合モデルを要約・選択する新しい手法を提案する。
提案手法は階層的クラスタリングと混合モデリングを橋渡しする。
デンドログラムの構成は混合測度の収束の理論から導出され、その結果、モデルパラメータが弱識別可能であっても、真の混合成分数を一貫して選択し、木からパラメータ推定のためのポイントワイズ最適収束率を得ることができる。
理論的には、階層的クラスタリングにおいて最適な数のクラスタを選択する。
実際には、デンドログラムは、混合モデルを要約する伝統的な方法と比較して、サブポピュレーションの階層に関するより多くの情報を明らかにする。
我々の理論を支持するためにいくつかのシミュレーション研究が行われた。
また,この手法を単細胞RNA配列解析に適用する方法について述べる。 We present a new way to summarize and select mixture models via the hierarchical clustering tree (dendrogram) of an overfitted latent mixing measure. Our proposed method bridges agglomerative hierarchical clustering and mixture modeling. The dendrogram's construction is derived from the theory of convergence of the mixing measures, and as a result, we can both consistently select the true number of mixing components and obtain the pointwise optimal convergence rate for parameter estimation from the tree, even when the model parameters are only weakly identifiable. In theory, it explicates the choice of the optimal number of clusters in hierarchical clustering. In practice, the dendrogram reveals more information on the hierarchy of subpopulations compared to traditional ways of summarizing mixture models. Several simulation studies are carried out to support our theory. We also illustrate the methodology with an application to single-cell RNA sequence analysis. | 翻訳日:2024-03-06 20:16:14 公開日:2024-03-04 |
# dd-vnb : リアルタイム視覚ナビゲート気管支鏡用奥行き型デュアルループフレームワーク DD-VNB: A Depth-based Dual-Loop Framework for Real-time Visually Navigated Bronchoscopy ( http://arxiv.org/abs/2403.01683v1 ) ライセンス: Link先を確認 | Qingyao Tian, Huai Liao, Xinyan Huang, Jian Chen, Zihui Zhang, Bingyu Yang, Sebastien Ourselin and Hongbin Liu | (参考訳) 気管支鏡のリアルタイム6 DOF局在化は介入品質の向上に不可欠である。
しかし、現在のビジョンベースの技術は、一般化と見えないデータと計算速度のバランスをとるのに苦労している。
そこで本研究では,実時間視覚誘導気管支鏡(dd-vnb)のための奥行きに基づくデュアルループフレームワークを提案する。
DD-VNBフレームワークは2つの重要なモジュールを統合している。
患者間の領域ギャップに対処するために,内視鏡フレームを深度にマッピングし,患者固有のテクスチャを排除して一般化を保証する知識埋め込み深度推定ネットワークを提案する。
このネットワークは、ビュー合成知識をスケール制約された単眼深度推定のためのサイクル逆アーキテクチャに組み込む。
リアルタイムな性能を実現するため,我々は高速なエゴモーション推定ネットワークを深度登録ループに組み込む。
ego-motion inference networkは高頻度での気管支鏡のポーズ変化を推定し、手術前の3dモデルに対する深さ登録は定期的に絶対的なポーズを与える。
特に、相対的なポーズ変化は、初期推測として登録プロセスに反映され、精度と速度が向上する。
phantom と in-vivo の患者データを用いた実験により,本枠組みの有効性が示された。
1)単眼深度推定は sota を上回っている。
2) 定位はファントムで4.7$\pm$ 3.17 mm、患者データで6.49$\pm$ 3.88 mmの絶対追跡誤差(ate)の精度を達成する。
3)フレームレートがビデオキャプチャ速度に近づいている。
4) ケースワイドネットワーク再トレーニングは不要であった。
フレームワークの優れた速度と精度は、リアルタイム気管支鏡ナビゲーションに有望な臨床可能性を示している。 Real-time 6 DOF localization of bronchoscopes is crucial for enhancing intervention quality. However, current vision-based technologies struggle to balance between generalization to unseen data and computational speed. In this study, we propose a Depth-based Dual-Loop framework for real-time Visually Navigated Bronchoscopy (DD-VNB) that can generalize across patient cases without the need of re-training. The DD-VNB framework integrates two key modules: depth estimation and dual-loop localization. To address the domain gap among patients, we propose a knowledge-embedded depth estimation network that maps endoscope frames to depth, ensuring generalization by eliminating patient-specific textures. The network embeds view synthesis knowledge into a cycle adversarial architecture for scale-constrained monocular depth estimation. For real-time performance, our localization module embeds a fast ego-motion estimation network into the loop of depth registration. The ego-motion inference network estimates the pose change of the bronchoscope in high frequency while depth registration against the pre-operative 3D model provides absolute pose periodically. Specifically, the relative pose changes are fed into the registration process as the initial guess to boost its accuracy and speed. Experiments on phantom and in-vivo data from patients demonstrate the effectiveness of our framework: 1) monocular depth estimation outperforms SOTA, 2) localization achieves an accuracy of Absolute Tracking Error (ATE) of 4.7 $\pm$ 3.17 mm in phantom and 6.49 $\pm$ 3.88 mm in patient data, 3) with a frame-rate approaching video capture speed, 4) without the necessity of case-wise network retraining. The framework's superior speed and accuracy demonstrate its promising clinical potential for real-time bronchoscopic navigation. | 翻訳日:2024-03-06 20:16:03 公開日:2024-03-04 |
# 非エルミート多体量子系における輸送と可積分性破壊 Transport and integrability-breaking in non-Hermitian many-body quantum systems ( http://arxiv.org/abs/2403.01681v1 ) ライセンス: Link先を確認 | Dylan E. Mahoney, Jonas Richter | (参考訳) 非エルミート的ハミルトニアンによる開量子系の記述は、非単位時間進化を引き起こす。
本稿では,大域的保存則を持つ量子系の創発的流体力学に対する非ユニタリダイナミクスの影響について検討する。
そこで本研究では,線形-応答相関関数を非エルミート系においてどのように一般化し解釈できるかを示す。
さらに、非単項力学はエルミート力学では欠落する微妙さをもたらすが、動的量子の典型性はそのような相関関数を評価するための効率的な数値的アプローチを提供することを示した。
解析の基準として,近年,高温輸送特性が広く評価されているHermitian spin-$1/2$ XXZ 鎖を考える。
ここでは、XXZ鎖の異なる非エルミート摂動に対する結果の流体力学について検討する。
また、非エルミート量子モデルの複素エネルギーレベル統計学の研究による積分可能性の役割についても論じる。 Describing open quantum systems in terms of effective non-Hermitian Hamiltonians gives rise to non-unitary time evolution. In this paper, we study the impact of non-unitary dynamics on the emergent hydrodynamics in quantum systems with a global conservation law. To this end, we demonstrate how linear-response correlation functions can be generalized and interpreted in the case of non-Hermitian systems. Moreover, we show that dynamical quantum typicality provides an efficient numerical approach to evaluate such correlation functions, even though the non-unitary dynamics leads to subtleties that are absent in the Hermitian case. As a point of reference for our analysis, we consider the Hermitian spin-$1/2$ XXZ chain, whose high-temperature transport properties have been characterized extensively in recent years. Here, we explore the resulting hydrodynamics for different non-Hermitian perturbations of the XXZ chain. We also discuss the role of integrability by studying the complex energy-level statistics of the non-Hermitian quantum models. | 翻訳日:2024-03-06 20:15:36 公開日:2024-03-04 |
# 視覚言語物体検出のためのゼロショット一般化インクリメンタル学習 Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection ( http://arxiv.org/abs/2403.01680v1 ) ライセンス: Link先を確認 | Jieren Deng, Haojian Zhang, Kun Ding, Jianhua Hu, Xingxuan Zhang, Yunkuan Wang | (参考訳) 本稿では,VLODM(Incrmental Vision-Language Object Detection)を各種専門領域に段階的に適応させるとともに,一般領域のゼロショット一般化機能を同時に維持する新しい学習課題であるIVLODを提案する。
この新たな課題に対処するために、ゼロ干渉再パラメータ化適応(ZiRa)を提案する。これは、追加の推論コストやメモリ使用量の増加を伴わずに、IVLODに取り組むゼロ干渉損失と再パラメータ化技術を導入する新しい手法である。
COCOとODinW-13データセットに関する包括的な実験により、ZiRaは新しいタスクに継続的に適応しながら、VLODMのゼロショット一般化能力を効果的に保護していることが示された。
具体的には、ODinW-13データセットのトレーニングの後、ZiRaはCL-DETRとiDETRよりも優れた性能を示し、それぞれ13.91 APと8.71 APのゼロショット一般化性を高めた。 This paper presents Incremental Vision-Language Object Detection (IVLOD), a novel learning task designed to incrementally adapt pre-trained Vision-Language Object Detection Models (VLODMs) to various specialized domains, while simultaneously preserving their zero-shot generalization capabilities for the generalized domain. To address this new challenge, we present the Zero-interference Reparameterizable Adaptation (ZiRa), a novel method that introduces Zero-interference Loss and reparameterization techniques to tackle IVLOD without incurring additional inference costs or a significant increase in memory usage. Comprehensive experiments on COCO and ODinW-13 datasets demonstrate that ZiRa effectively safeguards the zero-shot generalization ability of VLODMs while continuously adapting to new tasks. Specifically, after training on ODinW-13 datasets, ZiRa exhibits superior performance compared to CL-DETR and iDETR, boosting zero-shot generalizability by substantial 13.91 and 8.71 AP, respectively. | 翻訳日:2024-03-06 20:15:20 公開日:2024-03-04 |
# CATS: 外部変数としての補助時系列の構成による多変量時系列予測の強化 CATS: Enhancing Multivariate Time Series Forecasting by Constructing Auxiliary Time Series as Exogenous Variables ( http://arxiv.org/abs/2403.01673v1 ) ライセンス: Link先を確認 | Jiecheng Lu, Xu Han, Yan Sun, Shihao Yang | (参考訳) MTSF(Multivarate Time Series Forecasting)では、最近のディープラーニングアプリケーションは、単変量モデルが多変量モデルよりも頻繁に優れていることを示している。
多変量モデルにおける差分性に対処するため,2次元時間・コンテキストアテンション機構のような機能を持つ補助時間系列(CATS)を構築する手法を導入し,予測のための系列間関係を効果的に表現し,組み込む。
ATSの主な原則 – 連続性、疎性、可変性 – は、異なるモジュールを通じて識別され、実装されます。
基本2層MLPをコア予測器として用いながら、CATSは最先端を実現し、従来の多変量モデルと比較して複雑性とパラメータを著しく低減し、効率的なMTSFソリューションであることを示す。 For Multivariate Time Series Forecasting (MTSF), recent deep learning applications show that univariate models frequently outperform multivariate ones. To address the difficiency in multivariate models, we introduce a method to Construct Auxiliary Time Series (CATS) that functions like a 2D temporal-contextual attention mechanism, which generates Auxiliary Time Series (ATS) from Original Time Series (OTS) to effectively represent and incorporate inter-series relationships for forecasting. Key principles of ATS - continuity, sparsity, and variability - are identified and implemented through different modules. Even with a basic 2-layer MLP as core predictor, CATS achieves state-of-the-art, significantly reducing complexity and parameters compared to previous multivariate models, marking it an efficient and transferable MTSF solution. | 翻訳日:2024-03-06 20:15:00 公開日:2024-03-04 |
# 置換不変関数:統計的テスト、計量エントロピーの次元縮小と推定 Permutation invariant functions: statistical tests, dimension reduction in metric entropy and estimation ( http://arxiv.org/abs/2403.01671v1 ) ライセンス: Link先を確認 | Wee Chaimanowong, Ying Zhu | (参考訳) 置換不変性は機械学習(ML)における複雑な問題を単純化するために利用される最も一般的な対称性の一つである。
置換不変MLアーキテクチャの構築には、膨大な研究活動が急増している。
しかし,多変量確率分布における変数の変分不変性を統計的にテストする方法については,サンプルサイズで寸法が成長することが許されるため,それほど注目されない。
また、統計理論の観点では、置換不変性が次元の減少にどのように役立つかはほとんど分かっていない。
本稿では,これらの疑問を,いくつかの基本的な問題から考察する。
(i)多変量分布の置換不変性の仮定を検証すること。
(ii) 置換不変密度の推定
三 滑らかな置換不変関数クラスの計量エントロピーを解析し、置換不変性を含まないものと比較すること。
(iv)再生成核ヒルベルト空間における置換不変関数の核リッジ回帰
特に私たちの方法は
(i)および
(iv)仕分けトリックに基づいており
(ii)平均化トリックに基づいている。
これらのトリックは置換不変性の利用を大幅に単純化する。 Permutation invariance is among the most common symmetry that can be exploited to simplify complex problems in machine learning (ML). There has been a tremendous surge of research activities in building permutation invariant ML architectures. However, less attention is given to how to statistically test for permutation invariance of variables in a multivariate probability distribution where the dimension is allowed to grow with the sample size. Also, in terms of a statistical theory, little is known about how permutation invariance helps with estimation in reducing dimensions. In this paper, we take a step back and examine these questions in several fundamental problems: (i) testing the assumption of permutation invariance of multivariate distributions; (ii) estimating permutation invariant densities; (iii) analyzing the metric entropy of smooth permutation invariant function classes and compare them with their counterparts without imposing permutation invariance; (iv) kernel ridge regression of permutation invariant functions in reproducing kernel Hilbert space. In particular, our methods for (i) and (iv) are based on a sorting trick and (ii) is based on an averaging trick. These tricks substantially simplify the exploitation of permutation invariance. | 翻訳日:2024-03-06 20:14:44 公開日:2024-03-04 |
# トレーニングフリー事前学習モデルマージ Training-Free Pretrained Model Merging ( http://arxiv.org/abs/2403.01753v1 ) ライセンス: Link先を確認 | Zhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song | (参考訳) 近年,複数の単一タレントモデルと単一マルチタレントモデルを組み合わせたソリューションとして,モデルマージ技術が浮上している。
しかし、この分野における以前の取り組みでは、追加のトレーニングや微調整のプロセスが必要になるか、あるいはモデルに同じ事前訓練された初期化が必要である。
本研究では、ウェイト空間とアクティベーション空間における単位類似性の矛盾について、先行研究における共通の欠点を特定する。
この不整合に対処するために,双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
具体的には、単一空間の目的のみを最大化するのではなく、活性化と重み類似度行列の線形結合によって達成される双対空間の統一された類似性のある領域に位置する置換行列の探索を提唱する。
ユーザビリティを高めるために,マルチヘッドの注意やグループ正規化など,グループ構造への適応も取り入れた。
総合的な比較実験により、MuDSCは様々なタスクの組み合わせとアーキテクチャによる統合モデルの性能を大幅に向上させることができることが示された。
さらに、マルチタスクロスランドスケープにおけるマージモデルの可視化により、mudscはマージモデルを重なり合うセグメントに配置することができ、各タスクに統一された損失を特徴付ける。
私たちのコードはhttps://github.com/zju-vipa/training_free_model_mergingで公開されています。 Recently, model merging techniques have surfaced as a solution to combine multiple single-talent models into a single multi-talent model. However, previous endeavors in this field have either necessitated additional training or fine-tuning processes, or require that the models possess the same pre-trained initialization. In this work, we identify a common drawback in prior works w.r.t. the inconsistency of unit similarity in the weight space and the activation space. To address this inconsistency, we propose an innovative model merging framework, coined as merging under dual-space constraints (MuDSC). Specifically, instead of solely maximizing the objective of a single space, we advocate for the exploration of permutation matrices situated in a region with a unified high similarity in the dual space, achieved through the linear combination of activation and weight similarity matrices. In order to enhance usability, we have also incorporated adaptations for group structure, including Multi-Head Attention and Group Normalization. Comprehensive experimental comparisons demonstrate that MuDSC can significantly boost the performance of merged models with various task combinations and architectures. Furthermore, the visualization of the merged model within the multi-task loss landscape reveals that MuDSC enables the merged model to reside in the overlapping segment, featuring a unified lower loss for each task. Our code is publicly available at https://github.com/zju-vipa/training_free_model_merging. | 翻訳日:2024-03-06 20:09:03 公開日:2024-03-04 |
# Foundation Model APIによる異なるプライベートな合成データ2:テキスト Differentially Private Synthetic Data via Foundation Model APIs 2: Text ( http://arxiv.org/abs/2403.01749v1 ) ライセンス: Link先を確認 | Chulin Xie, Zinan Lin, Arturs Backurs, Sivakanth Gopi, Da Yu, Huseyin A Inan, Harsha Nori, Haotian Jiang, Huishuai Zhang, Yin Tat Lee, Bo Li, Sergey Yekhanin | (参考訳) テキストデータは、そこから学習する機械学習アルゴリズムの出現によって、非常に価値の高いものになっている。
現実世界で生成された多くの高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり利用したりできない。
プライベートテキストデータの合成レプリカを形式的なプライバシー保証、すなわち差分プライバシー(DP)で生成することは、有望でスケーラブルなソリューションを提供する。
しかし,既存の手法では,大規模言語モデル(llm)をプライベートデータに微調整してdp合成データを生成する必要がある。
このアプローチはプロプライエタリなLCM(例えば GPT-3.5)には有効ではなく、オープンソースのLCMにはかなりの計算資源を必要とする。
Lin et al. (2024)は先日,拡散モデルにのみアクセス可能なDP合成画像を生成するために,Private Evolution (PE)アルゴリズムを導入した。
本研究では,テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
LLMへのAPIアクセスを使用し、モデルトレーニングなしでDP合成テキストを生成する。
3つのベンチマークデータセットで包括的な実験を行う。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
これにより、LLMのAPIアクセスのみに頼って高品質のDP合成テキストを生成することが可能となり、プライバシー保護のLLMアプリケーションへのよりアクセスしやすいルートが実現可能になった。
私たちのコードとデータはhttps://github.com/ai-secure/aug-peで入手できます。 Text data has become extremely valuable due to the emergence of machine learning algorithms that learn from it. A lot of high-quality text data generated in the real world is private and therefore cannot be shared or used freely due to privacy concerns. Generating synthetic replicas of private text data with a formal privacy guarantee, i.e., differential privacy (DP), offers a promising and scalable solution. However, existing methods necessitate DP finetuning of large language models (LLMs) on private data to generate DP synthetic data. This approach is not viable for proprietary LLMs (e.g., GPT-3.5) and also demands considerable computational resources for open-source LLMs. Lin et al. (2024) recently introduced the Private Evolution (PE) algorithm to generate DP synthetic images with only API access to diffusion models. In this work, we propose an augmented PE algorithm, named Aug-PE, that applies to the complex setting of text. We use API access to an LLM and generate DP synthetic text without any model training. We conduct comprehensive experiments on three benchmark datasets. Our results demonstrate that Aug-PE produces DP synthetic text that yields competitive utility with the SOTA DP finetuning baselines. This underscores the feasibility of relying solely on API access of LLMs to produce high-quality DP synthetic texts, thereby facilitating more accessible routes to privacy-preserving LLM applications. Our code and data are available at https://github.com/AI-secure/aug-pe. | 翻訳日:2024-03-06 20:08:39 公開日:2024-03-04 |
# 音声としてデコードする神経信号 Decode Neural signal as Speech ( http://arxiv.org/abs/2403.01748v1 ) ライセンス: Link先を確認 | Yiqian Yang, Yiqun Duan, Qiang Zhang, Renjing Xu, Hui Xiong | (参考訳) 脳力学から言語を復号することは脳-コンピュータインタフェース(BCI)の領域において重要な方向であり、特に大規模言語モデルの急速な成長を考慮している。
電極移植手術を必要とする侵襲的信号と比較して、非侵襲的神経信号(EEG、MEGなど)は安全性と汎用性を考慮して注目されている。
しかし、探検は3つの面において不十分である。
1) 従来の手法は主に脳波に焦点を合わせていたが, 信号品質が向上したMEGでは, いずれもこの問題に対処していない。
2) 先行作品は,生成的復号処理において,主に「教師の強制」を用いてきたが,実用的でない。
3) 先行研究は主に,「bart-based」ではなく「bart-based」であり,他のシーケンス課題においてもよく機能する。本稿では,教師の強制なしに meg 信号から直接テキストを生成するための「whisper」 モデルについて,まず,音声復号化における meg 信号の脳からテキストへの変換について検討する。
我々のモデルは,2つの主要なデータセット (\textit{GWilliams} と \textit{Schoffelen} ) を事前学習することなく,60.30 と 52.89 の BLEU-1 スコアを得る。
本稿では,音声復号生成が神経復号処理にどのように作用するかを包括的に検討し,初期化の事前訓練,分割,拡張,スケーリング法則の訓練などを行う。 Decoding language from brain dynamics is an important open direction in the realm of brain-computer interface (BCI), especially considering the rapid growth of large language models. Compared to invasive-based signals which require electrode implantation surgery, non-invasive neural signals (e.g. EEG, MEG) have attracted increasing attention considering their safety and generality. However, the exploration is not adequate in three aspects: 1) previous methods mainly focus on EEG but none of the previous works address this problem on MEG with better signal quality; 2) prior works have predominantly used ``teacher-forcing" during generative decoding, which is impractical; 3) prior works are mostly ``BART-based" not fully auto-regressive, which performs better in other sequence tasks. In this paper, we explore the brain-to-text translation of MEG signals in a speech-decoding formation. Here we are the first to investigate a cross-attention-based ``whisper" model for generating text directly from MEG signals without teacher forcing. Our model achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining \& teacher-forcing on two major datasets (\textit{GWilliams} and \textit{Schoffelen}). This paper conducts a comprehensive review to understand how speech decoding formation performs on the neural decoding tasks, including pretraining initialization, training \& evaluation set splitting, augmentation, and scaling law. | 翻訳日:2024-03-06 20:08:14 公開日:2024-03-04 |
# 自己完結型回答に向けて:会話検索におけるエンティティベースの回答書き換え Towards Self-Contained Answers: Entity-Based Answer Rewriting in Conversational Search ( http://arxiv.org/abs/2403.01747v1 ) ライセンス: Link先を確認 | Ivan Sekuli\'c, Krisztian Balog, Fabio Crestani | (参考訳) 会話情報探索(CIS)は知識獲得と探索探索のための新たなパラダイムである。
従来のウェブ検索インターフェースはエンティティを簡単に探索できるが、限定された帯域幅インターフェイスのため、会話的な設定では制限がある。
本稿では,利用者が外部サービスや情報源を使わずに理解できるように,CISで回答を書き換える方法について検討する。
具体的には、回答を理解する中心となる、健全なエンティティに焦点を当てます。
最初のコントリビューションとして、正当性のためのエンティティに注釈付けされた会話のデータセットを作成しました。
収集したデータの分析結果から,回答の大部分が有意義なエンティティを含むことが判明した。
第2の貢献として,cisのユーザエクスペリエンス全体を改善するための2つの回答書き換え戦略を提案する。
1つのアプローチは、応答をサルエントエンティティのインライン定義で拡張し、自己完結させる。
もう1つのアプローチは、回答をフォローアップ質問で補完し、ユーザーは特定のエンティティについてもっと学ぶことができる。
クラウドソーシングに基づく研究の結果、書き直された回答が元の回答よりも明らかに好まれることが示された。
また、インライン定義はフォローアップ質問よりも好まれる傾向にあるが、この選択は極めて主観的であり、パーソナライズのための将来的な方向性を提供する。 Conversational information-seeking (CIS) is an emerging paradigm for knowledge acquisition and exploratory search. Traditional web search interfaces enable easy exploration of entities, but this is limited in conversational settings due to the limited-bandwidth interface. This paper explore ways to rewrite answers in CIS, so that users can understand them without having to resort to external services or sources. Specifically, we focus on salient entities -- entities that are central to understanding the answer. As our first contribution, we create a dataset of conversations annotated with entities for saliency. Our analysis of the collected data reveals that the majority of answers contain salient entities. As our second contribution, we propose two answer rewriting strategies aimed at improving the overall user experience in CIS. One approach expands answers with inline definitions of salient entities, making the answer self-contained. The other approach complements answers with follow-up questions, offering users the possibility to learn more about specific entities. Results of a crowdsourcing-based study indicate that rewritten answers are clearly preferred over the original ones. We also find that inline definitions tend to be favored over follow-up questions, but this choice is highly subjective, thereby providing a promising future direction for personalization. | 翻訳日:2024-03-06 20:07:45 公開日:2024-03-04 |
# Diffusion-TS:一般時系列生成のための解釈可能な拡散 Diffusion-TS: Interpretable Diffusion for General Time Series Generation ( http://arxiv.org/abs/2403.01742v1 ) ライセンス: Link先を確認 | Xinyu Yuan and Yan Qiao | (参考訳) denoising diffusion probabilistic models (ddpms) は生成モデルの主要なパラダイムとなっている。
最近、オーディオ合成、時系列計算、予測のブレークスルーを見せている。
本稿では,Diffusion-TSを提案する。Diffusion-TSは,畳み込み時間表現を持つエンコーダ・デコーダ変換器を用いて,高画質の多変量時系列サンプルを生成する新しい拡散型フレームワークであり,分解技術はDiffusion-TSを用いて時系列の意味を捉え,変換器はノイズモデル入力から詳細な逐次情報をマイニングする。
既存の拡散に基づくアプローチとは異なり、各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせる。
拡散-TSは解釈性と現実性の両方を満たす時系列を生成することが期待される。
さらに,Diffusion-TSはモデル変更を伴わずに,予測や計算などの条件付きタスクに容易に拡張できることを示した。
これはまた、不規則な設定下での拡散-tsの性能をさらに探求する動機となる。
最後に, 定性的かつ定量的な実験により, 拡散-tsは様々な時系列の現実的な解析結果が得られることを示した。 Denoising diffusion probabilistic models (DDPMs) are becoming the leading paradigm for generative models. It has recently shown breakthroughs in audio synthesis, time series imputation and forecasting. In this paper, we propose Diffusion-TS, a novel diffusion-based framework that generates multivariate time series samples of high quality by using an encoder-decoder transformer with disentangled temporal representations, in which the decomposition technique guides Diffusion-TS to capture the semantic meaning of time series while transformers mine detailed sequential information from the noisy model input. Different from existing diffusion-based approaches, we train the model to directly reconstruct the sample instead of the noise in each diffusion step, combining a Fourier-based loss term. Diffusion-TS is expected to generate time series satisfying both interpretablity and realness. In addition, it is shown that the proposed Diffusion-TS can be easily extended to conditional generation tasks, such as forecasting and imputation, without any model changes. This also motivates us to further explore the performance of Diffusion-TS under irregular settings. Finally, through qualitative and quantitative experiments, results show that Diffusion-TS achieves the state-of-the-art results on various realistic analyses of time series. | 翻訳日:2024-03-06 20:07:27 公開日:2024-03-04 |
# DEMOS:局所球-BEV知覚による3次元シーンの動的環境運動合成 DEMOS: Dynamic Environment Motion Synthesis in 3D Scenes via Local Spherical-BEV Perception ( http://arxiv.org/abs/2403.01740v1 ) ライセンス: Link先を確認 | Jingyu Gong, Min Wang, Wentao Liu, Chen Qian, Zhizhong Zhang, Yuan Xie, Lizhuang Ma | (参考訳) 現実の3Dシーンにおけるモーション合成は近年注目を集めている。
しかし、現在のほとんどの方法による静的環境の仮定は、例えば移動人や車両など複数の動的物体が存在する場合、特に走査された点雲のシーンにおけるリアルタイムな動き合成では満足できない。
この問題に対処するために,現在のシーンに応じて瞬時に将来の動きを予測できる最初の動的環境動作合成フレームワーク (demos) を提案し,最終動作合成のために潜在動作を動的に更新する。
具体的には,インスタントシーン認識のための局所的シーン特徴抽出のための球面bev知覚法を提案する。
次に,新しい予測された動きを潜在運動に融合する時間変化運動を設計,最終動作は更新された潜在運動から導出し,運動優先法と反復法の両方の利点を享受する。
proxとgta-imという2つのデータセットのデータフォーマットを統一し、3dシーンでのモーション合成評価を行う。
また,gta-imおよびsemantic3dを用いた動的環境における提案手法の有効性について検討した。
その結果,本手法は従来の手法よりも優れ,動的環境の処理性能も優れていた。 Motion synthesis in real-world 3D scenes has recently attracted much attention. However, the static environment assumption made by most current methods usually cannot be satisfied especially for real-time motion synthesis in scanned point cloud scenes, if multiple dynamic objects exist, e.g., moving persons or vehicles. To handle this problem, we propose the first Dynamic Environment MOtion Synthesis framework (DEMOS) to predict future motion instantly according to the current scene, and use it to dynamically update the latent motion for final motion synthesis. Concretely, we propose a Spherical-BEV perception method to extract local scene features that are specifically designed for instant scene-aware motion prediction. Then, we design a time-variant motion blending to fuse the new predicted motions into the latent motion, and the final motion is derived from the updated latent motions, benefitting both from motion-prior and iterative methods. We unify the data format of two prevailing datasets, PROX and GTA-IM, and take them for motion synthesis evaluation in 3D scenes. We also assess the effectiveness of the proposed method in dynamic environments from GTA-IM and Semantic3D to check the responsiveness. The results show our method outperforms previous works significantly and has great performance in handling dynamic environments. | 翻訳日:2024-03-06 20:07:09 公開日:2024-03-04 |
# ComS2T:データ適応モデル進化のための相補的時空間学習システム ComS2T: A complementary spatiotemporal learning system for data-adaptive model evolution ( http://arxiv.org/abs/2403.01738v1 ) ライセンス: Link先を確認 | Zhengyang Zhou, Qihe Huang, Binwu Wang, Jianpeng Hou, Kuo Yang, Yuxuan Liang, Yang Wang | (参考訳) 時空間学習はスマートシティと持続可能な都市開発を可能にする重要な技術となっている。
現在のST学習モデルは、様々な空間的畳み込みと時間的進化ブロックを通して不均一性を捉える。
しかし, 急速な都市化は, 都市データや都市構造が短時間で変動し, 一般化やデータ適応の問題に悩まされている。
努力にもかかわらず、既存の手法は新しく到着した観測に対処できず、一般化能力を持つ手法は反復訓練で制限される。
神経科学における相補的学習を動機として,データ適応のためのモデルの進化を促進するために,ComS2Tと呼ばれる即時的相補的時相学習を導入する。
ComS2Tは、神経アーキテクチャを安定した新皮質に分割し、履歴記憶を統合する。
まず, 2つの非結合構造を安定重みと動的重みに分離し, 主観測の分布を特徴付けて空間的および時間的プロンプトを訓練し, 新たなデータへの適応を可能にする。
このデータ適応的プロンプト機構は、2段階のトレーニングプロセスと組み合わせて、プロンプトで条件付けられたニューラルアーキテクチャの微調整を容易にし、テスト中の効率的な適応を可能にする。
広汎な実験は、効率的な推論能力を維持しつつ、様々な時空間分配シナリオに適応するComS2Tの有効性を検証する。 Spatiotemporal (ST) learning has become a crucial technique to enable smart cities and sustainable urban development. Current ST learning models capture the heterogeneity via various spatial convolution and temporal evolution blocks. However, rapid urbanization leads to fluctuating distributions in urban data and city structures over short periods, resulting in existing methods suffering generalization and data adaptation issues. Despite efforts, existing methods fail to deal with newly arrived observations and those methods with generalization capacity are limited in repeated training. Motivated by complementary learning in neuroscience, we introduce a prompt-based complementary spatiotemporal learning termed ComS2T, to empower the evolution of models for data adaptation. ComS2T partitions the neural architecture into a stable neocortex for consolidating historical memory and a dynamic hippocampus for new knowledge update. We first disentangle two disjoint structures into stable and dynamic weights, and then train spatial and temporal prompts by characterizing distribution of main observations to enable prompts adaptive to new data. This data-adaptive prompt mechanism, combined with a two-stage training process, facilitates fine-tuning of the neural architecture conditioned on prompts, thereby enabling efficient adaptation during testing. Extensive experiments validate the efficacy of ComS2T in adapting to various spatiotemporal out-of-distribution scenarios while maintaining efficient inference capabilities. | 翻訳日:2024-03-06 20:06:46 公開日:2024-03-04 |
# 深いホースシューガウス過程 Deep Horseshoe Gaussian Processes ( http://arxiv.org/abs/2403.01737v1 ) ライセンス: Link先を確認 | Isma\"el Castillo and Thibault Randrianarisoa | (参考訳) ディープ・ガウス過程は、合成構造のような現代のデータサンプルに存在する可能性のある複雑な特徴であるディープ・ニューラルネットワークと同様に、適合する自然な対象として最近提案されている。
ベイズ非パラメトリックなアプローチを採用すると、深いガウス過程を事前分布として、対応する後方分布を統計的推論に使用するのが自然である。
我々は,二乗指数核を持つ深いガウス過程に基づく新しい単純な前置法であるdeep-hgp(ディープホースシュー・ガウス過程deep-hgp)について紹介する。
ランダムな設計を持つ非パラメトリック回帰の場合、関連するテンパー付き後続分布は、適応的に2次損失から対数係数まで、未知の真の回帰曲線を最適に回復することを示す。
収束率は回帰関数の滑らかさと合成の観点での構造の両方に同時に適応する。
次元の点でのレートの依存は明確であり、特に観測数に応じて増加する次元の入力空間に対して可能である。 Deep Gaussian processes have recently been proposed as natural objects to fit, similarly to deep neural networks, possibly complex features present in modern data samples, such as compositional structures. Adopting a Bayesian nonparametric approach, it is natural to use deep Gaussian processes as prior distributions, and use the corresponding posterior distributions for statistical inference. We introduce the deep Horseshoe Gaussian process Deep-HGP, a new simple prior based on deep Gaussian processes with a squared-exponential kernel, that in particular enables data-driven choices of the key lengthscale parameters. For nonparametric regression with random design, we show that the associated tempered posterior distribution recovers the unknown true regression curve optimally in terms of quadratic loss, up to a logarithmic factor, in an adaptive way. The convergence rates are simultaneously adaptive to both the smoothness of the regression function and to its structure in terms of compositions. The dependence of the rates in terms of dimension are explicit, allowing in particular for input spaces of dimension increasing with the number of observations. | 翻訳日:2024-03-06 20:06:22 公開日:2024-03-04 |
# 軽量物体検出: ShuffleNetv2とVision Transformerを統合したYOLOv7に基づく研究 Lightweight Object Detection: A Study Based on YOLOv7 Integrated with ShuffleNetv2 and Vision Transformer ( http://arxiv.org/abs/2403.01736v1 ) ライセンス: Link先を確認 | Wenkai Gong | (参考訳) モバイルコンピューティング技術が急速に進化するにつれて、モバイルデバイスに効率的なオブジェクト検出アルゴリズムをデプロイすることが、コンピュータビジョンの重要な研究領域として現れる。
本研究は, YOLOv7アルゴリズムを最適化することで, モバイルプラットフォーム上での運用効率と速度を向上し, 高い精度を確保した。
グループ畳み込み、ShuffleNetV2、Vision Transformerといった先進的な手法のシナジーを活用し、この研究はモデルのパラメータカウントとメモリ使用量を効果的に最小化し、ネットワークアーキテクチャを合理化し、リソース制約のあるデバイス上でリアルタイムなオブジェクト検出能力を確立した。
実験結果から,改良ヨーロモデルは異常な性能を示し,検出精度を維持しつつ処理速度を著しく向上させた。 As mobile computing technology rapidly evolves, deploying efficient object detection algorithms on mobile devices emerges as a pivotal research area in computer vision. This study zeroes in on optimizing the YOLOv7 algorithm to boost its operational efficiency and speed on mobile platforms while ensuring high accuracy. Leveraging a synergy of advanced techniques such as Group Convolution, ShuffleNetV2, and Vision Transformer, this research has effectively minimized the model's parameter count and memory usage, streamlined the network architecture, and fortified the real-time object detection proficiency on resource-constrained devices. The experimental outcomes reveal that the refined YOLO model demonstrates exceptional performance, markedly enhancing processing velocity while sustaining superior detection accuracy. | 翻訳日:2024-03-06 20:06:02 公開日:2024-03-04 |
# リカバリポリシーを用いた安全クリティカルタスクのためのオフライン目標条件強化学習 Offline Goal-Conditioned Reinforcement Learning for Safety-Critical Tasks with Recovery Policy ( http://arxiv.org/abs/2403.01734v1 ) ライセンス: Link先を確認 | Chenyang Cao, Zichen Yan, Renhao Lu, Junbo Tan, Xueqian Wang | (参考訳) オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
先行研究は、エージェントが準最適ポリシーを学ぶための様々なアプローチを示してきたが、これらの手法は、安全制約のような複雑な環境における多様な制約を扱う際に制限に直面する。
安全性を考慮せずに目標達成を優先するアプローチもあれば、トレーニング効率を犠牲にして安全性を過度に重視するアプローチもある。
本稿では、制約付きオフラインGCRLの問題点を考察し、様々な目標を達成するために、リカバリベース監視学習(RbSL)と呼ばれる新しい手法を提案する。
手法の性能を評価するために,ランダムに位置決めされた障害物を持つロボットフェッチ環境に基づくベンチマークを構築し,専門家あるいはランダムポリシーを用いてオフラインデータセットを生成する。
RbSLを3つのオフラインGCRLアルゴリズムと1つのオフラインセーフRLアルゴリズムと比較する。
その結果,本手法は既存の最先端手法よりも大幅に優れていた。
さらに,実際のパンダマニピュレータに配置することにより,rbslの実用性と有効性を検証する。
コードはhttps://github.com/Sunlighted/RbSL.gitで入手できる。 Offline goal-conditioned reinforcement learning (GCRL) aims at solving goal-reaching tasks with sparse rewards from an offline dataset. While prior work has demonstrated various approaches for agents to learn near-optimal policies, these methods encounter limitations when dealing with diverse constraints in complex environments, such as safety constraints. Some of these approaches prioritize goal attainment without considering safety, while others excessively focus on safety at the expense of training efficiency. In this paper, we study the problem of constrained offline GCRL and propose a new method called Recovery-based Supervised Learning (RbSL) to accomplish safety-critical tasks with various goals. To evaluate the method performance, we build a benchmark based on the robot-fetching environment with a randomly positioned obstacle and use expert or random policies to generate an offline dataset. We compare RbSL with three offline GCRL algorithms and one offline safe RL algorithm. As a result, our method outperforms the existing state-of-the-art methods to a large extent. Furthermore, we validate the practicality and effectiveness of RbSL by deploying it on a real Panda manipulator. Code is available at https://github.com/Sunlighted/RbSL.git. | 翻訳日:2024-03-06 20:05:43 公開日:2024-03-04 |
# ハンドオブジェクトインタラクションシナリオの事前知識によるグラフ内およびインターグラフの集約による3次元手指再建 3D Hand Reconstruction via Aggregating Intra and Inter Graphs Guided by Prior Knowledge for Hand-Object Interaction Scenario ( http://arxiv.org/abs/2403.01733v1 ) ライセンス: Link先を確認 | Feng Shuang, Wenbo He and Shaodong Li | (参考訳) 近年,人-コンピュータ協調,特に手-物体相互作用のシナリオにおいて,3次元手再構成が注目されている。
しかし, 精度と物理的妥当性のバランス, モデルパラメータの高非線形マッピング, 閉塞特性の強化など, 相互作用によって引き起こされる重度の握手により, 依然として大きな課題が残っている。
これらの問題を解決するために,モデルベースとモデルフリーアプローチの利点を組み合わせた3次元ハンド再構成ネットワークを提案する。
まず,2次元継手から直接のMANOポーズパラメータ回帰モジュールを提案する。これは抽象画像特徴から高非線形マッピングの過程を回避し,正確な3次元継手に依存しない。
さらに, mano によって誘導された頂点-ジョイント相互グラフアテンションモデルを用いて, 頂点-頂点とジョイント-ジョイントの依存関係をモデル化し, グラフ内およびグラフ間ノードの特徴を集約するための頂点-ジョイントの相関を捉えた, ハンドメッシュとジョイントを共同精製する。
実験の結果,最近のベンチマークデータセット HO3DV2 と Dex-YCB の競合性能が得られ,モデルベースアプローチとモデルフリーアプローチに勝ることがわかった。 Recently, 3D hand reconstruction has gained more attention in human-computer cooperation, especially for hand-object interaction scenario. However, it still remains huge challenge due to severe hand-occlusion caused by interaction, which contain the balance of accuracy and physical plausibility, highly nonlinear mapping of model parameters and occlusion feature enhancement. To overcome these issues, we propose a 3D hand reconstruction network combining the benefits of model-based and model-free approaches to balance accuracy and physical plausibility for hand-object interaction scenario. Firstly, we present a novel MANO pose parameters regression module from 2D joints directly, which avoids the process of highly nonlinear mapping from abstract image feature and no longer depends on accurate 3D joints. Moreover, we further propose a vertex-joint mutual graph-attention model guided by MANO to jointly refine hand meshes and joints, which model the dependencies of vertex-vertex and joint-joint and capture the correlation of vertex-joint for aggregating intra-graph and inter-graph node features respectively. The experimental results demonstrate that our method achieves a competitive performance on recently benchmark datasets HO3DV2 and Dex-YCB, and outperforms all only model-base approaches and model-free approaches. | 翻訳日:2024-03-06 20:05:25 公開日:2024-03-04 |
# RISeg:ボディーフレーム不変機能によるロボット対話型オブジェクトセグメンテーション RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant Features ( http://arxiv.org/abs/2403.01731v1 ) ライセンス: Link先を確認 | Howard H. Qian, Yangxiao Lu, Kejia Ren, Gaotian Wang, Ninad Khargonkar, Yu Xiang, Kaiyu Hang | (参考訳) 把握などの新しい環境における操作タスクを成功させるためには、ロボットは背景や他の物体から見えない物体をセグメント化することに熟練しなければならない。
従来の研究は、大規模データ上のディープニューラルネットワークをトレーニングしてRGB/RGB-D機能埋め込みを学習することで、目に見えないオブジェクトインスタンスセグメンテーション(UOIS)を実行する。
ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,静的画像ベースUOISマスクのアンダーセグメンテーションなどの不正確なセグメンテーションを補正するための新しい手法を提案する。
ロボットインタラクションによる剛体にランダムに付着したフレームの相対線形および回転速度を用いて物体を識別し、補正された物体レベルのセグメンテーションマスクを蓄積できることを実証する。
セグメンテーションの不確実性の領域に動きを導入することで、最小の非破壊的相互作用(シーン当たり2-3)でセグメンテーション精度を不確実性駆動方式で劇的に向上させることができる。
従来のUOIS法と比較して, 物体分割精度80.7%, 28.2%の精度向上を実現し, 粗いシーンを正確にセグメンテーションする上での対話型知覚パイプラインの有効性を実証した。 In order to successfully perform manipulation tasks in new environments, such as grasping, robots must be proficient in segmenting unseen objects from the background and/or other objects. Previous works perform unseen object instance segmentation (UOIS) by training deep neural networks on large-scale data to learn RGB/RGB-D feature embeddings, where cluttered environments often result in inaccurate segmentations. We build upon these methods and introduce a novel approach to correct inaccurate segmentation, such as under-segmentation, of static image-based UOIS masks by using robot interaction and a designed body frame-invariant feature. We demonstrate that the relative linear and rotational velocities of frames randomly attached to rigid bodies due to robot interactions can be used to identify objects and accumulate corrected object-level segmentation masks. By introducing motion to regions of segmentation uncertainty, we are able to drastically improve segmentation accuracy in an uncertainty-driven manner with minimal, non-disruptive interactions (ca. 2-3 per scene). We demonstrate the effectiveness of our proposed interactive perception pipeline in accurately segmenting cluttered scenes by achieving an average object segmentation accuracy rate of 80.7%, an increase of 28.2% when compared with other state-of-the-art UOIS methods. | 翻訳日:2024-03-06 20:04:40 公開日:2024-03-04 |
# 力学系同定の統計力学 Statistical Mechanics of Dynamical System Identification ( http://arxiv.org/abs/2403.01723v1 ) ライセンス: Link先を確認 | Andrei A. Klishin, Joseph Bakarji, J. Nathan Kutz, Krithika Manohar | (参考訳) 観測されたノイズデータから力学方程式を復元することは、システム同定の重要な課題である。
我々は,超パラメータの試行錯誤選択を通じてデータの適合性とパリティのバランスをとるスパース方程式発見アルゴリズムを統計力学的に解析する手法を開発した。
このフレームワークでは、統計力学は、エントロピーとエネルギーの相互作用と類似して、複雑性とフィットネスの間の相互作用を分析するツールを提供する。
この類似性を確立するために,変数選択を係数値から分離し,後続パラメータ分布を閉じた形で計算できる2段階ベイズ推定問題として最適化手順を定式化する。
自由エネルギーや分割関数のような統計力学的概念を用いる重要な利点は、特に低データ限界における不確実性の定量化であり、現実のアプリケーションで頻繁に発生する。
データ量が増加するにつれて、我々のアプローチは熱力学的限界を反映し、不正確な識別から正しく導かれるスパーシティとノイズによる位相遷移を区別する。
スパース方程式発見のこの視点は多用途であり、他の様々な方程式発見アルゴリズムに適応することができる。 Recovering dynamical equations from observed noisy data is the central challenge of system identification. We develop a statistical mechanical approach to analyze sparse equation discovery algorithms, which typically balance data fit and parsimony through a trial-and-error selection of hyperparameters. In this framework, statistical mechanics offers tools to analyze the interplay between complexity and fitness, in analogy to that done between entropy and energy. To establish this analogy, we define the optimization procedure as a two-level Bayesian inference problem that separates variable selection from coefficient values and enables the computation of the posterior parameter distribution in closed form. A key advantage of employing statistical mechanical concepts, such as free energy and the partition function, is in the quantification of uncertainty, especially in in the low-data limit; frequently encountered in real-world applications. As the data volume increases, our approach mirrors the thermodynamic limit, leading to distinct sparsity- and noise-induced phase transitions that delineate correct from incorrect identification. This perspective of sparse equation discovery, is versatile and can be adapted to various other equation discovery algorithms. | 翻訳日:2024-03-06 20:04:02 公開日:2024-03-04 |
# イジングモデルによるフィールドアウェアファクタライゼーションマシンの$l_0$正規化 $L_0$ Regularization of Field-Aware Factorization Machine through Ising Model ( http://arxiv.org/abs/2403.01718v1 ) ライセンス: Link先を確認 | Yasuharu Okamoto (1,2) ((1) Secure System Platform Research Laboratories, NEC Corporation, Nakahara-ku, Kawasaki, Kanagawa, Japan, (2) NEC-AIST Quantum Technology Cooperative Research Laboratories, Tsukuba, Ibaraki, Japan) | (参考訳) フィールドアウェアファクタライゼーションマシン (ffm) に対する$l_0$正規化方法としてのイジングモデルの使用について検討した。
このアプローチは一般化性能を改善し、複数のグループ毎に最適な特徴の組み合わせを同時に決定する利点がある。
各グループで選択された特徴の類似性と相違点からモデルの解釈と理解を深めることができる。 We examined the use of the Ising model as an $L_0$ regularization method for field-aware factorization machines (FFM). This approach improves generalization performance and has the advantage of simultaneously determining the best feature combinations for each of several groups. We can deepen the interpretation and understanding of the model from the similarities and differences in the features selected in each group. | 翻訳日:2024-03-06 20:03:31 公開日:2024-03-04 |
# ソフト拘束型シュロディンガーブリッジ:確率制御アプローチ Soft-constrained Schrodinger Bridge: a Stochastic Control Approach ( http://arxiv.org/abs/2403.01717v1 ) ライセンス: Link先を確認 | Jhanvi Garg, Xianyang Zhang, Quan Zhou | (参考訳) schr\"{o}dinger bridgeは、事前に特定された端末分布 $\mu_t$ を持つ最適制御された拡散過程を見つけることを目標とする連続時間確率制御問題と見なすことができる。
本稿では,この確率的制御問題を,端末分布が$\mu_T$と異なるようにすることで一般化することを提案する。
この新しい制御問題をソフト拘束型schr\"{o}dinger bridge (ssb)と呼ぶ。
この研究の主な貢献は、SSBへの解の理論的導出であり、最適に制御された過程の終端分布が$\mu_T$と他の分布の幾何混合であることを示す。
この結果は時系列設定にも拡張される。
ssbの応用の一つはロバスト生成拡散モデルの開発である。
そこで本研究では,MNISTデータセットの数値例を用いて,幾何学的混合から抽出するスコアマッチングに基づくアルゴリズムを提案する。 Schr\"{o}dinger bridge can be viewed as a continuous-time stochastic control problem where the goal is to find an optimally controlled diffusion process with a pre-specified terminal distribution $\mu_T$. We propose to generalize this stochastic control problem by allowing the terminal distribution to differ from $\mu_T$ but penalizing the Kullback-Leibler divergence between the two distributions. We call this new control problem soft-constrained Schr\"{o}dinger bridge (SSB). The main contribution of this work is a theoretical derivation of the solution to SSB, which shows that the terminal distribution of the optimally controlled process is a geometric mixture of $\mu_T$ and some other distribution. This result is further extended to a time series setting. One application of SSB is the development of robust generative diffusion models. We propose a score matching-based algorithm for sampling from geometric mixtures and showcase its use via a numerical example for the MNIST data set. | 翻訳日:2024-03-06 20:03:20 公開日:2024-03-04 |
# webcites: 引用による中国のweb検索結果における属性付きクエリ中心の要約 WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations ( http://arxiv.org/abs/2403.01774v1 ) ライセンス: Link先を確認 | Haolin Deng, Chang Wang, Xin Li, Dezhang Yuan, Junlang Zhan, Tianhua Zhou, Jin Ma, Jun Gao, Ruifeng Xu | (参考訳) 大規模言語モデル(LLM)における属性の強化は重要な課題である。
実現可能なアプローチの1つは、LLMが世代をサポートする外部ソースを引用できるようにすることである。
しかし、この領域の既存のデータセットと評価方法には、注目すべき制限がある。
本研究では、属性付きクエリ中心要約(AQFS)のタスクを定式化し、7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
webcitesは、実世界のユーザクエリとweb検索結果から派生し、モデルトレーニングと評価のための貴重なリソースを提供する。
帰属評価における先行研究は、起伏誤差と引用誤差を区別しない。
また、複数のソースから部分的なサポートを引き出す文の自動検証にも不足している。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
webcitesにおけるオープンソースモデルとプロプライエタリモデルの両方の包括的な評価は、ソースを正しく引用する上でllmsが直面する課題を浮き彫りにしている。
この重要な分野のさらなる研究を促進するために、データセットとコードはオープンソース化される。 Enhancing the attribution in large language models (LLMs) is a crucial task. One feasible approach is to enable LLMs to cite external sources that support their generations. However, existing datasets and evaluation methods in this domain still exhibit notable limitations. In this work, we formulate the task of attributed query-focused summarization (AQFS) and present WebCiteS, a Chinese dataset featuring 7k human-annotated summaries with citations. WebCiteS derives from real-world user queries and web search results, offering a valuable resource for model training and evaluation. Prior works in attribution evaluation do not differentiate between groundedness errors and citation errors. They also fall short in automatically verifying sentences that draw partial support from multiple sources. We tackle these issues by developing detailed metrics and enabling the automatic evaluator to decompose the sentences into sub-claims for fine-grained verification. Our comprehensive evaluation of both open-source and proprietary models on WebCiteS highlights the challenge LLMs face in correctly citing sources, underscoring the necessity for further improvement. The dataset and code will be open-sourced to facilitate further research in this crucial field. | 翻訳日:2024-03-06 19:59:22 公開日:2024-03-04 |
# 階層的意味環境によるグラフの分配外一般化の改善 Improving out-of-distribution generalization in graphs via hierarchical semantic environments ( http://arxiv.org/abs/2403.01773v1 ) ライセンス: Link先を確認 | Yinhua Piao, Sangseon Lee, Yijingxiu Lu, Sun Kim | (参考訳) グラフ領域におけるアウト・オブ・ディストリビューション(OOD)の一般化は、複雑な分布シフトと環境コンテキストの欠如により困難である。
近年,フラット環境の生成によるグラフオード一般化の促進が試みられている。
しかし、このような平坦な環境には、より複雑なデータ分散をキャプチャする固有の制限がある。
多様なトレーニング環境(例えば、足場、サイズなど)を含むTarmOODデータセットを考えると、フラットコンテキストは、その高い不均一性に十分対応できない。
このようにして、分散シフトを扱うためのグラフ不変学習を強化するために、より意味的にリッチな環境を生成する新しい課題が提示される。
本稿では,各グラフに対して階層的意味環境を生成する新しい手法を提案する。
まず,入力グラフが与えられた場合,入力グラフから変種部分グラフを明示的に抽出し,局所環境におけるプロキシ予測を生成する。
次に,グローバル環境を階層的に再生するサブグラフを再抽出するために,確率的注意機構を用いる。
さらに,異なる階層間の一貫性を維持しつつ,同一階層内の環境の多様性を学習するために,モデルを指導する新たな学習目標も導入する。
このアプローチにより,環境間の関係を考慮し,堅牢なグラフ不変学習を促進する。
実世界のグラフデータに関する大規模な実験は、我々のフレームワークの有効性を実証した。
特に挑戦的なデータセットである drugood では、ic50 と ec50 の予測タスクにおいて、最良ベースラインよりも最大 1.29\% と 2.83\% の改善を達成している。 Out-of-distribution (OOD) generalization in the graph domain is challenging due to complex distribution shifts and a lack of environmental contexts. Recent methods attempt to enhance graph OOD generalization by generating flat environments. However, such flat environments come with inherent limitations to capture more complex data distributions. Considering the DrugOOD dataset, which contains diverse training environments (e.g., scaffold, size, etc.), flat contexts cannot sufficiently address its high heterogeneity. Thus, a new challenge is posed to generate more semantically enriched environments to enhance graph invariant learning for handling distribution shifts. In this paper, we propose a novel approach to generate hierarchical semantic environments for each graph. Firstly, given an input graph, we explicitly extract variant subgraphs from the input graph to generate proxy predictions on local environments. Then, stochastic attention mechanisms are employed to re-extract the subgraphs for regenerating global environments in a hierarchical manner. In addition, we introduce a new learning objective that guides our model to learn the diversity of environments within the same hierarchy while maintaining consistency across different hierarchies. This approach enables our model to consider the relationships between environments and facilitates robust graph invariant learning. Extensive experiments on real-world graph data have demonstrated the effectiveness of our framework. Particularly, in the challenging dataset DrugOOD, our method achieves up to 1.29\% and 2.83\% improvement over the best baselines on IC50 and EC50 prediction tasks, respectively. | 翻訳日:2024-03-06 19:59:01 公開日:2024-03-04 |
# エクササイズ交換エネルギーの最適化された有効ポテンシャルの簡易かつ正確な計算法 A Simple and Accurate Method for Computing Optimized Effective Potentials for Exact Exchange Energy ( http://arxiv.org/abs/2403.01772v1 ) ライセンス: Link先を確認 | Hideaki Takahashi | (参考訳) ハーツリーフォック(hf)波動関数の電子密度に対する逆コーン・シャム密度汎関数理論(inv-ks)を最適化有効ポテンシャル(hf-oep)の文脈で再検討した。
第一に、inv-KSによって生成された交換電位は、HF-OEPが検討中の系のHFエネルギーを実現するとき、HF-OEPによって得られる電位と等価であることが証明された。
次に、inv-KSとHF-OEPの実空間グリッド(RSG)実装に対処する。
Inv-KSにより最適化された有効電位上の波動関数の総HFエネルギーEHFを小分子の集合に対して計算する。
HFエネルギーからのEHFの平均絶対偏差(MAD)はEHFのMADよりも明らかに小さく、HF-OEPと比較して交換電位vxの詳細な構造を構築するのに、inv-KSが有利であることを示す。
Inv-KS法はまた、強相関多原子分子として知られるオルソベンジンラジカルにも適用される。
UHF計算によって計算された原子サイト上のスピン集団は、inv-KSポテンシャル上の波動関数によって忠実に再現できることが判明した。 The inverse Kohn-Sham density-functional theory (inv-KS) for the electron density of the Hartree-Fock (HF) wave function was revisited within the context of the optimized effective potential (HF- OEP). First, it is proved that the exchange potential created by the inv-KS is equivalent to the potential obtained by the HF-OEP when the HF-OEP realizes the HF energy of the system under consideration. Next the real-space grid (RSG) implementations of the inv-KS and the HF-OEP are addressed. The total HF energies EHF for the wave functions on the effective potentials optimized by the inv-KS are computed for a set of small molecules. It is found that the mean absolute deviation (MAD) of EHF from the HF energy is clearly smaller than the MAD of EHF, demonstrating that the inv-KS is advantageous in constructing the detailed structure of the exchange potential vx as compared with the HF-OEP. The inv-KS method is also applied to an ortho-benzyne radical known as a strongly correlated polyatomic molecule. It is revealed that the spin populations on the atomic sites computed by the UHF calculation can be faithfully reproduced by the wave functions on the inv-KS potential. | 翻訳日:2024-03-06 19:58:38 公開日:2024-03-04 |
# $\nu$サポートベクトルマシンの2レベル最適化による安全なスクリーニングルール A Safe Screening Rule with Bi-level Optimization of $\nu$ Support Vector Machine ( http://arxiv.org/abs/2403.01769v1 ) ライセンス: Link先を確認 | Zhiji Yang, Wanyi Chen, Huan Zhang, Yitian Xu, Lei Shi, Jianhua Zhao | (参考訳) サポートベクターマシン(svm)は、特に小さなサンプル問題において、機械学習で多くの成功を収めてきた。
従来のsvmの有名な拡張として、$\nu$サポートベクターマシン($\nu$-svm)は、優れたモデル解釈性のために優れた性能を示している。
しかし、大規模な問題に対するオーバーヘッドのトレーニングには依然として課題がある。
この問題に対処するために、トレーニング前に不活性なサンプルをスクリーニングし、予測精度を犠牲にすることなく計算コストを削減できる、$\nu$-SVM (SRBO-$\nu$-SVM) の2レベル最適化による安全なスクリーニングルールを提案する。
我々のSRBO-$\nu$-SVMは、KKT条件、凸問題の変分不等式、および$\nu$-propertyを統合することによって厳密に導出される。
さらに,計算速度を改善するために,効率的な二重座標降下法 (DCDM) を開発した。
最後に,多くのSVM型モデルの高速化を目的としたSRBO統合フレームワークを提案し,一級SVMへの適用に成功している。
6つの人工データセットと30個のベンチマークデータセットの実験結果から,教師なしタスクにおける提案手法の有効性と安全性が検証された。 Support vector machine (SVM) has achieved many successes in machine learning, especially for a small sample problem. As a famous extension of the traditional SVM, the $\nu$ support vector machine ($\nu$-SVM) has shown outstanding performance due to its great model interpretability. However, it still faces challenges in training overhead for large-scale problems. To address this issue, we propose a safe screening rule with bi-level optimization for $\nu$-SVM (SRBO-$\nu$-SVM) which can screen out inactive samples before training and reduce the computational cost without sacrificing the prediction accuracy. Our SRBO-$\nu$-SVM is strictly deduced by integrating the Karush-Kuhn-Tucker (KKT) conditions, the variational inequalities of convex problems and the $\nu$-property. Furthermore, we develop an efficient dual coordinate descent method (DCDM) to further improve computational speed. Finally, a unified framework for SRBO is proposed to accelerate many SVM-type models, and it is successfully applied to one-class SVM. Experimental results on 6 artificial data sets and 30 benchmark data sets have verified the effectiveness and safety of our proposed methods in supervised and unsupervised tasks. | 翻訳日:2024-03-06 19:58:20 公開日:2024-03-04 |
# 制御系におけるデータ記述の標準形式 Canonical Form of Datatic Description in Control Systems ( http://arxiv.org/abs/2403.01768v1 ) ライセンス: Link先を確認 | Guojian Zhan, Ziang Zheng, Shengbo Eben Li | (参考訳) フィードバックコントローラの設計は、モデル駆動制御(モデル駆動制御)からデータ駆動制御(データ駆動制御)へのパラダイムシフトを受けている。
状態空間モデルの正準形式は、ジョルダン形式、可制御形式、可観測形式によって例示されるモデル制御システムにおいて重要な概念であり、その目的はシステム解析とコントローラ合成を促進することである。
データ制御の分野では、データベースのシステム表現の標準化には注目すべき点がある。
本稿では,データ型コントローラのより効率的な設計を実現するための標準データ形式の概念を初めて紹介する。
制御システムにおいて、標準形式のデータサンプルは、遷移成分と属性成分とから構成される。
前者はサンプリング時に植物動態を独立にカプセル化し、これは状態、作用、および対応する次の状態の3つの要素を含むタプルである。
後者は、現在のサンプルの1つまたはいくつかの人工的な特性を記述し、その計算をオンラインで行う必要がある。
それぞれのサンプルの属性は、(1)因果性、将来のサンプルからの独立性の確保、(2)局所性、そして、歴史的なサンプルへの依存を許容するが、有限の隣接集合に制約される。
属性を追加する目的は、効率性と効率性の観点からコントローラ設計にいくつかの利点を提供することである。
より密接な図示を行うために,2つの正準データ形式である時間形式と空間形式を提示し,それらの利点を2つのデータ制御システムにおける不安定性とトレーニング効率の向上に示す。 The design of feedback controllers is undergoing a paradigm shift from modelic (i.e., model-driven) control to datatic (i.e., data-driven) control. Canonical form of state space model is an important concept in modelic control systems, exemplified by Jordan form, controllable form and observable form, whose purpose is to facilitate system analysis and controller synthesis. In the realm of datatic control, there is a notable absence in the standardization of data-based system representation. This paper for the first time introduces the concept of canonical data form for the purpose of achieving more effective design of datatic controllers. In a control system, the data sample in canonical form consists of a transition component and an attribute component. The former encapsulates the plant dynamics at the sampling time independently, which is a tuple containing three elements: a state, an action and their corresponding next state. The latter describes one or some artificial characteristics of the current sample, whose calculation must be performed in an online manner. The attribute of each sample must adhere to two requirements: (1) causality, ensuring independence from any future samples; and (2) locality, allowing dependence on historical samples but constrained to a finite neighboring set. The purpose of adding attribute is to offer some kinds of benefits for controller design in terms of effectiveness and efficiency. To provide a more close-up illustration, we present two canonical data forms: temporal form and spatial form, and demonstrate their advantages in reducing instability and enhancing training efficiency in two datatic control systems. | 翻訳日:2024-03-06 19:57:49 公開日:2024-03-04 |
# KeNet:マルチラベルテキスト分類のための知識強化ドキュメンテーションアテンションネットワーク KeNet:Knowledge-enhanced Doc-Label Attention Network for Multi-label text classification ( http://arxiv.org/abs/2403.01767v1 ) ライセンス: Link先を確認 | Bo Li and Yuyan Chen and Liang Zeng | (参考訳) マルチラベルテキスト分類(MLTC)は、自然言語処理(NLP)の分野において、与えられたテキストに複数のラベルを割り当てることを含む基本的なタスクである。
MLTCは重要視され、トピック認識、レコメンデーションシステム、感情分析、情報検索など様々な分野に広く応用されている。
しかし、従来の機械学習とディープニューラルネットワークは、いくつかの文書が短いが多くのラベルを持つという事実や、ラベル間の関係を確立する方法など、特定の問題にまだ対処していない。
知識の重要性がMLTCの領域で裏付けられていることは、追加的に認識することが不可欠である。
この問題に対処するため,知識強化型Doc-Label Attention Network (KeNet) と呼ばれる新しいアプローチを提案する。
具体的には,外部知識,ラベル埋め込み,包括的な注意機構を組み込んだアテンションネットワークを設計する。
従来の手法とは対照的に,文書,知識,ラベルの包括的表現を用いて,各テキストのラベルを予測している。
このアプローチは,3つのマルチラベルデータセットを用いた包括的研究によって検証されている。
実験の結果,本手法は最先端MLTC法よりも優れていた。
また,kenetの実践例を示すために,ケーススタディを実施している。 Multi-Label Text Classification (MLTC) is a fundamental task in the field of Natural Language Processing (NLP) that involves the assignment of multiple labels to a given text. MLTC has gained significant importance and has been widely applied in various domains such as topic recognition, recommendation systems, sentiment analysis, and information retrieval. However, traditional machine learning and Deep neural network have not yet addressed certain issues, such as the fact that some documents are brief but have a large number of labels and how to establish relationships between the labels. It is imperative to additionally acknowledge that the significance of knowledge is substantiated in the realm of MLTC. To address this issue, we provide a novel approach known as Knowledge-enhanced Doc-Label Attention Network (KeNet). Specifically, we design an Attention Network that incorporates external knowledge, label embedding, and a comprehensive attention mechanism. In contrast to conventional methods, we use comprehensive representation of documents, knowledge and labels to predict all labels for each single text. Our approach has been validated by comprehensive research conducted on three multi-label datasets. Experimental results demonstrate that our method outperforms state-of-the-art MLTC method. Additionally, a case study is undertaken to illustrate the practical implementation of KeNet. | 翻訳日:2024-03-06 19:57:23 公開日:2024-03-04 |
# 人とロボットのインタラクション制御のための社会ロボットの視覚知覚の改善 Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction ( http://arxiv.org/abs/2403.01766v1 ) ライセンス: Link先を確認 | Wangjie Zhong, Leimin Tian, Duy Tho Le, Hamid Rezatofighi | (参考訳) ソーシャルロボットは、ユーザーや環境を理解するのに視覚を頼りにすることが多い。
コンピュータビジョンのためのデータ駆動アプローチの最近の進歩は、ソーシャルロボットの視覚知覚を強化するためにディープラーニングモデルを適用する大きな可能性を示している。
しかし,より資源効率のよい浅層学習モデルとは対照的に,ディープラーニング手法の高度な計算要求は,実世界のインタラクションやユーザエクスペリエンスに与える影響について重要な疑問を提起する。
ソーシャルロボットが深層学習に基づく視覚知覚モデルを採用すると、客観的相互作用性能と主観的ユーザ体験がどう影響するかは明らかでない。
ペッパーロボットの視覚知覚機能を改善するために最先端の人間の知覚・追跡モデルを用い,制御された実験研究と人工の人間とロボットのインタラクション研究を行い,この新たな知覚機能を評価した。 Social robots often rely on visual perception to understand their users and the environment. Recent advancements in data-driven approaches for computer vision have demonstrated great potentials for applying deep-learning models to enhance a social robot's visual perception. However, the high computational demands of deep-learning methods, as opposed to the more resource-efficient shallow-learning models, bring up important questions regarding their effects on real-world interaction and user experience. It is unclear how will the objective interaction performance and subjective user experience be influenced when a social robot adopts a deep-learning based visual perception model. We employed state-of-the-art human perception and tracking models to improve the visual perception function of the Pepper robot and conducted a controlled lab study and an in-the-wild human-robot interaction study to evaluate this novel perception function for following a specific user with other people present in the scene. | 翻訳日:2024-03-06 19:57:02 公開日:2024-03-04 |
# 文脈性、超局所性、超非文脈性 Contextuality, superlocality and supernoncontextuality ( http://arxiv.org/abs/2403.01762v1 ) ライセンス: Link先を確認 | Chellasamy Jebarathinam and R. Srikanth | (参考訳) 文脈性は非古典性の基本的表現であり、ある量子相関に対して、合同可測変数の集合は測定コンテキストとは独立に事前割り当て値にはならないことを示す。
本研究では、文脈性を超えた非古典的量子相関、すなわち与えられた非古典的量子相関を再現するために必要な高次量子隠れ変数(HV)次元を特徴付ける。
したがって、超文脈性は超局所性の文脈的類似である。
具体的には、状態依存型の文脈性を示す5つの文脈からなるシナリオにおいて、2量子状態の量子系を研究する。
この目的のために我々は, 乱れのない条件を満たす確率の集合によって記述された, 箱の枠組みを用いる。
超局所状態は、文脈的ボックスに導くために十分に高いHV次元を持つ必要がある。
一方、非文脈的超局所箱は超文脈的であるが、超局所性は必要条件ではない。
超局所的(超局所的ではない)ボックスでは、任意の非生産状態に存在する2つのMUBの異なるタイプの同時相関と非局所的測定による相関により、超非コンテキスト性が発生する。
運用の観点からは、文脈性を示すために使用または使用できない超局所状態は、状態内の不一致相関の2と3つの非バイアスベース(MUB)の量子相関によって区別することができる。 Contextuality is a fundamental manifestation of nonclassicality, indicating that for certain quantum correlations, sets of jointly measurable variables cannot be pre-assigned values independently of the measurement context. In this work, we characterize nonclassical quantum correlation beyond contextuality, in terms of supernoncontextuality, namely the higher-than-quantum hidden-variable(HV) dimensionality required to reproduce the given noncontextual quantum correlations. Thus supernoncontextuality is the contextuality analogue of superlocality. Specifically, we study the quantum system of two-qubit states in a scenario composed of five contexts that demonstrate contextuality in a state-dependent fashion. For this purpose, we use the framework of boxes, whose behavior is described by a set of probabilities satisfying the no-disturbance conditions. We observe that superlocal states must have sufficiently a high HV dimension in order to lead to a contextual box. On the other hand, a noncontextual superlocal box can be supernoncontextual, but superlocality is not a necessary condition. For sublocal (i.e., not superlocal) boxes, supernoncontextuality arises owing to a different type of simultaneous correlation in two MUBs present in any nonproduct state and correlations due to nonlocal measurements. From an operational perspective, the superlocal states that can or cannot be used to demonstrate contextuality can be distinguished by quantum correlations in two and three mutually unbiased bases (MUBs) of the discordant correlations in the states. | 翻訳日:2024-03-06 19:56:46 公開日:2024-03-04 |
# マルコフ量子計算 Markovian Quantum Computation ( http://arxiv.org/abs/2403.01760v1 ) ライセンス: Link先を確認 | Jaeyoon Cho | (参考訳) 本稿では,多体基底状態の探索に基づく量子計算の一般プロトタイプを提案する。
このスキームは空洞冷却にインスパイアされ、ゼロ温度貯水池のエミュレーションを含む。
アンシラ貯水池キュービットの繰り返し廃棄は、システムのエントロピーを抽出し、システムを基底状態へと追いやる。
同時に、廃棄された量子ビットの測定は多体系のエネルギー準位構造を示唆する。
このマルコフ過程に基づく量子計算は、その計算能力において量子回路に基づくものと等価であることを示す。
この手法を組合せ最適化問題に対するいくつかの例で例示し、局所エネルギーミニマの効率と課題について論じる。
また,量子多体基底状態の空隙系への応用についても論じる。 We propose a general prototype of quantum computation based on the finding of many-body ground states. The scheme is inspired by cavity cooling, involving the emulation of a zero-temperature reservoir. Repeated discarding of ancilla reservoir qubits extracts the entropy of the system, driving the system towards its ground state. At the same time, measurement of the discarded qubits hints at the energy level structure of many-body systems. We show that quantum computation based on this Markovian process is equivalent in its computational power to the one based on quantum circuits. We exemplify the scheme with several illustrative use cases for combinatorial optimization problems, discussing the efficiency and the issue of local energy minima. We also discuss its application to the preparation of quantum many-body ground states for gapped systems. | 翻訳日:2024-03-06 19:56:20 公開日:2024-03-04 |
# open-world machine learning: レビューと新しい展望 Open-world Machine Learning: A Review and New Outlooks ( http://arxiv.org/abs/2403.01759v1 ) ライセンス: Link先を確認 | Fei Zhu, Shijie Ma, Zhen Cheng, Xu-Yao Zhang, Zhaoxiang Zhang, Cheng-Lin Liu | (参考訳) 機械学習は多くのアプリケーションで顕著な成功を収めた。
しかし、既存の研究は、環境が静止していると仮定したクローズドワールドの仮定に基づいており、一度デプロイするとモデルが修正される。
多くの現実世界のアプリケーションでは、オープン環境が複雑で動的で未知数に満ちているため、この基本的な、よりナイーブな仮定は持たないかもしれない。
そのような場合、未知を拒絶し、新しさを発見し、段階的に学習することで、モデルが生物学的システムと同じように安全かつ継続的な進化を可能にする。
本稿では、未知の拒絶、新しいクラス発見、および統一パラダイムによるクラス増分学習を調査し、オープンワールド機械学習の全体像を提供する。
現在の方法論の課題、原則、限界について詳しく議論する。
最後に,今後の研究の方向性について述べる。
本稿では,新たなオープンワールド機械学習パラダイムを包括的に導入し,研究者がそれぞれの分野でより強力なaiシステムを構築することを支援するとともに,人工知能の開発を促進することを目的とする。 Machine learning has achieved remarkable success in many applications. However, existing studies are largely based on the closed-world assumption, which assumes that the environment is stationary, and the model is fixed once deployed. In many real-world applications, this fundamental and rather naive assumption may not hold because an open environment is complex, dynamic, and full of unknowns. In such cases, rejecting unknowns, discovering novelties, and then incrementally learning them, could enable models to be safe and evolve continually as biological systems do. This paper provides a holistic view of open-world machine learning by investigating unknown rejection, novel class discovery, and class-incremental learning in a unified paradigm. The challenges, principles, and limitations of current methodologies are discussed in detail. Finally, we discuss several potential directions for future research. This paper aims to provide a comprehensive introduction to the emerging open-world machine learning paradigm, to help researchers build more powerful AI systems in their respective fields, and to promote the development of artificial general intelligence. | 翻訳日:2024-03-06 19:56:11 公開日:2024-03-04 |
# AFBT GAN: 対向生成対向ネットワークによる認知機能低下のための説明可能性と診断性能の向上 AFBT GAN: enhanced explainability and diagnostic performance for cognitive decline by counterfactual generative adversarial network ( http://arxiv.org/abs/2403.01758v1 ) ライセンス: Link先を確認 | Xiongri Shen, Zhenxi Song, Zhiguo Zhang | (参考訳) 関数接続(fc)の既存の説明結果は、分類結果ラベルとピアソンの相関や勾配といった相関分析法を用いて通常生成される。
しかし、診断モデルは依然としてブラックボックスモデルで訓練されており、トレーニング中に重要な地域でのFCの注意を欠く可能性がある。
健常者(HC)が主観的認知低下(SCD)に陥り、診断モデルに対する軽度認知障害(MCI)が重要なステップである場合に、神経変性関連領域に関する事前知識を提供することにより、説明性を高め、診断性能を向上させる。
神経変性関連領域をよりよく判定するために,我々は,ソースラベルFCから派生したターゲットラベルFC行列を生成し,ターゲットラベルFCをサブトラクションしたソースラベルFCを生成する。
逆ファクト推論アーキテクチャは、適応型前方および後方変換器生成対向ネットワーク(AFBT GAN)によって構成され、FCのネットワーク特性と逆パッチ埋め込み操作によって特別に設計されている。
具体的設計により、モデルは現在のネットワーク相関に集中でき、トランスフォーマーのグローバルな洞察を利用してFCを再構築し、どちらも高品質なターゲットラベル FC の生成に役立てることができる。
評価実験は, 臨床と公衆の両方で実施され, 生成した注目マップは認知機能と重要な相関関係があり, 診断性能も重要である。
コードはhttps://github.com/SXR3015/AFBT-GANで公開されている。 Existing explanation results of functional connectivity (FC) are normally generated by using classification result labels and correlation analysis methods such as Pearson's correlation or gradient backward. However, the diagnostic model is still trained on the black box model and might lack the attention of FCs in important regions during the training. To enhance the explainability and improve diagnostic performance, providing prior knowledge on neurodegeneration-related regions when healthy subjects (HC) develop into subject cognitive decline (SCD) and mild cognitive impairment (MCI) for the diagnostic model is a key step. To better determine the neurodegeneration-related regions, we employ counterfactual reasoning to generate the target label FC matrices derived from source label FC and then subtract source label FC with target label FC. The counterfactual reasoning architecture is constructed by adaptive forward and backward transformer generative adversarial network (AFBT GAN), which is specifically designed by network property in FC and inverse patch embedding operation in the transformer. The specific design can make the model focus more on the current network correlation and employ the global insight of the transformer to reconstruct FC, which both help the generation of high-quality target label FC. The validation experiments are conducted on both clinical and public datasets, the generated attention map are both vital correlated to cognitive function and the diagnostic performance is also significant. The code is available at https://github.com/SXR3015/AFBT-GAN. | 翻訳日:2024-03-06 19:55:54 公開日:2024-03-04 |
# 最適化のためのLLMのマルチモーダル統合による性能向上:キャパシタン化車両経路問題の事例研究 How Multimodal Integration Boost the Performance of LLM for Optimization: Case Study on Capacitated Vehicle Routing Problems ( http://arxiv.org/abs/2403.01757v1 ) ライセンス: Link先を確認 | Yuxiao Huang, Wenjie Zhang, Liang Feng, Xingyu Wu, Kay Chen Tan | (参考訳) 近年,大規模言語モデル (LLM) は,複雑な最適化課題に対処するための有能なツールとして位置づけられている。
この認識にもかかわらず、既存のLLMに基づく最適化手法の限界は、特に高次元問題において、数値的なテキストプロンプトにのみ依存する場合、決定変数間の関係を捉えるのに苦労していることである。
そこで本研究では,まず,テキストと視覚の両方のプロンプトを処理可能なマルチモーダルllmを用いた最適化性能の向上を提案する。
この統合により、人間の認知プロセスに似た最適化問題のより包括的な理解が可能になる。
我々は、人間の問題解決ワークフローをシミュレートし、よりニュアンスで効果的な分析を行うマルチモーダルLCMベースの最適化フレームワークを開発した。
本手法の有効性は,よく知られた組合せ最適化問題,すなわちキャパシタ型配車経路問題に着目した広範な実証研究を通じて評価される。
その結果、テキストプロンプトのみに依存したLLM最適化アルゴリズムから得られたアルゴリズムと比較し、マルチモーダルアプローチの顕著な利点を実証した。 Recently, large language models (LLMs) have notably positioned them as capable tools for addressing complex optimization challenges. Despite this recognition, a predominant limitation of existing LLM-based optimization methods is their struggle to capture the relationships among decision variables when relying exclusively on numerical text prompts, especially in high-dimensional problems. Keeping this in mind, we first propose to enhance the optimization performance using multimodal LLM capable of processing both textual and visual prompts for deeper insights of the processed optimization problem. This integration allows for a more comprehensive understanding of optimization problems, akin to human cognitive processes. We have developed a multimodal LLM-based optimization framework that simulates human problem-solving workflows, thereby offering a more nuanced and effective analysis. The efficacy of this method is evaluated through extensive empirical studies focused on a well-known combinatorial optimization problem, i.e., capacitated vehicle routing problem. The results are compared against those obtained from the LLM-based optimization algorithms that rely solely on textual prompts, demonstrating the significant advantages of our multimodal approach. | 翻訳日:2024-03-06 19:55:26 公開日:2024-03-04 |
# 海洋政策立案におけるAI言語モデルとハームエクイティの両立:BBNJ質問応答ボットを事例として AI Language Models Could Both Help and Harm Equity in Marine Policymaking: The Case Study of the BBNJ Question-Answering Bot ( http://arxiv.org/abs/2403.01755v1 ) ライセンス: Link先を確認 | Matt Ziegler, Sarah Lothian, Brian O'Neill, Richard Anderson, Yoshitaka Ota | (参考訳) chatgptのような大規模な言語モデル(llm)は、ポリシー作成プロセスのいくつかの側面を再構築する。
政策実践者は、すでにChatGPTを使用して、声明の起草、提出、プレゼンテーション、バックグラウンドリサーチの実行など、さまざまなタスクを支援しています。
我々は、llmが特定の退屈な作業、特に交渉で不利な能力制約に直面する発展途上国の利益を援助することにより、政策交渉における意思決定者間の相対的にバランスのとれた基盤を促進するために使用できることを慎重に期待している。
しかし、気候変動や高い不確実性、国境を越えた影響といった危機の緊急性のために、環境および海洋政策の用途には特にリスクが関係している。
海洋政策立案におけるLLMの現実的な可能性、限界、および株式リスクを探るため、最近採用されたBBNJ(Biodiversity Beyond National Jurisdiction Agreement)のためのAIチャットボットの事例研究を行い、主要な政策問題に対する回答を批判する。
本ケーススタディでは、発展途上国の視点を無視しつつ、主に西欧の経済中心の視点を好むテキストを生成する潜在的なバイアスを通して、海洋政策立案におけるllmの危険性を実証する。
本稿では,(1)基礎言語モデルにおけるバイアス,(2)チャットボットと国連交渉文書とのつながりから生じるバイアス,(3)アプリケーション設計から生じるバイアスなど,これらのバイアスがシステムに入る方法について述べる。
我々は、海洋政策プロセスにおける生成AIの利用に注意を喚起し、その公平性と公正性に関するさらなる研究を求める。
我々の研究はまた、開発途上国の政策立案者が独自の条件でaiと関わる技術的能力を開発する必要性を強調している。 AI Large Language Models (LLMs) like ChatGPT are set to reshape some aspects of policymaking processes. Policy practitioners are already using ChatGPT for help with a variety of tasks: from drafting statements, submissions, and presentations, to conducting background research. We are cautiously hopeful that LLMs could be used to promote a marginally more balanced footing among decision makers in policy negotiations by assisting with certain tedious work, particularly benefiting developing countries who face capacity constraints that put them at a disadvantage in negotiations. However, the risks are particularly concerning for environmental and marine policy uses, due to the urgency of crises like climate change, high uncertainty, and trans-boundary impact. To explore the realistic potentials, limitations, and equity risks for LLMs in marine policymaking, we present a case study of an AI chatbot for the recently adopted Biodiversity Beyond National Jurisdiction Agreement (BBNJ), and critique its answers to key policy questions. Our case study demonstrates the dangers of LLMs in marine policymaking via their potential bias towards generating text that favors the perspectives of mainly Western economic centers of power, while neglecting developing countries' viewpoints. We describe several ways these biases can enter the system, including: (1) biases in the underlying foundational language models; (2) biases arising from the chatbot's connection to UN negotiation documents, and (3) biases arising from the application design. We urge caution in the use of generative AI in ocean policy processes and call for more research on its equity and fairness implications. Our work also underscores the need for developing countries' policymakers to develop the technical capacity to engage with AI on their own terms. | 翻訳日:2024-03-06 19:54:41 公開日:2024-03-04 |
# 大規模言語モデルにおける低ランク適応の導出自由最適化 Derivative-Free Optimization for Low-Rank Adaptation in Large Language Models ( http://arxiv.org/abs/2403.01754v1 ) ライセンス: Link先を確認 | Feihu Jin, Yin Liu, Ying Tan | (参考訳) LoRAのようなパラメータ効率のよいチューニング手法は、パラメータのごく一部をチューニングすることで、モデルチューニングに匹敵する性能を得ることができた。
しかし、このプロセスには勾配の計算とモデル全体のバックプロパゲーションが含まれるため、計算資源は依然として必要である。
最近、微分自由最適化法を利用して勾配の計算を計算し、数ショット設定で強靭性の強化を示すことに多くの努力が注がれている。
本稿では,モデルの各自己保持層に低ランクモジュールをプリペイドし,各層における低ランクモジュールを交互に最適化するために2つの微分自由最適化手法を用いる。
様々なタスクや言語モデルに関する広範な結果から,提案手法はメモリ使用率やコンバージェンス速度において,従来のグラデーションに基づくパラメータ効率調整法やデリバティブフリー最適化法に比べ,大幅な改善を達成していることが示された。 Parameter-efficient tuning methods such as LoRA could achieve comparable performance to model tuning by tuning a small portion of the parameters. However, substantial computational resources are still required, as this process involves calculating gradients and performing back-propagation throughout the model. Much effort has recently been devoted to utilizing the derivative-free optimization method to eschew the computation of gradients and showcase an augmented level of robustness in few-shot settings. In this paper, we prepend the low-rank modules into each self-attention layer of the model and employ two derivative-free optimization methods to optimize these low-rank modules at each layer alternately. Extensive results on various tasks and language models demonstrate that our proposed method achieves substantial improvement and exhibits clear advantages in memory usage and convergence speed compared to existing gradient-based parameter-efficient tuning and derivative-free optimization methods in few-shot settings. | 翻訳日:2024-03-06 19:54:07 公開日:2024-03-04 |
# COLA:人間軌道シミュレーションのための都市間移動変換器 COLA: Cross-city Mobility Transformer for Human Trajectory Simulation ( http://arxiv.org/abs/2403.01801v1 ) ライセンス: Link先を確認 | Yu Wang, Tongya Zheng, Yuxuan Liang, Shunyu Liu, Mingli Song | (参考訳) 都市計画や疫病予防など,様々な分野において,日常的モバイルデバイスによる人為的軌跡データの有用性が証明されている。
個人のプライバシーに関する懸念から、人間の軌道シミュレーションは研究者から注目を集め、下流タスクに多数の現実的なモビリティデータを提供することを目標としている。
それでも、データ不足の大きな問題は、間違いなく既存のディープラーニングモデルの信頼性を低下させる。
本稿では,都市間移動の興味深い問題を探究し,人間の軌跡の普遍的なパターンを把握し,外部モビリティデータを用いたトランスフォーマーの強化を図る。
都市間の知識移転には2つの重要な課題がある。
1) 変圧器をドメインの不均一性に適応させる方法
2) 位置の細長い周波数分布を微妙に異なるものに適応させるための変圧器の校正方法。
これらの課題に対処するために,我々は,人間軌道シミュレーションのためのクロスシティ知識を効果的に伝達することにより,専用モデル非依存なトランスファーフレームワークを備えたクロスシティモビリティトランスフォーマ(cola)を開発した。
第一に、COLAはトランスフォーマーを都市固有の特性のためのプライベートモジュールと、都市・大学移動パターンのための共有モジュールに分割する。
第二に、COLAは、モデルに依存しない知識伝達の複雑な二段階最適化を邪魔することなく、トラジェクトリシミュレーションに軽量で効果的なポストホック調整戦略を利用する。
最先端のシングルシティベースラインと比較したcolaの広範な実験と実装したクロスシティベースラインは、その優越性と有効性を示している。
コードはhttps://github.com/Star607/Cross-city-Mobility-Transformerで公開されている。 Human trajectory data produced by daily mobile devices has proven its usefulness in various substantial fields such as urban planning and epidemic prevention. In terms of the individual privacy concern, human trajectory simulation has attracted increasing attention from researchers, targeting at offering numerous realistic mobility data for downstream tasks. Nevertheless, the prevalent issue of data scarcity undoubtedly degrades the reliability of existing deep learning models. In this paper, we are motivated to explore the intriguing problem of mobility transfer across cities, grasping the universal patterns of human trajectories to augment the powerful Transformer with external mobility data. There are two crucial challenges arising in the knowledge transfer across cities: 1) how to transfer the Transformer to adapt for domain heterogeneity; 2) how to calibrate the Transformer to adapt for subtly different long-tail frequency distributions of locations. To address these challenges, we have tailored a Cross-city mObiLity trAnsformer (COLA) with a dedicated model-agnostic transfer framework by effectively transferring cross-city knowledge for human trajectory simulation. Firstly, COLA divides the Transformer into the private modules for city-specific characteristics and the shared modules for city-universal mobility patterns. Secondly, COLA leverages a lightweight yet effective post-hoc adjustment strategy for trajectory simulation, without disturbing the complex bi-level optimization of model-agnostic knowledge transfer. Extensive experiments of COLA compared to state-of-the-art single-city baselines and our implemented cross-city baselines have demonstrated its superiority and effectiveness. The code is available at https://github.com/Star607/Cross-city-Mobility-Transformer. | 翻訳日:2024-03-06 19:49:00 公開日:2024-03-04 |
# ハイパースペクトル画像のための意味不変拡張を用いたスーパーピクセルグラフコントラストクラスタリング Superpixel Graph Contrastive Clustering with Semantic-Invariant Augmentations for Hyperspectral Images ( http://arxiv.org/abs/2403.01799v1 ) ライセンス: Link先を確認 | Jianhan Qi, Yuheng Jia, Hui Liu, Junhui Hou | (参考訳) hyperspectral images (hsi)クラスタリングは重要だが、難しいタスクである。
state-of-the-art (sota) 法は通常スーパーピクセルに依存しているが、hsi 3次元構造における空間的およびスペクトル的情報を十分に活用しておらず、その最適化ターゲットはクラスタリング指向ではない。
本研究では,まず3次元および2次元のハイブリッド畳み込みニューラルネットワークを用いて,hsiの高次空間的およびスペクトル的特徴を事前学習により抽出し,識別可能な超画素表現を学習するスーパーピクセルグラフコントラストクラスタリング(spgcc)モデルの設計を行った。
相関性のある拡張ビューはコントラストクラスタリングに不可欠であり、従来のコントラスト学習は、同じクラスに属する場合でも、異なるサンプルが埋め込み空間にプッシュされるため、クラスタ構造を損なう可能性がある。
SPGCCでは、HSIスーパーピクセルの2つの意味不変データ拡張(ピクセルサンプリング増倍)とモデルウェイト増倍(モデルウェイト増倍)を設計する。
次に, サンプルレベルのアライメントとクラスタリング中心レベルのコントラストを用いて, 超画素埋め込みのクラス内類似度とクラス間異性度を改善する。
代わりにクラスタリングとネットワーク最適化を行います。
いくつかのHSIデータセットによる実験結果から,提案手法の利点を検証し,例えばインドパインズでは,SOTA法と比較してクラスタリング精度が58.79%から67.59%に向上した。 Hyperspectral images (HSI) clustering is an important but challenging task. The state-of-the-art (SOTA) methods usually rely on superpixels, however, they do not fully utilize the spatial and spectral information in HSI 3-D structure, and their optimization targets are not clustering-oriented. In this work, we first use 3-D and 2-D hybrid convolutional neural networks to extract the high-order spatial and spectral features of HSI through pre-training, and then design a superpixel graph contrastive clustering (SPGCC) model to learn discriminative superpixel representations. Reasonable augmented views are crucial for contrastive clustering, and conventional contrastive learning may hurt the cluster structure since different samples are pushed away in the embedding space even if they belong to the same class. In SPGCC, we design two semantic-invariant data augmentations for HSI superpixels: pixel sampling augmentation and model weight augmentation. Then sample-level alignment and clustering-center-level contrast are performed for better intra-class similarity and inter-class dissimilarity of superpixel embeddings. We perform clustering and network optimization alternatively. Experimental results on several HSI datasets verify the advantages of the proposed method, e.g., on India Pines, our model improves the clustering accuracy from 58.79% to 67.59% compared to the SOTA method. | 翻訳日:2024-03-06 19:48:21 公開日:2024-03-04 |
# 公平かつ効率的な学習に基づく混雑制御に向けて Towards Fair and Efficient Learning-based Congestion Control ( http://arxiv.org/abs/2403.01798v1 ) ライセンス: Link先を確認 | Xudong Liao, Han Tian, Chaoliang Zeng, Xinchen Wan, Kai Chen | (参考訳) 近年,従来のTCP方式よりも優れた性能を示す,CC(Comgestion Control)のための学習ベースのソリューションが数多く出回っている。
しかし、それらは目的関数とそれらの性質のミスマッチのため、一貫して良好な収束特性(例えば、フェアネス、高速収束、安定性)を提供することができない。
直感的ではあるが、これらの特性を既存の学習ベースのccに統合することは困難である。
1) 学習環境は単一フローの性能最適化のために設計されているが, 協調的マルチフロー最適化ができない。
2) これらの特性を訓練対象関数に表すための直接測定可能な計量は存在しない。
Astraeaは,安定度と公正度を高速に収束させる,学習に基づく新しい渋滞制御である。
Astraeaの中心にあるマルチエージェントの深層強化学習フレームワークは、高いパフォーマンスを維持しながら、複数の競合するフロー間のインタラクティブなポリシーの学習を可能にすることで、トレーニングプロセス中にこれらの収束特性を明示的に最適化する。
さらに,並列フローの競合挙動をエミュレートする忠実なマルチフロー環境を構築し,コンバージェンス特性を明示的に表現し,トレーニング時の最適化を可能にした。
我々はAstraeaを完全に実装し、網羅的な実験により、Astraeaはすぐに公正点に収束し、その点よりも優れた安定性を示すことを示す。
例えば,複数のフローが同じボトルネックを競合する場合,最大8.4$\times$高速収束速度と2.8$\times$より小さなスループット偏差を実現し,従来よりも同等あるいはそれ以上のパフォーマンスを実現している。 Recent years have witnessed a plethora of learning-based solutions for congestion control (CC) that demonstrate better performance over traditional TCP schemes. However, they fail to provide consistently good convergence properties, including {\em fairness}, {\em fast convergence} and {\em stability}, due to the mismatch between their objective functions and these properties. Despite being intuitive, integrating these properties into existing learning-based CC is challenging, because: 1) their training environments are designed for the performance optimization of single flow but incapable of cooperative multi-flow optimization, and 2) there is no directly measurable metric to represent these properties into the training objective function. We present Astraea, a new learning-based congestion control that ensures fast convergence to fairness with stability. At the heart of Astraea is a multi-agent deep reinforcement learning framework that explicitly optimizes these convergence properties during the training process by enabling the learning of interactive policy between multiple competing flows, while maintaining high performance. We further build a faithful multi-flow environment that emulates the competing behaviors of concurrent flows, explicitly expressing convergence properties to enable their optimization during training. We have fully implemented Astraea and our comprehensive experiments show that Astraea can quickly converge to fairness point and exhibit better stability than its counterparts. For example, \sys achieves near-optimal bandwidth sharing (i.e., fairness) when multiple flows compete for the same bottleneck, delivers up to 8.4$\times$ faster convergence speed and 2.8$\times$ smaller throughput deviation, while achieving comparable or even better performance over prior solutions. | 翻訳日:2024-03-06 19:47:53 公開日:2024-03-04 |
# ランク付き:ランク付けによるエッジ検出における不均衡と不確かさの対応 RankED: Addressing Imbalance and Uncertainty in Edge Detection Using Ranking-based Losses ( http://arxiv.org/abs/2403.01795v1 ) ライセンス: Link先を確認 | Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas | (参考訳) 画像のエッジを検出するには, (P1) と (P2) の負のクラス間の重大不均衡や, (P2) のラベルの不確かさが問題となる。
既存のソリューションは、クラスバランスのクロスエントロピー損失とダイス損失を使ってp1に対処する。
本稿では,不均衡問題 (p1) と不確実性問題 (p2) の両方を解決する,統一的なランキングベースアプローチを提案する。
Rankedは2つの問題に対処する: 負のピクセルよりも正のピクセルをランク付けするコンポーネントと、高信頼のエッジピクセルをラベルの確実性を高めるコンポーネントである。
Rankedは過去の研究より優れており、NYUD-v2、BSDS500、Multi-cueのデータセットに新しい最先端のデータセットをセットしている。
コードはhttps://ranked-cvpr24.github.ioで入手できる。 Detecting edges in images suffers from the problems of (P1) heavy imbalance between positive and negative classes as well as (P2) label uncertainty owing to disagreement between different annotators. Existing solutions address P1 using class-balanced cross-entropy loss and dice loss and P2 by only predicting edges agreed upon by most annotators. In this paper, we propose RankED, a unified ranking-based approach that addresses both the imbalance problem (P1) and the uncertainty problem (P2). RankED tackles these two problems with two components: One component which ranks positive pixels over negative pixels, and the second which promotes high confidence edge pixels to have more label certainty. We show that RankED outperforms previous studies and sets a new state-of-the-art on NYUD-v2, BSDS500 and Multi-cue datasets. Code is available at https://ranked-cvpr24.github.io. | 翻訳日:2024-03-06 19:47:25 公開日:2024-03-04 |
# Beyond Recommender:AI支援意思決定における異なるAIの役割の影響に関する探索的研究 Beyond Recommender: An Exploratory Study of the Effects of Different AI Roles in AI-Assisted Decision Making ( http://arxiv.org/abs/2403.01791v1 ) ライセンス: Link先を確認 | Shuai Ma, Chenyi Zhang, Xinru Wang, Xiaojuan Ma, Ming Yin | (参考訳) 人工知能(AI)は、典型的にはRecommenderとして様々な意思決定タスクに採用され、AIが正しいとみなす推奨を提供する。
しかし、近年の研究では、これは人間の分析的思考を減少させ、人間のAIへの不適切な依存を招き、人間-AIチームのシナジーを損なう可能性が示唆されている。
対照的に、グループ意思決定における人間アドバイザーは、選択肢の分析や意思決定者に対して批判的な思考を促すなど、様々な役割を担っている。
この役割の多様性は、まだAI支援において実証研究されていない。
本稿では,Recommender,Analyzer,Devil's Advocateの3つのAIロールについて検討し,その効果を2つのAIパフォーマンスレベルにわたって評価する。
以上の結果から,タスク性能,信頼性,ユーザエクスペリエンスにおいて,各役割の強みと限界が明らかとなった。
特に、AIパフォーマンスのレベルが低い場合、Analyzerの役割が望ましい場合、Recommenderの役割が最も効果的であるとは限らない。
これらの洞察は、さまざまな状況に応じて適応的な機能的役割を持つaiアシスタントを設計する上で重要な意味を持つ。 Artificial Intelligence (AI) is increasingly employed in various decision-making tasks, typically as a Recommender, providing recommendations that the AI deems correct. However, recent studies suggest this may diminish human analytical thinking and lead to humans' inappropriate reliance on AI, impairing the synergy in human-AI teams. In contrast, human advisors in group decision-making perform various roles, such as analyzing alternative options or criticizing decision-makers to encourage their critical thinking. This diversity of roles has not yet been empirically explored in AI assistance. In this paper, we examine three AI roles: Recommender, Analyzer, and Devil's Advocate, and evaluate their effects across two AI performance levels. Our results show each role's distinct strengths and limitations in task performance, reliance appropriateness, and user experience. Notably, the Recommender role is not always the most effective, especially if the AI performance level is low, the Analyzer role may be preferable. These insights offer valuable implications for designing AI assistants with adaptive functional roles according to different situations. | 翻訳日:2024-03-06 19:47:04 公開日:2024-03-04 |
# k-stars ldp: (p, q)-clique enumerationの局所微分プライバシー下での新しいフレームワーク K-stars LDP: A Novel Framework for (p, q)-clique Enumeration under Local Differential Privacy ( http://arxiv.org/abs/2403.01788v1 ) ライセンス: Link先を確認 | Henan Sun and Zhengyu Wu and Rong-Hua Li and Guoren Wang and Zening Li | (参考訳) (p,q)-clique enumeration on a bipartite graph はクラスタリング係数の計算と最も密度の高い部分グラフの検出に重要である。
機密情報を含む可能性があるため、潜在的な攻撃者からユーザーのプライバシーを保護しながら、サブグラフ列挙を行う必要がある。
最近の研究では、エッジldp(local differential privacy)に基づくプライバシー保護アルゴリズムに焦点を当てている。
しかし、これらのアルゴリズムは大量のノイズのために大きな推定誤差を被る。
本稿では、k-stars ldpの新しいアイデアと、(p, q)-clique enumeration for (p, q)-clique enumeration のための新しいk-stars ldpアルゴリズムを提案する。
エッジLDPの有効性は、ユーザと彼のワンホップ隣人のエッジの存在を曖昧にする能力に依存している。
これは、ユーザが自分のワンホップ隣人の存在に気付くべきだという前提に基づいている。
同様に、この前提をk-スターにも適用でき、エッジは1-スターの特定のジャンルである。
この事実に基づいて,本アルゴリズムがワーナーのs rrとk-starsの存在を曖昧にするために,まずk-starsの隣り合うリストを提案する。
そこで本研究では,絶対値補正手法とk-starsサンプリング手法を提案し,推定誤差をさらに低減する。
最後に,2ラウンドのユーザ・コレクタインタラクション機構を用いて,ユーザのプライバシ保護に成功しながら, (p, q)-cliqueの数をカウントするk-stars LDPアルゴリズムを提案する。
理論解析と実験はともにエッジldpに基づくアルゴリズムよりもアルゴリズムの優越性を示した。 (p,q)-clique enumeration on a bipartite graph is critical for calculating clustering coefficient and detecting densest subgraph. It is necessary to carry out subgraph enumeration while protecting users' privacy from any potential attacker as the count of subgraph may contain sensitive information. Most recent studies focus on the privacy protection algorithms based on edge LDP (Local Differential Privacy). However, these algorithms suffer a large estimation error due to the great amount of required noise. In this paper, we propose a novel idea of k-stars LDP and a novel k-stars LDP algorithm for (p, q)-clique enumeration with a small estimation error, where a k-stars is a star-shaped graph with k nodes connecting to one node. The effectiveness of edge LDP relies on its capacity to obfuscate the existence of an edge between the user and his one-hop neighbors. This is based on the premise that a user should be aware of the existence of his one-hop neighbors. Similarly, we can apply this premise to k-stars as well, where an edge is a specific genre of 1-stars. Based on this fact, we first propose the k-stars neighboring list to enable our algorithm to obfuscate the existence of k-stars with Warner' s RR. Then, we propose the absolute value correction technique and the k-stars sampling technique to further reduce the estimation error. Finally, with the two-round user-collector interaction mechanism, we propose our k-stars LDP algorithm to count the number of (p, q)-clique while successfully protecting users' privacy. Both the theoretical analysis and experiments have showed the superiority of our algorithm over the algorithms based on edge LDP. | 翻訳日:2024-03-06 19:46:43 公開日:2024-03-04 |
# 嘘の露呈:ディープフェイク検出のための偽造品の発見 Exposing the Deception: Uncovering More Forgery Clues for Deepfake Detection ( http://arxiv.org/abs/2403.01786v1 ) ライセンス: Link先を確認 | Zhongjie Ba, Qingyu Liu, Zhenguang Liu, Shuang Wu, Feng Lin, Li Lu, Kui Ren | (参考訳) ディープフェイク技術は、斬新で魅力的な応用分野を生み出している。
残念なことに、高忠実度フェイクビデオの普及は、広範に混乱と騙しを引き起こし、見ていることが信じているという私たちの信念を揺さぶる。
これまで見過ごされていた側面は、現在のディープフェイク検出アプローチが、オーバーフィッティングの罠に陥りやすいことであり、1つか数つのローカル領域内の偽造手がかりのみに焦点を当てている。
さらに、既存の研究は、偽の特徴を抽出するためにニューラルネットワークに大きく依存しており、十分な偽の手がかりが抽出され、過剰な特徴が排除されるという理論的な制約が欠如している。
これらの欠陥は現実のシナリオにおいて不満足な精度と限定的な一般化性をもたらす。
本稿では,(1)複数の重複しない局所表現を抽出し,それらをグローバルな意味豊かな特徴へと融合させることにより,より広範な偽の手がかりを捉える新しい枠組みを提案する。
2)情報ボトルネック理論に基づき,包括的タスク関連情報を維持しつつ,局所表現の直交性を保証するために局所情報損失を導出する。
(3) 局所的な表現を融合させ,タスク非関連情報を除去するためには,相互情報の理論的解析を通じてグローバル情報損失に到達する。
実験的な方法では、5つのベンチマークデータセットで最先端のパフォーマンスを実現しています。私たちのコードは、研究者に刺激を与えるために、 \url{https://github.com/QingyuLiu/Exposing-the-Deception}で利用可能です。 Deepfake technology has given rise to a spectrum of novel and compelling applications. Unfortunately, the widespread proliferation of high-fidelity fake videos has led to pervasive confusion and deception, shattering our faith that seeing is believing. One aspect that has been overlooked so far is that current deepfake detection approaches may easily fall into the trap of overfitting, focusing only on forgery clues within one or a few local regions. Moreover, existing works heavily rely on neural networks to extract forgery features, lacking theoretical constraints guaranteeing that sufficient forgery clues are extracted and superfluous features are eliminated. These deficiencies culminate in unsatisfactory accuracy and limited generalizability in real-life scenarios. In this paper, we try to tackle these challenges through three designs: (1) We present a novel framework to capture broader forgery clues by extracting multiple non-overlapping local representations and fusing them into a global semantic-rich feature. (2) Based on the information bottleneck theory, we derive Local Information Loss to guarantee the orthogonality of local representations while preserving comprehensive task-relevant information. (3) Further, to fuse the local representations and remove task-irrelevant information, we arrive at a Global Information Loss through the theoretical analysis of mutual information. Empirically, our method achieves state-of-the-art performance on five benchmark datasets.Our code is available at \url{https://github.com/QingyuLiu/Exposing-the-Deception}, hoping to inspire researchers. | 翻訳日:2024-03-06 19:46:14 公開日:2024-03-04 |
# catcode: コードとテキストの混合に関するllmsの包括的な評価フレームワーク CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text ( http://arxiv.org/abs/2403.01784v1 ) ライセンス: Link先を確認 | Zhenru Lin, Yiqun Yao, Yang Yuan | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、コードとテキストの混在を理解し、生成するのに熟練している。
そのような$\textit{mixture}$に基づく評価は、コーディング問題を解決するモデルの能力をより包括的に理解することになる。
しかし、この文脈では、現在の評価手法はタスクカバレッジに制限があるか、標準化が欠如している。
この問題に対処するために,評価の枠組みとしてカテゴリ理論を用いることを提案する。
具体的には、コードカテゴリ内の射はコードのデバッグと変換を表し、2つのカテゴリ間の関手はコード翻訳を表し、コードカテゴリと自然言語カテゴリ間の関手はコード生成、説明、再生を表す。
我々は、ChatGPT、Text-Davinci、CodeGeeXを含むLCMのコーディング能力を総合的に評価できる、$\textbf{CatCode}$ ($\textbf{Cat}$egory $\textbf{Code}$)と呼ばれる自動評価フレームワークを提案する。 Large language models (LLMs) such as ChatGPT are increasingly proficient in understanding and generating a mixture of code and text. Evaluation based on such $\textit{mixture}$ can lead to a more comprehensive understanding of the models' abilities in solving coding problems. However, in this context, current evaluation methods are either limited in task coverage or lack standardization. To address this issue, we propose using category theory as a framework for evaluation. Specifically, morphisms within a code category can represent code debugging and transformation, functors between two categories represent code translation, and functors between a code category and a natural language category represent code generation, explanation, and reproduction. We present an automatic evaluation framework called $\textbf{CatCode}$ ($\textbf{Cat}$egory $\textbf{Code}$) that can comprehensively assess the coding abilities of LLMs, including ChatGPT, Text-Davinci, and CodeGeeX. | 翻訳日:2024-03-06 19:45:44 公開日:2024-03-04 |
# 教師なし形状対応学習のための効率的な最適輸送と関数マップの統合 Integrating Efficient Optimal Transport and Functional Maps For Unsupervised Shape Correspondence Learning ( http://arxiv.org/abs/2403.01781v1 ) ライセンス: Link先を確認 | Tung Le, Khai Nguyen, Shanlin Sun, Nhat Ho, Xiaohui Xie | (参考訳) コンピュータビジョンとグラフィックスの領域では、オブジェクト追跡、登録、テクスチャ転送、統計形状解析などの応用において、幾何学的3次元形状の対応性を明確に確立することが重要である。
従来の手作り・データ駆動型特徴学習法を超えて,スペクトル法を深層学習に取り入れ,機能地図(FM)と最適輸送(OT)に着目した。
従来のOTベースのアプローチは、しばしば学習ベースのフレームワークにおけるエントロピー正規化OTに依存し、その2次コストのために計算上の課題に直面している。
我々の重要な貢献はスライスされたワッサースタイン距離(SWD)をOTに適用することであり、これは教師なし形状マッチングフレームワークにおいて有効な高速輸送量である。
この非教師なしのフレームワークは、関数マップ正規化器とSWDから派生した新しいOTベースの損失を統合し、離散確率測度として扱われる形状間の特徴アライメントを強化する。
また、エントロピー正則化OTを用いた適応的精錬プロセスを導入し、正確な点対点対応のための特徴アライメントをさらに強化する。
本手法は,非剛性形状マッチングにおいて,非等尺性および非等尺性シナリオを含む優れた性能を示し,セグメンテーション転送のような下流タスクに優れる。
多様なデータセットに対する実証的な結果は、フレームワークの有効性と一般化能力を強調し、効率的なOTメトリクスと適応リファインメントモジュールとの整合性のない新しい標準を設定します。 In the realm of computer vision and graphics, accurately establishing correspondences between geometric 3D shapes is pivotal for applications like object tracking, registration, texture transfer, and statistical shape analysis. Moving beyond traditional hand-crafted and data-driven feature learning methods, we incorporate spectral methods with deep learning, focusing on functional maps (FMs) and optimal transport (OT). Traditional OT-based approaches, often reliant on entropy regularization OT in learning-based framework, face computational challenges due to their quadratic cost. Our key contribution is to employ the sliced Wasserstein distance (SWD) for OT, which is a valid fast optimal transport metric in an unsupervised shape matching framework. This unsupervised framework integrates functional map regularizers with a novel OT-based loss derived from SWD, enhancing feature alignment between shapes treated as discrete probability measures. We also introduce an adaptive refinement process utilizing entropy regularized OT, further refining feature alignments for accurate point-to-point correspondences. Our method demonstrates superior performance in non-rigid shape matching, including near-isometric and non-isometric scenarios, and excels in downstream tasks like segmentation transfer. The empirical results on diverse datasets highlight our framework's effectiveness and generalization capabilities, setting new standards in non-rigid shape matching with efficient OT metrics and an adaptive refinement module. | 翻訳日:2024-03-06 19:45:25 公開日:2024-03-04 |
# ootdiffusion: 制御可能な仮想トライオンのための潜在拡散型核融合装置 OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on ( http://arxiv.org/abs/2403.01779v1 ) ライセンス: Link先を確認 | Yuhao Xu, Tao Gu, Weifeng Chen, and Chengcai Chen | (参考訳) 画像ベース仮想トライオン(vton, image-based virtual try-on, 画像ベース仮想トライオン)は、被写体の高忠実性だけでなく、被写体の詳細の完全保存も要求する画像合成課題である。
そこで本研究では,事前学習した潜伏拡散モデルのパワーを活用し,現実的で制御可能な仮想試行のための新しいネットワークアーキテクチャを設計する,トライオン拡散(OOTDiffusion)によるアウトフィッティングを提案する。
明示的な反りのプロセスがなければ, 衣服の細部構造を学習し, 拡散モデルのデノージング過程において, 提案するアロイング融合により, 対象の人体と融合するアロイングunetを提案する。
本研究は,着付け用unetの制御性をさらに高めるため,トレーニングプロセスに着付けドロップアウトを導入することで,分類器を使わずに衣服の特徴の強さを調整できる手法を提案する。
VITON-HDとDress Codeのデータセットに関する包括的な実験により、OOTDiffusionは、任意の人や衣服の画像に対して、高品質な画像を効率よく生成することを示した。
ソースコードはhttps://github.com/levihsu/ootdiffusionから入手できます。 Image-based virtual try-on (VTON), which aims to generate an outfitted image of a target human wearing an in-shop garment, is a challenging image-synthesis task calling for not only high fidelity of the outfitted human but also full preservation of garment details. To tackle this issue, we propose Outfitting over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent diffusion models and designing a novel network architecture for realistic and controllable virtual try-on. Without an explicit warping process, we propose an outfitting UNet to learn the garment detail features, and merge them with the target human body via our proposed outfitting fusion in the denoising process of diffusion models. In order to further enhance the controllability of our outfitting UNet, we introduce outfitting dropout to the training process, which enables us to adjust the strength of garment features through classifier-free guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets demonstrate that OOTDiffusion efficiently generates high-quality outfitted images for arbitrary human and garment images, which outperforms other VTON methods in both fidelity and controllability, indicating an impressive breakthrough in virtual try-on. Our source code is available at https://github.com/levihsu/OOTDiffusion. | 翻訳日:2024-03-06 19:44:59 公開日:2024-03-04 |
# ニューラルネットワークを用いた周期的塑性のハイブリッドデータ駆動および物理インフォームド正規化学習 Hybrid data-driven and physics-informed regularized learning of cyclic plasticity with Neural Networks ( http://arxiv.org/abs/2403.01776v1 ) ライセンス: Link先を確認 | Stefan Hildebrand and Sandra Klinge | (参考訳) 繰り返し可塑性を表現し、ラジアル回帰マッピングアルゴリズムに基づく従来の材料モデルを置き換えるために、拡張可能で効率的で説明可能な機械学習アプローチが提案されている。
物理インフォームド正規化とバックストレス情報を実装することにより、限られた量のトレーニングデータによる高い精度と安定性を実現する。
ニューラルネットワークのオフロードを最大範囲に適用する。
提案したモデルアーキテクチャは, 完全3次元材料モデルを表現する一方で, 文献からの既存ソリューションに比べてシンプルで効率的である。
この手法の検証はアームストロング・フレデリックのキネマティック硬化モデルを用いて得られた代理データを用いて行う。
平均二乗誤差は、内部変数の逸脱特性、フロールールの遵守、弾性および塑性ステップの微分、フロールールの結合性といったいくつかの制約を規定する損失関数として仮定される。
しかし後者は精度に小さな影響を与え、これはモデルが内部変数の幅広い進化法則に対して一般化可能であることを意味する。
いくつかの負荷ケースをシミュレーションした数値実験を詳細に示し、精度と安定性を検証した。 An extendable, efficient and explainable Machine Learning approach is proposed to represent cyclic plasticity and replace conventional material models based on the Radial Return Mapping algorithm. High accuracy and stability by means of a limited amount of training data is achieved by implementing physics-informed regularizations and the back stress information. The off-loading of the Neural Network is applied to the maximal extent. The proposed model architecture is simpler and more efficient compared to existing solutions from the literature, while representing a complete three-dimensional material model. The validation of the approach is carried out by means of surrogate data obtained with the Armstrong-Frederick kinematic hardening model. The Mean Squared Error is assumed as the loss function which stipulates several restrictions: deviatoric character of internal variables, compliance with the flow rule, the differentiation of elastic and plastic steps and the associativity of the flow rule. The latter, however, has a minor impact on the accuracy, which implies the generalizability of the model for a broad spectrum of evolution laws for internal variables. Numerical tests simulating several load cases are shown in detail and validated for accuracy and stability. | 翻訳日:2024-03-06 19:44:09 公開日:2024-03-04 |
# 量子力学ハミルトニアンモンテカルロ Quantum Dynamical Hamiltonian Monte Carlo ( http://arxiv.org/abs/2403.01775v1 ) ライセンス: Link先を確認 | Owen Lockwood, Peter Weiss, Filip Aronshtein, Guillaume Verdon | (参考訳) 量子コンピューティングにおけるオープンな課題の1つは、古典的な機械学習ワークフローを加速するために量子計算を利用する有意義で実用的な方法を見つけることである。
機械学習ワークフローにおけるユビキタスな問題は、ログ確率を通してのみアクセス可能な確率分布からサンプリングすることである。
この目的のために,マルコフ連鎖モンテカルロ (mcmc) サンプリングのためのよく知られたハミルトニアンモンテカルロ (hmc) 法を拡張し,提案関数として量子計算をハイブリッドに活用する。
新しいアルゴリズム、量子力学ハミルトニアンモンテカルロ(qd-hmc)は、デジタルまたはアナログ量子コンピュータ上の量子コヒーレント連続空間ダイナミクスのシミュレーションにより、古典的なシンプレクティック積分の提案ステップを置き換える。
QD-HMCは、運動量反転を伴う詳細な平衡状態を維持するなど、HMCの重要な特性を維持しつつ、特定のシナリオにおいて古典的手法よりも多項式の高速化の可能性を秘めていることを示す。
サンプリングは様々な種類の確率的推論のコアサブルーチンであり、連続パラメータ化された空間におけるMCMCは潜在的な応用の多くのクラスをカバーするため、この研究は量子デバイスの適用範囲を広げる。 One of the open challenges in quantum computing is to find meaningful and practical methods to leverage quantum computation to accelerate classical machine learning workflows. A ubiquitous problem in machine learning workflows is sampling from probability distributions that we only have access to via their log probability. To this end, we extend the well-known Hamiltonian Monte Carlo (HMC) method for Markov Chain Monte Carlo (MCMC) sampling to leverage quantum computation in a hybrid manner as a proposal function. Our new algorithm, Quantum Dynamical Hamiltonian Monte Carlo (QD-HMC), replaces the classical symplectic integration proposal step with simulations of quantum-coherent continuous-space dynamics on digital or analogue quantum computers. We show that QD-HMC maintains key characteristics of HMC, such as maintaining the detailed balanced condition with momentum inversion, while also having the potential for polynomial speedups over its classical counterpart in certain scenarios. As sampling is a core subroutine in many forms of probabilistic inference, and MCMC in continuously-parameterized spaces covers a large-class of potential applications, this work widens the areas of applicability of quantum devices. | 翻訳日:2024-03-06 19:43:51 公開日:2024-03-04 |
# ボーム量子力学における量子観測可能性のダイナミクスとボルン則 Dynamics of quantum observables and Born's rule in Bohmian Quantum Mechanics ( http://arxiv.org/abs/2403.01836v1 ) ライセンス: Link先を確認 | Athanasios C. Tzemos, George Contopoulos | (参考訳) 本稿では,2次元量子系のボルン分布における秩序的およびカオス的ボヘミア軌道について検討する。
理論的および数値的に、エネルギー、運動量、角運動量、および2次元量子系の位置の平均値を求める。
特に,1つの結節点と多数の結節点を持つ2つの異なる系,ほぼ同じ数の順序とカオスの軌跡を持つ系と,ほぼ排他的なカオスの軌跡からなる系のボルンの分布について考察する。
数値平均値は、Bon $P=|\Psi|^2$ルールが最初に満たされた場合に理論値と一致するが、$P_0\neq|\Psi_0|^2$の場合は一致しない。
これらの平均値の提供における秩序的およびカオス的軌道の役割について検討する。 In the present paper we study both ordered and chaotic Bohmian trajectories in the Born distribution of 2d quantum systems. We find theoretically and numerically the average values of the energy, momentum, angular momentum and position of 2d quantum systems. In particular, we consider realizations of the Born distribution of a system with a single nodal point and of two different cases with many nodal points, one with almost equal number of ordered and chaotic trajectories and one consisting of almost exclusively chaotic trajectories. The numerical average values agree with the theoretical values if the Born $P=|\Psi|^2$ rule is initially satisfied, but do not agree when $P_0\neq|\Psi_0|^2$. We study the role of ordered and chaotic trajectories in providing these average values. | 翻訳日:2024-03-06 19:40:56 公開日:2024-03-04 |
# モデルに基づくデータ中心AI:学術思想と産業プラグマティズムの分断 Model-Based Data-Centric AI: Bridging the Divide Between Academic Ideals and Industrial Pragmatism ( http://arxiv.org/abs/2403.01832v1 ) ライセンス: Link先を確認 | Chanjun Park, Minsoo Khang, Dahyun Kim | (参考訳) 本稿では、データ中心AIとモデル非依存AIのアプローチの相違を強調し、学術分野と産業分野におけるデータの役割を対比する。
Data-Centric AIはモデルパフォーマンスのための高品質なデータの優位性に重点を置いているのに対して、Model-Agnostic AIはアルゴリズムの柔軟性を優先します。
この違いは、データ品質の学術的標準が工業アプリケーションの厳密な要求をしばしば満たさないことを示し、実際の環境での学術モデルの導入における潜在的な落とし穴を招いている。
包括的な分析を通じて,これらの差異に対処し,それらの課題とギャップを橋渡しするための戦略を提示する。
さらに,モデルの考慮事項をデータ最適化プロセスに統合することにより,これらの差異を解消することを目的とした,新しいパラダイムであるモデルベースデータ中心aiを提案する。
このアプローチは、学術研究と産業展開の両方のニュアンスに敏感なデータ要件の進化の必要性を強調するものだ。
これらの不一致を探索することで、AI開発におけるデータの役割をより微妙に理解し、学術的および工業的標準の収束を促進し、AIの現実の応用性を高めることを目指している。 This paper delves into the contrasting roles of data within academic and industrial spheres, highlighting the divergence between Data-Centric AI and Model-Agnostic AI approaches. We argue that while Data-Centric AI focuses on the primacy of high-quality data for model performance, Model-Agnostic AI prioritizes algorithmic flexibility, often at the expense of data quality considerations. This distinction reveals that academic standards for data quality frequently do not meet the rigorous demands of industrial applications, leading to potential pitfalls in deploying academic models in real-world settings. Through a comprehensive analysis, we address these disparities, presenting both the challenges they pose and strategies for bridging the gap. Furthermore, we propose a novel paradigm: Model-Based Data-Centric AI, which aims to reconcile these differences by integrating model considerations into data optimization processes. This approach underscores the necessity for evolving data requirements that are sensitive to the nuances of both academic research and industrial deployment. By exploring these discrepancies, we aim to foster a more nuanced understanding of data's role in AI development and encourage a convergence of academic and industrial standards to enhance AI's real-world applicability. | 翻訳日:2024-03-06 19:40:39 公開日:2024-03-04 |
# OnePerc:フォトニック量子コンピューティングのためのランダム性対応コンパイラ OnePerc: A Randomness-aware Compiler for Photonic Quantum Computing ( http://arxiv.org/abs/2403.01829v1 ) ライセンス: Link先を確認 | Hezi Zhang, Jixuan Ruan, Hassan Shapourian, Ramana Rao Kompella, Yufei Ding | (参考訳) フォトニックプラットフォームは、量子コンピューティングを大いに約束する。
それでも、ネイティブ融合操作の本質的な確率的特性は、計算プロセスに実質的なランダム性をもたらし、プログラム実行におけるスケーラビリティと効率性を達成する上で大きな課題となっている。
本稿では,スケーラビリティと効率を両立するランダム性を考慮したコンパイルフレームワークを提案する。
我々の手法は、オフラインとオンラインの最適化パスの革新的な組み合わせを活用し、新しい中間表現がそれらの間に重要な橋渡しとなる。
包括的評価を通じて、このフレームワークがスケーラブルな方法で最も効率的なベースラインコンパイラを著しく上回り、スケーラブルなフォトニック量子コンピューティングを実現する新たな可能性を開くことを実証する。 The photonic platform holds great promise for quantum computing. Nevertheless, the intrinsic probabilistic characteristics of its native fusion operations introduces substantial randomness into the computing process, posing significant challenges to achieving scalability and efficiency in program execution. In this paper, we introduce a randomness-aware compilation framework designed to concurrently achieve scalability and efficiency. Our approach leverages an innovative combination of offline and online optimization passes, with a novel intermediate representation serving as a crucial bridge between them. Through a comprehensive evaluation, we demonstrate that this framework significantly outperforms the most efficient baseline compiler in a scalable manner, opening up new possibilities for realizing scalable photonic quantum computing. | 翻訳日:2024-03-06 19:40:16 公開日:2024-03-04 |
# テンポラルデータ分類のための完全メムリスタ型貯留層解析 Analysis and Fully Memristor-based Reservoir Computing for Temporal Data Classification ( http://arxiv.org/abs/2403.01827v1 ) ライセンス: Link先を確認 | Ankur Singh, Sanghyeon Choi, Gunuk Wang, Maryaradhiya Daimari, and Byung-Geun Lee | (参考訳) Reservoir Computing (RC) は特に時空間信号の処理に有効なニューロモルフィックなフレームワークを提供する。
時間的処理技術で知られるRCは、従来のリカレントニューラルネットワークと比較してトレーニングコストを大幅に削減する。
ハードウェアデプロイメントにおける重要なコンポーネントは、動的リザーブ状態を生成する機能である。
本研究は,4ビット以上で符号化された16個の異なる状態を実現可能なWOxベースのmemristorと,読み出し層内にTiOxベースのmemristorを用いた長期メモリコンポーネントを組み込んだ,新しいデュアルメモリRCシステムを提案する。
我々は,両メムリスタタイプを徹底的に検討し,時間的データセットの処理にRCシステムを活用する。
提案したRCシステムの性能は,不完全入力を用いた孤立音声認識とMackey-Glass時系列予測の2つのベンチマークタスクによって検証される。
このシステムは、数字認識において98.84%の精度を提供し、時系列予測タスクにおいて0.036の低正規化ルート平均二乗誤差(NRMSE)を維持した。
本研究は,複雑な時間的課題の管理におけるmemristorベースのrcシステムの適性を照らし,ニューロモルフィック・コンピューティングのさらなる革新に向けた基礎研究を行った。 Reservoir computing (RC) offers a neuromorphic framework that is particularly effective for processing spatiotemporal signals. Known for its temporal processing prowess, RC significantly lowers training costs compared to conventional recurrent neural networks. A key component in its hardware deployment is the ability to generate dynamic reservoir states. Our research introduces a novel dual-memory RC system, integrating a short-term memory via a WOx-based memristor, capable of achieving 16 distinct states encoded over 4 bits, and a long-term memory component using a TiOx-based memristor within the readout layer. We thoroughly examine both memristor types and leverage the RC system to process temporal data sets. The performance of the proposed RC system is validated through two benchmark tasks: isolated spoken digit recognition with incomplete inputs and Mackey-Glass time series prediction. The system delivered an impressive 98.84% accuracy in digit recognition and sustained a low normalized root mean square error (NRMSE) of 0.036 in the time series prediction task, underscoring its capability. This study illuminates the adeptness of memristor-based RC systems in managing intricate temporal challenges, laying the groundwork for further innovations in neuromorphic computing. | 翻訳日:2024-03-06 19:40:04 公開日:2024-03-04 |
# RT-H: 言語を用いたアクション階層 RT-H: Action Hierarchies Using Language ( http://arxiv.org/abs/2403.01823v1 ) ライセンス: Link先を確認 | Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh | (参考訳) 言語は複雑な概念を消化可能な部分に分割する方法を提供する。
ロボット模倣学習における最近の研究は、与えられた視覚的観察と言語で指定されたハイレベルなタスクを予測する言語条件付きポリシーを用いている。
これらの手法は自然言語の構造を利用して、マルチタスクデータセットで意味論的に類似したタスク(例えば"pick coke can"や"pick an apple")間でデータを共有する。
しかし、タスクがより意味的に多様化するにつれて(例えば「コーラ缶」や「パック」など)、タスク間でのデータ共有が難しくなり、ハイレベルなタスクをアクションにマップする学習には、より多くのデモンストレーションデータが必要である。
タスクとアクションを橋渡しするために、私たちの洞察はロボットにアクションの言語を教え、"move arm forward"のようなより細かいフレーズで低レベルの動きを記述することです。
これらの言語の動きをタスクとアクションの間の中間的なステップとして予測することで、一見異なるタスク間で低レベルの動作の共有構造を学ぶことができる。
さらに、言語動作に規定されたポリシーは、人間の特定言語動作によって実行中に容易に修正できる。
これにより、人間の言語介入から学ぶことのできるフレキシブルなポリシーの新しいパラダイムが可能になる。
我々の手法RT-Hは、まず言語の動きを予測することを学習し、それと高レベルなタスクを条件に、あらゆる段階で視覚的コンテキストを用いて行動を予測する。
rt-hはこの言語-アクション階層を利用して、マルチタスクデータセットを効果的に利用することで、より堅牢で柔軟なポリシーを学習している。
これらの方針は、言語介入に応答するだけでなく、遠隔操作による介入から学ぶ方法や優れた手法からも学習できることを示す。
私たちのウェブサイトとビデオはhttps://rt-hierarchy.github.ioで閲覧できます。 Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io. | 翻訳日:2024-03-06 19:39:41 公開日:2024-03-04 |
# 非エルミートスピン軌道結合冷間原子系の完全バンド遷移 Complete Interband Transitions for Non-Hermitian Spin-Orbit-Coupled Cold-Atom Systems ( http://arxiv.org/abs/2403.01821v1 ) ライセンス: Link先を確認 | Dong Liu, Zejian Ren, Wai Chun Wong, Entong Zhao, Chengdong He, Ka Kwan Pak, Gyu-Boong Jo and Jensen Li | (参考訳) 近年、ハミルトニアンのより柔軟な制御のために、合成スピン軌道結合が冷原子系に導入され、2光子デチューニングにより、冷原子状態の動的制御が可能となった。
バンド内遷移は断熱的に得ることができるが、異なるバンドの重ね合わせではなく、高速掃除によって得られる完全なバンド間遷移は通常、初期状態と最終状態の位置が準調空間内のバンドギャップから遠く離れることによって保証される。
ここでは、原子ロスコントラストと2光子デチューニングを2つの制御可能な外部パラメータとして追加の非エルミートパラメータを導入することにより、バンド内および完全バンド間遷移は初期状態と最終状態の位置とは独立に達成できる。
さらに、2次元外部パラメータ空間におけるポイントソースダイアグラムアプローチを開発し、任意の非断熱遷移の場所を可視化し予測する。
この制御プロトコルは、低温原子系を用いた量子状態制御と量子シミュレーションに潜在的に応用することができる。 Recently, synthetic spin-orbit coupling has been introduced into cold-atom systems for more flexible control of the Hamiltonian, which was further made time-varying through two-photon detuning to achieve dynamic control of the cold-atom state. While an intraband transition can be adiabatically obtained, a complete interband transition, rather than a superposition of different bands, obtained through fast sweeping is usually guaranteed by having the positions of the initial and final states be far away from any band gap in the quasimomentum space. Here, by introducing an additional non-Hermitian parameter through an atom-loss contrast together with two-photon detuning as two controllable external parameters, both intraband and complete interband transitions can be achieved independent of the positions of the initial and final states. In addition, a point-source diagram approach in the 2D external parameter space is developed to visualize and predict the locations of any nonadiabatic transitions. This control protocol can have potential applications in quantum state control and quantum simulations using cold-atom systems. | 翻訳日:2024-03-06 19:39:10 公開日:2024-03-04 |
# 線形放射伝達方程式のためのマクロ補助漸近保存ニューラルネットワーク Macroscopic auxiliary asymptotic preserving neural networks for the linear radiative transfer equations ( http://arxiv.org/abs/2403.01820v1 ) ライセンス: Link先を確認 | Hongyan Li, Song Jiang, Wenjun Sun, Liwei Xu, Guanyu Zhou | (参考訳) 我々は,マルチスケールの性質と高次元性を有する時間依存線形放射移動方程式(LRTE)を解くために,MA-APNN法を開発した。
これを実現するために,Physics-Informed Neural Networks (PINNs) フレームワークを用いて,拡散限界方程式の情報を直接的かつ明示的に含むマクロ的補助方程式を組み込んだ,適応的に指数関数的に重み付けされた漸近保存(AP)損失関数を設計する。
したがって、スケールパラメータがゼロになる傾向にあるため、損失関数は輸送状態から拡散限界状態へと徐々に遷移する。
さらに、初期データ、境界条件、および保存法は、損失の正規化用語として機能する。
本稿では,ma-apnnの有効性を示す数値例を示す。 We develop a Macroscopic Auxiliary Asymptotic-Preserving Neural Network (MA-APNN) method to solve the time-dependent linear radiative transfer equations (LRTEs), which have a multi-scale nature and high dimensionality. To achieve this, we utilize the Physics-Informed Neural Networks (PINNs) framework and design a new adaptive exponentially weighted Asymptotic-Preserving (AP) loss function, which incorporates the macroscopic auxiliary equation that is derived from the original transfer equation directly and explicitly contains the information of the diffusion limit equation. Thus, as the scale parameter tends to zero, the loss function gradually transitions from the transport state to the diffusion limit state. In addition, the initial data, boundary conditions, and conservation laws serve as the regularization terms for the loss. We present several numerical examples to demonstrate the effectiveness of MA-APNNs. | 翻訳日:2024-03-06 19:38:50 公開日:2024-03-04 |
# AllSpark: 半スーパービジョンセマンティックセグメンテーションのためのトランスフォーマーでラベル付けされていないラベル付き機能 AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.01818v1 ) ライセンス: Link先を確認 | Haonan Wang, Qixiang Zhang, Yi Li, Xiaomeng Li | (参考訳) 半教師付きセマンティックセマンティックセグメンテーション(SSSS)は、ラベル付きデータと大量のラベル付きデータを利用する、時間を要するピクセルレベルの手動ラベリングの負担を軽減するために提案されている。
現在の最先端の手法では、ラベル付きデータを基底真理、ラベルなしデータを擬似ラベルでトレーニングする。
しかし、2つのトレーニングフローは分離されており、ラベル付きデータがトレーニングプロセスを支配し、結果として低品質の擬似ラベルと結果として準最適結果が得られる。
この問題を軽減するためにallsparkを提案する。これはラベルのない機能からラベル付きの特徴を再生するものだ。
さらに,ラベルのない特徴がラベル付き特徴を適切に表現することを保証するために,チャネル意味グループ化戦略とともに意味記憶を導入する。
AllSparkは、フレームワークレベルではなく、SSSSのアーキテクチャレベル設計に新たな光を当てた。
また、一般的なトランスフォーマーベースのセグメンテーションモデルにシームレスに統合できるフレキシブルなボトルネックモジュールと見なすこともできる。
提案されたAllSparkは、Pascal、Cityscapes、COCOベンチマークのすべての評価プロトコルで、ベル・アンド・ウィストルなしで既存のメソッドより優れている。
コードとモデルの重み付けは以下の通りである。 Semi-supervised semantic segmentation (SSSS) has been proposed to alleviate the burden of time-consuming pixel-level manual labeling, which leverages limited labeled data along with larger amounts of unlabeled data. Current state-of-the-art methods train the labeled data with ground truths and unlabeled data with pseudo labels. However, the two training flows are separate, which allows labeled data to dominate the training process, resulting in low-quality pseudo labels and, consequently, sub-optimal results. To alleviate this issue, we present AllSpark, which reborns the labeled features from unlabeled ones with the channel-wise cross-attention mechanism. We further introduce a Semantic Memory along with a Channel Semantic Grouping strategy to ensure that unlabeled features adequately represent labeled features. The AllSpark shed new light on the architecture level designs of SSSS rather than framework level, which avoids increasingly complicated training pipeline designs. It can also be regarded as a flexible bottleneck module that can be seamlessly integrated into a general transformer-based segmentation model. The proposed AllSpark outperforms existing methods across all evaluation protocols on Pascal, Cityscapes and COCO benchmarks without bells-and-whistles. Code and model weights are available at: https://github.com/xmed-lab/AllSpark. | 翻訳日:2024-03-06 19:38:36 公開日:2024-03-04 |
# NusaBERT:IndoBERTを多言語・多文化に教える NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural ( http://arxiv.org/abs/2403.01817v1 ) ライセンス: Link先を確認 | Wilson Wongso, David Samuel Setiawan, Steven Limcorn, Ananto Joyoadikusumo | (参考訳) インドネシアの言語学的景観は、700以上の言語と方言を包含し、世界で最も言語的に豊かな国の一つである。
この多様性は、コードスイッチングと低リソースの地域言語の存在の広範な実践と相まって、現代の事前訓練言語モデルに固有の課題を提示している。
これらの課題に対応して,語彙拡張を取り入れ,地域言語や方言を含む多言語コーパスを活用することで,IndoBERTを基盤としたNusaBERTを開発した。
NusaBERTは、様々なベンチマークの厳密な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを示し、非表現言語に対する将来の自然言語理解研究の道を開く。 Indonesia's linguistic landscape is remarkably diverse, encompassing over 700 languages and dialects, making it one of the world's most linguistically rich nations. This diversity, coupled with the widespread practice of code-switching and the presence of low-resource regional languages, presents unique challenges for modern pre-trained language models. In response to these challenges, we developed NusaBERT, building upon IndoBERT by incorporating vocabulary expansion and leveraging a diverse multilingual corpus that includes regional languages and dialects. Through rigorous evaluation across a range of benchmarks, NusaBERT demonstrates state-of-the-art performance in tasks involving multiple languages of Indonesia, paving the way for future natural language understanding research for under-represented languages. | 翻訳日:2024-03-06 19:38:11 公開日:2024-03-04 |
# SMAUG: 適応リアルタイムサブタスク認識のためのスライディング多次元タスクウィンドウベースMARLフレームワーク SMAUG: A Sliding Multidimensional Task Window-Based MARL Framework for Adaptive Real-Time Subtask Recognition ( http://arxiv.org/abs/2403.01816v1 ) ライセンス: Link先を確認 | Wenjing Zhang, Wei Zhang | (参考訳) 指数関数的に拡大する共同観測行動空間から直接行動決定を行う代わりに、サブタスクベースのマルチエージェント強化学習(MARL)手法により、エージェントは異なるサブタスクに取り組む方法を学ぶことができる。
既存のサブタスクベースのMARL法は階層的強化学習(HRL)に基づいている。
しかしながら、これらのアプローチは、しばしばサブタスクの数を制限し、定期的にサブタスク認識を行い、あらかじめ定義された固定時間内にのみ特定のサブタスクを特定し、実行することができるため、常に変化するサブタスクを持つ多様な動的シナリオには適さない。
上記の制約を打破するために、適応的リアルタイムサブタスク認識のためのm\textbf{U}ti-agent reinforcement learnin\textbf{G} framework(SMAUG)を提案する。
スライディング多次元タスクウィンドウを利用して、様々な長さの観測および予測された軌跡に基づいて連結された軌跡セグメントからサブタスクの必須情報を抽出する。
推論ネットワークは、サブタスク指向のポリシーネットワークで将来の軌道を反復的に予測するように設計されている。
さらに、本質的なモチベーション報酬は、サブタスク探索と行動多様性を促進するために定義される。
SMAUGは任意のQラーニングベースのアプローチと統合できる。
StarCraft IIの実験では、SMAUGは全てのベースラインと比較してパフォーマンス上の優位性を示すだけでなく、最初のトレーニング段階でより顕著で迅速な報酬の上昇を示す。 Instead of making behavioral decisions directly from the exponentially expanding joint observational-action space, subtask-based multi-agent reinforcement learning (MARL) methods enable agents to learn how to tackle different subtasks. Most existing subtask-based MARL methods are based on hierarchical reinforcement learning (HRL). However, these approaches often limit the number of subtasks, perform subtask recognition periodically, and can only identify and execute a specific subtask within the predefined fixed time period, which makes them inflexible and not suitable for diverse and dynamic scenarios with constantly changing subtasks. To break through above restrictions, a \textbf{S}liding \textbf{M}ultidimensional t\textbf{A}sk window based m\textbf{U}ti-agent reinforcement learnin\textbf{G} framework (SMAUG) is proposed for adaptive real-time subtask recognition. It leverages a sliding multidimensional task window to extract essential information of subtasks from trajectory segments concatenated based on observed and predicted trajectories in varying lengths. An inference network is designed to iteratively predict future trajectories with the subtask-oriented policy network. Furthermore, intrinsic motivation rewards are defined to promote subtask exploration and behavior diversity. SMAUG can be integrated with any Q-learning-based approach. Experiments on StarCraft II show that SMAUG not only demonstrates performance superiority in comparison with all baselines but also presents a more prominent and swift rise in rewards during the initial training stage. | 翻訳日:2024-03-06 19:37:56 公開日:2024-03-04 |
# 効率的な手メッシュ再建のための簡易ベースライン A Simple Baseline for Efficient Hand Mesh Reconstruction ( http://arxiv.org/abs/2403.01813v1 ) ライセンス: Link先を確認 | Zhishan Zhou, Shihao.zhou, Zhi Lv, Minqiang Zou, Yao Tang, Jiajun Liang | (参考訳) 3次元手ポーズ推定はジェスチャー認識や人間と機械のインタラクションタスクといった分野に広く応用されている。
性能が向上するにつれて、システムの複雑さも増大し、比較分析や実践的な実装が制限される。
本稿では,SOTA(State-of-the-art)法を超越するだけでなく,計算効率も向上する単純なベースラインを提案する。
このベースラインを確立するために、既存の作業をトークンジェネレータとメッシュレグレシタという2つのコンポーネントに抽象化し、そのコア構造を調べます。
この文脈では、コア構造は固有の機能を実現し、大幅な改善をもたらし、不要な複雑さなしに優れたパフォーマンスを達成する。
私たちの提案するアプローチはバックボーンの変更から切り離され、現代的なモデルに適応できるようにしています。
提案手法は既存のソリューションよりも優れており,複数のデータセットでSOTA(State-of-the-art)結果が得られる。
FreiHANDデータセットでは, PA-MPJPEが5.7mm, PA-MPVPEが6.0mmであった。
同様に、Dexycbデータセットでは、PA-MPJPEが5.5mm、PA-MPVPEが5.0mmであった。
性能速度については,HRNetでは最大33フレーム/秒(fps),FastViT-MA36では最大70フレーム/秒に到達した。 3D hand pose estimation has found broad application in areas such as gesture recognition and human-machine interaction tasks. As performance improves, the complexity of the systems also increases, which can limit the comparative analysis and practical implementation of these methods. In this paper, we propose a simple yet effective baseline that not only surpasses state-of-the-art (SOTA) methods but also demonstrates computational efficiency. To establish this baseline, we abstract existing work into two components: a token generator and a mesh regressor, and then examine their core structures. A core structure, in this context, is one that fulfills intrinsic functions, brings about significant improvements, and achieves excellent performance without unnecessary complexities. Our proposed approach is decoupled from any modifications to the backbone, making it adaptable to any modern models. Our method outperforms existing solutions, achieving state-of-the-art (SOTA) results across multiple datasets. On the FreiHAND dataset, our approach produced a PA-MPJPE of 5.7mm and a PA-MPVPE of 6.0mm. Similarly, on the Dexycb dataset, we observed a PA-MPJPE of 5.5mm and a PA-MPVPE of 5.0mm. As for performance speed, our method reached up to 33 frames per second (fps) when using HRNet and up to 70 fps when employing FastViT-MA36 | 翻訳日:2024-03-06 19:37:09 公開日:2024-03-04 |
# 説明可能なニューロ・シンボリックパイプラインによるマルチドメイン自動短解像の実現 Enhancing Multi-Domain Automatic Short Answer Grading through an Explainable Neuro-Symbolic Pipeline ( http://arxiv.org/abs/2403.01811v1 ) ライセンス: Link先を確認 | Felix K\"unnecke, Anna Filighera, Colin Leong, Tim Steuer | (参考訳) グレーディング決定の背後にある解釈可能な推論を伴って、簡単な答えを自動でグラディングすることは、現在のトランスフォーマーアプローチにとって難しい目標である。
正当化キュー検出は論理的推論と組み合わせて、ASAGのニューロシンボリックアーキテクチャーにとって有望な方向を示している。
しかし、主な課題の1つは、いくつかのASAGデータセットにのみ存在する、学生の反応に注釈付けされた正当化手順が必要であることである。
この課題を克服するために,(1)ASAGデータセットの正当性を示す弱教師付きアノテーション手法,(2)正当性に基づく説明可能なASAGのニューロシンボリックモデルを提案する。
提案手法は,2言語,マルチドメイン,マルチクエクションのトレーニングセットアップにおけるショートアンサーフィードバックデータセットの最先端と比較して,RMSEを0.24から0.3改善する。
以上の結果から,本手法は高品質な学級を創出する上で有望な方向性を示し,今後のASAG研究やNLP教育における研究にともなう説明を提供する。 Grading short answer questions automatically with interpretable reasoning behind the grading decision is a challenging goal for current transformer approaches. Justification cue detection, in combination with logical reasoners, has shown a promising direction for neuro-symbolic architectures in ASAG. But, one of the main challenges is the requirement of annotated justification cues in the students' responses, which only exist for a few ASAG datasets. To overcome this challenge, we contribute (1) a weakly supervised annotation procedure for justification cues in ASAG datasets, and (2) a neuro-symbolic model for explainable ASAG based on justification cues. Our approach improves upon the RMSE by 0.24 to 0.3 compared to the state-of-the-art on the Short Answer Feedback dataset in a bilingual, multi-domain, and multi-question training setup. This result shows that our approach provides a promising direction for generating high-quality grades and accompanying explanations for future research in ASAG and educational NLP. | 翻訳日:2024-03-06 19:36:28 公開日:2024-03-04 |
# ViewDiff:テキストから画像モデルによる3次元連続画像生成 ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models ( http://arxiv.org/abs/2403.01807v1 ) ライセンス: Link先を確認 | Lukas H\"ollein, Alja\v{z} Bo\v{z}i\v{c}, Norman M\"uller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollh\"ofer, Matthias Nie{\ss}ner | (参考訳) テキスト誘導による2Dコンテンツ制作の成功に触発されて、3Dアセット生成は膨大な注目を集めている。
既存のtext-to-3d法は、最適化問題で事前学習されたテキストから画像への拡散モデルを使うか、合成データで微調整する。
本稿では,事前学習したテキストから画像へのモデルを先行的に活用し,実世界データから単一のデノージングプロセスでマルチビュー画像を生成する方法を提案する。
具体的には,テキスト対画像モデルの既存のu-netネットワークの各ブロックに3次元ボリュームレンダリング層とクロスフレームアテンション層を統合することを提案する。
さらに,任意の視点でより3D一貫性のある画像をレンダリングする自動回帰生成を設計する。
実際のオブジェクトのデータセットに基づいてモデルをトレーニングし、その能力を示して、実環境におけるさまざまな高品質な形状とテクスチャのインスタンスを生成する。
既存の手法と比較して,本手法で生成した結果は一貫したものであり,視覚的品質(-30% FID,-37% KID)が好ましい。 3D asset generation is getting massive amounts of attention, inspired by the recent success of text-guided 2D content creation. Existing text-to-3D methods use pretrained text-to-image diffusion models in an optimization problem or fine-tune them on synthetic data, which often results in non-photorealistic 3D objects without backgrounds. In this paper, we present a method that leverages pretrained text-to-image models as a prior, and learn to generate multi-view images in a single denoising process from real-world data. Concretely, we propose to integrate 3D volume-rendering and cross-frame-attention layers into each block of the existing U-Net network of the text-to-image model. Moreover, we design an autoregressive generation that renders more 3D-consistent images at any viewpoint. We train our model on real-world datasets of objects and showcase its capabilities to generate instances with a variety of high-quality shapes and textures in authentic surroundings. Compared to the existing methods, the results generated by our method are consistent, and have favorable visual quality (-30% FID, -37% KID). | 翻訳日:2024-03-06 19:35:56 公開日:2024-03-04 |
# 線形可解mdpと線形二次レギュレータに対するtsallisエントロピー正則化 Tsallis Entropy Regularization for Linearly Solvable MDP and Linear Quadratic Regulator ( http://arxiv.org/abs/2403.01805v1 ) ライセンス: Link先を確認 | Yota Hashizume, Koshi Oishi, Kenji Kashima | (参考訳) シャノンエントロピー正則化は、ソフト・アクタ-クリティックとして知られる最大エントロピー強化学習のようなロバスト性を促進する能力があるため、最適制御において広く採用されている。
本稿では,Shannon Entropyの1パラメータ拡張であるTsallis entropyを用いて,線形可溶性MDPと線形二次レギュレータの正則化を行う。
我々は,これらの問題の解法を導出し,得られた制御法の探索とスパーシティのバランスにおける有用性を示す。 Shannon entropy regularization is widely adopted in optimal control due to its ability to promote exploration and enhance robustness, e.g., maximum entropy reinforcement learning known as Soft Actor-Critic. In this paper, Tsallis entropy, which is a one-parameter extension of Shannon entropy, is used for the regularization of linearly solvable MDP and linear quadratic regulators. We derive the solution for these problems and demonstrate its usefulness in balancing between exploration and sparsity of the obtained control law. | 翻訳日:2024-03-06 19:35:23 公開日:2024-03-04 |
# pointcore: ローカルグローバル機能を用いた非教師なし雲異常検出装置 PointCore: Efficient Unsupervised Point Cloud Anomaly Detector Using Local-Global Features ( http://arxiv.org/abs/2403.01804v1 ) ライセンス: Link先を確認 | Baozhu Zhao, Qiwei Xiong, Xiaohan Zhang, Jingfeng Guo, Qi Liu, Xiaofen Xing, Xiangmin Xu | (参考訳) トレーニングセットから異常データポイントを検出することを目的とした3次元ポイントクラウド異常検出は、産業検査や自動運転など、さまざまなアプリケーションの基盤となる。
しかし、既存のポイントクラウド異常検出手法では、ローカル表現とグローバル表現を完全に保存するために複数の特徴記憶バンクが組み込まれていることが多い。
そこで本研究では,ローカル・グローバル機能に基づく教師なしクラウド異常検出フレームワークであるpointcoreを提案する。
具体的に言うと、pointcoreは、ローカル(座標)とグローバル(ポイントメイ)表現を格納する単一のメモリバンクと、これらのローカルグローバル特徴に異なる優先度を割り当てるだけで、計算コストと推論の不一致を低減できる。
さらに, 異常値に対するロバスト化には, 異なるスケールの値を概念的に共通なスケールに調整するだけでなく, 密度分布データを均一な分布に変換する正規化ランキング法が導入された。
Real3D-ADデータセットに関する大規模な実験は、PointCoreが最先端のReg3D-ADアプローチやいくつかの競合と比較して、検出とローカライゼーションの両方で競合推論時間と最高のパフォーマンスを達成することを示した。 Three-dimensional point cloud anomaly detection that aims to detect anomaly data points from a training set serves as the foundation for a variety of applications, including industrial inspection and autonomous driving. However, existing point cloud anomaly detection methods often incorporate multiple feature memory banks to fully preserve local and global representations, which comes at the high cost of computational complexity and mismatches between features. To address that, we propose an unsupervised point cloud anomaly detection framework based on joint local-global features, termed PointCore. To be specific, PointCore only requires a single memory bank to store local (coordinate) and global (PointMAE) representations and different priorities are assigned to these local-global features, thereby reducing the computational cost and mismatching disturbance in inference. Furthermore, to robust against the outliers, a normalization ranking method is introduced to not only adjust values of different scales to a notionally common scale, but also transform densely-distributed data into a uniform distribution. Extensive experiments on Real3D-AD dataset demonstrate that PointCore achieves competitive inference time and the best performance in both detection and localization as compared to the state-of-the-art Reg3D-AD approach and several competitors. | 翻訳日:2024-03-06 19:35:01 公開日:2024-03-04 |
# ポールベース検出のためのマップ支援アノテーション Map-aided annotation for pole base detection ( http://arxiv.org/abs/2403.01868v1 ) ライセンス: Link先を確認 | Benjamin Missaoui (Heudiasyc), Maxime Noizet (Heudiasyc), Philippe Xu (Heudiasyc) | (参考訳) 自律ナビゲーションでは、高定義マップは広く使われている情報ソースである。
道路標識、信号機、街灯などのHDマップにエンコードされたポールのような機能は、ローカライゼーションのランドマークとして使用できる。
この目的のためには、最初にその組み込みセンサーを使用して車両によって検出される必要がある。
幾何学モデルはライダーセンサーが取得した3Dポイントクラウドの処理に使用することができるが、現代の画像ベースのアプローチはディープニューラルネットワークに依存しているため、注釈付きトレーニングデータに大きく依存している。
本稿では2次元HDマップを用いて,画像中の極状特徴を自動的にアノテートする。
高さ情報がない場合、地図の特徴は地上のポールベースとして表現される。
新たにlidarセンサーを応用して、遮蔽された特徴をフィルタリングし、地盤の投射を洗練する方法を示す。
また,物体検出器をポールベースを検出するように訓練する方法を実証する。
提案手法を評価するために,まず,意味セグメンテーションから手作業でアノテートしたデータを用いて検証し,その後,フランスのcompi{\`e}gne市で自動生成したアノテートデータと比較した。
Erratum: 原版[1]では, 異なるモデルの精度評価において誤差が発生し, 検出結果に適用した評価方法が明確には定義されなかった。
本改訂では,特にMAE(Mean Absolute Errors)の観点から,このセグメントを補正し,更新結果を提示する。 For autonomous navigation, high definition maps are a widely used source of information. Pole-like features encoded in HD maps such as traffic signs, traffic lights or street lights can be used as landmarks for localization. For this purpose, they first need to be detected by the vehicle using its embedded sensors. While geometric models can be used to process 3D point clouds retrieved by lidar sensors, modern image-based approaches rely on deep neural network and therefore heavily depend on annotated training data. In this paper, a 2D HD map is used to automatically annotate pole-like features in images. In the absence of height information, the map features are represented as pole bases at the ground level. We show how an additional lidar sensor can be used to filter out occluded features and refine the ground projection. We also demonstrate how an object detector can be trained to detect a pole base. To evaluate our methodology, it is first validated with data manually annotated from semantic segmentation and then compared to our own automatically generated annotated data recorded in the city of Compi{\`e}gne, France. Erratum: In the original version [1], an error occurred in the accuracy evaluation of the different models studied and the evaluation method applied on the detection results was not clearly defined. In this revision, we offer a rectification to this segment, presenting updated results, especially in terms of Mean Absolute Errors (MAE). | 翻訳日:2024-03-06 19:29:49 公開日:2024-03-04 |
# アンカー多変量解析による一般化の改善 Improving generalisation via anchor multivariate analysis ( http://arxiv.org/abs/2403.01865v1 ) ライセンス: Link先を確認 | Homer Durand, Gherardo Varando, Gustau Camps-Valls, Nathan Mankovich | (参考訳) 我々は,out-of-distribution(ood)一般化を改善するために,アンカー回帰(ar)に対する因果正規化拡張を導入する。
我々は、分散シフトに対する堅牢性を確保するために、anchorフレームワークと連携して、anchor互換の損失を示す。
様々な多変量解析(MVA)アルゴリズム、例えば(オルソノーマライズされた)PLS、RR、MLRはアンカーフレームワークに該当する。
単純な正規化はOOD設定の堅牢性を高める。
合成および実世界の気候科学問題における一貫性と有効性を示す、選択されたアルゴリズムに対する推定器を提供する。
実証的検証はアンカー正規化の汎用性を強調し、mvaアプローチとの互換性と、分布シフトをガードしながら再現性を高める役割を強調している。
拡張されたARフレームワークは因果推論手法を進化させ、信頼性の高いOOD一般化の必要性に対処する。 We introduce a causal regularisation extension to anchor regression (AR) for improved out-of-distribution (OOD) generalisation. We present anchor-compatible losses, aligning with the anchor framework to ensure robustness against distribution shifts. Various multivariate analysis (MVA) algorithms, such as (Orthonormalized) PLS, RRR, and MLR, fall within the anchor framework. We observe that simple regularisation enhances robustness in OOD settings. Estimators for selected algorithms are provided, showcasing consistency and efficacy in synthetic and real-world climate science problems. The empirical validation highlights the versatility of anchor regularisation, emphasizing its compatibility with MVA approaches and its role in enhancing replicability while guarding against distribution shifts. The extended AR framework advances causal inference methodologies, addressing the need for reliable OOD generalisation. | 翻訳日:2024-03-06 19:29:24 公開日:2024-03-04 |
# RCoCo: リーマン空間における多重ネットワーク間のコントラスト集合リンク予測 RCoCo: Contrastive Collective Link Prediction across Multiplex Network in Riemannian Space ( http://arxiv.org/abs/2403.01864v1 ) ライセンス: Link先を確認 | Li Sun, Mengjie Li, Yong Yang, Xiao Li, Lin Liu, Pengfei Zhang, Haohua Du | (参考訳) リンク予測は通常、1つのソーシャルネットワークで観測されるノード間の将来の相互接続の確率を研究する。
多くの場合、実際のシナリオは複数のソーシャルネットワークでアクティブな共通(アンカー)ユーザを持つ多重ネットワークとして提示される。
文献では、既存のほとんどの研究は、単一のネットワークにおけるリンク内予測またはネットワーク間のリンク間予測(ネットワークアライメントなど)を研究し、2つの学習タスクが互いに独立しており、それは事実とはかけ離れている。
表現空間では、既存の手法の大部分は伝統的なユークリッド空間の上に構築され、ソーシャルネットワークの固有の幾何学を知らない。
第3の問題は,アンカーユーザが少ないことだ。
アンカー利用者のアノテートは手間と費用がかかるため、多数のアンカー利用者と作業することは不可能である。
本稿では,上記の問題を踏まえ,多重ネットワークにおける幾何認識型集団リンク予測の挑戦的かつ実用的な課題について検討する。
この問題に対処するために、リーマン空間におけるネットワーク内およびネットワーク間挙動を協調する新しいコントラストモデルRCoCoを提案する。
rcocoでは、曲線対応グラフ注意ネットワーク(\kappa-$gat)を設計し、ネットワーク上のリッチ曲率によって曲率を推定するリーマン多様体において注意機構を実行する。
その後,コミュニティの高次構造とアンカー利用者の情報伝達を探索し,グラフを拡大する多様体におけるコントラスト内およびコントラスト間損失を定式化する。
最後に、8つの実世界のデータセットに14の強いベースラインを持つ広範な実験を行い、RCoCoの有効性を示す。 Link prediction typically studies the probability of future interconnection among nodes with the observation in a single social network. More often than not, real scenario is presented as a multiplex network with common (anchor) users active in multiple social networks. In the literature, most existing works study either the intra-link prediction in a single network or inter-link prediction among networks (a.k.a. network alignment), and consider two learning tasks are independent from each other, which is still away from the fact. On the representation space, the vast majority of existing methods are built upon the traditional Euclidean space, unaware of the inherent geometry of social networks. The third issue is on the scarce anchor users. Annotating anchor users is laborious and expensive, and thus it is impractical to work with quantities of anchor users. Herein, in light of the issues above, we propose to study a challenging yet practical problem of Geometry-aware Collective Link Prediction across Multiplex Network. To address this problem, we present a novel contrastive model, RCoCo, which collaborates intra- and inter-network behaviors in Riemannian spaces. In RCoCo, we design a curvature-aware graph attention network ($\kappa-$GAT), conducting attention mechanism in Riemannian manifold whose curvature is estimated by the Ricci curvatures over the network. Thereafter, we formulate intra- and inter-contrastive loss in the manifolds, in which we augment graphs by exploring the high-order structure of community and information transfer on anchor users. Finally, we conduct extensive experiments with 14 strong baselines on 8 real-world datasets, and show the effectiveness of RCoCo. | 翻訳日:2024-03-06 19:29:09 公開日:2024-03-04 |
# aisdf:室内シーンにおける構造認識ニューラルサイン付き距離場 AiSDF: Structure-aware Neural Signed Distance Fields in Indoor Scenes ( http://arxiv.org/abs/2403.01861v1 ) ライセンス: Link先を確認 | Jaehoon Jang, Inha Lee, Minje Kim, Kyungdon Joo | (参考訳) 私たちが住んでいる屋内シーンは、視覚的に均質またはテクスチャがなく、本質的に構造的な形状を持ち、3dシーンの再構築に十分な構造的優先を提供する。
そこで本研究では,特にアトランタ・ワールド(AW)の仮定の下で,屋内シーンにおけるSDF(Standard distance Field)再構成フレームワークを提案する。
そこで我々は,AiSDFとしてAWの段階的SDF再構成を行った。
オンラインフレームワーク内では、所定のシーンのアトランタ構造を推測し、アトランタ構造をサポートする平面サーフィン領域を推定します。
このアトランタを意識したサーフェル表現は、与えられたシーンに対して明示的な平面マップを提供する。
さらに,アトランタの平面サーベイル領域をベースとして,SDF再建における構造規則性を適応的にサンプリングし,制約することにより,シーンの細部を拡大しながら高レベル構造を維持することで,復元品質を向上させることができる。
提案したAiSDFをScanNetおよびReplicaCADデータセット上で評価し,提案フレームワークが暗黙的にオブジェクトの細部を再構築できることを示す。 Indoor scenes we are living in are visually homogenous or textureless, while they inherently have structural forms and provide enough structural priors for 3D scene reconstruction. Motivated by this fact, we propose a structure-aware online signed distance fields (SDF) reconstruction framework in indoor scenes, especially under the Atlanta world (AW) assumption. Thus, we dub this incremental SDF reconstruction for AW as AiSDF. Within the online framework, we infer the underlying Atlanta structure of a given scene and then estimate planar surfel regions supporting the Atlanta structure. This Atlanta-aware surfel representation provides an explicit planar map for a given scene. In addition, based on these Atlanta planar surfel regions, we adaptively sample and constrain the structural regularity in the SDF reconstruction, which enables us to improve the reconstruction quality by maintaining a high-level structure while enhancing the details of a given scene. We evaluate the proposed AiSDF on the ScanNet and ReplicaCAD datasets, where we demonstrate that the proposed framework is capable of reconstructing fine details of objects implicitly, as well as structures explicitly in room-scale scenes. | 翻訳日:2024-03-06 19:28:40 公開日:2024-03-04 |
# CSE: 対照的に選択した埋め込みによる表面異常検出 CSE: Surface Anomaly Detection with Contrastively Selected Embedding ( http://arxiv.org/abs/2403.01859v1 ) ライセンス: Link先を確認 | Simon Thomine and Hichem Snoussi | (参考訳) 工業用材料の表面異常の検出は、無数の工業製造プロセスにおいて重大な課題となる。
近年,自然画像に事前学習したネットワークを利用した代表的特徴抽出の利点を活かして,様々な手法が出現している。
その後、これらの特徴はメモリバンク、正規化フロー、知識蒸留など様々な技術を通して処理され、極めて精度が高かった。
本稿では,ターゲット固有の埋め込みに着目した新しい手法を導入することで,事前学習した特徴に基づくアプローチを再考する。
テクスチャの最も顕著な特徴を考察するために, 人工的に生成された欠陥サンプルと異常のないサンプルの両方を組み込んだ, コントラスト訓練法を応用した。
表面の固有特性を活かし,訓練中の欠陥のないサンプルから有意義な表現を導出し,異常点の単純かつ効果的な計算を可能にした。
MVTEC ADおよびTILDAデータセットを用いて行った実験は、最先端の手法と比較して、我々のアプローチの競争力を示す。 Detecting surface anomalies of industrial materials poses a significant challenge within a myriad of industrial manufacturing processes. In recent times, various methodologies have emerged, capitalizing on the advantages of employing a network pre-trained on natural images for the extraction of representative features. Subsequently, these features are subjected to processing through a diverse range of techniques including memory banks, normalizing flow, and knowledge distillation, which have exhibited exceptional accuracy. This paper revisits approaches based on pre-trained features by introducing a novel method centered on target-specific embedding. To capture the most representative features of the texture under consideration, we employ a variant of a contrastive training procedure that incorporates both artificially generated defective samples and anomaly-free samples during training. Exploiting the intrinsic properties of surfaces, we derived a meaningful representation from the defect-free samples during training, facilitating a straightforward yet effective calculation of anomaly scores. The experiments conducted on the MVTEC AD and TILDA datasets demonstrate the competitiveness of our approach compared to state-of-the-art methods. | 翻訳日:2024-03-06 19:28:18 公開日:2024-03-04 |
# 基礎モデルのための中国伝統評価スイートの改良 An Improved Traditional Chinese Evaluation Suite for Foundation Model ( http://arxiv.org/abs/2403.01858v1 ) ライセンス: Link先を確認 | Zhi-Rui Tam, Ya-Ting Pai, Yen-Wei Lee, Sega Cheng, Hong-Han Shuai | (参考訳) 従来中国の大規模マルチタスク言語理解データセット用に設計された包括的データセットであるTMMLU+を提案する。
TMMLU+は、小学生から専門職まで66名の被験者からなる多票質問回答データセットである。
前者のTMMLUと比較すると、TMMLU+は6倍大きく、よりバランスの取れた主題分布を持つ。
クローズドソースモデルによるTMMLU+のベンチマーク結果と、1.8Bから72Bまでのパラメータの24の中国語大言語モデルを含む。
従来の中国のモデルは、簡素な中国のモデルよりずっと遅れている。
さらに、現在の大きな言語モデルは、平均的なスコアで人間のパフォーマンスをまだ上回っていない。
データセットと対応するベンチマークソースコードを公開しています。 We present TMMLU+, a comprehensive dataset designed for the Traditional Chinese massive multitask language understanding dataset. TMMLU+ is a multiple-choice question-answering dataset with 66 subjects from elementary to professional level. Compared to its predecessor, TMMLU, TMMLU+ is six times larger and boasts a more balanced subject distribution. We included benchmark results in TMMLU+ from closed-source models and 24 open-weight Chinese large language models of parameters ranging from 1.8B to 72B. Our findings reveal that Traditional Chinese models still trail behind their Simplified Chinese counterparts. Additionally, current large language models have yet to outperform human performance in average scores. We publicly release our dataset and the corresponding benchmark source code. | 翻訳日:2024-03-06 19:28:01 公開日:2024-03-04 |
# 報酬モデル学習と直接政策最適化--選好による学習の比較分析 Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences ( http://arxiv.org/abs/2403.01857v1 ) ライセンス: Link先を確認 | Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban, Georgios Tzannetos, Goran Radanovi\'c and Adish Singla | (参考訳) 本稿では,人間フィードバック(rlhf)からの強化学習のパラダイムと最近提案された直接選好最適化(dpo)のパラダイムを体系的に比較することにより,人間の選好から学ぶことの深い理解に向けて一歩を踏み出す。
我々は,対数線形政策パラメトリゼーションと線形報酬関数のクラスに注目した。
2つのパラダイムを比較するために、まずRLHFとDPOの両方が引き起こす最適度差の最小値統計境界を導出し、最適化問題を正確に解くオラクルへのアクセスを仮定する。
本稿では,2つのパラダイムの相対比較について,サンプルサイズ,政策および報酬クラス次元,正規化温度を同時に考慮し,詳細な議論を行う。
さらに、近似最適化設定まで解析を拡張し、RLHFとDPOの指数的に減衰する収束率を導出する。
次に、接地報酬が実現できない設定を分析し、rlhfが一定の追加誤差を負う一方で、dpoは温度を調整するだけで漸近的に減衰するギャップを保ち続けることを発見した。
最後に、マルコフ決定プロセス設定との比較を拡張し、その結果を正確な最適化で一般化する。
我々の知る限りでは、我々はRLHFとDPOの比較分析を初めて提供する。 In this paper, we take a step towards a deeper understanding of learning from human preferences by systematically comparing the paradigm of reinforcement learning from human feedback (RLHF) with the recently proposed paradigm of direct preference optimization (DPO). We focus our attention on the class of loglinear policy parametrization and linear reward functions. In order to compare the two paradigms, we first derive minimax statistical bounds on the suboptimality gap induced by both RLHF and DPO, assuming access to an oracle that exactly solves the optimization problems. We provide a detailed discussion on the relative comparison between the two paradigms, simultaneously taking into account the sample size, policy and reward class dimensions, and the regularization temperature. Moreover, we extend our analysis to the approximate optimization setting and derive exponentially decaying convergence rates for both RLHF and DPO. Next, we analyze the setting where the ground-truth reward is not realizable and find that, while RLHF incurs a constant additional error, DPO retains its asymptotically decaying gap by just tuning the temperature accordingly. Finally, we extend our comparison to the Markov decision process setting, where we generalize our results with exact optimization. To the best of our knowledge, we are the first to provide such a comparative analysis for RLHF and DPO. | 翻訳日:2024-03-06 19:27:50 公開日:2024-03-04 |
# 局所制御による量子反断熱駆動 Quantum counterdiabatic driving with local control ( http://arxiv.org/abs/2403.01854v1 ) ライセンス: Link先を確認 | Changhao Li, Jiayu Shen, Ruslan Shaydulin, Marco Pistoia | (参考訳) 量子断熱進化におけるダイアバティック遷移の抑制は、基底状態の準備にとって重要な課題である。
対糖尿病運転は、断熱損失を補償し、断熱への近道を達成するために提案されている。
しかし、その実装は、瞬時ハミルトニアンのスペクトルギャップの知識を必要とし、多体系において非常に非局所的な駆動を必要とする断熱ゲージポテンシャルの生成を必要とする。
本研究では,近似的断熱ゲージ電位を用いた局所断熱駆動(LCD)について考察する。
トランスバースフィールドイジングモデルの一例として,lcdプロトコルの性能と最適化に関する詳細な研究を行った。
次に、LCDと簡易局所単体制御に基づく新しい2段階プロトコルを提案し、性能をさらに向上する。
これらのLCDベースのプロトコルの最適化は、瞬時ハミルトニアンの知識を必要としない。
LCDと局所制御強化LCD技術の性能をベンチマークするために,トラップイオン系におけるデジタル化された断熱量子進化を実験的に実装した。
用意された状態の品質を特徴付け、最大14キュービットまでのシステムサイズでスケーリング動作を探索する。
adiabaticityへの量子ショートカットのデモンストレーションは、アクセス可能なローカルコントロールを備えた複雑なシステムの基底状態を作成するための道を開く。 Suppression of diabatic transitions in quantum adiabatic evolution stands as a significant challenge for ground state preparations. Counterdiabatic driving has been proposed to compensate for diabatic losses and achieve shortcut to adiabaticity. However, its implementation necessitates the generation of adiabatic gauge potential, which requires knowledge of the spectral gap of instantaneous Hamiltonians and involves highly non-local drivings in many-body systems. In this work, we consider local counterdiabatic (LCD) driving with approximate adiabatic gauge potential. Using transverse-field Ising model as an example, we present an in-depth study of the performance and optimization of LCD protocols. We then propose a novel two-step protocol based on LCD and simple local single-body control to further improve the performance. The optimization of these LCD-based protocols does not require knowledge of instantaneous Hamiltonians, and only additional local driving is involved. To benchmark the performance of LCD and the proposed local control-enhanced LCD technique, we experimentally implement digitized adiabatic quantum evolution in a trapped-ion system. We characterize the quality of the prepared states and explore the scaling behavior with system size up to 14 qubits. Our demonstration of quantum shortcut to adiabaticity opens a path towards preparing ground states of complex systems with accessible local controls. | 翻訳日:2024-03-06 19:27:09 公開日:2024-03-04 |
# place: セマンティック画像合成のための適応レイアウト・意味融合 PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis ( http://arxiv.org/abs/2403.01852v1 ) ライセンス: Link先を確認 | Zhengyao Lv and Yuxiang Wei and Wangmeng Zuo and Kwan-Yee K. Wong | (参考訳) 近年の大規模事前学習型画像合成モデルの進歩は,意味的画像合成において顕著な進歩をもたらした。
それでも、一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージの合成は依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
具体的には,まずレイアウト制御マップを用いて特徴空間のレイアウトを忠実に表現する。
次に,レイアウトと意味的特徴を時間ステップ適応的に組み合わせ,画像とリアルな詳細を合成する。
微調整中、レイアウトアライメントをさらに高めるためにセマンティックアライメント(SA)損失を提案する。
さらに,未ラベルデータを活用して事前学習モデルの事前保持を行い,合成画像の視覚的品質と意味的一貫性を向上させる,レイアウトフリー事前保存(lfp)損失について紹介する。
広範な実験により,我々のアプローチは視覚的品質,意味的一貫性,レイアウトアライメントの観点から良好に機能することが示された。
ソースコードとモデルはhttps://github.com/cszy98/place/tree/mainで入手できる。 Recent advancements in large-scale pre-trained text-to-image models have led to remarkable progress in semantic image synthesis. Nevertheless, synthesizing high-quality images with consistent semantics and layout remains a challenge. In this paper, we propose the adaPtive LAyout-semantiC fusion modulE (PLACE) that harnesses pre-trained models to alleviate the aforementioned issues. Specifically, we first employ the layout control map to faithfully represent layouts in the feature space. Subsequently, we combine the layout and semantic features in a timestep-adaptive manner to synthesize images with realistic details. During fine-tuning, we propose the Semantic Alignment (SA) loss to further enhance layout alignment. Additionally, we introduce the Layout-Free Prior Preservation (LFP) loss, which leverages unlabeled data to maintain the priors of pre-trained models, thereby improving the visual quality and semantic consistency of synthesized images. Extensive experiments demonstrate that our approach performs favorably in terms of visual quality, semantic consistency, and layout alignment. The source code and model are available at https://github.com/cszy98/PLACE/tree/main. | 翻訳日:2024-03-06 19:26:47 公開日:2024-03-04 |
# LLM言語適応の再考:中国語混合語を事例として Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral ( http://arxiv.org/abs/2403.01851v1 ) ライセンス: Link先を確認 | Yiming Cui, Xin Yao | (参考訳) 言語モデル(SMoE)の代表的な疎結合であるMixtralは、ユニークなモデル設計と優れたパフォーマンスのために大きな注目を集めている。
そこで本論文では,Mixtral-8x7B-v0.1に基づいて,中国語能力の向上を図った中国語と中国語のミクトラル・インストラクションを提案する。
実験の結果、中国語と中国語の混合指導は、元の英語の能力を維持しながら、中国語の理解と生成性能の向上に成功していることがわかった。
そこで,本稿では,言語固有の語彙の拡張や初期化モデルの選択(基礎モデル対命令モデル)など,大規模言語モデル上で言語適応を行う際の重要な課題について,経験的結果と分析を提供することで論じる。
また,各専門家の可視化を行い,ダウンストリームタスクにおけるその重要性について検討する。
我々のリソースは \url{https://github.com/ymcui/ Chinese-Mixtral} を通じて公開されています。 Mixtral, a representative sparse mixture of experts (SMoE) language model, has received significant attention due to its unique model design and superior performance. Based on Mixtral-8x7B-v0.1, in this paper, we propose Chinese-Mixtral and Chinese-Mixtral-Instruct with improved Chinese language abilities by adopting further pre-training and instruction fine-tuning. Experimental results show that our Chinese-Mixtral and Chinese-Mixtral-Instruct successfully improve Chinese understanding and generation performance while retaining the original English abilities. Then, we discuss several key questions when performing language adaptation on large language models, including the necessity of extending the language-specific vocabulary and the choice of the initialization model (foundation model v.s. instruction model), by providing empirical results and analysis. We also present the visualizations of each expert to examine their importance on downstream tasks. Our resources are publicly available through \url{https://github.com/ymcui/Chinese-Mixtral}. | 翻訳日:2024-03-06 19:26:25 公開日:2024-03-04 |
# 事前学習した視覚言語モデルに対する対向的ロバスト性を高めるには十分である One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models ( http://arxiv.org/abs/2403.01849v1 ) ライセンス: Link先を確認 | Lin Li, Haoyan Guan, Jianing Qiu, Michael Spratling | (参考訳) CLIPのような大規模トレーニング済みのビジョンランゲージモデル(VLM)は、優れた一般化能力があるにもかかわらず、敵の例に対して非常に脆弱である。
本研究は、広範に研究されたモデル重みではなく、テキストプロンプトの新たな視点から、VLMの対角的堅牢性を研究する。
まず,攻撃と防御の両方の有効性が,使用中のテキストプロンプトに敏感であることを示す。
そこで本研究では,VLMの頑健なテキストプロンプトを学習することで,敵攻撃に対するレジリエンスを向上させる手法を提案する。
提案手法はAPT (Adversarial Prompt Tuning) と名付けられ, 計算とデータ効率の両面において有効である。
15のデータセットと4つのデータ間隔スキーム(1ショットから完全なトレーニングデータ設定)で大規模な実験が行われ、手書きのプロンプトや他の最先端の適応方法よりもAPTの優位性を示す。
APTは、入力分布シフトおよびデータセット間の分散性能と一般化の点で優れた能力を示した。
驚くべきことに、1つの学習単語をプロンプトに追加することで、aptは平均で13%、+8.5%の精度とロバスト性(epsilon=4/255)を大幅に向上させることができる。
最も効果的な設定では、精度は+26.4%、堅牢性は+16.7%に向上した。
コードはhttps://github.com/TreeLLi/APT.comで入手できる。 Large pre-trained Vision-Language Models (VLMs) like CLIP, despite having remarkable generalization ability, are highly vulnerable to adversarial examples. This work studies the adversarial robustness of VLMs from the novel perspective of the text prompt instead of the extensively studied model weights (frozen in this work). We first show that the effectiveness of both adversarial attack and defense are sensitive to the used text prompt. Inspired by this, we propose a method to improve resilience to adversarial attacks by learning a robust text prompt for VLMs. The proposed method, named Adversarial Prompt Tuning (APT), is effective while being both computationally and data efficient. Extensive experiments are conducted across 15 datasets and 4 data sparsity schemes (from 1-shot to full training data settings) to show APT's superiority over hand-engineered prompts and other state-of-the-art adaption methods. APT demonstrated excellent abilities in terms of the in-distribution performance and the generalization under input distribution shift and across datasets. Surprisingly, by simply adding one learned word to the prompts, APT can significantly boost the accuracy and robustness (epsilon=4/255) over the hand-engineered prompts by +13% and +8.5% on average respectively. The improvement further increases, in our most effective setting, to +26.4% for accuracy and +16.7% for robustness. Code is available at https://github.com/TreeLLi/APT. | 翻訳日:2024-03-06 19:26:08 公開日:2024-03-04 |
# CET2:コヒーレントと包括的会話のためのトピック遷移のモデル化 CET2: Modelling Topic Transitions for Coherent and Engaging Knowledge-Grounded Conversations ( http://arxiv.org/abs/2403.01848v1 ) ライセンス: Link先を確認 | Lin Xu, Qixian Zhou, Jinlan Fu, See-Kiong Ng | (参考訳) 知識接地型対話システムは,対話コンテキストと選択された外部知識に基づいて,一貫性と係り合う応答を生成することを目的としている。
従来の知識選択手法は、対話の文脈に強く依存しすぎるか、選択した知識に新しい情報を過度に強調する傾向にあり、結果として繰り返しまたは不連続な知識が選択され、応答の生成は選択した知識に依存するため、繰り返しまたは不整合な応答が生成される。
これらの欠点に対処するために,トピック開発に十分な知識多様性を提供しながら,会話のコンテキストに忠実な知識を選択するためのトピック遷移をモデル化する,コヒーレント・エンゲージング・トピック・トランジション(CET2)フレームワークを導入する。
cet2フレームワークは、対話コンテキストから次のトピックへの有効な遷移論理や、利用可能な知識候補間の系統的比較を含む、知識選択のための複数の要素を検討します。
2つの公開ベンチマークでの大規模な実験は、知識選択におけるCET2の優位性とより良い一般化能力を示している。
これは、よく設計されたトランジション機能と、未確認トピックに関する会話に転送しやすい比較知識選択戦略によるものです。
きめ細かい知識選択精度の分析は、CET2が既存のアプローチよりも、対話におけるトピックの包含(コンテキストコヒーレンス)と開発(多様性)のバランスをとることができることを示している。 Knowledge-grounded dialogue systems aim to generate coherent and engaging responses based on the dialogue contexts and selected external knowledge. Previous knowledge selection methods tend to rely too heavily on the dialogue contexts or over-emphasize the new information in the selected knowledge, resulting in the selection of repetitious or incongruous knowledge and further generating repetitive or incoherent responses, as the generation of the response depends on the chosen knowledge. To address these shortcomings, we introduce a Coherent and Engaging Topic Transition (CET2) framework to model topic transitions for selecting knowledge that is coherent to the context of the conversations while providing adequate knowledge diversity for topic development. Our CET2 framework considers multiple factors for knowledge selection, including valid transition logic from dialogue contexts to the following topics and systematic comparisons between available knowledge candidates. Extensive experiments on two public benchmarks demonstrate the superiority and the better generalization ability of CET2 on knowledge selection. This is due to our well-designed transition features and comparative knowledge selection strategy, which are more transferable to conversations about unseen topics. Analysis of fine-grained knowledge selection accuracy also shows that CET2 can better balance topic entailment (contextual coherence) and development (knowledge diversity) in dialogue than existing approaches. | 翻訳日:2024-03-06 19:25:40 公開日:2024-03-04 |
# NASH:ハードウェア最適化機械学習モデルのためのニューラルネットワーク検索 NASH: Neural Architecture Search for Hardware-Optimized Machine Learning Models ( http://arxiv.org/abs/2403.01845v1 ) ライセンス: Link先を確認 | Mengfei Ji, Zaid Al-Ars | (参考訳) 機械学習(ML)アルゴリズムがますます増加するアプリケーションにデプロイされるにつれて、これらのアルゴリズムは高い正確性、高いスループット、低レイテンシの間のトレードオフをよりよいものにする必要がある。
本稿では、ニューラルネットワークを機械学習ハードウェアに適用する新しいアプローチであるnashを紹介する。
NASHを使うことで、ハードウェア設計は高いスループットと低レイテンシを実現するだけでなく、精度も向上する。
本稿では,nash戦略の4つのバージョンについて述べる。
この戦略は、様々な畳み込みニューラルネットワークに適用することができ、トレーニングプロセスをより高精度に導くために、多数のモデル操作を選択することができる。
実験の結果、ResNet18やResNet34にNASHを適用すると、ImageNetデータセットでテストすると、トップ1の精度が最大3.1%、トップ5の精度が最大2.2%向上することがわかった。
また、このアプローチをfinnハードウェアモデル合成ツールに統合し、このアプローチの適用とハードウェアモデルの生成を自動化する。
その結果,FINNの最大スループットは324.5fpsであることがわかった。
さらにnashモデルでは、精度とハードウェアリソース利用のトレードオフも改善される可能性がある。
精度ハードウェア(HW)パレート曲線は、4つのNASHバージョンを持つモデルが与えられたHW利用率で最高の精度を達成する最良のトレードオフであることを示している。
私たちの実装のコードはオープンソースで、GitHubでhttps://github.com/MFJI/NASHで公開されています。 As machine learning (ML) algorithms get deployed in an ever-increasing number of applications, these algorithms need to achieve better trade-offs between high accuracy, high throughput and low latency. This paper introduces NASH, a novel approach that applies neural architecture search to machine learning hardware. Using NASH, hardware designs can achieve not only high throughput and low latency but also superior accuracy performance. We present four versions of the NASH strategy in this paper, all of which show higher accuracy than the original models. The strategy can be applied to various convolutional neural networks, selecting specific model operations among many to guide the training process toward higher accuracy. Experimental results show that applying NASH on ResNet18 or ResNet34 achieves a top 1 accuracy increase of up to 3.1% and a top 5 accuracy increase of up to 2.2% compared to the non-NASH version when tested on the ImageNet data set. We also integrated this approach into the FINN hardware model synthesis tool to automate the application of our approach and the generation of the hardware model. Results show that using FINN can achieve a maximum throughput of 324.5 fps. In addition, NASH models can also result in a better trade-off between accuracy and hardware resource utilization. The accuracy-hardware (HW) Pareto curve shows that the models with the four NASH versions represent the best trade-offs achieving the highest accuracy for a given HW utilization. The code for our implementation is open-source and publicly available on GitHub at https://github.com/MFJI/NASH. | 翻訳日:2024-03-06 19:25:12 公開日:2024-03-04 |
# 単語予測による事前学習言語モデルの作成 Making Pre-trained Language Models Great on Tabular Prediction ( http://arxiv.org/abs/2403.01841v1 ) ライセンス: Link先を確認 | Jiahuan Yan, Bo Zheng, Hongxia Xu, Yiheng Zhu, Danny Chen, Jimeng Sun, Jian Wu, Jintai Chen | (参考訳) ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
しかし、テーブル間の不均一性のため、そのようなDNNボーナスは表データの予測(回帰や分類タスクなど)によく利用されるには程遠い。
多様なドメインからの知識を凝縮し、言語モデル(lms)は様々なテーブルから特徴名を理解する能力を持ち、異なるテーブルと様々な予測タスク間で知識を伝達する多用途学習者となる可能性があるが、それらの離散的なテキスト表現空間は本質的にテーブル内の数値的特徴量と相容れない。
本稿では,表型データ予測のための訓練済みLMモデルであるTP-BERTaを提案する。
具体的には、新しい相対等級トークン化により、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
包括的実験により、我々の事前学習したTP-BERTaは、表状DNNのパフォーマンスを誘導し、典型的な表状データ構造における勾配ブースト決定木モデルと競合することを示した。 The transferability of deep neural networks (DNNs) has made significant progress in image and language processing. However, due to the heterogeneity among tables, such DNN bonus is still far from being well exploited on tabular data prediction (e.g., regression or classification tasks). Condensing knowledge from diverse domains, language models (LMs) possess the capability to comprehend feature names from various tables, potentially serving as versatile learners in transferring knowledge across distinct tables and diverse prediction tasks, but their discrete text representation space is inherently incompatible with numerical feature values in tables. In this paper, we present TP-BERTa, a specifically pre-trained LM model for tabular data prediction. Concretely, a novel relative magnitude tokenization converts scalar numerical feature values to finely discrete, high-dimensional tokens, and an intra-feature attention approach integrates feature values with the corresponding feature names. Comprehensive experiments demonstrate that our pre-trained TP-BERTa leads the performance among tabular DNNs and is competitive with Gradient Boosted Decision Tree models in typical tabular data regime. | 翻訳日:2024-03-06 19:24:49 公開日:2024-03-04 |
# FreeA: Free Annotation Label を用いた人間と物体の相互作用検出 FreeA: Human-object Interaction Detection using Free Annotation Labels ( http://arxiv.org/abs/2403.01840v1 ) ライセンス: Link先を確認 | Yuxiao Wang, Zhenao Wei, Xinyu Jiang, Yu Lei, Weiying Xue, Jinxiu Liu, Qi Liu | (参考訳) 近年のHuman-Object Interaction (HOI) 検出手法は高コストのマンパワーに依存し,包括的な注釈付き画像データセットを必要とする。
本稿では,CLIP の適応性を活用して潜時 HOI ラベルを生成することで,ラベル付けを行うことなく,新たな自己適応型言語駆動型 HOI 検出手法を提案する。
具体的には、FreeAは人オブジェクト対の画像特徴とHOIテキストテンプレートとをマッチングし、プリエント知識に基づくマスク法を開発し、不可能な相互作用を抑制する。
さらに、FreeAは、提案した相互作用相関マッチング手法を用いて、特定のアクションに関連するアクションの可能性を向上し、生成したHOIラベルをさらに洗練する。
2つのベンチマークデータセットの実験により、FreeAは弱い教師付きHOIモデルの中で最先端のパフォーマンスを達成することが示された。
我々のアプローチはHICO-DET上の平均精度(mAP) +8.58であり、V-COCO上の平均精度(mAP) +1.23 mAPは、最新の弱いモデルよりも、インタラクティブなアクションの局所化と分類の精度が高い。
コードはhttps://drliuqi.github.io/で入手できる。 Recent human-object interaction (HOI) detection approaches rely on high cost of manpower and require comprehensive annotated image datasets. In this paper, we propose a novel self-adaption language-driven HOI detection method, termed as FreeA, without labeling by leveraging the adaptability of CLIP to generate latent HOI labels. To be specific, FreeA matches image features of human-object pairs with HOI text templates, and a priori knowledge-based mask method is developed to suppress improbable interactions. In addition, FreeA utilizes the proposed interaction correlation matching method to enhance the likelihood of actions related to a specified action, further refine the generated HOI labels. Experiments on two benchmark datasets show that FreeA achieves state-of-the-art performance among weakly supervised HOI models. Our approach is +8.58 mean Average Precision (mAP) on HICO-DET and +1.23 mAP on V-COCO more accurate in localizing and classifying the interactive actions than the newest weakly model, and +1.68 mAP and +7.28 mAP than the latest weakly+ model, respectively. Code will be available at https://drliuqi.github.io/. | 翻訳日:2024-03-06 19:24:28 公開日:2024-03-04 |
# xt: 大きな画像のより大きなコンテキストに対するネストトークン化 xT: Nested Tokenization for Larger Context in Large Images ( http://arxiv.org/abs/2403.01915v1 ) ライセンス: Link先を確認 | Ritwik Gupta, Shufan Li, Tyler Zhu, Jitendra Malik, Trevor Darrell, Karttikeya Mangalam | (参考訳) 現代のコンピュータビジョンパイプラインは、ダウンサンプリングとクロッピングの2つの副最適化の方法の1つで大きなイメージを処理する。
これらの2つの手法は、画像に存在する情報量とコンテキストに大きな損失をもたらす。
現実世界の衛星画像のように、グローバルコンテキストが高頻度の詳細と同様に重要な下流のアプリケーションが多く存在し、そのような場合、研究者はどの情報を破棄すべきかを不快に選択しなければならない。
このフレームワークは,グローバルコンテキストを局所的な詳細で効果的に集約し,現代的なGPU上での大規模イメージをエンドツーエンドにモデル化する。
従来のビジョンタスクにまたがるベンチマークデータセットのセットを選択し、ビジョンモデルの真に大きな画像を理解する能力を正確に反映し、大規模に詳細な情報を取り込み、その方法の改善を評価する。
自然言語処理に通常使用される長シーケンス長モデルと組み合わせて大画像のネストトークン化スキームを導入することで,課題分類タスクでは最大8.6%,大画像ではコンテキスト依存セグメンテーションでは$f_1$スコアを11.6と精度を向上できる。 Modern computer vision pipelines handle large images in one of two sub-optimal ways: down-sampling or cropping. These two methods incur significant losses in the amount of information and context present in an image. There are many downstream applications in which global context matters as much as high frequency details, such as in real-world satellite imagery; in such cases researchers have to make the uncomfortable choice of which information to discard. We introduce xT, a simple framework for vision transformers which effectively aggregates global context with local details and can model large images end-to-end on contemporary GPUs. We select a set of benchmark datasets across classic vision tasks which accurately reflect a vision model's ability to understand truly large images and incorporate fine details over large scales and assess our method's improvement on them. By introducing a nested tokenization scheme for large images in conjunction with long-sequence length models normally used for natural language processing, we are able to increase accuracy by up to 8.6% on challenging classification tasks and $F_1$ score by 11.6 on context-dependent segmentation in large images. | 翻訳日:2024-03-06 19:19:30 公開日:2024-03-04 |
# 擬似ラベルに基づく半教師付き意味セグメンテーション:調査 Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey ( http://arxiv.org/abs/2403.01909v1 ) ライセンス: Link先を確認 | Lingyan Ran, Yali Li, Guoqiang Liang, and Yanning Zhang | (参考訳) セマンティックセグメンテーション(セマンティックセグメンテーション、Semantic segmentation)は、コンピュータビジョンにおいて重要な研究領域であり、セマンティックスに基づいた画像中のピクセルの分類に焦点を当てている。
しかし、教師付きディープラーニングは、モデルを訓練するために大量のデータを必要とし、ピクセル単位で画像のラベル付けを行うプロセスは、時間と労力を要する。
本総説は, 半教師付きセマンティックセグメンテーションの分野における擬似ラベル手法に関する最新の研究成果について, 様々な視点から分類し, 特定の応用分野の具体的な方法を示すものである。
さらに,医用および遠隔センシング画像セグメンテーションにおける擬似ラベル技術の適用について検討する。
最後に,既存の課題に対処するための今後の研究方針を提案する。 Semantic segmentation is an important and popular research area in computer vision that focuses on classifying pixels in an image based on their semantics. However, supervised deep learning requires large amounts of data to train models and the process of labeling images pixel by pixel is time-consuming and laborious. This review aims to provide a first comprehensive and organized overview of the state-of-the-art research results on pseudo-label methods in the field of semi-supervised semantic segmentation, which we categorize from different perspectives and present specific methods for specific application areas. In addition, we explore the application of pseudo-label technology in medical and remote-sensing image segmentation. Finally, we also propose some feasible future research directions to address the existing challenges. | 翻訳日:2024-03-06 19:19:10 公開日:2024-03-04 |
# Hebbian-Hopfieldネットワーク連想メモリの容量 Capacity of the Hebbian-Hopfield network associative memory ( http://arxiv.org/abs/2403.01907v1 ) ライセンス: Link先を確認 | Mihailo Stojnic | (参考訳) Hopfield は \cite{Hop82} で、学習ルールに基づくニューラルネットワークモデルを導入し、連想メモリとして効率的に動作する方法を提案した。
ランダムなバイナリパターンを研究すると、保存されたパターン検索でわずかなエラーが許容される場合、ネットワークの容量(記憶されたパターンの最大数、$m$)は各パターンのサイズと線形にスケールする。
さらに、彼は$\alpha_c=\lim_{n\rightarrow\infty}\frac{m}{n}\approx 0.14$を予測した。
このまったく同じシナリオを2つの有名なパターンのアトラクションで研究している。
(i)}} AGS one from \cite{AmiGutSom85}; and \textbf{\emph{
(ii)}} NLT 1 は \cite{Newman88,Louk94,Louk94a,Louk97,Tal98} のものである。
Relying on the \emph{fully lifted random duality theory} (fl RDT) from \cite{Stojnicflrdt23}, we obtain the following explicit capacity characterizations on the first level of lifting: \begin{equation} \alpha_c^{(AGS,1)} = \left ( \max_{\delta\in \left ( 0,\frac{1}{2}\right ) }\frac{1-2\delta}{\sqrt{2} \mbox{erfinv} \left ( 1-2\delta\right )}\frac{2}{\sqrt{2\pi}} e^{-\left ( \mbox{erfinv}\left ( 1-2\delta \right )\right )^2}\right )^2 \approx \mathbf{0.137906} \end{equation} \begin{equation} \alpha_c^{(NLT,1)} = \frac{\mbox{erf}(x)^2}{2x^2}-1+\mbox{erf}(x)^2 \approx \mathbf{0.129490}, \quad 1-\mbox{erf}(x)^2\frac{2\mbox{erf}(x)e^{-x^2}}{\sqrt{\pi}x}+\frac{2e^{-2x^2}}{\pi}=0.
\end{equation} 実質的な数値的な研究は、$\alpha_c^{(AGS,2)} \approx \mathbf{0.138186}$と$\alpha_c^{(NLT,2)} \approx \mathbf{0.12979}$をリフトする第二のレベルを与える。
さらに、得られた AGS の特徴づけは、 \cite{AmiGutSom85} のレプリカ対称性に基づくものと、対応する \cite{SteKuh94} の対称性を破るものである。 In \cite{Hop82}, Hopfield introduced a \emph{Hebbian} learning rule based neural network model and suggested how it can efficiently operate as an associative memory. Studying random binary patterns, he also uncovered that, if a small fraction of errors is tolerated in the stored patterns retrieval, the capacity of the network (maximal number of memorized patterns, $m$) scales linearly with each pattern's size, $n$. Moreover, he famously predicted $\alpha_c=\lim_{n\rightarrow\infty}\frac{m}{n}\approx 0.14$. We study this very same scenario with two famous pattern's basins of attraction: \textbf{\emph{(i)}} The AGS one from \cite{AmiGutSom85}; and \textbf{\emph{(ii)}} The NLT one from \cite{Newman88,Louk94,Louk94a,Louk97,Tal98}. Relying on the \emph{fully lifted random duality theory} (fl RDT) from \cite{Stojnicflrdt23}, we obtain the following explicit capacity characterizations on the first level of lifting: \begin{equation} \alpha_c^{(AGS,1)} = \left ( \max_{\delta\in \left ( 0,\frac{1}{2}\right ) }\frac{1-2\delta}{\sqrt{2} \mbox{erfinv} \left ( 1-2\delta\right )} - \frac{2}{\sqrt{2\pi}} e^{-\left ( \mbox{erfinv}\left ( 1-2\delta \right )\right )^2}\right )^2 \approx \mathbf{0.137906} \end{equation} \begin{equation} \alpha_c^{(NLT,1)} = \frac{\mbox{erf}(x)^2}{2x^2}-1+\mbox{erf}(x)^2 \approx \mathbf{0.129490}, \quad 1-\mbox{erf}(x)^2- \frac{2\mbox{erf}(x)e^{-x^2}}{\sqrt{\pi}x}+\frac{2e^{-2x^2}}{\pi}=0. \end{equation} A substantial numerical work gives on the second level of lifting $\alpha_c^{(AGS,2)} \approx \mathbf{0.138186}$ and $\alpha_c^{(NLT,2)} \approx \mathbf{0.12979}$, effectively uncovering a remarkably fast lifting convergence. Moreover, the obtained AGS characterizations exactly match the replica symmetry based ones of \cite{AmiGutSom85} and the corresponding symmetry breaking ones of \cite{SteKuh94}. | 翻訳日:2024-03-06 19:18:54 公開日:2024-03-04 |
# オンラインローカリティと分散量子コンピューティング Online Locality Meets Distributed Quantum Computing ( http://arxiv.org/abs/2403.01903v1 ) ライセンス: Link先を確認 | Amirreza Akbari, Xavier Coiteux-Roy, Francesco d'Amore, Fran\c{c}ois Le Gall, Henrik Lievonen, Darya Melnyk, Augusto Modanese, Shreyas Pai, Marc-Olivier Renou, V\'aclav Rozho\v{n}, Jukka Suomela | (参考訳) 従来のLOCALモデルから、量子LOCALモデル、有限依存プロセス、非シグナリングモデル、動的LOCALモデル、オンラインLOCALモデル(STOC 2024, ICALP 2023)など、近年研究されている多くのモデルまで、局所チェック可能なラベル問題(LCL)の理論を拡張した。
まず,有限依存過程が古典的局所モデルよりも優れていることを示す。
LOCAL モデルにおいて、局所性$O(\log^* n)$ で解ける全ての LCL 問題は有限独立分布(局所性は一定)を持つことを示す。
特に、これは正規木に対して有限依存的な色付けを与え、Holroyd [2023] の開問題に答える。
これはまた、分散量子アドバンテージを理解するための新しい形式的障壁を導入する:非符号引数を使って$\theta(\log^* n)$ 複雑性クラスにおいて任意の lcl に対する量子アドバンテージを排除することはできない。
第2に、これらすべてのモデルの能力に制限を加えました。
この目的のために,SLOCALや動的LOCALをシミュレートするのに十分な強度を持つランダム化オンラインLOCALというモデルを導入し,非シグナリング分布や量子LOCALアルゴリズムをシミュレートするのに十分な強度を示す。
ランダム化されたオンライン局所モデルにおいて、局所性 $o(\log^{(5)} n)$ でlcl問題を解くことができるならば、古典的な決定論的局所モデルにおいて、局所性 $o(\log^* n)$ で解くことができる。
まとめると、木では局所性$O(\log^* n)$で解けるLCLの集合は、これらのモデルで同じである: Locality $O(\log^* n)$ in quantum-LOCAL, non-signaling model, dynamic-LOCAL, online-LOCAL is not strong than locality $O(\log^* n)$ in classical deterministic LOCAL model。 We extend the theory of locally checkable labeling problems (LCLs) from the classical LOCAL model to a number of other models that have been studied recently, including the quantum-LOCAL model, finitely-dependent processes, non-signaling model, dynamic-LOCAL model, and online-LOCAL model [e.g. STOC 2024, ICALP 2023]. First, we demonstrate the advantage that finitely-dependent processes have over the classical LOCAL model. We show that all LCL problems solvable with locality $O(\log^* n)$ in the LOCAL model admit a finitely-dependent distribution (with constant locality). In particular, this gives a finitely-dependent coloring for regular trees, answering an open question by Holroyd [2023]. This also introduces a new formal barrier for understanding the distributed quantum advantage: it is not possible to exclude quantum advantage for any LCL in the $\Theta(\log^* n)$ complexity class by using non-signaling arguments. Second, we put limits on the capabilities of all of these models. To this end, we introduce a model called randomized online-LOCAL, which is strong enough to simulate e.g. SLOCAL and dynamic-LOCAL, and we show that it is also strong enough to simulate any non-signaling distribution and hence any quantum-LOCAL algorithm. We prove the following result for trees: if we can solve an LCL problem with locality $o(\log^{(5)} n)$ in the randomized online-LOCAL model, we can solve it with locality $O(\log^* n)$ in the classical deterministic LOCAL model. Put together, these results show that in trees the set of LCLs that can be solved with locality $O(\log^* n)$ is the same across all these models: locality $O(\log^* n)$ in quantum-LOCAL, non-signaling model, dynamic-LOCAL, or online-LOCAL is not stronger than locality $O(\log^* n)$ in the classical deterministic LOCAL model. | 翻訳日:2024-03-06 19:18:19 公開日:2024-03-04 |
# FaceChain-ImagineID: アンタングル型オーディオの高忠実な対話型顔 FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio ( http://arxiv.org/abs/2403.01901v1 ) ライセンス: Link先を確認 | Chao Xu, Yang Liu, Jiazheng Xing, Weida Wang, Mingze Sun, Jun Dan, Tianxin Huang, Siyuan Li, Zhi-Qi Cheng, Ying Tai, Baigui Sun | (参考訳) 本稿では,音声を聴き,有意義な手がかりを抽出し,動的に一貫性のある様々な話し相手を創り出す過程を,聞き取り,想像し,一つの音声から高忠実な多様な話し相手を創り出すタスクに抽象化する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
この問題に取り組むために,まず,顔要素間の複雑な関係を掘り下げ,分離プロセスを単純化し,正確な顔形状と意味論学習のためのプログレッシブなオーディオディスタングルを調整し,各ステージに特定の要因に責任を持つカスタマイズされたトレーニングモジュールを組み込む。
第2に,1つのモデル内の入力音声のみから視覚的に多様な音声同期アニメーションを実現するために,3つの学習可能なアダプタと凍結潜在拡散モデル(ldms)とのフレキシブルな統合によるフレーム間のテクスチャと時間的コヒーレンスの維持に焦点をあてた制御可能なコヒーレントフレーム生成を提案する。
このようにして,LDMから高品質な多種多様な生成を継承し,低トレーニングコストで制御性を大幅に向上する。
このパラダイムを扱う上で,本手法の柔軟性と有効性を示す実験を行った。
コードはhttps://github.com/modelscope/facechainでリリースされる。 In this paper, we abstract the process of people hearing speech, extracting meaningful cues, and creating various dynamically audio-consistent talking faces, termed Listening and Imagining, into the task of high-fidelity diverse talking faces generation from a single audio. Specifically, it involves two critical challenges: one is to effectively decouple identity, content, and emotion from entangled audio, and the other is to maintain intra-video diversity and inter-video consistency. To tackle the issues, we first dig out the intricate relationships among facial factors and simplify the decoupling process, tailoring a Progressive Audio Disentanglement for accurate facial geometry and semantics learning, where each stage incorporates a customized training module responsible for a specific factor. Secondly, to achieve visually diverse and audio-synchronized animation solely from input audio within a single model, we introduce the Controllable Coherent Frame generation, which involves the flexible integration of three trainable adapters with frozen Latent Diffusion Models (LDMs) to focus on maintaining facial geometry and semantics, as well as texture and temporal coherence between frames. In this way, we inherit high-quality diverse generation from LDMs while significantly improving their controllability at a low training cost. Extensive experiments demonstrate the flexibility and effectiveness of our method in handling this paradigm. The codes will be released at https://github.com/modelscope/facechain. | 翻訳日:2024-03-06 19:17:30 公開日:2024-03-04 |
# 繰り返しニューラルネットワークを用いた貯水池システムの普遍性 Universality of reservoir systems with recurrent neural networks ( http://arxiv.org/abs/2403.01900v1 ) ライセンス: Link先を確認 | Hiroki Yasumoto and Toshiyuki Tanaka | (参考訳) 貯留層がリカレントニューラルネットワーク(RNN)である貯水池システムの近似能力について論じる。
問題設定では,貯水池が固定されている間,線形読み出しを調整して関数の集合を近似する。
我々は、ある種の関数を近似するために、rnn貯水池系の一様強普遍性(uniform strong universality)と呼ぶものを示す。
つまり、任意の正の数に対して、近似される関数のクラス内の各関数に対する近似誤差が上から正の数で有界であるような十分に大きなRNN貯水池を構築することができる。
このようなRNN貯水池システムは、RNN貯水池の並列接続によって構築される。 Approximation capability of reservoir systems whose reservoir is a recurrent neural network (RNN) is discussed. In our problem setting, a reservoir system approximates a set of functions just by adjusting its linear readout while the reservoir is fixed. We will show what we call uniform strong universality of a family of RNN reservoir systems for a certain class of functions to be approximated. This means that, for any positive number, we can construct a sufficiently large RNN reservoir system whose approximation error for each function in the class of functions to be approximated is bounded from above by the positive number. Such RNN reservoir systems are constructed via parallel concatenation of RNN reservoirs. | 翻訳日:2024-03-06 19:17:00 公開日:2024-03-04 |
# リアルタイム処理のための学習ベースビデオモーション・マグニフィケーションの再検討 Revisiting Learning-based Video Motion Magnification for Real-time Processing ( http://arxiv.org/abs/2403.01898v1 ) ライセンス: Link先を確認 | Hyunwoo Ha, Oh Hyun-Bin, Kim Jun-Seong, Kwon Byung-Ki, Kim Sung-Bin, Linh-Tam Tran, Ji-Yun Kim, Sung-Ho Bae, Tae-Hyun Oh | (参考訳) ビデオモーション拡大(video motion magnification)は、肉眼では見えないビデオの微妙な動きを捉えて増幅するテクニックである。
深層学習に基づく先行研究は, 従来の信号処理法と比較して, 精度に優れた動き拡大問題のモデル化に成功している。
しかし、リアルタイムパフォーマンスには遅れており、様々なオンラインアプリケーションへの拡張を妨げている。
本稿では,フルHD解像度ビデオに対して,リアルタイムに動作する効率的な深層学習に基づく動き倍率モデルについて検討する。
先行技術の特定ネットワーク設計、すなわち不均一なアーキテクチャのため、既存のニューラルネットワーク探索法の直接適用は複雑である。
自動探索の代わりに,移動倍率タスクにおけるモジュールの役割と重要性について,モジュール単位のアーキテクチャモジュールを慎重に検討する。
2つの重要な発見
1)デコーダにおける潜在動作表現の空間分解能の低減は,計算効率とタスク品質のトレードオフを良好に行う。
2) 驚くべきことに, エンコーダ内の1つの線形層と1つの分岐のみが運動倍率タスクに十分である。
これらの結果に基づき,4.2倍のFLOPを小さくし,従来よりも2.7倍高速かつ同等の画質を維持したリアルタイム深層学習型動き倍率モデルを提案する。 Video motion magnification is a technique to capture and amplify subtle motion in a video that is invisible to the naked eye. The deep learning-based prior work successfully demonstrates the modelling of the motion magnification problem with outstanding quality compared to conventional signal processing-based ones. However, it still lags behind real-time performance, which prevents it from being extended to various online applications. In this paper, we investigate an efficient deep learning-based motion magnification model that runs in real time for full-HD resolution videos. Due to the specified network design of the prior art, i.e. inhomogeneous architecture, the direct application of existing neural architecture search methods is complicated. Instead of automatic search, we carefully investigate the architecture module by module for its role and importance in the motion magnification task. Two key findings are 1) Reducing the spatial resolution of the latent motion representation in the decoder provides a good trade-off between computational efficiency and task quality, and 2) surprisingly, only a single linear layer and a single branch in the encoder are sufficient for the motion magnification task. Based on these findings, we introduce a real-time deep learning-based motion magnification model with4.2X fewer FLOPs and is 2.7X faster than the prior art while maintaining comparable quality. | 翻訳日:2024-03-06 19:16:50 公開日:2024-03-04 |
# 成功事例のロバスト性境界:理論と実践 Robustness Bounds on the Successful Adversarial Examples: Theory and Practice ( http://arxiv.org/abs/2403.01896v1 ) ライセンス: Link先を確認 | Hiroaki Maeshima, Akira Otsuka | (参考訳) Adversarial Example (AE) は機械学習の攻撃手法であり、誤分類を引き起こすデータに知覚不能な摂動を加えることで構築される。
本稿では,ガウス過程(GP)の分類に基づいて,AEsが成功する確率の上限について検討した。
AEの摂動規範,GPで使用されるカーネル関数,トレーニングデータセットに異なるラベルを持つ最も近いペアの距離に依存する新しい上限を証明した。
驚いたことに、上限はサンプルデータセットの分布に関係なく決定される。
実験の結果,ImageNetを用いて理論的結果を確認した。
さらに,カーネル関数のパラメータの変更は,AEsが成功する確率の上限値の変化を誘導することを示した。 Adversarial example (AE) is an attack method for machine learning, which is crafted by adding imperceptible perturbation to the data inducing misclassification. In the current paper, we investigated the upper bound of the probability of successful AEs based on the Gaussian Process (GP) classification. We proved a new upper bound that depends on AE's perturbation norm, the kernel function used in GP, and the distance of the closest pair with different labels in the training dataset. Surprisingly, the upper bound is determined regardless of the distribution of the sample dataset. We showed that our theoretical result was confirmed through the experiment using ImageNet. In addition, we showed that changing the parameters of the kernel function induces a change of the upper bound of the probability of successful AEs. | 翻訳日:2024-03-06 19:16:12 公開日:2024-03-04 |
# 多変量時系列上の異常検出のための教師なし距離距離学習 Unsupervised Distance Metric Learning for Anomaly Detection Over Multivariate Time Series ( http://arxiv.org/abs/2403.01895v1 ) ライセンス: Link先を確認 | Hanyang Yuan, Qinglin Cai, Keting Yin | (参考訳) 距離に基づく時系列異常検出法は, 相対的な非パラメトリックな性質と解釈可能性から一般的である。
しかし、一般的に使用されるユークリッド距離はノイズに敏感である。
既存の研究は、その堅牢性のために動的時間ワープ(DTW)を探索してきたが、それらは多変量時系列(MTS)上の教師付きタスクのみをサポートし、教師なしメソッドの不足を残している。
本研究では,MSS上の異常検出のための教師なし距離メトリック学習手法であるFCM-wDTWを提案する。
FCM-wDTWは局所重み付きDTWをファジィC平均クラスタリングに導入し、最適な潜伏空間を効率的に学習し、データ再構成による異常同定を可能にする。
11種類のベンチマークによる実験は、我々の手法の競合精度と効率を示す。 Distance-based time series anomaly detection methods are prevalent due to their relative non-parametric nature and interpretability. However, the commonly used Euclidean distance is sensitive to noise. While existing works have explored dynamic time warping (DTW) for its robustness, they only support supervised tasks over multivariate time series (MTS), leaving a scarcity of unsupervised methods. In this work, we propose FCM-wDTW, an unsupervised distance metric learning method for anomaly detection over MTS, which encodes raw data into latent space and reveals normal dimension relationships through cluster centers. FCM-wDTW introduces locally weighted DTW into fuzzy C-means clustering and learns the optimal latent space efficiently, enabling anomaly identification via data reconstruction. Experiments with 11 different types of benchmarks demonstrate our method's competitive accuracy and efficiency. | 翻訳日:2024-03-06 19:16:00 公開日:2024-03-04 |
# 影蒸発法の最適化によるドーランブリッジジョセフソン接合のウェーハスケール一様性改善 Wafer-scale uniformity improvement of Dolan-bridge Josephson junctions by optimization of shadow evaporation technique ( http://arxiv.org/abs/2403.01894v1 ) ライセンス: Link先を確認 | Daria A. Moskaleva, Dmitry O. Moskalev, Nikita D. Korshakov, Anastasiya A. Solovyova, Nikita S. Smirnov, Maksim I. Teleganov and Ilya A. Rodionov | (参考訳) 固体量子コンピュータ製造の現実的な限界の1つは超伝導量子ビット共鳴周波数の再現性が低いことである。
これはジョセフソン接合の合成プロセスに厳しい要求を与え、キュービットの非線形インダクタンスを生成する。
本研究では,100mmウェハの室温抵抗変動係数を150x170 nm2 al/al josephson junction areaの6.0%,150x670 nm2 al/al josephson junction areaの4.0%に低下させた。
これらの結果は、ウェハ上のジョセフソン接合面積の変化を考慮した影蒸発過程モデルの開発によって得られた。
このモデルにより,ジョゼフソン接合特性寸法が100nmから700nmまで約1.0%の接合面積変動係数が得られた。
さらに,接合酸化技術最適化について述べる。
我々の改良は、大径のウエハ上でスケーラブルであり、電気的パラメータの再現性が高い量子プロセッサの製造を可能にする。 One of the practical limitations of solid-state quantum computer manufacturing is the low reproducibility of the superconducting qubits resonance frequency. It makes hard demands on the Josephson junction fabrication process, producing a nonlinear inductance of the qubit. In this work, we demonstrate for 100 mm wafer decreasing of the room temperature resistance variation coefficient to 6.0% for 150x170 nm2 Al/AlOx/Al Josephson junction area and to 4.0% for 150x670 nm2 Al/AlOx/Al Josephson junction area. These results were achieved by the development of the shadow evaporation process model considering the Josephson junction area variation on the wafer. Our model allows us to provide the junction area variation coefficient of about 1.0% for Josephson junction characteristic dimensions from 100 nm to 700 nm. In addition, we show the junction oxidation technic optimization. Our improvements can be scalable on the wafer with a large diameter, which allows to manufacturing of the quantum processor with high reproducibility of electrical parameters. | 翻訳日:2024-03-06 19:15:45 公開日:2024-03-04 |
# ゼロコストベンチマークによる非同期多相最適化の高速ベンチマーク Fast Benchmarking of Asynchronous Multi-Fidelity Optimization on Zero-Cost Benchmarks ( http://arxiv.org/abs/2403.01888v1 ) ライセンス: Link先を確認 | Shuhei Watanabe and Neeratyoy Mallik and Edward Bergman and Frank Hutter | (参考訳) 深層学習は多くの成功を祝っているが、その結果はしばしばHP(Hyperparameters)の細心の注意を払っている。
しかし、ディープラーニングトレーニングの時間を要する性質により、HP最適化(HPO)はコストのかかる取り組みとなり、効率的なHPOツールの開発が遅くなる。
実際のトレーニングなしでパフォーマンスとランタイムを提供するゼロコストベンチマークは、非並列セットアップのソリューションを提供するが、各ワーカーがクエリされたランタイムを通信して正確な順序で評価を返す必要があるため、並列セットアップでは不足している。
この作業は、ゼロコストベンチマークで効率的な並列hpoを実現するユーザフレンドリーなpythonパッケージを導入することで、この課題に対処します。
提案手法は,ファイルシステムに格納された情報に基づいて正確な返却順序を算出し,待ち時間の短縮とHPO評価の高速化を実現する。
6つのHPOライブラリによる実験は、多様なライブラリに適用可能であり、従来のアプローチと比較して1000倍以上のスピードアップを実現する能力を示している。
パッケージはpip install mfhpo-simulator経由でインストールできます。 While deep learning has celebrated many successes, its results often hinge on the meticulous selection of hyperparameters (HPs). However, the time-consuming nature of deep learning training makes HP optimization (HPO) a costly endeavor, slowing down the development of efficient HPO tools. While zero-cost benchmarks, which provide performance and runtime without actual training, offer a solution for non-parallel setups, they fall short in parallel setups as each worker must communicate its queried runtime to return its evaluation in the exact order. This work addresses this challenge by introducing a user-friendly Python package that facilitates efficient parallel HPO with zero-cost benchmarks. Our approach calculates the exact return order based on the information stored in file system, eliminating the need for long waiting times and enabling much faster HPO evaluations. We first verify the correctness of our approach through extensive testing and the experiments with 6 popular HPO libraries show its applicability to diverse libraries and its ability to achieve over 1000x speedup compared to a traditional approach. Our package can be installed via pip install mfhpo-simulator. | 翻訳日:2024-03-06 19:15:27 公開日:2024-03-04 |
# fcds: 文書レベルの関係抽出に構成と依存関係構文を融合する FCDS: Fusing Constituency and Dependency Syntax into Document-Level Relation Extraction ( http://arxiv.org/abs/2403.01886v1 ) ライセンス: Link先を確認 | Xudong Zhu, Zhao Kang, Bei Hui | (参考訳) ドキュメントレベルの関係抽出(DocRE)は、単一のドキュメント内でエンティティ間の関係ラベルを識別することを目的としている。
いくつかの文を扱い、それを推論する必要がある。
state-of-the-art docreメソッドは、グラフ構造を使用してドキュメント全体のエンティティを接続し、依存関係の構文情報をキャプチャする。
しかし、ドキュメント内の豊富な構文情報を十分に活用するには不十分である。
本稿では,構成構文と依存関係構文をdocreに融合する手法を提案する。
構成構文を用いて文情報全体を集約し、対象のペアに対して指示文を選択する。
構成構文拡張を備えたグラフ構造における依存構文を活用し、依存グラフに基づいてエンティティペア間のパスを選択する。
各種領域のデータセットに対する実験結果から,提案手法の有効性が示された。
コードは、この url で公開されている。 Document-level Relation Extraction (DocRE) aims to identify relation labels between entities within a single document. It requires handling several sentences and reasoning over them. State-of-the-art DocRE methods use a graph structure to connect entities across the document to capture dependency syntax information. However, this is insufficient to fully exploit the rich syntax information in the document. In this work, we propose to fuse constituency and dependency syntax into DocRE. It uses constituency syntax to aggregate the whole sentence information and select the instructive sentences for the pairs of targets. It exploits the dependency syntax in a graph structure with constituency syntax enhancement and chooses the path between entity pairs based on the dependency graph. The experimental results on datasets from various domains demonstrate the effectiveness of the proposed method. The code is publicly available at this url. | 翻訳日:2024-03-06 19:15:07 公開日:2024-03-04 |
# ICLN:Decision Focused Learningのための入力凸損失ネットワーク ICLN: Input Convex Loss Network for Decision Focused Learning ( http://arxiv.org/abs/2403.01875v1 ) ライセンス: Link先を確認 | Haeun Jeon, Hyunglip Bae, Minsu Park, Chanyeong Kim, Woo Chang Kim | (参考訳) 不確実性下の意思決定問題では、未知のパラメータの予測は最適化部分とは独立に考慮されることが多い。
決定中心学習(Decision- Focus Learning, DFL)は、予測モデルを適用することで予測と最適化を統合するタスク指向のフレームワークである。
ここでは、パラメータに関する最適決定の勾配を計算する際に必然的課題が発生する。
既存の研究は、タスク損失を模倣したサーロゲート最適化やサーロゲート損失関数の構築をスムーズに改善することでこの問題に対処している。
しかし、制限された最適化ドメインやビルド関数に対して、大きな計算時間を導く局所的な方法で適用される。
本稿では,一般的なdflパラダイムで実装可能な,新たなグローバルサーロゲート損失である入力凸損失ネットワーク(icln)を提案する。
ICLNは入力凸ニューラルネットワークを通じてタスク損失を学習し、他の入力のグローバル構造を維持しながら、いくつかの入力に対して凸であることが保証される。
これにより、ICLNは適切なパラメトリック形式を選択することなく、単一の代理損失のみを通して一般DFLを認めることができる。
ICLNの有効性と柔軟性を3つの確率的決定問題を用いて評価することで検証する。 In decision-making problem under uncertainty, predicting unknown parameters is often considered independent of the optimization part. Decision-focused Learning (DFL) is a task-oriented framework to integrate prediction and optimization by adapting predictive model to give better decision for the corresponding task. Here, an inevitable challenge arises when computing gradients of the optimal decision with respect to the parameters. Existing researches cope this issue by smoothly reforming surrogate optimization or construct surrogate loss function that mimic task loss. However, they are applied to restricted optimization domain or build functions in a local manner leading a large computational time. In this paper, we propose Input Convex Loss Network (ICLN), a novel global surrogate loss which can be implemented in a general DFL paradigm. ICLN learns task loss via Input Convex Neural Networks which is guaranteed to be convex for some inputs, while keeping the global structure for the other inputs. This enables ICLN to admit general DFL through only a single surrogate loss without any sense for choosing appropriate parametric forms. We confirm effectiveness and flexibility of ICLN by evaluating our proposed model with three stochastic decision-making problems. | 翻訳日:2024-03-06 19:14:53 公開日:2024-03-04 |
# アウト・オブ・ディストリビューション・ジェネリゼーションの評価に関する調査 A Survey on Evaluation of Out-of-Distribution Generalization ( http://arxiv.org/abs/2403.01874v1 ) ライセンス: Link先を確認 | Han Yu, Jiashuo Liu, Xingxuan Zhang, Jiayun Wu, Peng Cui | (参考訳) 機械学習モデルは、漸進的に進歩しているが、必然的な分散シフトのため、実際には満足できないことが多いiid仮定に大きく依存している。
これにより、リスクに敏感なアプリケーションへのデプロイに対して、感受性と信頼性が低下する。
このような重大な問題は、アウト・オブ・ディストリビューション(OOD)の一般化が可能なアルゴリズムを開発するための様々な分野の成果を生み出している。
これらの努力にもかかわらず、ood一般化の評価にはあまり注意が払われておらず、これは複雑で根本的な問題でもある。
その目標は、モデルのOOD一般化能力が強いかどうかを評価することだけでなく、モデルを適切に一般化するかどうかを評価することである。
これは、モデルが効果的に対処できる分散シフトのタイプを特徴づけ、モデルに与えられた安全でリスクの高い入力領域を特定します。
本報告は,OOD評価の総合的な評価を行うための最初の試みである。
本研究は,OOD性能評価,OOD性能予測,OOD固有の特性評価という3つのパラダイムに分類する。
さらに,事前学習モデルの文脈におけるOOD評価について概説する。
閉会にあたっては,OOD評価における今後の研究に向けて,いくつかの有望な方向性を提案する。 Machine learning models, while progressively advanced, rely heavily on the IID assumption, which is often unfulfilled in practice due to inevitable distribution shifts. This renders them susceptible and untrustworthy for deployment in risk-sensitive applications. Such a significant problem has consequently spawned various branches of works dedicated to developing algorithms capable of Out-of-Distribution (OOD) generalization. Despite these efforts, much less attention has been paid to the evaluation of OOD generalization, which is also a complex and fundamental problem. Its goal is not only to assess whether a model's OOD generalization capability is strong or not, but also to evaluate where a model generalizes well or poorly. This entails characterizing the types of distribution shifts that a model can effectively address, and identifying the safe and risky input regions given a model. This paper serves as the first effort to conduct a comprehensive review of OOD evaluation. We categorize existing research into three paradigms: OOD performance testing, OOD performance prediction, and OOD intrinsic property characterization, according to the availability of test data. Additionally, we briefly discuss OOD evaluation in the context of pretrained models. In closing, we propose several promising directions for future research in OOD evaluation. | 翻訳日:2024-03-06 19:14:35 公開日:2024-03-04 |
# 対称性変換の生成モデル A Generative Model of Symmetry Transformations ( http://arxiv.org/abs/2403.01946v1 ) ライセンス: Link先を確認 | James Urquhart Allingham, Bruno Kacper Mlodozeniec, Shreyas Padhy, Javier Antor\'an, David Krueger, Richard E. Turner, Eric Nalisnick and Jos\'e Miguel Hern\'andez-Lobato | (参考訳) データの対称性変換を正しく捉えることは、強力な一般化能力を持つ効率的なモデルに繋がるが、対称性を組み込んだメソッドは、しばしば事前の知識を必要とする。
最近の進歩はデータセットから直接これらの対称性を学ぶことにあるが、この研究の大部分は差別的な設定に焦点を当てている。
本稿では,データ中の対称性を明示的に捉えることを目的とした生成モデルを構築し,解釈可能な方法でどの対称性が存在するかを学習する。
生成モデルを効率的に学習する簡単なアルゴリズムを提供し,アフィンおよび色変換下での対称性の把握能力を示す。
我々の対称性モデルと既存の生成モデルの組み合わせは、より限界的なテストログライクさとデータのスパース化に対する堅牢性をもたらす。 Correctly capturing the symmetry transformations of data can lead to efficient models with strong generalization capabilities, though methods incorporating symmetries often require prior knowledge. While recent advancements have been made in learning those symmetries directly from the dataset, most of this work has focused on the discriminative setting. In this paper, we construct a generative model that explicitly aims to capture symmetries in the data, resulting in a model that learns which symmetries are present in an interpretable way. We provide a simple algorithm for efficiently learning our generative model and demonstrate its ability to capture symmetries under affine and color transformations. Combining our symmetry model with existing generative models results in higher marginal test-log-likelihoods and robustness to data sparsification. | 翻訳日:2024-03-06 19:10:44 公開日:2024-03-04 |
# トポロジカルサンプル選択によるグラフ上のラベルノイズの緩和 Mitigating Label Noise on Graph via Topological Sample Selection ( http://arxiv.org/abs/2403.01942v1 ) ライセンス: Link先を確認 | Yuhao Wu, Jiangchao Yao, Xiaobo Xia, Jun Yu, Ruxin Wang, Bo Han, Tongliang Liu | (参考訳) 慎重に注釈付けされたベンチマークの成功にもかかわらず、実世界のグラフデータがうるさくラベル付けされている場合、既存のグラフニューラルネットワーク(GNN)の有効性は著しく損なわれる可能性がある。
従来, 雑音ラベルを用いたロバスト学習に有効な手法として, 従来の研究では, i.i.dデータに着目し, 非iidグラフデータとgnnに移行する場合, (1) トポロジカルクラス境界付近に位置するノードは分類に非常に有益であるが, ヒューリスティックなサンプル選択では区別できない, という2つの課題が残っている。
2) グラフのトポロジカルな情報を考慮し,グラフのサンプル選択を促進するような手段は存在しない。
このジレンマに対処するために、トポロジ的情報を利用してグラフ内の情報的サンプル選択プロセスを促進する$\textit{Topological Sample Selection}$ (TSS)法を提案する。
提案手法は,対象のクリーン分布下での予測されるリスク上限の上限を最小化し,最先端のベースラインと比較して,提案手法の優位性を実験的に示す。 Despite the success of the carefully-annotated benchmarks, the effectiveness of existing graph neural networks (GNNs) can be considerably impaired in practice when the real-world graph data is noisily labeled. Previous explorations in sample selection have been demonstrated as an effective way for robust learning with noisy labels, however, the conventional studies focus on i.i.d data, and when moving to non-iid graph data and GNNs, two notable challenges remain: (1) nodes located near topological class boundaries are very informative for classification but cannot be successfully distinguished by the heuristic sample selection. (2) there is no available measure that considers the graph topological information to promote sample selection in a graph. To address this dilemma, we propose a $\textit{Topological Sample Selection}$ (TSS) method that boosts the informative sample selection process in a graph by utilising topological information. We theoretically prove that our procedure minimizes an upper bound of the expected risk under target clean distribution, and experimentally show the superiority of our method compared with state-of-the-art baselines. | 翻訳日:2024-03-06 19:09:52 公開日:2024-03-04 |
# VariErr NLI:人間のラベル変化からアノテーションの誤りを分離する VariErr NLI: Separating Annotation Error from Human Label Variation ( http://arxiv.org/abs/2403.01931v1 ) ライセンス: Link先を確認 | Leon Weber-Genzel, Siyao Peng, Marie-Catherine de Marneffe, Barbara Plank | (参考訳) 人間のラベルのバリエーションは、アノテータが正しい理由で異なるラベルを同じアイテムに割り当てたときに起こり、一方、ラベルが不正な理由で割り当てられたときにアノテーションエラーが発生する。
これらの2つの問題は、NLPベンチマークでよく見られるが、既存の研究では独立して研究されている。
我々の知る限りでは、特に信号が白黒を超えている場合において、信号からエラーを分離することに焦点を当てた以前の研究は存在しない。
このギャップを埋めるために、体系的な方法論と新しいデータセットであるvarierr (variation vs error)を導入し、英語のnliタスクに焦点を当てた。
本稿では,各ラベルを説明するアノテータを用いた2ラウンドアノテーション方式を提案する。
\name{} は 500 個の再注釈 NLI 項目について 1,933 個の説明に対して 7,574 個の妥当性判定を含む。
各種自動誤り検出(aed)法とgpt法の有効性について検討した。
現状のAID法は, GPTやヒトと比較して有意に性能が劣ることがわかった。
GPT-4は最高のシステムですが、それでも人間のパフォーマンスには欠けています。
我々の手法はNLIを超えて適用可能であり、エラーと可算変動に関する将来の研究のための肥大な土台を提供し、それによってより優れた信頼性の高いNLPシステムが得られる。 Human label variation arises when annotators assign different labels to the same item for valid reasons, while annotation errors occur when labels are assigned for invalid reasons. These two issues are prevalent in NLP benchmarks, yet existing research has studied them in isolation. To the best of our knowledge, there exists no prior work that focuses on teasing apart error from signal, especially in cases where signal is beyond black-and-white. To fill this gap, we introduce a systematic methodology and a new dataset, VariErr (variation versus error), focusing on the NLI task in English. We propose a 2-round annotation scheme with annotators explaining each label and subsequently judging the validity of label-explanation pairs. \name{} contains 7,574 validity judgments on 1,933 explanations for 500 re-annotated NLI items. We assess the effectiveness of various automatic error detection (AED) methods and GPTs in uncovering errors versus human label variation. We find that state-of-the-art AED methods significantly underperform compared to GPTs and humans. While GPT-4 is the best system, it still falls short of human performance. Our methodology is applicable beyond NLI, offering fertile ground for future research on error versus plausible variation, which in turn can yield better and more trustworthy NLP systems. | 翻訳日:2024-03-06 19:08:45 公開日:2024-03-04 |
# 相対論的電子が軸流中に放出するツイスト光子分布 Twisted-photons Distribution Emitted by Relativistic Electrons at the Axial Channeling ( http://arxiv.org/abs/2403.01930v1 ) ライセンス: Link先を確認 | K. B. Korotchenko, Y. P. Kunashenko | (参考訳) 量子電磁力学の枠組みの中で、粒子速度の任意の角度で放射されるねじれた光子の放射を計算する新しい方法が開発された。
この方法を用いることで、軸方向の電子が運動方向に対して任意の角度で照射するツイスト光子の放射理論が初めて作られた。
初めて計算されたねじれた光子角運動 Within the framework of quantum electrodynamics, a new method for calculating the radiation of a twisted photon emitted at any angle to the particle velocity has been developed. Using this method, the theory of radiation of a twisted photon by an axially channeled electron at an arbitrary angle to the direction of motion was first created. The twisted-photons angular disibution calculated for the first time | 翻訳日:2024-03-06 19:08:09 公開日:2024-03-04 |
# Few-Shot Multilingual NLUのための大規模言語モデルの解析と適応:まだ存在するか? Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? ( http://arxiv.org/abs/2403.01929v1 ) ライセンス: Link先を確認 | Evgeniia Razumovskaia, Ivan Vuli\'c, Anna Korhonen | (参考訳) supervised fine-tuning (sft)、supervised instruction tuning (sit)、in-context learning (icl) の3つの代替案である。
ICLは、その単純さとサンプル効率のため、最近LSMの登場で人気を博している。
これまでの研究は、これらのアプローチが多言語多点学習にどのように役立つかに関する限られた調査しか行っていない。
本研究では,これら3つの手法を大規模かつ体系的に比較し,高速かつ低リソースな6つの言語,3つの異なるNLUタスク,多数の言語とドメインのセットアップで検証する。
重要なのは、パフォーマンスが比較の側面の1つに過ぎず、計算、推論、財務コストの光学的アプローチも分析することです。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
別の貢献として、事前学習されたLLMのターゲット言語適応の影響を分析し、標準適応アプローチがターゲット言語生成能力を改善することができるが、ICLによって引き起こされた言語理解は改善せず、特に低リソース言語では低得点である。 Supervised fine-tuning (SFT), supervised instruction tuning (SIT) and in-context learning (ICL) are three alternative, de facto standard approaches to few-shot learning. ICL has gained popularity recently with the advent of LLMs due to its simplicity and sample efficiency. Prior research has conducted only limited investigation into how these approaches work for multilingual few-shot learning, and the focus so far has been mostly on their performance. In this work, we present an extensive and systematic comparison of the three approaches, testing them on 6 high- and low-resource languages, three different NLU tasks, and a myriad of language and domain setups. Importantly, performance is only one aspect of the comparison, where we also analyse the approaches through the optics of their computational, inference and financial costs. Our observations show that supervised instruction tuning has the best trade-off between performance and resource requirements. As another contribution, we analyse the impact of target language adaptation of pretrained LLMs and find that the standard adaptation approaches can (superficially) improve target language generation capabilities, but language understanding elicited through ICL does not improve and remains limited, with low scores especially for low-resource languages. | 翻訳日:2024-03-06 19:07:58 公開日:2024-03-04 |
# 腫瘍学における遺伝子選択の進歩:精密遺伝子選択のためのディープラーニングとスパーシティの融合 Advancing Gene Selection in Oncology: A Fusion of Deep Learning and Sparsity for Precision Gene Selection ( http://arxiv.org/abs/2403.01927v1 ) ライセンス: Link先を確認 | Akhila Krishna, Ravi Kant Gupta, Pranav Jeevan, Amit Sethi | (参考訳) 遺伝子選択はがん患者の予後予測精度の向上と費用効果の高いゲノムプロファイリングの促進に重要な役割を担っている。
本稿では,深層学習に基づく生存予測モデルのための2つの遺伝子選択戦略を提案する。
第1の戦略はスパース性誘導法を使用し、第2の戦略は重要に基づく遺伝子選択を用いて関連遺伝子を同定する。
我々の全体的なアプローチは、複雑な生物学的データ構造をモデル化する深層学習の力を活用し、疎性誘導法は、選択プロセスが最も有意義な遺伝子に焦点を合わせ、ノイズと冗長性を最小化する。
多様なゲノム・生存データセットの総合的な実験を通じて、我々の戦略は生存率の予測力が高い遺伝子シグネチャを識別するだけでなく、低コストなゲノムプロファイリングのプロセスを合理化できることを示した。
この研究の意義は深く、パーソナライズされた医療や標的がん治療を進化させるためのスケーラブルで効果的なツールを提供する。
本研究は,遺伝子選択法の境界を推し進めることで,がんゲノム学の継続的な取り組みに大きく貢献し,臨床現場における診断・予後能力の向上を約束する。 Gene selection plays a pivotal role in oncology research for improving outcome prediction accuracy and facilitating cost-effective genomic profiling for cancer patients. This paper introduces two gene selection strategies for deep learning-based survival prediction models. The first strategy uses a sparsity-inducing method while the second one uses importance based gene selection for identifying relevant genes. Our overall approach leverages the power of deep learning to model complex biological data structures, while sparsity-inducing methods ensure the selection process focuses on the most informative genes, minimizing noise and redundancy. Through comprehensive experimentation on diverse genomic and survival datasets, we demonstrate that our strategy not only identifies gene signatures with high predictive power for survival outcomes but can also streamlines the process for low-cost genomic profiling. The implications of this research are profound as it offers a scalable and effective tool for advancing personalized medicine and targeted cancer therapies. By pushing the boundaries of gene selection methodologies, our work contributes significantly to the ongoing efforts in cancer genomics, promising improved diagnostic and prognostic capabilities in clinical settings. | 翻訳日:2024-03-06 19:07:20 公開日:2024-03-04 |
# indicvoices: インド語用多言語音声データセットの構築に向けて IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages ( http://arxiv.org/abs/2403.01926v1 ) ライセンス: Link先を確認 | Tahir Javed, Janki Atul Nawale, Eldho Ittan George, Sakshi Joshi, Kaushal Santosh Bhogale, Deovrat Mehendale, Ishvinder Virender Sethi, Aparna Ananthanarayanan, Hafsah Faquih, Pratiti Palit, Sneha Ravishankar, Saranya Sukumaran, Tripura Panchagnula, Sunjay Murali, Kunal Sharad Gandhi, Ambujavalli R, Manickam K M, C Venkata Vaijayanthi, Krishnan Srinivasa Raghavan Karunganni, Pratyush Kumar, Mitesh M Khapra | (参考訳) インドの145の地域と22の言語をカバーする16237人の話者から,7348時間(9%)の読み出し,現在(74%)および会話(17%)の音声を含む自然・自発音声のデータセットであるINDICVOICESを提示する。
この7348時間のうち、1639時間は既に転写されており、言語ごとの平均的な73時間である。
本稿では,インドにおける文化的,言語的,人口的多様性を捉え,一対一の包括的および代表的データセットを構築するための旅について紹介する。
具体的には、標準化されたプロトコル、集中型ツール、関心のある質問のレポジトリ、興味のある複数のドメインとトピックにまたがるプロンプト、会話シナリオ、品質管理メカニズム、包括的な転写ガイドライン、転写ツールからなる、大規模なデータ収集のためのオープンソースの青写真を共有します。
このオープンソース青写真が、世界中の他の多言語地域におけるデータ収集活動のための包括的なスターターキットになることを期待しています。
INDICVOICESを用いて、インド憲法第8号に記載された22言語すべてをサポートする最初のASRモデルであるIndicASRを構築した。
この作業の一部として開発されたすべてのデータ、ツール、ガイドライン、モデル、その他の材料が公開される予定だ。 We present INDICVOICES, a dataset of natural and spontaneous speech containing a total of 7348 hours of read (9%), extempore (74%) and conversational (17%) audio from 16237 speakers covering 145 Indian districts and 22 languages. Of these 7348 hours, 1639 hours have already been transcribed, with a median of 73 hours per language. Through this paper, we share our journey of capturing the cultural, linguistic and demographic diversity of India to create a one-of-its-kind inclusive and representative dataset. More specifically, we share an open-source blueprint for data collection at scale comprising of standardised protocols, centralised tools, a repository of engaging questions, prompts and conversation scenarios spanning multiple domains and topics of interest, quality control mechanisms, comprehensive transcription guidelines and transcription tools. We hope that this open source blueprint will serve as a comprehensive starter kit for data collection efforts in other multilingual regions of the world. Using INDICVOICES, we build IndicASR, the first ASR model to support all the 22 languages listed in the 8th schedule of the Constitution of India. All the data, tools, guidelines, models and other materials developed as a part of this work will be made publicly available | 翻訳日:2024-03-06 19:06:56 公開日:2024-03-04 |
# 生成するか、検索するか?
医用オープンドメイン質問応答における人工文脈の有効性について To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering ( http://arxiv.org/abs/2403.01924v1 ) ライセンス: Link先を確認 | Giacomo Frisoni, Alessio Cocchieri, Alex Presepi, Gianluca Moro, Zaiqiao Meng | (参考訳) 医学的なオープンドメインの質問応答は、専門知識への実質的なアクセスを要求する。
近年、知識をモデルパラメータから切り離し、アーキテクチャのスケーリングを相殺し、共通の低リソースハードウェアでのトレーニングを可能にしようとしている。
検索テーマのパラダイムは、PubMedや教科書、UMLSといった外部リポジトリから、関連する知識要素に基づくモデル予測によって、ユビキタスになった。
代替パスは未検討だが、ドメイン固有の大規模言語モデルの出現によって実現され、プロンプトによる人工的なコンテキストの構築が伴う。
結果として、"to generate or to retrieve"はハムレットのジレンマと現代の同等である。
本稿では,医学における質問応答のための第1世代読解フレームワークであるMedGENIEについて述べる。
MedQA-USMLE, MedMCQA, MMLUについて, 最大24GB VRAMを仮定して, 実用的視点を取り入れた広範な実験を行った。
MedGENIEは、各テストベッドのオープンブック設定に新しい最先端(SOTA)を設定し、小規模の読者が最大706$\times$ lessパラメータを使用しながら、ゼロショットのクローズドブック175Bベースラインを上回ります。
総じて, 生成した通路は, 検索された通路よりも精度が高いことが判明した。 Medical open-domain question answering demands substantial access to specialized knowledge. Recent efforts have sought to decouple knowledge from model parameters, counteracting architectural scaling and allowing for training on common low-resource hardware. The retrieve-then-read paradigm has become ubiquitous, with model predictions grounded on relevant knowledge pieces from external repositories such as PubMed, textbooks, and UMLS. An alternative path, still under-explored but made possible by the advent of domain-specific large language models, entails constructing artificial contexts through prompting. As a result, "to generate or to retrieve" is the modern equivalent of Hamlet's dilemma. This paper presents MedGENIE, the first generate-then-read framework for multiple-choice question answering in medicine. We conduct extensive experiments on MedQA-USMLE, MedMCQA, and MMLU, incorporating a practical perspective by assuming a maximum of 24GB VRAM. MedGENIE sets a new state-of-the-art (SOTA) in the open-book setting of each testbed, even allowing a small-scale reader to outcompete zero-shot closed-book 175B baselines while using up to 706$\times$ fewer parameters. Overall, our findings reveal that generated passages are more effective than retrieved counterparts in attaining higher accuracy. | 翻訳日:2024-03-06 19:06:33 公開日:2024-03-04 |
# FlowPrecision:線形量子化によるFPGAに基づくリアルタイム流体推定の改善 FlowPrecision: Advancing FPGA-Based Real-Time Fluid Flow Estimation with Linear Quantization ( http://arxiv.org/abs/2403.01922v1 ) ライセンス: Link先を確認 | Tianheng Ling, Julian Hoever, Chao Qian, Gregor Schiele | (参考訳) 産業および環境モニタリングにおいては、リアルタイムかつ正確な流体流量測定を実現することが重要な課題である。
本研究ではFPGAベースのソフトセンサの線形量子化を流体流量推定に適用し,従来の固定点量子化の限界を克服してニューラルネットワークモデルの精度を大幅に向上する。
我々の手法は平均平方誤差を最大10.10%削減し、ターゲットハードウェア最適化による推論速度を9.39%改善する。
複数のデータセットにまたがって検証した結果、最適化されたFPGAベースの量子化モデルは、効率的で正確なリアルタイム推論を提供し、広範囲な自律システムにおけるクラウドベースの処理の代替手段となることを示した。 In industrial and environmental monitoring, achieving real-time and precise fluid flow measurement remains a critical challenge. This study applies linear quantization in FPGA-based soft sensors for fluid flow estimation, significantly enhancing Neural Network model precision by overcoming the limitations of traditional fixed-point quantization. Our approach achieves up to a 10.10% reduction in Mean Squared Error and a notable 9.39% improvement in inference speed through targeted hardware optimizations. Validated across multiple data sets, our findings demonstrate that the optimized FPGA-based quantized models can provide efficient, accurate real-time inference, offering a viable alternative to cloud-based processing in pervasive autonomous systems. | 翻訳日:2024-03-06 19:06:08 公開日:2024-03-04 |
# アラビア語テキスト感情分析:より広い話題分析による人格調査の強化 Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with Wider Topic Analysis ( http://arxiv.org/abs/2403.01921v1 ) ライセンス: Link先を確認 | Latifah Almurqren, Ryan Hodgson, Alexandra Cristea | (参考訳) 感覚分析(SA: Sentiment Analysis)は、現在でも盛んに研究されている分野である。
しかし、アラビア語の感情分析(ASA)の課題は研究の分野においてまだ過小評価されている。
本研究は,テキストコンテンツに関する既存のASA研究の深層・深層分析を行い,それらの共通テーマ,応用分野,手法,アプローチ,技術,アルゴリズムを同定する。
2002年から2020年にかけて、英語で出版された133のASA論文を、4つの学術データベース(SAGE, IEEE, Springer, WILEY)とGoogle Scholarから手作業で分析した。
本研究は,2010年から2020年までの2297件のASA出版物において,オープンアクセスリソース上でのトピックモデリングや時間解析などの最新の自動機械学習技術を用いて,先行研究で確認されたテーマと傾向を補強する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
その他の発見としては、ASA'winning'アルゴリズム(SVM、NB、ハイブリッドメソッド)がある。
LSTMのような深層学習手法は精度が高いが、ASAの場合、コーパスはそれをサポートするには不十分である。
また、ASAコーパスやレキシコンもいくつかあるが、もっと必要である。
具体的には、アラビア語のツイートコーポラとデータセットは、現在中程度のサイズに過ぎません。
さらに、高いカバレッジを持つアラビア語の語彙は、現代標準アラビア語(MSA)の単語のみを含み、アラビア語の方言を持つ単語は非常に小さい。
そのため、新たなコーパスを作成する必要がある。
一方、ASAツールは厳格に欠落している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
そこで本研究では,ASA研究に関連する課題について考察し,対話的アラビア語資源の欠如,アラビア語のつぶやき,コーパス,SAのためのデータセットなどの分野を前進させる方法について提案する。 Sentiment analysis (SA) has been, and is still, a thriving research area. However, the task of Arabic sentiment analysis (ASA) is still underrepresented in the body of research. This study offers the first in-depth and in-breadth analysis of existing ASA studies of textual content and identifies their common themes, domains of application, methods, approaches, technologies and algorithms used. The in-depth study manually analyses 133 ASA papers published in the English language between 2002 and 2020 from four academic databases (SAGE, IEEE, Springer, WILEY) and from Google Scholar. The in-breadth study uses modern, automatic machine learning techniques, such as topic modelling and temporal analysis, on Open Access resources, to reinforce themes and trends identified by the prior study, on 2297 ASA publications between 2010-2020. The main findings show the different approaches used for ASA: machine learning, lexicon-based and hybrid approaches. Other findings include ASA 'winning' algorithms (SVM, NB, hybrid methods). Deep learning methods, such as LSTM can provide higher accuracy, but for ASA sometimes the corpora are not large enough to support them. Additionally, whilst there are some ASA corpora and lexicons, more are required. Specifically, Arabic tweets corpora and datasets are currently only moderately sized. Moreover, Arabic lexicons that have high coverage contain only Modern Standard Arabic (MSA) words, and those with Arabic dialects are quite small. Thus, new corpora need to be created. On the other hand, ASA tools are stringently lacking. There is a need to develop ASA tools that can be used in industry, as well as in academia, for Arabic text SA. Hence, our study offers insights into the challenges associated with ASA research and provides suggestions for ways to move the field forward such as lack of Dialectical Arabic resource, Arabic tweets, corpora and data sets for SA. | 翻訳日:2024-03-06 19:05:54 公開日:2024-03-04 |
# エビデンシャル・ツール・バスを用いたADSの継続的保証事例作成に向けて Towards Continuous Assurance Case Creation for ADS with the Evidential Tool Bus ( http://arxiv.org/abs/2403.01918v1 ) ライセンス: Link先を確認 | Lev Sorokin, Radouane Bouchekir, Tewodros A. Beyene, Brian Hsuan-Cheng Liao, and Adam Molin | (参考訳) 保証ケースは、安全クリティカルシステムの認証に不可欠なコンポーネントとなっている。
保証ケースパターンを手動で定義することは避けられないが、保証ケースパターンのシステム固有のインスタンス化はコストも時間もかかる。
学習可能なコンポーネントのデプロイに共通するシステムコンポーネントの劣化などにより、システム保証変更の要件が無効になった場合、あるいは保証クレームが無効になった場合、システムの保証ケースを維持することは特に複雑になる。
本稿では,ツール統合フレームワーク Evidential Tool Bus (ETB) を利用した,事前定義された保証ケースパターンからの保証ケースの構築と継続的維持のための予備的な経験について報告する。
具体的には,自動車分野における産業用自動駐車システムの保証プロセスについて述べる。
ETB処理可能なワークフローの論理仕様言語における保証ケースパターンの形式化について述べる。
以上の結果から,ETBは保証ケースの構築に必要な証拠を作成・維持できることがわかった。 An assurance case has become an integral component for the certification of safety-critical systems. While manually defining assurance case patterns can be not avoided, system-specific instantiations of assurance case patterns are both costly and time-consuming. It becomes especially complex to maintain an assurance case for a system when the requirements of the System-Under-Assurance change, or an assurance claim becomes invalid due to, e.g., degradation of a systems component, as common when deploying learning-enabled components. In this paper, we report on our preliminary experience leveraging the tool integration framework Evidential Tool Bus (ETB) for the construction and continuous maintenance of an assurance case from a predefined assurance case pattern. Specifically, we demonstrate the assurance process on an industrial Automated Valet Parking system from the automotive domain. We present the formalization of the provided assurance case pattern in the ETB processable logical specification language of workflows. Our findings show that ETB is able to create and maintain evidence required for the construction of an assurance case. | 翻訳日:2024-03-06 19:05:07 公開日:2024-03-04 |
# 超低磁場磁気共鳴のためのフェムトテラ原子磁気センサ Femtotesla Atomic Magnetometer for Zero- and Ultralow-field Nuclear Magnetic Resonance ( http://arxiv.org/abs/2403.01917v1 ) ライセンス: Link先を確認 | Taizhou Hong, Yuanhong Wang, Zhenhan Shao, Qing Li, Min Jiang, Xinhua Peng | (参考訳) ゼロおよび超低磁場核磁気共鳴(zulf nmr)は急速に発展し、材料科学、量子情報処理から基礎物理学まで幅広い研究分野に優れたツールを提供している。
自然存在下での試料中のZULF NMR信号の検出は、NMR検出器の感度の制限と熱分極のため、依然として困難である。
本研究は, ZULF NMR検出のためのスピン交換緩和(SERF)磁気センサを試作した。
磁力計には、高いバッファガス圧と高い原子数密度のカリウム蒸気電池が使用される。
吸収分光とSERF効果により、気相セルのキーパラメータを特徴付け、磁気センサ感度を最適化する。
SERF磁力計とzuLF NMR検出を組み合わせるために、カスタムメイドの真空チャンバーを用いて、NMR試料を磁気センサセルに接近させ、望ましくない加熱効果から保護する。
重力測定を行い、磁気ノイズを大幅に低減する。
位相キャリブレーションを適用することにより、勾配測定は単一チャネルに比べて磁場感度が7倍向上し、磁気ノイズフロアは1.2 fT/Hz$^{1/2}$である。
われわれのSERF磁力計は感度が高く、自然存在下での試料のzuLF NMR検出を実現することを約束している。 Zero- and ultralow-field nuclear magnetic resonance (ZULF NMR) has experienced rapid development and provides an excellent tool for diverse research fields ranging from materials science, quantum information processing to fundamental physics. The detection of ZULF NMR signals in samples with natural abundance remains a challenging endeavor, due to the limited sensitivity of NMR detectors and thermal polarization. In this work, we demonstrate a femtotesla potassium spin-exchange relaxation-free (SERF) magnetometer designed for ZULF NMR detection. A potassium vapor cell with high buffer gas pressure and high atomic number density is used in the magnetometer. With absorption spectroscopy and SERF effect, the key parameters of the vapor cell are characterized and applied to optimize the magnetometer sensitivity. To combine our SERF magnetometer and ZULF NMR detection, a custom-made vacuum chamber is employed to keep NMR sample close to the magnetometer cell and protect the sample from undesired heating effects. Gradiometric measurement is performed to greatly reduce the magnetic noise. With the phase calibration applied, the gradiometric measurement achieves 7-fold enhancement in magnetic-field sensitivity compared to the single channel and has a magnetic noise floor of 1.2 fT/Hz$^{1/2}$. Our SERF magnetometer exhibits high sensitivity and is promising to realize ZULF NMR detection of samples with natural abundance. | 翻訳日:2024-03-06 19:04:48 公開日:2024-03-04 |
# 中央クルド語品種の言語と音声技術 Language and Speech Technology for Central Kurdish Varieties ( http://arxiv.org/abs/2403.01983v1 ) ライセンス: Link先を確認 | Sina Ahmadi, Daban Q. Jaff, Md Mahfuz Ibn Alam, Antonios Anastasopoulos | (参考訳) 3000万人以上の話者によって話されるインド・ヨーロッパ語族の言語であるクルド語は方言連続語と見なされ、言語の多様性で知られている。
クルド語の言語と音声技術を扱う以前の研究は、マクロ言語としてモノリシックな方法で処理し、利用可能なリソースやツールがほとんどない方言や種類に差異をもたらす。
本稿では,映画やテレビシリーズをフィールドワークの代替として書き起こしてコーパスを作成することで,中央クルド語多種多様な言語・音声技術のための資源開発を進める。
さらに,中央クルド語品種を対象とした下流課題として,機械翻訳,音声認識,言語識別の性能について報告する。
データとモデルはhttps://github.com/sinaahmadi/CORDI.comで公開されている。 Kurdish, an Indo-European language spoken by over 30 million speakers, is considered a dialect continuum and known for its diversity in language varieties. Previous studies addressing language and speech technology for Kurdish handle it in a monolithic way as a macro-language, resulting in disparities for dialects and varieties for which there are few resources and tools available. In this paper, we take a step towards developing resources for language and speech technology for varieties of Central Kurdish, creating a corpus by transcribing movies and TV series as an alternative to fieldwork. Additionally, we report the performance of machine translation, automatic speech recognition, and language identification as downstream tasks evaluated on Central Kurdish varieties. Data and models are publicly available under an open license at https://github.com/sinaahmadi/CORDI. | 翻訳日:2024-03-06 18:58:53 公開日:2024-03-04 |
# 点支援サンプル選択によるアンカーベースLiDAR3Dオブジェクト検出の活用 Leveraging Anchor-based LiDAR 3D Object Detection via Point Assisted Sample Selection ( http://arxiv.org/abs/2403.01978v1 ) ライセンス: Link先を確認 | Shitao Chen, Haolin Zhang, Nanning Zheng | (参考訳) LiDARポイントクラウドと先行アンカーボックスに基づく3Dオブジェクト検出は、自動運転環境の認識と理解にとって重要な技術である。
それにもかかわらず、既存の手法の見過ごされた実践的問題は、IoU_box (box Intersection over Union) に基づくサンプルアロケーションのトレーニングの曖昧さである。
この問題は、アンカーベースのLiDAR 3Dオブジェクト検出器の性能のさらなる向上を妨げている。
そこで本稿では,この課題に取り組むために,アンカーサンプル品質測定にポイントクラウド分布を利用した新しいトレーニングサンプル選択法,名前付きポイントアシストサンプル選択法(pass)を提案する。
この手法は2つの広く利用されているデータセットに対して厳密な評価を行った。
実験により, PASSの適用により, アンカーベースLiDAR3Dオブジェクト検出器の平均精度が向上し, 提案手法の有効性が証明された。
コードはhttps://github.com/XJTU-Haolin/Point_Assisted_Sample_Selectionで公開される。 3D object detection based on LiDAR point cloud and prior anchor boxes is a critical technology for autonomous driving environment perception and understanding. Nevertheless, an overlooked practical issue in existing methods is the ambiguity in training sample allocation based on box Intersection over Union (IoU_box). This problem impedes further enhancements in the performance of anchor-based LiDAR 3D object detectors. To tackle this challenge, this paper introduces a new training sample selection method that utilizes point cloud distribution for anchor sample quality measurement, named Point Assisted Sample Selection (PASS). This method has undergone rigorous evaluation on two widely utilized datasets. Experimental results demonstrate that the application of PASS elevates the average precision of anchor-based LiDAR 3D object detectors to a novel state-of-the-art, thereby proving the effectiveness of the proposed approach. The codes will be made available at https://github.com/XJTU-Haolin/Point_Assisted_Sample_Selection. | 翻訳日:2024-03-06 18:58:39 公開日:2024-03-04 |
# TTA-Nav:視覚的破壊下でのポイントゴールナビゲーションのためのテスト時適応再構成 TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions ( http://arxiv.org/abs/2403.01977v1 ) ライセンス: Link先を確認 | Maytus Piriyajitakonkij, Mingfei Sun, Mengmi Zhang, Wei Pan | (参考訳) 視覚的腐敗下でのロボットナビゲーションは、恐ろしい挑戦だ。
そこで本研究では,TTA-Nav (Test-time Adaptation, TTA) 方式を提案する。
我々の"plug-and-play"メソッドは、トップダウンデコーダを事前訓練されたナビゲーションモデルに組み込む。
まず、事前訓練されたナビゲーションモデルが劣化した画像を取得し、特徴を抽出する。
次に、トップダウンデコーダは、事前訓練されたモデルによって抽出された高レベルな特徴から再構成を生成する。
そして、劣化した画像の復元を事前訓練されたモデルにフィードバックする。
最後に、事前訓練されたモデルは、出力アクションに再び転送される。
クリーンな画像だけを訓練しているにもかかわらず、トップダウンデコーダは、勾配に基づく適応を必要とせずに、破損した画像からよりクリーンな画像を再構築することができる。
トップダウンデコーダを備えた事前学習ナビゲーションモデルは、ベンチマークのほとんどすべての視覚的破損に対して、ナビゲーション性能を大幅に向上させる。
本手法は,最も深刻な汚職に対して,最先端の46%から94%のポイントゴールナビゲーションを成功率で改善する。
これは、ロボット視覚ナビゲーションの幅広い応用の可能性を示している。 Robot navigation under visual corruption presents a formidable challenge. To address this, we propose a Test-time Adaptation (TTA) method, named as TTA-Nav, for point-goal navigation under visual corruptions. Our "plug-and-play" method incorporates a top-down decoder to a pre-trained navigation model. Firstly, the pre-trained navigation model gets a corrupted image and extracts features. Secondly, the top-down decoder produces the reconstruction given the high-level features extracted by the pre-trained model. Then, it feeds the reconstruction of a corrupted image back to the pre-trained model. Finally, the pre-trained model does forward pass again to output action. Despite being trained solely on clean images, the top-down decoder can reconstruct cleaner images from corrupted ones without the need for gradient-based adaptation. The pre-trained navigation model with our top-down decoder significantly enhances navigation performance across almost all visual corruptions in our benchmarks. Our method improves the success rate of point-goal navigation from the state-of-the-art result of 46% to 94% on the most severe corruption. This suggests its potential for broader application in robotic visual navigation. | 翻訳日:2024-03-06 18:58:23 公開日:2024-03-04 |
# SciAssess:科学文献分析におけるLCM能力のベンチマーク SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis ( http://arxiv.org/abs/2403.01976v1 ) ライセンス: Link先を確認 | Hengxing Cai, Xiaochen Cai, Junhan Chang, Sihang Li, Lin Yao, Changxin Wang, Zhifeng Gao, Yongge Li, Mujie Lin, Shuwen Yang, Jiankun Wang, Yuqi Yin, Yaqi Li, Linfeng Zhang, Guolin Ke | (参考訳) 近年の大規模言語モデル(llm)のブレークスルーは自然言語理解と生成に革命をもたらし、科学文献分析の分野にこれらの技術を活用することへの関心が高まっている。
しかし、既存のベンチマークでは、特に複雑な理解とマルチモーダルデータを含むシナリオにおいて、科学領域におけるLLMの能力は不十分である。
その結果,学術文献の詳細な分析に適したベンチマークであるSciAssessを導入し,LCMの有効性を徹底的に評価した。
SciAssessは、科学的な文脈における記憶、理解、分析におけるLLMの能力の評価に焦点を当てている。
一般的な化学、有機材料、合金材料など様々な科学分野の代表的なタスクを含んでいる。
そして厳格な品質管理手段は、正確性、匿名化、および著作権コンプライアンスの観点から信頼性を確保する。
SciAssess は GPT-4, GPT-3.5-turbo, Gemini など主要な LLM の評価を行い, 科学文献解析における LLM の応用の継続的な発展と改善のための強みと領域を特定した。
sciassessとそのリソースはhttps://sci-assess.github.ioで利用可能である。科学文献分析におけるllm能力向上のための貴重なツールを提供する。 Recent breakthroughs in Large Language Models (LLMs) have revolutionized natural language understanding and generation, igniting a surge of interest in leveraging these technologies for the nuanced field of scientific literature analysis. Existing benchmarks, however, inadequately evaluate the proficiency of LLMs in the scientific domain, especially in scenarios involving complex comprehension and multimodal data. In response, we introduced SciAssess, a benchmark tailored for the in-depth analysis of scientific literature, crafted to provide a thorough assessment of LLMs' efficacy. SciAssess focuses on evaluating LLMs' abilities in memorization, comprehension, and analysis within scientific contexts. It includes representative tasks from diverse scientific fields, such as general chemistry, organic materials, and alloy materials. And rigorous quality control measures ensure its reliability in terms of correctness, anonymization, and copyright compliance. SciAssess evaluates leading LLMs, including GPT-4, GPT-3.5-turbo, and Gemini, identifying their strengths and areas for improvement and supporting the ongoing development of LLM applications in scientific literature analysis. SciAssess and its resources are made available at https://sci-assess.github.io, offering a valuable tool for advancing LLM capabilities in scientific literature analysis. | 翻訳日:2024-03-06 18:58:09 公開日:2024-03-04 |
# 高次元格子上のアンダーソン局在の正規化群 Renormalization group for Anderson localization on high-dimensional lattices ( http://arxiv.org/abs/2403.01974v1 ) ライセンス: Link先を確認 | Boris L. Altshuler, Vladimir E. Kravtsov, Antonello Scardicchio, Piotr Sierant, Carlo Vanoni | (参考訳) Ref で最近導入された $\beta$-function および renormalization group の言語における次元 $d$ に対するアンダーソンモデルの臨界性質の依存性について論じる。
[arxiv:2306.14965] ランダム正則グラフ上のアンダーソン遷移の文脈において。
遷移点を含む非局在領域において、フラクタル次元の$D_{1}$ の $\beta$-関数の 1-パラメータスケーリング部分は、$d=2$ 形式から $\beta_2\leq 0$ の $\beta_\infty\geq 0$ 形式へと滑らかに進化し、これは正規ランダムグラフ(RRG)の結果で表される。
RRG 結果に関する $\epsilon=d-2$ の展開と $1/d$ の展開がどのように和解できるか、また、非関連指数 $y$ が支配する再正規化群軌道の初期部分がどのように次元に依存するかを示す。
また,非関係指数が非線形シグマモデルの高次拡大項からどのように出現するかを示し,フラクタル次元の下限に関する予想を述べる。
ここで導入された枠組みは、乱れた多体系やより一般的な非平衡量子系の研究の基礎となる。 We discuss the dependence of the critical properties of the Anderson model on the dimension $d$ in the language of $\beta$-function and renormalization group recently introduced in Ref.[arXiv:2306.14965] in the context of Anderson transition on random regular graphs. We show how in the delocalized region, including the transition point, the one-parameter scaling part of the $\beta$-function for the fractal dimension $D_{1}$ evolves smoothly from its $d=2$ form, in which $\beta_2\leq 0$, to its $\beta_\infty\geq 0$ form, which is represented by the regular random graph (RRG) result. We show how the $\epsilon=d-2$ expansion and the $1/d$ expansion around the RRG result can be reconciled and how the initial part of a renormalization group trajectory governed by the irrelevant exponent $y$ depends on dimensionality. We also show how the irrelevant exponent emerges out of the high-gradient terms of expansion in the nonlinear sigma-model and put forward a conjecture about a lower bound for the fractal dimension. The framework introduced here may serve as a basis for investigations of disordered many-body systems and of more general non-equilibrium quantum systems. | 翻訳日:2024-03-06 18:57:45 公開日:2024-03-04 |
# 大規模言語モデルによる知識グラフ補完のマルチパースペクティブ改善 Multi-perspective Improvement of Knowledge Graph Completion with Large Language Models ( http://arxiv.org/abs/2403.01972v1 ) ライセンス: Link先を確認 | Derong Xu, Ziheng Zhang, Zhenxi Lin, Xian Wu, Zhihong Zhu, Tong Xu, Xiangyu Zhao, Yefeng Zheng and Enhong Chen | (参考訳) 知識グラフ補完(KGC)は知識グラフの不完全性に対処するために広く用いられている手法である。
説明ベースのkgcは、事前学習された言語モデルを利用して、名前や記述でエンティティや関係表現を学習し、有望な結果を示す。
しかしながら、記述に基づくKGCの性能は、十分なエンティティ記述がなく、関係名のみに依存するため、テキストの品質と不完全な構造によって制限され、準最適結果をもたらす。
この問題に対処するために,MPIKGCを提案する。このフレームワークは,LLMの推論,説明,要約機能を活用し,エンティティ記述を拡張し,関係を理解し,構造を抽出することで,文脈的知識の不足を補うとともに,さまざまな視点から大きな言語モデル(LLM)をクエリすることで,KGCを改善するための一般的なフレームワークである。
4つの記述型KGCモデルと4つのデータセットに基づいて、リンク予測とトリプルト分類の両タスクにおいて、フレームワークの有効性と改善を広範囲に評価した。 Knowledge graph completion (KGC) is a widely used method to tackle incompleteness in knowledge graphs (KGs) by making predictions for missing links. Description-based KGC leverages pre-trained language models to learn entity and relation representations with their names or descriptions, which shows promising results. However, the performance of description-based KGC is still limited by the quality of text and the incomplete structure, as it lacks sufficient entity descriptions and relies solely on relation names, leading to sub-optimal results. To address this issue, we propose MPIKGC, a general framework to compensate for the deficiency of contextualized knowledge and improve KGC by querying large language models (LLMs) from various perspectives, which involves leveraging the reasoning, explanation, and summarization capabilities of LLMs to expand entity descriptions, understand relations, and extract structures, respectively. We conducted extensive evaluation of the effectiveness and improvement of our framework based on four description-based KGC models and four datasets, for both link prediction and triplet classification tasks. | 翻訳日:2024-03-06 18:57:18 公開日:2024-03-04 |
# ContrastRepair: コントラストテストケースペアによる会話に基づく自動プログラム修復の促進 ContrastRepair: Enhancing Conversation-Based Automated Program Repair via Contrastive Test Case Pairs ( http://arxiv.org/abs/2403.01971v1 ) ライセンス: Link先を確認 | Jiaolong Kong, Mingfei Cheng, Xiaofei Xie, Shangqing Liu, Xiaoning Du, Qi Guo | (参考訳) 自動プログラム修正(APR)は、ソフトウェアバグを修正するパッチを自動的に生成することを目的としている。
ChatGPTのようなLarge Language Models(LLM)の最近の進歩は、特に会話駆動のAPRフレームワークにおいて、APRにおいて奨励的な結果をもたらしている。
それでも,会話駆動型APRの有効性はフィードバック情報の質に左右される。
本稿では,コントラストテストペアをllmで提供することにより,会話駆動型aprを強化する新しい対話型aprアプローチであるcon contrastrepairを提案する。
テストペアは、失敗するテストと、LLMに対して対照的なフィードバックを提供するパステストで構成される。
私たちの重要な洞察は、生成されたパステストと与えられた失敗テストの違いを最小限に抑えることです。
情報と具体的なフィードバックを提供することで、con contrastrepairはllmが効果的なバグ修正を可能にする。
ContrastRepairの実装は最先端のLLMであるChatGPTに基づいており、プラウシブルパッチが生成されるまでChatGPTと反復的に対話する。
Defects4j、QuixBugs、HumanEval-Javaなど、複数のベンチマークデータセット上でContrastRepairを評価する。
その結果、ContrastRepairは既存の方法よりも大幅に優れており、プログラムの修復における新しい最先端を実現している。
例えば、Defects4j 1.2と2.0では、ContrastRepairは337のバグケースのうち143を正しく修正する。 Automated Program Repair (APR) aims to automatically generate patches for rectifying software bugs. Recent strides in Large Language Models (LLM), such as ChatGPT, have yielded encouraging outcomes in APR, especially within the conversation-driven APR framework. Nevertheless, the efficacy of conversation-driven APR is contingent on the quality of the feedback information. In this paper, we propose ContrastRepair, a novel conversation-based APR approach that augments conversation-driven APR by providing LLMs with contrastive test pairs. A test pair consists of a failing test and a passing test, which offer contrastive feedback to the LLM. Our key insight is to minimize the difference between the generated passing test and the given failing test, which can better isolate the root causes of bugs. By providing informative and specific feedback, ContrastRepair enables the LLM to produce effective bug fixes. The implementation of ContrastRepair is based on the state-of-the-art LLM, ChatGPT, and it iteratively interacts with ChatGPT until plausible patches are generated. We evaluate ContrastRepair on multiple benchmark datasets, including Defects4j, QuixBugs, and HumanEval-Java. The results demonstrate that ContrastRepair significantly outperforms existing methods, achieving a new state-of-the-art in program repair. For instance, among Defects4j 1.2 and 2.0, ContrastRepair correctly repairs 143 out of all 337 bug cases, while the best-performing baseline fixes 124 bugs. | 翻訳日:2024-03-06 18:56:57 公開日:2024-03-04 |
# AS-ES学習:小型モデルにおける効率的なCoT学習を目指して AS-ES Learning: Towards Efficient CoT Learning in Small Models ( http://arxiv.org/abs/2403.01969v1 ) ライセンス: Link先を確認 | Nuwa Xi, Yuhan Chen, Sendong Zhao, Haochun Wang, Bing Qin and Ting Liu | (参考訳) CoT(Chain-of-Thought)は、特に論理的推論において、LSMにおいて重要な出現能力として機能する。
LLM(Large Language Models)によって生成されたCoTを用いてデータから蒸留することで、小さなモデルでもそのような能力を誘導する試みがなされている。
しかし、既存のメソッドは単にLSMからより多くのデータを生成して組み込むだけで、既存のCoTデータを効率的に活用することの重要性に注意することができないことが多い。
本稿では,cotの固有情報を反復生成に活用した新しい学習パラダイムであるas-es(abstractive segments - extractive segments)学習を提案する。
実験により,データ拡張やモデル自体の変更を伴わずに,MWPやPET要約などのCoT集約タスクにおけるSeq2seqトレーニングを超越した手法が得られた。
さらに、CoT学習における小型モデルの非効率性の背後にある理由を考察し、AS-ES学習がなぜ機能するのかを説明し、CoTの基盤となるメカニズムについて考察する。 Chain-of-Thought (CoT) serves as a critical emerging ability in LLMs, especially when it comes to logical reasoning. Attempts have been made to induce such ability in small models as well by distilling from the data with CoT generated by Large Language Models (LLMs). However, existing methods often simply generate and incorporate more data from LLMs and fail to note the importance of efficiently utilizing existing CoT data. We here propose a new training paradigm AS-ES (Abstractive Segments - Extractive Segments) learning, which exploits the inherent information in CoT for iterative generation. Experiments show that our methods surpass the direct seq2seq training on CoT-extensive tasks like MWP and PET summarization, without data augmentation or altering the model itself. Furthermore, we explore the reason behind the inefficiency of small models in learning CoT and provide an explanation of why AS-ES learning works, giving insights into the underlying mechanism of CoT. | 翻訳日:2024-03-06 18:56:31 公開日:2024-03-04 |
# ビデオカモフラージュ物体検出のための明示的なモーションハンドリングと対話型プロンプト Explicit Motion Handling and Interactive Prompting for Video Camouflaged Object Detection ( http://arxiv.org/abs/2403.01968v1 ) ライセンス: Link先を確認 | Xin Zhang, Tao Xiao, Gepeng Ji, Xuan Wu, Keren Fu, Qijun Zhao | (参考訳) カモフラージュは静的な標的の識別に挑戦するが、標的の動きはこの変装を破る可能性がある。
既存のビデオカモフラージュオブジェクト検出(VCOD)アプローチは、複雑なダイナミックシーンにおける検出性能を制限するために、入力またはモデル動作としてノイズのある動き推定を行う。
本稿では,凍結した光フロー基本モデルを用いて,動きキューを明示的に処理する新しい明示的動作ハンドリングと対話型vcodプロンプトフレームワーク,emipを提案する。
EMIPは、カモフラージュされたセグメンテーションと光フロー推定を同時に行う2ストリームアーキテクチャによって特徴付けられる。
デュアルストリーム間のインタラクションは、視覚的なプロンプト学習にインスパイアされたインタラクティブなプロンプト方法で実現される。
学習可能な2つのモジュール、すなわちcamouflaged feederとmotion collectorは、セグメンテーション・トゥ・モーションとモーション・トゥ・セグメンテーション・プロンプトをそれぞれ組み込んで、両方のストリームの出力を高めるように設計されている。
モーションストリームに供給されるプロンプトは、自己教師された方法で光の流れを監視することによって学習される。
さらに, 長期的履歴情報をEMIPのプロンプトとして組み込んで, 時間的整合性でより堅牢な結果が得られることを示す。
実験の結果,我々のemipは,vcodベンチマークにおいて新たな最先端記録を達成した。
コードは公開される予定だ。 Camouflage poses challenges in distinguishing a static target, whereas any movement of the target can break this disguise. Existing video camouflaged object detection (VCOD) approaches take noisy motion estimation as input or model motion implicitly, restricting detection performance in complex dynamic scenes. In this paper, we propose a novel Explicit Motion handling and Interactive Prompting framework for VCOD, dubbed EMIP, which handles motion cues explicitly using a frozen pre-trained optical flow fundamental model. EMIP is characterized by a two-stream architecture for simultaneously conducting camouflaged segmentation and optical flow estimation. Interactions across the dual streams are realized in an interactive prompting way that is inspired by emerging visual prompt learning. Two learnable modules, i.e. the camouflaged feeder and motion collector, are designed to incorporate segmentation-to-motion and motion-to-segmentation prompts, respectively, and enhance outputs of the both streams. The prompt fed to the motion stream is learned by supervising optical flow in a self-supervised manner. Furthermore, we show that long-term historical information can also be incorporated as a prompt into EMIP and achieve more robust results with temporal consistency. Experimental results demonstrate that our EMIP achieves new state-of-the-art records on popular VCOD benchmarks. The code will be publicly available. | 翻訳日:2024-03-06 18:56:12 公開日:2024-03-04 |
# 最大抽出可能なqubit-reservoir絡み合いを有する非マルコフ性の解析 Characterization of non-Markovianity with maximal extractable qubit-reservoir entanglement ( http://arxiv.org/abs/2403.01967v1 ) ライセンス: Link先を確認 | Pei-Rong Han, Fan Wu, Xin-Jie Huang, Huai-Zhi Wu, Wei Yi, Jianming Wen, Zhen-Biao Yang, Shi-Biao Zheng | (参考訳) 貯水池における量子ビットの動的挙動を理解することは、量子計算から量子気象学まで、量子技術プロトコルの応用に不可欠である。
貯水池の効果は、貯水池のスペクトル構造や、キュービット-保存器結合強度に依存する。
本稿では,ロレンツスペクトルを持つ貯水池の非マルコフ効果を,抽出可能な最大量子ビット保存型量子エンタングルメントに基づいて定量化する手法を提案する。
数値シミュレーションにより, この絡み合いは結合強度の変化に応じて単調な挙動を示すことが示された。
本手法は, 超伝導量子ビットを損失共振器に制御結合し, 量子ビットのリザーバとして機能する実験により有効性を確認した。
実験の結果, 非マルコビアン性の強化により, 最大抽出可能な絡み合いが徐々に増加することが示された。 Understanding the dynamical behavior of a qubit in a reservoir is critical to applications in quantum technological protocols, ranging from quantum computation to quantum metrology. The effect of the reservoir depends on reservoir's spectral structure, as well as on the qubit-reservoir coupling strength. We here propose a measure for quantifying the non-Markovian effect of a reservoir with a Lorentzian spectrum, based on the maximum qubit-reservoir quantum entanglement that can be extracted. Numerical simulation shows this entanglement exhibits a monotonous behavior in response to the variation of the coupling strength. We confirm the validity of this measure with an experiment, where a superconducting qubit is controllably coupled to a lossy resonator, which acts as a reservoir for the qubit. The experimental results illustrate the maximal extractable entanglement is progressively increased with the strengthening of the non-Markovianity. | 翻訳日:2024-03-06 18:55:47 公開日:2024-03-04 |
# ソースレスクロスドメインFew-Shot学習のための距離対応コントラスト学習による情報最大化 Enhancing Information Maximization with Distance-Aware Contrastive Learning for Source-Free Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2403.01966v1 ) ライセンス: Link先を確認 | Huali Xu, Li Liu, Shuaifeng Zhi, Shaojing Fu, Zhuo Su, Ming-Ming Cheng, Yongxiang Liu | (参考訳) 既存のクロスドメインFew-Shot Learning(CDFSL)メソッドは、事前学習フェーズでモデルをトレーニングするためにソースドメインデータにアクセスする必要がある。
しかし、データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため、ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。
そこで本研究では,ソースデータを用いたモデルトレーニングではなく,既存の事前学習モデルを用いてCDFSLに対処する,ソースフリーCDFSL(Source-Free CDFSL)問題について検討する。
本稿では,距離対応コントラスト学習(IM-DCL)による情報最大化手法を提案する。
まず,問合せ集合を学習するための帰納的メカニズムを提案する。
第二に、情報最大化(IM)は、ターゲットサンプルを個別の確実性とグローバルな多様性予測の両方にマッピングし、ソースモデルがターゲットデータ分布に適合するのに役立つ。
しかし、IMは目標タスクの決定境界を学習することができない。
これにより、我々はDCL(Distance-Aware Contrastive Learning)と呼ばれる新しいアプローチを導入し、特徴集合全体を正と負の両方の集合とみなす。
正と負の集合を厳密に分離する代わりに、特徴集合全体の正と負の集合のソフトな分類を確立するために、特徴集合間の重み付き距離計算を用いる。
さらに,対象特徴と対応する正および負の集合との対比的制約を取り入れることで,IMに関連する問題に対処する。
BSCD-FSLベンチマークにおける4つのデータセットの評価は、提案したIM-DCLが、ソースドメインにアクセスすることなく、既存のメソッド、特に遠くのドメインタスクよりも優れていることを示している。 Existing Cross-Domain Few-Shot Learning (CDFSL) methods require access to source domain data to train a model in the pre-training phase. However, due to increasing concerns about data privacy and the desire to reduce data transmission and training costs, it is necessary to develop a CDFSL solution without accessing source data. For this reason, this paper explores a Source-Free CDFSL (SF-CDFSL) problem, in which CDFSL is addressed through the use of existing pretrained models instead of training a model with source data, avoiding accessing source data. This paper proposes an Enhanced Information Maximization with Distance-Aware Contrastive Learning (IM-DCL) method to address these challenges. Firstly, we introduce the transductive mechanism for learning the query set. Secondly, information maximization (IM) is explored to map target samples into both individual certainty and global diversity predictions, helping the source model better fit the target data distribution. However, IM fails to learn the decision boundary of the target task. This motivates us to introduce a novel approach called Distance-Aware Contrastive Learning (DCL), in which we consider the entire feature set as both positive and negative sets, akin to Schrodinger's concept of a dual state. Instead of a rigid separation between positive and negative sets, we employ a weighted distance calculation among features to establish a soft classification of the positive and negative sets for the entire feature set. Furthermore, we address issues related to IM by incorporating contrastive constraints between object features and their corresponding positive and negative sets. Evaluations of the 4 datasets in the BSCD-FSL benchmark indicate that the proposed IM-DCL, without accessing the source domain, demonstrates superiority over existing methods, especially in the distant domain task. | 翻訳日:2024-03-06 18:55:31 公開日:2024-03-04 |
# 生成AIの不均一な生産性効果 The Heterogeneous Productivity Effects of Generative AI ( http://arxiv.org/abs/2403.01964v1 ) ライセンス: Link先を確認 | David Kreitmeir and Paul A. Raschky | (参考訳) 我々は、イタリアのChatGPT禁止による個人の生産性への影響を分析する。
イタリアや他の欧州諸国の3万6000人以上のgithubユーザの毎日のコーディングアウトプットと品質に関するデータをコンパイルし、これらのデータを差分法フレームワークの突然の発表と組み合わせます。
イタリアの影響を受けたユーザのうち、経験の少ないユーザに対しては、短期的なアウトプット量と品質の増加、経験の少ないユーザに対しては、より日常的なタスクに対する生産性の低下が見られます。 We analyse the individual productivity effects of Italy's ban on ChatGPT, a generative pretrained transformer chatbot. We compile data on the daily coding output quantity and quality of over 36,000 GitHub users in Italy and other European countries and combine these data with the sudden announcement of the ban in a difference-in-differences framework. Among the affected users in Italy, we find a short-term increase in output quantity and quality for less experienced users and a decrease in productivity on more routine tasks for experienced users. | 翻訳日:2024-03-06 18:54:57 公開日:2024-03-04 |
# DECIDER:デュアルシステム認知理論の省略による言語生成のためのルール制御可能なデコード戦略 DECIDER: A Rule-Controllable Decoding Strategy for Language Generation by Imitating Dual-System Cognitive Theory ( http://arxiv.org/abs/2403.01954v1 ) ライセンス: Link先を確認 | Chen Xu, Tian Lan, Changlong Yu, Wei Wang, Jun Gao, Yu Ji, Qunxi Dong, Kun Qian, Piji Li, Wei Bi, and Bin Hu | (参考訳) lexiconベースの制約付きデコードアプローチは、特定のターゲット概念を通じて生成されたテキストの意味やスタイルを制御することを目的としている。
既存のアプローチはターゲット自体に過度に焦点を合わせ、その達成方法に関する高レベルの推論が欠如している。
しかしながら、人間は通常、目標だけでなく、目標の発生を誘発する意味論的に関連する概念にも焦点をあてる特定の規則に従うことでタスクに取り組む。
本稿では,二重系認知理論に触発された制約付き言語生成のための規則制御可能な復号戦略であるdecisatorを提案する。
具体的には、DECDERでは、事前訓練された言語モデル(PLM)に高レベルのルールを入力として取り込む論理推論器を装備する。
そして、DECDERは、各復号ステップでルール信号がPLMに流れ込むことを可能にする。
広範な実験の結果、決定者はより人間的な方法で生成方向を導くために与えられた規則を効果的に従えることが示されている。 Lexicon-based constrained decoding approaches aim to control the meaning or style of the generated text through certain target concepts. Existing approaches over-focus the targets themselves, leading to a lack of high-level reasoning about how to achieve them. However, human usually tackles tasks by following certain rules that not only focuses on the targets but also on semantically relevant concepts that induce the occurrence of targets. In this work, we present DECIDER, a rule-controllable decoding strategy for constrained language generation inspired by dual-system cognitive theory. Specifically, in DECIDER, a pre-trained language model (PLM) is equiped with a logic reasoner that takes high-level rules as input. Then, the DECIDER allows rule signals to flow into the PLM at each decoding step. Extensive experimental results demonstrate that DECIDER can effectively follow given rules to guide generation direction toward the targets in a more human-like manner. | 翻訳日:2024-03-06 18:54:48 公開日:2024-03-04 |
# UVLからIVMLへの変換の課題について On the Challenges of Transforming UVL to IVML ( http://arxiv.org/abs/2403.01952v1 ) ライセンス: Link先を確認 | Prankur Agarwal, Kevin Feichtinger, Klaus Schmid, Holger Eichelberger and Rick Rabiser | (参考訳) ソフトウェア製品ライン技術は、カスタマイズされた製品やソフトウェアシステムを作成するためのソフトウェアコンポーネントの再利用と適応を促進する。
これらの異なる製品変種は共通点と相違点を持ち、変数モデリングによって管理される。
過去30年間、学界と産業は、それぞれ独自の長所と短所を持つ多くの変数モデリング手法を開発してきた。
これらの手法の多くは、特定のドメインやアプリケーションで有効性を実証している。
しかし、特定のユースケースに適したものを特定するためのこれらのアプローチの能力と違いを理解することは、依然として困難である。
このように、可変性を扱うための新しいモデリング技術や調整されたツールが頻繁に作成される。
異なるアプローチからの変換を通じて可変性モデル間の遷移は、異なるモデリングアプローチの利点と欠点を理解するのに役立つ。
しかし、このような変換の実装には意味保存や情報損失の回避といった課題がある。
TRAVARTは、変数モデルを異なるタイプの他の変数モデルに変換することで、異なるアプローチ間の移行を支援するツールである。
本稿では,UVLとIVMLの変換の課題について論じる。
また、UVLからIVMLへの片道変換もできる限り情報損失が少ない。 Software product line techniques encourage the reuse and adaptation of software components for creating customized products or software systems. These different product variants have commonalities and differences, which are managed by variability modeling. Over the past three decades, both academia and industry have developed numerous variability modeling methods, each with its own advantages and disadvantages. Many of these methods have demonstrated their utility within specific domains or applications. However, comprehending the capabilities and differences among these approaches to pinpoint the most suitable one for a particular use case remains challenging. Thus, new modeling techniques and tailored tools for handling variability are frequently created. Transitioning between variability models through transformations from different approaches can help in understanding the benefits and drawbacks of different modeling approaches. However, implementing such transformations presents challenges, such as semantic preservation and avoiding information loss. TRAVART is a tool that helps with transitioning between different approaches by enabling the transformation of variability models into other variability models of different types. This paper discusses the challenges for such transformations between UVL and IVML. It also presents a one-way transformation from the UVL to IVML with as little information loss as possible. | 翻訳日:2024-03-06 18:54:33 公開日:2024-03-04 |
# 多項式カオス展開による分画モーメント推定について On Fractional Moment Estimation from Polynomial Chaos Expansion ( http://arxiv.org/abs/2403.01948v1 ) ライセンス: Link先を確認 | Luk\'a\v{s} Nov\'ak and Marcos Valdebenito and Matthias Faes | (参考訳) フラクショナル統計モーメントは確率分布の推定を含む不確実性定量化の様々なタスクに利用される。
しかし, 計算能力の限界のため, 大規模実験設計を作成できないことが多いため, 統計的サンプリングによるコストのかかる数学モデルの分数統計モーメントの推定は困難である。
本稿では,多項式カオス展開から直接分数モーメントを解析的に推定する新しい手法を提案する。
特に、決定論的pce係数から得られる最初の4つの統計モーメントは、h\"{o}lderの不等式による任意の分数モーメントの推定に使用される。
提案手法は,複雑性が増大する3つの数値例における統計モーメントと確率分布の推定に有効である。
その結果,提案手法は,提案例の標準ラテンハイパーキューブサンプリングと比較して,応答の分布を推定する上で,優れた性能が得られることがわかった。 Fractional statistical moments are utilized for various tasks of uncertainty quantification, including the estimation of probability distributions. However, an estimation of fractional statistical moments of costly mathematical models by statistical sampling is challenging since it is typically not possible to create a large experimental design due to limitations in computing capacity. This paper presents a novel approach for the analytical estimation of fractional moments, directly from polynomial chaos expansions. Specifically, the first four statistical moments obtained from the deterministic PCE coefficients are used for an estimation of arbitrary fractional moments via H\"{o}lder's inequality. The proposed approach is utilized for an estimation of statistical moments and probability distributions in three numerical examples of increasing complexity. Obtained results show that the proposed approach achieves a superior performance in estimating the distribution of the response, in comparison to a standard Latin hypercube sampling in the presented examples. | 翻訳日:2024-03-06 18:54:19 公開日:2024-03-04 |
# 点特異点をもつgevreyクラスにおけるrelu$^k$ニューラルネットワークの指数表現性 Exponential Expressivity of ReLU$^k$ Neural Networks on Gevrey Classes with Point Singularities ( http://arxiv.org/abs/2403.02035v1 ) ライセンス: Link先を確認 | Joost A. A. Opschoor, Christoph Schwab | (参考訳) 有界多面体領域の特異点を持つ滑らかな関数の深部ニューラルネットワークエミュレーション速度を解析し, 有界多面体領域$\mathrm{D} \subset \mathbb{R}^d$, $d=2,3$とする。
我々は、ニューロンの数と、I.M. Babu\v{s}ka と B.Q. Guo の数えきれないノルム空間からなる、重み付きソボレフスケールの項で定義されるGevrey-regular Solution classの非ゼロ係数の数で、ソボレフ空間における指数的エミュレーション率を証明した。
中間結果として、多面体領域の任意の正則な簡素な分割に対して、要素付き多項式次数 $p\in\mathbb{n}$ を持つ連続的多項式高階数 (``$p$-version''') の有限要素が、reluとrelu$^2$の活性化を組み合わせたニューラルネットワークによって正確にエミュレート可能であることを証明する。
多面体領域の形状規則的、simplicial partitions of polytopal domain $\mathrm{D}$ では、ニューロンの数と非ゼロパラメータの数は有限要素空間の自由度数に比例し、特に I.M. Babu\v{s}ka と B.Q. Guo の$hp$-Finite Element Method に対してである。 We analyze deep Neural Network emulation rates of smooth functions with point singularities in bounded, polytopal domains $\mathrm{D} \subset \mathbb{R}^d$, $d=2,3$. We prove exponential emulation rates in Sobolev spaces in terms of the number of neurons and in terms of the number of nonzero coefficients for Gevrey-regular solution classes defined in terms of weighted Sobolev scales in $\mathrm{D}$, comprising the countably-normed spaces of I.M. Babu\v{s}ka and B.Q. Guo. As intermediate result, we prove that continuous, piecewise polynomial high order (``$p$-version'') finite elements with elementwise polynomial degree $p\in\mathbb{N}$ on arbitrary, regular, simplicial partitions of polyhedral domains $\mathrm{D} \subset \mathbb{R}^d$, $d\geq 2$ can be exactly emulated by neural networks combining ReLU and ReLU$^2$ activations. On shape-regular, simplicial partitions of polytopal domains $\mathrm{D}$, both the number of neurons and the number of nonzero parameters are proportional to the number of degrees of freedom of the finite element space, in particular for the $hp$-Finite Element Method of I.M. Babu\v{s}ka and B.Q. Guo. | 翻訳日:2024-03-06 18:50:33 公開日:2024-03-04 |
# 線状ポールトラップに原子イオンを蓄積したナノ粒子 A nanoparticle stored with an atomic ion in a linear Paul trap ( http://arxiv.org/abs/2403.02034v1 ) ライセンス: Link先を確認 | Dmitry S. Bykov, Lorenzo Dania, Florian Goschin, Tracy E. Northup | (参考訳) 高周波トラップは荷電粒子を閉じ込めるために用いられるが、電荷対質量比の狭い範囲でのみ安定である。
ここでは、2つの粒子(ナノ粒子と原子イオン)を同じ電波トラップに閉じ込めるが、電荷と質量の比は6桁異なる。
閉じ込めはトラップ電極に印加される2周波電圧によって可能となる。
超高真空下でのロバスト荷重法を導入し, 両粒子の安定性を特徴付ける。
2次元場に特有の効果である低速場マイクロモーションがイオンの局在に重要な役割を果たすことが観察され、粒子間の相互作用を工学的に制御する場合に重要である。 Radiofrequency traps are used to confine charged particles but are only stable for a narrow range of charge-to-mass ratios. Here, we confine two particles -- a nanoparticle and an atomic ion -- in the same radiofrequency trap although their charge-to-mass ratios differ by six orders of magnitude. The confinement is enabled by a dual-frequency voltage applied to the trap electrodes. We introduce a robust loading procedure under ultra-high vacuum and characterize the stability of both particles. It is observed that slow-field micromotion, an effect specific to the dual-field setting, plays a crucial role for ion localization and will be important to account for when engineering controlled interactions between the particles. | 翻訳日:2024-03-06 18:49:58 公開日:2024-03-04 |
# 非局所量子skyrmionによる雑音の位相的拒絶 Topological rejection of noise by non-local quantum skyrmions ( http://arxiv.org/abs/2403.02031v1 ) ライセンス: Link先を確認 | Pedro Ornelas, Isaac Nape, Robert De Mello Koch and Andrew Forbes | (参考訳) 量子情報処理と通信の文脈におけるオープンな課題は、現実のシナリオにおける深刻な障害であるノイズの環境貢献に対する量子情報の堅牢性を改善することである。
ここでは、2つの絡み合った光子の中で2つの自由度にまたがる量子スラミオントポロジーを作成し、そのトポロジ的不変性は、環境ノイズによって状態の純度が低下しても、最大混合されたときにのみ崩壊することを示す。
このようなノイズの摂動が状態の滑らかな変形であると考える方法を考察し、実験結果を支えるための完全な理論的治療を提供する。
我々のアプローチは量子情報のデジタル化であり、トポロジーによる固有量子レジリエンスのエキサイティングな約束を守ることができる。 An open challenge in the context of quantum information processing and communication is improving the robustness of quantum information to environmental contributions of noise, a severe hindrance in real-world scenarios. Here we create quantum skyrmionic topologies across two degrees of freedom in two entangled photons and show that the topological invariant remains resilient even as the purity of the state decreases due to environmental noise, collapsing only once the state is maximally mixed. We discuss how such noise perturbations can be considered a smooth deformation of the state, and provide a full theoretical treatment to support the experimental findings. Our approach can be viewed as a digitization of quantum information, holding exciting promise for intrinsic quantum resilience through topology. | 翻訳日:2024-03-06 18:49:47 公開日:2024-03-04 |
# 量子熱力学における熱と仕事--サイバネティックアプローチ Heat and Work in Quantum Thermodynamics: a Cybernetic Approach ( http://arxiv.org/abs/2403.02022v1 ) ライセンス: Link先を確認 | William Rupush and Oscar Gr{\aa}n\"as | (参考訳) 制御理論による可観測性分解に基づく仕事と熱を区別する新しい提案を提案する。
観測可能エネルギーの即時散逸を表すエルミート作用素を導出し、測定された可観測物が情報的に不完全である場合にも純状態に存在するモデル不確かさを説明できるフォン・ノイマンエントロピーの一般化を提案する。
この観点では、基本密度行列から熱力学モデルへの遷移は、一般的に低次元の有効密度行列にマッピングし、センサとアクチュエータの能力の制約から観測可能なもののみを符号化する。
一般化エントロピーは、このマッピングで発生した情報損失をキャプチャする。
この理論は中心スピンモデルで示されており、外部制御の適用により熱揺らぎの大きさが増大しエントロピーが低下することを示している。 We present a new proposal for distinguishing heat from work based on a control-theoretic observability decomposition. We derive a Hermitian operator representing instantaneous dissipation of observable energy, and suggest a generalization of the von-Neumann entropy which can account for the model-uncertainty also present in pure states if the measured observables are informationally incomplete. In this view, the transition from a fundamental to a thermodynamic model consists in mapping the fundamental density matrix to an effective one, generally of lower dimension, encoding only what is observable given the constraints of our sensor and actuator capabilities. The generalized entropy captures the information loss incurred in this mapping. The theory is illustrated for the central spin model, where we show that the application of external controls can increase the size of thermal fluctuations and lower the entropy. | 翻訳日:2024-03-06 18:49:31 公開日:2024-03-04 |
# タイマーを用いた機械の能動的学習 Active Learning of Mealy Machines with Timers ( http://arxiv.org/abs/2403.02019v1 ) ライセンス: Link先を確認 | V\'eronique Bruy\`ere, Bharat Garhewal, Guillermo A. P\'erez, Ga\"etan Staquet, Frits W. Vaandrager | (参考訳) ブラックボックスコンテキストにおけるタイマー付きMealyマシンの一般的なクラス(MMT)を問合せ学習するための最初のアルゴリズムを提案する。
我々のアルゴリズムは、vaandragerらのl#アルゴリズムをタイムド設定に拡張したものである。
waga が提案した時間的オートマトン学習アルゴリズムと同様に,本アルゴリズムは maler と pnueli のアイデアに触発されたものである。
基本言語に基づいて,wagaとアルゴリズムはともにシンボリッククエリを使用し,有限個の具体的なクエリを用いて実装する。
しかしながら、wagaは単一のシンボリッククエリを実装するために指数関数的に多くの具体的なクエリを必要とするが、多項式数だけが必要である。
これは、時間付きオートマトンを学習するためには、学習者が各遷移の正確なガードとリセット(指数関数的に多くの可能性から)を決定する必要があるのに対し、MMTを学ぶためには、学習者は前回の遷移のどれがタイムアウトを引き起こしたかを知る必要があるからである。
我々の以前の研究で示されているように、これは競合回避であるmmtのサブクラスに対して効率的に行うことができる:もし前回の入力によってタイムアウトが発生すると、この入力のタイミングがわずかに変化すれば、タイムアウトのタイミングに対応する変化(ウィグリング)が引き起こされる。
Rustで書かれたプロトタイプ実装の実験は、我々のアルゴリズムがリアルなベンチマークを効率的に学習できることを示しています。 We present the first algorithm for query learning of a general class of Mealy machines with timers (MMTs) in a black-box context. Our algorithm is an extension of the L# algorithm of Vaandrager et al. to a timed setting. Like the algorithm for learning timed automata proposed by Waga, our algorithm is inspired by ideas of Maler & Pnueli. Based on the elementary languages of, both Waga's and our algorithm use symbolic queries, which are then implemented using finitely many concrete queries. However, whereas Waga needs exponentially many concrete queries to implement a single symbolic query, we only need a polynomial number. This is because in order to learn a timed automaton, a learner needs to determine the exact guard and reset for each transition (out of exponentially many possibilities), whereas for learning an MMT a learner only needs to figure out which of the preceding transitions caused a timeout. As shown in our previous work, this can be done efficiently for a subclass of MMTs that are race-avoiding: if a timeout is caused by a preceding input then a slight change in the timing of this input will induce a corresponding change in the timing of the timeout ("wiggling"). Experiments with a prototype implementation, written in Rust, show that our algorithm is able to efficiently learn realistic benchmarks. | 翻訳日:2024-03-06 18:49:15 公開日:2024-03-04 |
# エフェクトサイクル一貫性を持つクロスドメイン政策移行 Cross Domain Policy Transfer with Effect Cycle-Consistency ( http://arxiv.org/abs/2403.02018v1 ) ライセンス: Link先を確認 | Ruiqi Zhu, Tianhong Dai, Oya Celiktutan | (参考訳) 深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
この課題に対処するため、ソースドメインでトレーニングされたポリシーをターゲットドメインに移すことは魅力的なパラダイムになります。
従来の研究は、状態と行動空間が似ているが、他の面で異なる領域に焦点を合わせてきた。
本稿では,ロボットAからロボットBへポリシーを移すという,より広範な実践的な意味を持つ状態空間と行動空間を持つ領域に主眼を置き,ペアデータに依存する従来の手法とは異なり,未ペアデータを用いて状態空間と行動空間間のマッピング関数を学習するための新しいアプローチを提案する。
本稿では、これらの写像関数を学習するための対称最適化構造を通して、2つの領域間の遷移の効果を整合させる効果サイクル整合性を提案する。
一度マッピング関数が学習されると、ポリシーをソースドメインからターゲットドメインにシームレスに転送できます。
提案手法は3つのロコモーションタスクと2つのロボット操作タスクでテストされている。
実験結果から,本手法はアライメント誤差を大幅に低減し,最先端手法よりも優れた性能が得られることが示された。 Training a robotic policy from scratch using deep reinforcement learning methods can be prohibitively expensive due to sample inefficiency. To address this challenge, transferring policies trained in the source domain to the target domain becomes an attractive paradigm. Previous research has typically focused on domains with similar state and action spaces but differing in other aspects. In this paper, our primary focus lies in domains with different state and action spaces, which has broader practical implications, i.e. transfer the policy from robot A to robot B. Unlike prior methods that rely on paired data, we propose a novel approach for learning the mapping functions between state and action spaces across domains using unpaired data. We propose effect cycle consistency, which aligns the effects of transitions across two domains through a symmetrical optimization structure for learning these mapping functions. Once the mapping functions are learned, we can seamlessly transfer the policy from the source domain to the target domain. Our approach has been tested on three locomotion tasks and two robotic manipulation tasks. The empirical results demonstrate that our method can reduce alignment errors significantly and achieve better performance compared to the state-of-the-art method. | 翻訳日:2024-03-06 18:48:54 公開日:2024-03-04 |
# 未確認のセキュリティエンティティ間の隠れたリンクを公開 Unveiling Hidden Links Between Unseen Security Entities ( http://arxiv.org/abs/2403.02014v1 ) ライセンス: Link先を確認 | Daniel Alfasi, Tal Shapira, Anat Bremler Barr | (参考訳) ソフトウェアの脆弱性の拡散は、セキュリティデータベースやアナリストがタイムリーな識別、分類、修復を行う上で大きな課題となる。
National Vulnerability Database (NVD)が継続的に増加する脆弱性を報告しているので、従来の手動分析は時間がかかり、エラーが発生しやすい。
本稿では,知識グラフ(KG)と自然言語処理(NLP)を組み合わせたマルチモーダル表現学習を利用した革新的なアプローチであるVulnScopperを紹介し,ソフトウェア脆弱性の分析の自動化と強化を行う。
知識グラフ基盤モデルであるULTRAをLarge Language Model (LLM)と組み合わせることで、VulnScopperは目に見えないエンティティを効果的に処理し、従来のKGアプローチの制限を克服する。
我々は、NVDとRed Hat CVEデータベースの2つの主要なセキュリティデータセット上でVulnScopperを評価する。
提案手法は,CVE(Common Vulnerabilities and Exposures),CWE(Common Weakness Enumeration),CPE(Common Platform Enumeration)のリンク予測精度を大幅に向上させる。
我々の結果は、VulnScopperが既存の手法より優れており、CVEをCPEやCWEにリンクし、Red Hatデータベースに基づいてCWEラベルを予測する場合、11.7%の改善が達成されていることを示している。
NVDに基づいて、リンクされたCPEの6.37%は、最初の30日間で公開され、その多くは、複数のコンプライアンスフレームワーク(CISAやPCIなど)に従えば、15日から30日以内に再通信される、クリティカルかつリスクの高い脆弱性に関連している。
我々のモデルは、脆弱性に関連する新製品を発見でき、修復時間を短縮し、脆弱性管理を改善します。
我々は2023年からいくつかのCVEを分析し,その能力を実証した。 The proliferation of software vulnerabilities poses a significant challenge for security databases and analysts tasked with their timely identification, classification, and remediation. With the National Vulnerability Database (NVD) reporting an ever-increasing number of vulnerabilities, the traditional manual analysis becomes untenably time-consuming and prone to errors. This paper introduces VulnScopper, an innovative approach that utilizes multi-modal representation learning, combining Knowledge Graphs (KG) and Natural Language Processing (NLP), to automate and enhance the analysis of software vulnerabilities. Leveraging ULTRA, a knowledge graph foundation model, combined with a Large Language Model (LLM), VulnScopper effectively handles unseen entities, overcoming the limitations of previous KG approaches. We evaluate VulnScopper on two major security datasets, the NVD and the Red Hat CVE database. Our method significantly improves the link prediction accuracy between Common Vulnerabilities and Exposures (CVEs), Common Weakness Enumeration (CWEs), and Common Platform Enumerations (CPEs). Our results show that VulnScopper outperforms existing methods, achieving up to 78% Hits@10 accuracy in linking CVEs to CPEs and CWEs and presenting an 11.7% improvement over large language models in predicting CWE labels based on the Red Hat database. Based on the NVD, only 6.37% of the linked CPEs are being published during the first 30 days; many of them are related to critical and high-risk vulnerabilities which, according to multiple compliance frameworks (such as CISA and PCI), should be remediated within 15-30 days. Our model can uncover new products linked to vulnerabilities, reducing remediation time and improving vulnerability management. We analyzed several CVEs from 2023 to showcase this ability. | 翻訳日:2024-03-06 18:48:34 公開日:2024-03-04 |
# Ecological Networks におけるサンプルバイアスを考慮した2部グラフ変分自動エンコーダ Bipartite Graph Variational Auto-Encoder with Fair Latent Representation to Account for Sampling Bias in Ecological Networks ( http://arxiv.org/abs/2403.02011v1 ) ライセンス: Link先を確認 | Emre Anakok, Pierre Barbillon, Colin Fontaine, Elisa Thebault | (参考訳) 本稿では,植物と受粉者を結びつけるような生態ネットワーク研究の課題,特にサンプリングバイアスの制御のために,二成分ネットワークを表現する手法を提案する。
そこで,2つのノードが接続の確率に基づいて位置付けられた潜在空間に埋め込みを生成することが可能となる。
生態学におけるサンプリングバイアスに対処するために,社会学で一般的に考慮される公平性フレームワークを翻訳する。
最適化した損失に対する追加のペナルティ項としてヒルベルト・シュミット独立基準(hsic)を組み込むことにより、潜在空間の構造がサンプリングプロセスに関連する連続変数とは独立であることを保証する。
最後に,我々のアプローチが,多くのオブザーバが貢献する植物-花粉相互作用の市民科学監視プログラムであるspipoll data setに適用することで,環境ネットワークの理解をいかに変えられるかを示す。 We propose a method to represent bipartite networks using graph embeddings tailored to tackle the challenges of studying ecological networks, such as the ones linking plants and pollinators, where many covariates need to be accounted for, in particular to control for sampling bias. We adapt the variational graph auto-encoder approach to the bipartite case, which enables us to generate embeddings in a latent space where the two sets of nodes are positioned based on their probability of connection. We translate the fairness framework commonly considered in sociology in order to address sampling bias in ecology. By incorporating the Hilbert-Schmidt independence criterion (HSIC) as an additional penalty term in the loss we optimize, we ensure that the structure of the latent space is independent of continuous variables, which are related to the sampling process. Finally, we show how our approach can change our understanding of ecological networks when applied to the Spipoll data set, a citizen science monitoring program of plant-pollinator interactions to which many observers contribute, making it prone to sampling bias. | 翻訳日:2024-03-06 18:48:01 公開日:2024-03-04 |
# Topic Aware Probing: 文長予測からイディオム同定へ : ニューラルネットワークモデルがトピックにどの程度依存しているか? Topic Aware Probing: From Sentence Length Prediction to Idiom Identification how reliant are Neural Language Models on Topic? ( http://arxiv.org/abs/2403.02009v1 ) ライセンス: Link先を確認 | Vasudevan Nedumpozhimana, John D. Kelleher | (参考訳) トランスフォーマーベースのニューラル言語モデルは、様々な自然言語処理タスクで最先端のパフォーマンスを達成する。
しかし、オープンな疑問は、自然言語処理においてこれらのモデルがワードオーダー/シンタクティックや単語共起/トピックベースの情報に依存する範囲である。
この研究は、文長予測のような単純な語彙的タスクから、慣用的トークン識別のような複雑な意味的タスク、およびこれらのタスクのトピック情報に対する感度まで、トランスフォーマーベースモデル(BERTとRoBERTa)のパフォーマンスと英語での探索タスクとの関係を探求することで、これらのモデルが主にトピックを信号として使用するかどうかという問題に対処する。
そこで本研究では,トピック認識探索と呼ぶ新しい探索法を提案する。
最初の結果から, トランスフォーマティブモデルでは, トピックと非トピックの両方の情報を中間層にエンコードするだけでなく, 慣用的利用を区別するためのこれらのモデルの機能は, 主にトピックを識別しエンコードする能力に基づいていることが示唆された。
さらに,他の標準探索タスクにおけるモデルの性能を解析した結果,トピック情報に比較的敏感なタスクも,モデルに比較的難しいタスクであることが示唆された。 Transformer-based Neural Language Models achieve state-of-the-art performance on various natural language processing tasks. However, an open question is the extent to which these models rely on word-order/syntactic or word co-occurrence/topic-based information when processing natural language. This work contributes to this debate by addressing the question of whether these models primarily use topic as a signal, by exploring the relationship between Transformer-based models' (BERT and RoBERTa's) performance on a range of probing tasks in English, from simple lexical tasks such as sentence length prediction to complex semantic tasks such as idiom token identification, and the sensitivity of these tasks to the topic information. To this end, we propose a novel probing method which we call topic-aware probing. Our initial results indicate that Transformer-based models encode both topic and non-topic information in their intermediate layers, but also that the facility of these models to distinguish idiomatic usage is primarily based on their ability to identify and encode topic. Furthermore, our analysis of these models' performance on other standard probing tasks suggests that tasks that are relatively insensitive to the topic information are also tasks that are relatively difficult for these models. | 翻訳日:2024-03-06 18:47:43 公開日:2024-03-04 |
# 粒子勾配降下の誤差境界と対数ソボレフとタラグランの不等式の拡張 Error bounds for particle gradient descent, and extensions of the log-Sobolev and Talagrand inequalities ( http://arxiv.org/abs/2403.02004v1 ) ライセンス: Link先を確認 | Rocco Caprio, Juan Kuntz, Samuel Power and Adam M. Johansen | (参考訳) 粒子勾配勾配(PGD)~(Kuntz et al., 2023)に対する非漸近誤差境界を証明し, 自由エネルギーの勾配流を離散化して得られる大きな潜伏変数モデルの最大推定法を提案する。
まず,log-Sobolev と Polyak-{\L}ojasiewicz の不等式 (LSI と P{\L}I) を一般化した条件を満たすモデルについて,流れは自由エネルギーの最小値の集合に指数関数的に収束することを示した。
我々は、最適輸送文献(LSIはタラグランドの不等式を意味する)と最適化文献(P{\L}Iはいわゆる二次成長条件を意味する)でよく知られた結果を拡張し、新しい環境に適用することで、これを達成した。
また、Bakry--\Emery Theorem を一般化し、LSI/P{\L}I の一般化が強い凹凸対を持つモデルに対して成り立つことを示す。
このようなモデルに対しては、PGDの離散化誤差をさらに制御し、非漸近誤差境界を得る。
我々はpgdの研究に動機づけられているが、拡張する不等式と結果が独立した関心事であると信じている。 We prove non-asymptotic error bounds for particle gradient descent (PGD)~(Kuntz et al., 2023), a recently introduced algorithm for maximum likelihood estimation of large latent variable models obtained by discretizing a gradient flow of the free energy. We begin by showing that, for models satisfying a condition generalizing both the log-Sobolev and the Polyak--{\L}ojasiewicz inequalities (LSI and P{\L}I, respectively), the flow converges exponentially fast to the set of minimizers of the free energy. We achieve this by extending a result well-known in the optimal transport literature (that the LSI implies the Talagrand inequality) and its counterpart in the optimization literature (that the P{\L}I implies the so-called quadratic growth condition), and applying it to our new setting. We also generalize the Bakry--\'Emery Theorem and show that the LSI/P{\L}I generalization holds for models with strongly concave log-likelihoods. For such models, we further control PGD's discretization error, obtaining non-asymptotic error bounds. While we are motivated by the study of PGD, we believe that the inequalities and results we extend may be of independent interest. | 翻訳日:2024-03-06 18:47:16 公開日:2024-03-04 |
# LLM指向検索タナー LLM-Oriented Retrieval Tuner ( http://arxiv.org/abs/2403.01999v1 ) ライセンス: Link先を確認 | Si Sun, Hanqing Zhang, Zhiyuan Liu, Jie Bao, Dawei Song | (参考訳) 現在、Dense Retrieval (DR) は、GPT3やGPT-4のような大規模言語モデル(LLM)の記憶能力を高めるための有望なツールと考えられている。
しかし, LLM と DR のテキスト生成のパラダイム的相違により, 検索タスクと生成タスクを共有 LLM に統合することは依然としてオープンな課題である。
本稿では,LLM をベース LLM から分離し,LLM の最適配向層と均一層を統一 DR 空間に向けて非侵襲的に調整し,LLM 自体をチューニングすることなく効率的かつ効率的な DR を実現する,効率的な LLM-Oriented Retrieval Tuner を提案する。
6個の beir データセットに関する広範な実験により,llm の生成能力を維持しつつ,強力な dr モデルと競合するゼロショット検索性能を実現することができた。 Dense Retrieval (DR) is now considered as a promising tool to enhance the memorization capacity of Large Language Models (LLM) such as GPT3 and GPT-4 by incorporating external memories. However, due to the paradigm discrepancy between text generation of LLM and DR, it is still an open challenge to integrate the retrieval and generation tasks in a shared LLM. In this paper, we propose an efficient LLM-Oriented Retrieval Tuner, namely LMORT, which decouples DR capacity from base LLM and non-invasively coordinates the optimally aligned and uniform layers of the LLM towards a unified DR space, achieving an efficient and effective DR without tuning the LLM itself. The extensive experiments on six BEIR datasets show that our approach could achieve competitive zero-shot retrieval performance compared to a range of strong DR models while maintaining the generation ability of LLM. | 翻訳日:2024-03-06 18:46:50 公開日:2024-03-04 |
# バニラトランスフォーマーはトランスファー能力の教師 Vanilla Transformers are Transfer Capability Teachers ( http://arxiv.org/abs/2403.01994v1 ) ライセンス: Link先を確認 | Xin Lu, Yanyan Zhao, Bing Qin | (参考訳) 近年,Mixture of Experts (MoE) 変換器は,モデル容量と計算効率の優位性から注目が集まっている。
しかし、研究によれば、moeトランスフォーマーは多くの下流の作業でバニラトランスフォーマーを弱め、moeモデルの実用価値を著しく低下させた。
この問題を説明するために,モデルの事前学習性能と伝達能力は,下流タスク性能の合同決定要因であることを示す。
バニラモデルと比較してMoEモデルは転送能力が劣るため、下流タスクではサブパーパフォーマンスが低下する。
そこで本研究では,バニラモデルの方が性能が弱いが,伝達能力の効果的な教師であることを示すため,転送能力蒸留の概念を紹介する。
バニラモデルによって導かれたmoeモデルは、強い事前トレーニングパフォーマンスと転送能力の両方を達成でき、最終的には下流タスクのパフォーマンスを向上させることができる。
我々は,特定の蒸留法を設計し,BERTアーキテクチャの実験を行う。
実験の結果,MoEモデルの下流性能は著しく向上し,さらに多くの証拠が伝熱能力蒸留の概念を強く支持している。
最後に,輸送能力の蒸留を解釈し,モデル特徴の観点から考察する。 Recently, Mixture of Experts (MoE) Transformers have garnered increasing attention due to their advantages in model capacity and computational efficiency. However, studies have indicated that MoE Transformers underperform vanilla Transformers in many downstream tasks, significantly diminishing the practical value of MoE models. To explain this issue, we propose that the pre-training performance and transfer capability of a model are joint determinants of its downstream task performance. MoE models, in comparison to vanilla models, have poorer transfer capability, leading to their subpar performance in downstream tasks. To address this issue, we introduce the concept of transfer capability distillation, positing that although vanilla models have weaker performance, they are effective teachers of transfer capability. The MoE models guided by vanilla models can achieve both strong pre-training performance and transfer capability, ultimately enhancing their performance in downstream tasks. We design a specific distillation method and conduct experiments on the BERT architecture. Experimental results show a significant improvement in downstream performance of MoE models, and many further evidences also strongly support the concept of transfer capability distillation. Finally, we attempt to interpret transfer capability distillation and provide some insights from the perspective of model feature. | 翻訳日:2024-03-06 18:46:33 公開日:2024-03-04 |
# 時間分解型造影剤濃度再構成のための物理インフォームドラーニング Physics-Informed Learning for Time-Resolved Angiographic Contrast Agent Concentration Reconstruction ( http://arxiv.org/abs/2403.01993v1 ) ライセンス: Link先を確認 | Noah Maul, Annette Birkhold, Fabian Wagner, Mareike Thies, Maximilian Rohleder, Philipp Berg, Markus Kowarschik, Andreas Maier | (参考訳) 3次元デジタルサブトラクション血管造影(3D-DSA)は、血管解剖を可視化するための確立されたX線ベースの技術である。
近年,4次元DSA (4D-DSA) 再構成アルゴリズムが開発され,ボリュームの時系列によるボリュームコントラストフローの可視化が可能となった。
.
この復元問題は、主に投影方向の容器重なりと幾何学的容器の先端化のため、記録された投影画像における情報損失につながる。
しかし、基盤となる流体力学に関する知識は、解空間を制約するために活用することができる。
私たちの研究では、画像ベースの血流シミュレーションのデータセットに基づいてトレーニングされたニューラルネットワークベースのモデルに暗黙的にこの情報を含めています。
このモデルでは,血管の各中心点に対する空間平均コントラスト剤濃度を経時的に予測し,全体の計算負荷を低減させる。
訓練されたネットワークは、平均絶対誤差0.02$\pm$ 0.02と平均絶対パーセンテージ誤差5.31 %$\pm$ 9.25 %で、相対的コントラストエージェント濃度の再構成を可能にする。
さらに、ネットワークは船の重なり合いや船の予見の程度に頑丈である。
本手法は,血管造影画像再構成における機械学習と血流シミュレーションの統合の可能性を示す。 Three-dimensional Digital Subtraction Angiography (3D-DSA) is a well-established X-ray-based technique for visualizing vascular anatomy. Recently, four-dimensional DSA (4D-DSA) reconstruction algorithms have been developed to enable the visualization of volumetric contrast flow dynamics through time-series of volumes. . This reconstruction problem is ill-posed mainly due to vessel overlap in the projection direction and geometric vessel foreshortening, which leads to information loss in the recorded projection images. However, knowledge about the underlying fluid dynamics can be leveraged to constrain the solution space. In our work, we implicitly include this information in a neural network-based model that is trained on a dataset of image-based blood flow simulations. The model predicts the spatially averaged contrast agent concentration for each centerline point of the vasculature over time, lowering the overall computational demand. The trained network enables the reconstruction of relative contrast agent concentrations with a mean absolute error of 0.02 $\pm$ 0.02 and a mean absolute percentage error of 5.31 % $\pm$ 9.25 %. Moreover, the network is robust to varying degrees of vessel overlap and vessel foreshortening. Our approach demonstrates the potential of the integration of machine learning and blood flow simulations in time-resolved angiographic flow reconstruction. | 翻訳日:2024-03-06 18:46:12 公開日:2024-03-04 |
# FakeNewsGPT4:知識付加LVLMによるマルチモーダルフェイクニュース検出の改善 FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs ( http://arxiv.org/abs/2403.01988v1 ) ライセンス: Link先を確認 | Xuannan Liu and Peipei Li and Huaibo Huang and Zekun Li and Xing Cui and Jiahao Liang and Lixiong Qin and Weihong Deng and Zhaofeng He | (参考訳) マルチモーダルフェイクニュースの大量発生は、かなりの分布の相違を示し、一般化された検出器の必要性を招いた。
しかし、特定の領域における訓練の断続的な性質は、古典的検出器がオープンワールドの事実を得る能力を制限する。
本稿では,多岐にわたる知識を相補的に継承しながら,操作推論のための偽造特化知識を備えた大規模視覚言語モデル(lvlms)を補完する新しいフレームワークであるfakenewsgpt4を提案する。
FakeNewsGPT4の知識増強は、意味的相関とアーティファクトトレースの2種類のフォージェリー固有の知識を取得し、それらをLVLMにマージする。
具体的には,意味相関を抽出するためのモダリティ間のインタラクションを確立するマルチレベルクロスモーダル推論モジュールを設計する。
同時に、局所化された詳細を理解してアーティファクトトレースをエンコードするために、デュアルブランチの細粒度検証モジュールが提示される。
生成された知識は、LVLMと互換性のある洗練された埋め込みに変換される。
また,候補解答ヒューリスティックスとソフトプロンプトを取り入れ,入力情報性を高める。
FakeNewsGPT4は,従来の手法に比べてクロスドメイン性能が優れていることを示す。
コードは利用可能だ。 The massive generation of multimodal fake news exhibits substantial distribution discrepancies, prompting the need for generalized detectors. However, the insulated nature of training within specific domains restricts the capability of classical detectors to obtain open-world facts. In this paper, we propose FakeNewsGPT4, a novel framework that augments Large Vision-Language Models (LVLMs) with forgery-specific knowledge for manipulation reasoning while inheriting extensive world knowledge as complementary. Knowledge augmentation in FakeNewsGPT4 involves acquiring two types of forgery-specific knowledge, i.e., semantic correlation and artifact trace, and merging them into LVLMs. Specifically, we design a multi-level cross-modal reasoning module that establishes interactions across modalities for extracting semantic correlations. Concurrently, a dual-branch fine-grained verification module is presented to comprehend localized details to encode artifact traces. The generated knowledge is translated into refined embeddings compatible with LVLMs. We also incorporate candidate answer heuristics and soft prompts to enhance input informativeness. Extensive experiments on the public benchmark demonstrate that FakeNewsGPT4 achieves superior cross-domain performance compared to previous methods. Code will be available. | 翻訳日:2024-03-06 18:45:51 公開日:2024-03-04 |
# 低リソース言語用トランスフォーマー:Is F\'eidir Linn! Transformers for Low-Resource Languages:Is F\'eidir Linn! ( http://arxiv.org/abs/2403.01985v1 ) ライセンス: Link先を確認 | S\'eamus Lankford, Haithem Afli and Andy Way | (参考訳) Transformerモデルは機械翻訳における最先端技術である。
しかし、一般的には、神経翻訳モデルは訓練データ不足の言語ペアで実行されることが多い。
その結果、低リソース言語ペアでこのアーキテクチャを使用した実験は、比較的少ない。
本研究では,低リソースの英アイルランド語対の翻訳におけるトランスフォーマーモデルのハイパーパラメータ最適化を評価する。
適切なパラメータを選択するとパフォーマンスが大幅に向上することを示す。
最も重要なことは、サブワードモデルの正しい選択が翻訳性能の最大の原動力であることが示されている。
ユニグラムおよびBPEアプローチの両方を用いたSentencePieceモデルの評価を行った。
モデルアーキテクチャのバリエーションには、レイヤー数の変更、様々な正規化技法のテスト、注意のために最適なヘッド数の評価が含まれる。
ジェネリック55kDGTコーパスとインドメイン88kパブリック管理者コーパスを用いて評価を行った。
Transformer最適化モデルでは,ベースラインRNNモデルと比較してBLEUスコアが7.8ポイント向上した。
16kのBPEサブワードモデルを持つTransformer最適化モデルの編集作業が大幅に削減されたことを示し、TERを含む様々な指標で改善が見られた。
bench-marked against google translate では、翻訳エンジンが大幅に改善されました。
トランスフォーマーが英語-アイルランド語翻訳の低リソース設定で効果的に使用できるかどうかという問題は解決されている。
f\'eidir linn - はい、可能です。 The Transformer model is the state-of-the-art in Machine Translation. However, in general, neural translation models often under perform on language pairs with insufficient training data. As a consequence, relatively few experiments have been carried out using this architecture on low-resource language pairs. In this study, hyperparameter optimization of Transformer models in translating the low-resource English-Irish language pair is evaluated. We demonstrate that choosing appropriate parameters leads to considerable performance improvements. Most importantly, the correct choice of subword model is shown to be the biggest driver of translation performance. SentencePiece models using both unigram and BPE approaches were appraised. Variations on model architectures included modifying the number of layers, testing various regularisation techniques and evaluating the optimal number of heads for attention. A generic 55k DGT corpus and an in-domain 88k public admin corpus were used for evaluation. A Transformer optimized model demonstrated a BLEU score improvement of 7.8 points when compared with a baseline RNN model. Improvements were observed across a range of metrics, including TER, indicating a substantially reduced post editing effort for Transformer optimized models with 16k BPE subword models. Bench-marked against Google Translate, our translation engines demonstrated significant improvements. The question of whether or not Transformers can be used effectively in a low-resource setting of English-Irish translation has been addressed. Is f\'eidir linn - yes we can. | 翻訳日:2024-03-06 18:45:30 公開日:2024-03-04 |
# マルチモーダル脳腫瘍セグメンテーションのためのモダリティ認識とシフトミキサー Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation ( http://arxiv.org/abs/2403.02074v1 ) ライセンス: Link先を確認 | Zhongzhen Huang, Linda Wei, Shaoting Zhang, Xiaofan Zhang | (参考訳) マルチモダリティの画像の組み合わせは、コンピュータビジョン、特に医学領域における様々な情報探索に有用である。
臨床診断の必須部分であるマルチモーダル脳腫瘍分節は、複数のモダリティを含む悪性な実体を強調することを目的としている。
既存の手法では有意な性能を示したが,空間的・モダリティにおけるクロススケール表現とハイレベル表現の融合に関する情報交換は限られている。
本稿では,マルチモーダル画像のモダリティ内およびモダリティ間依存性を統合し,有効かつロバストな脳腫瘍分割を行う新しいモダリティ認識・シフトミキサーを提案する。
具体的には,低レベルのモザイク対関係をモデル化するためのニューロイメージング研究に基づいてModality-Awareモジュールを導入し,モザイクパターンを具体化したModality-Shiftモジュールを開発し,高レベルのモザイク間の複雑な関係を自己注意を通して探索する。
実験的に、公衆脳腫瘍セグメンテーション(BraTS 2021セグメンテーション)データセットにおける最先端のアプローチよりも優れている。
さらなる定性的実験はMASMの有効性と堅牢性を示す。 Combining images from multi-modalities is beneficial to explore various information in computer vision, especially in the medical domain. As an essential part of clinical diagnosis, multi-modal brain tumor segmentation aims to delineate the malignant entity involving multiple modalities. Although existing methods have shown remarkable performance in the task, the information exchange for cross-scale and high-level representations fusion in spatial and modality are limited in these methods. In this paper, we present a novel Modality Aware and Shift Mixer that integrates intra-modality and inter-modality dependencies of multi-modal images for effective and robust brain tumor segmentation. Specifically, we introduce a Modality-Aware module according to neuroimaging studies for modeling the specific modality pair relationships at low levels, and a Modality-Shift module with specific mosaic patterns is developed to explore the complex relationships across modalities at high levels via the self-attention. Experimentally, we outperform previous state-of-the-art approaches on the public Brain Tumor Segmentation (BraTS 2021 segmentation) dataset. Further qualitative experiments demonstrate the efficacy and robustness of MASM. | 翻訳日:2024-03-06 18:39:40 公開日:2024-03-04 |
# hyperpredict: 変形可能な画像登録におけるインスタンス固有正規化におけるハイパーパラメータ効果の推定 HyperPredict: Estimating Hyperparameter Effects for Instance-Specific Regularization in Deformable Image Registration ( http://arxiv.org/abs/2403.02069v1 ) ライセンス: Link先を確認 | Aisha L. Shuaibu, Ivor J. A. Simpson | (参考訳) 医用画像登録法は、画像類似度メトリックを最大化することにより、画像のペア/グループを整列する幾何学変換を推定する。
この問題は、いくつかの解が等価な可能性を持つ可能性があり、また、画像の類似性のために純粋に最適化することは、予測不可能な変換をもたらす。
これらの理由から、正規化項は有意義な登録結果を得るために必須である。
しかし、これは損失項間のトレードオフとなる少なくとも1つのハイパーパラメーターをしばしば {\lambda} と呼ぶ必要がある。
一部の状況では、推定変換の品質はハイパーパラメータの選択に大きく依存し、データの特徴によって異なる選択が必要となる。
これらのハイパーパラメータの効果を分析するにはラベル付きデータが必要である。
本稿では,ハイパーパラメータの影響を評価し,与えられた画像対に対して最適な値を選択する手法を提案する。
超予測(hyperpredict)と呼ぶアプローチでは,画像対を登録するための特定のハイパーパラメータを選択する効果を学習する多層パーセプトロンを実装し,結果として生じるセグメンテーション重複を予測し,変形の滑らかさを計測する。
このアプローチにより,ラベル付きデータを必要とすることなく,テスト時に最適なハイパーパラメータを選択できる。
さらに、最適なハイパーパラメータを定義するための基準は柔軟なトレーニング後であり、特定のプロパティを効率的に選択できる。
我々は,最近のディープラーニング手法(cLapIRN)とアルゴリズム手法(Niftyreg)を用いて,OASIS脳MRデータセット上で提案手法を評価する。
その結果, 正規化ハイパーパラメータの効果を予測し, ハイパーパラメータ選択に対するイメージペア固有のアプローチの利点を浮き彫りにした。 Methods for medical image registration infer geometric transformations that align pairs/groups of images by maximising an image similarity metric. This problem is ill-posed as several solutions may have equivalent likelihoods, also optimising purely for image similarity can yield implausible transformations. For these reasons regularization terms are essential to obtain meaningful registration results. However, this requires the introduction of at least one hyperparameter often termed {\lambda}, that serves as a tradeoff between loss terms. In some situations, the quality of the estimated transformation greatly depends on hyperparameter choice, and different choices may be required depending on the characteristics of the data. Analyzing the effect of these hyperparameters requires labelled data, which is not commonly available at test-time. In this paper, we propose a method for evaluating the influence of hyperparameters and subsequently selecting an optimal value for given image pairs. Our approach which we call HyperPredict, implements a Multi-Layer Perceptron that learns the effect of selecting particular hyperparameters for registering an image pair by predicting the resulting segmentation overlap and measure of deformation smoothness. This approach enables us to select optimal hyperparameters at test time without requiring labelled data, removing the need for a one-size-fits-all cross-validation approach. Furthermore, the criteria used to define optimal hyperparameter is flexible post-training, allowing us to efficiently choose specific properties. We evaluate our proposed method on the OASIS brain MR dataset using a recent deep learning approach(cLapIRN) and an algorithmic method(Niftyreg). Our results demonstrate good performance in predicting the effects of regularization hyperparameters and highlight the benefits of our image-pair specific approach to hyperparameter selection. | 翻訳日:2024-03-06 18:39:21 公開日:2024-03-04 |
# スパース入力ビューのための奥行き誘導ロバストと高速点雲融合NeRF Depth-Guided Robust and Fast Point Cloud Fusion NeRF for Sparse Input Views ( http://arxiv.org/abs/2403.02063v1 ) ライセンス: Link先を確認 | Shuai Guo, Qiuwen Wang, Yijie Gao, Rong Xie, Li Song | (参考訳) スパース入力ビューによる新しいビュー合成は、AR/VRや自動運転といった現実世界のアプリケーションにとって重要である。
近年の手法では、空間的および幾何学的理解に先立って深度を生かして、スパース入力合成のためのNeRFに深度情報を統合している。
しかし、既存の作品の多くは深度マップの不正確さを見逃しがちであり、時間効率は低い。
これらの問題に対処するため,スパース入力のための高密度で高速な雲融合NeRFを提案する。
我々は、特徴の明示的なボクセル格子として放射場を知覚する。
入力ビュー毎に点雲を構築し、行列とベクトルを用いてボクセルグリッド内で特徴付けられる。
各入力ビューのポイントクラウドを蓄積して、シーン全体の融合ポイントクラウドを構築します。
各ボクセルはシーン全体の点雲を参照してその密度と外観を決定する。
点雲融合とボクセルグリッド微細調整により、深度値の不正確さは、他の視点によって洗練または置換される。
さらに,効率的なベクトル行列分解により高速な再構成とコンパクト化を実現する。
実験結果は,最先端のベースラインと比較して優れた性能と時間効率を示す。 Novel-view synthesis with sparse input views is important for real-world applications like AR/VR and autonomous driving. Recent methods have integrated depth information into NeRFs for sparse input synthesis, leveraging depth prior for geometric and spatial understanding. However, most existing works tend to overlook inaccuracies within depth maps and have low time efficiency. To address these issues, we propose a depth-guided robust and fast point cloud fusion NeRF for sparse inputs. We perceive radiance fields as an explicit voxel grid of features. A point cloud is constructed for each input view, characterized within the voxel grid using matrices and vectors. We accumulate the point cloud of each input view to construct the fused point cloud of the entire scene. Each voxel determines its density and appearance by referring to the point cloud of the entire scene. Through point cloud fusion and voxel grid fine-tuning, inaccuracies in depth values are refined or substituted by those from other views. Moreover, our method can achieve faster reconstruction and greater compactness through effective vector-matrix decomposition. Experimental results underline the superior performance and time efficiency of our approach compared to state-of-the-art baselines. | 翻訳日:2024-03-06 18:38:50 公開日:2024-03-04 |
# 回転エネルギーの重ね合わせを伴う重力による絡み合い Gravitationally Mediated Entanglement with Superpositions of Rotational Energies ( http://arxiv.org/abs/2403.02062v1 ) ライセンス: Link先を確認 | Gerard Higgins, Andrea Di Biagio, Marios Christodoulou | (参考訳) 量子重力によって引き起こされる質量の絡み合い(QGEM)をテストするための実験的提案は、一般に空間的重畳状態にある2つの相互作用する質量を含む。
ここでは、回転状態の重ね合わせにおける2つの粒子からなるQGEM実験を提案し、これは質量-エネルギー等価性による質量の重ね合わせに相当する。
我々の提案は回転エネルギーが重力になるという事実に依存している。
このアプローチは、重ね合わせの時空を「電荷」の重ね合わせによってソーシングするため、重力に特有の特徴をテストする。
具体的な実験プロトコルを提案し,分析し,課題を議論する。 Experimental proposals for testing quantum gravity-induced entanglement of masses (QGEM) typically involve two interacting masses which are each in a spatial superposition state. Here, we propose a QGEM experiment with two particles which are each in a superposition of rotational states, this amounts to a superposition of mass through mass-energy equivalence. Our proposal relies on the fact that rotational energy gravitates. This approach would test a feature unique to gravity since it amounts to sourcing a spacetime in superposition due to a superposition of 'charge'. We propose and analyse a concrete experimental protocol and discuss challenges. | 翻訳日:2024-03-06 18:38:30 公開日:2024-03-04 |
# 地理空間基礎モデルを用いたマルチスペクトルリモートセンシング画像検索 Multi-Spectral Remote Sensing Image Retrieval Using Geospatial Foundation Models ( http://arxiv.org/abs/2403.02059v1 ) ライセンス: Link先を確認 | Benedikt Blumenstiel, Viktoria Moor, Romeo Kienzler, Thomas Brunschwiler | (参考訳) 画像検索は、大量の衛星画像を通して効率的な検索を可能にし、類似した画像をクエリーに返す。
ディープラーニングモデルは、アノテーションを必要とせずに、さまざまな意味概念にわたってイメージを識別できる。
この研究は、PrithviのようなGeospatial Foundation Modelsをリモートセンシング画像検索に利用することを提案する。
一 マルチスペクトル衛星データを符号化するモデル及び
二 更なる微調整なしに一般化すること。
prithviは6バンドを処理し、bigearthnet-43では97.62\%、forestnet-12では44.51\%の平均精度を達成し、他のrgbベースのモデルよりも優れています。
さらに,検索速度と精度のバランスを両立した組込みによる3つの圧縮手法を評価した。
これらは、浮動小数点埋め込みと同じ精度を維持しながら、より短いハッシュコードの検索速度と32倍の圧縮で一致した。
コードはhttps://github.com/ibm/remote-sensing-image-retrievalで入手できる。 Image retrieval enables an efficient search through vast amounts of satellite imagery and returns similar images to a query. Deep learning models can identify images across various semantic concepts without the need for annotations. This work proposes to use Geospatial Foundation Models, like Prithvi, for remote sensing image retrieval with multiple benefits: i) the models encode multi-spectral satellite data and ii) generalize without further fine-tuning. We introduce two datasets to the retrieval task and observe a strong performance: Prithvi processes six bands and achieves a mean Average Precision of 97.62\% on BigEarthNet-43 and 44.51\% on ForestNet-12, outperforming other RGB-based models. Further, we evaluate three compression methods with binarized embeddings balancing retrieval speed and accuracy. They match the retrieval speed of much shorter hash codes while maintaining the same accuracy as floating-point embeddings but with a 32-fold compression. The code is available at https://github.com/IBM/remote-sensing-image-retrieval. | 翻訳日:2024-03-06 18:38:20 公開日:2024-03-04 |
# 固定点量子探索の再検討 Revisiting fixed-point quantum search ( http://arxiv.org/abs/2403.02057v1 ) ライセンス: Link先を確認 | Guanzhong Li, Lvzhou Li | (参考訳) 二次的なスピードアップを維持しながら、サッフル問題を克服する固定点量子探索(Yoder, Low, Chuang, 2014)を概観する。
再帰的準チェビシェフ多項式の明示的な公式に関する補題の厳密な証明を与える。
この補題は固定点量子探索の正確性、あるいはより正確には閉形式角パラメータに不可欠であるが、その証明は元の論文に欠けている。 We review the fixed-point quantum search (Yoder, Low, and Chuang, 2014) that overcomes the souffle problem while maintaining quadratic speedups. We give a rigorous proof of the lemma regarding the explicit formula of recursive quasi-Chebyshev polynomials. This lemma is crucial to the correctness of the fixed-point quantum search, or more precisely the closed-form angle parameters therein, but its proof is missing in the original paper. | 翻訳日:2024-03-06 18:38:03 公開日:2024-03-04 |
# 大規模言語モデルに基づく進化的オプティマイザ:elithmによる推論 Large Language Model-Based Evolutionary Optimizer: Reasoning with elitism ( http://arxiv.org/abs/2403.02054v1 ) ライセンス: Link先を確認 | Shuvayan Brahmachary, Subodh M. Joshi, Aniruddha Panda, Kaushik Koneripalli, Arun Kumar Sagotra, Harshil Patel, Ankush Sharma, Ameya D. Jagtap, Kaushic Kalyanaraman | (参考訳) 大規模言語モデル(llm)は驚くべき推論能力を示し、ブラックボックスオプティマイザとしてアプリケーションへの関心を高めた。
本稿では,多目的および高次元問題を含む多様なシナリオにおいて,llmがゼロショット最適化の能力を有することを述べる。
本稿では,言語モデルに基づく進化最適化 (LEO) と呼ばれるLLMを用いた数値最適化手法を提案する。
本仮説は,超音速ノズル形状最適化,熱伝達,風洞配置最適化などの産業工学的問題とベンチマークの数値例を通じて支持される。
本手法を勾配ベースおよび勾配のない最適化手法と比較する。
LLMは最先端の手法に匹敵する結果をもたらすが、その想像的性質と幻覚的要求対応の妥当性は高い。
我々は,LCMから信頼性の高い回答を得るための実践的ガイドラインを提案し,手法の限界と潜在的研究の方向性について議論する。 Large Language Models (LLMs) have demonstrated remarkable reasoning abilities, prompting interest in their application as black-box optimizers. This paper asserts that LLMs possess the capability for zero-shot optimization across diverse scenarios, including multi-objective and high-dimensional problems. We introduce a novel population-based method for numerical optimization using LLMs called Language-Model-Based Evolutionary Optimizer (LEO). Our hypothesis is supported through numerical examples, spanning benchmark and industrial engineering problems such as supersonic nozzle shape optimization, heat transfer, and windfarm layout optimization. We compare our method to several gradient-based and gradient-free optimization approaches. While LLMs yield comparable results to state-of-the-art methods, their imaginative nature and propensity to hallucinate demand careful handling. We provide practical guidelines for obtaining reliable answers from LLMs and discuss method limitations and potential research directions. | 翻訳日:2024-03-06 18:37:55 公開日:2024-03-04 |
# エネルギー効率の良い運転行動と最先端AI手法のスコーピングレビュー A Scoping Review of Energy-Efficient Driving Behaviors and Applied State-of-the-Art AI Methods ( http://arxiv.org/abs/2403.02053v1 ) ライセンス: Link先を確認 | Zhipeng Ma, Bo N{\o}rregaard J{\o}rgensen, Zheng Ma | (参考訳) 輸送部門は温室効果ガスの排出に大きく貢献している。
エネルギー効率の高い運転行動の理解とエネルギー効率の高い運転戦略の利用は、自動車の燃料消費を減らすために不可欠である。
しかし、エネルギー効率の良い運転行動や戦略に関する包括的な調査は行われていない。
さらに、エコフレンドリーな運転スタイルの分析には最先端のAIモデルが数多く適用されているが、概観は得られていない。
このギャップを埋めるために、生態的な運転行動やスタイルに関する詳細な文献レビューを行い、エネルギー消費や最先端の手法に影響を及ぼす要因を分析した。
徹底的なスコーピングレビュープロセスでは、方法論および関連するデータを比較する。
その結果, 運転行動に影響を与える要因は, 速度, 加速度, 減速, ペダルなど11の特徴にまとめることができることがわかった。
本稿では,車両のエネルギー消費を多次元データでモデル化するために,教師なし・教師なし学習アルゴリズムと強化学習フレームワークが広く用いられていることを述べる。
さらに,本論文では,シミュレータや実世界の実験から運転データを収集し,実世界のデータは,主にメーター,コントローラエリアネットワーク,オンボードデータサービス,スマートフォン,車両に搭載されたセンサによって格納・送信されている。
運転行動要因,運転特性,安全ルールに基づいて,運転者の選択・調整のための4つのガイドライン,異なる運転シナリオにおけるエネルギー効率の高い運転スタイルに関する3つの勧告,異なる種類の運転者および雇用主に対する2つの主観的提案を含む,エネルギー効率の高い運転スタイルを推奨する。 The transportation sector remains a major contributor to greenhouse gas emissions. The understanding of energy-efficient driving behaviors and utilization of energy-efficient driving strategies are essential to reduce vehicles' fuel consumption. However, there is no comprehensive investigation into energy-efficient driving behaviors and strategies. Furthermore, many state-of-the-art AI models have been applied for the analysis of eco-friendly driving styles, but no overview is available. To fill the gap, this paper conducts a thorough literature review on ecological driving behaviors and styles and analyzes the driving factors influencing energy consumption and state-of-the-art methodologies. With a thorough scoping review process, the methodological and related data are compared. The results show that the factors that impact driving behaviors can be summarized into eleven features including speed, acceleration, deceleration, pedal, and so on. This paper finds that supervised/unsupervised learning algorithms and reinforcement learning frameworks have been popularly used to model the vehicle's energy consumption with multi-dimensional data. Furthermore, the literature shows that the driving data are collected from either simulators or real-world experiments, and the real-world data are mainly stored and transmitted by meters, controller area networks, onboard data services, smartphones, and additional sensors installed in the vehicle. Based on driving behavior factors, driver characteristics, and safety rules, this paper recommends nine energy-efficient driving styles including four guidelines for the drivers' selection and adjustment of the vehicle parameters, three recommendations for the energy-efficient driving styles in different driving scenarios, and two subjective suggestions for different types of drivers and employers. | 翻訳日:2024-03-06 18:37:40 公開日:2024-03-04 |
# 重心動揺下でのノイズ(S)GDの差分プライバシー Differential Privacy of Noisy (S)GD under Heavy-Tailed Perturbations ( http://arxiv.org/abs/2403.02051v1 ) ライセンス: Link先を確認 | Umut \c{S}im\c{s}ekli, Mert G\"urb\"uzbalaban, Sinan Y{\i}ld{\i}r{\i}m, Lingjiong Zhu | (参考訳) 確率勾配降下 (SGD) の反復音に対する重尾雑音の注入は, ここ数年, 注目されている。
得られたアルゴリズムの様々な理論的特性は、主に学習理論と最適化の観点から分析されてきたが、そのプライバシー保護性はまだ確立されていない。
このギャップを埋めるため、ノイズを注入したノイズが$\alpha$-stable分布に従うとき、ガウス分布と同様に(無限に分散した)重み付き分布のスペクトルを含む差分プライバシー (dp) を提供する。
例えば、$(\epsilon, \delta)$-DPフレームワークを考えると、データポイント数として$n$が非凸の広い損失関数のクラスに対して$(0, \tilde{\mathcal{O}}(1/n))$-DPを達成することを示す。
特筆すべき副産物として, 勾配の有界感度やイテレートのクリッピングを必要とする先行研究とは対照的に, 軽度の仮定の下では, このような投影ステップは実際には必要ではないことを明らかにする。
重み付きノージング機構はガウス型の場合と比較して同様のdp保証を実現しており、軽量なノージング機構の代替案である可能性が示唆されている。 Injecting heavy-tailed noise to the iterates of stochastic gradient descent (SGD) has received increasing attention over the past few years. While various theoretical properties of the resulting algorithm have been analyzed mainly from learning theory and optimization perspectives, their privacy preservation properties have not yet been established. Aiming to bridge this gap, we provide differential privacy (DP) guarantees for noisy SGD, when the injected noise follows an $\alpha$-stable distribution, which includes a spectrum of heavy-tailed distributions (with infinite variance) as well as the Gaussian distribution. Considering the $(\epsilon, \delta)$-DP framework, we show that SGD with heavy-tailed perturbations achieves $(0, \tilde{\mathcal{O}}(1/n))$-DP for a broad class of loss functions which can be non-convex, where $n$ is the number of data points. As a remarkable byproduct, contrary to prior work that necessitates bounded sensitivity for the gradients or clipping the iterates, our theory reveals that under mild assumptions, such a projection step is not actually necessary. We illustrate that the heavy-tailed noising mechanism achieves similar DP guarantees compared to the Gaussian case, which suggests that it can be a viable alternative to its light-tailed counterparts. | 翻訳日:2024-03-06 18:37:12 公開日:2024-03-04 |
# クライントンネルの正確な周期軌道量子化:理論と実験 Exact periodic-orbit quantization of Klein tunneling: theory and experiment ( http://arxiv.org/abs/2403.02047v1 ) ライセンス: Link先を確認 | Xiao-Zhen Peng, Rui-Jie Zhang, Rui-Hua Ni, Ri-Zhen Yang, Yong-Yin Hu, Hong-Ya Xu, and Liang Huang | (参考訳) 相対論的量子力学における特異な効果であるクライントンネルは、量子-古典的対応に顕著な挑戦をもたらす。
我々は散乱行列フレームワークに基づいて、ステップポテンシャルを持つ有界ディラック系に対するクライントンネルの正確な周期軌道量子化を確立する。
これは、古典的に禁じられた障壁内の非退化伝播を説明するために、ニュートンの異なる軌道であるクライン軌道の族に大きく依存している。
明確なスペクトルカウント関数とクライントンネルに基づく補正によるワイル公式の閉形式が導出される。
理論的知見はマイクロ波アナログ実験によって裏付けられる。
測定された量子化レベルと対応するクライントンネル状態は、境界ディラック系において最初のクライントンネル状態の観測を提供する。 Klein tunneling, a peculiar effect in relativistic quantum mechanics, poses an outstanding challenge to the quantum-classical correspondence. We establish, based on the scattering matrix framework, an exact periodic-orbit quantization of Klein tunneling for bounded Dirac systems with a step potential. It relies heavily on a family of distinct non-Newtonian orbits, the Klein orbits, to account for the non-decaying propagation inside the classically forbidden barrier. An explicit spectral counting function and a closed form of the Weyl formula with Klein tunneling based corrections are derived. The theoretical findings are supported by microwave analog experiments. The measured quantized levels and corresponding Klein tunneling states provide the first observation of Klein tunneling in bounded Dirac systems. | 翻訳日:2024-03-06 18:36:47 公開日:2024-03-04 |
# 組合せ最適化問題に対する再帰的量子緩和 Recursive Quantum Relaxation for Combinatorial Optimization Problems ( http://arxiv.org/abs/2403.02045v1 ) ライセンス: Link先を確認 | Ruho Kondo, Yuki Sato, Rudy Raymond, Naoki Yamamoto | (参考訳) 量子最適化法は、量子状態の連続的な自由度を用いて、様々なnp-ハードコンビネート問題に起因するマックスカット問題のような組合せ問題をヒューリスティックに解く。
本稿では,既存の量子最適化手法のいくつかを解法に統一し,最適量子状態から推定される2値解を求めることができることを示す。
この発見と、より少ない量子ビット上の量子状態にビットを符号化する量子ランダムアクセス符号(QRAC)の概念を組み合わせることで、MAX-CUTのための再帰的量子ランダムアクセス最適化(RQRAO)と呼ばれる効率的な再帰的量子緩和法を提案する。
テンソルネットワーク技術を用いたMAX-CUT問題における数百ノードの標準ベンチマークグラフの実験は、RQRAOがゴーマン-ウィリアムソン法より優れ、最先端の古典的解法に匹敵することを示した。
コードはもうすぐ利用可能になる。 Quantum optimization methods use a continuous degree-of-freedom of quantum states to heuristically solve combinatorial problems, such as the MAX-CUT problem, which can be attributed to various NP-hard combinatorial problems. This paper shows that some existing quantum optimization methods can be unified into a solver that finds the binary solution that is most likely measured from the optimal quantum state. Combining this finding with the concept of quantum random access codes (QRACs) for encoding bits into quantum states on fewer qubits, we propose an efficient recursive quantum relaxation method called recursive quantum random access optimization (RQRAO) for MAX-CUT. Experiments on standard benchmark graphs with several hundred nodes in the MAX-CUT problem, conducted in a fully classical manner using a tensor network technique, show that RQRAO outperforms the Goemans--Williamson method and is comparable to state-of-the-art classical solvers. The codes will be made available soon. | 翻訳日:2024-03-06 18:36:36 公開日:2024-03-04 |
# 4次元幾何学的キューを用いた繰り返し閉塞光深度推定 Iterative Occlusion-Aware Light Field Depth Estimation using 4D Geometrical Cues ( http://arxiv.org/abs/2403.02043v1 ) ライセンス: Link先を確認 | Rui Louren\c{c}o, Lucas Thomaz, Eduardo A. B. Silva, Sergio M. M. Faria | (参考訳) 光フィールドカメラとマルチカメラアレイは、受動的に光情報を捉えて深度を正確に推定するための有望なソリューションとして登場した。
これは、シーンの3d情報は4dライトフィールド幾何に埋め込まれているため可能である。
一般に、深度推定法は勾配情報、ヒューリスティックに基づく最適化モデル、学習に基づくアプローチに依存する。
本稿では,光深度推定のための4次元幾何学的手がかりを明確に理解し,活用することに焦点を当てる。
そこで,光場の完全説明可能な4次元幾何モデルを用いて表面正規精度と閉塞領域を明確に考慮した,非学習に基づく深度推定のための最適化手法を提案する。
4次元光場における3次元空間点の画像である4次元空間におけるキー2次元平面の交点の向きを決定し,解析することにより,深度/分散度推定を行う。
実験結果から,提案手法は,平面面上のメディアアングル誤差を平均26.3倍の値で達成し,平均正方形誤差$\vc{\times}=100およびBadpix 0.07の値において,学習ベースおよび非学習ベースの最先端手法よりも優れていた。 Light field cameras and multi-camera arrays have emerged as promising solutions for accurately estimating depth by passively capturing light information. This is possible because the 3D information of a scene is embedded in the 4D light field geometry. Commonly, depth estimation methods extract this information relying on gradient information, heuristic-based optimisation models, or learning-based approaches. This paper focuses mainly on explicitly understanding and exploiting 4D geometrical cues for light field depth estimation. Thus, a novel method is proposed, based on a non-learning-based optimisation approach for depth estimation that explicitly considers surface normal accuracy and occlusion regions by utilising a fully explainable 4D geometric model of the light field. The 4D model performs depth/disparity estimation by determining the orientations and analysing the intersections of key 2D planes in 4D space, which are the images of 3D-space points in the 4D light field. Experimental results show that the proposed method outperforms both learning-based and non-learning-based state-of-the-art methods in terms of surface normal angle accuracy, achieving a Median Angle Error on planar surfaces, on average, 26.3\% lower than the state-of-the-art, and still being competitive with state-of-the-art methods in terms of Mean Squared Error $\vc{\times}$ 100 and Badpix 0.07. | 翻訳日:2024-03-06 18:36:16 公開日:2024-03-04 |
# 調整損失関数による制約獲得のためのディープニューラルネットワーク Deep Neural Network for Constraint Acquisition through Tailored Loss Function ( http://arxiv.org/abs/2403.02042v1 ) ライセンス: Link先を確認 | Eduardo Vyhmeister, Rocio Paez, Gabriel Gonzalez | (参考訳) データから制約を学習することの重要性は、現実世界の問題解決における潜在的な応用によって強調されている。
制約はモデリングや問題解決に人気があるが、データから制約を学習するアプローチは依然として比較的少ない。
さらに、モデリングの複雑なタスクは専門知識を必要とし、エラーを起こしやすいため、制約取得手法は、ソリューションや非ソリューションの例や振る舞いから学んだ制約を通じて、このプロセスを自動化してソリューションを提供する。
この研究は、シンボル回帰に基づくDeep Neural Network(DNN)に基づく新しいアプローチを導入し、適切な損失関数を設定することにより、データセットから直接制約を抽出できる。
本手法により制約の直接定式化が可能となった。
さらに、DNNの幅広い事前開発アーキテクチャと機能を考えると、他のフレームワークとの接続や拡張は予見できる。 The significance of learning constraints from data is underscored by its potential applications in real-world problem-solving. While constraints are popular for modeling and solving, the approaches to learning constraints from data remain relatively scarce. Furthermore, the intricate task of modeling demands expertise and is prone to errors, thus constraint acquisition methods offer a solution by automating this process through learnt constraints from examples or behaviours of solutions and non-solutions. This work introduces a novel approach grounded in Deep Neural Network (DNN) based on Symbolic Regression that, by setting suitable loss functions, constraints can be extracted directly from datasets. Using the present approach, direct formulation of constraints was achieved. Furthermore, given the broad pre-developed architectures and functionalities of DNN, connections and extensions with other frameworks could be foreseen. | 翻訳日:2024-03-06 18:35:40 公開日:2024-03-04 |
# ウィキペディア規模のビジュアルエンティティ認識のための生成的アプローチ A Generative Approach for Wikipedia-Scale Visual Entity Recognition ( http://arxiv.org/abs/2403.02041v1 ) ライセンス: Link先を確認 | Mathilde Caron, Ahmet Iscen, Alireza Fathi, Cordelia Schmid | (参考訳) 本稿では,Webスケールのビジュアルエンティティ認識,特にクエリイメージをウィキペディアに存在する600万の既存エンティティの1つにマッピングするタスクに対処する。
このようなスケールの問題にアプローチする方法の1つはデュアルエンコーダモデル(eg CLIP)を使用することで、すべてのエンティティ名とクエリイメージが統一された空間に埋め込まれ、近似k-NN探索の道を開く。
あるいは、キャプションモデルを再利用して、与えられた画像のエンティティ名を直接生成することもできる。
これとは対照的に,入力画像が与えられた場合,対象エンティティを識別する意味的かつ判別的な ‘コード' を自動復号化することを学ぶ,新たな生成エンティティ認識(ger)フレームワークを導入する。
我々は,このGERパラダイムの有効性を実証し,挑戦的なOVENベンチマークにおける最先端性能を示す。
gerは強力なキャプション、デュアルエンコーダ、視覚的マッチング、階層的分類基準を上回っており、webスケール認識の複雑さに取り組む上での利点を証明している。 In this paper, we address web-scale visual entity recognition, specifically the task of mapping a given query image to one of the 6 million existing entities in Wikipedia. One way of approaching a problem of such scale is using dual-encoder models (eg CLIP), where all the entity names and query images are embedded into a unified space, paving the way for an approximate k-NN search. Alternatively, it is also possible to re-purpose a captioning model to directly generate the entity names for a given image. In contrast, we introduce a novel Generative Entity Recognition (GER) framework, which given an input image learns to auto-regressively decode a semantic and discriminative ``code'' identifying the target entity. Our experiments demonstrate the efficacy of this GER paradigm, showcasing state-of-the-art performance on the challenging OVEN benchmark. GER surpasses strong captioning, dual-encoder, visual matching and hierarchical classification baselines, affirming its advantage in tackling the complexities of web-scale recognition. | 翻訳日:2024-03-06 18:35:26 公開日:2024-03-04 |
# 自律運転のためのスケーラブルビジョンに基づく3次元物体検出と単眼深度推定 Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation for Autonomous Driving ( http://arxiv.org/abs/2403.02037v1 ) ライセンス: Link先を確認 | Yuxuan Liu | (参考訳) この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1セグメントでは、論文はモノクロとステレオの3dオブジェクト検出アルゴリズムの両方に構造的な拡張を導入する。
本研究は,単眼3次元検出のためのベンチマーク評価において,地上参照幾何事前値を単眼検出モデルに統合することにより,非並列精度を実現する。
同時に、単眼ネットワークから得られた洞察と推論構造を取り入れ、ステレオ検出システムの運用効率を高めることにより、ステレオ3次元検出パラダイムを洗練する。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
アマルガメートに2Dまたは3Dラベルを付加したアマルガメートデータセットが導入された。
このアプローチは、大幅に拡張されたデータセットを利用することで検出モデルを増強するだけでなく、2Dアノテーションしか利用できない現実のシナリオにおける経済的モデル展開を促進する。
最後に、この論文は自律運転環境における教師なし深度推定に適した革新的なパイプラインを提示する。
広範な実証分析により,新たに提案するパイプラインのロバスト性と有効性が確認された。
これらの貢献は、視覚ベースの3d知覚技術を自動運転アプリケーションで広く採用するための強固な基盤となっている。 This dissertation is a multifaceted contribution to the advancement of vision-based 3D perception technologies. In the first segment, the thesis introduces structural enhancements to both monocular and stereo 3D object detection algorithms. By integrating ground-referenced geometric priors into monocular detection models, this research achieves unparalleled accuracy in benchmark evaluations for monocular 3D detection. Concurrently, the work refines stereo 3D detection paradigms by incorporating insights and inferential structures gleaned from monocular networks, thereby augmenting the operational efficiency of stereo detection systems. The second segment is devoted to data-driven strategies and their real-world applications in 3D vision detection. A novel training regimen is introduced that amalgamates datasets annotated with either 2D or 3D labels. This approach not only augments the detection models through the utilization of a substantially expanded dataset but also facilitates economical model deployment in real-world scenarios where only 2D annotations are readily available. Lastly, the dissertation presents an innovative pipeline tailored for unsupervised depth estimation in autonomous driving contexts. Extensive empirical analyses affirm the robustness and efficacy of this newly proposed pipeline. Collectively, these contributions lay a robust foundation for the widespread adoption of vision-based 3D perception technologies in autonomous driving applications. | 翻訳日:2024-03-06 18:35:08 公開日:2024-03-04 |
# 位置用紙:テキスト対画像モデルの暗黙的プロンプトに向けて Position Paper: Towards Implicit Prompt For Text-To-Image Models ( http://arxiv.org/abs/2403.02118v1 ) ライセンス: Link先を確認 | Yue Yang, Yuqi lin, Hong Liu, Wenqi Shao, Runjian Chen, Hailong Shang, Yu Wang, Yu Qiao, Kaipeng Zhang, Ping Luo | (参考訳) 最近のテキスト・ツー・イメージ(T2I)モデルは大きな成功を収め、その性能と安全性を評価するために多くのベンチマークが提案されている。
しかし、明示的なプロンプトのみを考慮し、暗黙的なプロンプトを無視する(明示的に言及せずにターゲットに隠れる)。
これらのプロンプトは安全性の制約を排除し、これらのモデルの応用に潜在的な脅威をもたらす可能性がある。
本稿では,T2Iモデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、一般的なT2Iモデルを用いた暗黙的なプロンプトの性能と影響について調査する。
具体的には、一般シンボル、セレブプライバシ、Not-Safe-For-Work(NSFW)問題という3つの側面の2000以上の暗黙的なプロンプトを設計し、収集し、これらの暗黙的なプロンプトの下で6つのよく知られたT2Iモデルの能力を評価する。
実験結果から,(1)T2Iモデルが暗黙のプロンプトによって示される様々なターゲットシンボルを正確に生成できること,(2)暗黙のプロンプトがT2Iモデルのプライバシー漏洩の潜在的なリスクをもたらすことが示唆された。
(3) 評価されたほとんどのT2IモデルにおけるNSFWの制約は暗黙のプロンプトでバイパスすることができる。
我々は,t2iコミュニティにおける暗黙のプロンプトの可能性とリスクに対する注意の高まりと,暗黙のプロンプトの能力と影響に関するさらなる調査を求め,そのリスクを緩和しながらそのメリットを活用するバランスのとれたアプローチを提唱する。 Recent text-to-image (T2I) models have had great success, and many benchmarks have been proposed to evaluate their performance and safety. However, they only consider explicit prompts while neglecting implicit prompts (hint at a target without explicitly mentioning it). These prompts may get rid of safety constraints and pose potential threats to the applications of these models. This position paper highlights the current state of T2I models toward implicit prompts. We present a benchmark named ImplicitBench and conduct an investigation on the performance and impacts of implicit prompts with popular T2I models. Specifically, we design and collect more than 2,000 implicit prompts of three aspects: General Symbols, Celebrity Privacy, and Not-Safe-For-Work (NSFW) Issues, and evaluate six well-known T2I models' capabilities under these implicit prompts. Experiment results show that (1) T2I models are able to accurately create various target symbols indicated by implicit prompts; (2) Implicit prompts bring potential risks of privacy leakage for T2I models. (3) Constraints of NSFW in most of the evaluated T2I models can be bypassed with implicit prompts. We call for increased attention to the potential and risks of implicit prompts in the T2I community and further investigation into the capabilities and impacts of implicit prompts, advocating for a balanced approach that harnesses their benefits while mitigating their risks. | 翻訳日:2024-03-06 18:29:18 公開日:2024-03-04 |
# inf2guard: 推論攻撃に対するプライバシー保護表現を学ぶための情報理論フレームワーク Inf2Guard: An Information-Theoretic Framework for Learning Privacy-Preserving Representations against Inference Attacks ( http://arxiv.org/abs/2403.02116v1 ) ライセンス: Link先を確認 | Sayedeh Leila Noorbakhsh, Binghui Zhang, Yuan Hong, Binghui Wang | (参考訳) 機械学習(ML)は、トレーニングデータやデータセットのプライベート情報を推論することを目的とした推論(例えば、メンバシップ推論、プロパティ推論、データ再構成)に対して脆弱である。
既存の防御は、特定の種類の攻撃のためにのみ設計され、重要なユーティリティを犠牲にするか、適応攻撃によってすぐに破壊される。
我々は,inf2guardと呼ばれる情報理論的防御フレームワークを,主要な3種類の推論攻撃に対して提案することにより,これらの制限に対処する。
私たちのフレームワークは表現学習の成功に触発され、共有表現の学習は時間とコストを節約するだけでなく、多くの下流タスクに役立つと仮定しています。
一般的に、Inf2Guardはプライバシー保護とユーティリティ保護の2つの相互情報目的を含んでいる。
inf2guardは、特定の推論攻撃に対するカスタマイズされた目標の設計を容易にすること、特定の既存の防御を特別なケースとして扱うための一般的な防御フレームワークを提供すること、そして最も重要なことは、固有のユーティリティプライバシートレードオフやプライバシリークの保証など、理論的結果の導出を支援することである。
Inf2Guardは、推論攻撃に対するプライバシー保護表現を学習し、ベースラインよりも優れていることを示す。 Machine learning (ML) is vulnerable to inference (e.g., membership inference, property inference, and data reconstruction) attacks that aim to infer the private information of training data or dataset. Existing defenses are only designed for one specific type of attack and sacrifice significant utility or are soon broken by adaptive attacks. We address these limitations by proposing an information-theoretic defense framework, called Inf2Guard, against the three major types of inference attacks. Our framework, inspired by the success of representation learning, posits that learning shared representations not only saves time/costs but also benefits numerous downstream tasks. Generally, Inf2Guard involves two mutual information objectives, for privacy protection and utility preservation, respectively. Inf2Guard exhibits many merits: it facilitates the design of customized objectives against the specific inference attack; it provides a general defense framework which can treat certain existing defenses as special cases; and importantly, it aids in deriving theoretical results, e.g., inherent utility-privacy tradeoff and guaranteed privacy leakage. Extensive evaluations validate the effectiveness of Inf2Guard for learning privacy-preserving representations against inference attacks and demonstrate the superiority over the baselines. | 翻訳日:2024-03-06 18:28:51 公開日:2024-03-04 |
# ダイヤモンド中の核スピンクラスターの多次元分光 Multidimensional spectroscopy of nuclear spin clusters in diamond ( http://arxiv.org/abs/2403.02114v1 ) ライセンス: Link先を確認 | Konstantin Herb and Takuya F. Segawa and Laura A. V\"olker and John M. Abendroth and Erika Janitz and Tianqi Zhu and Christian L. Degen | (参考訳) 固体中の光学活性スピン欠陥は、高い感度と原子サイト分解能を持つ核スピンクラスターを調査する有望なプラットフォームを提供する。
核磁気共鳴(nmr)を用いた分子構造解析に近地欠陥を利用するには、核環境の分光学的解析のさらなる進歩が不可欠である。
ここでは、室温での個々の浅い窒素空孔中心の核スピン環境において、テストベッドである^{13}\mathrm{C}$の局在とマッピングを改善するためのフーリエ分光法について報告する。
従来のNMRからよく知られた多次元分光法と単一核スピンの偏差の弱い測定法を併用する。
多次元NMRの2つの例を示す。
(i)スペクトル次元に沿った2つの超微粒子の分離符号化による核スピン局在化の改善
(II)核-スピン対のスペクトル編集(核間結合定数の測定を含む)
本研究は単一スピンプローブによる分子構造の分光分析のための重要なツールである。 Optically active spin defects in solids offer promising platforms to investigate nuclear spin clusters with high sensitivity and atomic-site resolution. To leverage near-surface defects for molecular structure analysis in chemical and biological contexts using nuclear magnetic resonance (NMR), further advances in spectroscopic characterization of nuclear environments are essential. Here, we report Fourier spectroscopy techniques to improve localization and mapping of the testbed $^{13}\mathrm{C}$ nuclear spin environment of individual, shallow nitrogen-vacancy centers at room temperature. We use multidimensional spectroscopy, well-known from classical NMR, in combination with weak measurements of single-nuclear-spin precession. We demonstrate two examples of multidimensional NMR: (i) improved nuclear spin localization by separate encoding of the two hyperfine components along spectral dimensions and (ii) spectral editing of nuclear-spin pairs, including measurement of internuclear coupling constants. Our work adds important tools for the spectroscopic analysis of molecular structures by single-spin probes. | 翻訳日:2024-03-06 18:28:28 公開日:2024-03-04 |
# 笑顔と笑いの検出に関する新しい視点--強度レベルは重要か A New Perspective on Smiling and Laughter Detection: Intensity Levels Matter ( http://arxiv.org/abs/2403.02112v1 ) ライセンス: Link先を確認 | Hugo Bohy, Kevin El Haddad and Thierry Dutoit | (参考訳) 過去10年間、スマイルと笑い検出システムは人間とエージェントのインタラクションシステムの改善に多くの注目を集めてきた。
しかし、これらの表現を区別していると考える者はごくわずかであるが、先行研究によってそれらが同じカテゴリーに属するか否かが明確に証明されていない。
本研究では,深層学習に基づくマルチモーダルスマイルと笑いの分類システムを提案する。
音声と視覚に基づくモデルの使用と融合アプローチの比較を行った。
予想通り、融合は目に見えないデータに対してより良い一般化をもたらすことを示す。
また,笑顔と笑いの強さレベルにおけるモデル行動の詳細な分析を行った。
強度レベルの分析では、笑顔と笑いの関係は二進法ほど単純ではないか、あるいは一つのカテゴリーにグループ化してもよいため、それを扱う際にはより複雑なアプローチをとる必要がある。
また, 伝達学習により, モデルが混乱した強度レベルの検出を改善できることを示すことで, 限られた資源の問題にも対処した。 Smiles and laughs detection systems have attracted a lot of attention in the past decade contributing to the improvement of human-agent interaction systems. But very few considered these expressions as distinct, although no prior work clearly proves them to belong to the same category or not. In this work, we present a deep learning-based multimodal smile and laugh classification system, considering them as two different entities. We compare the use of audio and vision-based models as well as a fusion approach. We show that, as expected, the fusion leads to a better generalization on unseen data. We also present an in-depth analysis of the behavior of these models on the smiles and laughs intensity levels. The analyses on the intensity levels show that the relationship between smiles and laughs might not be as simple as a binary one or even grouping them in a single category, and so, a more complex approach should be taken when dealing with them. We also tackle the problem of limited resources by showing that transfer learning allows the models to improve the detection of confusing intensity levels. | 翻訳日:2024-03-06 18:28:15 公開日:2024-03-04 |
# 量子状態部分集合の列挙による制限位相上の対角作用素分解 Diagonal operator decomposition on restricted topologies via enumeration of quantum state subsets ( http://arxiv.org/abs/2403.02109v1 ) ライセンス: Link先を確認 | Jan Tu{\l}owiecki, {\L}ukasz Czerwi\'nski, Konrad Deka, Jan Gwinner, Witold Jarnicki, Adam Szady | (参考訳) 様々な量子アルゴリズムは任意の対角作用素をサブルーチンとして使う必要がある。
物理ハードウェア上での実行には、これらのオペレータを最初にターゲットデバイスのネイティブゲートセットとキュービット接続に分解してゲートを絡める必要がある。
ここで、許容ゲートはちょうどcxゲートとパラメータ化された位相ゲートであると仮定する。
我々は、CXのみの回路の解析のためのフレームワークを導入し、そのレンズを通して、いくつかの異なるデバイストポロジー(完全連結、線形および円)のソリューション構成を提供する。
また、この問題の2つの変種も導入する。
これらの変種は、それに続く回路が前提条件を満たす場合に対角演算子の正確な分解の代わりに使用することができ、実装のcxコストをさらに削減することができる。
最後に、一般の対角作用素ではなく、特定の分解のためにフレームワークを利用する方法について議論する。 Various quantum algorithms require usage of arbitrary diagonal operators as subroutines. For their execution on a physical hardware, those operators must be first decomposed into target device's native gateset and its qubit connectivity for entangling gates. Here, we assume that the allowed gates are exactly the CX gate and the parameterized phase gate. We introduce a framework for the analysis of CX-only circuits and through its lens provide solution constructions for several different device topologies (fully-connected, linear and circular). We also introduce two additional variants of the problem. Those variants can be used in place of exact decomposition of the diagonal operator when the circuit following it satisfies a set of prerequisites, enabling further reduction in the CX cost of implementation. Finally, we discuss how to exploit the framework for the decomposition of a particular, rather than general, diagonal operator. | 翻訳日:2024-03-06 18:27:59 公開日:2024-03-04 |
# 反復$Q$-Network: 1ステップのベルマン演算子を超えて Iterated $Q$-Network: Beyond the One-Step Bellman Operator ( http://arxiv.org/abs/2403.02107v1 ) ライセンス: Link先を確認 | Th\'eo Vincent, Daniel Palenicek, Boris Belousov, Jan Peters, Carlo D'Eramo | (参考訳) 値に基づく強化学習(RL)手法は、サンプルから近似する必要があるベルマン演算子の応用に依存している。
ほとんどのアプローチは、ベルマン作用素の応用を交互に繰り返す反復スキームと、それに続く関数空間への射影ステップからなる。
しかし,ベルマン演算子の複数イテレーションを一度に検討することで,これらのアルゴリズムを改良することができる。
そこで本研究では,連続するベルマン反復の連鎖において,各$Q$-関数が次の目標となるような,$Q$-関数近似の列を学習する新しいアプローチである,反復$Q$-Networks (iQN)を紹介した。
iqnは理論的に健全であり,価値ベースおよびアクタクリティカルな方法でシームレスに使用できることを示す。
Atari 2600ドルのゲームや、MuJoCo環境における利点を実証的に実証した。 Value-based Reinforcement Learning (RL) methods rely on the application of the Bellman operator, which needs to be approximated from samples. Most approaches consist of an iterative scheme alternating the application of the Bellman operator and a subsequent projection step onto a considered function space. However, we observe that these algorithms can be improved by considering multiple iterations of the Bellman operator at once. Thus, we introduce iterated $Q$-Networks (iQN), a novel approach that learns a sequence of $Q$-function approximations where each $Q$-function serves as the target for the next one in a chain of consecutive Bellman iterations. We demonstrate that iQN is theoretically sound and show how it can be seamlessly used in value-based and actor-critic methods. We empirically demonstrate its advantages on Atari $2600$ games and in continuous-control MuJoCo environments. | 翻訳日:2024-03-06 18:27:44 公開日:2024-03-04 |
# 検証可能な拡張型量子コンパイラの必要性について On the Need for Extensible Quantum Compilers with Verification ( http://arxiv.org/abs/2403.02091v1 ) ライセンス: Link先を確認 | Tyler LeBlond, Xiao Xiao, Eugene Dumitrescu, Ryan Bennink, Alexandru Paler | (参考訳) 本稿では,エネルギー省(doe)が出資するオープンソースの量子コンパイルプラットフォームが,その促進に必要であることを示す。
(a) 量子コンピューティングソフトウェアスタックのフォールトトレラント層におけるリソース最適化
(b)スタックのそのレイヤを他のレイヤと共同設計し、このプラットフォームは拡張可能で検証を含む必要がある。 In this position paper, we posit that a major Department of Energy (DOE)-funded open-source quantum compilation platform is needed to facilitate: (a) resource optimization at the fault-tolerant layer of the quantum computing software stack, and (b) co-design of that layer of the stack with other layers, and that this platform needs to be extensible and include verification. | 翻訳日:2024-03-06 18:27:26 公開日:2024-03-04 |
# マルチモーダルな社会的相互作用のモデリング : 厳密な表現による新しい課題とベースライン Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations ( http://arxiv.org/abs/2403.02090v1 ) ライセンス: Link先を確認 | Sangmin Lee, Bolin Lai, Fiona Ryan, Bikram Boote, James M. Rehg | (参考訳) 言語的および非言語的手がかりを含む社会的相互作用を理解することは、社会的状況の効果的解釈に不可欠である。
しかし、それまでのマルチモーダルな社会的手がかりに関する研究は、主に個人の行動に焦点をあてたり、多人数環境における発話と密に一致しない全体的視覚表現に頼っていた。
それらは多人数間相互作用の複雑なダイナミクスのモデル化に制限がある。
本稿では,複数人間のきめ細かなダイナミクスをモデル化するための課題として,発話目標識別,代名詞コーリファレンス解決,言及されたプレーヤ予測の3つの課題について紹介する。
我々は、ソーシャル推論ゲーム設定におけるこれらの新たな課題をキュレートするために、広範なデータアノテーションに貢献している。
さらに、視覚特徴と対応する発話を同期させることにより、密集した言語視覚表現を活用できる、新しいマルチモーダルベースラインを提案する。
これにより、社会的推論に関連する言語的および非言語的手がかりの同時捕獲が容易になる。
社会的相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を示す実験を行った。
さらなる研究を促進するため、ベンチマークとソースコードをリリースします。 Understanding social interactions involving both verbal and non-verbal cues is essential to effectively interpret social situations. However, most prior works on multimodal social cues focus predominantly on single-person behaviors or rely on holistic visual representations that are not densely aligned to utterances in multi-party environments. They are limited in modeling the intricate dynamics of multi-party interactions. In this paper, we introduce three new challenging tasks to model the fine-grained dynamics between multiple people: speaking target identification, pronoun coreference resolution, and mentioned player prediction. We contribute extensive data annotations to curate these new challenges in social deduction game settings. Furthermore, we propose a novel multimodal baseline that leverages densely aligned language-visual representations by synchronizing visual features with their corresponding utterances. This facilitates concurrently capturing verbal and non-verbal cues pertinent to social reasoning. Experiments demonstrate the effectiveness of the proposed approach with densely aligned multimodal representations in modeling social interactions. We will release our benchmarks and source code to facilitate further research. | 翻訳日:2024-03-06 18:27:20 公開日:2024-03-04 |
# デシッター時空における重畳中の粒子検出器 Particle detectors in superposition in de Sitter spacetime ( http://arxiv.org/abs/2403.02087v1 ) ライセンス: Link先を確認 | Laura Niermann and Luis C. Barbado | (参考訳) 宇宙論的な粒子生成は、時空の膨張が、その時空における所定の量子場の粒子の生成をもたらす現象である。
本稿では,質量を持たない実量子スカラー場に結合したド・ジッター時空におけるマルチレベル量子粒子検出器について検討する。
検出器の固定された古典的軌跡を考えるのではなく、最近の新しいアプローチに従って、軌道の量子重ね合わせ、特に互いに一定の距離を保つ静的軌跡を考える。
主な新しい結果は、軌道の重ね合わせの量子的性質のため、磁場との相互作用後の検出器の状態は、個々の静的軌道から期待される熱状態の混合であるだけでなく、異なる軌道間の干渉によって追加のコヒーレンスを示すことである。
これらを詳細に研究し, 熱浴からの検出器によって吸収された粒子の特性と関連づける。 Cosmological particle creation is the phenomenon by which the expansion of spacetime results in the production of particles of a given quantum field in that spacetime. In this paper, we study this phenomenon by considering a multi-level quantum particle detector in de Sitter spacetime coupled to a massless real quantum scalar field. Rather than considering a fixed classical trajectory for the detector, following recent novel approaches we consider a quantum superposition of trajectories, in particular of static trajectories which keep a fixed distance from one another. The main novel result is that, due to the quantum nature of the superposition of trajectories, the state of the detector after interaction with the field is not only a mixture of the thermal states that would be expected from each individual static trajectory but rather exhibits additional coherences due to interferences between the different trajectories. We study these in detail and associate them with the properties of the particle absorbed by the detector from the thermal bath. | 翻訳日:2024-03-06 18:27:02 公開日:2024-03-04 |
# resadapter: 拡散モデルのためのドメイン一貫性解決アダプタ ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models ( http://arxiv.org/abs/2403.02084v1 ) ライセンス: Link先を確認 | Jiaxiang Cheng, Pan Xie, Xin Xia, Jiashi Li, Jie Wu, Yuxi Ren, Huixia Li, Xuefeng Xiao, Min Zheng, Lean Fu | (参考訳) 最近のテキストから画像へのモデル(例えば安定拡散)と対応するパーソナライズされた技術(例えばdreamboothやlora)の進歩により、個人は高品質で想像力に富んだ画像を生成することができる。
しかし、訓練されたドメイン外の解像度で画像を生成する場合、しばしば制限に悩まされる。
この制限を克服するために,拡散モデル用に設計されたドメイン一貫性のあるアダプタであるresadapter(resadapter)を提案する。
静的解像度の画像を複雑な後処理で処理する他のマルチレゾリューション生成法とは異なり、resadapterは動的解像度を持つ画像を直接生成する。
特に、純粋な解像度の優先順位を深く理解した後、一般的なデータセットでトレーニングされたresadapterは、オリジナルのスタイルドメインを維持しながら、パーソナライズされた拡散モデルを持つ解像度フリーな画像を生成する。
包括的な実験により、0.5mのresadapterは任意の拡散モデルに対して柔軟な解像度で画像を処理できることが示されている。
さらなる実験により、ResAdapterは他のモジュール(例えば、ControlNet、IP-Adapter、LCM-LoRA)と互換性があり、高解像度画像を効率的に生成する他のマルチ解像度モデル(例えば、ElasticDiffusion)に統合できることが示されている。
プロジェクトリンクはhttps://res-adapter.github.io Recent advancement in text-to-image models (e.g., Stable Diffusion) and corresponding personalized technologies (e.g., DreamBooth and LoRA) enables individuals to generate high-quality and imaginative images. However, they often suffer from limitations when generating images with resolutions outside of their trained domain. To overcome this limitation, we present the Resolution Adapter (ResAdapter), a domain-consistent adapter designed for diffusion models to generate images with unrestricted resolutions and aspect ratios. Unlike other multi-resolution generation methods that process images of static resolution with complex post-process operations, ResAdapter directly generates images with the dynamical resolution. Especially, after learning a deep understanding of pure resolution priors, ResAdapter trained on the general dataset, generates resolution-free images with personalized diffusion models while preserving their original style domain. Comprehensive experiments demonstrate that ResAdapter with only 0.5M can process images with flexible resolutions for arbitrary diffusion models. More extended experiments demonstrate that ResAdapter is compatible with other modules (e.g., ControlNet, IP-Adapter and LCM-LoRA) for image generation across a broad range of resolutions, and can be integrated into other multi-resolution model (e.g., ElasticDiffusion) for efficiently generating higher-resolution images. Project link is https://res-adapter.github.io | 翻訳日:2024-03-06 18:26:46 公開日:2024-03-04 |
# 環境モニタリングとアクティブフィードバックによる空洞量子ビットの量子コヒーレンス回復 Recovering quantum coherence of a cavity qubit through environment monitoring and active feedback ( http://arxiv.org/abs/2403.02081v1 ) ライセンス: Link先を確認 | Uri Goldblatt, Nitzan Kahn, Sergey Hazanov, Ofir Milul, Barkay Guttel, Lalit M. Joshi, Daniel Chausovsky, Fabien Lafont, Serge Rosenblum | (参考訳) ノイズの多い環境との相互作用によって引き起こされる量子ビットのデコヒーレンスは、信頼できる量子プロセッサを開発する上で大きな課題となる。
qubitの環境を監視することで、デコヒーレンスイベントのフラグだけでなく、これらのエラーをリバースすることで、qubitコヒーレンスを復元することができる。
このアプローチは、補助トランスモンとの不可避な相互作用がコヒーレンスに影響を与える超伝導キャビティ量子ビットに特に有用である。
本研究では,キャビティ環境に作用するトランスモンのノイズの軌跡を追跡することにより,キャビティキュービットデコヒーレンスの複雑なダイナミクスを明らかにする。
実時間フィードバックを用いてキャビティキュービットの損失コヒーレンスを回復し,その低下時間の5倍の増大を達成した。
あるいは、トランスモンエラーを検出して消去することにより、キャビティ位相コヒーレンスを1桁以上改善する。
これらの進歩は、低光子損失率のキャビティ量子ビットを高忠実度ゲートを持つ長寿命量子メモリとして使用するために必須であり、より効率的なボソニック量子誤り訂正符号を可能にする。 Decoherence in qubits, caused by their interaction with a noisy environment, poses a significant challenge to developing reliable quantum processors. Monitoring the qubit's environment enables not only to flag decoherence events but also to reverse these errors, thereby restoring the qubit coherence. This approach is particularly beneficial for superconducting cavity qubits, whose unavoidable interaction with auxiliary transmons impacts their coherence. In this work, we uncover the intricate dynamics of cavity qubit decoherence by tracking the noisy trajectory of a transmon acting as the cavity's environment. Using real-time feedback, we successfully recover the lost coherence of the cavity qubit, achieving a fivefold increase in its dephasing time. Alternatively, by detecting transmon errors and converting them into erasures, we improve the cavity phase coherence by more than an order of magnitude. These advances are essential for using cavity qubits with low photon loss rates as long-lived quantum memories with high-fidelity gates and can enable more efficient bosonic quantum error correction codes. | 翻訳日:2024-03-06 18:26:17 公開日:2024-03-04 |
# レーダに基づくドローン検出と低信号対雑音比の分類におけるハイブリッド量子ニューラルネットワークのアドバンテージ Hybrid Quantum Neural Network Advantage for Radar-Based Drone Detection and Classification in Low Signal-to-Noise Ratio ( http://arxiv.org/abs/2403.02080v1 ) ライセンス: Link先を確認 | Aiswariya Sweety Malarvanan | (参考訳) 本稿では,レーダを用いた検出・分類問題に対するHybrid Quantum Neural Network(HQNN)とCNN(CNN)の性能について検討する。
具体的には、電磁理論、すなわちMartin-Mulgrewモデルから導かれるかなり複雑なレーダー時系列モデルを用いて、ドローンのような回転翼で物体のレーダー帰還をシミュレートする。
信号対雑音比(SNR)が高い場合、CNNは検出と分類のためにHQNNを上回っている。
しかし、SNRの低さ(実際は最も関心がある)では、HQNNの性能は同様のアーキテクチャのCNNよりも優れていることが判明した。 In this paper, we investigate the performance of a Hybrid Quantum Neural Network (HQNN) and a comparable classical Convolution Neural Network (CNN) for detection and classification problem using a radar. Specifically, we take a fairly complex radar time-series model derived from electromagnetic theory, namely the Martin-Mulgrew model, that is used to simulate radar returns of objects with rotating blades, such as drones. We find that when that signal-to-noise ratio (SNR) is high, CNN outperforms the HQNN for detection and classification. However, in the low SNR regime (which is of greatest interest in practice) the performance of HQNN is found to be superior to that of the CNN of a similar architecture. | 翻訳日:2024-03-06 18:25:57 公開日:2024-03-04 |
# GPT-turbo 3.5 を用いた英語語彙評価のための複数字幕質問の自動生成 Automated Generation of Multiple-Choice Cloze Questions for Assessing English Vocabulary Using GPT-turbo 3.5 ( http://arxiv.org/abs/2403.02078v1 ) ライセンス: Link先を確認 | Qiao Wang, Ralph Rose, Naho Orita, Ayaka Sugawara | (参考訳) 言語学習者の語彙の熟達度を評価する一般的な方法は、複数選択のクローゼ(すなわち、補うこと)による質問である。
しかし、個々の教師や大規模言語プログラムでは、テスト項目の作成は困難である。
本稿では,大規模言語モデル(LLM)を用いて,これらの質問を自動的に生成する新しい手法を評価する。
VocaTT (vocabulary teaching and training) エンジンはPythonで書かれており、ターゲット単語リストの事前処理、GPTによる文の生成、候補単語オプションの選択、そして最後に適切な単語オプションの選択という3つの基本的なステップで構成されている。
このシステムの効率性をテストするために,学術用語を対象とした60の質問文を作成した。
生成した項目は、文章や単語の選択の良さを判断する専門家のレビューによってレビューされ、不適当と判断された項目にコメントが加えられた。
その結果、75%が文章の熟成率、66.85%が適切な単語選択率であった。
これは、GPTの能力を生かしてはいない我々の研究で使われたジェネレータよりも顕著な改善である。
ポストホック定性的分析は、音声の相互参照タグ付け、文の検証の改善、GPTプロンプトの改善など、将来の作業におけるいくつかの改善点を明らかにしている。 A common way of assessing language learners' mastery of vocabulary is via multiple-choice cloze (i.e., fill-in-the-blank) questions. But the creation of test items can be laborious for individual teachers or in large-scale language programs. In this paper, we evaluate a new method for automatically generating these types of questions using large language models (LLM). The VocaTT (vocabulary teaching and training) engine is written in Python and comprises three basic steps: pre-processing target word lists, generating sentences and candidate word options using GPT, and finally selecting suitable word options. To test the efficiency of this system, 60 questions were generated targeting academic words. The generated items were reviewed by expert reviewers who judged the well-formedness of the sentences and word options, adding comments to items judged not well-formed. Results showed a 75% rate of well-formedness for sentences and 66.85% rate for suitable word options. This is a marked improvement over the generator used earlier in our research which did not take advantage of GPT's capabilities. Post-hoc qualitative analysis reveals several points for improvement in future work including cross-referencing part-of-speech tagging, better sentence validation, and improving GPT prompts. | 翻訳日:2024-03-06 18:25:42 公開日:2024-03-04 |
# VTG-GPT:GPTによる調整不要ゼロショットビデオグラウンド VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT ( http://arxiv.org/abs/2403.02076v1 ) ライセンス: Link先を確認 | Yifang Xu, Yunzhuo Sun, Zien Xie, Benxiang Zhai, and Sidan Du | (参考訳) video temporal grounding (vtg) は、言語的問合せに基づく未トリミングビデオから特定の時間的セグメントを見つけることを目的としている。
既存のVTGモデルの多くは、広範囲な注釈付きビデオテキストペアでトレーニングされている。
これらの課題に対処するために,訓練や微調整を伴わないゼロショットVTGのためのGPTベースの手法であるVTG-GPTを提案する。
元のクエリの偏見を低減するために、ベイチュアン2を用いてデバイアスドクエリを生成する。
ビデオにおける冗長な情報を減らすために,MiniGPT-v2を用いて視覚コンテンツをより正確な字幕に変換する。
最後に、デバイアスドクエリと画像キャプションから正確なセグメントを生成するための提案生成と後処理を考案する。
広汎な実験により、VTG-GPTはゼロショット設定でSOTA法を著しく上回り、教師なしアプローチを超越していることが示された。
さらに注目すべきは、教師付きメソッドに匹敵する競争性能を達成することだ。
コードはhttps://github.com/YoucanBaby/VTG-GPTで入手できる。 Video temporal grounding (VTG) aims to locate specific temporal segments from an untrimmed video based on a linguistic query. Most existing VTG models are trained on extensive annotated video-text pairs, a process that not only introduces human biases from the queries but also incurs significant computational costs. To tackle these challenges, we propose VTG-GPT, a GPT-based method for zero-shot VTG without training or fine-tuning. To reduce prejudice in the original query, we employ Baichuan2 to generate debiased queries. To lessen redundant information in videos, we apply MiniGPT-v2 to transform visual content into more precise captions. Finally, we devise the proposal generator and post-processing to produce accurate segments from debiased queries and image captions. Extensive experiments demonstrate that VTG-GPT significantly outperforms SOTA methods in zero-shot settings and surpasses unsupervised approaches. More notably, it achieves competitive performance comparable to supervised methods. The code is available on https://github.com/YoucanBaby/VTG-GPT | 翻訳日:2024-03-06 18:25:18 公開日:2024-03-04 |
# diffmot:非線形予測を用いた実時間拡散型マルチオブジェクトトラッカ DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction ( http://arxiv.org/abs/2403.02075v1 ) ライセンス: Link先を確認 | Weiyi Lv and Yuhang Huang and Ning Zhang and Ruei-Sung Lin and Mei Han and Dan Zeng | (参考訳) 多重物体追跡では、物体はしばしば不規則な方向変化を伴う加速度と減速の非線形運動を示す。
カルマンフィルタを用いたタッキング・バイ・検出(tbd)は歩行者主体のシナリオではうまく機能するが、複数の物体が非線形かつ多様な動きを同時に行う場合、複雑な状況では不足する。
複雑な非線形運動に対処するため,DiffMOTと呼ばれるリアルタイム拡散型MOT手法を提案する。
具体的には、運動予測器の構成要素として、DMP(Decoupled Diffusion-based Motion Predictor)を提案する。
データ全体から提示される様々な動きの分布全体をモデル化する。
また、個人の過去の動き情報に基づいて、個々の物体の動き条件を予測する。
さらに、より少ないサンプリングステップで拡散過程を最適化する。
MOTトラッカーとして、DiffMOTは22.7FPSでリアルタイムであり、DOTAの63.4と76.2でDanceTrackとSportsMOTのデータセットの最先端をそれぞれ上回っている。
我々の知る限りでは、DiffMOTは初めての拡散確率モデルをMOTに導入し、非線形運動予測に取り組む。 In Multiple Object Tracking, objects often exhibit non-linear motion of acceleration and deceleration, with irregular direction changes. Tacking-by-detection (TBD) with Kalman Filter motion prediction works well in pedestrian-dominant scenarios but falls short in complex situations when multiple objects perform non-linear and diverse motion simultaneously. To tackle the complex non-linear motion, we propose a real-time diffusion-based MOT approach named DiffMOT. Specifically, for the motion predictor component, we propose a novel Decoupled Diffusion-based Motion Predictor (D MP). It models the entire distribution of various motion presented by the data as a whole. It also predicts an individual object's motion conditioning on an individual's historical motion information. Furthermore, it optimizes the diffusion process with much less sampling steps. As a MOT tracker, the DiffMOT is real-time at 22.7FPS, and also outperforms the state-of-the-art on DanceTrack and SportsMOT datasets with 63.4 and 76.2 in HOTA metrics, respectively. To the best of our knowledge, DiffMOT is the first to introduce a diffusion probabilistic model into the MOT to tackle non-linear motion prediction. | 翻訳日:2024-03-06 18:24:58 公開日:2024-03-04 |
# 野生で記録された音声からの音声感情認識 Speech emotion recognition from voice messages recorded in the wild ( http://arxiv.org/abs/2403.02167v1 ) ライセンス: Link先を確認 | Luc\'ia G\'omez-Zaragoz\'a, \'Oscar Valls, Roc\'io del Amor, Mar\'ia Jos\'e Castro-Bleda, Valery Naranjo, Mariano Alca\~niz Raya, Javier Mar\'in-Morales | (参考訳) 音声感情認識(ser)に使用される感情データセットは、しばしば行動または誘発された音声を含み、現実世界のシナリオでの適用性を制限する。
本研究では,EMOVOME(Emotional Voice Messages)データベースを用いて,専門家や専門家以外のアノテータによる連続的かつ離散的な感情にラベル付けされた,100人のスペイン語話者の会話からの自発的な音声メッセージを含む。
我々はeGeMAPS機能とトランスフォーマーベースモデルと組み合わせて話者独立SERモデルを構築した。
その結果を参考データベースと比較し,注釈者および性公平性の影響について分析した。
事前訓練されたUnispeech-LモデルとeGeMAPSの組み合わせは、ベースラインモデルよりも10%向上し、61.64%と55.57%のUnweighted Accuracy (UA)をそれぞれ3クラスの精度で達成した。
感情カテゴリーでは 42.58% ua が得られた。
EMOVOMEは、実行されたRAVDESSデータベースよりも低かった。
iemocap データベースは感情カテゴリーの予測において emovome よりも優れており、同様の結果は valence と arousal で得られた。
さらに、EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、優れた結果と公正性を示す。
本研究は,実生活におけるSERモデルの評価に大きく貢献し,自発音声を解析するアプリケーションの開発を進めた。 Emotion datasets used for Speech Emotion Recognition (SER) often contain acted or elicited speech, limiting their applicability in real-world scenarios. In this work, we used the Emotional Voice Messages (EMOVOME) database, including spontaneous voice messages from conversations of 100 Spanish speakers on a messaging app, labeled in continuous and discrete emotions by expert and non-expert annotators. We created speaker-independent SER models using the eGeMAPS features, transformer-based models and their combination. We compared the results with reference databases and analyzed the influence of annotators and gender fairness. The pre-trained Unispeech-L model and its combination with eGeMAPS achieved the highest results, with 61.64% and 55.57% Unweighted Accuracy (UA) for 3-class valence and arousal prediction respectively, a 10% improvement over baseline models. For the emotion categories, 42.58% UA was obtained. EMOVOME performed lower than the acted RAVDESS database. The elicited IEMOCAP database also outperformed EMOVOME in the prediction of emotion categories, while similar results were obtained in valence and arousal. Additionally, EMOVOME outcomes varied with annotator labels, showing superior results and better fairness when combining expert and non-expert annotations. This study significantly contributes to the evaluation of SER models in real-life situations, advancing in the development of applications for analyzing spontaneous voice messages. | 翻訳日:2024-03-06 18:21:02 公開日:2024-03-04 |
# REAL-Colon:大腸内視鏡における実世界のAIアプリケーション開発のためのデータセット REAL-Colon: A dataset for developing real-world AI applications in colonoscopy ( http://arxiv.org/abs/2403.02163v1 ) ライセンス: Link先を確認 | Carlo Biffi, Giulio Antonelli, Sebastian Bernhofer, Cesare Hassan, Daizen Hirata, Mineo Iwatate, Andreas Maieron, Pietro Salvagnini and Andrea Cherubini | (参考訳) 大腸ポリープの検出と診断は大腸癌予防の鍵となる。
最近の証拠は、AIベースのコンピュータ支援検出(CADe)とコンピュータ支援診断(CADx)システムが、内科医のパフォーマンスを高め、大腸内視鏡の有効性を高めることを示唆している。
しかし、ほとんどの公開データセットは、主に静止画やビデオクリップで構成され、しばしばダウンサンプリングされた解像度で、実際の大腸内視鏡の手順を正確に表現していない。
本研究は,多施設にまたがる実世界の大腸内視鏡記録から得られた2.7mのネイティブビデオフレームのコンピレーションであるreal-colon (real-world multi-center endoscopy annotated video library)データセットを紹介する。
データセットには350kのバウンディングボックスアノテーションが含まれている。
各ビデオには、包括的臨床データ、大腸内視鏡取得情報、ポリープ病理情報も含まれている。
REAL-Colonデータセットは前例のない大きさ、品質、異質性を持つため、大腸内視鏡におけるAI研究の前進を目指す研究者や開発者にとってユニークなリソースである。
その開放性と透明性は厳密で再現可能な研究を促進し、より正確で信頼性の高い大腸内視鏡関連アルゴリズムとモデルの開発とベンチマークを促進する。 Detection and diagnosis of colon polyps are key to preventing colorectal cancer. Recent evidence suggests that AI-based computer-aided detection (CADe) and computer-aided diagnosis (CADx) systems can enhance endoscopists' performance and boost colonoscopy effectiveness. However, most available public datasets primarily consist of still images or video clips, often at a down-sampled resolution, and do not accurately represent real-world colonoscopy procedures. We introduce the REAL-Colon (Real-world multi-center Endoscopy Annotated video Library) dataset: a compilation of 2.7M native video frames from sixty full-resolution, real-world colonoscopy recordings across multiple centers. The dataset contains 350k bounding-box annotations, each created under the supervision of expert gastroenterologists. Comprehensive patient clinical data, colonoscopy acquisition information, and polyp histopathological information are also included in each video. With its unprecedented size, quality, and heterogeneity, the REAL-Colon dataset is a unique resource for researchers and developers aiming to advance AI research in colonoscopy. Its openness and transparency facilitate rigorous and reproducible research, fostering the development and benchmarking of more accurate and reliable colonoscopy-related algorithms and models. | 翻訳日:2024-03-06 18:20:17 公開日:2024-03-04 |
# TripoSR: 単一画像からの高速な3Dオブジェクト再構成 TripoSR: Fast 3D Object Reconstruction from a Single Image ( http://arxiv.org/abs/2403.02151v1 ) ライセンス: Link先を確認 | Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, Yan-Pei Cao | (参考訳) この技術報告では、トランスフォーメーションアーキテクチャを活用したトランスフォーメーションモデルであるtriposrを紹介し、単一の画像から0.5秒未満で3dメッシュを生成する。
triposrは、lrmネットワークアーキテクチャに基づいて、データ処理、モデル設計、トレーニング技術の大幅な改善を統合する。
パブリックデータセットの評価は、triposrが他のオープンソースの代替品と比較して、定量的にも質的にも優れたパフォーマンスを示していることを示している。
MITライセンスでリリースされたTripoSRは、研究者、開発者、クリエイティブを3D生成AIの最新の進歩で支援することを目的としている。 This technical report introduces TripoSR, a 3D reconstruction model leveraging transformer architecture for fast feed-forward 3D generation, producing 3D mesh from a single image in under 0.5 seconds. Building upon the LRM network architecture, TripoSR integrates substantial improvements in data processing, model design, and training techniques. Evaluations on public datasets show that TripoSR exhibits superior performance, both quantitatively and qualitatively, compared to other open-source alternatives. Released under the MIT license, TripoSR is intended to empower researchers, developers, and creatives with the latest advancements in 3D generative AI. | 翻訳日:2024-03-06 18:19:54 公開日:2024-03-04 |
# 時系列モデリングのための時間重み付けアンサンブル Recency-Weighted Temporally-Segmented Ensemble for Time-Series Modeling ( http://arxiv.org/abs/2403.02150v1 ) ライセンス: Link先を確認 | P{\aa}l V. Johnsen, Eivind B{\o}hn, S{\o}lve Eidnes, Filippo Remonato and Signe Riemer-S{\o}rensen | (参考訳) プロセス産業における時系列モデリングは、複雑で多面的で進化するデータ特性を扱うという課題に直面している。
従来の単一モデルアプローチは、様々な力学の相互作用を捉えるのにしばしば苦労し、最適以下の予測をもたらす。
そこで我々は,マルチステップ予測のための新しいチャンクベースアプローチであるRecency-Weighted Temporally-Segmented(ReWTS)アンサンブルモデルを提案する。
ReWTSモデルの主な特徴は2つある。
1)トレーニングデータを‘チャンク’に分割し,チャンク毎に1つのモデルをトレーニングすることで,モデルを異なるダイナミクスに特殊化する。
2) 推論中, 最適化手法は過去の各モデルを評価し, 将来を予測するために, 予め学習したダイナミクスの適切な混合をリコールできるように, アクティブモデルを選択する。
この方法は、各周期のニュアンスをキャプチャするだけでなく、すべてのデータでトレーニングされた従来の“グローバル”モデルよりも、時間とともに変化に効果的に対応します。
本研究では,ノルウェーの排水処理場と飲料水処理場からの2年間のデータを用いて,rewtsアンサンブルの優越性を示す比較分析を行った。
さまざまなモデルアーキテクチャで平均2乗予測エラーを両データセットで10-70\%も上回っており、特に外れ値に対するレジリエンスが向上している。
このアプローチは、プロセス産業やその他の複雑なシステムにおける意思決定および制御システムのための自動的、適応可能な予測モデルの開発に期待を示す。 Time-series modeling in process industries faces the challenge of dealing with complex, multi-faceted, and evolving data characteristics. Conventional single model approaches often struggle to capture the interplay of diverse dynamics, resulting in suboptimal forecasts. Addressing this, we introduce the Recency-Weighted Temporally-Segmented (ReWTS, pronounced `roots') ensemble model, a novel chunk-based approach for multi-step forecasting. The key characteristics of the ReWTS model are twofold: 1) It facilitates specialization of models into different dynamics by segmenting the training data into `chunks' of data and training one model per chunk. 2) During inference, an optimization procedure assesses each model on the recent past and selects the active models, such that the appropriate mixture of previously learned dynamics can be recalled to forecast the future. This method not only captures the nuances of each period, but also adapts more effectively to changes over time compared to conventional `global' models trained on all data in one go. We present a comparative analysis, utilizing two years of data from a wastewater treatment plant and a drinking water treatment plant in Norway, demonstrating the ReWTS ensemble's superiority. It consistently outperforms the global model in terms of mean squared forecasting error across various model architectures by 10-70\% on both datasets, notably exhibiting greater resilience to outliers. This approach shows promise in developing automatic, adaptable forecasting models for decision-making and control systems in process industries and other complex systems. | 翻訳日:2024-03-06 18:19:41 公開日:2024-03-04 |
# MiM-ISTD: 効率的な赤外小ターゲット検出のためのマンバインマンバ MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection ( http://arxiv.org/abs/2403.02148v1 ) ライセンス: Link先を確認 | Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Jieping Ye, Nenghai Yu | (参考訳) 基本モデルの開発により、赤外線小ターゲット検出(ISTD)アルゴリズムは大きな進歩を遂げた。
具体的には、畳み込みネットワークとトランスを結合した構造は、局所的特徴とグローバルな特徴の両方をうまく抽出することができる。
同時に、彼らは基本的なモデル、例えば変換器の2次計算複雑性から欠陥を継承し、効率に影響を及ぼす。
長距離モデリングのための線形複雑度を持つ最近の基本モデルであるMambaに着想を得て, ISTDにおけるこの状態空間モデルの可能性を探る。
しかし、小さなターゲットを検出するのに重要なローカル機能は、完全に活用できないため、直接適用は不適当である。
代わりに、効率的なISTDのためにMamba-in-Mamba(MiM-ISTD)構造を調整する。
例えば、ローカルパッチを「視覚文」として扱い、さらにサブパッチに分解して「視覚語」として局所性をさらに探求する。
与えられた視覚文における各単語間の相互作用は、無視可能な計算コストで計算される。
単語と文の特徴を集約することにより、MiM-ISTDの表現能力を著しく向上させることができる。
NUAA-SIRSTとIRSTD-1kの実験により,本手法の精度と効率が向上した。
具体的には、MiM-ISTD は SOTA よりも 10 \times$ で、推論中の GPU メモリ使用率を 73.4$\%$ per 2048 \times 2048$ で減らし、高解像度赤外線画像に対する Mamba ベースの理解に関する$&$の制約を克服する。ソースコードは https://github.com/txchen-USTC/MiM-ISTD で入手できる。 Thanks to the development of basic models, infrared small target detection (ISTD) algorithms have made significant progress. Specifically, the structures combining convolutional networks with transformers can well extract both local and global features. At the same time, they also inherit defects from the basic model, e.g., the quadratic computational complexity of transformers, which impacts efficiency. Inspired by a recent basic model with linear complexity for long-distance modeling, called Mamba, we explore the potential of this state space model in ISTD in this paper. However, direct application is unsuitable since local features, which are critical to detecting small targets, cannot be fully exploited. Instead, we tailor a Mamba-in-Mamba (MiM-ISTD) structure for efficient ISTD. For example, we treat the local patches as "visual sentences" and further decompose them into sub-patches as "visual words" to further explore the locality. The interactions among each word in a given visual sentence will be calculated with negligible computational costs. By aggregating the word and sentence features, the representation ability of MiM-ISTD can be significantly bolstered. Experiments on NUAA-SIRST and IRSTD-1k prove the superior accuracy and efficiency of our method. Specifically, MiM-ISTD is $10 \times$ faster than the SOTA and reduces GPU memory usage by 73.4$\%$ per $2048 \times 2048$ image during inference, overcoming the computation$\&$memory constraints on performing Mamba-based understanding on high-resolution infrared images.Source code is available at https://github.com/txchen-USTC/MiM-ISTD. | 翻訳日:2024-03-06 18:19:15 公開日:2024-03-04 |
# ssl!?
年齢限定型スマートフォンのブラウジングを目指して」 'SSL?! What on earth is that?': Towards Designing Age-Inclusive Secure Smartphone Browsing ( http://arxiv.org/abs/2403.02145v1 ) ライセンス: Link先を確認 | Pavithren V. S. Pakianathan, L. Siddharth, Sujithra Raviselvam, Kristin L. Wood, Hyowon Lee, Pin Sym Foong, Jianying Zhou, Simon Tangi Perrault | (参考訳) 認証された」フィッシングサイトの増加により、フィッシングケースの数が着実に増加し、フィッシングに対する一般的な感受性が高まる。
したがって、本物とフィッシングのウェブサイトを区別するのに役立つ信頼メカニズム(HTTPSロックインジケータ、SSL証明書など)は、フィッシングのウェブサイトにアクセスする脆弱なユーザーを阻止する効果で評価されるべきである。
本稿では,18人の成人(男性6人,女性12人)と12人の高齢者(男性4人,女性8人)を対象に,現行の信頼機構のユーザビリティと,概念化機構におけるモダリティの重視について検討する。
調査の最初の段階では、androidのchromeブラウザを使って、参加者に銀行のウェブサイトと政府ウェブサイトを閲覧するよう求めました。
2つのうちのどれがフィッシングサイトかを特定し、両方のウェブサイトのユーザビリティを評価し、信頼メカニズムに関する質的なフィードバックを提供するように頼みました。
第2部では、ソーシャル、コミュニティ、AIベースのサポートを求めてウェブサイトの信頼に関する決定を下す、代替的な信頼メカニズムを概念化した。
ここでは、どのようなモダリティ(社会、コミュニティ、AI)が望ましいのか、なぜそれが望ましいのかについて、参加者に質問した。
現在の信頼メカニズムでは、参加者の誰もフィッシングのウェブサイトを特定できなかった。
参加者はユーザビリティの観点からは現在のメカニズムが不十分であると評価し、成人と高齢者の間で大きく異なる様々な困難を表現した。
概念化メカニズムでは,主観的モダリティの顕著な相違がみられ,高齢者は主に社会的支援を好んだ。
これらの総合的な知見に加えて、今後の信頼メカニズムは年齢に応じたニーズだけでなく、ユーザビリティの観点からも大幅に改善されるべきである。 Owing to the increase in 'certified' phishing websites, there is a steady increase in the number of phishing cases and general susceptibility to phishing. Trust mechanisms (e.g., HTTPS Lock Indicators, SSL Certificates) that help differentiate genuine and phishing websites should therefore be evaluated for their effectiveness in preventing vulnerable users from accessing phishing websites. In this article, we present a study involving 18 adults (male-6; female-12) and 12 older adults (male-4; female-8) to understand the usability of current trust mechanisms and preferred modalities in a conceptualized mechanism. In the first part of the study, using Chrome browser on Android, we asked the participants to browse a banking website and a government website for digital particulars. We asked them to identify which one of the two was a phishing website, rate the usability of both websites and provide qualitative feedback on the trust mechanisms. In the second part, we conceptualized an alternative trust mechanism, which allows seeking social, community and AI-based support to make website trust-related decisions. Herein, we asked the participants as to which modality (social, community or AI) they prefer to seek support from and why it is preferred. Using the current trust mechanisms, none of the participants were able to identify the phishing website. As the participants rated the current mechanisms poorly in terms of usability, they expressed various difficulties that largely did not differ between adults and older adults. In the conceptualized mechanism, we observed a notable difference in the preferred modalities, in that, older adults primarily preferred social support. In addition to these overall findings, specific observations suggest that future trust mechanisms should not only consider age-specific needs but also incorporate substantial improvement in terms of usability. | 翻訳日:2024-03-06 18:18:46 公開日:2024-03-04 |
# マックススライス2-wasserstein距離 Max-sliced 2-Wasserstein distance ( http://arxiv.org/abs/2403.02142v1 ) ライセンス: Link先を確認 | March T. Boedihardjo | (参考訳) この注記は、著者の『Sharp bounds for the max-sliced Wasserstein distance』に関する以前の研究の継続である。
「同じ手法を用いて、ユークリッド空間上のコンパクトに支持された対称確率測度とその対称性経験分布の間の、期待される最大スライス2-wasserstein距離の上界を得る。 This note is a continuation of the author's previous work on ``Sharp bounds for the max-sliced Wasserstein distance." We use the same technique to obtain an upper bound for the expected max-sliced 2-Wasserstein distance between a compactly supported symmetric probability measure on a Euclidean space and its symmetrized empirical distribution. | 翻訳日:2024-03-06 18:18:16 公開日:2024-03-04 |
# 顔領域認識を用いた自己教師付き表情表現学習 Self-Supervised Facial Representation Learning with Facial Region Awareness ( http://arxiv.org/abs/2403.02138v1 ) ライセンス: Link先を確認 | Zheng Gao, Ioannis Patras | (参考訳) 自己教師付き事前学習は、様々な視覚タスクに役立つ転送可能表現の学習に有効であることが証明されている。
自己教師付き事前学習は、様々な顔分析タスクで一般的な顔表現を学習できるか?
この目的に向けた最近の取り組みは、各顔画像全体、すなわち、局所的な顔表現の一貫性(すなわち、目や鼻などの顔領域)を無視する、画像レベルで一貫した顔表現を学ぶことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現,顔領域認識(FRA)を学習するための,自己指導型表情表現学習フレームワークを提案する。
具体的には, 顔領域を強調表示した学習熱マップを用いて抽出したビュー間の局所的な顔表現をマッチングすることにより, 顔領域の一貫性を明示的に強化する。
教師付き意味セグメンテーションにおけるマスク予測に触発されて,特徴地図の画素毎の投影と,学習可能な位置埋め込みから計算された顔マスク埋め込みとのコサイン類似性により,顔領域の顔画像のグローバル検索に注意機構を利用する。
このようなヒートマップを学習するために,特徴マップから画素特徴を割り当てることで,顔マスク埋め込みの学習を深いクラスタリング問題として定式化する。
顔分類および回帰タスクにおける転写学習の結果から,FRAは従来の訓練済みモデルよりも優れており,さらに重要なことは,ResNetを様々なタスクの統一バックボーンとして使用することにより,顔分析タスクにおけるSOTA法と比較して,同等あるいはそれ以上の性能を達成できたことである。 Self-supervised pre-training has been proved to be effective in learning transferable representations that benefit various visual tasks. This paper asks this question: can self-supervised pre-training learn general facial representations for various facial analysis tasks? Recent efforts toward this goal are limited to treating each face image as a whole, i.e., learning consistent facial representations at the image-level, which overlooks the consistency of local facial representations (i.e., facial regions like eyes, nose, etc). In this work, we make a first attempt to propose a novel self-supervised facial representation learning framework to learn consistent global and local facial representations, Facial Region Awareness (FRA). Specifically, we explicitly enforce the consistency of facial regions by matching the local facial representations across views, which are extracted with learned heatmaps highlighting the facial regions. Inspired by the mask prediction in supervised semantic segmentation, we obtain the heatmaps via cosine similarity between the per-pixel projection of feature maps and facial mask embeddings computed from learnable positional embeddings, which leverage the attention mechanism to globally look up the facial image for facial regions. To learn such heatmaps, we formulate the learning of facial mask embeddings as a deep clustering problem by assigning the pixel features from the feature maps to them. The transfer learning results on facial classification and regression tasks show that our FRA outperforms previous pre-trained models and more importantly, using ResNet as the unified backbone for various tasks, our FRA achieves comparable or even better performance compared with SOTA methods in facial analysis tasks. | 翻訳日:2024-03-06 18:18:09 公開日:2024-03-04 |
# Point2Building: 空中LiDARポイントクラウドからのビルの再構築 Point2Building: Reconstructing Buildings from Airborne LiDAR Point Clouds ( http://arxiv.org/abs/2403.02136v1 ) ライセンス: Link先を確認 | Yujia Liu, Anton Obukhov, Jan Dirk Wegner, Konrad Schindler | (参考訳) 航空機搭載LiDAR点雲から3次元多角形メッシュとして建物を再構築するための学習的アプローチを提案する。
空中に浮かぶLiDARから3D建築を再構築する要因は、建築デザイン、特に屋根形状の多様さ、シーン全体の低・多彩な点密度、そしてしばしば植生やセンサーの視角による建物ファサードの不完全なカバレッジである。
形状の多様性や不均一で不完全な被写体被覆に対処するため,入力点雲から直接3次元多角形メッシュを予測する生成モデルを提案する。
Point2Buildingと呼ばれる当社の自動回帰モデルは、頂点と顔のシーケンスを生成することで、メッシュを反復的に構築します。
このアプローチにより、モデルが多様なジオメトリやビルディング構造に柔軟に対応できる。
網羅的な平面検出などの前処理ステップに大きく依存する既存の方法とは異なり,本モデルは点雲データから直接学習し,エラーの伝播を低減し,再構成の忠実度を高める。
我々は,チューリッヒ,ベルリン,タリンの航空機搭載LiDARデータの収集について実験的に検証した。
本手法は都市スタイルの多様さに優れた一般化を示す。 We present a learning-based approach to reconstruct buildings as 3D polygonal meshes from airborne LiDAR point clouds. What makes 3D building reconstruction from airborne LiDAR hard is the large diversity of building designs and especially roof shapes, the low and varying point density across the scene, and the often incomplete coverage of building facades due to occlusions by vegetation or to the viewing angle of the sensor. To cope with the diversity of shapes and inhomogeneous and incomplete object coverage, we introduce a generative model that directly predicts 3D polygonal meshes from input point clouds. Our autoregressive model, called Point2Building, iteratively builds up the mesh by generating sequences of vertices and faces. This approach enables our model to adapt flexibly to diverse geometries and building structures. Unlike many existing methods that rely heavily on pre-processing steps like exhaustive plane detection, our model learns directly from the point cloud data, thereby reducing error propagation and increasing the fidelity of the reconstruction. We experimentally validate our method on a collection of airborne LiDAR data of Zurich, Berlin and Tallinn. Our method shows good generalization to diverse urban styles. | 翻訳日:2024-03-06 18:17:38 公開日:2024-03-04 |
# UB-FineNet:オープンアクセス衛星画像のきめ細かい分類ネットワーク UB-FineNet: Urban Building Fine-grained Classification Network for Open-access Satellite Images ( http://arxiv.org/abs/2403.02132v1 ) ライセンス: Link先を確認 | Zhiyi He, Wei Yao, Jie Shao, Puzuo Wang | (参考訳) 衛星リモートセンシング画像による都市規模の建築物の精密分類は、都市計画、インフラ開発、人口分布分析に重要な意味を持つ重要な研究領域である。
しかし、高高度宇宙基地から取得した低解像度のオーバヘッド画像と、細粒度の都市建築カテゴリーのロングテールサンプル分布により、深刻な階級不均衡問題に直面する。
これらの課題に対処するために,オープンアクセス衛星画像を用いた都市建物のきめ細かい分類のためのディープネットワークアプローチを提案する。
Denoising Diffusion Probabilistic Model (DDPM) を用いた超解像法が最初に導入され、領域適応型知識蒸留の恩恵を受ける衛星画像の空間分解能を高める。
そこで,カテゴリ情報バランスモジュール(CIBM)とコントラストスーパービジョン(CS)技術を用いた分類ネットワークを提案し,クラス不均衡の問題を緩和し,分類の堅牢性と精度を向上させる。
11の細い建物を持つ香港のデータセットの実験では、平均的トップ1の精度が60.45\%の有望な分類結果が示され、これはストリートビューの画像に基づくアプローチと同等である。
CIBMとCSはベースライン法と比較してTop-1の精度を2.6\%、3.5\%改善している。
どちらのモジュールも簡単に他の分類ネットワークに挿入でき、同様の拡張が達成されている。
本研究は,オープンアクセス衛星画像のみを用いた大規模都市シナリオにおける建物分類の実践的ソリューションを提供することにより,都市分析の分野に貢献する。
提案手法は,経済,産業,人口分布の理解を支援するとともに,都市計画者にとって有用なツールとなりうる。 Fine classification of city-scale buildings from satellite remote sensing imagery is a crucial research area with significant implications for urban planning, infrastructure development, and population distribution analysis. However, the task faces big challenges due to low-resolution overhead images acquired from high altitude space-borne platforms and the long-tail sample distribution of fine-grained urban building categories, leading to severe class imbalance problem. To address these issues, we propose a deep network approach to fine-grained classification of urban buildings using open-access satellite images. A Denoising Diffusion Probabilistic Model (DDPM) based super-resolution method is first introduced to enhance the spatial resolution of satellite images, which benefits from domain-adaptive knowledge distillation. Then, a new fine-grained classification network with Category Information Balancing Module (CIBM) and Contrastive Supervision (CS) technique is proposed to mitigate the problem of class imbalance and improve the classification robustness and accuracy. Experiments on Hong Kong data set with 11 fine building types revealed promising classification results with a mean Top-1 accuracy of 60.45\%, which is on par with street-view image based approaches. Extensive ablation study shows that CIBM and CS improve Top-1 accuracy by 2.6\% and 3.5\% compared to the baseline method, respectively. And both modules can be easily inserted into other classification networks and similar enhancements have been achieved. Our research contributes to the field of urban analysis by providing a practical solution for fine classification of buildings in challenging mega city scenarios solely using open-access satellite images. The proposed method can serve as a valuable tool for urban planners, aiding in the understanding of economic, industrial, and population distribution. | 翻訳日:2024-03-06 18:17:18 公開日:2024-03-04 |
# 動的アルゴリズム選択のための深層強化学習:微分進化の原理実証研究 Deep Reinforcement Learning for Dynamic Algorithm Selection: A Proof-of-Principle Study on Differential Evolution ( http://arxiv.org/abs/2403.02131v1 ) ライセンス: Link先を確認 | Hongshu Guo, Yining Ma, Zeyuan Ma, Jiacheng Chen, Xinglin Zhang, Zhiguang Cao, Jun Zhang, Yue-Jiao Gong | (参考訳) 微分進化のような進化的アルゴリズムは、実パラメータ最適化の課題を解決するのに優れている。
しかし、1つのアルゴリズムの有効性は異なる問題インスタンスによって異なり、アルゴリズムの選択や構成にかなりの労力を要する。
本稿では,アルゴリズム群を補完する強みを生かし,特定の問題に対する最適化の進捗を動的にスケジューリングすることで,その限界に対処することを目的とする。
この課題を達成するために,深層強化学習に基づく動的アルゴリズム選択フレームワークを提案する。
提案手法は,マルコフ決定プロセスを選択する動的アルゴリズムをモデル化し,最適化過程で観察された特徴に応じて最適なアルゴリズムを選択するために,エージェントをポリシー勾配に訓練する。
エージェントに必要な情報を与えるため,我々のフレームワークはランドスケープとアルゴリズム的特徴の思慮深い設計を取り入れている。
一方,高度な深層ニューラルネットワークモデルを用いて最適動作を推定し,アルゴリズム選択のインフォームドを保証する。
さらに、異なるアルゴリズム間のスムーズな切り替えを容易にするために、アルゴリズムコンテキスト復元機構が組み込まれている。
これらのメカニズムを組み合わせることで、動的オンライン方式でアルゴリズムをシームレスに選択および切り替えすることが可能になります。
特に、提案されたフレームワークは単純で汎用的であり、幅広い進化的アルゴリズムにまたがる潜在的な改善を提供する。
原理実証研究として,この枠組みを微分進化アルゴリズム群に適用する。
実験結果は,最適化性能を向上するだけでなく,様々な問題クラスにまたがる優れた一般化能力を示すとともに,提案フレームワークの顕著な有効性を示した。 Evolutionary algorithms, such as Differential Evolution, excel in solving real-parameter optimization challenges. However, the effectiveness of a single algorithm varies across different problem instances, necessitating considerable efforts in algorithm selection or configuration. This paper aims to address the limitation by leveraging the complementary strengths of a group of algorithms and dynamically scheduling them throughout the optimization progress for specific problems. We propose a deep reinforcement learning-based dynamic algorithm selection framework to accomplish this task. Our approach models the dynamic algorithm selection a Markov Decision Process, training an agent in a policy gradient manner to select the most suitable algorithm according to the features observed during the optimization process. To empower the agent with the necessary information, our framework incorporates a thoughtful design of landscape and algorithmic features. Meanwhile, we employ a sophisticated deep neural network model to infer the optimal action, ensuring informed algorithm selections. Additionally, an algorithm context restoration mechanism is embedded to facilitate smooth switching among different algorithms. These mechanisms together enable our framework to seamlessly select and switch algorithms in a dynamic online fashion. Notably, the proposed framework is simple and generic, offering potential improvements across a broad spectrum of evolutionary algorithms. As a proof-of-principle study, we apply this framework to a group of Differential Evolution algorithms. The experimental results showcase the remarkable effectiveness of the proposed framework, not only enhancing the overall optimization performance but also demonstrating favorable generalization ability across different problem classes. | 翻訳日:2024-03-06 18:16:48 公開日:2024-03-04 |
# locr:光文字認識のための位置誘導トランス LOCR: Location-Guided Transformer for Optical Character Recognition ( http://arxiv.org/abs/2403.02127v1 ) ライセンス: Link先を確認 | Yu Sun, Dongzhan Zhou, Chen Lin, Conghui He, Wanli Ouyang, Han-Sen Zhong | (参考訳) 学術文書にはテキスト、方程式、表、数字が詰め込まれており、正確な光学文字認識(OCR)のための包括的な理解が必要である。
エンド・ツー・エンドのOCR手法はレイアウトに基づくアプローチよりも精度が向上するが、特にout-Of-Domain(OOD)文書の複雑なレイアウトでは、しばしば重大な繰り返しの問題に悩まされる。この問題に対処するため、自動回帰中にトランスフォーマーアーキテクチャに位置ガイドを組み込むモデルであるLOCRを提案する。
125万以上の学術文書ページから77万以上のテキストロケーションペアからなるデータセットでモデルをトレーニングし、単語、テーブル、数学的シンボルのバウンディングボックスを含める。
LOCRは様々なフォーマット要素を十分に処理し、Markdown言語でコンテンツを生成する。
編集距離、bleu、meteor、f-measureで測定したように、arxivで構築されたテストセットの既存のメソッドを上回り、また、arxivデータセットの反復頻度を4.4%から0.5%、ood量子物理学の文書では13.2%から1.3%、oodのマーケティング文書では8.1%から1.8%まで減少させる。
さらに、LOCRはインタラクティブなOCRモードを備えており、人間からのいくつかの位置プロンプトを通じて複雑なドキュメントの生成を容易にする。 Academic documents are packed with texts, equations, tables, and figures, requiring comprehensive understanding for accurate Optical Character Recognition (OCR). While end-to-end OCR methods offer improved accuracy over layout-based approaches, they often grapple with significant repetition issues, especially with complex layouts in Out-Of-Domain (OOD) documents.To tackle this issue, we propose LOCR, a model that integrates location guiding into the transformer architecture during autoregression. We train the model on a dataset comprising over 77M text-location pairs from 125K academic document pages, including bounding boxes for words, tables and mathematical symbols. LOCR adeptly handles various formatting elements and generates content in Markdown language. It outperforms all existing methods in our test set constructed from arXiv, as measured by edit distance, BLEU, METEOR and F-measure.LOCR also reduces repetition frequency from 4.4% of pages to 0.5% in the arXiv dataset, from 13.2% to 1.3% in OOD quantum physics documents and from 8.1% to 1.8% in OOD marketing documents. Additionally, LOCR features an interactive OCR mode, facilitating the generation of complex documents through a few location prompts from human. | 翻訳日:2024-03-06 18:16:03 公開日:2024-03-04 |
# コード混合hinglishにおけるヘイトスピーチ検出のための弱アノテートデータの利用:大規模言語モデルを用いた実現可能性駆動トランスファー学習アプローチ Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language Models ( http://arxiv.org/abs/2403.02121v1 ) ライセンス: Link先を確認 | Sargam Yadav (1), Abhishek Kaushik (1) and Kevin McDaid (1) ((1) Dundalk Institute of Technology, Dundalk) | (参考訳) 大規模言語モデル(LLM)の出現は、様々な自然言語処理(NLP)タスクにおけるベンチマークを前進させた。
しかし、LLMのトレーニングには大量のラベル付きトレーニングデータが必要である。
さらに、データアノテーションとトレーニングは計算に高価で時間を要する。
ゼロと少数ショットの学習は、大規模なトレーニング済みモデルを使用してデータをラベル付けするための実行可能なオプションとして最近登場した。
混合符号低リソース言語におけるヘイトスピーチ検出は、LLMの使用が有益であることが証明された活発な問題領域である。
本研究では,youtubeコメント100点のデータセットをコンパイルし,ミックスコードhinglishの粗雑かつ細粒度の誤認分類に弱くラベル付けした。
労働集約的なアノテーションプロセスにより弱アノテーションが適用された。
ゼロショット学習、ワンショット学習、および少数ショット学習およびプロンプトアプローチが適用され、コメントにラベルを割り当て、人間指定ラベルと比較される。
すべてのアプローチにおいて、双方向自己回帰変換器(BART)大モデルを用いたゼロショット分類と、生成事前学習変換器3(ChatGPT-3)を用いた少数ショットプロンプトが最適である。 The advent of Large Language Models (LLMs) has advanced the benchmark in various Natural Language Processing (NLP) tasks. However, large amounts of labelled training data are required to train LLMs. Furthermore, data annotation and training are computationally expensive and time-consuming. Zero and few-shot learning have recently emerged as viable options for labelling data using large pre-trained models. Hate speech detection in mix-code low-resource languages is an active problem area where the use of LLMs has proven beneficial. In this study, we have compiled a dataset of 100 YouTube comments, and weakly labelled them for coarse and fine-grained misogyny classification in mix-code Hinglish. Weak annotation was applied due to the labor-intensive annotation process. Zero-shot learning, one-shot learning, and few-shot learning and prompting approaches have then been applied to assign labels to the comments and compare them to human-assigned labels. Out of all the approaches, zero-shot classification using the Bidirectional Auto-Regressive Transformers (BART) large model and few-shot prompting using Generative Pre-trained Transformer- 3 (ChatGPT-3) achieve the best results | 翻訳日:2024-03-06 18:15:20 公開日:2024-03-04 |
# DragTex: 3Dメッシュによる生成ポイントベースのテクスチャ編集 DragTex: Generative Point-Based Texture Editing on 3D Mesh ( http://arxiv.org/abs/2403.02217v1 ) ライセンス: Link先を確認 | Yudi Zhang, Qi Xu, Lei Zhang | (参考訳) 生成型人工知能を用いた3dテクスチャメッシュの作成が注目されている。
既存の方法はテキストベースの生成テクスチャ生成や3Dメッシュの編集をサポートするが、より直感的なインタラクションによってテクスチャイメージのピクセルを正確に制御するのに苦労することが多い。
2dイメージはドラッグインタラクションを使って生成的に編集できるが、このタイプの手法を3dメッシュテクスチャに直接適用すると、複数のビュー間の局所的な一貫性の欠如、エラーの蓄積、トレーニング時間の長い問題が発生する。
これらの課題に対処するため,DragTexと呼ばれる3次元メッシュテクスチャ生成手法を提案する。
拡散モデルを用いて、変形したシルエット近傍の局所的不整合テクスチャを異なるビュー間でブレンドし、局所的一貫性のあるテクスチャ編集を可能にする。
さらに、デコーダを微調整し、非ドラグ領域の復元誤差を低減し、全体のエラー蓄積を軽減する。
さらに,各ビューを個別にトレーニングするのではなく,複数視点画像を用いてloraをトレーニングすることで,トレーニング時間を著しく短縮する。
実験結果から,本手法は3次元メッシュ上での引張りテクスチャを効果的に実現し,ドラッグインタラクションの目的と整合する可塑性テクスチャを生成する。 Creating 3D textured meshes using generative artificial intelligence has garnered significant attention recently. While existing methods support text-based generative texture generation or editing on 3D meshes, they often struggle to precisely control pixels of texture images through more intuitive interaction. While 2D images can be edited generatively using drag interaction, applying this type of methods directly to 3D mesh textures still leads to issues such as the lack of local consistency among multiple views, error accumulation and long training times. To address these challenges, we propose a generative point-based 3D mesh texture editing method called DragTex. This method utilizes a diffusion model to blend locally inconsistent textures in the region near the deformed silhouette between different views, enabling locally consistent texture editing. Besides, we fine-tune a decoder to reduce reconstruction errors in the non-drag region, thereby mitigating overall error accumulation. Moreover, we train LoRA using multi-view images instead of training each view individually, which significantly shortens the training time. The experimental results show that our method effectively achieves dragging textures on 3D meshes and generates plausible textures that align with the desired intent of drag interaction. | 翻訳日:2024-03-06 18:09:15 公開日:2024-03-04 |
# 微分可能プログラミングによる不確かさ定量化を伴う結合パラメータとパラメータ化推定 Joint Parameter and Parameterization Inference with Uncertainty Quantification through Differentiable Programming ( http://arxiv.org/abs/2403.02215v1 ) ライセンス: Link先を確認 | Yongquan Qu, Mohamed Aziz Bhouri, Pierre Gentine | (参考訳) 数値化不確実性のある数値シミュレーションにおけるパラメータ化(または閉包)による未知およびサブグリッド物理過程の正確な表現は、天気予報から乱流シミュレーションまで多くの問題を支配している粗粒偏微分方程式を解くために重要である。
近年、機械学習(ML)がこれらのサブグリッドプロセスのモデル化にますます応用され、数値解法との統合によるハイブリッド物理-MLモデルの開発が進んでいる。
本稿では,物理パラメータと機械学習パラメータの同時推定と不確実性定量化のための新しい枠組みを提案する。
オンライントレーニングと高次元パラメータ空間内の効率的なベイズ推論によって達成されるこのアプローチは、微分可能プログラミングの機能によって実現される。
この概念実証は、機械学習と微分方程式を相乗的に組み合わせることで、微分可能プログラミングの実質的な可能性を強調し、ハイブリッド物理-mlモデリングの能力を高める。 Accurate representations of unknown and sub-grid physical processes through parameterizations (or closure) in numerical simulations with quantified uncertainty are critical for resolving the coarse-grained partial differential equations that govern many problems ranging from weather and climate prediction to turbulence simulations. Recent advances have seen machine learning (ML) increasingly applied to model these subgrid processes, resulting in the development of hybrid physics-ML models through the integration with numerical solvers. In this work, we introduce a novel framework for the joint estimation and uncertainty quantification of physical parameters and machine learning parameterizations in tandem, leveraging differentiable programming. Achieved through online training and efficient Bayesian inference within a high-dimensional parameter space, this approach is enabled by the capabilities of differentiable programming. This proof of concept underscores the substantial potential of differentiable programming in synergistically combining machine learning with differential equations, thereby enhancing the capabilities of hybrid physics-ML modeling. | 翻訳日:2024-03-06 18:08:51 公開日:2024-03-04 |
# 画像透かし除去のための知覚的自己教師付き学習ネットワーク Perceptive self-supervised learning network for noisy image watermark removal ( http://arxiv.org/abs/2403.02211v1 ) ライセンス: Link先を確認 | Chunwei Tian, Menghua Zheng, Bo Li, Yanning Zhang, Shichao Zhang, David Zhang | (参考訳) 一般的な手法は通常、ウォーターマーク除去モデルを学ぶために教師ありの方法で分解モデルを用いる。
しかし、実世界では参照画像を得るのが困難であり、カメラによる収集画像もノイズに悩まされていることは事実である。
本稿では,これらの欠点を克服するために,雑音の多い画像透かし除去(PSLNet)のための自己教師型学習ネットワークを提案する。
PSLNetはノイズや透かしを取り除くために並列ネットワークに依存している。
上層ネットワークはタスク分解のアイデアを使って、連続したノイズや透かしを取り除く。
下位ネットワークは劣化モデルアイデアを利用してノイズと透かしを同時に除去する。
具体的には、前述の一対の透かし画像が自己教師あり方式で得られ、一対のノイズ画像(すなわちノイズ画像と参照画像)が教師あり方式で取得される。
画像の明快性を高めるため、2つのサブネットワークを相互作用させ、取得したクリーンイメージを融合することにより、画像ウォーターマークの除去効果を構造情報および画素強調の観点から改善する。
テクスチャ情報を考慮した混合損失は、得られた画像と特徴を用いて雑音画像の透かし除去の頑健なモデルを実現する。
画像透かし除去のための一般的な畳み込みニューラルネットワーク(CNN)と比較して,提案手法が極めて有効であることを示す。
コードはhttps://github.com/hellloxiaotian/PSLNetで取得できる。 Popular methods usually use a degradation model in a supervised way to learn a watermark removal model. However, it is true that reference images are difficult to obtain in the real world, as well as collected images by cameras suffer from noise. To overcome these drawbacks, we propose a perceptive self-supervised learning network for noisy image watermark removal (PSLNet) in this paper. PSLNet depends on a parallel network to remove noise and watermarks. The upper network uses task decomposition ideas to remove noise and watermarks in sequence. The lower network utilizes the degradation model idea to simultaneously remove noise and watermarks. Specifically, mentioned paired watermark images are obtained in a self supervised way, and paired noisy images (i.e., noisy and reference images) are obtained in a supervised way. To enhance the clarity of obtained images, interacting two sub-networks and fusing obtained clean images are used to improve the effects of image watermark removal in terms of structural information and pixel enhancement. Taking into texture information account, a mixed loss uses obtained images and features to achieve a robust model of noisy image watermark removal. Comprehensive experiments show that our proposed method is very effective in comparison with popular convolutional neural networks (CNNs) for noisy image watermark removal. Codes can be obtained at https://github.com/hellloxiaotian/PSLNet. | 翻訳日:2024-03-06 18:08:32 公開日:2024-03-04 |
# 超伝導量子ビットのコヒーレント・散逸制御のためのパラメトリック多元結合アーキテクチャ Parametric multi-element coupling architecture for coherent and dissipative control of superconducting qubits ( http://arxiv.org/abs/2403.02203v1 ) ライセンス: Link先を確認 | G. B. P. Huber, F. A. Roy, L. Koch, I. Tsitsilin, J. Schirk, N. J. Glaser, N. Bruckmoser, C. Schweizer, J. Romeiro, G. Krylov, M. Singh, F. X. Haslbeck, M. Knudsen, A. Marx, F. Pfeiffer, C. Schneider, F. Wallner, D. Bunch, L. Richard, L. S\"odergren, K. Liegener, M. Werninghaus, S. Filipp | (参考訳) 量子コンピューティングのシステムはサイズと量子ビットの数が増え続けているため、制御能力のスケーリングにおける課題はますます重要になっている。
複数の量子システム間のコヒーレント相互作用を同時に仲介し、デコヒーレンス誤差を減らす効率的なスキームは、次世代量子プロセッサの制御オーバーヘッドを最小化する。
本稿では,可変パラメトリック相互作用に基づく超伝導量子ビットアーキテクチャを用いて,2量子ビットゲートの実行,リセット,リーク回復,量子ビットの読み出しを行う。
このアーキテクチャでは、パラメトリック駆動された多要素結合器は、駆動周波数に応じて、共振器と隣接量子ビットに選択的にキュービットを結合する。
2つの量子ビットと1つの読み出し共振器が単一結合回路を介して相互作用するシステムを検討し、99.30\pm 0.23 \%$の忠実度を持つ制御zゲート、99.80\pm 0.02 \%$の無条件で量子ビット基底状態を準備するリセット操作、98.5\pm 0.3 \%$のリーク回復操作を実験的に実証する。
さらに、パラメトリック読み出しを行い、シングルショットの割り当てフィリティが8.0\pm 0.4 \%$である。
これらの操作はすべて、単一のチューナブルカプラを用いて実現され、提案アーキテクチャの実験的実現可能性と、スケーラブルな量子プロセッサにおけるシステムの複雑さを軽減する可能性を示す。 As systems for quantum computing keep growing in size and number of qubits, challenges in scaling the control capabilities are becoming increasingly relevant. Efficient schemes to simultaneously mediate coherent interactions between multiple quantum systems and to reduce decoherence errors can minimize the control overhead in next-generation quantum processors. Here, we present a superconducting qubit architecture based on tunable parametric interactions to perform two-qubit gates, reset, leakage recovery and to read out the qubits. In this architecture, parametrically driven multi-element couplers selectively couple qubits to resonators and neighbouring qubits, according to the frequency of the drive. We consider a system with two qubits and one readout resonator interacting via a single coupling circuit and experimentally demonstrate a controlled-Z gate with a fidelity of $98.30\pm 0.23 \%$, a reset operation that unconditionally prepares the qubit ground state with a fidelity of $99.80\pm 0.02 \%$ and a leakage recovery operation with a $98.5\pm 0.3 \%$ success probability. Furthermore, we implement a parametric readout with a single-shot assignment fidelity of $88.0\pm 0.4 \%$. These operations are all realized using a single tunable coupler, demonstrating the experimental feasibility of the proposed architecture and its potential for reducing the system complexity in scalable quantum processors. | 翻訳日:2024-03-06 18:08:12 公開日:2024-03-04 |
# 医用画像解析のためのAIにおけるドメイン適応・説明可能性・公正性:3次元胸部CTスキャンによるCOVID-19の診断 Domain adaptation, Explainability & Fairness in AI for Medical Image Analysis: Diagnosis of COVID-19 based on 3-D Chest CT-scans ( http://arxiv.org/abs/2403.02192v1 ) ライセンス: Link先を確認 | Dimitrios Kollias and Anastasios Arsenos and Stefanos Kollias | (参考訳) 本稿では,2024年のコンピュータビジョン・パターン認識会議(CVPR)のワークショップにおいて,DEF-AI-MIA COV19Dコンペティションについて述べる。
この大会は、iccv 2021、eccv 2022、icassp 2023の3つの国際会議の枠組みで開催される第4回大会である。
2つの課題がある。
i)covid-19 の検出及び検出
ii) Covid-19 Domain Adaptation
コンペティションはCOV19-CT-DBデータベースのデータを用いており、このデータベースには大量の胸部CTスキャンシリーズが含まれている。
各胸部ctスキャンシリーズは2次元ctスライスのシーケンスで構成されており、その数は50から700である。
COV19-CT-DBからトレーニング、検証、テストデータセットが抽出され、両方のチャレンジの参加者に提供される。
本論文では, チャレンジで使用するベースラインモデルと, 得られた性能について述べる。 The paper presents the DEF-AI-MIA COV19D Competition, which is organized in the framework of the 'Domain adaptation, Explainability, Fairness in AI for Medical Image Analysis (DEF-AI-MIA)' Workshop of the 2024 Computer Vision and Pattern Recognition (CVPR) Conference. The Competition is the 4th in the series, following the first three Competitions held in the framework of ICCV 2021, ECCV 2022 and ICASSP 2023 International Conferences respectively. It includes two Challenges on: i) Covid-19 Detection and ii) Covid-19 Domain Adaptation. The Competition use data from COV19-CT-DB database, which is described in the paper and includes a large number of chest CT scan series. Each chest CT scan series consists of a sequence of 2-D CT slices, the number of which is between 50 and 700. Training, validation and test datasets have been extracted from COV19-CT-DB and provided to the participants in both Challenges. The paper presents the baseline models used in the Challenges and the performance which was obtained respectively. | 翻訳日:2024-03-06 18:07:44 公開日:2024-03-04 |
# 蒸留ChatGPTトピックと感性モデリングとファイナンスへの応用 Distilled ChatGPT Topic & Sentiment Modeling with Applications in Finance ( http://arxiv.org/abs/2403.02185v1 ) ライセンス: Link先を確認 | Olivier Gandouet, Mouloud Belbahri, Armelle Jezequel, Yuriy Bodjov | (参考訳) 本研究では、ChatGPTを用いて、容易に解釈可能な特徴を生成する合理化モデルを作成する。
これらの機能は、決算報告の収益評価に使用される。
本稿では,知識蒸留と伝達学習を融合した学習手法を詳述する。その結果,軽量なトピック分類モデルと感情分類モデルが精度を著しく損なうことなく実現される。
これらのモデルは専門家によってアノテーションされたデータセットを通して評価される。
さらに本論文では, 定量的投資シナリオにおいて, 生成した特徴を効果的に活用する方法について, 2つの実践事例を考察した。 In this study, ChatGPT is utilized to create streamlined models that generate easily interpretable features. These features are then used to evaluate financial outcomes from earnings calls. We detail a training approach that merges knowledge distillation and transfer learning, resulting in lightweight topic and sentiment classification models without significant loss in accuracy. These models are assessed through a dataset annotated by experts. The paper also delves into two practical case studies, highlighting how the generated features can be effectively utilized in quantitative investing scenarios. | 翻訳日:2024-03-06 18:07:19 公開日:2024-03-04 |
# LLMの全ての層は推論時に必要であるとは限らない Not all Layers of LLMs are Necessary during Inference ( http://arxiv.org/abs/2403.02181v1 ) ライセンス: Link先を確認 | Siqi Fan, Xin Jiang, Xiang Li, Xuying Meng, Peng Han, Shuo Shang, Aixin Sun, Yequan Wang, Zhongyuan Wang | (参考訳) 大規模言語モデル(LLM)の推論フェーズは非常に高価である。
LLMの理想的な推論段階は、その能力(例えば、一般化と文脈内学習能力)を維持しながら少ない計算資源を利用することができる。
本稿では,LLM推論の間,簡単なインスタンスに浅いレイヤ,難しいインスタンスに深いレイヤを使用できるか,という問いに答える。
この質問に答えるために、まず、タスク間で活性化されたレイヤを統計的に分析することで、すべてのレイヤが推論中に必要ではないことを示す。
そこで我々はAdaInferという簡単なアルゴリズムを提案し,入力インスタンスを適応的に予測終了モーメントを決定する。
さらに重要なことに、adainferはllmパラメータを変更しず、タスク間の一般化性を維持する。
有名なLLM(Llama2シリーズとOPT)の実験では、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを節約し、同等のパフォーマンスを維持している。
さらに、この方法は他のモデル加速技術と直交し、推論効率をさらに高める可能性がある。 The inference phase of Large Language Models (LLMs) is very expensive. An ideal inference stage of LLMs could utilize fewer computational resources while still maintaining its capabilities (e.g., generalization and in-context learning ability). In this paper, we try to answer the question, "During LLM inference, can we use shallow layers for easy instances; and deep layers for hard ones?" To answer this question, we first indicate that Not all Layers are Necessary during Inference by statistically analyzing the activated layers across tasks. Then, we propose a simple algorithm named AdaInfer to determine the inference termination moment based on the input instance adaptively. More importantly, AdaInfer does not alter LLM parameters and maintains generalizability across tasks. Experiments on well-known LLMs (i.e., Llama2 series and OPT) show that AdaInfer saves an average of 14.8% of computational resources, even up to 50% on sentiment tasks, while maintaining comparable performance. Additionally, this method is orthogonal to other model acceleration techniques, potentially boosting inference efficiency further. | 翻訳日:2024-03-06 18:07:09 公開日:2024-03-04 |
# アルミニウムジョセフソン接合の微細構造と熱焼鈍による電気的特性変化 Aluminum Josephson junction microstructure and electrical properties modification with thermal annealing ( http://arxiv.org/abs/2403.02179v1 ) ライセンス: Link先を確認 | N. D. Korshakov, D. O. Moskalev, A. A. Soloviova, D. A. Moskaleva, E. S. Lotkov, A. R. Ibragimov, M. V. Androschuk, I. A. Ryzhikov, Y. V. Panfilov and I. A. Rodionov | (参考訳) Al/AlOx/Al Josephson接合に基づく超伝導量子ビットは、普遍量子コンピュータの物理的実装において最も有望な候補の一つである。
スケーラビリティと最先端のナノエレクトロニクスプロセスとの互換性のため、単一のシリコンチップ上で数百キュービットを製造できる。
しかし, トンネル障壁AlOxを含む非晶質誘電体中の2レベル系が原因で, これらの系のデコヒーレンスが大きな問題となっている。
非晶質バリア酸化物(AlOx)を結晶化するためのジョセフソン接合熱焼鈍プロセスの開発について報告する。
室温抵抗に対する熱焼鈍パラメータの依存性について検討した。
本手法では, ジョゼフソン接合抵抗を175%向上させるだけでなく, 精度10%の精度で60%減少させることができた。
最後に,トンネルバリアの構造変化に関する理論的仮定を提案する。
提案する熱アニーリングアプローチは、広く使用される固定周波数トランスモン量子ビットの安定で再現可能なトンネル障壁とスケーラブルな周波数トリミングを形成するのに使うことができる。 Superconducting qubits based on Al/AlOx/Al Josephson junction are one of the most promising candidates for the physical implementation of universal quantum computers. Due to scalability and compatibility with the state-of-the-art nanoelectronic processes one can fabricate hundreds of qubits on a single silicon chip. However, decoherence in these systems caused by two-level-systems in amorphous dielectrics, including a tunneling barrier AlOx, is one of the major problems. We report on a Josephson junction thermal annealing process development to crystallize an amorphous barrier oxide (AlOx). The dependences of the thermal annealing parameters on the room temperature resistance are obtained. The developed method allows not only to increase the Josephson junction resistance by 175%, but also to decrease by 60% with precisions of 10% in Rn. Finally, theoretical assumptions about the structure modification in tunnel barrier are proposed. The suggested thermal annealing approach can be used to form a stable and reproducible tunneling barriers and scalable frequency trimming for a widely used fixed-frequency transmon qubits. | 翻訳日:2024-03-06 18:06:51 公開日:2024-03-04 |
# マスキング思考: 部分的推論ステップをマスキングするだけで言語モデルの数学的推論学習を改善する Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models ( http://arxiv.org/abs/2403.02178v1 ) ライセンス: Link先を確認 | Changyu Chen, Xiting Wang, Ting-En Lin, Ang Lv, Yuchuan Wu, Xin Gao, Ji-Rong Wen, Rui Yan and Yongbin Li | (参考訳) 推論タスクでは、小さなエラーでさえ不正確な結果にカスケードし、そのようなドメインにおける大規模言語モデルの最適性能を低下させる。
初期の微調整アプローチでは、高コストではあるものの、人間のラベル付け、より大きなモデル、あるいは自己サンプリングからのより正確な監視信号を活用することで、これを緩和しようとした。
逆に、外部リソースを回避し、代わりに入力に摂動を導入する方法を開発した。
私たちのトレーニングアプローチでは、思考連鎖内の特定のトークンをランダムにマスクしています。
GSM8Kで微調整を施すと、標準的な教師付き微調整よりも5%精度が向上し、わずかなコード修正と追加のラベル付けは行わなかった。
また、既存の方法と相補的である。
関連するデータ拡張手法と統合すると、GSM8Kの精度が平均3%向上し、さまざまな品質とサイズを持つ5つのデータセットと2つのベースモデルでMATHの精度が1%向上する。
さらに, ケーススタディと定量的分析により, この改善の背景にあるメカニズムを解明し, 長距離依存, 特に質問に関するモデルに対する優れたサポートを提供する可能性が示唆された。
この強化は、質問や事前ステップにおける前提の理解を深める可能性がある。
私たちのコードはGithubで入手可能です。 In reasoning tasks, even a minor error can cascade into inaccurate results, leading to suboptimal performance of large language models in such domains. Earlier fine-tuning approaches sought to mitigate this by leveraging more precise supervisory signals from human labeling, larger models, or self-sampling, although at a high cost. Conversely, we develop a method that avoids external resources, relying instead on introducing perturbations to the input. Our training approach randomly masks certain tokens within the chain of thought, a technique we found to be particularly effective for reasoning tasks. When applied to fine-tuning with GSM8K, this method achieved a 5% improvement in accuracy over standard supervised fine-tuning with a few codes modified and no additional labeling effort. Furthermore, it is complementary to existing methods. When integrated with related data augmentation methods, it leads to an average improvement of 3% improvement in GSM8K accuracy and 1% improvement in MATH accuracy across five datasets of various quality and size, as well as two base models. We further investigate the mechanisms behind this improvement through case studies and quantitative analysis, suggesting that our approach may provide superior support for the model in capturing long-distance dependencies, especially those related to questions. This enhancement could deepen understanding of premises in questions and prior steps. Our code is available at Github. | 翻訳日:2024-03-06 18:06:34 公開日:2024-03-04 |
# ProTrix: 意味コンテキストを持つテーブル上での計画と推論のためのモデルの構築 ProTrix: Building Models for Planning and Reasoning over Tables with Sentence Context ( http://arxiv.org/abs/2403.02177v1 ) ライセンス: Link先を確認 | Zirui Wu and Yansong Feng | (参考訳) テーブルは様々なドメインの情報伝達において重要な役割を担い、構造化された方法でデータを整理・提示するために必要なツールとして機能する。
文コンテキストを持つテーブル上で異なるタイプのユーザクエリに応答するPlan-then-Reasonフレームワークを提案する。
フレームワークはまず、コンテキスト上の推論パスを計画し、次に各ステップをプログラムベースまたはテキスト推論に割り当てて最終回答に到達する。
フレームワークに従う命令チューニングセットTrixInstructを構築します。
私たちのデータセットは、プログラムが解決できないクエリや、計画や推論能力を得るためにテーブルと文の情報を組み合わせる必要があるクエリをカバーします。
我々は、TrixInstruct上でLlama-2-7Bを微調整することでProTrixを提示する。
実験の結果,ProTrixは多種多様なタスクに一般化し,GPT-3.5-turboに匹敵する性能を示した。
さらに、複雑な自由形式の質問に答えるために、ProTrixが正確で忠実な説明を生成することを実証する。
我々の研究は、一般化可能性と解釈可能性を備えた表型タスクに対するモデルに対する計画と推論能力の重要性を強調している。
私たちはデータセットとモデルをhttps://github.com/williamzr/protrixでリリースします。 Tables play a crucial role in conveying information in various domains, serving as indispensable tools for organizing and presenting data in a structured manner. We propose a Plan-then-Reason framework to answer different types of user queries over tables with sentence context. The framework first plans the reasoning paths over the context, then assigns each step to program-based or textual reasoning to reach the final answer. We construct an instruction tuning set TrixInstruct following the framework. Our dataset cover queries that are program-unsolvable or need combining information from tables and sentences to obtain planning and reasoning abilities. We present ProTrix by finetuning Llama-2-7B on TrixInstruct. Our experiments show that ProTrix generalizes to diverse tabular tasks and achieves comparable performance to GPT-3.5-turbo. We further demonstrate that ProTrix can generate accurate and faithful explanations to answer complex free-form questions. Our work underscores the importance of the planning and reasoning abilities towards a model over tabular tasks with generalizability and interpretability. We will release our dataset and model at https://github.com/WilliamZR/ProTrix. | 翻訳日:2024-03-06 18:06:11 公開日:2024-03-04 |
# EEE-QA: 効果的で効率的な質問応答 EEE-QA: Exploring Effective and Efficient Question-Answer Representations ( http://arxiv.org/abs/2403.02176v1 ) ライセンス: Link先を確認 | Zhanghao Hu, Yijun Yang, Junjie Xu, Yifu Qiu, Pinzhen Chen | (参考訳) 質問に対する現在のアプローチは、RoBERTaのような事前訓練された言語モデル(PLM)に依存している。
この研究は、既存のq&aエンコーディング規約に挑戦し、より細かい表現を探求する。
品質向上のための質問表現として,開始文トークンを用いた場合と比較して,様々なプーリング手法のテストから始める。
次に,質問に対するすべての回答候補を同時に埋め込む機会を探る。
これにより、回答の選択間の相互参照が可能になり、メモリ使用量の削減による推論スループットが向上する。
単純さと有効性にもかかわらず、これらの手法は現在のフレームワークではまだ広く研究されていない。
我々は,知識グラフを統合することなく,異なるPLMを用いて実験を行う。
その結果,提案手法のメモリ効率は性能を犠牲にすることなく向上した。
実際、当社の作業は38-100%のスループットを向上し、コンシューマグレードのGPUでは26-65%のスピードアップを実現しています。
本研究は,自然言語処理における質問応答タスクの表現品質と効率の両面で,有望な方向性でコミュニティにメッセージを送信する。 Current approaches to question answering rely on pre-trained language models (PLMs) like RoBERTa. This work challenges the existing question-answer encoding convention and explores finer representations. We begin with testing various pooling methods compared to using the begin-of-sentence token as a question representation for better quality. Next, we explore opportunities to simultaneously embed all answer candidates with the question. This enables cross-reference between answer choices and improves inference throughput via reduced memory usage. Despite their simplicity and effectiveness, these methods have yet to be widely studied in current frameworks. We experiment with different PLMs, and with and without the integration of knowledge graphs. Results prove that the memory efficacy of the proposed techniques with little sacrifice in performance. Practically, our work enhances 38-100% throughput with 26-65% speedups on consumer-grade GPUs by allowing for considerably larger batch sizes. Our work sends a message to the community with promising directions in both representation quality and efficiency for the question-answering task in natural language processing. | 翻訳日:2024-03-06 18:05:50 公開日:2024-03-04 |
# LeBenchmarkはフランス語の構文について何を学んだか? What has LeBenchmark Learnt about French Syntax? ( http://arxiv.org/abs/2403.02173v1 ) ライセンス: Link先を確認 | Zdravko Dugonji\'c, Adrien Pupier, Benjamin Lecouteux, Maximin Coavoux | (参考訳) 本報告では, 音声音声の7k時間に事前学習した音響モデルであるLeBenchmarkを構文情報として探索するための一連の実験について報告する。
事前学習された音響モデルは、自動音声認識、音声翻訳、音声言語理解、音声解析などの下流の音声タスクにますます使われている。
それらは非常に低いレベルの情報(生の音声信号)で訓練され、明確な語彙知識を持っていない。
それにもかかわらず、彼らはより高いレベルの言語知識を必要とするタスクについて合理的な結果を得た。
その結果、これらのモデルが構文情報をエンコードするかどうかが問題となる。
我々は,orf\'eo treebankを用いて,構文のためのlebenchmarkの各表現層を調べ,いくつかの構文情報を学習したことを観察する。
その結果, ネットワークの中間層から構文情報を抽出しやすくなり, その後, 極めて急激な減少が観測された。 The paper reports on a series of experiments aiming at probing LeBenchmark, a pretrained acoustic model trained on 7k hours of spoken French, for syntactic information. Pretrained acoustic models are increasingly used for downstream speech tasks such as automatic speech recognition, speech translation, spoken language understanding or speech parsing. They are trained on very low level information (the raw speech signal), and do not have explicit lexical knowledge. Despite that, they obtained reasonable results on tasks that requires higher level linguistic knowledge. As a result, an emerging question is whether these models encode syntactic information. We probe each representation layer of LeBenchmark for syntax, using the Orf\'eo treebank, and observe that it has learnt some syntactic information. Our results show that syntactic information is more easily extractable from the middle layers of the network, after which a very sharp decrease is observed. | 翻訳日:2024-03-06 18:05:36 公開日:2024-03-04 |
# GANベースのオートエンコーダによる大規模宇宙構造進化予測 Predicting large scale cosmological structure evolution with GAN-based autoencoders ( http://arxiv.org/abs/2403.02171v1 ) ライセンス: Link先を確認 | Marion Ullmo, Nabila Aghnim, Aur\'elien Decelle, Miguel Aragon-Calvo | (参考訳) 宇宙シミュレーションは初期状態からの大規模構造形成の予測と理解において重要な役割を果たす。
我々は,GANをベースとしたオートエンコーダ(AE)を用いて,シミュレーション中の構造進化を予測する。
aesは、ダークマター(dm)フィールドの進化を記述する2次元および3次元のn体シミュレーションから発行される画像と立方体に基づいて訓練される。
aesは密度場のみを入力として,dmフィールドの2次元シミュレーションにおける構造変化を十分に予測できるが,同様の条件下では3次元シミュレーションの精度が著しく低下することがわかった。
しかし、入力として速度場を提供することは、入力とターゲットの時間差に関係なく、同様の予測で結果を大幅に改善する。 Cosmological simulations play a key role in the prediction and understanding of large scale structure formation from initial conditions. We make use of GAN-based Autoencoders (AEs) in an attempt to predict structure evolution within simulations. The AEs are trained on images and cubes issued from respectively 2D and 3D N-body simulations describing the evolution of the dark matter (DM) field. We find that while the AEs can predict structure evolution for 2D simulations of DM fields well, using only the density fields as input, they perform significantly more poorly in similar conditions for 3D simulations. However, additionally providing velocity fields as inputs greatly improves results, with similar predictions regardless of time-difference between input and target. | 翻訳日:2024-03-06 18:05:21 公開日:2024-03-04 |
# VITAMIN:マルチエージェントシステムのモデルチェックのための構成フレームワーク VITAMIN: A Compositional Framework for Model Checking of Multi-Agent Systems ( http://arxiv.org/abs/2403.02170v1 ) ライセンス: Link先を確認 | Angelo Ferrando and Vadim Malvone | (参考訳) マルチエージェントシステム(MAS)の検証は重要な課題である。
この課題に対処するためには様々なアプローチや方法論が存在するが、それらをサポートするツールは必ずしも容易に利用できるわけではない。
そのようなツールが利用できる場合でも、ハードコーディングされる傾向があり、構成性が欠如しており、急な学習曲線のため使用が難しい。
本稿では,モジュール方式および多目的方式でMASの形式的検証を行う手法と,VITAMINと命名したプロトタイプを提案する。
MASの既存の検証手法やフレームワークとは異なり、VITAMINは様々なロジック(検証するプロパティを指定するために)とモデル(検証するプロパティを決定するために)に容易に対応できるように構築されている。 The verification of Multi-Agent Systems (MAS) poses a significant challenge. Various approaches and methodologies exist to address this challenge; however, tools that support them are not always readily available. Even when such tools are accessible, they tend to be hard-coded, lacking in compositionality, and challenging to use due to a steep learning curve. In this paper, we introduce a methodology designed for the formal verification of MAS in a modular and versatile manner, along with an initial prototype, that we named VITAMIN. Unlike existing verification methodologies and frameworks for MAS, VITAMIN is constructed for easy extension to accommodate various logics (for specifying the properties to verify) and models (for determining on what to verify such properties). | 翻訳日:2024-03-06 18:05:08 公開日:2024-03-04 |
# トレーニングニューラルネットワークにおける低コスト不確実性の予測剛性形式 A prediction rigidity formalism for low-cost uncertainties in trained neural networks ( http://arxiv.org/abs/2403.02251v1 ) ライセンス: Link先を確認 | Filippo Bigi, Sanggyu Chong, Michele Ceriotti, and Federico Grasselli | (参考訳) 回帰法は科学的・技術的応用の基礎である。
しかし、適合したモデルはトレーニング領域以外では非常に信頼できないため、不確かさの定量化が多くの応用において不可欠である。
制約付き最適化問題の解法に基づいて, 任意の事前学習レグレプタの不確実性を得るために, 予測剛性 (prediction rigidity) を提案する。
我々は,我々のフレームワークとベイズ推定の強い関係を確立し,ニューラルネットに適用可能なラスト層近似法を開発した。
この拡張は、ニューラルネットワーク自体やトレーニング手順を変更することなく、安価な不確実性を提供する。
簡単な玩具モデルから化学や気象学への応用まで幅広い回帰タスクにおいて,本手法の有効性を示す。 Regression methods are fundamental for scientific and technological applications. However, fitted models can be highly unreliable outside of their training domain, and hence the quantification of their uncertainty is crucial in many of their applications. Based on the solution of a constrained optimization problem, we propose "prediction rigidities" as a method to obtain uncertainties of arbitrary pre-trained regressors. We establish a strong connection between our framework and Bayesian inference, and we develop a last-layer approximation that allows the new method to be applied to neural networks. This extension affords cheap uncertainties without any modification to the neural network itself or its training procedure. We show the effectiveness of our method on a wide range of regression tasks, ranging from simple toy models to applications in chemistry and meteorology. | 翻訳日:2024-03-06 18:00:21 公開日:2024-03-04 |
# 非自己回帰シーケンス-シーケンスビジョン-ランゲージモデル Non-autoregressive Sequence-to-Sequence Vision-Language Models ( http://arxiv.org/abs/2403.02249v1 ) ライセンス: Link先を確認 | Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto | (参考訳) sequence-to-sequence vision-languageモデルにはpromiseがあるが、その適用性は、予測を生成する自己回帰的な方法による推論レイテンシによって制限される。
本稿では,クエリ-CTC損失を学習し,デコーダ内の複数の推論経路を疎外する並列デコードシーケンス・シーケンス・シーケンス・ビジョン言語モデルを提案する。
これにより、自己回帰モデルのように条件付き分布に制限するのではなく、トークンのジョイント分布をモデル化できる。
NARVLは、最先端の自己回帰モデルと同等の性能を実現するが、推論時間では高速であり、トークンのシーケンシャルな生成に伴う線形複雑性から一定時間の合同推論のパラダイムに還元される。 Sequence-to-sequence vision-language models are showing promise, but their applicability is limited by their inference latency due to their autoregressive way of generating predictions. We propose a parallel decoding sequence-to-sequence vision-language model, trained with a Query-CTC loss, that marginalizes over multiple inference paths in the decoder. This allows us to model the joint distribution of tokens, rather than restricting to conditional distribution as in an autoregressive model. The resulting model, NARVL, achieves performance on-par with its state-of-the-art autoregressive counterpart, but is faster at inference time, reducing from the linear complexity associated with the sequential generation of tokens to a paradigm of constant time joint inference. | 翻訳日:2024-03-06 18:00:09 公開日:2024-03-04 |
# Birbal: 効率的な7Bインストラクトモデル Birbal: An efficient 7B instruct-model fine-tuned with curated datasets ( http://arxiv.org/abs/2403.02247v1 ) ライセンス: Link先を確認 | Ashvini Kumar Jindal, Pawan Kumar Rajpoot, Ankur Parikh | (参考訳) LLMOpsはハードウェア要件のためにかなりのコストがかかり、アクセシビリティを損なう。
さらに、モデルのトレーニング方法とデータの透明性の欠如は、モデルの大部分を再現不能にします。
これらの課題に取り組むため、LLM Effective ChallengeがNeurIPS Workshopで紹介され、24時間フレームで単一のGPU(RTX 4090またはA100 with 40GB)を微調整することで、基礎モデルをさまざまなタスクに適応することを目的としていた。
本稿では,1つのRTX 4090を16時間微調整したMistral-7Bベースの勝利モデルであるBirbalを紹介する。
Birbalの成功は、様々なタスクをカバーする高品質なインストラクションのキュレーションであり、結果として第2のQwen-14Bベースのサブミッションよりも35%パフォーマンスが改善される。 LLMOps incur significant costs due to hardware requirements, hindering their widespread accessibility. Additionally, a lack of transparency in model training methods and data contributes to the majority of models being non-reproducible. To tackle these challenges, the LLM Efficiency Challenge was introduced at NeurIPS Workshop, aiming to adapt foundation models on a diverse set of tasks via fine-tuning on a single GPU (RTX 4090 or A100 with 40GB) within a 24-hour timeframe. In this system description paper, we introduce Birbal, our Mistral-7B based winning model, fine-tuned on a single RTX 4090 for 16 hours. Birbal's success lies in curating high-quality instructions covering diverse tasks, resulting in a 35% performance improvement over second-best Qwen-14B based submission. | 翻訳日:2024-03-06 17:59:52 公開日:2024-03-04 |
# phantom: パーソナリティが大規模言語モデルにおける思考理論推論に与える影響 PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large Language Models ( http://arxiv.org/abs/2403.02246v1 ) ライセンス: Link先を確認 | Fiona Anting Tan, Gerard Christopher Yeo, Fanyou Wu, Weijie Xu, Vinija Jain, Aman Chadha, Kokil Jaidka, Yang Liu, See-Kiong Ng | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理における多くのタスクにおいて、その能力が人間に匹敵する、あるいは優れていることを示している。
この進歩にもかかわらず、LLMは人類が自然に得意とする社会的認知的推論にはまだ不十分である。
特定の性格特性とToM推論の関連性に関する心理学的研究からインスピレーションを得て,LLMの能力に影響を及ぼすプロンプトの過敏性に関する工学的な研究から,LLMにおけるパーソナリティの誘導がToM推論能力にどのように影響するかを考察した。
その結果、3つの異なるtomタスクにおけるllmsの推論能力にある種の誘導的パーソナリティが影響する可能性が示唆された。
特にダークトライアドの特徴は、様々なToMタスクにわたるGPT-3.5、Llama 2、MistralのようなLCMに大きな変動効果を持つ。
GPT-3.5, Llama 2, Mistral などの LLM の性格特性は, パーソナリティ・プロンプトによって制御可能となる。
llmsを使う場合、ロールプレイが共通の戦略である今日のランドスケープでは、パーソナリティを持つ特定のペルソナを採用するモデルが予期しない方法で推論能力を変える可能性があるため、この研究は注意の必要性を強調している。 Recent advances in large language models (LLMs) demonstrate that their capabilities are comparable, or even superior, to humans in many tasks in natural language processing. Despite this progress, LLMs are still inadequate at social-cognitive reasoning, which humans are naturally good at. Drawing inspiration from psychological research on the links between certain personality traits and Theory-of-Mind (ToM) reasoning, and from prompt engineering research on the hyper-sensitivity of prompts in affecting LLMs capabilities, this study investigates how inducing personalities in LLMs using prompts affects their ToM reasoning capabilities. Our findings show that certain induced personalities can significantly affect the LLMs' reasoning capabilities in three different ToM tasks. In particular, traits from the Dark Triad have a larger variable effect on LLMs like GPT-3.5, Llama 2, and Mistral across the different ToM tasks. We find that LLMs that exhibit a higher variance across personality prompts in ToM also tends to be more controllable in personality tests: personality traits in LLMs like GPT-3.5, Llama 2 and Mistral can be controllably adjusted through our personality prompts. In today's landscape where role-play is a common strategy when using LLMs, our research highlights the need for caution, as models that adopt specific personas with personalities potentially also alter their reasoning abilities in an unexpected manner. | 翻訳日:2024-03-06 17:59:36 公開日:2024-03-04 |
# ディープニューラルネットワークの低精度トレーニングのためのより良いスケジューリング Better Schedules for Low Precision Training of Deep Neural Networks ( http://arxiv.org/abs/2403.02243v1 ) ライセンス: Link先を確認 | Cameron R. Wolfe and Anastasios Kyrillidis | (参考訳) 低精度トレーニングは、ディープニューラルネットワーク(DNN)のトレーニングの計算オーバーヘッドを大幅に削減する。
このような技術は多く存在するが、循環精度訓練(CPT)は、サイクルスケジュールに従ってトレーニング全体の精度を動的に調整し、DNN性能を実際に改善しながら、訓練効率を著しく改善する。
既存のCPT実装では、一般的な学習率スケジュール(例えば、サイクリックコサインスケジュール)を、代替のスケジューリングオプションと比較することなく、低精度のトレーニングに使用する。
我々は、CPTスケジュールの多種多様なセットを定義し、そのパフォーマンスを様々なDNNトレーニング体制で分析し、その一部は、低精度のトレーニング文献(例えば、グラフニューラルネットワークを用いたノード分類)で探索されていない。
これらの実験から,cptスケジュールを選択するためのベストプラクティスを導出するとともに,トレーニング効率とモデルパフォーマンスをさらに向上させる代替のcptスケジュールを見出した。
さらに、モデルの性能とトレーニングコストの間には相関関係が存在し、基礎となるCPTスケジュールの変更はこれらの2変数間のトレードオフを制御することができる。
モデル性能とトレーニングコストの直接相関性を説明するために,量子化訓練と臨界学習期間の関係を考察し,積極的な量子化はモデル性能を永久に損なう学習障害の一形態であることが示唆された。 Low precision training can significantly reduce the computational overhead of training deep neural networks (DNNs). Though many such techniques exist, cyclic precision training (CPT), which dynamically adjusts precision throughout training according to a cyclic schedule, achieves particularly impressive improvements in training efficiency, while actually improving DNN performance. Existing CPT implementations take common learning rate schedules (e.g., cyclical cosine schedules) and use them for low precision training without adequate comparisons to alternative scheduling options. We define a diverse suite of CPT schedules and analyze their performance across a variety of DNN training regimes, some of which are unexplored in the low precision training literature (e.g., node classification with graph neural networks). From these experiments, we discover alternative CPT schedules that offer further improvements in training efficiency and model performance, as well as derive a set of best practices for choosing CPT schedules. Going further, we find that a correlation exists between model performance and training cost, and that changing the underlying CPT schedule can control the tradeoff between these two variables. To explain the direct correlation between model performance and training cost, we draw a connection between quantized training and critical learning periods, suggesting that aggressive quantization is a form of learning impairment that can permanently damage model performance. | 翻訳日:2024-03-06 17:59:06 公開日:2024-03-04 |
# 量子コンピューティング:ビジョンと課題 Quantum Computing: Vision and Challenges ( http://arxiv.org/abs/2403.02240v1 ) ライセンス: Link先を確認 | Sukhpal Singh Gill, Oktay Cetinkaya, Stefano Marrone, Elias F. Combarro, Daniel Claudino, David Haunschild, Leon Schlote, Huaming Wu, Carlo Ottaviani, Xiaoyuan Liu, Sree Pragna Machupalli, Kamalpreet Kaur, Priyansh Arora, Ji Liu, Salman Shamshad, Ahmed Farouk, Houbing Herbert Song, Steve Uhlig and Kotagiri Ramamohanarao | (参考訳) 量子コンピューティングの最近の開発は、絡み合い、重ね合わせ、その他の量子基本概念を利用しており、従来のコンピューティングよりも実質的な処理の利点を提供する能力を持っている。
これらの量子機能は、従来の計算手法では解けない多くの難しい問題を解くのに役立つ。
これらの問題は、量子力学のモデリング、ロジスティクス、化学ベースの進歩、薬物の設計、統計科学、持続可能なエネルギー、銀行、信頼できる通信、量子化学工学といった分野にある。
ここ数年、量子ソフトウェアとアルゴリズムの創出、および量子ハードウェアの研究が目覚ましい進歩を見せており、量子コンピュータの実現の見通しを大きく前進させてきた。
この分野に関する総合的な文献研究を行うことで、現状を把握し、量子コンピューティング業界で働く研究コミュニティからかなりの注意を必要とする未解決の問題を発見できるだろう。
本稿では,量子コンピューティングの理解を深めるために,この領域における現在の研究に基づく基礎とビジョンについて考察する。
我々は、量子コンピュータのハードウェアの進歩とその後の量子暗号、量子ソフトウェア、高scalability量子コンピュータの発展について論じる。
量子技術の研究と開発における多くの潜在的な課題とエキサイティングな新しいトレンドが、より広い議論のために本論文で強調されている。 The recent development of quantum computing, which makes use of entanglement, superposition, and other quantum fundamental concepts, has the ability to provide substantial processing advantages over traditional computing. These quantum features help solve many hard problems that cannot be solved with traditional computing methods. These problems are in areas like modeling quantum mechanics, logistics, making chemical-based advances, designing drugs, statistical science, sustainable energy, banking, reliable communication, and quantum chemical engineering. The last few years have witnessed remarkable advancements in quantum software and algorithm creation as well as quantum hardware research, which have significantly advanced the prospect of the realization of quantum computers. It would be helpful to have comprehensive literature research on this area to grasp the current status and find outstanding problems that require considerable attention from the research community working in the quantum computing industry. To better understand quantum computing, this paper examines the foundations and vision based on current research in this area. We discuss cutting-edge developments in quantum computer hardware advancement, and subsequent advances in quantum cryptography, quantum software, and high-scalability quantum computers. Many potential challenges and exciting new trends for quantum technology research and development are highlighted in this paper for a wider debate. | 翻訳日:2024-03-06 17:58:26 公開日:2024-03-04 |
# インテントベースネットワークマネジメントに向けて:5gコアネットワークにおけるインテント抽出のための大規模言語モデル Towards Intent-Based Network Management: Large Language Models for Intent Extraction in 5G Core Networks ( http://arxiv.org/abs/2403.02238v1 ) ライセンス: Link先を確認 | Dimitrios Michael Manias and Ali Chouman and Abdallah Shami | (参考訳) 機械学習と人工知能(ml/ai)を第5世代(5g)ネットワークに統合することで、ネットワークインテリジェンスの限界が顕在化し、現在のデバイスや次世代デバイスに対する厳しい要求が高まっている。
このユビキタスインテリジェンスへの移行は、ユーザとネットワークオペレータ間の高接続性、同期性、エンドツーエンドの通信を必要とする。
インテントベースのネットワークは、人間の行動、役割、責任を減らし、新規な抽出と自動ネットワーク管理の解釈へと移行する上で重要な要素である。
本稿では,5Gおよび次世代インテントベースネットワークのためのLLM(Large Language Model)の開発について紹介し,完全なネットワークインテリジェンスのためのエンドツーエンドインテントベースネットワークを実現するためのLCM開発と統合について考察する。 The integration of Machine Learning and Artificial Intelligence (ML/AI) into fifth-generation (5G) networks has made evident the limitations of network intelligence with ever-increasing, strenuous requirements for current and next-generation devices. This transition to ubiquitous intelligence demands high connectivity, synchronicity, and end-to-end communication between users and network operators, and will pave the way towards full network automation without human intervention. Intent-based networking is a key factor in the reduction of human actions, roles, and responsibilities while shifting towards novel extraction and interpretation of automated network management. This paper presents the development of a custom Large Language Model (LLM) for 5G and next-generation intent-based networking and provides insights into future LLM developments and integrations to realize end-to-end intent-based networking for fully automated network intelligence. | 翻訳日:2024-03-06 17:58:06 公開日:2024-03-04 |
# 頭蓋内圧検出・モニタリングのための解釈可能なモデル Interpretable Models for Detecting and Monitoring Elevated Intracranial Pressure ( http://arxiv.org/abs/2403.02236v1 ) ライセンス: Link先を確認 | Darryl Hannan, Steven C. Nesbit, Ximing Wen, Glen Smith, Qiao Zhang, Alberto Goffi, Vincent Chan, Michael J. Morris, John C. Hunninghake, Nicholas E. Villalobos, Edward Kim, Rosina O. Weber, Christopher J. MacLellan | (参考訳) 神経疾患の診断・管理には, 頭蓋内圧上昇(ICP)の検出が重要である。
これらの圧力の変動は視神経シース(ONS)に伝達され、その結果直径が変化し、超音波イメージング装置で検出される。
しかし,ONSの音像の解釈は困難である。
本研究では,超音波映像全体のオンス径を積極的に監視し,icp上昇の予測を行う2つのシステムを提案する。
システム構築には,対象物の専門家(SME)の指導,収集手順に従って処理パイプラインを構築するとともに,解釈可能性や計算効率を優先する。
我々は,提案するシステムが様々なベースラインを上回ることができることを示す実験を多数実施する。
そのうちの1つは、手作業でトップシステムのパフォーマンスを検証し、臨床現場でその潜在的な有用性を実証しながら、我々のアプローチにさらなる信頼性を貸与します。 Detecting elevated intracranial pressure (ICP) is crucial in diagnosing and managing various neurological conditions. These fluctuations in pressure are transmitted to the optic nerve sheath (ONS), resulting in changes to its diameter, which can then be detected using ultrasound imaging devices. However, interpreting sonographic images of the ONS can be challenging. In this work, we propose two systems that actively monitor the ONS diameter throughout an ultrasound video and make a final prediction as to whether ICP is elevated. To construct our systems, we leverage subject matter expert (SME) guidance, structuring our processing pipeline according to their collection procedure, while also prioritizing interpretability and computational efficiency. We conduct a number of experiments, demonstrating that our proposed systems are able to outperform various baselines. One of our SMEs then manually validates our top system's performance, lending further credibility to our approach while demonstrating its potential utility in a clinical setting. | 翻訳日:2024-03-06 17:57:50 公開日:2024-03-04 |
# 3dtopia:ハイブリッド拡散優先を持つ大規模テキストから3d生成モデル 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors ( http://arxiv.org/abs/2403.02234v1 ) ライセンス: Link先を確認 | Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi Chen, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu | (参考訳) 本研究では,ハイクオリティな3dアセットを5分以内で生成する3dtopiaという2段階のテキスト対3d生成システムを提案する。
第1ステージは3dデータから直接学習した3d拡散からのサンプルである。
具体的には、テキスト条件付き三面潜在拡散モデルを使って、高速プロトタイピングのために粗い3dサンプルを素早く生成する。
第2段は、粗い3dモデルのテクスチャを第1段からさらに洗練するために2次元拡散前駆体を用いる。
この改良は、高品質テクスチャ生成のための潜在空間最適化とピクセル空間最適化の両方から成っている。
提案システムのトレーニングを容易にするため,視覚言語モデルと大規模言語モデルを組み合わせることで,最大規模のオープンソース3DデータセットであるObjaverseをクリーン・キャプションする。
実験結果は定性的かつ定量的に報告され,提案システムの性能を示す。
私たちのコードとモデルはhttps://github.com/3DTopia/3DTopiaで利用可能です。 We present a two-stage text-to-3D generation system, namely 3DTopia, which generates high-quality general 3D assets within 5 minutes using hybrid diffusion priors. The first stage samples from a 3D diffusion prior directly learned from 3D data. Specifically, it is powered by a text-conditioned tri-plane latent diffusion model, which quickly generates coarse 3D samples for fast prototyping. The second stage utilizes 2D diffusion priors to further refine the texture of coarse 3D models from the first stage. The refinement consists of both latent and pixel space optimization for high-quality texture generation. To facilitate the training of the proposed system, we clean and caption the largest open-source 3D dataset, Objaverse, by combining the power of vision language models and large language models. Experiment results are reported qualitatively and quantitatively to show the performance of the proposed system. Our codes and models are available at https://github.com/3DTopia/3DTopia | 翻訳日:2024-03-06 17:57:34 公開日:2024-03-04 |
# マスク画像モデリングにおける特徴量相関の学習 Transformers Provably Learn Feature-Position Correlations in Masked Image Modeling ( http://arxiv.org/abs/2403.02233v1 ) ライセンス: Link先を確認 | Yu Huang, Zixin Wen, Yuejie Chi, Yingbin Liang | (参考訳) マスクのないパッチからランダムにマスクされたパッチを予測するマスク付き画像モデリング(MIM)は、自己監督型視覚前訓練において有望なアプローチとして登場した。
しかし、MIMの理論的理解は、特にトランスの基本的なアーキテクチャにおいて、かなり限られている。
本稿では,MIM自己教師型事前学習において,ソフトマックスを考慮した一層変圧器学習のエンドツーエンド理論について述べる。
概念面では,mimで事前学習したトランスフォーマーが,特徴位置相関を強調する空間構造を持つデータ分布に対して,実験的に観察された局所的および多様な注意パターンを生成するという理論的メカニズムを仮定する。
技術面では、ソフトマックス変換器のトレーニングダイナミクスのエンドツーエンド解析は、入力と位置の埋め込みを同時に行うことができ、特徴位置の注意と位置関係の相互作用を追跡する新しい手法に基づいて開発されている。 Masked image modeling (MIM), which predicts randomly masked patches from unmasked ones, has emerged as a promising approach in self-supervised vision pretraining. However, the theoretical understanding of MIM is rather limited, especially with the foundational architecture of transformers. In this paper, to the best of our knowledge, we provide the first end-to-end theory of learning one-layer transformers with softmax attention in MIM self-supervised pretraining. On the conceptual side, we posit a theoretical mechanism of how transformers, pretrained with MIM, produce empirically observed local and diverse attention patterns on data distributions with spatial structures that highlight feature-position correlations. On the technical side, our end-to-end analysis of the training dynamics of softmax-based transformers accommodates both input and position embeddings simultaneously, which is developed based on a novel approach to track the interplay between the attention of feature-position and position-wise correlations. | 翻訳日:2024-03-06 17:57:17 公開日:2024-03-04 |
# mal-api-2019データセットの機械学習による包括的評価 Comprehensive evaluation of Mal-API-2019 dataset by machine learning in malware detection ( http://arxiv.org/abs/2403.02232v1 ) ライセンス: Link先を確認 | Zhenglin Li, Haibei Zhu, Houze Liu, Jintong Song, Qishuo Cheng | (参考訳) 本研究では,Mal-API-2019データセットを用いた各種分類モデルの評価に着目し,機械学習を用いたマルウェア検出の徹底的な検討を行う。
目標は、脅威をより効果的に識別し緩和することで、サイバーセキュリティ能力を向上させることである。
ランダムフォレスト(Random Forest)、XGBoost(XGBoost)、K Nearest Neighbor(KNN)、ニューラルネットワーク(Neural Networks)などのアンサンブルおよび非アンサンブル機械学習手法について検討した。
特に,データ前処理技術,特にTF-IDF表現と主成分分析が,モデル性能の向上に重要視されている。
その結果,アンサンブル法,特にランダムフォレストとXGBoostは,他の方法に比べて精度,精度,リコールが優れており,マルウェア検出の有効性が示された。
また,マルウェアの進化する性質に対処する継続的適応の必要性を強調し,限界や今後の方向性についても論じる。
この研究はサイバーセキュリティの議論に寄与し、デジタル時代においてより堅牢なマルウェア検出システムを開発するための実用的な洞察を提供する。 This study conducts a thorough examination of malware detection using machine learning techniques, focusing on the evaluation of various classification models using the Mal-API-2019 dataset. The aim is to advance cybersecurity capabilities by identifying and mitigating threats more effectively. Both ensemble and non-ensemble machine learning methods, such as Random Forest, XGBoost, K Nearest Neighbor (KNN), and Neural Networks, are explored. Special emphasis is placed on the importance of data pre-processing techniques, particularly TF-IDF representation and Principal Component Analysis, in improving model performance. Results indicate that ensemble methods, particularly Random Forest and XGBoost, exhibit superior accuracy, precision, and recall compared to others, highlighting their effectiveness in malware detection. The paper also discusses limitations and potential future directions, emphasizing the need for continuous adaptation to address the evolving nature of malware. This research contributes to ongoing discussions in cybersecurity and provides practical insights for developing more robust malware detection systems in the digital era. | 翻訳日:2024-03-06 17:57:01 公開日:2024-03-04 |
# 量子コンピュータによる非自明な二重子形成の動的観察 Dynamical observation of non-trivial doublon formation using a quantum computer ( http://arxiv.org/abs/2403.02229v1 ) ライセンス: Link先を確認 | Biswajit Paul and Tapan Mishra | (参考訳) 格子上の二重粒子またはオンサイト反発結合粒子対の動的形成は非常に非自明な現象である。
本研究では,1次元拡張フェルミ・ハバード模型の枠組みにおける連続時間量子ウォークをシミュレートし,量子コンピューティング実験におけるドブロン生成のシグネチャを示す。
2つのアップコンポーネント粒子と1つのダウンコンポーネント粒子を格子の中央にある3つの近傍の部位で最初に生成し、内部(中間)コンポーネントの近傍(オンサイト)相互作用を可能にすることにより、量子ウォークにおいて安定なオンサイトドービロンの形成を示す。
このような二重粒子形成の確率は、ダウン粒子のホッピング強度がアップ粒子よりも弱い(ストロンガー)場合よりも大きい(無)。
反対に、自由粒子と共に初期ドービロンに対して、ドービロンの安定性は2つの成分間のホッピング非対称性に関係なく、力学におけるドービロン解離よりも顕著である。
まず、動的に安定なダビロン生成のシグネチャを数値的に取得し、次にノイズ中間量子(NISQ)デバイスを用いて観測する。 Dynamical formation of doublons or onsite repulsively bound pairs of particles on a lattice is a highly non-trivial phenomenon. In this work we show the signatures of doublon formation in a quantum computing experiment by simulating the continuous time quantum walk in the framework of the one dimensional extended Fermi-Hubbard model. By considering two up-component and one down-component particles initially created at the three neighbouring sites at the middle of the lattice and allowing intra- (inter-) component nearest neighbour (onsite) interactions we show the formation a stable onsite doublon in the quantum walk. The probability of such doublon formation is more (less) if the hopping strength of the down particle is weaker (stronger) compared to the up particle. On the contrary, for an initial doublon along with a free up particle, the stability of the doublon is more prominent than the doublon dissociation in the dynamics irrespective of the hopping asymmetry between the two components. We first numerically obtain the signatures of the stable doublon formation in the dynamics and then observe them using Noisy Intermediate-Scale Quantum (NISQ) devices. | 翻訳日:2024-03-06 17:56:39 公開日:2024-03-04 |
# 政策空間対応 Oracle: 調査 Policy Space Response Oracles: A Survey ( http://arxiv.org/abs/2403.02227v1 ) ライセンス: Link先を確認 | Ariyan Bighashdel, Yongzhao Wang, Stephen McAleer, Rahul Savani, Frans A. Oliehoek | (参考訳) ゲーム理論では、ゲームは合理的な意思決定者やプレイヤー間の相互作用のモデルであり、個々の目的を達成することを目標として選択する。
ゲームの振る舞いを理解することは、しばしばゲーム推論と呼ばれる。
このサーベイは、Physal Space Response Oracles (PSRO)として知られる、大規模ゲームのための高速開発ゲーム推論フレームワークの概要を提供する。
我々はまずPSROを動機付け、歴史的文脈を提供し、PSROをゲーム推論のアプローチで位置づける。
次に,PSROの戦略探索問題に焦点をあて,基礎となるゲームを最小計算コストでモデル化するための効果的な戦略ポートフォリオを構築するという課題について述べる。
また,PSROの効率向上に向けた現在の研究の方向性を調査し,様々な領域におけるPSROの適用について検討する。
オープンな質問と今後の研究について論じる。 In game theory, a game refers to a model of interaction among rational decision-makers or players, making choices with the goal of achieving their individual objectives. Understanding their behavior in games is often referred to as game reasoning. This survey provides a comprehensive overview of a fast-developing game-reasoning framework for large games, known as Policy Space Response Oracles (PSRO). We first motivate PSRO, provide historical context, and position PSRO within game-reasoning approaches. We then focus on the strategy exploration issue for PSRO, the challenge of assembling an effective strategy portfolio for modeling the underlying game with minimum computational cost. We also survey current research directions for enhancing the efficiency of PSRO, and explore the applications of PSRO across various domains. We conclude by discussing open questions and future research. | 翻訳日:2024-03-06 17:56:12 公開日:2024-03-04 |
# TPLLM: 事前訓練された大規模言語モデルに基づく交通予測フレームワーク TPLLM: A Traffic Prediction Framework Based on Pretrained Large Language Models ( http://arxiv.org/abs/2403.02221v1 ) ライセンス: Link先を確認 | Yilong Ren, Yue Chen, Shuai Liu, Boyue Wang, Haiyang Yu, and Zhiyong Cui | (参考訳) 交通予測は、インテリジェントトランスポーテーションシステム(ITS)のパービューにおいて重要な側面を占めており、高精度な予測の達成は、効率的な交通管理に重要な意味を持つ。
ディープラーニング駆動の交通予測モデルの精度は、通常、トレーニングデータの量が増加するにつれて上昇傾向を呈する。
しかしながら、トラフィックのための包括的な時空間データセットの調達には、主にデータ収集と保持に関連する実質的なコストに起因する課題が伴うことが多い。
その結果,過去のトラヒックデータに乏しい地域において,正確な予測と優れた一般化能力を実現するモデルの開発が課題となる。
近年の先進的な大規模言語モデル (LLM) は, クロスモダリティの知識伝達や数発の学習において, 極めて優れた能力を発揮している。
言語に類似したトラヒックデータの逐次的性質を認識し,llmを活用した新しいトラヒック予測フレームワークであるtpllmを導入する。
本稿では,畳み込みニューラルネットワーク(CNN)に基づくシーケンス埋め込み層とグラフ畳み込みニューラルネットワーク(GCN)に基づくグラフ埋め込み層を構築し,それぞれにシーケンスの特徴と空間的特徴を抽出する。
これらは後にLLMに適した入力を形成するために統合される。
低ランク適応(LoRA)ファインチューニングアプローチをTPLLMに適用することにより,効率的な学習と計算要求の最小化を実現する。
実世界の2つのデータセットの実験では、TPLLMはフルサンプルと少数ショットの予測シナリオの両方で高い性能を示し、歴史的交通量の少ない地域でのITSの開発を効果的に支援している。 Traffic prediction constitutes a pivotal facet within the purview of Intelligent Transportation Systems (ITS), and the attainment of highly precise predictions holds profound significance for efficacious traffic management. The precision of prevailing deep learning-driven traffic prediction models typically sees an upward trend with a rise in the volume of training data. However, the procurement of comprehensive spatiotemporal datasets for traffic is often fraught with challenges, primarily stemming from the substantial costs associated with data collection and retention. Consequently, developing a model that can achieve accurate predictions and good generalization ability in areas with limited historical traffic data is a challenging problem. It is noteworthy that the rapidly advancing pretrained Large Language Models (LLMs) of recent years have demonstrated exceptional proficiency in cross-modality knowledge transfer and few-shot learning. Recognizing the sequential nature of traffic data, similar to language, we introduce TPLLM, a novel traffic prediction framework leveraging LLMs. In this framework, we construct a sequence embedding layer based on Convolutional Neural Networks (CNNs) and a graph embedding layer based on Graph Convolutional Networks (GCNs) to extract sequence features and spatial features, respectively. These are subsequently integrated to form inputs that are suitable for LLMs. A Low-Rank Adaptation (LoRA) fine-tuning approach is applied to TPLLM, thereby facilitating efficient learning and minimizing computational demands. Experiments on two real-world datasets demonstrate that TPLLM exhibits commendable performance in both full-sample and few-shot prediction scenarios, effectively supporting the development of ITS in regions with scarce historical traffic data. | 翻訳日:2024-03-06 17:55:59 公開日:2024-03-04 |
# ガウス語学習における統計的問合せ下限 Statistical Query Lower Bounds for Learning Truncated Gaussians ( http://arxiv.org/abs/2403.02300v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Daniel M. Kane, Thanasis Pittas, Nikos Zarifis | (参考訳) 本研究では,集合の低複素族 $\mathcal{c}$ から切り換え集合が生じた場合,切り換え設定における同一性共分散ガウスの平均を推定する問題について検討する。
具体的には、固定だが未知のトランケーション集合 $S \subseteq \mathbb{R}^d$ に対して、分布 $\mathcal{N}(\boldsymbol{ \mu}, \mathbf{I})$ truncated to the set $S$ からサンプルにアクセスすることができる。
目標は、$\boldsymbol\mu$ in accuracy $\epsilon>0$ in $\ell_2$-normである。
我々の主な成果は、このタスクの超多項式情報計算ギャップを示す統計的クエリ(SQ)の下限である。
より詳しくは、この問題に対する任意のSQアルゴリズムの複雑さは、$d^{\mathrm{poly}(1/\epsilon)}$であり、クラス$\mathcal{C}$が単純である場合でも、$\mathrm{poly}(d/\epsilon)$が情報理論的に十分であることを示す。
具体的には、我々の SQ の下界は、$\mathcal{C}$ が VC 次元とガウス曲面が小さい有界な矩形の集合であるときに適用される。
我々の構成の典型として、以前知られていたこのタスクのアルゴリズムの複雑さは、定性的に最善であることが従う。 We study the problem of estimating the mean of an identity covariance Gaussian in the truncated setting, in the regime when the truncation set comes from a low-complexity family $\mathcal{C}$ of sets. Specifically, for a fixed but unknown truncation set $S \subseteq \mathbb{R}^d$, we are given access to samples from the distribution $\mathcal{N}(\boldsymbol{ \mu}, \mathbf{ I})$ truncated to the set $S$. The goal is to estimate $\boldsymbol\mu$ within accuracy $\epsilon>0$ in $\ell_2$-norm. Our main result is a Statistical Query (SQ) lower bound suggesting a super-polynomial information-computation gap for this task. In more detail, we show that the complexity of any SQ algorithm for this problem is $d^{\mathrm{poly}(1/\epsilon)}$, even when the class $\mathcal{C}$ is simple so that $\mathrm{poly}(d/\epsilon)$ samples information-theoretically suffice. Concretely, our SQ lower bound applies when $\mathcal{C}$ is a union of a bounded number of rectangles whose VC dimension and Gaussian surface are small. As a corollary of our construction, it also follows that the complexity of the previously known algorithm for this task is qualitatively best possible. | 翻訳日:2024-03-06 17:51:57 公開日:2024-03-04 |
# 量子プロセッサ上での動的デカップリングの実証学習 Empirical learning of dynamical decoupling on quantum processors ( http://arxiv.org/abs/2403.02294v1 ) ライセンス: Link先を確認 | Christopher Tong, Helena Zhang, Bibek Pokharel | (参考訳) 動的デカップリング(Dynamical Decoupling, DD)は、量子エラー抑制のための低オーバーヘッド法である。
本稿では、実験的な学習手法を用いてDD戦略を量子デバイスやタスクに合わせる方法について述べる。
遺伝的アルゴリズムを用いてDD(GADD)戦略を学習し,27量子Bernstein-Vaziraniアルゴリズム,5量子Groverアルゴリズム,80量子ミラーランダム化ベンチマーク回路に適用する。
各シナリオにおいて、GADD戦略は標準DDシークエンスを著しく上回る。
GADD法の汎用的かつスケーラブルな性質は,回路結果の事前知識を必要とせず,回路深度やキュービット数の増加とともに実行時定数が一定であることを示している。
さらに, 標準dd系列に対する経験的学習によるdd戦略の相対的改善は, 問題サイズと回路の洗練度の増加とともに増加することが示された。 Dynamical decoupling (DD) is a low-overhead method for quantum error suppression. We describe how empirical learning schemes can be used to tailor DD strategies to the quantum device and task at hand. We use genetic algorithms to learn DD (GADD) strategies and apply our method to the 27-qubit Bernstein-Vazirani algorithm, 5-qubit Grover's algorithm, and 80-qubit mirror randomized benchmarking circuits. In each scenario, the GADD strategies significantly outperform canonical DD sequences. We demonstrate the generic and scalable nature of our GADD method in that it does not require a priori knowledge of target circuit outcomes and has runtime remaining constant with increasing circuit depth and qubit number. Moreover, the relative improvement of empirically learned DD strategies over canonical DD sequences is shown to increase with increasing problem size and circuit sophistication. | 翻訳日:2024-03-06 17:51:25 公開日:2024-03-04 |
# プライバシー関連androidアプリの10年レビュー:大規模トレンド A Decade of Privacy-Relevant Android App Reviews: Large Scale Trends ( http://arxiv.org/abs/2403.02292v1 ) ライセンス: Link先を確認 | Omer Akgul, Sai Teja Peddinti, Nina Taft, Michelle L. Mazurek, Hamza Harkous, Animesh Srivastava, Benoit Seguin | (参考訳) われわれは10年間にわたってGoogle Play Storeで公開されているプライバシー関連レビューの1200万件の分析を行った。
最先端のNLP技術を活用することで、時間、国、アプリタイプ、さまざまなプライバシトピック、さらにはさまざまな感情の範囲で、ユーザーがプライバシーについて何を書いているかを調べることができます。
私たちは、プライバシー関連レビューの一貫した成長を見つけ、トレンド(データ削除やデータ盗難など)や減少中のもの(機密権限に関するプライバシー関連レビューなど)を調査します。
プライバシーレビューは200か国以上から来ているが、33か国がプライバシーレビューの90%を提供している。
我々は、国のユーザーが書いたプライバシートピックの分布を調べて各国の比較を行い、近隣諸国が同様のプライバシー観を持っているという信頼性のある指標ではないことを発見した。
いくつかの国をユニークなパターンで発見し、これらを探索します。
驚いたことに、プライバシーについて議論するレビューが肯定的であるのは珍しいことではない(32%)。
また、デベロッパーにプライバシーの請求書を提供するためのレビューの利用など、予期せぬ行動も明らかにしています。
最後に,ユーザのプライバシに対する視点を理解するための既存手法の補完として,我々のアプローチによるアプリレビューの分析の価値を示す。 We present an analysis of 12 million instances of privacy-relevant reviews publicly visible on the Google Play Store that span a 10 year period. By leveraging state of the art NLP techniques, we can examine what users have been writing about privacy along multiple dimensions: time, countries, app types, diverse privacy topics, and even across a spectrum of emotions. We find consistent growth of privacy-relevant reviews, and explore topics that are trending (such as Data Deletion and Data Theft), as well as those on the decline (such as privacy-relevant reviews on sensitive permissions). We find that although privacy reviews come from more than 200 countries, 33 countries provide 90% of privacy reviews. We conduct a comparison across countries by examining the distribution of privacy topics a country's users write about, and find that geographic proximity is not a reliable indicator that nearby countries have similar privacy perspectives. We uncover some countries with unique patterns and explore those herein. Surprisingly, we uncover that it is not uncommon for reviews that discuss privacy to be positive (32%); many users express pleasure about privacy features within apps or privacy-focused apps. We also uncover some unexpected behaviors, such as the use of reviews to deliver privacy disclaimers to developers. Finally, we demonstrate the value of analyzing app reviews with our approach as a complement to existing methods for understanding users' perspectives about privacy. | 翻訳日:2024-03-06 17:51:11 公開日:2024-03-04 |
# クープマン支援強化学習 Koopman-Assisted Reinforcement Learning ( http://arxiv.org/abs/2403.02290v1 ) ライセンス: Link先を確認 | Preston Rozwood, Edward Mehrez, Ludger Paehler, Wen Sun, Steven L. Brunton | (参考訳) ベルマン方程式とその連続形式であるハミルトン・ヤコビ・ベルマン方程式(HJB)は、強化学習(RL)と制御理論においてユビキタスである。
しかし、これらの方程式は、高次元状態と非線形性を持つ系に対して急速に難解となる。
本稿では,データ駆動型クープマン演算子とマルコフ決定過程(MDP)の接続について検討し,これらの制約に対処する2つの新しいRLアルゴリズムを開発した。
我々はkoopman演算子の手法を利用して非線形系を、大まかに線形となる新しい座標系へ持ち上げ、hjbベースの手法をより扱いやすいものにする。
特に、クープマン作用素は、持ち上げられた座標の線形ダイナミクスを介して与えられた系の値関数の時間発展の期待を捉えることができる。
制御動作でクープマン作用素をパラメータ化することにより、最適値関数の推定を容易にする「クープマンテンソル」を構築する。
次に、クープマンテンソルによるベルマンのフレームワークの変換により、2つの最大エントロピーRLアルゴリズム(ソフトバリュー反復とソフトアクタークリティカル(SAC))を再構成することができる。
この非常に柔軟なフレームワークは、決定論的あるいは確率的システムだけでなく、離散的あるいは連続的なダイナミクスにも使用できる。
最後に,これらのKoopman Assisted Reinforcement Learning (KARL)アルゴリズムが,線形状態空間系,ロレンツ系,シリンダーを過ぎる流体流,非等方的確率強制を伴う二重井戸電位の4つの制御力学系上で,従来のニューラルネットワークベースSACおよび線形2次レギュレータ(LQR)ベースラインに対して,最先端(SOTA)性能を達成することを示す。 The Bellman equation and its continuous form, the Hamilton-Jacobi-Bellman (HJB) equation, are ubiquitous in reinforcement learning (RL) and control theory. However, these equations quickly become intractable for systems with high-dimensional states and nonlinearity. This paper explores the connection between the data-driven Koopman operator and Markov Decision Processes (MDPs), resulting in the development of two new RL algorithms to address these limitations. We leverage Koopman operator techniques to lift a nonlinear system into new coordinates where the dynamics become approximately linear, and where HJB-based methods are more tractable. In particular, the Koopman operator is able to capture the expectation of the time evolution of the value function of a given system via linear dynamics in the lifted coordinates. By parameterizing the Koopman operator with the control actions, we construct a ``Koopman tensor'' that facilitates the estimation of the optimal value function. Then, a transformation of Bellman's framework in terms of the Koopman tensor enables us to reformulate two max-entropy RL algorithms: soft value iteration and soft actor-critic (SAC). This highly flexible framework can be used for deterministic or stochastic systems as well as for discrete or continuous-time dynamics. Finally, we show that these Koopman Assisted Reinforcement Learning (KARL) algorithms attain state-of-the-art (SOTA) performance with respect to traditional neural network-based SAC and linear quadratic regulator (LQR) baselines on four controlled dynamical systems: a linear state-space system, the Lorenz system, fluid flow past a cylinder, and a double-well potential with non-isotropic stochastic forcing. | 翻訳日:2024-03-06 17:50:48 公開日:2024-03-04 |
# ガスリフティング油井のモデリングと制御のためのスキップ接続型物理インフォームニューラルネットワーク Physics-Informed Neural Networks with Skip Connections for Modeling and Control of Gas-Lifted Oil Wells ( http://arxiv.org/abs/2403.02289v1 ) ライセンス: Link先を確認 | Jonas Ekeland Kittelsen, Eric Aislan Antonelo, Eduardo Camponogara, Lars Struen Imsland | (参考訳) ニューラルネットワークは強力だが、しばしば解釈可能性に欠ける。
物理情報ニューラルネットワーク(PINN)は、物理法則を損失関数に組み込むことで、通常の微分方程式(ODE)と部分微分方程式(PDE)の解法に適用することができる。
最近発表されたpincフレームワークは、pinnを拡張してアプリケーションを制御し、動的システムのオープンエンドな長距離予測と制御を可能にする。
本研究では, ガスリフト油井などの高非線形システムのモデリングにおいて, pinc を強化する。
PINCネットワークにスキップ接続を導入し、ODEの特定の項を精錬することにより、訓練中により正確な勾配を達成し、油井システムの効率的なモデリングプロセスを実現する。
提案した改良PINCは優れた性能を示し, 油井における平均67%のバリデーション予測誤差を低減し, ネットワーク層内の勾配流を著しく増大させ, 元のPINCに比べて4桁の規模を増大させた。
さらに, 改良型pincモデルを用いた油井底孔圧力制御におけるモデル予測制御(mpc)の有効性を示す実験を行った。 Neural networks, while powerful, often lack interpretability. Physics-Informed Neural Networks (PINNs) address this limitation by incorporating physics laws into the loss function, making them applicable to solving Ordinary Differential Equations (ODEs) and Partial Differential Equations (PDEs). The recently introduced PINC framework extends PINNs to control applications, allowing for open-ended long-range prediction and control of dynamic systems. In this work, we enhance PINC for modeling highly nonlinear systems such as gas-lifted oil wells. By introducing skip connections in the PINC network and refining certain terms in the ODE, we achieve more accurate gradients during training, resulting in an effective modeling process for the oil well system. Our proposed improved PINC demonstrates superior performance, reducing the validation prediction error by an average of 67% in the oil well application and significantly enhancing gradient flow through the network layers, increasing its magnitude by four orders of magnitude compared to the original PINC. Furthermore, experiments showcase the efficacy of Model Predictive Control (MPC) in regulating the bottom-hole pressure of the oil well using the improved PINC model, even in the presence of noisy measurements. | 翻訳日:2024-03-06 17:50:17 公開日:2024-03-04 |
# 英語とスウェーデン語における非記録単語知覚の検出 Detection of Non-recorded Word Senses in English and Swedish ( http://arxiv.org/abs/2403.02285v1 ) ライセンス: Link先を確認 | Jonathan Lautenschlager, Emma Sk\"oldberg, Simon Hengchen, Dominik Schlechtweg | (参考訳) 本研究は,英語とスウェーデン語における未知のセンス検出の課題に対処する。
このタスクの主な目的は、特定の単語使用の意味が辞書に記録されているかどうかを決定することである。
この目的のために、センスエントリは、学習済みのWord-in-Context埋め込みを用いて、現代および歴史的コーパスからの単語使用量と比較される。
さらに、人間のアノテーションを使ってモデルを適応し、評価します。
コーパスからのランダムなサンプルと比較すると,非記録感覚で検出された単語使用量を大幅に増加させることができる。 This study addresses the task of Unknown Sense Detection in English and Swedish. The primary objective of this task is to determine whether the meaning of a particular word usage is documented in a dictionary or not. For this purpose, sense entries are compared with word usages from modern and historical corpora using a pre-trained Word-in-Context embedder that allows us to model this task in a few-shot scenario. Additionally, we use human annotations to adapt and evaluate our models. Compared to a random sample from a corpus, our model is able to considerably increase the detected number of word usages with non-recorded senses. | 翻訳日:2024-03-06 17:49:54 公開日:2024-03-04 |
# テキストからの感情の粒度:メンタルヘルスの集約レベル指標 Emotion Granularity from Text: An Aggregate-Level Indicator of Mental Health ( http://arxiv.org/abs/2403.02281v1 ) ライセンス: Link先を確認 | Krishnapriya Vishnubhotla, Daniela Teodorescu, Mallory J. Feldman, Kristen A. Lindquist, Saif M. Mohammad | (参考訳) 私たちは、感情が体験を形作る上で中心的な役割を担っている。しかしながら、個人の感情の識別、分類、表現の仕方に大きな違いがある。
心理学において、感情概念を区別する個人の能力の変動は、感情粒度(感情の自己報告を通じて決定される)と呼ばれる。
高い感情の粒度は、より良い精神的および身体的健康と結びついているが、低い感情の粒度は、不適応な感情制御戦略と悪い健康結果に結びついている。
本研究では,ソーシャルメディアにおける時間順話者発話から得られる感情の粒度の計算手法を提案する(様々なバイアスに悩まされる自己報告の代わりに)。
次に, 種々のメンタルヘルス状態(MHC)の指標として機能する感情の粒度のテキストによる測定の有効性を検討した。
本研究は,テキスト発話に基づく感情粒度の基本尺度を定式化し,総合レベルでは,感情粒度が対照個体群よりも自己報告者において有意に低いことを示す。
これは、MHCの理解を深める道、特に私たちの幸福において感情が果たす役割を舗装します。 We are united in how emotions are central to shaping our experiences; and yet, individuals differ greatly in how we each identify, categorize, and express emotions. In psychology, variation in the ability of individuals to differentiate between emotion concepts is called emotion granularity (determined through self-reports of one's emotions). High emotion granularity has been linked with better mental and physical health; whereas low emotion granularity has been linked with maladaptive emotion regulation strategies and poor health outcomes. In this work, we propose computational measures of emotion granularity derived from temporally-ordered speaker utterances in social media (in lieu of self-reports that suffer from various biases). We then investigate the effectiveness of such text-derived measures of emotion granularity in functioning as markers of various mental health conditions (MHCs). We establish baseline measures of emotion granularity derived from textual utterances, and show that, at an aggregate level, emotion granularities are significantly lower for people self-reporting as having an MHC than for the control population. This paves the way towards a better understanding of the MHCs, and specifically the role emotions play in our well-being. | 翻訳日:2024-03-06 17:49:43 公開日:2024-03-04 |
# 回路QEDにおける超高品質マイクロ波空洞の制御性と記憶時間に関する戦略とトレードオフ Strategies and trade-offs for controllability and memory time of ultra-high-quality microwave cavities in circuit QED ( http://arxiv.org/abs/2403.02278v1 ) ライセンス: Link先を確認 | Iivari Pietik\"ainen, Ond\v{r}ej \v{C}ernot\'ik, Alec Eickbusch, Aniket Maiti, John W. O. Garmon, Radim Filip and Steven M. Girvin | (参考訳) 3次元マイクロ波共振器は、その表面に対するキャビティ体積を最大化し、より良い材料を使用し、表面処理を改善することで、秒単位の寿命に達することが示されている。
このようなキャビティはボソニック量子ビットを用いた量子コンピューティングの理想的なプラットフォームであるが、大きなモード体積が制御に使用される非線形要素との非効率な結合をもたらすため、その効率的な制御は際立った問題である。
さらに、このカップリングは逆パーセル効果によってキャビティの崩壊を誘導し、寿命の長い {a} の利点を容易に破壊する。
本稿では,これらの超高品質マイクロ波共振器を従来の超伝導量子ビットの記憶として効率的に利用するための条件とプロトコルについて論じる。
驚くべきことに,超高品質キャビティを用いた書き込み・読み出し操作は,量子ビットや他の非線形要素の制御に類似した品質要因を必要としない。
解析と数値計算を組み合わせることで,最先端のトランスモンやスネールデバイスでは,キャビティと第2スケールの寿命との効率的な結合が可能となり,より高品質なキャビティ制御への道筋を概説する。
本研究は,超高品質マイクロ波空洞共振器を用いて,ボソニック量子ビットに符号化された情報を保存・処理するための潜在的ロードマップを探究する。 Three-dimensional microwave cavity resonators have been shown to reach lifetimes of the order of a second by maximizing the cavity volume relative to its surface, using better materials, and improving surface treatments. Such cavities represent an ideal platform for quantum computing with bosonic qubits, but their efficient control remains an outstanding problem since the large mode volume results in inefficient coupling to nonlinear elements used for their control. Moreover, this coupling induces additional cavity decay via the inverse Purcell effect which can easily destroy the advantage of {a} long intrinsic lifetime. Here, we discuss conditions on, and protocols for, efficient utilization of these ultra-high-quality microwave cavities as memories for conventional superconducting qubits. We show that, surprisingly, efficient write and read operations with ultra-high-quality cavities does not require similar quality factors for the qubits and other nonlinear elements used to control them. Through a combination of analytical and numerical calculations, we demonstrate that efficient coupling to cavities with second-scale lifetime is possible with state-of-the-art transmon and SNAIL devices and outline a route towards controlling cavities with even higher quality factors. Our work explores a potentially viable roadmap towards using ultra-high-quality microwave cavity resonators for storing and processing information encoded in bosonic qubits. | 翻訳日:2024-03-06 17:49:22 公開日:2024-03-04 |
# NatSGD:自然とロボットのインタラクションにおけるロボット学習のための音声・ジェスチャー・デモ付きデータセット NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot Learning in Natural Human-Robot Interaction ( http://arxiv.org/abs/2403.02274v1 ) ライセンス: Link先を確認 | Snehesh Shrestha, Yantian Zha, Saketh Banagiri, Ge Gao, Yiannis Aloimonos, Cornelia Fermuller | (参考訳) マルチモーダルヒューマンロボットインタラクション(HRI)データセットの最近の進歩は、音声とジェスチャーの融合を強調し、ロボットの能力を拡張して、明示的で暗黙的なHRIの洞察を吸収している。
しかし、既存の音声認識のHRIデータセットは、オブジェクトのポインティングやプッシュ、複雑なドメインへのスケーリングの制限、ロボットの行動記録に対する人間のコマンドデータの優先順位付けなど、基本的なタスクに重点を置いていることが多い。
これらのギャップを埋めるために、ロボットの動作デモと自然に同期した音声やジェスチャーを通じて人間のコマンドを包含するマルチモーダルHRIデータセットであるNatSGDを導入する。
NatSGDは,機械学習とHRI研究の共通点における基礎資料として機能し,マルチモーダルなヒューマンコマンドによるタスク理解のためのロボット訓練の有効性を実証し,音声とジェスチャーを併用することの重要性を強調した。
私たちは、人間とロボットのインタラクションシステム学習における将来の研究を促進するために、データセット、シミュレータ、コードをリリースした。 Recent advancements in multimodal Human-Robot Interaction (HRI) datasets have highlighted the fusion of speech and gesture, expanding robots' capabilities to absorb explicit and implicit HRI insights. However, existing speech-gesture HRI datasets often focus on elementary tasks, like object pointing and pushing, revealing limitations in scaling to intricate domains and prioritizing human command data over robot behavior records. To bridge these gaps, we introduce NatSGD, a multimodal HRI dataset encompassing human commands through speech and gestures that are natural, synchronized with robot behavior demonstrations. NatSGD serves as a foundational resource at the intersection of machine learning and HRI research, and we demonstrate its effectiveness in training robots to understand tasks through multimodal human commands, emphasizing the significance of jointly considering speech and gestures. We have released our dataset, simulator, and code to facilitate future research in human-robot interaction system learning; access these resources at https://www.snehesh.com/natsgd/ | 翻訳日:2024-03-06 17:48:58 公開日:2024-03-04 |
# RIFF: 言語モデルの簡単な微調整のための入力を言い換える学習 RIFF: Learning to Rephrase Inputs for Few-shot Fine-tuning of Language Models ( http://arxiv.org/abs/2403.02271v1 ) ライセンス: Link先を確認 | Saeed Najafi and Alona Fyshe | (参考訳) 学習済み言語モデル(plms)は、下流のテキスト処理タスクに対して正確に微調整することができる。
近年、入力プロンプトを最適化したり、少数のモデルパラメータ(例えばLoRA)を調整したりするパラメータ効率の良い微調整法がいくつか導入されている。
本研究では,パラメータ効率のよい微調整手法とともに,元のタスクの入力テキストを変更することの影響について検討する。
入力テキストを最も効果的に書き直すために,最大帰納可能性目標で数発のパラフレーズモデルを訓練する。
6つの数発のテキスト分類データセットを用いて, パラフレーズとテスト時間によるデータ豊か化は, パラメータ効率のよい微調整だけで達成できる以上の性能を向上させることを示す。 Pre-trained Language Models (PLMs) can be accurately fine-tuned for downstream text processing tasks. Recently, researchers have introduced several parameter-efficient fine-tuning methods that optimize input prompts or adjust a small number of model parameters (e.g LoRA). In this study, we explore the impact of altering the input text of the original task in conjunction with parameter-efficient fine-tuning methods. To most effectively rewrite the input text, we train a few-shot paraphrase model with a Maximum-Marginal Likelihood objective. Using six few-shot text classification datasets, we show that enriching data with paraphrases at train and test time enhances the performance beyond what can be achieved with parameter-efficient fine-tuning alone. | 翻訳日:2024-03-06 17:48:37 公開日:2024-03-04 |
# fenice:自然言語推論とクレーム抽出に基づく要約の事実性評価 FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction ( http://arxiv.org/abs/2403.02270v1 ) ライセンス: Link先を確認 | Alessandro Scir\`e and Karim Ghonim and Roberto Navigli | (参考訳) テキスト要約の最近の進歩、特にLarge Language Models(LLMs)の出現は、顕著な性能を示している。
しかし、かなりの数の自動生成要約が幻覚のような事実的不一致を示すため、注目すべき課題が続いている。
この問題に対して,要約のための一貫性評価のための様々なアプローチが出現している。
しかし、これらの新しく導入されたメトリクスは、解釈可能性の欠如、短い文書要約(ニュース記事など)、特にLLMベースのメトリクスの計算不可能性など、いくつかの制限に直面している。
これらの欠点に対処するために、より解釈可能で効率的な事実指向メトリックである自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実の間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
さらに、長文要約の人間のアノテーションプロセスを実行することにより、評価をより困難な設定に拡張する。 Recent advancements in text summarization, particularly with the advent of Large Language Models (LLMs), have shown remarkable performance. However, a notable challenge persists as a substantial number of automatically-generated summaries exhibit factual inconsistencies, such as hallucinations. In response to this issue, various approaches for the evaluation of consistency for summarization have emerged. Yet, these newly-introduced metrics face several limitations, including lack of interpretability, focus on short document summaries (e.g., news articles), and computational impracticality, especially for LLM-based metrics. To address these shortcomings, we propose Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction (FENICE), a more interpretable and efficient factuality-oriented metric. FENICE leverages an NLI-based alignment between information in the source document and a set of atomic facts, referred to as claims, extracted from the summary. Our metric sets a new state of the art on AGGREFACT, the de-facto benchmark for factuality evaluation. Moreover, we extend our evaluation to a more challenging setting by conducting a human annotation process of long-form summarization. | 翻訳日:2024-03-06 17:48:23 公開日:2024-03-04 |
# 主観的$\textit{isms}$?
虐待言語検出における憎しみと犯罪の合併の危険性について Subjective $\textit{Isms}$? On the Danger of Conflating Hate and Offence in Abusive Language Detection ( http://arxiv.org/abs/2403.02268v1 ) ライセンス: Link先を確認 | Amanda Cercas Curry, Gavin Abercrombie, Zeerak Talat | (参考訳) 自然言語処理の研究は、ラベル付けのバリエーションによって動機づけられる注釈主観性の概念を取り入れ始めた。
このアプローチは、各アノテータの見解を有効であると理解し、例えば感情分析のような主観性を組み込んだタスクに非常に適している。
しかし、この構成はヘイトスピーチ検出のようなタスクには不適切であり、例えば性差別や人種差別といった全てのポジションに等しく妥当性がある。
我々は、憎しみと憎しみの融合はヘイトスピーチに関する発見を無効にし、将来の仕事は理論上存在し、憎しみをその直交的な概念、悪行から切り離すべきだと主張する。 Natural language processing research has begun to embrace the notion of annotator subjectivity, motivated by variations in labelling. This approach understands each annotator's view as valid, which can be highly suitable for tasks that embed subjectivity, e.g., sentiment analysis. However, this construction may be inappropriate for tasks such as hate speech detection, as it affords equal validity to all positions on e.g., sexism or racism. We argue that the conflation of hate and offence can invalidate findings on hate speech, and call for future work to be situated in theory, disentangling hate from its orthogonal concept, offence. | 翻訳日:2024-03-06 17:47:37 公開日:2024-03-04 |
# DaReNeRF:動的シーンの方向認識表現 DaReNeRF: Direction-aware Representation for Dynamic Scenes ( http://arxiv.org/abs/2403.02265v1 ) ライセンス: Link先を確認 | Ange Lou, Benjamin Planche, Zhongpai Gao, Yamin Li, Tianyu Luan, Hao Ding, Terrence Chen, Jack Noble, Ziyan Wu | (参考訳) 動的シーンのモデリングと再レンダリングという複雑な課題に対処するため、最近のアプローチでは、平面ベースの明示的な表現を使ってこれらの複雑さを単純化しようと試みている。
しかし、4次元ダイナミックシーンを複数の2次元平面ベース表現に簡単に分解することは、複雑な動きを持つ高忠実なシーンを再レンダリングするには不十分である。
そこで,我々は6つの異なる方向からシーンのダイナミクスを捉えた新しい方向認識表現(dare)アプローチを提案する。
この学習された表現は、平面ベースの情報を復元するために逆双木複素ウェーブレット変換(dtcwt)を行う。
DaReNeRFは、これらの回収された平面からベクトルを融合させることで、各時空点の特徴を計算する。
DaReNeRFと小さなMLPを組み合わせることで、複雑なダイナミックシーンのための新しいビュー合成において、トレーニングにおけるボリュームレンダリングを活用できる。
特に、6つの実数および6つの仮想方向対応ウェーブレット係数によって導入された冗長性に対処するために、トレーニング可能なマスキング手法を導入する。
さらに、DaReNeRFは、先行技術に比べてトレーニング時間を2倍削減し、優れた性能を提供する。 Addressing the intricate challenge of modeling and re-rendering dynamic scenes, most recent approaches have sought to simplify these complexities using plane-based explicit representations, overcoming the slow training time issues associated with methods like Neural Radiance Fields (NeRF) and implicit representations. However, the straightforward decomposition of 4D dynamic scenes into multiple 2D plane-based representations proves insufficient for re-rendering high-fidelity scenes with complex motions. In response, we present a novel direction-aware representation (DaRe) approach that captures scene dynamics from six different directions. This learned representation undergoes an inverse dual-tree complex wavelet transformation (DTCWT) to recover plane-based information. DaReNeRF computes features for each space-time point by fusing vectors from these recovered planes. Combining DaReNeRF with a tiny MLP for color regression and leveraging volume rendering in training yield state-of-the-art performance in novel view synthesis for complex dynamic scenes. Notably, to address redundancy introduced by the six real and six imaginary direction-aware wavelet coefficients, we introduce a trainable masking approach, mitigating storage issues without significant performance decline. Moreover, DaReNeRF maintains a 2x reduction in training time compared to prior art while delivering superior performance. | 翻訳日:2024-03-06 17:47:15 公開日:2024-03-04 |
# 超高速後方散乱光電子に対するカタストロフィと隠れ力学対称性の影響 Influence of catastrophes and hidden dynamical symmetries on ultrafast backscattered photoelectrons ( http://arxiv.org/abs/2403.02264v1 ) ライセンス: Link先を確認 | T. Rook, L. Cruz Rodriguez, C. Figueira de Morisson Faria | (参考訳) 我々は最近実装されたハイブリッドフォワード境界CQSFA (H-CQSFA) を用いた光電子運動量分布(PMD)におけるクーロンテールと軟化度の違いによるポテンシャルの利用効果について議論した。
クーロン相互作用に軟化を導入することは、後方散乱電子軌跡に関連するPMDの尾根に影響を及ぼすことを示す。
ハードコアクーロン相互作用の限界では、再散乱した尾根は偏光軸に沿って近づき、ソフトコア電位は尾根特異的な角度で中断される。
我々は、尾根につながる異なる軌道の運動量マッピングを分析する。
ハードコアポテンシャルについては、尾根で結合する2種類のサドルポイント解が存在する。
軟化を増すことにより,クーロンポテンシャルにのみ関連する隠れた力学対称性を破って,さらに2つの解が現れることを示した。
この対称性の破れのさらなるシグネチャは運動量空間の軌跡のサブセットで遭遇する。
最後に, 散乱理論を用いて, 軟化が最大散乱角に与える影響を示し, cqsfaからの観測と一致した推定値を与える。
これは、電子の連続体伝播における残留結合電位の存在下で、純粋に運動的かつ動的コースティックな区別が曖昧になることを意味する。 We discuss the effect of using potentials with a Coulomb tail and different degrees of softening in the photoelectron momentum distributions (PMDs) using the recently implemented hybrid forward-boundary CQSFA (H-CQSFA). We show that introducing a softening in the Coulomb interaction influences the ridges observed in the PMDs associated with backscattered electron trajectories. In the limit of a hard-core Coulomb interaction, the re-scattering ridges close along the polarization axis, while for a soft-core potential, they are interrupted at ridge-specific angles. We analyze the momentum mapping of the different orbits leading to the ridges. For the hard-core potential, there exist two types of saddle-point solutions that coalesce at the ridge. By increasing the softening, we show that two additional solutions emerge as the result of breaking a hidden dynamical symmetry associated exclusively with the Coulomb potential. Further signatures of this symmetry breaking are encountered in subsets of momentum-space trajectories. Finally, we use scattering theory to show how the softening affects the maximal scattering angle and provide estimates that agree with our observations from the CQSFA. This implies that, in the presence of residual binding potentials in the electron's continuum propagation, the distinction between purely kinematic and dynamic caustics becomes blurred. | 翻訳日:2024-03-06 17:46:41 公開日:2024-03-04 |
# KnowPhish: 参照ベースのフィッシング検出を支援するマルチモーダル知識グラフを備えた大規模言語モデル KnowPhish: Large Language Models Meet Multimodal Knowledge Graphs for Enhancing Reference-Based Phishing Detection ( http://arxiv.org/abs/2403.02253v1 ) ライセンス: Link先を確認 | Yuexin Li, Chengyu Huang, Shumin Deng, Mei Lin Lock, Tri Cao, Nay Oo, Bryan Hooi, Hoon Wei Lim | (参考訳) フィッシング攻撃は個人や企業にも大きな損失をもたらし、堅牢で効率的な自動フィッシング検出手法の開発を必要としている。
ターゲットwebページのロゴを既知のロゴセットと比較する参照ベースのフィッシング検出器(rbpds)が最先端のアプローチとして登場した。
しかし、既存のrbpdsの大きな制限は、手作業で構築されたブランド知識ベースに依存しているため、多くのブランドにスケールすることは不可能であり、知識ベースが不十分なブランドカバレッジのために誤ったネガティブなエラーを生じさせる。
そこで本研究では,大規模マルチモーダルブランドのナレッジベースであるknowphishを収集・公開し,各ブランドに関する20万のブランド情報を含むナレッジコレクションパイプラインを提案する。
KnowPhishは既存のRBPDのパフォーマンスをプラグアンドプレイで向上するために使用することができる。
既存のRBPDの2つ目の制限は、WebページHTMLに存在する有用なテキスト情報を無視して、画像のモダリティのみに依存することである。
このテキスト情報を活用するために,テキストからWebページのブランド情報を抽出するLarge Language Model (LLM)に基づくアプローチを提案する。
結果として得られたマルチモーダルフィッシング検出手法であるKnowPhish Detector(KPD)は,ロゴの有無にかかわらずフィッシングWebページを検出する。
我々は,KnowPhishとKPDを手動で検証したデータセットと,シンガポールの現地文脈下でのフィールドスタディに基づいて評価し,最先端のベースラインと比較して,有効性と効率が著しく向上したことを示した。 Phishing attacks have inflicted substantial losses on individuals and businesses alike, necessitating the development of robust and efficient automated phishing detection approaches. Reference-based phishing detectors (RBPDs), which compare the logos on a target webpage to a known set of logos, have emerged as the state-of-the-art approach. However, a major limitation of existing RBPDs is that they rely on a manually constructed brand knowledge base, making it infeasible to scale to a large number of brands, which results in false negative errors due to the insufficient brand coverage of the knowledge base. To address this issue, we propose an automated knowledge collection pipeline, using which we collect and release a large-scale multimodal brand knowledge base, KnowPhish, containing 20k brands with rich information about each brand. KnowPhish can be used to boost the performance of existing RBPDs in a plug-and-play manner. A second limitation of existing RBPDs is that they solely rely on the image modality, ignoring useful textual information present in the webpage HTML. To utilize this textual information, we propose a Large Language Model (LLM)-based approach to extract brand information of webpages from text. Our resulting multimodal phishing detection approach, KnowPhish Detector (KPD), can detect phishing webpages with or without logos. We evaluate KnowPhish and KPD on a manually validated dataset, and on a field study under Singapore's local context, showing substantial improvements in effectiveness and efficiency compared to state-of-the-art baselines. | 翻訳日:2024-03-06 17:46:04 公開日:2024-03-04 |
# ニューロミクスコンピューティングに向けて: ニューロンをオートエンコーダとして Toward Neuromic Computing: Neurons as Autoencoders ( http://arxiv.org/abs/2403.02331v1 ) ライセンス: Link先を確認 | Larry Bull | (参考訳) デンドライトの計算能力はますます明確になっている。
このレターは、神経バックプロパゲーションが樹状突起処理を使用して個々のニューロンが自動的にエンコードできるという考えを示している。
超単純な接続重み探索ヒューリスティックおよび人工ニューラルネットワークモデルを用いて、フィードフォワードネットワークの隠れ層における各ニューロンに対する相互結合型自己符号化の効果を探索する。
これは、オートエンコーディングの標準層アプローチとは対照的である。
このような個別化処理は有害ではなく、ネットワーク学習を改善することができる。 The computational capabilities of dendrites have become increasingly clear. This letter presents the idea that neural backpropagation is using dendritic processing to enable individual neurons to perform autoencoding. Using a very simple connection weight search heuristic and artificial neural network model, the effects of interleaving autoencoding for each neuron in a hidden layer of a feedforward network are explored. This is contrasted to the standard layered approach to autoencoding. It is shown that such individualised processing is not detrimental and can improve network learning. | 翻訳日:2024-03-06 17:40:40 公開日:2024-03-04 |
# RegionGPT: 視覚言語モデルの領域理解に向けて RegionGPT: Towards Region Understanding Vision Language Model ( http://arxiv.org/abs/2403.02330v1 ) ライセンス: Link先を確認 | Qiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, Sifei Liu | (参考訳) 視覚言語モデル(vlms)は、大言語モデル(llm)と画像テキストペアの統合によって急速に進歩してきたが、視覚エンコーダの空間認識の制限や、詳細な地域固有のキャプションを欠いた粗粒度のトレーニングデータの使用などにより、詳細な地域視覚理解に苦慮している。
そこで我々は、複雑な地域レベルのキャプションと理解のための新しいフレームワークであるRegGPT(RGPT)を紹介する。
RGPTは、VLMの既存の視覚エンコーダに、単純かつ効果的な修正を加えることで、地域表現の空間的認識を高める。
汎用タスクに対するモデルの汎用性を維持しつつ、トレーニングと推論の段階でタスク誘導命令プロンプトを統合することで、特定の出力範囲を必要とするタスクの性能をさらに向上する。
さらに,地域字幕データ生成パイプラインを自動生成し,詳細な地域字幕を用いた学習セットを充実させる。
本稿では,複雑な領域記述や推論,オブジェクト分類,参照表現の理解など,領域レベルのタスクの範囲で,汎用的なRGPTモデルを効果的に適用し,性能を著しく向上できることを実証する。 Vision language models (VLMs) have experienced rapid advancements through the integration of large language models (LLMs) with image-text pairs, yet they struggle with detailed regional visual understanding due to limited spatial awareness of the vision encoder, and the use of coarse-grained training data that lacks detailed, region-specific captions. To address this, we introduce RegionGPT (short as RGPT), a novel framework designed for complex region-level captioning and understanding. RGPT enhances the spatial awareness of regional representation with simple yet effective modifications to existing visual encoders in VLMs. We further improve performance on tasks requiring a specific output scope by integrating task-guided instruction prompts during both training and inference phases, while maintaining the model's versatility for general-purpose tasks. Additionally, we develop an automated region caption data generation pipeline, enriching the training set with detailed region-level captions. We demonstrate that a universal RGPT model can be effectively applied and significantly enhancing performance across a range of region-level tasks, including but not limited to complex region descriptions, reasoning, object classification, and referring expressions comprehension. | 翻訳日:2024-03-06 17:40:30 公開日:2024-03-04 |
# COMMIT: セマンティック攻撃に対するマルチセンサフュージョンシステムのロバスト性認定 COMMIT: Certifying Robustness of Multi-Sensor Fusion Systems against Semantic Attacks ( http://arxiv.org/abs/2403.02329v1 ) ライセンス: Link先を確認 | Zijian Huang, Wenda Chu, Linyi Li, Chejian Xu, Bo Li | (参考訳) マルチセンサー融合システム(MSF)は、現代の自動運転車(AV)の知覚モジュールとして重要な役割を果たす。
したがって、物理的世界における回転やシフトといった、共通の現実的な敵セマンティックトランスフォーメーションに対する堅牢性を確保することは、AVの安全性に不可欠である。
実証的な証拠は、MSFは単一モーダルモデルに比べて堅牢性が改善されていることを示しているが、それでも敵対的セマンティック変換には弱い。
経験的防御の提案にもかかわらず、いくつかの研究は、これらの防御が新たな適応攻撃によって再び攻撃できることを示した。
これまでのところ、MSFに対する認証された防衛策は提案されていない。
本研究では,セマンティックアタックに対するマルチセンサ融合システムのロバスト性を証明する最初のロバストネス認証フレームワークCOMMITを提案する。
特に,マルチモーダルデータによるランダム化平滑化を利用した実用的な異方性雑音機構を提案し,複雑な意味変換を特徴付けるグリッドベース分割法を提案する。
また,大規模MSFモデルのオブジェクト検出精度とIoUの観点から,効率の良い認証アルゴリズムを提案する。
CARLAシミュレーションプラットフォームを用いて,異なる設定でのCOMMITの有効性を実証的に評価し,異なるMSFモデルに対する信頼性の総合的な評価を行う。
MSFモデルの認証は、MSFモデルの利点を検証するシングルモーダルモデルよりも少なくとも48.39%高いことが示されている。
当社の認定フレームワークとベンチマークは,実際に堅牢なAVを実現するための重要なステップとなると思います。 Multi-sensor fusion systems (MSFs) play a vital role as the perception module in modern autonomous vehicles (AVs). Therefore, ensuring their robustness against common and realistic adversarial semantic transformations, such as rotation and shifting in the physical world, is crucial for the safety of AVs. While empirical evidence suggests that MSFs exhibit improved robustness compared to single-modal models, they are still vulnerable to adversarial semantic transformations. Despite the proposal of empirical defenses, several works show that these defenses can be attacked again by new adaptive attacks. So far, there is no certified defense proposed for MSFs. In this work, we propose the first robustness certification framework COMMIT certify robustness of multi-sensor fusion systems against semantic attacks. In particular, we propose a practical anisotropic noise mechanism that leverages randomized smoothing with multi-modal data and performs a grid-based splitting method to characterize complex semantic transformations. We also propose efficient algorithms to compute the certification in terms of object detection accuracy and IoU for large-scale MSF models. Empirically, we evaluate the efficacy of COMMIT in different settings and provide a comprehensive benchmark of certified robustness for different MSF models using the CARLA simulation platform. We show that the certification for MSF models is at most 48.39% higher than that of single-modal models, which validates the advantages of MSF models. We believe our certification framework and benchmark will contribute an important step towards certifiably robust AVs in practice. | 翻訳日:2024-03-06 17:40:07 公開日:2024-03-04 |
# モデル湖 Model Lakes ( http://arxiv.org/abs/2403.02327v1 ) ライセンス: Link先を確認 | Koyena Pal, David Bau, Ren\'ee J. Miller | (参考訳) 深層学習モデルのセットを考えると、タスクに適したモデルを見つけ出し、モデルを理解し、モデルが他とどう違うのかを特徴付けることは困難である。
現在、実践者はモデルを理解し、選択するために手書きのドキュメンテーションに依存しています。
しかし、すべてのモデルに完全な信頼性のあるドキュメントがあるわけではない。
機械学習モデルの数が増えるにつれて、モデルの発見、差別化、理解に関するこの問題がますます重要になっている。
データ湖の研究から着想を得て,モデル湖の概念を紹介し,定義する。
大型モデル管理における基礎研究課題について論じる。
また,大規模モデル管理の研究にどのような原則データ管理手法が適用可能かについて議論する。 Given a set of deep learning models, it can be hard to find models appropriate to a task, understand the models, and characterize how models are different one from another. Currently, practitioners rely on manually-written documentation to understand and choose models. However, not all models have complete and reliable documentation. As the number of machine learning models increases, this issue of finding, differentiating, and understanding models is becoming more crucial. Inspired from research on data lakes, we introduce and define the concept of model lakes. We discuss fundamental research challenges in the management of large models. And we discuss what principled data management techniques can be brought to bear on the study of large model management. | 翻訳日:2024-03-06 17:39:26 公開日:2024-03-04 |
# 対照的な地域指導:訓練無しの視覚言語モデルにおける接地改善 Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training ( http://arxiv.org/abs/2403.02325v1 ) ライセンス: Link先を確認 | David Wan, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal | (参考訳) 画像の特に関連性の高い領域をハイライトすることで、様々な視覚言語(VL)タスクにおける視覚言語モデル(VLM)の性能を向上させることができる。
例えば、VLMには"視覚的プロンプト"が与えられ、バウンディングボックスなどの視覚的マーカーがキーイメージ領域を指示する。
しかしながら、ビジュアルガイダンスを組み込むことのできる現在のVLMは、プロプライエタリでコストがかかるか、あるいはビジュアルプロンプトを含むキュレートされたデータに対するコストのかかるトレーニングが必要である。
本稿では,オープンソースのVLMを視覚的プロンプトに応答させる訓練不要なガイダンス手法であるContrastive Region Guidance(CRG)を紹介する。
CRGは、視覚的プロンプトと非視覚的プロンプトで生成されたモデル出力を対比し、正しい答えを生成するために必要な情報(すなわち、モデルの事前情報)がなくても、モデルによって明らかにされるバイアスを分解する。
リージョンアノテーションが提供されている場合、crgは認識、数学、オブジェクト関係推論のような6つの異なる領域ベースのタスクのコレクションであるvip-bench上で、絶対精度を最大11.1%向上させる。
また,空間推論へのCRGの適用性を示すとともに,What'sUpの10%の改善,合成一般化(SugarCrepeからの2つの難解な分割に対して,精度を11.5%,7.5%向上),生成した画像に対する画像テキストアライメント,SeeTRUEの最大8.4AUROCと6.8F1ポイントの改善も示す。
参照領域が存在しない場合、CRGは、RefCOCO/+/gやFlickr30K Entitiesのような表現理解とフレーズグラウンドベンチマークを参照する領域を、平均3.2%の精度で再ランクすることができる。
本分析では,CRGの代替マスク戦略を探求し,CRGの確率シフトを定量化し,CRGの設計選択を実証的に検証し,地域指導力の役割を評価する。 Highlighting particularly relevant regions of an image can improve the performance of vision-language models (VLMs) on various vision-language (VL) tasks by guiding the model to attend more closely to these regions of interest. For example, VLMs can be given a "visual prompt", where visual markers such as bounding boxes delineate key image regions. However, current VLMs that can incorporate visual guidance are either proprietary and expensive or require costly training on curated data that includes visual prompts. We introduce Contrastive Region Guidance (CRG), a training-free guidance method that enables open-source VLMs to respond to visual prompts. CRG contrasts model outputs produced with and without visual prompts, factoring out biases revealed by the model when answering without the information required to produce a correct answer (i.e., the model's prior). CRG achieves substantial improvements in a wide variety of VL tasks: When region annotations are provided, CRG increases absolute accuracy by up to 11.1% on ViP-Bench, a collection of six diverse region-based tasks such as recognition, math, and object relationship reasoning. We also show CRG's applicability to spatial reasoning, with 10% improvement on What'sUp, as well as to compositional generalization -- improving accuracy by 11.5% and 7.5% on two challenging splits from SugarCrepe -- and to image-text alignment for generated images, where we improve by up to 8.4 AUROC and 6.8 F1 points on SeeTRUE. When reference regions are absent, CRG allows us to re-rank proposed regions in referring expression comprehension and phrase grounding benchmarks like RefCOCO/+/g and Flickr30K Entities, with an average gain of 3.2% in accuracy. Our analysis explores alternative masking strategies for CRG, quantifies CRG's probability shift, and evaluates the role of region guidance strength, empirically validating CRG's design choices. | 翻訳日:2024-03-06 17:39:17 公開日:2024-03-04 |
# トランスモン型単一マイクロ波光子カウンタを用いたアクシオンダークマターの量子強調センシング Quantum-enhanced sensing of axion dark matter with a transmon-based single microwave photon counter ( http://arxiv.org/abs/2403.02321v1 ) ライセンス: Link先を確認 | C. Braggio, L. Balembois, R. Di Vora, Z. Wang, G. Carugno, A. Ortolan, G. Ruoso, U. Gambardella, D. D'Agostino, P. Bertet, E. Flurin | (参考訳) マイクロ波光子カウンタを備えたハロスコープを用いたアクシオン暗黒物質探索について報告する。
ハロスコープは、磁場中に置かれた調整可能な高品質な3次元マイクロ波空洞である。
光子カウンタは周期的に動作し、入ってくるマイクロ波光子を超伝導トランスモン量子ビットの状態にマッピングする。
測定プロトコルは、ハロスコープキャビティから放出される電力とダークカウント背景を継続的に監視し、キャビティ周波数のチューニングにより異なるアクシオン質量を検出できる。
この装置により、量子制限線形増幅器で到達可能な探索速度を因子20で向上させ、共振検出器で軸の存在を検出するための新しい標準を設定する。 We report an axion dark matter search with a haloscope equipped with a microwave photon counter. The haloscope is a tunable high quality factor 3-dimensional microwave cavity placed in a magnetic field. The photon counter, operated cyclically, maps an incoming microwave photon onto the state of a superconducting transmon qubit. The measurement protocol continuously monitors the power emitted by the haloscope cavity as well as the dark count background, and enables tuning of the cavity frequency to probe different axion masses. With this apparatus we enhance by a factor 20 the search speed that can be reached with quantum-limited linear amplifiers, and set a new standard for probing the existence of axions with resonant detectors. | 翻訳日:2024-03-06 17:38:34 公開日:2024-03-04 |
# 計測に基づくフィードバックとジョセフソンパラメトリックアンプを用いた電気機械の近地状態冷却 Near-ground state cooling in electromechanics using measurement-based feedback and Josephson parametric amplifier ( http://arxiv.org/abs/2403.02319v1 ) ライセンス: Link先を確認 | Ewa Rej, Richa Cutting, Debopam Datta, Nils Tiencken, Joonas Govenius, Visa Vesterinen, Yulong Liu, and Mika A. Sillanp\"a\"a | (参考訳) ナノ・マイクロメカニカル共振器のフィードバックに基づく制御は、マクロ量子現象と敏感な力測定の研究を可能にする。
ここでは, 量子基底状態に近い低損失かつ高強度のSiN膜共振器のフィードバック冷却を実演する。
共振器をマイクロ波共振器に結合したマイクロ波光機械プラットフォームを用いる。
この実験は、付加ノイズがほぼ量子的に制限されたジョセフソン進行波パラメトリック増幅器を用いており、フィードバックループのシステムノイズによる共振器加熱を緩和することが重要である。
我々は、主にマイクロ波加熱によって制限される1.6以下の熱フォノン数に達する。
また、冷却に用いる他の音色に加えて、独立した読み出しのための弱いマイクロ波トーンが適用された場合のサイドバンド非対称性についても論じる。
この非対称性は、放射と吸収の間の量子力学的不均衡に起因する。
しかし、観測された非対称性はこの量子効果によって部分的にのみ生じる。
特定の状況では、非対称性はマルチトン照射下でキャビティカー効果によって完全に支配される。 Feedback-based control of nano- and micromechanical resonators can enable the study of macroscopic quantum phenomena and also sensitive force measurements. Here, we demonstrate the feedback cooling of a low-loss and high-stress macroscopic SiN membrane resonator close to its quantum ground state. We use the microwave optomechanical platform, where the resonator is coupled to a microwave cavity. The experiment utilizes a Josephson travelling wave parametric amplifier, which is nearly quantum-limited in added noise, and is important to mitigate resonator heating due to system noise in the feedback loop. We reach a thermal phonon number as low as 1.6, which is limited primarily by microwave-induced heating. We also discuss the sideband asymmetry observed when a weak microwave tone for independent readout is applied in addition to other tones used for the cooling. The asymmetry can be qualitatively attributed to the quantum-mechanical imbalance between emission and absorption. However, we find that the observed asymmetry is only partially due to this quantum effect. In specific situations, the asymmetry is fully dominated by a cavity Kerr effect under multitone irradiation. | 翻訳日:2024-03-06 17:38:22 公開日:2024-03-04 |
# フォノン急速断熱路による冷却捕捉イオン Cooling trapped ions with phonon rapid adiabatic passage ( http://arxiv.org/abs/2403.02315v1 ) ライセンス: Link先を確認 | M. I. Fabrikant and P. Lauria and I. S. Madjarov and W. C. Burton and R. T. Sutherland | (参考訳) 量子電荷結合デバイス(QCCD)コンピュータアーキテクチャの最近のデモでは、回路時間は冷却によって支配される。
マルチイオン結晶の運動モードでは、冷却剤イオンの関与が低いため、マグニチュードのオーダーが他の結晶よりも長くかかる。
ここでは, 直接冷却よりも短い時間スケールで, 選択モードの熱集団をコヒーレントに交換することにより, この問題を回避する新しい手法を, フォノン急速断熱通路 (phrap) と呼ぶ。
adiabatic rapid passageと同様に、これらのスロークーリングモードとdc電場を用いた高速クーリングモードを準静的に結合する。
結晶が断熱的に横切られないようにすると、ほぼ完全なフォノン集団交換結果が得られる。
我々はこれを2イオン結晶上で実証し、全ての放射状モードの間接的な地中冷却を、直接冷却と比較して桁違いの速度アップを達成することを示した。
また、この手法の電位と制御磁場のゆらぎを捕捉する感度が低いことを示し、さらにn~200の温度からサブクアンタ温度を達成できることを見出した。 In recent demonstrations of the quantum charge-coupled device (QCCD) computer architecture, circuit times are dominated by cooling. Some motional modes of multi-ion crystals take orders-of-magnitude longer to cool than others because of low coolant ion participation. Here we demonstrate a new technique, which we call phonon rapid adiabatic passage (phrap), that avoids this issue by coherently exchanging the thermal populations of selected modes on timescales short compared to direct cooling. Analogous to adiabatic rapid passage, we quasi-statically couple these slow-cooling modes with fast-cooling ones using DC electric fields. When the crystal is then adiabatically ramped through the resultant avoided crossing, nearly-complete phonon population exchange results. We demonstrate this on two-ion crystals, and show the indirect ground-state cooling of all radial modes--achieving an order of magnitude speedup compared to direct cooling. We also show the technique's insensitivity to trap potential and control field fluctuations, and find that it still achieves sub-quanta temperatures starting as high as n~200. | 翻訳日:2024-03-06 17:38:04 公開日:2024-03-04 |
# Hamiltonian Monte Carlo によるベイズ不確かさの推定 : 心臓MRIセグメントへの応用 Bayesian Uncertainty Estimation by Hamiltonian Monte Carlo: Applications to Cardiac MRI Segmentation ( http://arxiv.org/abs/2403.02311v1 ) ライセンス: Link先を確認 | Yidong Zhao, Joao Tourais, Iain Pierce, Christian Nitsche, Thomas A. Treibel, Sebastian Weing\"artner, Artur M. Schweidtmann, Qian Tao | (参考訳) 深層学習(DL)に基づく手法は,幅広い医用画像分割作業において最先端のパフォーマンスを達成した。
しかし、最近の研究では、ディープニューラルネットワーク(DNN)が誤診され、過信され、臨床応用の「サイレント障害」につながることが示されている。
ベイズ統計は、後続確率推定に基づくDL故障検出に対する直感的なアプローチを提供する。
しかし,大容量の医用画像分割DNNではベイズDL,特に後方推定が困難である。
この課題に対処するため,ハミルトン・モンテカルロ(HMC)によるベイズ学習フレームワークを提案する。
さらに,HMC計算において,局所的および大域的な分布のジオメトリを捕捉し,単一のDNNをトレーニングするのと同じ計算予算でベイズDNN訓練を効率的に行うことができる循環型アニール方式を提案する。
その結果、ベイズDNNは、セグメンテーションの不確実性とともにアンサンブルセグメンテーションを出力する。
提案したHMC-CPは、SSFPシネ画像と、定量的なT_1$およびT_2$マッピングの外部データセットを用いて、心臓磁気共鳴画像(MRI)セグメンテーションに基づいて広範囲に評価した。 Deep learning (DL)-based methods have achieved state-of-the-art performance for a wide range of medical image segmentation tasks. Nevertheless, recent studies show that deep neural networks (DNNs) can be miscalibrated and overconfident, leading to "silent failures" that are risky} for clinical applications. Bayesian statistics provide an intuitive approach to DL failure detection, based on posterior probability estimation. However, Bayesian DL, and in particular the posterior estimation, is intractable for large medical image segmentation DNNs. To tackle this challenge, we propose a Bayesian learning framework by Hamiltonian Monte Carlo (HMC), tempered by cold posterior (CP) to accommodate medical data augmentation, named HMC-CP. For HMC computation, we further propose a cyclical annealing strategy, which captures both local and global geometries of the posterior distribution, enabling highly efficient Bayesian DNN training with the same computational budget requirements as training a single DNN. The resulting Bayesian DNN outputs an ensemble segmentation along with the segmentation uncertainty. We evaluate the proposed HMC-CP extensively on cardiac magnetic resonance image (MRI) segmentation, using in-domain steady-state free precession (SSFP) cine images as well as out-of-domain datasets of quantitative $T_1$ and $T_2$ mapping. | 翻訳日:2024-03-06 17:37:43 公開日:2024-03-04 |
# Sarathi-Serve を用いた LLM 推論におけるスループット-レイテンシトレードオフのモデル化 Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve ( http://arxiv.org/abs/2403.02310v1 ) ライセンス: Link先を確認 | Amey Agrawal, Nitin Kedia, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav S. Gulavani, Alexey Tumanov, Ramachandran Ramjee | (参考訳) 各LSMサービス要求は2段階に分けて行われる。
1つはプリフィルで、入力プロンプト全体を処理して1つの出力トークンを生成し、もう1つは1つの出力トークンを生成するデコードである。
Prefillイテレーションはレイテンシが高いが、入力プロンプトの並列処理によってGPU計算が飽和する。
対照的に、デコードイテレーションはレイテンシが低いが、要求毎に1つのトークンしか処理しないため、計算利用率が低い。
これにより、バッチ処理はデコードに非常に有効になり、結果として全体のスループットが向上する。
しかし、複数のリクエストをバッチ化すると、プリフィルとデコードがインターリーブされ、高いスループットと低レイテンシの両方を達成することが困難になる。
提案手法に触発された効率的なllm推論スケジューラであるsarathi-serveを提案する。
sarathi-serveはsarathiからのチャンクプリフィルを利用してストールフリーのスケジュールを作成し、進行中のデコードを実行することなく、バッチに新しいリクエストを追加できる。
静的なスケジューリングは、バッチ処理がレイテンシに与える影響を最小限に抑えながら、大きなバッチサイズでスループットを改善する機会を解放する。
評価の結果,Sarathi-Serveは1つのA100 GPU上で最大2.6倍,OrcaおよびvLLM上での8A100 GPU上でのFalcon-180Bの最大6.9倍のスループット向上を実現している。 Each LLM serving request goes through two phases. The first is prefill which processes the entire input prompt to produce one output token and the second is decode which generates the rest of output tokens, one-at-a-time. Prefill iterations have high latency but saturate GPU compute due to parallel processing of the input prompt. In contrast, decode iterations have low latency but also low compute utilization because a decode iteration processes only a single token per request. This makes batching highly effective for decodes and consequently for overall throughput. However, batching multiple requests leads to an interleaving of prefill and decode iterations which makes it challenging to achieve both high throughput and low latency. We introduce an efficient LLM inference scheduler Sarathi-Serve inspired by the techniques we originally proposed for optimizing throughput in Sarathi. Sarathi-Serve leverages chunked-prefills from Sarathi to create stall-free schedules that can add new requests in a batch without pausing ongoing decodes. Stall-free scheduling unlocks the opportunity to improve throughput with large batch sizes while minimizing the effect of batching on latency. Our evaluation shows that Sarathi-Serve improves serving throughput within desired latency SLOs of Mistral-7B by up to 2.6x on a single A100 GPU and up to 6.9x for Falcon-180B on 8 A100 GPUs over Orca and vLLM. | 翻訳日:2024-03-06 17:37:16 公開日:2024-03-04 |
# 科学アウトリーチのための単純ポータブル量子鍵分布 Simple portable quantum key distribution for science outreach ( http://arxiv.org/abs/2403.02309v1 ) ライセンス: Link先を確認 | Pedro Mendes, Paulo Andr\'e and Emmanuel Zambrini Cruzeiro | (参考訳) 量子鍵分布(QKD)は、セキュアなデータ伝送から量子ネットワークに至るまで、セキュアな通信領域において重要な技術となっている。
本稿では,QKD の授業の簡易かつコンパクトで費用対効果の高いセットアップについて述べる。
弱いコヒーレントパルスを使用することで、減衰したレーザーで簡単に生成することができる。
このシステムは、自由空間で単純化された3状態BB84プロトコルを使用し、状態は線形分極を用いて符号化される。
分極符号化は、利用可能な予算に応じて受動的またはアクティブに行うことができる。
受信機に時間多重化を実装し、必要な検出器の数を減らす。
2つの検出器のみが2つのベースで測定を行い、合計4つの結果が得られる。
この結果は、自由空間量子通信システムの実用性を示し、そのコンパクトでポータブルな性質は、教育的デモンストレーションに特に適している。
この研究は、大学生がハンズオン実験プロジェクトを通して量子コミュニケーションの分野に携わる道を開く。 Quantum Key Distribution (QKD) has become an essential technology in the realm of secure communication, with applications ranging from secure data transmission to quantum networks. This paper presents a simple, compact, and cost-effective setup for undergraduate tutorial demonstrations of QKD. It relies on using weak coherent pulses, which can be readily produced using an attenuated laser. The system employs the simplified three-state BB84 protocol in free space, the states are encoded using linear polarization. Polarization encoding can be done passively or actively, depending on the budget available. Time multiplexing is implemented at the receiver to reduce the number of required detectors. Only two detectors are used to implement measurements on two bases, with a total of four outcomes. The result demonstrates the practicality of the system for free-space quantum communication, and its compact and portable nature makes it particularly suitable for pedagogical demonstrations. This work paves the way for engaging undergraduate students in the field of quantum communication through hands-on laboratory projects. | 翻訳日:2024-03-06 17:36:48 公開日:2024-03-04 |
# Vision-RWKV: RWKV風アーキテクチャによる効率的かつスケーラブルな視覚知覚 Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures ( http://arxiv.org/abs/2403.02308v1 ) ライセンス: Link先を確認 | Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang | (参考訳) トランスフォーマーはコンピュータビジョンと自然言語処理に革命をもたらしたが、その高い計算複雑性は高解像度の画像処理と長文解析における応用を制限する。
本稿では,nlp領域で使用されるrwkvモデルから適応したモデルである vision-rwkv (vrwkv) について紹介する。
Vision Transformer (ViT) と同様に、我々のモデルはスパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、これは高解像度画像のシームレスな処理に非常に適しており、ウィンドウ操作の必要性を排除している。
画像分類における評価では,VRWKVはViTの分類性能と著しく高速で,メモリ使用量が少ないことが示されている。
密集予測タスクでは、ウィンドウベースのモデルよりも優れ、同等の速度を維持する。
これらの結果は、視覚知覚タスクのより効率的な代替手段としてのVRWKVの可能性を強調している。
コードは \url{https://github.com/OpenGVLab/Vision-RWKV} で公開されている。 Transformers have revolutionized computer vision and natural language processing, but their high computational complexity limits their application in high-resolution image processing and long-context analysis. This paper introduces Vision-RWKV (VRWKV), a model adapted from the RWKV model used in the NLP field with necessary modifications for vision tasks. Similar to the Vision Transformer (ViT), our model is designed to efficiently handle sparse inputs and demonstrate robust global processing capabilities, while also scaling up effectively, accommodating both large-scale parameters and extensive datasets. Its distinctive advantage lies in its reduced spatial aggregation complexity, which renders it exceptionally adept at processing high-resolution images seamlessly, eliminating the necessity for windowing operations. Our evaluations in image classification demonstrate that VRWKV matches ViT's classification performance with significantly faster speeds and lower memory usage. In dense prediction tasks, it outperforms window-based models, maintaining comparable speeds. These results highlight VRWKV's potential as a more efficient alternative for visual perception tasks. Code is released at \url{https://github.com/OpenGVLab/Vision-RWKV}. | 翻訳日:2024-03-06 17:36:33 公開日:2024-03-04 |
# 病的検出のための集団内変動の集団レベルコンテキストによる活用 Harnessing Intra-group Variations Via a Population-Level Context for Pathology Detection ( http://arxiv.org/abs/2403.02307v1 ) ライセンス: Link先を確認 | P. Bilha Githinji, Xi Yuan, Zhenglin Chen, Ijaz Gul, Dingqi Shang, Wen Liang, Jianming Deng, Dan Zeng, Dongmei yu, Chenggang Yan, Peiwu Qin | (参考訳) 健康標本と病理標本の分布の十分な分離性を実現することは、病理検出畳み込みモデルにとって重要な障害である。
さらに、これらのモデルはコントラストベースの画像に偏りを示し、テクスチャベースの医療画像の性能は低下する。
本研究では,病理検出のための集団レベルコンテキストの概念を導入し,グラフ理論的手法を用いてモデルを構築し,popusenseと呼ばれる改良モジュールを介してオートエンコーダの潜在コードに取り込む。
PopuSenseは、畳み込みモデルの局所的またはグローバル的文脈が見逃したり、滑らかになったりする生医学データに固有の追加のグループ内変異を捉えようとしている。
コントラストベースおよびテクスチャベース画像の実験は、最小適応で、既存の強度ベース入力の好みに遭遇する。
それにもかかわらず、PopuSenseはコントラストベースの画像における分離性の改善を示し、モデルによって学習された表現を洗練するための追加の道を示す。 Realizing sufficient separability between the distributions of healthy and pathological samples is a critical obstacle for pathology detection convolutional models. Moreover, these models exhibit a bias for contrast-based images, with diminished performance on texture-based medical images. This study introduces the notion of a population-level context for pathology detection and employs a graph theoretic approach to model and incorporate it into the latent code of an autoencoder via a refinement module we term PopuSense. PopuSense seeks to capture additional intra-group variations inherent in biomedical data that a local or global context of the convolutional model might miss or smooth out. Experiments on contrast-based and texture-based images, with minimal adaptation, encounter the existing preference for intensity-based input. Nevertheless, PopuSense demonstrates improved separability in contrast-based images, presenting an additional avenue for refining representations learned by a model. | 翻訳日:2024-03-06 17:36:14 公開日:2024-03-04 |
# 特殊化を超えて:年齢と性別の推定におけるMLLMの能力を評価する Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation ( http://arxiv.org/abs/2403.02302v1 ) ライセンス: Link先を確認 | Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh | (参考訳) MLLM(Multimodal Large Language Models)は近年大きな人気を集めている。
ChatGPT-4VやGeminiのような強力な商用モデルやLLaVAのようなオープンソースモデルは基本的に汎用モデルであり、コンピュータビジョンを含む幅広いタスクを解決するために応用されている。
これらのニューラルネットワークは、高度に一般的な知識と推論能力を有しており、特に訓練されていないタスクでも作業できることが証明されている。
sharegpt4v、chatgpt、llava-nextといった強力なmllmの能力は、私たちの最先端の専門モデルであるmivoloと、年齢と性別推定の専門的なタスクで比較しました。
MiVOLOも更新し、この記事では詳細と新しいメトリクスを提供しています。
この比較は、参加モデルの強さと弱点に関する興味深い結果と洞察をもたらした。
さらに,この課題において,sharegpt4vモデルを精巧に調整し,最先端の結果を得るための様々な試みを行った。
このようなモデルは、MiVOLOのような特殊なモデルと比べて非常に高価であるため、本番環境では実用的ではないが、データアノテーションのようなタスクで非常に有用である可能性がある。 Multimodal Large Language Models (MLLMs) have recently gained immense popularity. Powerful commercial models like ChatGPT-4V and Gemini, as well as open-source ones such as LLaVA, are essentially general-purpose models and are applied to solve a wide variety of tasks, including those in computer vision. These neural networks possess such strong general knowledge and reasoning abilities that they have proven capable of working even on tasks for which they were not specifically trained. We compared the capabilities of the most powerful MLLMs to date: ShareGPT4V, ChatGPT, LLaVA-Next in a specialized task of age and gender estimation with our state-of-the-art specialized model, MiVOLO. We also updated MiVOLO and provide details and new metrics in this article. This comparison has yielded some interesting results and insights about the strengths and weaknesses of the participating models. Furthermore, we attempted various ways to fine-tune the ShareGPT4V model for this specific task, aiming to achieve state-of-the-art results in this particular challenge. Although such a model would not be practical in production, as it is incredibly expensive compared to a specialized model like MiVOLO, it could be very useful in some tasks, like data annotation. | 翻訳日:2024-03-06 17:35:56 公開日:2024-03-04 |
# adaptNMT:ニューラルマシン翻訳のためのオープンソースの言語に依存しない開発環境 adaptNMT: an open-source, language-agnostic development environment for Neural Machine Translation ( http://arxiv.org/abs/2403.02367v1 ) ライセンス: Link先を確認 | S\'eamus Lankford, Haithem Afli and Andy Way | (参考訳) adaptNMTは、RNNとTransformerの神経翻訳モデルの開発と展開に関わるすべてのプロセスを合理化する。
オープンソースアプリケーションとして、機械翻訳の分野で働いている技術と非技術の両方のユーザ向けに設計されている。
広く採用されているOpenNMTエコシステムを基盤として開発されたこのアプリケーションは,開発環境のセットアップやトレイン,バリデーション,テスト分割の生成が大幅に簡略化されているため,新たな参入者にとって特に有用である。
グラフ化はアプリケーション内に組み込まれ、モデルのトレーニングの進捗が説明され、文片はサブワードセグメンテーションモデルの作成に使用される。
ハイパーパラメータのカスタマイズは直感的なユーザインターフェースを通じて容易であり、シングルクリックモデル開発アプローチが実装されている。
adaptnmtによって開発されたモデルは、さまざまなメトリクスを使用して評価でき、アプリケーション内の翻訳サービスとしてデプロイされる。
NLP分野におけるエコフレンドリーな研究を支援するため、グリーンレポートでは、モデル開発中に発生する電力消費とkgCO$_{2}$排出もフラグ付けしている。
アプリケーションは無料で利用できる。 adaptNMT streamlines all processes involved in the development and deployment of RNN and Transformer neural translation models. As an open-source application, it is designed for both technical and non-technical users who work in the field of machine translation. Built upon the widely-adopted OpenNMT ecosystem, the application is particularly useful for new entrants to the field since the setup of the development environment and creation of train, validation and test splits is greatly simplified. Graphing, embedded within the application, illustrates the progress of model training, and SentencePiece is used for creating subword segmentation models. Hyperparameter customization is facilitated through an intuitive user interface, and a single-click model development approach has been implemented. Models developed by adaptNMT can be evaluated using a range of metrics, and deployed as a translation service within the application. To support eco-friendly research in the NLP space, a green report also flags the power consumption and kgCO$_{2}$ emissions generated during model development. The application is freely available. | 翻訳日:2024-03-06 17:31:01 公開日:2024-03-04 |
# アイルランド語変圧器を用いたNMTの人的評価 Human Evaluation of English--Irish Transformer-Based NMT ( http://arxiv.org/abs/2403.02366v1 ) ライセンス: Link先を確認 | S\'eamus Lankford, Haithem Afli and Andy Way | (参考訳) 本研究では,高パラメータ設定が低リソースの英アイルランド語対に対するトランスフォーマーベースニューラルネットワーク翻訳(NMT)の品質に与える影響について,人間による評価を行った。
Byte Pair Encoding (BPE) とユニグラムアプローチを用いたSentencePieceモデルの評価を行った。
モデルアーキテクチャのバリエーションには、レイヤー数の変更、注意のために最適なヘッド数の評価、様々な正規化技法のテストが含まれる。
最大の性能改善は16k BPEサブワードモデルでトランスフォーマー最適化モデルに記録された。
ベースラインリカレントニューラルネットワーク(RNN)モデルと比較すると,トランスフォーマー最適化モデルではBLEUスコアが7.8ポイント向上した。
google translateに対するベンチマークでは、翻訳エンジンが大幅に改善されました。
さらに,機械翻訳システムの性能を比較する定量的な手作業評価を行った。
多次元品質指標(mqm)誤差分類法を用いて、rnn系システムとトランスフォーマー系で生成されたエラータイプを人間による評価した。
以上の結果から,最も優れたトランスフォーマーシステムは,RNNモデルと比較して精度と流速誤差を著しく低減することがわかった。 In this study, a human evaluation is carried out on how hyperparameter settings impact the quality of Transformer-based Neural Machine Translation (NMT) for the low-resourced English--Irish pair. SentencePiece models using both Byte Pair Encoding (BPE) and unigram approaches were appraised. Variations in model architectures included modifying the number of layers, evaluating the optimal number of heads for attention and testing various regularisation techniques. The greatest performance improvement was recorded for a Transformer-optimized model with a 16k BPE subword model. Compared with a baseline Recurrent Neural Network (RNN) model, a Transformer-optimized model demonstrated a BLEU score improvement of 7.8 points. When benchmarked against Google Translate, our translation engines demonstrated significant improvements. Furthermore, a quantitative fine-grained manual evaluation was conducted which compared the performance of machine translation systems. Using the Multidimensional Quality Metrics (MQM) error taxonomy, a human evaluation of the error types generated by an RNN-based system and a Transformer-based system was explored. Our findings show the best-performing Transformer system significantly reduces both accuracy and fluency errors when compared with an RNN-based model. | 翻訳日:2024-03-06 17:30:43 公開日:2024-03-04 |
# 長尾型ノイズラベル学習問題への取り組み--ラベルラリティを考慮したラベルリファービッシュメントによる2段階解法 Addressing Long-Tail Noisy Label Learning Problems: a Two-Stage Solution with Label Refurbishment Considering Label Rarity ( http://arxiv.org/abs/2403.02363v1 ) ライセンス: Link先を確認 | Ying-Hsuan Wu, Jun-Wei Hsieh, Li Xin, Shin-You Teng, Yi-Kuan Hsieh, Ming-Ching Chang | (参考訳) 実世界のデータセットは通常、長い尾の分布のようなノイズのあるラベルとクラス不均衡を示す。
これまでの研究では、ノイズとクリーンなサンプルを区別することでこの問題に対処しているが、ノイズの多いロングテールデータに基づく予測からの情報に依存することは、潜在的なエラーをもたらす。
先行研究の限界を克服するために,ソフトラベルリファービッシュとマルチエキスパートアンサンブル学習を組み合わせた効果的な2段階アプローチを提案する。
頑健なソフトラベル再構築の第1段階では, コントラスト学習により, BANC(BAlanced Noise-tolerant Cross-Entropy)の損失を慎重に設計した分類器を用いて, 事前予測を行う。
第2段階では,マルチエキスパート・アンサンブル学習のためのソフト・ラベルを得るためにラベル改質法を適用し,ロングテール雑音ラベル問題に対する基本解を提供する。
複数のベンチマークにおいて、ラベルララリティ(lr^2)を考慮したラベル改良を行い、ノイズの多いcifar-10とcifar-100のロングテールデータセットで94.19%と77.05%、リアルタイムのロングテールデータセットであるfood-101nとanimal-10nで77.74%と81.40%という驚くべき精度を達成した。 Real-world datasets commonly exhibit noisy labels and class imbalance, such as long-tailed distributions. While previous research addresses this issue by differentiating noisy and clean samples, reliance on information from predictions based on noisy long-tailed data introduces potential errors. To overcome the limitations of prior works, we introduce an effective two-stage approach by combining soft-label refurbishing with multi-expert ensemble learning. In the first stage of robust soft label refurbishing, we acquire unbiased features through contrastive learning, making preliminary predictions using a classifier trained with a carefully designed BAlanced Noise-tolerant Cross-entropy (BANC) loss. In the second stage, our label refurbishment method is applied to obtain soft labels for multi-expert ensemble learning, providing a principled solution to the long-tail noisy label problem. Experiments conducted across multiple benchmarks validate the superiority of our approach, Label Refurbishment considering Label Rarity (LR^2), achieving remarkable accuracies of 94.19% and 77.05% on simulated noisy CIFAR-10 and CIFAR-100 long-tail datasets, as well as 77.74% and 81.40% on real-noise long-tail datasets, Food-101N and Animal-10N, surpassing existing state-of-the-art methods. | 翻訳日:2024-03-06 17:30:26 公開日:2024-03-04 |
# クラウド-エッジモデルデカップリングを用いた異種フェデレーション学習のための最適カスタマイズアーキテクチャ Towards Optimal Customized Architecture for Heterogeneous Federated Learning with Contrastive Cloud-Edge Model Decoupling ( http://arxiv.org/abs/2403.02360v1 ) ライセンス: Link先を確認 | Xingyan Chen and Tian Du and Mu Wang and Tiancheng Gu and Yu Zhao and Gang Kou and Changqiao Xu and Dapeng Oliver Wu | (参考訳) フェデレーション学習は、有望な分散学習パラダイムとして、中央データ収集を必要とせずに、複数のネットワークエッジクライアントにわたるグローバルモデルの協調トレーニングを可能にする。
しかし、エッジデータ分布の不均一性は、大域的な最適値から遠ざかることのできる局所的なミニマに向かってモデルをドラグする。
このような不均一性は、しばしば緩やかな収束とかなりの通信オーバーヘッドをもたらす。
そこで本研究では,深層ニューラルネットワークを物体に分離し,クラウド内の共有表現をキャプチャするモデルであるfederated learningと,データ異質性を移行するためのパーソナライズされたヘッドであるfederated learningを提案する。
私たちのモチベーションは、パーソナライズされたヘッドとして異なるニューラルネットワーク層を選択するパフォーマンスを深く調査することで、現在の研究でパーソナライズされたヘッドとして最後のレイヤを厳格に割り当てることが必ずしも最適とは限らないということです。
代わりに、近隣層間の表現差を考慮してトレーニング性能を最大化するパーソナライズされたレイヤを動的に選択する必要がある。
最適なパーソナライズ層を見つけるために,各レイヤの低次元表現を用いて特徴伝達をコントラストし,パーソナライズのための最良マッチング層を特定するためのワッサーシュタイン層選択手法を提案する。
さらに,feedcmdの実用化に向けて,選択したパーソナライズ層に基づく重み付きグローバルアグリゲーションアルゴリズムを提案する。
10のベンチマークによる大規模な実験は、9つの最先端ソリューションと比較して、ソリューションの効率性と優れた性能を示している。
すべてのコードと結果は、https://github.com/elegy112138/fedcmdで入手できる。 Federated learning, as a promising distributed learning paradigm, enables collaborative training of a global model across multiple network edge clients without the need for central data collecting. However, the heterogeneity of edge data distribution drags the model towards the local minima, which can be distant from the global optimum. Such heterogeneity often leads to slow convergence and substantial communication overhead. To address these issues, we propose a novel federated learning framework called FedCMD, a model decoupling tailored to the Cloud-edge supported federated learning that separates deep neural networks into a body for capturing shared representations in Cloud and a personalized head for migrating data heterogeneity. Our motivation is that, by the deep investigation of the performance of selecting different neural network layers as the personalized head, we found rigidly assigning the last layer as the personalized head in current studies is not always optimal. Instead, it is necessary to dynamically select the personalized layer that maximizes the training performance by taking the representation difference between neighbor layers into account. To find the optimal personalized layer, we utilize the low-dimensional representation of each layer to contrast feature distribution transfer and introduce a Wasserstein-based layer selection method, aimed at identifying the best-match layer for personalization. Additionally, a weighted global aggregation algorithm is proposed based on the selected personalized layer for the practical application of FedCMD. Extensive experiments on ten benchmarks demonstrate the efficiency and superior performance of our solution compared with nine state-of-the-art solutions. All code and results are available at https://github.com/elegy112138/FedCMD. | 翻訳日:2024-03-06 17:29:56 公開日:2024-03-04 |
# ツイストを2つの手で離す Twisting Lids Off with Two Hands ( http://arxiv.org/abs/2403.02338v1 ) ライセンス: Link先を確認 | Toru Lin, Zhao-Heng Yin, Haozhi Qi, Pieter Abbeel, Jitendra Malik | (参考訳) 2本の指で物体を操作することは、ロボット工学における長年の課題であり、多くの操作タスクの接触に富む性質と、高次元のバイマニュアルシステムのコーディネートに固有の複雑さに起因している。
本研究では, 各種ボトル状物体の蓋を両手でねじる問題を考察し, 深部強化学習を用いたシミュレーションで訓練した政策を実世界へ効果的に移行できることを実証する。
物理モデリング、リアルタイム知覚、報酬設計に関する新しい工学的洞察によって、このポリシーは、様々な未知のオブジェクトセットにまたがる一般化能力を示し、動的かつデクスター的な振る舞いを示す。
深層強化学習とsim-to-real転送が相まって,前例のない複雑性の操作問題に対処するための有望なアプローチである,という説得力のある証拠となる。 Manipulating objects with two multi-fingered hands has been a long-standing challenge in robotics, attributed to the contact-rich nature of many manipulation tasks and the complexity inherent in coordinating a high-dimensional bimanual system. In this work, we consider the problem of twisting lids of various bottle-like objects with two hands, and demonstrate that policies trained in simulation using deep reinforcement learning can be effectively transferred to the real world. With novel engineering insights into physical modeling, real-time perception, and reward design, the policy demonstrates generalization capabilities across a diverse set of unseen objects, showcasing dynamic and dexterous behaviors. Our findings serve as compelling evidence that deep reinforcement learning combined with sim-to-real transfer remains a promising approach for addressing manipulation problems of unprecedented complexity. | 翻訳日:2024-03-06 17:27:39 公開日:2024-03-04 |
# パッケージングにおけるブランドの可視性: ロゴ検出、サリエンシーマップ予測、ロゴ配置分析のためのディープラーニングアプローチ Brand Visibility in Packaging: A Deep Learning Approach for Logo Detection, Saliency-Map Prediction, and Logo Placement Analysis ( http://arxiv.org/abs/2403.02336v1 ) ライセンス: Link先を確認 | Alireza Hosseini, Kiana Hooshanfar, Pouria Omrani, Reza Toosi, Ramin Toosi, Zahra Ebrahimian, Mohammad Ali Akhaee | (参考訳) 製品マーケティングの競争の激しい領域では、ブランドロゴのパッケージへの表示が消費者の認識を形作る上で重要な役割を担い、製品の成功に直接影響を及ぼす。
本稿では,ブランドロゴのパッケージデザインへの注目度を測定するための包括的枠組みを提案する。
提案手法は3段階からなる。
最初のステップでは、YOLOv8を活用して、著名なデータセットであるFoodLogoDet-1500とLogoDet-3Kの正確なロゴ検出を行う。
第2のステップは、ユーザの視覚的な注意を、パッケージングコンテキスト用に調整された新しいサリエンシー予測モデルでモデル化することである。
提案モデルでは,ユーザ注意マップの予測にトランスフォーマーに基づくアーキテクチャを用いて,視覚要素とテキストマップを組み合わせる。
第3のステップでは、ロゴ検出とサリエンシーマップ生成を統合することで、包括的なブランドアテンションスコアを提供する。
提案手法の有効性をモジュール単位で評価し,各コンポーネントの徹底的な評価を保証する。
ロゴ検出と精度マップ予測を最先端モデルと比較すると,提案手法の優位性を示す。
提案するブランドアテンションスコアのロバスト性を検討するために,ブランドの可視性に関連する心理物理学的仮説を検討するために,独自のデータセットを収集した。
その結果 ブランドの注目点が 過去の研究と一致していることがわかりました。
また,ブランドに対する位置,方向,人物の存在,その他の視覚的要素の影響を確認するために,新たに7つの仮説を導入した。
この研究は認知心理学、コンピュータビジョン、マーケティングの交わりにおいて重要な進歩を示し、先進的で消費者中心の包装デザインへの道を開いた。 In the highly competitive area of product marketing, the visibility of brand logos on packaging plays a crucial role in shaping consumer perception, directly influencing the success of the product. This paper introduces a comprehensive framework to measure the brand logo's attention on a packaging design. The proposed method consists of three steps. The first step leverages YOLOv8 for precise logo detection across prominent datasets, FoodLogoDet-1500 and LogoDet-3K. The second step involves modeling the user's visual attention with a novel saliency prediction model tailored for the packaging context. The proposed saliency model combines the visual elements with text maps employing a transformers-based architecture to predict user attention maps. In the third step, by integrating logo detection with a saliency map generation, the framework provides a comprehensive brand attention score. The effectiveness of the proposed method is assessed module by module, ensuring a thorough evaluation of each component. Comparing logo detection and saliency map prediction with state-of-the-art models shows the superiority of the proposed methods. To investigate the robustness of the proposed brand attention score, we collected a unique dataset to examine previous psychophysical hypotheses related to brand visibility. the results show that the brand attention score is in line with all previous studies. Also, we introduced seven new hypotheses to check the impact of position, orientation, presence of person, and other visual elements on brand attention. This research marks a significant stride in the intersection of cognitive psychology, computer vision, and marketing, paving the way for advanced, consumer-centric packaging designs. | 翻訳日:2024-03-06 17:27:23 公開日:2024-03-04 |
# 災害予測に対する勾配相関部分空間学習 Gradient Correlation Subspace Learning against Catastrophic Forgetting ( http://arxiv.org/abs/2403.02334v1 ) ライセンス: Link先を確認 | Tammuz Dubnov, Vishal Thengane | (参考訳) 効率的な連続学習技術はここ数年、重要な研究のトピックとなっている。
このような学習の根本的な問題は、過去の学習されたタスクにおけるパフォーマンスの深刻な低下である。
本稿では,GCSL(Gradient correlation Subspace Learning)と呼ばれる漸進的なクラス学習の文脈において,破滅的忘れを減らす新しい手法を提案する。
この方法は、前のタスクに最も影響を受けない重みのサブスペースを検出し、新しいタスクのためにトレーニングする重みをそのサブスペースに投影する。
この方法は、所定のネットワークアーキテクチャの1つ以上のレイヤに適用することができ、使用するサブスペースのサイズをレイヤからレイヤ、タスクからタスクに変更することができる。
コードは \href{https://github.com/vgthengane/GCSL}{https://github.com/vgthengane/GCSL} で入手できる。 Efficient continual learning techniques have been a topic of significant research over the last few years. A fundamental problem with such learning is severe degradation of performance on previously learned tasks, known also as catastrophic forgetting. This paper introduces a novel method to reduce catastrophic forgetting in the context of incremental class learning called Gradient Correlation Subspace Learning (GCSL). The method detects a subspace of the weights that is least affected by previous tasks and projects the weights to train for the new task into said subspace. The method can be applied to one or more layers of a given network architectures and the size of the subspace used can be altered from layer to layer and task to task. Code will be available at \href{https://github.com/vgthengane/GCSL}{https://github.com/vgthengane/GCSL} | 翻訳日:2024-03-06 17:26:53 公開日:2024-03-04 |
# 数学的推論の強化によるキーポイント駆動データ合成 Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning ( http://arxiv.org/abs/2403.02333v1 ) ライセンス: Link先を確認 | Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen | (参考訳) 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質な推論中心のトレーニングデータセットの不足によってしばしば妨げられている。
そこで,本研究では,キーポイントと実データソースからのexemplarペアを活用し,質問応答対を合成する新しいデータ合成フレームワークであるkpddsを提案する。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
その結果、KPMathは数学的推論に適した最も広範な合成データセットであり、100万以上の質問応答対から構成されている。
KPMathを利用し、さらに推論集約コーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。
kpmath-plus上のmistral-7bモデルの微調整により、数学テストセットにおけるゼロショットパス@1の精度は39.3%となり、他の微調整された7bモデルを上回るだけでなく、特定の34bモデルを超える性能となる。
我々のアブレーション研究は、様々なサブトピックにおける数学的推論の大幅な向上をさらに確認し、LLMの推論能力に大きな進歩をもたらした。 Large language models (LLMs) have shown great potential in complex reasoning tasks, yet their performance is often hampered by the scarcity of high-quality, reasoning-focused training datasets. Addressing this challenge, we propose Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that synthesizes question-answer pairs by leveraging key points and exemplar pairs from authentic data sources. KPDDS ensures the generation of novel questions with rigorous quality control and substantial scalability. As a result, we present KPMath, the most extensive synthetic dataset tailored for mathematical reasoning to date, comprising over one million question-answer pairs. Utilizing KPMath and augmenting it with additional reasoning-intensive corpora, we create the comprehensive KPMath-Plus dataset. Fine-tuning the Mistral-7B model on KPMath-Plus yields a zero-shot PASS@1 accuracy of 39.3% on the MATH test set, a performance that not only outpaces other finetuned 7B models but also exceeds that of certain 34B models. Our ablation studies further confirm the substantial enhancement in mathematical reasoning across various subtopics, marking a significant stride in LLMs' reasoning capabilities. | 翻訳日:2024-03-06 17:26:39 公開日:2024-03-04 |
# 低光映像エンハンスメントのための時空間アライメントスネットモデル A Spatio-temporal Aligned SUNet Model for Low-light Video Enhancement ( http://arxiv.org/abs/2403.02408v1 ) ライセンス: Link先を確認 | Ruirui Lin, Nantheera Anantrasirichai, Alexandra Malyugina, David Bull | (参考訳) 低照度条件による歪みは視覚的に不快なだけでなく、コンピュータビジョンタスクのパフォーマンスを低下させる。
修復と強化は、非常に有益であることが証明されている。
しかし、低照度で取得したビデオ用に明示的に設計された拡張手法は限られている。
本稿では,スウィントランスをバックボーンとして,低光度映像の特徴を捉え,その時空間相関を利用した時空間整合sunet(sta-sunet)モデルを提案する。
sta-sunetモデルは、新しい完全に登録されたデータセット(bvi)でトレーニングされ、様々な光条件下でキャプチャされた動的シーンを含む。
さらに、3つのテストデータセット上の他の様々なモデルに対して比較分析される。
このモデルは全てのデータセットに対して優れた適応性を示し、最も高いPSNRとSSIM値を得る。
極端に低照度な条件下では特に有効であり、非常に良好な視覚化結果をもたらす。 Distortions caused by low-light conditions are not only visually unpleasant but also degrade the performance of computer vision tasks. The restoration and enhancement have proven to be highly beneficial. However, there are only a limited number of enhancement methods explicitly designed for videos acquired in low-light conditions. We propose a Spatio-Temporal Aligned SUNet (STA-SUNet) model using a Swin Transformer as a backbone to capture low light video features and exploit their spatio-temporal correlations. The STA-SUNet model is trained on a novel, fully registered dataset (BVI), which comprises dynamic scenes captured under varying light conditions. It is further analysed comparatively against various other models over three test datasets. The model demonstrates superior adaptivity across all datasets, obtaining the highest PSNR and SSIM values. It is particularly effective in extreme low-light conditions, yielding fairly good visualisation results. | 翻訳日:2024-03-06 17:23:25 公開日:2024-03-04 |
# 量子コンピュータにおけるファッションMNISTデータセットの分類 Classification of the Fashion-MNIST Dataset on a Quantum Computer ( http://arxiv.org/abs/2403.02405v1 ) ライセンス: Link先を確認 | Kevin Shen, Bernhard Jobst, Elvira Shishenina, Frank Pollmann | (参考訳) 量子機械学習アルゴリズムが産業アプリケーションに与える影響は、まだエキサイティングなオープンな疑問だ。
古典的なデータを量子コンピュータにエンコードする従来の手法は、アルゴリズムの潜在的な量子的優位性には高すぎるだけでなく、現在のハードウェアで実現可能な実験の規模を著しく制限する。
したがって、最近の研究はアルゴリズムの短期的適合性を主張しながらも、標準的な機械学習データセットに対する実験的ベンチマークを提供していない。
本研究では,最近提案された変分アルゴリズム[1]の改良により,ネイティブゲート集合と現在利用可能な量子コンピュータのトポロジーに適合する漸近的に浅い回路を用いて,符号化データをほぼ準備する。
改良されたアルゴリズムをファッション・ムニストデータセット[2]のエンコードに適用し、量子機械学習アルゴリズムの今後の実証研究で直接利用できる。
我々は、現在の量子コンピュータ ibmq-kolkata [3] に符号化データセットに基づいて訓練された単純な量子変分分類器をデプロイし、適度な精度を実現し、データ符号化手法の短期的使用性に関する概念実証を提供する。 The potential impact of quantum machine learning algorithms on industrial applications remains an exciting open question. Conventional methods for encoding classical data into quantum computers are not only too costly for a potential quantum advantage in the algorithms but also severely limit the scale of feasible experiments on current hardware. Therefore, recent works, despite claiming the near-term suitability of their algorithms, do not provide experimental benchmarking on standard machine learning datasets. We attempt to solve the data encoding problem by improving a recently proposed variational algorithm [1] that approximately prepares the encoded data, using asymptotically shallow circuits that fit the native gate set and topology of currently available quantum computers. We apply the improved algorithm to encode the Fashion-MNIST dataset [2], which can be directly used in future empirical studies of quantum machine learning algorithms. We deploy simple quantum variational classifiers trained on the encoded dataset on a current quantum computer ibmq-kolkata [3] and achieve moderate accuracies, providing a proof of concept for the near-term usability of our data encoding method. | 翻訳日:2024-03-06 17:23:11 公開日:2024-03-04 |
# 非摂動キャビティ量子電磁力学 -Jaynes-Cummingsモデルはまだ関係があるのか? Nonperturbative cavity quantum electrodynamics: is the Jaynes-Cummings model still relevant? ( http://arxiv.org/abs/2403.02402v1 ) ライセンス: Link先を確認 | Daniele De Bernardis, Alberto Mercurio, Simone De Liberato | (参考訳) 本稿では,空洞量子電磁力学における現在の研究におけるjaynes-cummingsモデルが果たす役割について,特に超強結合理論に焦点をあてて簡単に考察する。
このような単純なモデルを標準量子電磁力学から蒸留するのに必要な様々な近似を臨界解析することから始める。
次に、これらの近似のうち何つが可能であるかについて議論し、最近の実験でしばしば破られた。
これらの失敗の結果、より複雑なモデルのためにJaynes-Cummingsモデルを捨てる必要があった。
この場合、量子ラビモデルは最も顕著な役割を持ち、そのリッチで特異な現象論を迅速に調査する。
非摂動光物質結合機構においても,Jaynes-Cummingsモデルが重要な役割を担っていることを示す。 In this tutorial review, we briefly discuss the role that the Jaynes-Cummings model occupies in present-day research in cavity quantum electrodynamics with a particular focus on the so-called ultrastrong coupling regime. We start by critically analyzing the various approximations required to distill such a simple model from standard quantum electrodynamics. We then discuss how many of those approximations can, and often have been broken in recent experiments. The consequence of these failures has been the need to abandon the Jaynes-Cummings model for more complex models. In this, the quantum Rabi model has the most prominent role and we will rapidly survey its rich and peculiar phenomenology. We conclude the paper by showing how the Jaynes-Cummings model still plays a crucial role even in non-perturbative light-matter coupling regimes. | 翻訳日:2024-03-06 17:22:49 公開日:2024-03-04 |
# 異方性スピン-ボーソン模型における不定点消滅の波長可変量子臨界性と擬臨界性 Tunable quantum criticality and pseudocriticality across the fixed-point annihilation in the anisotropic spin-boson model ( http://arxiv.org/abs/2403.02400v1 ) ライセンス: Link先を確認 | Manuel Weber | (参考訳) スピンボーソンモデルは量子散逸系の単純な例であるが、量子磁性の有効なモデルとしても機能し、非自明な量子臨界性を示す。
近年, 2つの中間結合RG固定点が衝突し, 衝突付近で非常に遅いRG流れが生じるような, 固定点消滅の非自明な再正規化群(RG)シナリオを研究するためのプラットフォームとして確立されている。
ボース・コンドモデルでは、各スピン成分が、パワー-ロースペクトルを持つ独立ボソニックバスに結合する単一の$S=1/2$スピン(英語版)$\propto \omega^s$ via dissipation strengths$\alpha_i$, $i\in\{x,y,z\}$、そのような現象は、U(1)対称モデルの$\alpha_z=0$とSU(2)対称の$\alpha_z = \alpha_{xy}$に対して順次発生する。
ここでは、完全ワームホール量子モンテカルロ法を用いて、対称性を持つパラメータ多様体内の不動点消滅がそれらの間の異方性駆動臨界性にどのように影響するかを示す。
連続的あるいは強い1次であり、固定点衝突に近い拡張状態において弱い1次になる2つの長周期局所化位相間の調整可能な遷移が見つかる。
連続遷移における臨界指数を抽出するとともに、対称性の強化された一階遷移におけるスケーリング挙動を見出し、その逆相関長指数は浴指数$s$で与えられる。
特に, 相関長指数の非常に遅いドリフトに現れる固定点衝突の両側における擬臨界スケーリングの直接的数値的証拠を提供する。
さらに、SU(2)-対称の場合から交叉挙動を研究し、$\alpha_z < \alpha_{xy}$に対して拡張U(1)-対称臨界相の位相境界を決定する。 Spin-boson models are simple examples of quantum dissipative systems, but also serve as effective models in quantum magnetism and exhibit nontrivial quantum criticality. Recently, they have been established as a platform to study the nontrivial renormalization-group (RG) scenario of fixed-point annihilation, in which two intermediate-coupling RG fixed points collide and generate an extremely slow RG flow near the collision. For the Bose Kondo model, a single $S=1/2$ spin where each spin component couples to an independent bosonic bath with power-law spectrum $\propto \omega^s$ via dissipation strengths $\alpha_i$, $i\in\{x,y,z\}$, such phenomena occur sequentially for the U(1)-symmetric model at $\alpha_z=0$ and the SU(2)-symmetric case at $\alpha_z = \alpha_{xy}$, as the bath exponent $s<1$ is tuned. Here we use an exact wormhole quantum Monte Carlo method to show how fixed-point annihilations within symmetry-enhanced parameter manifolds affect the anisotropy-driven criticality across them. We find a tunable transition between two long-range-ordered localized phases that can be continuous or strongly first-order, and even becomes weakly first-order in an extended regime close to the fixed-point collision. We extract critical exponents at the continuous transition, but also find scaling behavior at the symmetry-enhanced first-order transition, for which the inverse correlation-length exponent is given by the bath exponent $s$. In particular, we provide direct numerical evidence for pseudocritical scaling on both sides of the fixed-point collision, which manifests in an extremely slow drift of the correlation-length exponent. In addition, we also study the crossover behavior away from the SU(2)-symmetric case and determine the phase boundary of an extended U(1)-symmetric critical phase for $\alpha_z < \alpha_{xy}$. | 翻訳日:2024-03-06 17:22:37 公開日:2024-03-04 |
# 超伝導 Gottesman-Kitaev-Preskill Qubits の論理ゲートと読み出し Logical Gates and Read-Out of Superconducting Gottesman-Kitaev-Preskill Qubits ( http://arxiv.org/abs/2403.02396v1 ) ライセンス: Link先を確認 | Mackenzie H. Shaw, Andrew C. Doherty and Arne L. Grimsmo | (参考訳) Gottesman-Kitaev-Preskill (GKP) コードは、ガウス資源とGKP Pauli-eigenstateの準備が普遍量子コンピューティングを達成するのに十分なため、フォールトトレラント量子コンピューティングへのエキサイティングなルートである。
本稿では,gkp符号におけるクリフォードゲートと状態読み出しを行い,超電導回路において能動誤差補正を施すための実用的な提案を行う。
本稿では,単一キュービットゲートを物理的に実装せずにクリフォード回路を動作させる手法を提案する。
超伝導回路では、必要な2ビットゲートはすべて1つのハードウェアで実装できる。
本稿では,GKP Cliffordゲートの誤り拡散特性を解析し,各ゲートの実装に伴うデコーダの変更によって,ゲートの不忠実度を桁違いに低減する方法について述べる。
さらに,数値とよく一致するGKP符号に対する損失とデフォーカスの影響を推定する簡易解析手法を開発した。
最後に,ホモダイン測定の非効率性が論理状態の読み出しに与える影響を考察し,約$75\%$の効率を仮定して,$0.1\%$エラー率で$30$ nsの計測を実行するスキームを提案する。 The Gottesman-Kitaev-Preskill (GKP) code is an exciting route to fault-tolerant quantum computing since Gaussian resources and GKP Pauli-eigenstate preparation are sufficient to achieve universal quantum computing. In this work, we provide a practical proposal to perform Clifford gates and state read-out in GKP codes implemented with active error correction in superconducting circuits. We present a method of performing Clifford circuits without physically implementing any single-qubit gates, reducing the potential for them to spread errors in the system. In superconducting circuits, all the required two-qubit gates can be implemented with a single piece of hardware. We analyze the error-spreading properties of GKP Clifford gates and describe how a modification in the decoder following the implementation of each gate can reduce the gate infidelity by multiple orders of magnitude. Moreover, we develop a simple analytical technique to estimate the effect of loss and dephasing on GKP codes that matches well with numerics. Finally, we consider the effect of homodyne measurement inefficiencies on logical state read-out and present a scheme that implements a measurement with a $0.1\%$ error rate in $630$ ns assuming an efficiency of just~$75\%$. | 翻訳日:2024-03-06 17:21:51 公開日:2024-03-04 |
# 非エルミート・フォック皮膚効果による多体量子傷の増強 Enhanced many-body quantum scars from the non-Hermitian Fock skin effect ( http://arxiv.org/abs/2403.02395v1 ) ライセンス: Link先を確認 | Ruizhe Shen, Fang Qin, Jean-Yves Desaules, Zlatko Papi\'c, Ching Hua Lee | (参考訳) 拡張ブロッホ波とは対照的に、単一粒子は非エルミートポンピングに由来するいわゆる皮膚効果によって空間的に局在化することができる。
ここでは, 皮膚効果をFock空間内における動的増幅として, 直感的に予測され, 以前に研究された粒子の局在化とクラスタリングに留まらず, 幅広い種類の運動的に制約された多体系において示す。
我々は、この非エルミートフォック皮膚効果をPXPモデルの非対称バージョンで例示し、量子多体傷の非エルミート的類似であるエルゴード性破壊固有状態をもたらすことを示す。
これらの非エルミティアン・スカーの特徴は、外的障害に対する強固さの強化である。
傾斜Bose-Hubbard光学格子におけるレーザー誘起損失による非エルミタン傷拡大の実験的実現法を提案する。
以上の結果から,Fockスキン効果は,汎用オープン量子システムにおいて堅牢な非エルゴード状態を生成する強力なツールとなることが示唆された。 In contrast with extended Bloch waves, a single particle can become spatially localized due to the so-called skin effect originating from non-Hermitian pumping. Here we show that in a wide class of kinetically constrained many-body systems, the skin effect can instead manifest as dynamical amplification within the Fock space, beyond the intuitively expected and previously studied particle localization and clustering. We exemplify this non-Hermitian Fock skin effect in an asymmetric version of the PXP model and show that it gives rise to ergodicity-breaking eigenstates, the non-Hermitian analogs of quantum many-body scars. A distinguishing feature of these non-Hermitian scars is their enhanced robustness against external disorders. We propose an experimental realization of the non-Hermitian scar enhancement in a tilted Bose-Hubbard optical lattice with laser-induced loss. Our results show that the Fock skin effect provides a powerful tool for creating robust non-ergodic states in generic open quantum systems. | 翻訳日:2024-03-06 17:21:27 公開日:2024-03-04 |
# エンドツーエンドの変分量子センシング End-to-end variational quantum sensing ( http://arxiv.org/abs/2403.02394v1 ) ライセンス: Link先を確認 | Benjamin MacLellan, Piotr Roztocki, Stefanie Czischek, Roger G. Melko | (参考訳) 量子相関を利用すると、従来の精度の限界を超えてセンシングが可能となり、そのようなセンサーが科学や工学の変革的なインパクトをもたらすことができる。
しかし、実際のデバイスはノイズ効果、アーキテクチャ制約、有限サンプリング率の影響の蓄積に直面しており、実用的な量子センサーの設計と成功は困難である。
したがって、センシングプロトコルの一端から他の端まで(プローブ状態の準備からパラメータ推定まで)の不完全さの最適化と解析を支援する数値的および理論的枠組みは、量子優位を広く実践するために不可欠である。
本稿では,パラメータ化された量子回路とニューラルネットワークがそれぞれ,量子センサダイナミクスと推定のためのトレーニング可能な適応モデルを形成する,量子センシングプロトコルのエンドツーエンドな変分フレームワークを提案する。
このフレームワークは一般的であり、任意の量子ビットアーキテクチャに適応することができる。我々は、閉じ込められたイオンとフォトニックシステムの ans\"atze を用いて実証し、ノイズ状態の準備/測定と有限データサンプリングがパラメータ推定に与える影響を直接定量化することができる。
これにより、エンドツーエンドの変分フレームワークは、実用的なロバストなセンサで量子優位性を実現するための強力な設計と分析ツールとなる。 Harnessing quantum correlations can enable sensing beyond the classical limits of precision, with the realization of such sensors poised for transformative impacts across science and engineering. Real devices, however, face the accumulated impacts of noise effects, architecture constraints, and finite sampling rates, making the design and success of practical quantum sensors challenging. Numerical and theoretical frameworks that support the optimization and analysis of imperfections from one end of a sensing protocol through to the other (i.e., from probe state preparation through to parameter estimation) are thus crucial for translating quantum advantage into widespread practice. Here, we present an end-to-end variational framework for quantum sensing protocols, where parameterized quantum circuits and neural networks form trainable, adaptive models for quantum sensor dynamics and estimation, respectively. The framework is general and can be adapted towards arbitrary qubit architectures, as we demonstrate with experimentally-relevant ans\"atze for trapped-ion and photonic systems, and enables to directly quantify the impacts that noisy state preparation/measurement and finite data sampling have on parameter estimation. End-to-end variational frameworks can thus underpin powerful design and analysis tools for realizing quantum advantage in practical, robust sensors. | 翻訳日:2024-03-06 17:21:11 公開日:2024-03-04 |
# 量子頻度計算:全てのアルゴリズムの二次実行時間アドバンテージ Quantum Frequential Computing: a quadratic run time advantage for all algorithms ( http://arxiv.org/abs/2403.02389v1 ) ライセンス: Link先を確認 | Mischa P. Woods | (参考訳) 量子頻繁計算機と呼ばれる新しい種類のコンピュータを導入する。
量子特性を従来の量子コンピュータとは異なる方法で活用し、消費電力の関数として全てのアルゴリズムの二次計算実行時間アドバンテージを生成する。
タイプ1は古典的アルゴリズムを処理できるが、タイプ2は量子的アルゴリズムも処理できる。
タイプ1の量子頻繁なコンピュータでは、制御のみが量子であり、タイプ2では論理空間も量子である。
また,量子頻繁性コンピュータは,古典的なデータバスのみを必要とすることも証明した。
これは、コンピュータ全体のアーキテクチャの比較的小さな部分だけが、二次的な実行時間の利点を達成するために、タイプ1量子頻繁なコンピュータで量子化する必要があることを意味している。
古典的および従来の量子コンピュータと同様に、量子頻繁なコンピュータも熱を生成し、冷却を必要とする。
これらの要件も特徴付けます。 We introduce a new class of computer called a quantum frequential computer. They harness quantum properties in a different way to conventional quantum computers to generate a quadratic computational run time advantage for all algorithms as a function of the power consumed. They come in two variants: type 1 can process classical algorithms only while type 2 can also process quantum ones. In a type-1 quantum frequential computer, only the control is quantum, while in a type 2 the logical space is also quantum. We also prove that a quantum frequential computer only requires a classical data bus to function. This is useful, because it means that only a relatively small part of the overall architecture of the computer needs to be quantum in a type-1 quantum frequential computer in order to achieve a quadratic run time advantage. As with classical and conventional quantum computers, quantum frequential computers also generate heat and require cooling. We also characterise these requirements. | 翻訳日:2024-03-06 17:20:49 公開日:2024-03-04 |
# 量子臨界点近傍における熱完全連結スピン鎖のベル相関 Bell correlations of a thermal fully-connected spin chain in a vicinity of a quantum critical point ( http://arxiv.org/abs/2403.02383v1 ) ライセンス: Link先を確認 | Danish Ali Hamza and Jan Chwede\'nczuk | (参考訳) ベル相関は量子力学自体が現れる最もエキゾチックな現象の一つである。
彼らの存在は、システムが局所現実主義の仮定に反する可能性があることを示唆している。
この基本的な観点からのベル相関の重要性は、量子暗号から量子メートル法、量子コンピューティングまで、その応用によってさらにまっすぐになっている。
したがって、複雑でスケーラブルな多体システムの ``bell content'' を特徴付けることへの関心が高まっている。
ここでは、粒子交換対称性を持つ相互作用多ビット系における多体ベル相関の特性と強度を詳細に解析する。
このような構成は、正確な解析的予測を可能にする効果的なシュレーディンガー様方程式にマッピングすることができる。
量子臨界点付近では、これらの相関が急速に強くなり、量子ビットのほんの一部しか相関しないことが示された。
また、しきい値温度を検知し、一度通過すると、系のベル相関を破壊する熱ゆらぎが強まる。
我々は、このアプローチが、その普遍性のために、真に非古典的ベル-相関複素系の研究に役立つことを望んでいる。 Bell correlations are among the most exotic phenomena through which quantum mechanics manifests itself. Their presence signals that the system can violate the postulates of local realism, once believed to be the nonnegotiable property of the physical world. The importance of Bell correlations from this fundamental point of view is even straightened by their applications -- ranging from quantum cryptography through quantum metrology to quantum computing. Hence it is of growing interest to characterize the ``Bell content'' of complex, scalable many-body systems. Here we perform the detailed analysis of the character and strength of many-body Bell correlations in interacting multi-qubit systems with particle-exchange symmetry. Such configuration can be mapped onto an effective Schr\"odinger-like equation, which allows for precise analytical predictions. We show that in the vicinity of the quantum critical point, these correlations quickly become so strong that only a fraction of qubits remains uncorrelated. We also identify the threshold temperature, which, once overpassed, empowers thermal fluctuations that destroy Bell correlations in the system. We hope that the approach presented here, due to its universality, could be useful for the upcoming research on genuinely nonclassical Bell-correlated complex systems. | 翻訳日:2024-03-06 17:20:25 公開日:2024-03-04 |
# モジュラーフローからのリレーショナルバルク再構成 Relational bulk reconstruction from modular flow ( http://arxiv.org/abs/2403.02377v1 ) ライセンス: Link先を確認 | Onkar Parrikar, Harshit Rajgadia, Vivek Singh, Jonathan Sorce | (参考訳) ads/cftのエンタングルメントウェッジ再構成パラダイムでは、境界部分領域 $\bar{a}$ のエンタングルメントウェッジ内のバルクquditの場合、バルクqudit に作用する演算子は $\bar{a}$ で cft 演算子として再構築できる。
これは自然に量子エラー補正の枠組みに適合し、CFT状態は、境界部分領域$A$の消去に対して保護されたコードを形成するバルククーディットを含む。
本稿では,境界領域の消去から保護される2つのコード部分空間を与えられた場合,2つの空間間の演算子再構成を関連付けることを目的とする。
これを実現するために、2つのコードサブスペースは、すべて$A$の消去から保護された1パラメータのコードファミリで滑らかに接続され、これらのコード上の最大絡み合った状態はすべてフルランクである、と仮定する。
このようなコード部分空間は「測定に基づく」設定で自然にホログラフィで構築できると主張する。
この設定では、モジュラー理論を用いて固定コード部分空間演算子の演算子再構成のためのフロー方程式を導出し、基本的には、フローに沿って再構成された演算子を関連付けるために統合することができる。
我々は,リレーショナルバルク再構成の公式とコンネスコサイクルフローの無限時間限界との間に顕著な類似性を観察し,この接続をより厳密なものにするためにいくつかのステップを踏む。
我々はまた、モジュラリフレクション演算子と呼ぶ正準再構成写像の観点から、再構成公式の代替的導出も提供する。 The entanglement wedge reconstruction paradigm in AdS/CFT states that for a bulk qudit within the entanglement wedge of a boundary subregion $\bar{A}$, operators acting on the bulk qudit can be reconstructed as CFT operators on $\bar{A}$. This naturally fits within the framework of quantum error correction, with the CFT states containing the bulk qudit forming a code protected against the erasure of the boundary subregion $A$. In this paper, we set up and study a framework for relational bulk reconstruction in holography: given two code subspaces both protected against erasure of the boundary region $A$, the goal is to relate the operator reconstructions between the two spaces. To accomplish this, we assume that the two code subspaces are smoothly connected by a one-parameter family of codes all protected against the erasure of $A$, and that the maximally-entangled states on these codes are all full-rank. We argue that such code subspaces can naturally be constructed in holography in a "measurement-based" setting. In this setting, we derive a flow equation for the operator reconstruction of a fixed code subspace operator using modular theory which can, in principle, be integrated to relate the reconstructed operators all along the flow. We observe a striking resemblance between our formulas for relational bulk reconstruction and the infinite-time limit of Connes cocycle flow, and take some steps towards making this connection more rigorous. We also provide alternative derivations of our reconstruction formulas in terms of a canonical reconstruction map we call the modular reflection operator. | 翻訳日:2024-03-06 17:19:49 公開日:2024-03-04 |
# 実験量子ネットワークの構造に関する保証 Guarantees on the structure of experimental quantum networks ( http://arxiv.org/abs/2403.02376v1 ) ライセンス: Link先を確認 | Andr\'es Ulibarrena, Jonathan W. Webb, Alexander Pickston, Joseph Ho, Alessandro Fedrizzi, Alejandro Pozas-Kerstjens | (参考訳) 量子ネットワークは、セキュアな通信、ネットワーク量子コンピューティング、分散センシングのためのマルチパーティ量子リソースと多数のノードを接続し、供給する。
これらのネットワークのサイズが大きくなるにつれて、認証ツールはそれらの特性に関する質問に答える必要がある。
本研究では、ある量子ネットワークにおいて特定の相関が生成できないことを保証するための一般的な方法を示す。
量子群暗号実験で得られたデータに量子インフレーション法を適用し、光学素子が少ないネットワークで観測結果が生成できないことを保証した。
本研究は,マルチパート量子プロトコルを基盤とするネットワーク構造において,デバイス非依存の保証を得るためのスケーラブルな手法を提案する。 Quantum networks connect and supply a large number of nodes with multi-party quantum resources for secure communication, networked quantum computing and distributed sensing. As these networks grow in size, certification tools will be required to answer questions regarding their properties. In this work we demonstrate a general method to guarantee that certain correlations cannot be generated in a given quantum network. We apply quantum inflation methods to data obtained in quantum group encryption experiments, guaranteeing the impossibility of producing the observed results in networks with fewer optical elements. Our results pave the way for scalable methods of obtaining device-independent guarantees on the network structure underlying multipartite quantum protocols. | 翻訳日:2024-03-06 17:19:02 公開日:2024-03-04 |
# OTClean: 最適輸送を用いた条件付き独立性違反のためのデータクリーニング OTClean: Data Cleaning for Conditional Independence Violations using Optimal Transport ( http://arxiv.org/abs/2403.02372v1 ) ライセンス: Link先を確認 | Alireza Pirhadi, Mohammad Hossein Moslemi, Alexander Cloninger, Mostafa Milani, Babak Salimi | (参考訳) 条件付き独立性(ci)の制約の確保は、公正で信頼できる機械学習モデルの開発に不可欠である。
本稿では,CI制約下でのデータ修復に最適な輸送理論を利用するフレームワークであるShasysを紹介する。
最適輸送理論は、確率分布間の不一致を測定するための厳密な枠組みを提供し、データユーティリティの制御を保証する。
本稿では、CIに関するデータ修復問題をQCLP(Quadratically Constrained Linear Program)として定式化し、その解の交互化法を提案する。
しかし、このアプローチはワッサーシュタイン距離などの最適輸送距離の計算に伴う計算コストによってスケーラビリティの問題に直面している。
これらのスケーラビリティの課題を克服するため,我々は,高次元および大規模データを効率的に扱うシンクホーンの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発することができるように,正規化された最適化問題として問題を再構築した。
本研究では,提案手法の有効性と有効性を実証し,実世界のデータクリーニングおよび前処理作業における実用性を実証する。
さらに,従来の手法との比較を行い,要求されるci制約の遵守を確保しつつ,データの有用性を保ちながら,技術の優位性を強調する。 Ensuring Conditional Independence (CI) constraints is pivotal for the development of fair and trustworthy machine learning models. In this paper, we introduce \sys, a framework that harnesses optimal transport theory for data repair under CI constraints. Optimal transport theory provides a rigorous framework for measuring the discrepancy between probability distributions, thereby ensuring control over data utility. We formulate the data repair problem concerning CIs as a Quadratically Constrained Linear Program (QCLP) and propose an alternating method for its solution. However, this approach faces scalability issues due to the computational cost associated with computing optimal transport distances, such as the Wasserstein distance. To overcome these scalability challenges, we reframe our problem as a regularized optimization problem, enabling us to develop an iterative algorithm inspired by Sinkhorn's matrix scaling algorithm, which efficiently addresses high-dimensional and large-scale data. Through extensive experiments, we demonstrate the efficacy and efficiency of our proposed methods, showcasing their practical utility in real-world data cleaning and preprocessing tasks. Furthermore, we provide comparisons with traditional approaches, highlighting the superiority of our techniques in terms of preserving data utility while ensuring adherence to the desired CI constraints. | 翻訳日:2024-03-06 17:18:40 公開日:2024-03-04 |
# NeuroVoz : パーキンソン語音声のカスティーリャスペイン語コーパス NeuroVoz: a Castillian Spanish corpus of parkinsonian speech ( http://arxiv.org/abs/2403.02371v1 ) ライセンス: Link先を確認 | Jana\'ina Mendes-Laureano, Jorge A. G\'omez-Garc\'ia, Alejandro Guerrero-L\'opez, Elisa Luque-Buzo, Juli\'an D. Arias-Londo\~no, Francisco J. Grandas-P\'erez, Juan I. Godino-Llorente | (参考訳) 音声分析によるパーキンソン病(PD)診断の進歩は、公開可能な多様な言語データセットの欠如、再現可能性の制限、既存の研究のさらなる探索によって妨げられている。
このギャップに対処するため,カスティーリャ生まれのスペイン語話者108名を対象に,健康管理55名,PDと診断された53名からなる包括的コーパスを導入した。
このユニークなデータセットは5つのスペイン語母音の持続的な発声、ダイアドコキネティックテスト、16のリス・アンド・リピート発話、フリーモノローグを含む幅広い音声タスクを特徴としている。
このデータセットは、リスニング・アンド・リピートタスクの専門的な手作業による書き起こしによって正確性と信頼性を強調し、自動モノローグの書き起こしにwhisperを活用し、パーキンソン語音声の最も完全な公的なコーパスとなり、カスティル語では初めてとなる。
neurovozは1人あたり平均26.88 \pm 3.35$のオーディオ録音2,903曲で構成されており、pdが音声に与える影響を科学的に探究するのにかなりのリソースを提供している。
このデータセットはすでにいくつかの研究を基礎としており、pd音声パターン識別において89%のベンチマーク精度を達成している。
これらの進歩にもかかわらず、パーキンソン病の発話パターンの言語非依存でクロスコーポラ分析を行うという幅広い課題は、将来の研究のためのオープンエリアである。
この貢献は、pd音声分析リソースの批判的な空白を埋めるだけでなく、神経変性疾患の診断ツールとして音声を活用するグローバル研究コミュニティの新たな標準を定めている。 The advancement of Parkinson's Disease (PD) diagnosis through speech analysis is hindered by a notable lack of publicly available, diverse language datasets, limiting the reproducibility and further exploration of existing research. In response to this gap, we introduce a comprehensive corpus from 108 native Castilian Spanish speakers, comprising 55 healthy controls and 53 individuals diagnosed with PD, all of whom were under pharmacological treatment and recorded in their medication-optimized state. This unique dataset features a wide array of speech tasks, including sustained phonation of the five Spanish vowels, diadochokinetic tests, 16 listen-and-repeat utterances, and free monologues. The dataset emphasizes accuracy and reliability through specialist manual transcriptions of the listen-and-repeat tasks and utilizes Whisper for automated monologue transcriptions, making it the most complete public corpus of Parkinsonian speech, and the first in Castillian Spanish. NeuroVoz is composed by 2,903 audio recordings averaging $26.88 \pm 3.35$ recordings per participant, offering a substantial resource for the scientific exploration of PD's impact on speech. This dataset has already underpinned several studies, achieving a benchmark accuracy of 89% in PD speech pattern identification, indicating marked speech alterations attributable to PD. Despite these advances, the broader challenge of conducting a language-agnostic, cross-corpora analysis of Parkinsonian speech patterns remains an open area for future research. This contribution not only fills a critical void in PD speech analysis resources but also sets a new standard for the global research community in leveraging speech as a diagnostic tool for neurodegenerative diseases. | 翻訳日:2024-03-06 17:18:03 公開日:2024-03-04 |
# adaptMLLM: LLM Playgroundsを統合した低リソース言語上での微調整多言語モデル adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds ( http://arxiv.org/abs/2403.02370v1 ) ライセンス: Link先を確認 | S\'eamus Lankford, Haithem Afli and Andy Way | (参考訳) MLLM(Multilingual Language Models)とLarge Language Models(Large Language Models)の出現は、自然言語処理の多くの分野で革新をもたらした。
この技術のエキサイティングな可能性にもかかわらず、低リソース言語のための高品質な機械翻訳(MT)出力の開発に対する影響は、いまだにあまり調査されていない。
さらに、MLLMの微調整と低リソース言語のための完全なMTワークフローの管理に特化しているオープンソースアプリケーションは、まだ利用できない。
MTのためのMLLMの微調整に関わるすべてのプロセスを合理化するAdaptMLLMの開発を通じて、これらの不均衡に対処することを目的としている。このオープンソースアプリケーションは、MTに携わる開発者、翻訳者、ユーザ向けに調整されている。直感的なインターフェースにより、ハイパーパラメータのカスタマイズが容易になり、アプリケーションはモデル評価のための幅広いメトリクスを提供し、アプリケーション内でモデルを直接翻訳サービスとしてデプロイする機能を提供する。
多言語ツールとして、AdaptMLLMを使用して、2つの低リソース言語ペア(EN$\leftrightarrow$GA)とMarathi(EN$\leftrightarrow$MR)の微調整を行った。
LoResMT2021共有タスクのベースラインと比較すると、AdaptMLLMシステムは大幅に改善された。
EN$\rightarrow$GA方向では5.2BLEU点の改善が観測され、GA$\rightarrow$EN方向では40.5BLEU点の増加が記録された。
また、en$\leftrightarrow$mr対の翻訳性能は、mr$\rightarrow$en方向に大きく改善され、21.3 bleu点が増加した。
最後に,多次元品質指標とスカラー品質指標誤差分類法を用いて,en$\rightarrow$gaペアのmllm出力の細粒度評価を行った。
アプリケーションとモデルは無料で利用できる。 The advent of Multilingual Language Models (MLLMs) and Large Language Models has spawned innovation in many areas of natural language processing. Despite the exciting potential of this technology, its impact on developing high-quality Machine Translation (MT) outputs for low-resource languages remains relatively under-explored. Furthermore, an open-source application, dedicated to both fine-tuning MLLMs and managing the complete MT workflow for low-resources languages, remains unavailable. We aim to address these imbalances through the development of adaptMLLM, which streamlines all processes involved in the fine-tuning of MLLMs for MT. This open-source application is tailored for developers, translators, and users who are engaged in MT. An intuitive interface allows for easy customisation of hyperparameters, and the application offers a range of metrics for model evaluation and the capability to deploy models as a translation service directly within the application. As a multilingual tool, we used adaptMLLM to fine-tune models for two low-resource language pairs: English to Irish (EN$\leftrightarrow$GA) and English to Marathi (EN$\leftrightarrow$MR). Compared with baselines from the LoResMT2021 Shared Task, the adaptMLLM system demonstrated significant improvements. In the EN$\rightarrow$GA direction, an improvement of 5.2 BLEU points was observed and an increase of 40.5 BLEU points was recorded in the GA$\rightarrow$EN direction. Significant improvements in the translation performance of the EN$\leftrightarrow$MR pair were also observed notably in the MR$\rightarrow$EN direction with an increase of 21.3 BLEU points. Finally, a fine-grained human evaluation of the MLLM output on the EN$\rightarrow$GA pair was conducted using the Multidimensional Quality Metrics and Scalar Quality Metrics error taxonomies. The application and models are freely available. | 翻訳日:2024-03-06 17:17:16 公開日:2024-03-04 |
# 産業用4.0アプリケーションにおける予測最適化のための新しいハイブリッド機能重要度と特徴インタラクション検出フレームワーク A Novel Hybrid Feature Importance and Feature Interaction Detection Framework for Predictive Optimization in Industry 4.0 Applications ( http://arxiv.org/abs/2403.02368v1 ) ライセンス: Link先を確認 | Zhipeng Ma, Bo N{\o}rregaard J{\o}rgensen, Zheng Grace Ma | (参考訳) 先進的な機械学習アルゴリズムは、業界4.0でデータベースの予測と意思決定のサポートを提供するためにますます利用されている。
しかし、既存のモデルによって達成された予測精度は、現実のアプリケーションにおける実用的な実装を保証するには不十分である。
これは、実世界のデータセットに存在する全ての特徴が、行われている予測分析に直接関連しているわけではないためである。
その結果、選択された特徴を慎重に組み込むことで、結果にかなりのポジティブな影響を与える可能性がある。
そこで本研究では, 局所的解釈可能なモデル非依存的説明 (lime) と特徴的相互作用検出 (nid) を組み合わせた新しいハイブリッドフレームワークを提案し, 予測精度を向上させる。
提案フレームワークを適用することにより、不要な機能を排除し、対話を符号化して予測目的でより導出的なデータセットを生成する。
その後, 鋳造工程における電力消費量の予測を洗練するために, 提案モデルを適用した。
実験の結果、R2スコアの最大9.56%が増加し、ルート平均平方誤差の最大24.05%が縮小された。 Advanced machine learning algorithms are increasingly utilized to provide data-based prediction and decision-making support in Industry 4.0. However, the prediction accuracy achieved by the existing models is insufficient to warrant practical implementation in real-world applications. This is because not all features present in real-world datasets possess a direct relevance to the predictive analysis being conducted. Consequently, the careful incorporation of select features has the potential to yield a substantial positive impact on the outcome. To address the research gap, this paper proposes a novel hybrid framework that combines the feature importance detector - local interpretable model-agnostic explanations (LIME) and the feature interaction detector - neural interaction detection (NID), to improve prediction accuracy. By applying the proposed framework, unnecessary features can be eliminated, and interactions are encoded to generate a more conducive dataset for predictive purposes. Subsequently, the proposed model is deployed to refine the prediction of electricity consumption in foundry processing. The experimental outcomes reveal an augmentation of up to 9.56% in the R2 score, and a diminution of up to 24.05% in the root mean square error. | 翻訳日:2024-03-06 17:16:43 公開日:2024-03-04 |
# ink splotch effect: 共同創造型ゲームデザイナーとしてのchatgptのケーススタディ The Ink Splotch Effect: A Case Study on ChatGPT as a Co-Creative Game Designer ( http://arxiv.org/abs/2403.02454v1 ) ライセンス: Link先を確認 | Asad Anjum, Yuting Li, Noelle Law, M Charity, and Julian Togelius | (参考訳) 本稿では,大規模言語モデル(LLM)がゲームデザインにおいて,高レベルの創造的協力者や「音楽」として効果的に機能するかを考察する。
本研究は,アモルファスインクスプリッチを創造的インスピレーションに用い,アーティストが使用するエクササイズをモデルとしたものである。
私たちの目標は、人間のデザイナーが実装した創造的な意図と比較して、aiがゲームを改善するか、妨げるか、あるいは代替的な品質を提供するかを決定することです。
ゲームデザイナーとしてのllmの能力は、意思決定プロセスの最前線に置くことでテストされます。
3つのプロトタイプゲームは,(1)ミニマリストベースゲーム,(2)人間のゲームデザイナが付加した特徴・感覚要素を持つゲーム,(3)LLM,ChatGPTのインプットアウトプットから直接実装された特徴・感覚要素を持つゲーム,の3つのジャンルにまたがって設計されている。
ユーザ調査を行い,ゲームの品質と好みを盲目的に評価するように依頼した。
本稿では,AIチャットボットに創造的な意図を伝達する開発プロセスと参加者のオープンフィードバックについて論じる。
このデータを使って、AIのメリットと欠点の両方を、よりデザイン中心の役割で決定します。 This paper studies how large language models (LLMs) can act as effective, high-level creative collaborators and ``muses'' for game design. We model the design of this study after the exercises artists use by looking at amorphous ink splotches for creative inspiration. Our goal is to determine whether AI-assistance can improve, hinder, or provide an alternative quality to games when compared to the creative intents implemented by human designers. The capabilities of LLMs as game designers are stress tested by placing it at the forefront of the decision making process. Three prototype games are designed across 3 different genres: (1) a minimalist base game, (2) a game with features and game feel elements added by a human game designer, and (3) a game with features and feel elements directly implemented from prompted outputs of the LLM, ChatGPT. A user study was conducted and participants were asked to blindly evaluate the quality and their preference of these games. We discuss both the development process of communicating creative intent to an AI chatbot and the synthesized open feedback of the participants. We use this data to determine both the benefits and shortcomings of AI in a more design-centric role. | 翻訳日:2024-03-06 17:11:52 公開日:2024-03-04 |
# ビューは私自身のものだが、あなたも - common groundを使ったベンチマークマインド理論 Views Are My Own, But Also Yours: Benchmarking Theory of Mind using Common Ground ( http://arxiv.org/abs/2403.02451v1 ) ライセンス: Link先を確認 | Adil Soubki, John Murzaku, Arash Yousefi Jordehi, Peter Zeng, Magdalena Markowska, Seyed Abolghasem Mirroshandel, Owen Rambow | (参考訳) 近年,言語モデル(LM)の心の理論(ToM)能力の評価が注目されている。
しかし、既存のベンチマークの多くは人工的なデータに依存しており、その結果の実験と人間の行動を誤るリスクがある。
自然発生音声対話に基づく最初のToMデータセットであるCommon-ToMを紹介し,LMがToMの実証に苦慮していることを示す。
次に,信念の単純で明示的な表現を統合することで,Common-ToM上でのLM性能が向上することを示す。 Evaluating the theory of mind (ToM) capabilities of language models (LMs) has recently received much attention. However, many existing benchmarks rely on synthetic data which risks misaligning the resulting experiments with human behavior. We introduce the first ToM dataset based on naturally occurring spoken dialogs, Common-ToM, and show that LMs struggle to demonstrate ToM. We then show that integrating a simple, explicit representation of beliefs improves LM performance on Common-ToM. | 翻訳日:2024-03-06 17:11:27 公開日:2024-03-04 |
# デュアル露光HDRイメージングにおける照度推定の最適化 Optimizing Illuminant Estimation in Dual-Exposure HDR Imaging ( http://arxiv.org/abs/2403.02449v1 ) ライセンス: Link先を確認 | Mahmoud Afifi, Zhenhua Hu, Liang Liang | (参考訳) 高ダイナミックレンジ(hdr)イメージングは、それぞれ異なる露出設定を持つ同じシーンの一連のフレームをキャプチャすることで、ダイナミックレンジの光を広める。
これは、バーストキャプチャや、カメラ画像信号処理装置(isp)で長時間および短時間の露光を同時に捉えるスタガーhdrセンサーを使用することで達成できる。
カメラISPパイプライン内では、シーン内のグローバル照度の色を推定するために、照度推定が重要なステップである。
この推定は、最終画像の望ましくないカラーキャストを取り除くために、カメラISPホワイトバランスモジュールで使用される。
HDRパイプラインでキャプチャされた複数のフレームにもかかわらず、従来の照度推定法はシーンの1つのフレームにのみ依存することが多い。
本稿では,異なる露光時間で取得したフレームからの情報を活用することを検討する。
具体的には,二重露光画像から抽出した簡易な特徴を,二重露光特徴(def)と呼ばれる照度推定器に導入する。
DEFの効率性を検証するために,提案したDefを用いた2つの照度推定器を用いた。
1) 多層パーセプトロンネットワーク(mlp)、すなわち露出型mlp(emlp)、
2)convolutional color constancy (ccc) の修正版は、我々がecccと呼ぶdefを統合する。
emlpとecccの両方が有望な結果を達成し、場合によっては数十万から数百万のパラメータを必要とする以前のメソッドを上回り、emlpには数百のパラメータと、ecccには数千のパラメータしか持たない。 High dynamic range (HDR) imaging involves capturing a series of frames of the same scene, each with different exposure settings, to broaden the dynamic range of light. This can be achieved through burst capturing or using staggered HDR sensors that capture long and short exposures simultaneously in the camera image signal processor (ISP). Within camera ISP pipeline, illuminant estimation is a crucial step aiming to estimate the color of the global illuminant in the scene. This estimation is used in camera ISP white-balance module to remove undesirable color cast in the final image. Despite the multiple frames captured in the HDR pipeline, conventional illuminant estimation methods often rely only on a single frame of the scene. In this paper, we explore leveraging information from frames captured with different exposure times. Specifically, we introduce a simple feature extracted from dual-exposure images to guide illuminant estimators, referred to as the dual-exposure feature (DEF). To validate the efficiency of DEF, we employed two illuminant estimators using the proposed DEF: 1) a multilayer perceptron network (MLP), referred to as exposure-based MLP (EMLP), and 2) a modified version of the convolutional color constancy (CCC) to integrate our DEF, that we call ECCC. Both EMLP and ECCC achieve promising results, in some cases surpassing prior methods that require hundreds of thousands or millions of parameters, with only a few hundred parameters for EMLP and a few thousand parameters for ECCC. | 翻訳日:2024-03-06 17:11:17 公開日:2024-03-04 |
# ニューラルアーキテクチャ探索のためのレイテンシ予測について On Latency Predictors for Neural Architecture Search ( http://arxiv.org/abs/2403.02446v1 ) ライセンス: Link先を確認 | Yash Akhauri, Mohamed S. Abdelfattah | (参考訳) ニューラルネットワーク(nn)の効率的なデプロイには、精度とレイテンシの最適化が必要だ。
例えば、ハードウェア対応のニューラルアーキテクチャサーチは、特定のハードウェアデバイス上の遅延制約を満たすNNアーキテクチャを自動的に見つけるために使用されている。
これらの検索アルゴリズムの中心は、NNアーキテクチャのハードウェア遅延推定を提供するために設計された予測モデルである。
最近の研究では、多くのサンプルを持ついくつかの \textit{training} デバイスで事前トレーニングし、その後、予測器を \textit{test} (target) デバイスに転送することで、これらの予測モデルのサンプル効率を大幅に改善できることが示されている。
トランスファーラーニングやメタラーニングが使われてきたが、しばしば顕著な性能の変動を示す。
さらに、既存のレイテンシ予測器の評価は手作りのトレーニング/テストデバイスセットで行われているため、堅牢で一般的なレイテンシ予測器を構成する設計機能を確認することは困難である。
これらの問題に対処するために,ハードウェアデバイスセットの自動分割により,原理的に得られる遅延予測タスクの包括的スイートを導入する。
次に,(1)予測器アーキテクチャ,(2)NNサンプル選択方法,(3)ハードウェアデバイス表現,(4)NN動作符号化方式を総合的に研究するために,一般遅延予測器を設計する。
そこで本研究では,12課題のうち11課題のうち,従来の手法を上回り,平均で22.5%,最も難しいタスクでは最大87.6\%の遅延予測を改善した,エンドツーエンドのレイテンシ予測トレーニング戦略を提案する。
遅延予測に注目して、我々のHW-Aware NASは5.8\times$ speedup in wall-clock と報告しています。
私たちのコードは \href{https://github.com/abdelfattah-lab/nasflat_latency}{https://github.com/abdelfattah-lab/nasflat\_latency} で利用可能です。 Efficient deployment of neural networks (NN) requires the co-optimization of accuracy and latency. For example, hardware-aware neural architecture search has been used to automatically find NN architectures that satisfy a latency constraint on a specific hardware device. Central to these search algorithms is a prediction model that is designed to provide a hardware latency estimate for a candidate NN architecture. Recent research has shown that the sample efficiency of these predictive models can be greatly improved through pre-training on some \textit{training} devices with many samples, and then transferring the predictor on the \textit{test} (target) device. Transfer learning and meta-learning methods have been used for this, but often exhibit significant performance variability. Additionally, the evaluation of existing latency predictors has been largely done on hand-crafted training/test device sets, making it difficult to ascertain design features that compose a robust and general latency predictor. To address these issues, we introduce a comprehensive suite of latency prediction tasks obtained in a principled way through automated partitioning of hardware device sets. We then design a general latency predictor to comprehensively study (1) the predictor architecture, (2) NN sample selection methods, (3) hardware device representations, and (4) NN operation encoding schemes. Building on conclusions from our study, we present an end-to-end latency predictor training strategy that outperforms existing methods on 11 out of 12 difficult latency prediction tasks, improving latency prediction by 22.5\% on average, and up to to 87.6\% on the hardest tasks. Focusing on latency prediction, our HW-Aware NAS reports a $5.8\times$ speedup in wall-clock time. Our code is available on \href{https://github.com/abdelfattah-lab/nasflat_latency}{https://github.com/abdelfattah-lab/nasflat\_latency}. | 翻訳日:2024-03-06 17:10:51 公開日:2024-03-04 |
# 解剖学的に拘束された胎児脳のトラクトグラフィー Anatomically Constrained Tractography of the Fetal Brain ( http://arxiv.org/abs/2403.02444v1 ) ライセンス: Link先を確認 | Camilo Calixto, Camilo Jaimes, Matheus D. Soldatelli, Simon K. Warfield, Ali Gholipour, Davood Karimi | (参考訳) 拡散強調磁気共鳴イメージング(dMRI)は子宮の胎児脳の研究にますます用いられている。
dMRIによって実現された重要な計算は、脳白質のトラクション特異的解析や構造接続性評価などのユニークな応用を持つ、ストリーライントラクトグラフィである。
しかし、胎児のdMRIデータ品質が低く、トラクトグラフィーの難易度が高いため、既存の手法では精度の低い結果が得られる傾向にある。
それらは多くの偽の流線を発生させるが、主要な白質路を構成する流線を再構築することができない。
本稿では,dMRI空間内での胎児脳組織の正確な分画に基づく解剖学的拘束的トラクトグラフィーを提唱する。
セグメンテーションを自動的に計算する深層学習法を開発した。
独立試験データを用いて実験したところ、この方法は胎児の脳組織を正確に分画し、トラクトグラフィーの結果を大幅に改善できることがわかった。
光学放射のような高度に湾曲した路面の再構築を可能にする。
本手法は,dMRIデータに適合する拡散テンソルから組織分画および流線伝播方向を推定し,正常な胎児dMRIスキャンに適用する。
提案法は,dMRIを用いた胎児脳の定量的評価の精度と再現性を大幅に向上させる可能性がある。 Diffusion-weighted Magnetic Resonance Imaging (dMRI) is increasingly used to study the fetal brain in utero. An important computation enabled by dMRI is streamline tractography, which has unique applications such as tract-specific analysis of the brain white matter and structural connectivity assessment. However, due to the low fetal dMRI data quality and the challenging nature of tractography, existing methods tend to produce highly inaccurate results. They generate many false streamlines while failing to reconstruct streamlines that constitute the major white matter tracts. In this paper, we advocate for anatomically constrained tractography based on an accurate segmentation of the fetal brain tissue directly in the dMRI space. We develop a deep learning method to compute the segmentation automatically. Experiments on independent test data show that this method can accurately segment the fetal brain tissue and drastically improve tractography results. It enables the reconstruction of highly curved tracts such as optic radiations. Importantly, our method infers the tissue segmentation and streamline propagation direction from a diffusion tensor fit to the dMRI data, making it applicable to routine fetal dMRI scans. The proposed method can lead to significant improvements in the accuracy and reproducibility of quantitative assessment of the fetal brain with dMRI. | 翻訳日:2024-03-06 17:10:18 公開日:2024-03-04 |
# 説明可能なAIを用いたルートキャスティング予測異常 Root Causing Prediction Anomalies Using Explainable AI ( http://arxiv.org/abs/2403.02439v1 ) ライセンス: Link先を確認 | Ramanathan Vishnampet, Rajesh Shenoy, Jianhui Chen, Anuj Gupta | (参考訳) 本稿では、ユーザエンゲージメントデータから連続的に学習する機械学習モデルにおける、根源的性能劣化に対する説明可能なAI(XAI)の新たな応用について述べる。
そのようなシステムでは、単一の機能破壊がカスケード機能、ラベル、コンセプトドリフトを引き起こす可能性がある。
我々はこの手法を,パーソナライズ広告におけるモデルの信頼性向上に応用した。
このようなシステムの性能劣化は、モデル内の予測異常として表される。
これらのモデルは通常、数百のリアルタイムデータ処理パイプラインによって生成されたり、他の上流モデルから派生した機能を使用して継続的にトレーニングされる。
これらのパイプラインのいずれかの障害や上流モデルのいずれかの不安定さは、機能の破損を引き起こし、モデルの予測出力が実際の出力とトレーニングデータから逸脱する原因となる。
特徴と予測出力の因果関係は複雑であり、システムのスケールとダイナミズムのため、根圏化は困難である。
本研究では,大域的特徴量分布の時間的変化が,モデル-機能相関法よりも優れたリコールにより,予測異常の原因を効果的に分離できることを示す。
この手法は,単純な摂動法を用いて局所的特徴の重要度を近似し,数千以上の例を集約しても有効であると考えられる。
当社ではこのテクニックを,複雑なデータパイプラインを実運用環境で監視するためのモデル非依存で安価で効果的な方法と捉え,継続的トレーニングモデルのグローバルな機能重要度分布を継続的に分析するシステムをデプロイした。 This paper presents a novel application of explainable AI (XAI) for root-causing performance degradation in machine learning models that learn continuously from user engagement data. In such systems a single feature corruption can cause cascading feature, label and concept drifts. We have successfully applied this technique to improve the reliability of models used in personalized advertising. Performance degradation in such systems manifest as prediction anomalies in the models. These models are typically trained continuously using features that are produced by hundreds of real time data processing pipelines or derived from other upstream models. A failure in any of these pipelines or an instability in any of the upstream models can cause feature corruption, causing the model's predicted output to deviate from the actual output and the training data to become corrupted. The causal relationship between the features and the predicted output is complex, and root-causing is challenging due to the scale and dynamism of the system. We demonstrate how temporal shifts in the global feature importance distribution can effectively isolate the cause of a prediction anomaly, with better recall than model-to-feature correlation methods. The technique appears to be effective even when approximating the local feature importance using a simple perturbation-based method, and aggregating over a few thousand examples. We have found this technique to be a model-agnostic, cheap and effective way to monitor complex data pipelines in production and have deployed a system for continuously analyzing the global feature importance distribution of continuously trained models. | 翻訳日:2024-03-06 17:09:58 公開日:2024-03-04 |
# sok: 連合学習における課題と機会 SoK: Challenges and Opportunities in Federated Unlearning ( http://arxiv.org/abs/2403.02437v1 ) ライセンス: Link先を確認 | Hyejun Jeong, Shiqing Ma, Amir Houmansadr | (参考訳) 2017年に導入された連合学習(federated learning, fl)は,信頼関係のない当事者間のコラボレーション学習を促進する。
これにより、GDPRやCPRAといったプライバシー規制を尊重しながら、ユーザデータのトレーニングモデルが可能になる。
しかし、新たなプライバシー要件により、モデル所有者は、例えばデータ所有者や法執行機関から要求された場合など、いくつかの学習されたデータを \emph{forget} することができる。
これにより、emph{machine unlearning}と呼ばれる活発な研究分野が誕生した。
FLの文脈では、集中的な環境での未学習のために開発された多くのテクニックは、簡単には適用できない。
これは、集中学習と分散学習、特に相互作用性、確率性、不均一性、FLにおける限定的なアクセシビリティの違いによるものである。
これに対し、最近の研究はFLに適した未学習メカニズムの開発に重点を置いている。
本論文は,この新興分野における研究動向と課題を特定することを目的として,emph{federated unlearning}文学を深く研究することを目的とする。
fl unlearning(2020年以降)で公開された論文を慎重に分類することで、フェデレーションアンラーニングのユニークな複雑さを特定し、集中型アンラーニングメソッドを直接適用する上での制限を強調します。
本研究では,影響除去と性能回復に関する既存の連関学習手法を比較し,脅威モデルと仮定を比較し,その意義と限界について議論する。
例えば,データの不均一性とシミュレーション,デモンストレーションに使用するデータセット,評価メトリクスなど,さまざまな観点からのfl unlearning研究の実験的セットアップを分析した。
私たちの研究は、フェデレートアンラーニングに関する今後の研究への洞察と提案を提供することを目的としています。 Federated learning (FL), introduced in 2017, facilitates collaborative learning between non-trusting parties with no need for the parties to explicitly share their data among themselves. This allows training models on user data while respecting privacy regulations such as GDPR and CPRA. However, emerging privacy requirements may mandate model owners to be able to \emph{forget} some learned data, e.g., when requested by data owners or law enforcement. This has given birth to an active field of research called \emph{machine unlearning}. In the context of FL, many techniques developed for unlearning in centralized settings are not trivially applicable! This is due to the unique differences between centralized and distributed learning, in particular, interactivity, stochasticity, heterogeneity, and limited accessibility in FL. In response, a recent line of work has focused on developing unlearning mechanisms tailored to FL. This SoK paper aims to take a deep look at the \emph{federated unlearning} literature, with the goal of identifying research trends and challenges in this emerging field. By carefully categorizing papers published on FL unlearning (since 2020), we aim to pinpoint the unique complexities of federated unlearning, highlighting limitations on directly applying centralized unlearning methods. We compare existing federated unlearning methods regarding influence removal and performance recovery, compare their threat models and assumptions, and discuss their implications and limitations. For instance, we analyze the experimental setup of FL unlearning studies from various perspectives, including data heterogeneity and its simulation, the datasets used for demonstration, and evaluation metrics. Our work aims to offer insights and suggestions for future research on federated unlearning. | 翻訳日:2024-03-06 17:09:33 公開日:2024-03-04 |
# 事前学習型言語モデルの基盤能力にアーキテクチャはどのような影響を及ぼすか?
FFN-Wider変換器モデルに基づく一事例 How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider Transformer Models ( http://arxiv.org/abs/2403.02436v1 ) ライセンス: Link先を確認 | Xin Lu, Yanyan Zhao, Bing Qin | (参考訳) 事前学習された言語モデルは、分散言語モデリングに優れているだけでなく、分散言語モデリング、転送学習、少数ショット学習の強力な能力を示す、強力な基礎能力を持つことが証明されている。
基本能力に対するスケールの影響に焦点を当てた既存の作業とは異なり、アーキテクチャの影響について検討する。
アーキテクチャは、事前訓練された言語モデルのベース機能にどのように影響しますか?
本研究では,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転し,いくつかの洞察を求めている。
分析の結果,多面的注意(組み合わせ関数)と事前学習言語モデリングの寄与比が基本能力に影響を及ぼす重要な要因であることが判明した。
FFN-Wider変換器は、この組み合わせ関数の寄与比を減少させ、基礎能力の低下につながる。
このようなモデルの基本能力の低下に対応するため、実験によりこれを確認し、統合強化アーキテクチャ(CEA)を提案した。
そして、基礎能力の低下をある程度緩和し、我々の研究がアーキテクチャ分析、アーキテクチャ改善、アーキテクチャ設計に有用なガイダンスを提供できることを証明しました。 Pre-trained language models have been proven to possess strong base capabilities, which not only excel in in-distribution language modeling but also show powerful abilities in out-of-distribution language modeling, transfer learning and few-shot learning. Unlike existing work focusing on the influence of scale on base capabilities, our work examines the influence of architecture on those. Specifically, our concern is: How does architecture influence the base capabilities of pre-trained language models? In this work, we attempt to explain and reverse the decline in base capabilities caused by the architecture of FFN-Wider Transformers, seeking to provide some insights. Through analysis, we found the contribution ratio of Multi-Head Attention (a combination function) to pre-trained language modeling is a key factor affecting base capabilities. FFN-Wider Transformers reduce the contribution ratio of this combination function, leading to a decline in base capabilities. We confirmed this by experiments and proposed Combination Enhancement Architecture (CEA) to address the decline in base capabilities of such models. Significantly, we extended our explanation and CEA to Mixture of Experts (MoE) architecture Transformers, which also alleviated their decline in base capabilities to some extent, proving our work can offer useful guidance for architecture analysis, architecture improvement and architecture design. | 翻訳日:2024-03-06 17:09:05 公開日:2024-03-04 |
# 一般パラメトリックMLモデルとドメイン適応による伝達学習に及ぼす測定前条件の影響について On the impact of measure pre-conditionings on general parametric ML models and transfer learning via domain adaptation ( http://arxiv.org/abs/2403.02432v1 ) ライセンス: Link先を確認 | Joaqu\'in S\'anchez Garc\'ia | (参考訳) データの小さな修正の下で学習エージェントの収束を理解するための新しい手法について検討する。
このような収束は、ガンマコンバージェンスをもたらすファトゥの補題の類似によって理解できることを示す。
一般的な機械学習タスクやドメイン適応トランスファー学習における関連性と応用を示す。 We study a new technique for understanding convergence of learning agents under small modifications of data. We show that such convergence can be understood via an analogue of Fatou's lemma which yields gamma-convergence. We show it's relevance and applications in general machine learning tasks and domain adaptation transfer learning. | 翻訳日:2024-03-06 17:08:40 公開日:2024-03-04 |
# 多変量時系列異常検出のための高効率深部オートエンコーダの開発 Towards efficient deep autoencoders for multivariate time series anomaly detection ( http://arxiv.org/abs/2403.02429v1 ) ライセンス: Link先を確認 | Marcin Pietro\'n, Dominik \.Zurek, Kamil Faber, Roberto Corizzo | (参考訳) 多変量時系列異常検出は多くの産業・研究応用において重要な問題である。
異常をタイムリーに検出することで、例えば、製造プロセスやサイバーフィジカルシステムの障害を防止することができる。
複雑な多変量データの解析には,その精度とロバスト性から深層学習法が好まれる。
しかし、重要な側面は、異なるアプリケーションにおけるリアルタイム要求を満たすために、タイムリーに予測を抽出できることである。
ディープラーニングモデルの場合、時間とメモリの制約が制限されたリアルタイムシステムにおいて、最適な結果を得るためには、モデル削減が極めて重要である。
本稿では,3つの鍵となる要素を含む深層オートエンコーダに対して,新しい圧縮手法を提案する。
第一に、プルーニングは重量を減らすと同時に、高い空間レベルを識別する高速な探索プロセスにより、破滅的な精度低下を防ぐ。
第二に、線形および非線形量子化は、各重みごとにビット数を減らし、モデルの複雑さを減らす。
これら3つの側面の複合的な寄与により、重みのサブセットを取り除き(刈り込み)、ビット幅を減らし(量子化)、モデルサイズを縮小することができる。
その結果、圧縮モデルは、高度に制約されたハードウェア環境において、より高速で容易に採用できる。
一般的な多変量異常検出ベンチマークで行った実験から,本手法は異常検出性能を著しく低下させることなく,モデル圧縮率(80%から95%)を著しく向上できることが示された。 Multivariate time series anomaly detection is a crucial problem in many industrial and research applications. Timely detection of anomalies allows, for instance, to prevent defects in manufacturing processes and failures in cyberphysical systems. Deep learning methods are preferred among others for their accuracy and robustness for the analysis of complex multivariate data. However, a key aspect is being able to extract predictions in a timely manner, to accommodate real-time requirements in different applications. In the case of deep learning models, model reduction is extremely important to achieve optimal results in real-time systems with limited time and memory constraints. In this paper, we address this issue by proposing a novel compression method for deep autoencoders that involves three key factors. First, pruning reduces the number of weights, while preventing catastrophic drops in accuracy by means of a fast search process that identifies high sparsity levels. Second, linear and non-linear quantization reduces model complexity by reducing the number of bits for every single weight. The combined contribution of these three aspects allow the model size to be reduced, by removing a subset of the weights (pruning), and decreasing their bit-width (quantization). As a result, the compressed model is faster and easier to adopt in highly constrained hardware environments. Experiments performed on popular multivariate anomaly detection benchmarks, show that our method is capable of achieving significant model compression ratio (between 80% and 95%) without a significant reduction in the anomaly detection performance. | 翻訳日:2024-03-06 17:08:35 公開日:2024-03-04 |
# デジタル双子と土木工学: 導入戦略の方向転換 Digital Twins and Civil Engineering Phases: Reorienting Adoption Strategies ( http://arxiv.org/abs/2403.02426v1 ) ライセンス: Link先を確認 | Taiwo A. Adebiyi and Nafeezat A. Ajenifuja and Ruda Zhang | (参考訳) デジタルツイン(DT)技術は、科学と工学の様々なステークホルダーに提示される約束のために、長年にわたって大きな注目を集めてきた。
その結果,DTの主題領域は様々であった。
これは製造、自動化、石油とガス、土木工学といった特定の分野では違いがなく、フィールド固有の応用のための断片化されたアプローチに繋がる。
この点において土木産業は、DTの採用のために他の工学分野の外部技術に依存しているため、さらに不利である。
これらの拡張の上昇は、dtのオペレーションとメンテナンスフェーズへの集中的な適用である。
別のスペクトルでは、ビルディング・インフォメーション・モデリング(BIM)は計画・設計段階で広く利用されており、建設段階の過渡的な性質はDT導入の課題である。
本稿では,建築・工学・建設産業におけるDTのフェーズベース開発について述べる。
DTの簡潔な展示をコンセプトとして,サービスとして,そして5段階のスケールシステムを確立することで開始する。
さらに,各土木段階における従来の技術について,系統的な文献レビューを行った。
本研究では,拡張センシングのためのコンピュータビジョンや,信頼性の高い統合のためのモノのインターネットといった実現可能な技術を特定した。
最終的には、土木工学プロジェクトのライフサイクル全体にわたる重要なツールとしてDTを明らかにし、研究者たちは土木工学アプリケーションのためのDTの統合を、よりホリスティックに考えている。 Digital twin (DT) technology has received immense attention over the years due to the promises it presents to various stakeholders in science and engineering. As a result, different thematic areas of DT have been explored. This is no different in specific fields such as manufacturing, automation, oil and gas, and civil engineering, leading to fragmented approaches for field-specific applications. The civil engineering industry is further disadvantaged in this regard as it relies on external techniques by other engineering fields for its DT adoption. A rising consequence of these extensions is a concentrated application of DT to the operations and maintenance phase. On another spectrum, Building Information Modeling (BIM) are pervasively utilized in the planning/design phase, and the transient nature of the construction phase remains a challenge for its DT adoption. In this paper, we present a phase-based development of DT in the Architecture, Engineering, and Construction industry. We commence by presenting succinct expositions on DT as a concept and as a service and establish a five-level scale system. Furthermore, we present separately a systematic literature review of the conventional techniques employed at each civil engineering phase. In this regard, we identified enabling technologies such as computer vision for extended sensing and the Internet of Things for reliable integration. Ultimately, we attempt to reveal DT as an important tool across the entire life cycle of civil engineering projects and nudge researchers to think more holistically in their quest for the integration of DT for civil engineering applications. | 翻訳日:2024-03-06 17:08:11 公開日:2024-03-04 |
# LLMの呼び出しは必要か?
複合推論システムのスケーリング則に向けて Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems ( http://arxiv.org/abs/2403.02419v1 ) ライセンス: Link先を確認 | Lingjiao Chen and Jared Quincy Davis and Boris Hanin and Peter Bailis and Ion Stoica and Matei Zaharia and James Zou | (参考訳) 近年,複数の言語モデル (LLM) コールを実行し,その応答を集約する複合システムを用いて,言語タスクにおける最新の結果が得られた。
しかし、LLMの呼び出し数(例えば、LLMに各質問に何回も答えてコンセンサスを取るように求める場合)が、そのような複合システムのパフォーマンスにどのように影響するかはほとんど理解されていない。
本稿では,複合推論システムのスケーリング法則の研究を開始する。
我々は,LLMの呼び出し数が1層投票システムの性能に与える影響を理論的に,理論的に,実証的に分析する。
複数の言語タスクにまたがって、驚くべきことに、投票推論システムのパフォーマンスは最初に向上するが、llm呼び出し数の関数として減少する。
我々の理論的結果は、この非モノトニック性は、タスク内のクエリの難しさの多様性によるものであることを示唆している: より多くのLCM呼び出しが"簡単"なクエリでは高いパフォーマンスをもたらすが、"ハード"なクエリではパフォーマンスが低下し、タスクが両方のクエリを含む場合、非モノトニックな振る舞いが出現する。
この洞察により、少数のサンプルからシステム性能を最大化するLLM呼び出しの数を計算し、投票推論システムのスケーリング法則を定義することができる。
実験により,我々のスケーリング法則は投票推論システムの性能を予測し,LLM呼び出しの最適な回数を求めることができることがわかった。 Many recent state-of-the-art results in language tasks were achieved using compound systems that perform multiple Large Language Model (LLM) calls and aggregate their responses. However, there is little understanding of how the number of LLM calls -- e.g., when asking the LLM to answer each question multiple times and taking a consensus -- affects such a compound system's performance. In this paper, we initiate the study of scaling laws of compound inference systems. We analyze, theoretically and empirically, how the number of LLM calls affects the performance of one-layer Voting Inference Systems -- one of the simplest compound systems, which aggregates LLM responses via majority voting. We find empirically that across multiple language tasks, surprisingly, Voting Inference Systems' performance first increases but then decreases as a function of the number of LLM calls. Our theoretical results suggest that this non-monotonicity is due to the diversity of query difficulties within a task: more LLM calls lead to higher performance on "easy" queries, but lower performance on "hard" queries, and non-monotone behavior emerges when a task contains both types of queries. This insight then allows us to compute, from a small number of samples, the number of LLM calls that maximizes system performance, and define a scaling law of Voting Inference Systems. Experiments show that our scaling law can predict the performance of Voting Inference Systems and find the optimal number of LLM calls to make. | 翻訳日:2024-03-06 17:07:48 公開日:2024-03-04 |
# ゼロからヒーローへ:アートのない初期条件での局所曲率がいかに悪いミニマから遠ざかるか From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima ( http://arxiv.org/abs/2403.02418v1 ) ライセンス: Link先を確認 | Tony Bonnaire, Giulio Biroli, Chiara Cammarota | (参考訳) 非凸高次元環境における勾配降下の最適化ダイナミクスについて検討し、複雑な損失景観を例として位相検索問題に着目した。
まず、M$の値とN$の値の両方が固定信号対雑音比$\alpha = M/N$で無限大となるような高次元極限について検討する。
最適化中に局所曲率がどのように変化するかを分析することで、中間$\alpha$に対して、ヘッセンは降下の最初の状態において良いミニマを指す下向きの方向を示し、最後に悪いミニマに閉じ込められる。
したがって、局所的な風景は最初は良心的かつ情報的であり、勾配降下はシステムを非形式的迷路へと導く。
2つのレジーム間の遷移は時間依存ヘッセンのbbp型閾値と関連している。
理論的解析と数値実験の両方を通して、有限だが非常に大きな$N$の場合、位相探索における勾配勾配による最適化は、悪い値に達する前に良い最小値に落ちることによって達成されることを示す。
このメカニズムは、高次元の極限に対応するアルゴリズムの遷移の前に回復が成功した理由を説明する。
技術的には、これは大まかに$N$のアルゴリズム遷移の強い対数補正と、$N\to\infty$の極限で期待されるものに関連している。
我々の分析は、有限次元における勾配勾配勾配ダイナミクスを促進する新しいメカニズムに光を当て、複雑な高次元景観におけるスペクトル特性の優れた初期化の重要性を強調した。 We investigate the optimization dynamics of gradient descent in a non-convex and high-dimensional setting, with a focus on the phase retrieval problem as a case study for complex loss landscapes. We first study the high-dimensional limit where both the number $M$ and the dimension $N$ of the data are going to infinity at fixed signal-to-noise ratio $\alpha = M/N$. By analyzing how the local curvature changes during optimization, we uncover that for intermediate $\alpha$, the Hessian displays a downward direction pointing towards good minima in the first regime of the descent, before being trapped in bad minima at the end. Hence, the local landscape is benign and informative at first, before gradient descent brings the system into a uninformative maze. The transition between the two regimes is associated to a BBP-type threshold in the time-dependent Hessian. Through both theoretical analysis and numerical experiments, we show that in practical cases, i.e. for finite but even very large $N$, successful optimization via gradient descent in phase retrieval is achieved by falling towards the good minima before reaching the bad ones. This mechanism explains why successful recovery is obtained well before the algorithmic transition corresponding to the high-dimensional limit. Technically, this is associated to strong logarithmic corrections of the algorithmic transition at large $N$ with respect to the one expected in the $N\to\infty$ limit. Our analysis sheds light on such a new mechanism that facilitate gradient descent dynamics in finite large dimensions, also highlighting the importance of good initialization of spectral properties for optimization in complex high-dimensional landscapes. | 翻訳日:2024-03-06 17:07:21 公開日:2024-03-04 |
# 数エミッター極限における逐次準エネルギー崩壊とディック相転移 Successive quasienergy collapse and the driven Dicke phase transition in the few-emitter limit ( http://arxiv.org/abs/2403.02417v1 ) ライセンス: Link先を確認 | T. Karmstrand, G. Johansson, R. Guti\'errez-J\'auregui | (参考訳) 大きさが大きくなる多体系で生じる創発的挙動は、秩序から秩序への遷移で明らかになる普遍的な法則に従う。
この挙動は伝統的に多数のエミッターに対して探索されてきたが、近年の進歩により、微視的モデルとの相関を測定・接続し、秩序から秩序への遷移に関するさらなる洞察を得ることができる少数のエミッター限界の探索が可能となった。
駆動型および減衰型キャビティモードと相互作用する原子の集合を記述する、駆動型および減衰型tavis-cummingsモデルにおいて、この最小体限界を考察する。
我々の探索は原子アンサンブルと磁場の着飾った状態を中心に展開し、そのエネルギーは運動場が増加するにつれて崩壊し、散逸した量子相転移の開始を示す。
この崩壊は1つの原子で見落とされ、平均場モデルでは無視される光-物質相関の影響である。
これらの相関が系の巨視的可観測性に与える影響について述べる。
我々は、期待される遷移点の変化に遭遇し、順序付けられた位相に達すると、パリティ破壊状態の数が増加する。 The emergent behavior that arises in many-body systems of increasing size follows universal laws that become apparent in order-to-disorder transitions. While this behavior has been traditionally explored for large numbers of emitters, recent progress allows for the exploration of the few-emitter limit, where correlations can be measured and connected to microscopic models to gain further insight into order-to-disorder transitions. We explore this few-body limit in the driven and damped Tavis--Cummings model, which describes a collection of atoms interacting with a driven and damped cavity mode. Our exploration revolves around the dressed states of the atomic ensemble and field, whose energies are shown to collapse as the driving field is increased to mark the onset of a dissipative quantum phase transition. The collapse occurs in stages and is an effect of light-matter correlations that are overlooked for single atoms and neglected in mean-field models. The implications of these correlations over the macroscopic observables of the system are presented. We encounter a shift in the expected transition point and an increased number of parity-broken states to choose from once the ordered phase is reached. | 翻訳日:2024-03-06 17:06:53 公開日:2024-03-04 |
# NiNformer: トケミキシング生成ゲーティング機能を備えたネットワークトランスフォーマーのネットワーク NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function ( http://arxiv.org/abs/2403.02411v1 ) ライセンス: Link先を確認 | Abdullah Nazhat Abdullah, Tarkan Aydin | (参考訳) AttentionメカニズムはTransformerアーキテクチャの主要なコンポーネントであり、導入以来、多くのドメインと複数のタスクにまたがるディープラーニングの大幅な進歩につながっている。
注意機構はコンピュータビジョンにおいて視覚トランスフォーマーvitとして利用され、その用途は分類、セグメンテーション、物体検出、画像生成など視覚領域の多くのタスクに拡張されている。
このメカニズムは非常に表現力があり能力があるが、計算コストが高く、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
これらの欠点に対処するために、計算負担を減らし、データサイズ要件を緩和する多くの設計が文献で提案されている。
視覚領域におけるこのような試みの例としては、MLP-Mixer、Conv-Mixer、Perciver-IOなどがある。
本稿では,MLPミキサーの静的なアプローチを強化するネットワーク・イン・ネットワーク構造に,トークン・ミキシング・プロセスにより要素ワイド・ゲーティング関数を学習する動的システムにより,通常のアテンション・レイヤを置き換えることで計算負担を軽減する,標準的なViTブロックに代わる新しい計算ブロックを提案する。
広汎な実験により,視覚領域の画像分類タスクに適用された複数のデータセットのベースラインアーキテクチャよりも優れた性能が得られた。 The Attention mechanism is the main component of the Transformer architecture, and since its introduction, it has led to significant advancements in Deep Learning that span many domains and multiple tasks. The Attention Mechanism was utilized in Computer Vision as the Vision Transformer ViT, and its usage has expanded into many tasks in the vision domain, such as classification, segmentation, object detection, and image generation. While this mechanism is very expressive and capable, it comes with the drawback of being computationally expensive and requiring datasets of considerable size for effective optimization. To address these shortcomings, many designs have been proposed in the literature to reduce the computational burden and alleviate the data size requirements. Examples of such attempts in the vision domain are the MLP-Mixer, the Conv-Mixer, the Perciver-IO, and many more. This paper introduces a new computational block as an alternative to the standard ViT block that reduces the compute burdens by replacing the normal Attention layers with a Network in Network structure that enhances the static approach of the MLP Mixer with a dynamic system of learning an element-wise gating function by a token mixing process. Extensive experimentation shows that the proposed design provides better performance than the baseline architectures on multiple datasets applied in the image classification task of the vision domain. | 翻訳日:2024-03-06 17:06:31 公開日:2024-03-04 |
# 試行錯誤:LLMエージェントの探索に基づく軌道最適化 Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents ( http://arxiv.org/abs/2403.02502v1 ) ライセンス: Link先を確認 | Yifan Song, Da Yin, Xiang Yue, Jie Huang, Sujian Li, Bill Yuchen Lin | (参考訳) 大規模言語モデル(LLM)は、様々な自律エージェントシステムにおいて不可欠なコンポーネントとなっている。
本研究では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
専門家の軌道を専門に訓練する以前の研究とは対照的に,本手法ではエージェントが探査失敗から学ぶことができる。
これにより、反復最適化フレームワークによってパフォーマンスが向上する。
探索期間中、エージェントは与えられたタスクを完了しながら環境と対話し、障害軌跡を収集して対照的な軌道対を生成する。
その後の訓練段階では、エージェントはこれらの軌道選択ペアを使用して、DPOのような対照的な学習方法を用いてポリシーを更新する。
この反復的な探索と訓練のサイクルは、エージェントの改善を継続する。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
さらに,専門的軌跡を欠いたシナリオにおける課題解決の効率と可能性を検討することにより,提案手法の有効性を実証する。 Large Language Models (LLMs) have become integral components in various autonomous agent systems. In this study, we present an exploration-based trajectory optimization approach, referred to as ETO. This learning method is designed to enhance the performance of open LLM agents. Contrary to previous studies that exclusively train on successful expert trajectories, our method allows agents to learn from their exploration failures. This leads to improved performance through an iterative optimization framework. During the exploration phase, the agent interacts with the environment while completing given tasks, gathering failure trajectories to create contrastive trajectory pairs. In the subsequent training phase, the agent utilizes these trajectory preference pairs to update its policy using contrastive learning methods like DPO. This iterative cycle of exploration and training fosters continued improvement in the agents. Our experiments on three complex tasks demonstrate that ETO consistently surpasses baseline performance by a large margin. Furthermore, an examination of task-solving efficiency and potential in scenarios lacking expert trajectory underscores the effectiveness of our approach. | 翻訳日:2024-03-06 17:01:35 公開日:2024-03-04 |
# RVRAE:ストックリターン予測のための変分リカレントオートエンコーダに基づく動的因子モデル RVRAE: A Dynamic Factor Model Based on Variational Recurrent Autoencoder for Stock Returns Prediction ( http://arxiv.org/abs/2403.02500v1 ) ライセンス: Link先を確認 | Yilun Wang, Shengjie Guo | (参考訳) 近年、ダイナミックファクターモデルは経済や金融、特に投資戦略において支配的なツールとして出現している。
このモデルは、従来の静的因子モデルと比較して、複雑で非線形でノイズの多い市場条件の処理を改善する。
特に非線形データを扱う機械学習の進歩は、資産価格の方法論をさらに強化した。
本稿では RVRAE という動的因子モデルを提案する。
このモデルは、市場データの時間的依存性とノイズに対処する確率論的アプローチである。
RVRAEは、動的因子モデリングの原理と、ディープラーニングからの変動リカレントオートエンコーダ(VRAE)を巧みに組み合わせている。
RVRAEの重要な特徴は、先進的な学習手法を使用することである。
この方法は、将来のデータに基づいて最適な後因子モデルを求めることにより、モデルの学習プロセスを微調整する。
特に、RVRAEは揮発性株式市場のリスクモデリングに長けており、潜在空間分布からのばらつきを推定し、リターンを予測する。
実市場データを用いた実証試験は, RVRAEが確立した各種基準法と比較して, 優れた性能を示した。 In recent years, the dynamic factor model has emerged as a dominant tool in economics and finance, particularly for investment strategies. This model offers improved handling of complex, nonlinear, and noisy market conditions compared to traditional static factor models. The advancement of machine learning, especially in dealing with nonlinear data, has further enhanced asset pricing methodologies. This paper introduces a groundbreaking dynamic factor model named RVRAE. This model is a probabilistic approach that addresses the temporal dependencies and noise in market data. RVRAE ingeniously combines the principles of dynamic factor modeling with the variational recurrent autoencoder (VRAE) from deep learning. A key feature of RVRAE is its use of a prior-posterior learning method. This method fine-tunes the model's learning process by seeking an optimal posterior factor model informed by future data. Notably, RVRAE is adept at risk modeling in volatile stock markets, estimating variances from latent space distributions while also predicting returns. Our empirical tests with real stock market data underscore RVRAE's superior performance compared to various established baseline methods. | 翻訳日:2024-03-06 17:01:21 公開日:2024-03-04 |
# ローター型量子系の不確かさの統一化 Unifying uncertainties for rotor-like quantum systems ( http://arxiv.org/abs/2403.02498v1 ) ライセンス: Link先を確認 | Ladislav Mi\v{s}ta Jr., Matou\v{s} Mi\v{s}ta, Zden\v{e}k Hradil | (参考訳) 量子ローターは、深い学際的だが未解明の含意を持つ高調波発振器に続く最も単純なモデルである。
機械的な意味を、重要な結果と有望な応用、例えば特異光学、ジョセフソン接合を持つ超導電回路、または極端量子限界における時間周波数領域における最適なパルス整形などによって誇張する。
角運動量と角変数の相補性の定量化は、量子論におけるこの標準対の活用に不可欠である。
位置と運動量に対する自然な測度は分散であるが、角変数に関連する不確かさは、その質量の中心を通る軸に関する単位環の慣性モーメントに関連付けることができる。
この解釈は、量子ローターの量子論においてさらに使用できる飽和不確実性関係の変種を提供し、角変数の正弦関数とコサイン関数に関連する可能性のある不確実性測度の選択における曖昧性を説明する。
特別の注意は、von Mises状態によって正確に、あるいはほぼ最小化された不確実な生成物に払われ、量子ローターの圧縮状態の役割を担い、究極的な極限における量子状態の最適検出を可能にする。 Quantum rotor represents the second simplest model after the harmonic oscillator with profound interdisciplinary but yet unexplored implications. It overreaches its mechanical meaning with significant consequences and promising applications in, e.g., singular optics, super-conductive circuits with Josephson junction or optimal pulse shaping in time frequency domains at ultimate quantum limit. Quantification of complementarity between angular momentum and angular variable is essential for exploitation of this canonical pair in quantum metrology. Whereas the natural measures for position and momentum are variances, the uncertainty associated with angular variable can be linked to moments of inertia of the unit ring about axes passing through its center of mass. This interpretation provides variants for saturable uncertainty relations which can be further used in quantum metrology of the quantum rotor and explains ambiguities in choice of possible uncertainty measures associated with sine and cosine functions of angular variable. Special attention will be payed to uncertainty products which are exactly or approximately minimised by von Mises states, which play the role of squeezed states for quantum rotor and allow optimal detection of quantum states at the ultimate limits. | 翻訳日:2024-03-06 17:01:05 公開日:2024-03-04 |
# 自分の冒険を選ぶ: 対話型電子書籍で単語の知識と理解力を改善する Choose Your Own Adventure: Interactive E-Books to Improve Word Knowledge and Comprehension Skills ( http://arxiv.org/abs/2403.02496v1 ) ライセンス: Link先を確認 | Stephanie Day, Jin K. Hwang, Tracy Arner, Danielle McNamara, Carol Connor | (参考訳) 本研究の目的は,第5学年生の読書理解を支援する本質的スキルに対するデジタル対話型電子書籍の読解の影響を検討することである。
学生は、難解な語彙を学習し、ハリケーンに関する科学概念を目標とする、単語学習と理解監視戦略を教える2つの電子書籍を読む。
本研究は,一般読解,要約,質問生成を支援する単語学習や戦略を含む特定の理解戦略が,語彙知識や理解スキルの構築に有効であることを示すか検討した。
学生はeブックの3つのバージョンのうちの1つを読むように割り当てられ、各バージョンは1つの戦略を実行した。
それらの本は、生徒に即座に反応をフィードバックできるような、組込みの理解質問を備えた選好アドベンチャー形式を採用した。
対象語彙と科学概念をeブックで学習する前と後の違いを調べるために,t-testをペアで実施した。
どちらの電子書籍でも、学生は単語学習とターゲットのハリケーンの概念で大きな成果を示した。
さらに階層線形モデリング(Hierarchical Linear Modeling, HLM)は、一方の戦略が他方よりも大きな利得に結びついていることを明らかにした。
本書の組込み質問のパフォーマンスは、両電子書籍のポストテスト結果に関連付けられていた。
本研究は,学生のエンゲージメントを高め,読書理解を向上させる電子ブックの実装と今後の開発に関する重要な考察である。 The purpose of this feasibility study was to examine the potential impact of reading digital interactive e-books on essential skills that support reading comprehension with third-fifth grade students. Students read two e-Books that taught word learning and comprehension monitoring strategies in the service of learning difficult vocabulary and targeted science concepts about hurricanes. We investigated whether specific comprehension strategies including word learning and strategies that supported general reading comprehension, summarization, and question generation, show promise of effectiveness in building vocabulary knowledge and comprehension skills in the e-Books. Students were assigned to read one of three versions of each of the e-Books, each version implemented one strategy. The books employed a choose-your-adventure format with embedded comprehension questions that provided students with immediate feedback on their responses. Paired samples t-tests were run to examine pre-to-post differences in learning the targeted vocabulary and science concepts taught in both e-Books. For both e-Books, students demonstrated significant gains in word learning and on the targeted hurricane concepts. Additionally, Hierarchical Linear Modeling (HLM) revealed that no one strategy was more associated with larger gains than the other. Performance on the embedded questions in the books was also associated with greater posttest outcomes for both e-Books. This work discusses important considerations for implementation and future development of e-books that can enhance student engagement and improve reading comprehension. | 翻訳日:2024-03-06 17:00:44 公開日:2024-03-04 |
# ロボットビンピッキングにおけるオンライングラフ学習のための擬似ラベルと文脈学習 Pseudo-Labeling and Contextual Curriculum Learning for Online Grasp Learning in Robotic Bin Picking ( http://arxiv.org/abs/2403.02495v1 ) ライセンス: Link先を確認 | Huy Le, Philipp Schillinger, Miroslav Gabriel, Alexander Qualmann, Ngo Anh Vien | (参考訳) 一般的な把握予測法は主にオフライン学習に依存しており、新しいピッキングシナリオへのリアルタイム適応中に発生する動的把握学習を見越す。
これらのシナリオには、以前は目に見えないオブジェクト、カメラの視点の変化、ビンの設定などが含まれる。
本稿では,オンライン学習における半教師付き学習と強化学習を組み合わせた新しいアプローチであるSSL-ConvSACを提案する。
ラベル付きデータ等として報奨フィードバック付き画素を扱い、ラベルなしデータを効率的に活用して学習を促進する。
また,文脈的カリキュラムに基づく手法を提案することで,ラベル付きデータとラベルなしデータの不均衡を解消する。
提案手法を実世界評価データに適用し,実機7-DoFのフランカ・エミカロボットアームと吸引グリップを用いて,ビンピック作業におけるオンライングリップ学習を改善することを約束する。
ビデオ: https://youtu.be/OAro5pg8I9U The prevailing grasp prediction methods predominantly rely on offline learning, overlooking the dynamic grasp learning that occurs during real-time adaptation to novel picking scenarios. These scenarios may involve previously unseen objects, variations in camera perspectives, and bin configurations, among other factors. In this paper, we introduce a novel approach, SSL-ConvSAC, that combines semi-supervised learning and reinforcement learning for online grasp learning. By treating pixels with reward feedback as labeled data and others as unlabeled, it efficiently exploits unlabeled data to enhance learning. In addition, we address the imbalance between labeled and unlabeled data by proposing a contextual curriculum-based method. We ablate the proposed approach on real-world evaluation data and demonstrate promise for improving online grasp learning on bin picking tasks using a physical 7-DoF Franka Emika robot arm with a suction gripper. Video: https://youtu.be/OAro5pg8I9U | 翻訳日:2024-03-06 17:00:22 公開日:2024-03-04 |
# 予測に基づくニューラルアーキテクチャ探索のための符号化 Encodings for Prediction-based Neural Architecture Search ( http://arxiv.org/abs/2403.02484v1 ) ライセンス: Link先を確認 | Yash Akhauri, Mohamed S. Abdelfattah | (参考訳) 予測に基づく手法は、ニューラルネットワーク探索(NAS)の最適化を大幅に強化した。
これらの予測器の有効性は、ニューラルネットワークアーキテクチャの符号化方法に大きく影響されている。
従来のエンコーディングでは、ニューラルネットワークのグラフ構造を記述する隣接行列を使用していたが、新しいエンコーディングでは、非教師なしの潜在表現の事前学習からゼロコストプロキシのベクトルまで、さまざまなアプローチを採用している。
本稿では,構造,学習,スコアベースという3つの主要なタイプのニューラルエンコーディングを分類し,検討する。
さらに、これらのエンコーディングを拡張し、nas予測子を複数の検索空間に拡張する \textit{unified encodings} を導入する。
本稿では,nasbench-101 (nb101), nb201, nb301, network design spaces (nds), transnasbench-101などのnas空間における150万以上のニューラルネットワークアーキテクチャを用いた実験から考察を行った。
本研究に基づいて, 予測器 \textbf{flan}: \textbf{fl}ow \textbf{a}ttention for \textbf{n}asを提案する。
FLAN は予測器の設計、伝達学習、および \textit{unified encodings} に関する重要な知見を統合し、NAS 精度予測器を訓練するための1桁以上のコスト削減を可能にする。
すべてのニューラルネットワークの実装とエンコーディングは、 \href{https://github.com/abdelfattah-lab/flan_nas}{https://github.com/abdelfattah-lab/flan\_nas}でオープンソースです。 Predictor-based methods have substantially enhanced Neural Architecture Search (NAS) optimization. The efficacy of these predictors is largely influenced by the method of encoding neural network architectures. While traditional encodings used an adjacency matrix describing the graph structure of a neural network, novel encodings embrace a variety of approaches from unsupervised pretraining of latent representations to vectors of zero-cost proxies. In this paper, we categorize and investigate neural encodings from three main types: structural, learned, and score-based. Furthermore, we extend these encodings and introduce \textit{unified encodings}, that extend NAS predictors to multiple search spaces. Our analysis draws from experiments conducted on over 1.5 million neural network architectures on NAS spaces such as NASBench-101 (NB101), NB201, NB301, Network Design Spaces (NDS), and TransNASBench-101. Building on our study, we present our predictor \textbf{FLAN}: \textbf{Fl}ow \textbf{A}ttention for \textbf{N}AS. FLAN integrates critical insights on predictor design, transfer learning, and \textit{unified encodings} to enable more than an order of magnitude cost reduction for training NAS accuracy predictors. Our implementation and encodings for all neural networks are open-sourced at \href{https://github.com/abdelfattah-lab/flan_nas}{https://github.com/abdelfattah-lab/flan\_nas}. | 翻訳日:2024-03-06 17:00:04 公開日:2024-03-04 |
# MORBDD: スパーシフィケーションの学習による多目的限定2値決定図 MORBDD: Multiobjective Restricted Binary Decision Diagrams by Learning to Sparsify ( http://arxiv.org/abs/2403.02482v1 ) ライセンス: Link先を確認 | Rahul Patel, Elias B. Khalil, David Bergman | (参考訳) 多目的意思決定において、ユーザは(制約された)多目的最適化問題(pareto frontier)に対する非支配的な解の集合を求める。
本研究では,完全多目的整数線形プログラミングの最先端手法をヒューリスティック領域に導入することを目的とする。
まず、問題に対するすべての実現可能な解決策を表すグラフを構築し、次にグラフをトラバースしてparetoのフロンティアを抽出する。
Paretoフロンティアは指数関数的に大きいため、BDD上でそれを列挙するのは時間を要する可能性がある。
単目的問題に対するヒューリスティックとしてすでに有効であることが示されている制限されたBDDが、機械学習(ML)を使用して多目的最適化にどのように適応できるかを考察する。
MLベースのBDDスペーサーであるMORBDDは、まずバイナリ分類器をトレーニングして、ParetoソリューションにコントリビュートしそうもないBDDノードを排除します。
多目的クナップサック問題に対する実験結果から、MORBDDは、近似品質に優れた、幅制限の制限されたBDDとよく知られた進化アルゴリズムNSGA-IIの非常に小さな制限されたBDDを生成するのに非常に効果的であることが示された。 In multicriteria decision-making, a user seeks a set of non-dominated solutions to a (constrained) multiobjective optimization problem, the so-called Pareto frontier. In this work, we seek to bring a state-of-the-art method for exact multiobjective integer linear programming into the heuristic realm. We focus on binary decision diagrams (BDDs) which first construct a graph that represents all feasible solutions to the problem and then traverse the graph to extract the Pareto frontier. Because the Pareto frontier may be exponentially large, enumerating it over the BDD can be time-consuming. We explore how restricted BDDs, which have already been shown to be effective as heuristics for single-objective problems, can be adapted to multiobjective optimization through the use of machine learning (ML). MORBDD, our ML-based BDD sparsifier, first trains a binary classifier to eliminate BDD nodes that are unlikely to contribute to Pareto solutions, then post-processes the sparse BDD to ensure its connectivity via optimization. Experimental results on multiobjective knapsack problems show that MORBDD is highly effective at producing very small restricted BDDs with excellent approximation quality, outperforming width-limited restricted BDDs and the well-known evolutionary algorithm NSGA-II. | 翻訳日:2024-03-06 16:59:36 公開日:2024-03-04 |
# ユニバーサル量子コンピューティングのための動的Majoranaハイブリダイゼーション Characterizing Dynamic Majorana Hybridization for Universal Quantum Computing ( http://arxiv.org/abs/2403.02481v1 ) ライセンス: Link先を確認 | Themba Hodge, Eric Mascot, Dan Crawford, Stephan Rachel | (参考訳) majorana zeroモードから構築された量子ビットは、フォールトトレラントなトポロジカル量子計算への潜在的な経路として長い間理論化されてきた。
これらのプロセスでほとんど避けられないのは、マヨラナ波動関数の重なりであり、これはハイブリダイゼーションと呼ばれ、マヨラナモードが互いに近づいたときに生じる。
これにより、基底状態の縮退が破壊され、ブレイディングプロセスのクビットエラーが発生する。
本稿では,低エネルギー部分空間内の遷移を追跡し,ハイブリッド化マヨラナモードを用いたブレイドの出力を予測する手法を提案する。
応用として、任意の量子コンピュータの動作に不可欠なXゲート上で示されるように、Pauli qubit-errorを特徴付ける。
さらに,2量子ビット制御されたマジックゲートと共に,任意の回転を実現するためのハイブリダイゼーションの活用方法を示す数値シミュレーションを行い,汎用量子コンピューティングの実証を行った。 Qubits built out of Majorana zero modes have long been theorized as a potential pathway toward fault-tolerant topological quantum computation. Almost unavoidable in these processes is Majorana wavefunction overlap, known as hybridization, which arise throughout the process when Majorana modes get close to each other. This breaks the ground state degeneracy, leading to qubit errors in the braiding process. This work presents an accessible method to track transitions within the low-energy subspace and predict the output of braids with hybridized Majorana modes. As an application, we characterize Pauli qubit-errors, as demonstrated on an X-gate, critical for the successful operation of any quantum computer. Further, we perform numerical simulations to demonstrate how to utilize the hybridization to implement arbitrary rotations, along with a two-qubit controlled magic gate, thus providing a demonstration of universal quantum computing. | 翻訳日:2024-03-06 16:59:10 公開日:2024-03-04 |
# 線形関数近似を用いたTD学習の簡易有限時間解析 A Simple Finite-Time Analysis of TD Learning with Linear Function Approximation ( http://arxiv.org/abs/2403.02476v1 ) ライセンス: Link先を確認 | Aritra Mitra | (参考訳) マルコフサンプリングの下で線形関数近似を用いたTD学習の有限時間収束について検討する。
この設定の既存の証明は、解析を単純化するためにアルゴリズムの投影ステップを仮定するか、イテレートの安定性を確保するためにかなり複雑な引数を必要とする。
アルゴリズムで実際にプロジェクションステップを実行することなく、プロジェクションベースの分析の単純さを維持することは可能ですか?
} 私たちの大きな貢献は、新しい二段階引数でこれを可能にすることです。
最初のステップでは、帰納法を用いて、一定のステップサイズ$\alpha$の標準的な選択の下で、TD学習によって生成される反復が期待通りに一様に有界であることを証明する。
2番目のステップでは、マルコフサンプリングの効果を捉えた$O(\alpha^2)$の順序で有界摂動まで TD 学習の定常力学を模倣する再帰を確立する。
これらの部品を組み合わせると、既存の証明をかなり単純化する全体的なアプローチに繋がる。
我々の帰納的証明手法はより複雑な確率近似アルゴリズムの解析に応用が見出され、そのような応用のいくつかの例を提示して結論付ける。 We study the finite-time convergence of TD learning with linear function approximation under Markovian sampling. Existing proofs for this setting either assume a projection step in the algorithm to simplify the analysis, or require a fairly intricate argument to ensure stability of the iterates. We ask: \textit{Is it possible to retain the simplicity of a projection-based analysis without actually performing a projection step in the algorithm?} Our main contribution is to show this is possible via a novel two-step argument. In the first step, we use induction to prove that under a standard choice of a constant step-size $\alpha$, the iterates generated by TD learning remain uniformly bounded in expectation. In the second step, we establish a recursion that mimics the steady-state dynamics of TD learning up to a bounded perturbation on the order of $O(\alpha^2)$ that captures the effect of Markovian sampling. Combining these pieces leads to an overall approach that considerably simplifies existing proofs. We conjecture that our inductive proof technique will find applications in the analyses of more complex stochastic approximation algorithms, and conclude by providing some examples of such applications. | 翻訳日:2024-03-06 16:58:54 公開日:2024-03-04 |
# 制約付き直接選好最適化によるLCMの安全性向上 Enhancing LLM Safety via Constrained Direct Preference Optimization ( http://arxiv.org/abs/2403.02475v1 ) ライセンス: Link先を確認 | Zixuan Liu, Xiaolin Sun, Zizhan Zheng | (参考訳) 大規模言語モデル(LLM)の急速に増加する能力は、しばしば相反する性質にもかかわらず、その有用性と安全性を同時に向上するために、AIシステムとさまざまな人間の好みを一致させることを緊急に要求する。
この重要な問題に対処するために、有望なアプローチは、ヒューマンフィードバック(RLHF)フレームワークによる制約付き強化学習(Reinforcement Learning from Human Feedback)を通じて、微調整段階の安全制約を実施することである。
しかし、このアプローチは計算コストが高く、しばしば不安定である。
本稿では,最近提案されたDPO(Direct Preference Optimization)アプローチの拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下とDPOを統合することにより,強化学習を用いることなく,有用性と無害性のほぼ最適なトレードオフを同定する。
提案手法は,最近提案された安全RLHF法と比較して,同じ安全制約下での報酬を著しく高めながら,DPOに欠けているLLMの安全性を保証する。
警告: 本論文は攻撃的あるいは有害なデータを含む。 The rapidly increasing capabilities of large language models (LLMs) raise an urgent need to align AI systems with diverse human preferences to simultaneously enhance their usefulness and safety, despite the often conflicting nature of these goals. To address this important problem, a promising approach is to enforce a safety constraint at the fine-tuning stage through a constrained Reinforcement Learning from Human Feedback (RLHF) framework. This approach, however, is computationally expensive and often unstable. In this work, we introduce Constrained DPO (C-DPO), a novel extension of the recently proposed Direct Preference Optimization (DPO) approach for fine-tuning LLMs that is both efficient and lightweight. By integrating dual gradient descent and DPO, our method identifies a nearly optimal trade-off between helpfulness and harmlessness without using reinforcement learning. Empirically, our approach provides a safety guarantee to LLMs that is missing in DPO while achieving significantly higher rewards under the same safety constraint compared to a recently proposed safe RLHF approach. Warning: This paper contains example data that may be offensive or harmful. | 翻訳日:2024-03-06 16:58:36 公開日:2024-03-04 |
# 文学小説の感情動態 The Emotion Dynamics of Literary Novels ( http://arxiv.org/abs/2403.02474v1 ) ライセンス: Link先を確認 | Krishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst, Saif M. Mohammad | (参考訳) 物語は彼らの物語に現れる感情に富み、読者に喚起される。
物語の中の様々なキャラクターの感情的な旅は、彼らの魅力の中心である。
しかし、小説の感情の計算分析は、小説全体を一つの物語の弧として考える代わりに、その中の異なるキャラクターの感情の軌跡の変化をほとんど調べていない。
本研究では,ナレーションの感情弧と様々なキャラクターを区別するために,文字対話を用いた。
英文学小説のデータセットにおける様々な登場人物の感情弧を発話感情ダイナミクスの枠組みを用いて分析する。
以上の結果から,ナレーションと対話は,小説の過程で,主に異質な感情を表現し,物語の感情的弧の共通性や差異は,個々の登場人物に関連づけられた人物によってより正確に捉えられることが示された。 Stories are rich in the emotions they exhibit in their narratives and evoke in the readers. The emotional journeys of the various characters within a story are central to their appeal. Computational analysis of the emotions of novels, however, has rarely examined the variation in the emotional trajectories of the different characters within them, instead considering the entire novel to represent a single story arc. In this work, we use character dialogue to distinguish between the emotion arcs of the narration and the various characters. We analyze the emotion arcs of the various characters in a dataset of English literary novels using the framework of Utterance Emotion Dynamics. Our findings show that the narration and the dialogue largely express disparate emotions through the course of a novel, and that the commonalities or differences in the emotional arcs of stories are more accurately captured by those associated with individual characters. | 翻訳日:2024-03-06 16:58:14 公開日:2024-03-04 |
# 畳み込みニューラルネットワークはいつ学習を止めるのか? When do Convolutional Neural Networks Stop Learning? ( http://arxiv.org/abs/2403.02473v1 ) ライセンス: Link先を確認 | Sahan Ahmad, Gabriel Trahan, Aminul Islam | (参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーション、医療画像解析などのコンピュータビジョンタスクにおいて優れた性能を示した。
一般に、任意の数のエポックを用いてそのようなニューラルネットワークを訓練する。
単一のエポックでは、トレーニングデータ — バッチサイズで分割された — 全体が、ネットワークに送信される。
実際、トレーニング損失を伴う検証誤差は、ニューラルネットワークの一般化を推定するために使用され、ネットワークの最適な学習能力を示す。
現在の実践は、トレーニングの損失が減少し、トレーニングと検証エラーのギャップ(つまり一般化ギャップ)が増加するとトレーニングを停止し、オーバーフィットを避けることである。
しかし、これは試行錯誤に基づくアプローチであり、重要な疑問を提起する: ニューラルネットワークがトレーニングデータに基づいて学習をやめたことを推定することは可能か?
本研究は,cnn変種の全層にわたるデータ変動を分析し,その最適に近い学習能力を予測する仮説を提案する。
トレーニングフェーズでは、検証データを用いることなく、我々の仮説を用いて、CNN変異体の準最適学習能力を予測する。
我々の仮説は、ネットワークにトレーニング可能なパラメータを追加することなく、既存のCNN亜種へのプラグアンドプレイとしてデプロイできる。
我々は6種類のCNN変種と3種類の一般画像データセット(CIFAR10, CIFAR100, SVHN)で仮説を検証した。
これらのcnnの変種とデータセットに基づく結果は、この仮説がトレーニングで計算時間の58.49\%を節約することを示している。
MedMNIST-V2ベンチマークと比較し,10の医用画像データセットについてさらに仮説を立てる。
実験結果から,MedMNIST-V2ベンチマークの精度を損なわずに,$\approx$44.1\%の計算時間を節約した。 Convolutional Neural Networks (CNNs) have demonstrated outstanding performance in computer vision tasks such as image classification, detection, segmentation, and medical image analysis. In general, an arbitrary number of epochs is used to train such neural networks. In a single epoch, the entire training data -- divided by batch size -- are fed to the network. In practice, validation error with training loss is used to estimate the neural network's generalization, which indicates the optimal learning capacity of the network. Current practice is to stop training when the training loss decreases and the gap between training and validation error increases (i.e., the generalization gap) to avoid overfitting. However, this is a trial-and-error-based approach which raises a critical question: Is it possible to estimate when neural networks stop learning based on training data? This research work introduces a hypothesis that analyzes the data variation across all the layers of a CNN variant to anticipate its near-optimal learning capacity. In the training phase, we use our hypothesis to anticipate the near-optimal learning capacity of a CNN variant without using any validation data. Our hypothesis can be deployed as a plug-and-play to any existing CNN variant without introducing additional trainable parameters to the network. We test our hypothesis on six different CNN variants and three different general image datasets (CIFAR10, CIFAR100, and SVHN). The result based on these CNN variants and datasets shows that our hypothesis saves 58.49\% of computational time (on average) in training. We further conduct our hypothesis on ten medical image datasets and compared with the MedMNIST-V2 benchmark. Based on our experimental result, we save $\approx$ 44.1\% of computational time without losing accuracy against the MedMNIST-V2 benchmark. | 翻訳日:2024-03-06 16:57:58 公開日:2024-03-04 |
# OffLanDat: プロンプトエンジニアリングによる大規模言語モデルによるコミュニティベースの攻撃的言語データセット OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering ( http://arxiv.org/abs/2403.02472v1 ) ライセンス: Link先を確認 | Amit Das, Mostafa Rahgouy, Dongji Feng, Zheng Zhang, Tathagata Bhattacharya, Nilanjana Raychawdhary, Mary Sandage, Lauramarie Pope, Gerry Dozier and Cheryl Seals | (参考訳) ソーシャルメディアにおける攻撃的言語の存在は、社会的幸福に悪影響を及ぼしている。
その結果、この問題に高い優先度で対処することが非常に重要になった。
攻撃的な言語は明示的な形式と暗黙的な形式の両方に存在し、後者はより検出が難しい。
現在のこの分野の研究はいくつかの課題に直面している。
第一に、既存のデータセットは主に明示的な攻撃的キーワードを含むテキストの集合に依存しているため、これらのキーワードを欠いた暗黙的に攻撃的なコンテンツをキャプチャすることが困難である。
第二に、通常の方法論は、コミュニティ情報が提供できる貴重な洞察を無視して、テキスト分析のみに焦点を当てる傾向がある。
本稿では,38の異なる対象グループを対象としたデータを含むchatgptによって生成された,コミュニティベースの暗黙的攻撃言語データセットであるofflandatを提案する。
倫理上の制約により chatgpt を用いた攻撃的テキストの生成が制限されているにもかかわらず,暗黙的攻撃的言語を効果的に生成するプロンプトベースアプローチを提案する。
データ品質を確保するために、我々はデータを人間で評価する。
さらに,ChatGPTを用いたプロンプトベースのZero-Shot法を用いて,人間のアノテーションとChatGPTアノテーションの検知結果を比較する。
既存の最先端モデルを用いて、そのような言語を検出するのがいかに効果的かを確認する。
他の研究者のためにコードとデータセットを公開します。 The widespread presence of offensive languages on social media has resulted in adverse effects on societal well-being. As a result, it has become very important to address this issue with high priority. Offensive languages exist in both explicit and implicit forms, with the latter being more challenging to detect. Current research in this domain encounters several challenges. Firstly, the existing datasets primarily rely on the collection of texts containing explicit offensive keywords, making it challenging to capture implicitly offensive contents that are devoid of these keywords. Secondly, usual methodologies tend to focus solely on textual analysis, neglecting the valuable insights that community information can provide. In this research paper, we introduce a novel dataset OffLanDat, a community based implicit offensive language dataset generated by ChatGPT containing data for 38 different target groups. Despite limitations in generating offensive texts using ChatGPT due to ethical constraints, we present a prompt-based approach that effectively generates implicit offensive languages. To ensure data quality, we evaluate our data with human. Additionally, we employ a prompt-based Zero-Shot method with ChatGPT and compare the detection results between human annotation and ChatGPT annotation. We utilize existing state-of-the-art models to see how effective they are in detecting such languages. We will make our code and dataset public for other researchers. | 翻訳日:2024-03-06 16:57:28 公開日:2024-03-04 |
# 医療レポート作成と視覚的質問応答のための視覚言語モデル--レビュー Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review ( http://arxiv.org/abs/2403.02469v1 ) ライセンス: Link先を確認 | Iryna Hartsock and Ghulam Rasool | (参考訳) 医療ビジョン言語モデル(VLM)は、コンピュータビジョンと自然言語処理を組み合わせて、視覚およびテキスト医療データを解析する。
本稿では,医療用VLMの開発における最近の進歩を概観し,医療報告生成と視覚的質問応答のためのモデルに焦点をあてる。
自然言語処理とコンピュータビジョンの背景として,両分野のテクニックをVLMに統合し,マルチモーダルデータから学習する方法について解説する。
私たちが取り組んだ主な分野は、医療ビジョン言語データセットの探索、近年注目されている医療VLMにおけるアーキテクチャの詳細な分析と事前学習戦略、医療レポート生成および視覚質問応答におけるVLMのパフォーマンスを評価するための評価指標に関する包括的な議論である。
また,現在の課題を浮き彫りにして,臨床的妥当性の向上や患者のプライバシー問題への対処など,今後の方向性を提案する。
総じて,マルチモーダル医療データを活用した医療アプリケーション開発における最近の進歩を概説する。 Medical vision-language models (VLMs) combine computer vision and natural language processing to analyze visual and textual medical data. Our paper reviews recent advancements in developing VLMs specialized for healthcare, focusing on models designed for medical report generation and visual question answering. We provide background on natural language processing and computer vision, explaining how techniques from both fields are integrated into VLMs to enable learning from multimodal data. Key areas we address include the exploration of medical vision-language datasets, in-depth analyses of architectures and pre-training strategies employed in recent noteworthy medical VLMs, and comprehensive discussion on evaluation metrics for assessing VLMs' performance in medical report generation and visual question answering. We also highlight current challenges and propose future directions, including enhancing clinical validity and addressing patient privacy concerns. Overall, our review summarizes recent progress in developing VLMs to harness multimodal medical data for improved healthcare applications. | 翻訳日:2024-03-06 16:57:06 公開日:2024-03-04 |
# MLとAIを利用した応用因果推論 Applied Causal Inference Powered by ML and AI ( http://arxiv.org/abs/2403.02467v1 ) ライセンス: Link先を確認 | Victor Chernozhukov, Christian Hansen, Nathan Kallus, Martin Spindler, Vasilis Syrgkanis | (参考訳) 機械学習と因果推論の新たな融合入門
本書は、古典的構造方程式モデル(SEM)とその現代のAI等価性、有向非巡回グラフ(DAG)と構造因果モデル(SCM)のアイデアを提示し、現代の予測ツールを使用してそのようなモデルで推論を行うダブル/デバイアスド機械学習手法をカバーする。 An introduction to the emerging fusion of machine learning and causal inference. The book presents ideas from classical structural equation models (SEMs) and their modern AI equivalent, directed acyclical graphs (DAGs) and structural causal models (SCMs), and covers Double/Debiased Machine Learning methods to do inference in such models using modern predictive tools. | 翻訳日:2024-03-06 16:56:47 公開日:2024-03-04 |
# 密度に基づく等尺写像 Density-based Isometric Mapping ( http://arxiv.org/abs/2403.02531v1 ) ライセンス: Link先を確認 | Bardia Yousefi, M\'elina Khansari, Ryan Trask, Patrick Tallon, Carina Carino, Arman Afrasiyabi, Vikas Kundra, Lan Ma, Lei Ren, Keyvan Farahani, Michelle Hershman | (参考訳) 等尺写像法は最短経路アルゴリズムを用いて高次元(HD)多様体上の点間のユークリッド距離を推定する。
極端に近い点間の距離を過大に見積もる可能性があり、射影中の内在(局所)距離と外在(グローバル)距離の不一致をもたらすため、弱い均一化されたhdデータでは不十分である。
この問題に対処するために、parzen-rosenblatt (pr) ウィンドウに着想を得た新しい制約を追加することで、最短経路アルゴリズムを修正し、isomap で構築された最短経路グラフの均一性を維持する。
総計72,236例,7,000 MINSTデータ,多発ケストX線肺炎データセット1596例,肺がん患者640例のNASCLC CT/PETデータセット3例を用いて,PR-Isomapのベンチマークと評価を行った。
431種類のバイオマーカーが抽出された。
その結果,pr-isomap は hd 属性を低次元 (ld) 空間に投影し,局所的および大域的距離の維持を示す mnist データセット によって可視化された情報を保存した。
PR-Isomapは80.9%(STD:5.8)、78.5%(STD:4.4)、88.4%(STD:1.4)、61.4%(STD:11.4)の3つのNSCLCデータセットの信頼性間隔は95%であった。
同様に多変量 Cox モデルでは, PR-Isomap の C-statistics および log-likelihood test を用いて, 他の次元減少法と比較して, 総合生存率が高くなった。
kaplan meier survival curveはまた、hd画像の特徴を保存したマルチモーダルイメージングバイオマーカーを用いて、高リスク患者と低リスク患者を区別するpr-isomapの顕著な能力を示している。 The isometric mapping method employs the shortest path algorithm to estimate the Euclidean distance between points on High dimensional (HD) manifolds. This may not be sufficient for weakly uniformed HD data as it could lead to overestimating distances between far neighboring points, resulting in inconsistencies between the intrinsic (local) and extrinsic (global) distances during the projection. To address this issue, we modify the shortest path algorithm by adding a novel constraint inspired by the Parzen-Rosenblatt (PR) window, which helps to maintain the uniformity of the constructed shortest-path graph in Isomap. Multiple imaging datasets overall of 72,236 cases, 70,000 MINST data, 1596 from multiple Chest-XRay pneumonia datasets, and three NSCLC CT/PET datasets with a total of 640 lung cancer patients, were used to benchmark and validate PR-Isomap. 431 imaging biomarkers were extracted from each modality. Our results indicate that PR-Isomap projects HD attributes into a lower-dimensional (LD) space while preserving information, visualized by the MNIST dataset indicating the maintaining local and global distances. PR-Isomap achieved the highest comparative accuracies of 80.9% (STD:5.8) for pneumonia and 78.5% (STD:4.4), 88.4% (STD:1.4), and 61.4% (STD:11.4) for three NSCLC datasets, with a confidence interval of 95% for outcome prediction. Similarly, the multivariate Cox model showed higher overall survival, measured with c-statistics and log-likelihood test, of PR-Isomap compared to other dimensionality reduction methods. Kaplan Meier survival curve also signifies the notable ability of PR-Isomap to distinguish between high-risk and low-risk patients using multimodal imaging biomarkers preserving HD imaging characteristics for precision medicine. | 翻訳日:2024-03-06 16:54:08 公開日:2024-03-04 |
# DACO:コード生成によるアプリケーション駆動および包括的データ分析を目指して DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation ( http://arxiv.org/abs/2403.02528v1 ) ライセンス: Link先を確認 | Xueqing Wu, Rui Zheng, Jingzhen Sha, Te-Lin Wu, Hanyu Zhou, Mohan Tang, Kai-Wei Chang, Nanyun Peng, Haoran Huang | (参考訳) データ分析は、与えられたユーザークエリに表データに対して包括的に答えるために、詳細な研究と決定的な洞察を生成する重要な分析プロセスである。
本研究では,この重要な課題に対して,今後の研究を刺激する新たなリソースとベンチマークを提案する。
しかし、専門家がキュレートしたデータ分析アノテーションの収集は違法にコストがかかる。
マルチターンプロンプト技術を用いて,LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
DACOデータセットを構築し,(1)実世界のシナリオから収集した440のデータベース,(2)モデルトレーニングの弱さに寄与する2kのクエリ・アンサーペア,(3)主要な評価ベンチマークとして機能する人間の精巧なアノテーションを用いた集中的かつ高品質なテストセットを含む。
我々はDACOデータセット上で6B教師付き微調整モデル(SFT)を訓練し、SFTモデルが妥当なデータ解析能力を学習していることを確認する。
モデルと人間の嗜好をさらに整合させるため、強化学習を用いて、人間によって認識される分析を補助的に生成し、より密集した報酬を設計し、人間の選好報酬を中間コード生成ステップに伝達する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価され、提案アルゴリズムの有効性が検証された。
データとコードはhttps://github.com/shirley-wu/dacoでリリース Data analysis is a crucial analytical process to generate in-depth studies and conclusive insights to comprehensively answer a given user query for tabular data. In this work, we aim to propose new resources and benchmarks to inspire future research on this crucial yet challenging and under-explored task. However, collecting data analysis annotations curated by experts can be prohibitively expensive. We propose to automatically generate high-quality answer annotations leveraging the code-generation capabilities of LLMs with a multi-turn prompting technique. We construct the DACO dataset, containing (1) 440 databases (of tabular data) collected from real-world scenarios, (2) ~2k query-answer pairs that can serve as weak supervision for model training, and (3) a concentrated but high-quality test set with human refined annotations that serves as our main evaluation benchmark. We train a 6B supervised fine-tuning (SFT) model on DACO dataset, and find that the SFT model learns reasonable data analysis capabilities. To further align the models with human preference, we use reinforcement learning to encourage generating analysis perceived by human as helpful, and design a set of dense rewards to propagate the sparse human preference reward to intermediate code generation steps. Our DACO-RL algorithm is evaluated by human annotators to produce more helpful answers than SFT model in 57.72% cases, validating the effectiveness of our proposed algorithm. Data and code are released at https://github.com/shirley-wu/daco | 翻訳日:2024-03-06 16:53:22 公開日:2024-03-04 |
# 電池セルの1万個以上のCT画像のデータセット A dataset of over one thousand computed tomography scans of battery cells ( http://arxiv.org/abs/2403.02527v1 ) ライセンス: Link先を確認 | Amariah Condon, Bailey Buscarino, Eric Moch, William J. Sehnert, Owen Miles, Patrick K. Herring, Peter M. Attia | (参考訳) バッテリー技術は、グローバルな電化努力にとってますます重要になっている。
しかし、電池は信頼性や安全性の問題を引き起こす小さな製造バリエーションに非常に敏感である。
電池品質管理のための重要な技術はCTスキャンであり、様々な臨床・工業分野で非破壊的な3D検査に広く利用されている。
しかし歴史的に、大量生産におけるctスキャンの有用性は、その低スループットと大きなファイルサイズを扱うことの難しさによって制限されている。
そこで本研究では,市販バッテリーの1000以上のctスキャンのデータセットを提案する。
このデータセットは、様々な化学薬品(リチウムイオンとナトリウムイオン)と様々な電池形態因子(シリンドリック、ポーチ、プリズム)にまたがる。
合計で7種類の電池タイプを評価した。
製造のバラツキとバッテリ欠陥の存在は、このデータセットを通じて観察することができる。
このデータセットは、バッテリー技術、コンピュータビジョン、あるいはその両方に取り組んでいる科学者やエンジニアにとって興味深い。 Battery technology is increasingly important for global electrification efforts. However, batteries are highly sensitive to small manufacturing variations that can induce reliability or safety issues. An important technology for battery quality control is computed tomography (CT) scanning, which is widely used for non-destructive 3D inspection across a variety of clinical and industrial applications. Historically, however, the utility of CT scanning for high-volume manufacturing has been limited by its low throughput as well as the difficulty of handling its large file sizes. In this work, we present a dataset of over one thousand CT scans of as-produced commercially available batteries. The dataset spans various chemistries (lithium-ion and sodium-ion) as well as various battery form factors (cylindrical, pouch, and prismatic). We evaluate seven different battery types in total. The manufacturing variability and the presence of battery defects can be observed via this dataset. This dataset may be of interest to scientists and engineers working on battery technology, computer vision, or both. | 翻訳日:2024-03-06 16:52:37 公開日:2024-03-04 |
# 厳密な再生成核ヒルベルト空間における内在可観測性を持つクープマン作用素 Koopman operators with intrinsic observables in rigged reproducing kernel Hilbert spaces ( http://arxiv.org/abs/2403.02524v1 ) ライセンス: Link先を確認 | Isao Ishikawa, Yuka Hashimoto, Masahiro Ikeda, Yoshinobu Kawahara | (参考訳) 本稿では、再生カーネルヒルベルト空間(RKHS)とそのスペクトル上で定義されるクープマン作用素を推定するための新しいアプローチを提案する。
本稿では, ジェット動モード分解(JetDMD)と呼ばれる, RKHSの固有構造とジェットと呼ばれる幾何学的概念を利用して, クープマン作用素の推定を強化する手法を提案する。
本手法は従来の拡張動的モード分解(edmd)を,特に固有値の数値計算において精度良く洗練する。
本稿では,JetDMDの特殊正定値カーネルに対する明示的エラー境界と収束率による優位性を証明し,その性能の確かな理論的基礎を提供する。
また、ヒルベルト空間の枠組内でのクープマン作用素のスペクトル解析も検討し、拡張クープマン作用素の概念を提案する。
この概念は、推定されたクープマン固有函数を深く理解し、元の函数空間の外側でそれらを取り込む。
本研究は、リグジットヒルベルト空間の理論を通じて、クープマン作用素の推定スペクトルと固有関数を解析し、リグジットされた rkhs 内の固有分解を可能にするための原理的手法を提供する。
また, 動的系の時間的サンプル化軌道データから, 動的系を確固とした理論的保証で再構築する手法を提案する。
ファンデル pol 発振器,ダフィング発振器,h\'enon map および lorenz attractor を用いた数値シミュレーションを行い,固有値の明確な数値計算と力学系の正確な予測を用いて jetdmd の性能を示す。 This paper presents a novel approach for estimating the Koopman operator defined on a reproducing kernel Hilbert space (RKHS) and its spectra. We propose an estimation method, what we call Jet Dynamic Mode Decomposition (JetDMD), leveraging the intrinsic structure of RKHS and the geometric notion known as jets to enhance the estimation of the Koopman operator. This method refines the traditional Extended Dynamic Mode Decomposition (EDMD) in accuracy, especially in the numerical estimation of eigenvalues. This paper proves JetDMD's superiority through explicit error bounds and convergence rate for special positive definite kernels, offering a solid theoretical foundation for its performance. We also delve into the spectral analysis of the Koopman operator, proposing the notion of extended Koopman operator within a framework of rigged Hilbert space. This notion leads to a deeper understanding of estimated Koopman eigenfunctions and capturing them outside the original function space. Through the theory of rigged Hilbert space, our study provides a principled methodology to analyze the estimated spectrum and eigenfunctions of Koopman operators, and enables eigendecomposition within a rigged RKHS. We also propose a new effective method for reconstructing the dynamical system from temporally-sampled trajectory data of the dynamical system with solid theoretical guarantee. We conduct several numerical simulations using the van der Pol oscillator, the Duffing oscillator, the H\'enon map, and the Lorenz attractor, and illustrate the performance of JetDMD with clear numerical computations of eigenvalues and accurate predictions of the dynamical systems. | 翻訳日:2024-03-06 16:52:11 公開日:2024-03-04 |
# タイムズシリーズ用トランスフォーマー:S&P500への応用 Transformer for Times Series: an Application to the S&P500 ( http://arxiv.org/abs/2403.02523v1 ) ライセンス: Link先を確認 | Pierre Brugiere and Gabriel Turinici | (参考訳) トランスモデルは、大規模言語モデルや画像生成を含む幅広い機械学習アプリケーションにおいて、良好な結果を得るために広く利用されている。
ここでは、金融時系列に対するこのアプローチの適用性について問い合わせる。
我々はまず, 合成ornstein-uhlenbeckプロセスの平均回帰と実際のs&p500データという2つの原型的状況のデータセット構成について述べる。
次に,提案するトランスフォーマーアーキテクチャを詳細に紹介し,最後に奨励的な結果について論じる。
合成データについては,次の動きを正確に予測し,S&P500では2次変動とボラティリティ予測に関する興味深い結果が得られる。 The transformer models have been extensively used with good results in a wide area of machine learning applications including Large Language Models and image generation. Here, we inquire on the applicability of this approach to financial time series. We first describe the dataset construction for two prototypical situations: a mean reverting synthetic Ornstein-Uhlenbeck process on one hand and real S&P500 data on the other hand. Then, we present in detail the proposed Transformer architecture and finally we discuss some encouraging results. For the synthetic data we predict rather accurately the next move, and for the S&P500 we get some interesting results related to quadratic variation and volatility prediction. | 翻訳日:2024-03-06 16:51:24 公開日:2024-03-04 |
# HeAR - 健康アコースティックな表現 HeAR -- Health Acoustic Representations ( http://arxiv.org/abs/2403.02522v1 ) ライセンス: Link先を確認 | Sebastien Baur, Zaid Nabulsi, Wei-Hung Weng, Jake Garrison, Louis Blankemeier, Sam Fishman, Christina Chen, Sujay Kakarmath, Minyoi Maimbolwa, Nsala Sanjase, Brian Shuma, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Shruthi Prabhakara, Monde Muyoyeta, Diego Ardila | (参考訳) くさびや息のような健康音は、健康や病気をモニターする重要な可能性を持つ有用な健康信号を含むことが知られているが、医療機械学習コミュニティでは過小評価されている。
健康音響のための既存のディープラーニングシステムは、データによって制限され、他のタスクへの一般化を妨げる可能性のある単一のタスクで、狭く訓練され、評価されることが多い。
これらのギャップを軽減するために,3億1300万の2秒間の音声クリップからなる大規模データセットでトレーニングされたマスク付きオートエンコーダを使用した,スケーラブルな自己教師付き学習ベースのディープラーニングシステムであるhearを開発した。
線形プローブを用いて,6つのデータセットにまたがる33の健全な音響タスクのベンチマークにおいて,最新の健康音声埋め込みモデルとして hear を確立した。
この研究を導入することで、さらなるヘルスアコースティックス研究の実現と加速を期待する。 Health acoustic sounds such as coughs and breaths are known to contain useful health signals with significant potential for monitoring health and disease, yet are underexplored in the medical machine learning community. The existing deep learning systems for health acoustics are often narrowly trained and evaluated on a single task, which is limited by data and may hinder generalization to other tasks. To mitigate these gaps, we develop HeAR, a scalable self-supervised learning-based deep learning system using masked autoencoders trained on a large dataset of 313 million two-second long audio clips. Through linear probes, we establish HeAR as a state-of-the-art health audio embedding model on a benchmark of 33 health acoustic tasks across 6 datasets. By introducing this work, we hope to enable and accelerate further health acoustics research. | 翻訳日:2024-03-06 16:51:06 公開日:2024-03-04 |
# 有限次元行列の収束における位置作用素:幾何学、輸送、ゲージ理論との相互作用を探る Position operators in terms of converging finite-dimensional matrices: Exploring their interplay with geometry, transport, and gauge theory ( http://arxiv.org/abs/2403.02519v1 ) ライセンス: Link先を確認 | B. Q. Song, J. D. H. Smith, J. Wang | (参考訳) 位置演算子 $\hat{r}$ は波動力学において $i{\partial_p}$ として現れるが、その行列形式は対角線で発散し、基底変換や可観測降伏などに深刻な困難をもたらす。
我々は、既存の$r$-matrix(DRM)を改善するための収束$r$-matrix(CRM)を見つけ、概念レベルとアプリケーションレベルの両方でその影響を調べることを目指している。
スピン行列は、[s_i,s_j]={\epsilon}_{i,j,k}s_k$の解としてリー代数表現を与えるが、$r$-行列は$[\hat{r},p]=i\hbar$、すなわちワイル代数の解にはならない。
実際、ワイル代数の行列表現は存在せず、CRMもDRMも表現の余地がない。
その代わり、CRMは任意の有限次元の行列を使って$\hat{r}$を符号化する手続きと見なすべきである。
CRMの導出は、ワイル代数に関する限られた理解が分岐につながったことを認識している。
重要な修正は、第1ワイル代数(慣れ親しんだ代入の$\hat{r}{\rightarrow}i{\partial_p}$)を第1ワイル代数に増やすことである。
発散を解決することは、r$-matrixを厳密に定義し、r$-matrixは、その定義原理、変換挙動、そしてそれが得る可観測性の観点から、スピン行列とは異なることを示すことができる。
概念レベルでは、CRMは$r$-matrixとBerry接続の間の論理的ギャップを埋め、Bloch space $\mathcal{H}_B$が$\hat{r}$に対して不完全であることを示すのに役立つ。
応用レベルでは、輸送に焦点を当て、エルミート行列が連想的エルミート作用素、すなわち$r_{m,n}=r_{n,m}^*{\nLeftrightarrow}\hat{r}=\hat{r}^{\dagger}$と同一でないことを発見する。
また、このような非表現CRMが統合輸送理論の構築にどのように貢献するかについても論じる。 Position operator $\hat{r}$ appears as $i{\partial_p}$ in wave mechanics, while its matrix form is well known diverging in diagonals, causing serious difficulties in basis transformation, observable yielding, etc. We aim to find a convergent $r$-matrix (CRM) to improve the existing divergent $r$-matrix (DRM), and investigate its influence at both the conceptual and the application levels. Unlike the spin matrix, which affords a Lie algebra representation as the solution of $[s_i,s_j]={\epsilon}_{i,j,k}s_k$, the $r$-matrix cannot be a solution for $[\hat{r},p]=i\hbar$, namely Weyl algebra. Indeed: matrix representations of Weyl algebras prove not existing; thus, neither CRM nor DRM would afford a representation. Instead, the CRM should be viewed as a procedure of encoding $\hat{r}$ using matrices of arbitrary finite dimensions. Deriving CRM recognizes that the limited understanding about Weyl algebra has led to the divergence. A key modification is increasing the 1-st Weyl algebra (the familiar substitution $\hat{r}{\rightarrow}i{\partial_p}$) to the $N$-th Weyl algebra. Resolving the divergence makes $r$-matrix rigorously defined, and we are able to show $r$-matrix is distinct from a spin matrix in terms of its defining principles, transformation behavior, and the observable it yields. At the conceptual level, the CRM fills the logical gap between the $r$-matrix and the Berry connection; and helps to show that Bloch space $\mathcal{H}_B$ is incomplete for $\hat{r}$. At the application level, we focus on transport, and discover that the Hermitian matrix is not identical with the associative Hermitian operator, i.e., $r_{m,n}=r_{n,m}^*{\nLeftrightarrow}\hat{r}=\hat{r}^{\dagger}$. We also discuss how such a non-representation CRM can contribute to building a unified transport theory. | 翻訳日:2024-03-06 16:50:45 公開日:2024-03-04 |
# LLVM IR上のGNN埋め込みとベクトル埋め込みを用いたMPI誤差検出 MPI Errors Detection using GNN Embedding and Vector Embedding over LLVM IR ( http://arxiv.org/abs/2403.02518v1 ) ライセンス: Link先を確認 | Jad El Karchi, Hanze Chen, Ali TehraniJamsaz, Ali Jannesari, Mihail Popov, Emmanuelle Saillard | (参考訳) 並列MPIプログラムにおけるエラーの特定は難しい作業である。
検証ツールが増えているにもかかわらず、並列プログラムのデバッグは依然として大きな課題である。
本稿では,組込みおよび深層学習グラフニューラルネットワーク(GNN)を用いて,MPIプログラムのバグを識別する問題に対処する。
具体的には、コードのLLVM中間表現(IR)から、コードが正しいか、既知のMPIエラーを含むかを判断できる2つのモデルの設計と開発を行った。
MBIとMPI-CorrBenchの2つの専用のベンチマークスイートを使用してモデルを検証した。
同じベンチマークスイート上でモデルのトレーニングと検証を行うことで,エラー検出の精度は92%に達した。
さらに、異なるベンチマークスイート(例えば、MBIからMPI-CorrBenchへの移行)でモデルをトレーニングし、評価し、80%以上の有望な精度を達成した。
最後に、異なるMPIエラー間の相互作用を調査し、新しい未知エラーに対するモデルの一般化能力を定量化した。
トレーニング中にエラータイプを削除し、モデルが予測できるかどうかを評価することが必要でした。
除去誤差の検出精度は20%から80%の間で大きく異なり、接続されたエラーパターンを示している。 Identifying errors in parallel MPI programs is a challenging task. Despite the growing number of verification tools, debugging parallel programs remains a significant challenge. This paper is the first to utilize embedding and deep learning graph neural networks (GNNs) to tackle the issue of identifying bugs in MPI programs. Specifically, we have designed and developed two models that can determine, from a code's LLVM Intermediate Representation (IR), whether the code is correct or contains a known MPI error. We tested our models using two dedicated MPI benchmark suites for verification: MBI and MPI-CorrBench. By training and validating our models on the same benchmark suite, we achieved a prediction accuracy of 92% in detecting error types. Additionally, we trained and evaluated our models on distinct benchmark suites (e.g., transitioning from MBI to MPI-CorrBench) and achieved a promising accuracy of over 80%. Finally, we investigated the interaction between different MPI errors and quantified our models' generalization capabilities over new unseen errors. This involved removing error types during training and assessing whether our models could still predict them. The detection accuracy of removed errors varies significantly between 20% to 80%, indicating connected error patterns. | 翻訳日:2024-03-06 16:49:50 公開日:2024-03-04 |
# 量子ネットワークの進歩:理想とノイズのフォトニックシステムのためのツールとプロトコル Advancing Quantum Networking: Some Tools and Protocols for Ideal and Noisy Photonic Systems ( http://arxiv.org/abs/2403.02515v1 ) ライセンス: Link先を確認 | Jason Saied, Jeffrey Marshall, Namit Anand, Shon Grabbe, Eleanor G. Rieffel | (参考訳) 多くのスケールでの量子ネットワークは、将来の量子技術や量子システムの実験にとって重要である。
フォトニックリンクは量子ネットワークを可能にする。
彼らはコロケーションされた量子プロセッサを接続し、大規模量子コンピュータを可能にし、分散、デリゲート、盲点量子コンピューティングをサポートするために遠くの量子コンピュータ間のリンクを提供し、宇宙の遠くのノードをリンクして基礎物理学の新たなテストを可能にする。
本稿では,量子ネットワークをサポートするフォトニクスツールとプロトコルの進歩について述べる。
我々は,鍵フォトニック回路における識別可能性誤差の影響について解析結果と数値を提供し,様々な誤差モデルを検討し,生成したフォトニック状態の品質をベンチマークするための新しい指標を開発した。
本稿では, 識別性エラーを緩和する蒸留プロトコルについて検討する。
また,コヒーレント状態による近似によるフォトニック回路の効率的なシミュレーションに関する著者のサブセットによる最近の結果について検討する。
我々は、普遍集合の理論、ユニタリt-デザイン、フォトニクスの間の相互作用について研究し、この方向で述べる結果の多くは専門家に知られているかもしれないが、より広い量子情報科学コミュニティの注意を惹きつけ、このコミュニティにより馴染みのある方法でそれらを説明することを目指している。
我々は、表現論の結果を翻訳し、$\dim V \geq 2$ のとき、$U(V)$ の非ユニバーサル無限閉2$-設計は存在しないことを証明した。
結果として、線形光学ユニタリが1ドルの設計であるが2つの設計ではないことを観察する。
最後に、Oszmaniec と Zimbor\'{a} の結果を適用し、任意の非自明な SNAP ゲートで線形光学ユニタリを増大させることが普遍性を達成するのに十分であることを示す。 Quantum networking at many scales will be critical to future quantum technologies and experiments on quantum systems. Photonic links enable quantum networking. They will connect co-located quantum processors to enable large-scale quantum computers, provide links between distant quantum computers to support distributed, delegated, and blind quantum computing, and will link distant nodes in space enabling new tests of fundamental physics. Here, we discuss recent work advancing photonic tools and protocols that support quantum networking. We provide analytical results and numerics for the effect of distinguishability errors on key photonic circuits; we considered a variety of error models and developed new metrics for benchmarking the quality of generated photonic states. We review a distillation protocol by one of the authors that mitigates distinguishability errors. We also review recent results by a subset of the authors on the efficient simulation of photonic circuits via approximation by coherent states. We study some interactions between the theory of universal sets, unitary t-designs, and photonics: while many of the results we state in this direction may be known to experts, we aim to bring them to the attention of the broader quantum information science community and to phrase them in ways that are more familiar to this community. We prove, translating a result from representation theory, that there are no non-universal infinite closed $2$-designs in $U(V)$ when $\dim V \geq 2$. As a consequence, we observe that linear optical unitaries form a $1$-design but not a 2-design. Finally, we apply a result of Oszmaniec and Zimbor\'{a}s to prove that augmenting the linear optical unitaries with any nontrivial SNAP gate is sufficient to achieve universality. | 翻訳日:2024-03-06 16:49:31 公開日:2024-03-04 |
# オープンエンド学習ロボットの目的:計算分類学・定義・運用 Purpose for Open-Ended Learning Robots: A Computational Taxonomy, Definition, and Operationalisation ( http://arxiv.org/abs/2403.02514v1 ) ライセンス: Link先を確認 | Gianluca Baldassarre, Richard J. Duro, Emilio Cartoni, Mehdi Khamassi, Alejandro Romero, Vieri Giuliano Santucci | (参考訳) 自律的オープンエンドラーニング(OEL)ロボットは、例えば本質的なモチベーションや自己生成目標のガイダンスに依存するなど、環境との直接的な相互作用を通じて、新たなスキルと知識を累積的に獲得することができる。
OELロボットは、自律的に取得した知識を使用して、人間のユーザに関連するタスクを達成できるため、アプリケーションに高い関連性がある。
しかし、OELロボットは重要な制限に直面しており、これはユーザのタスクを達成するのにあまり関係のない知識の獲得につながる可能性がある。
本研究は,「目的」という新しい概念に基づく,この問題の解決の可能性を分析する。
目的は、デザイナーやユーザーがロボットに何を望んでいるかを示す。
ロボットは、目的の社内表現(ここではdesiresと呼ばれる)を使用して、その目的を達成するための知識の獲得に向けて、オープンな探索に焦点をあてるべきである。
この研究は、目的の計算フレームワークを2つの方法で開発するのに貢献する。
まず、目的に基づいたフレームワークを、3段階のモチベーション階層に基づいて定式化する。
(a) 目的
b) ドメインに依存しない欲求
(c)特定のドメイン依存状態ゴール。
第二に、この作業はフレームワークによって強調される重要な課題を強調している。例えば、'目的-目的の整合性問題'、'目的-目標の接地問題'、'欲求間の偏在'である。
このアプローチによって、OELロボットは自律的に学習できるだけでなく、デザイナーやユーザの目的を満たす目標やスキルの獲得にも焦点が当てられる。 Autonomous open-ended learning (OEL) robots are able to cumulatively acquire new skills and knowledge through direct interaction with the environment, for example relying on the guidance of intrinsic motivations and self-generated goals. OEL robots have a high relevance for applications as they can use the autonomously acquired knowledge to accomplish tasks relevant for their human users. OEL robots, however, encounter an important limitation: this may lead to the acquisition of knowledge that is not so much relevant to accomplish the users' tasks. This work analyses a possible solution to this problem that pivots on the novel concept of `purpose'. Purposes indicate what the designers and/or users want from the robot. The robot should use internal representations of purposes, called here `desires', to focus its open-ended exploration towards the acquisition of knowledge relevant to accomplish them. This work contributes to develop a computational framework on purpose in two ways. First, it formalises a framework on purpose based on a three-level motivational hierarchy involving: (a) the purposes; (b) the desires, which are domain independent; (c) specific domain dependent state-goals. Second, the work highlights key challenges highlighted by the framework such as: the `purpose-desire alignment problem', the `purpose-goal grounding problem', and the `arbitration between desires'. Overall, the approach enables OEL robots to learn in an autonomous way but also to focus on acquiring goals and skills that meet the purposes of the designers and users. | 翻訳日:2024-03-06 16:48:58 公開日:2024-03-04 |
# バランス強化・無害・一般能力:直接RLHFによる会話型LLMの強化 Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF ( http://arxiv.org/abs/2403.02513v1 ) ライセンス: Link先を確認 | Chen Zheng, Ke Sun, Hang Wu, Chenguang Xi, Xun Zhou | (参考訳) 近年,会話型大規模言語モデル (LLMs) の進歩により,多くの新ベースLLMが,SFT (Supervised Fine-Tuning) の後の基礎的能力の低下を経験する傾向がみられた。
このプロセスは、しばしば、忘れることやベースモデルの能力の低下といった問題を引き起こす。
さらに、微調整されたモデルはユーザーの好みに合わせるのに苦労し、特に刺激されたときに有害なアウトプットの生成を必然的に増加させます。
これらの課題を克服するために,我々は,SFTを完全にバイパスし,Herman Feedback (RLHF) からのハームレス強化学習を直接実施することで,革新的なアプローチを採用した。
本手法は,基本モデルの汎用性を維持できるだけでなく,その会話能力を大幅に向上させるとともに,有毒なアウトプットの生成を著しく減少させる。
弊社のアプローチは、顧客のサービスなど、微妙な理解と応答の生成を求める分野に重大な影響を与える。
この手法を最もポピュラーなベースモデルであるMistralに適用し、Mistral-Plusを作成しました。
11の一般的なタスクに対する検証は、Mistral-Plusが同様の規模のオープンソースベースモデルとそれに対応するインストラクションバージョンより優れていることを示す。
重要なことに、Mistral-Plusの会話能力は大幅に改善され、従来のSFTモデルよりも安全性とユーザの嗜好の両面で大幅に向上した。 In recent advancements in Conversational Large Language Models (LLMs), a concerning trend has emerged, showing that many new base LLMs experience a knowledge reduction in their foundational capabilities following Supervised Fine-Tuning (SFT). This process often leads to issues such as forgetting or a decrease in the base model's abilities. Moreover, fine-tuned models struggle to align with user preferences, inadvertently increasing the generation of toxic outputs when specifically prompted. To overcome these challenges, we adopted an innovative approach by completely bypassing SFT and directly implementing Harmless Reinforcement Learning from Human Feedback (RLHF). Our method not only preserves the base model's general capabilities but also significantly enhances its conversational abilities, while notably reducing the generation of toxic outputs. Our approach holds significant implications for fields that demand a nuanced understanding and generation of responses, such as customer service. We applied this methodology to Mistral, the most popular base model, thereby creating Mistral-Plus. Our validation across 11 general tasks demonstrates that Mistral-Plus outperforms similarly sized open-source base models and their corresponding instruct versions. Importantly, the conversational abilities of Mistral-Plus were significantly improved, indicating a substantial advancement over traditional SFT models in both safety and user preference alignment. | 翻訳日:2024-03-06 16:48:30 公開日:2024-03-04 |
# HPCプラットフォーム上でのPennyLane Lightningによるハイブリッド量子プログラミング Hybrid quantum programming with PennyLane Lightning on HPC platforms ( http://arxiv.org/abs/2403.02512v1 ) ライセンス: Link先を確認 | Ali Asadi, Amintor Dusko, Chae-Yeun Park, Vincent Michaud-Rioux, Isidor Schoch, Shuli Shu, Trevor Vincent, Lee James O'Riordan | (参考訳) 我々は,cpu,gpu,hpcネイティブアーキテクチャとワークロードを対象とした高性能状態ベクトルシミュレータのコレクションであるpennylaneのlightning suiteを紹介する。
qaoa、vqe、synthetic workloadsのような量子アプリケーションは、サポート対象の古典的コンピューティングアーキテクチャを実証し、ツールを使ってシミュレートできる問題のスケールを示すために実装されています。
我々はLightningのパフォーマンスを、NVidiaやAMD GPUと同様にCPUをサポートするバックエンドでベンチマークし、その結果を他の一般的な高性能シミュレータパッケージと比較し、Lightningの実装がパフォーマンスをリードする場所を示す。
我々は、明示的なSIMDとマルチスレッド、複数のGPUでバッチ化されたタスクベースの実行、複数のノードで分散前方および勾配ベースの量子回路の実行によるCPU性能の向上を示す。
我々のデータによると、さまざまな回路を快適にシミュレートでき、1つのデバイスまたはノードで最大30キュービット、複数のノードで最大41キュービットの例が得られる。 We introduce PennyLane's Lightning suite, a collection of high-performance state-vector simulators targeting CPU, GPU, and HPC-native architectures and workloads. Quantum applications such as QAOA, VQE, and synthetic workloads are implemented to demonstrate the supported classical computing architectures and showcase the scale of problems that can be simulated using our tooling. We benchmark the performance of Lightning with backends supporting CPUs, as well as NVidia and AMD GPUs, and compare the results to other commonly used high-performance simulator packages, demonstrating where Lightning's implementations give performance leads. We show improved CPU performance by employing explicit SIMD intrinsics and multi-threading, batched task-based execution across multiple GPUs, and distributed forward and gradient-based quantum circuit executions across multiple nodes. Our data shows we can comfortably simulate a variety of circuits, giving examples with up to 30 qubits on a single device or node, and up to 41 qubits using multiple nodes. | 翻訳日:2024-03-06 16:48:03 公開日:2024-03-04 |
# SPUQ:大規模言語モデルに対する摂動に基づく不確実性定量化 SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models ( http://arxiv.org/abs/2403.02509v1 ) ライセンス: Link先を確認 | Xiang Gao, Jiaxin Zhang, Lalla Mouatadid, Kamalika Das | (参考訳) 近年、大規模言語モデル(llm)が普及し、注目すべきテキスト生成機能を提供している。
しかし、迫る課題は、LLMにおける不確実性定量化(UQ)に対する重要な必要性を強調しながら、確実に間違った予測を行う傾向にある。
以前の研究は主にアレタリック不確実性に対処することに焦点を当ててきたが、エピステミックを含む不確実性の全スペクトルはいまだに不十分である。
このギャップを生かした新しいUQ法(SPUQ)を導入し,動脈とてんかんの両不確実性に対処する。
LLM入力のための一連の摂動を生成し、各摂動に対して出力をサンプリングし、テキスト生成タスクのためのサンプリング不確実性アプローチを一般化する集約モジュールを組み込む。
各種データセットの広範囲な実験を通じて,様々な摂動・凝集技術について検討した。
その結果, 予測校正誤差(ece)を平均50%削減し, モデル不確実性校正の大幅な改善が示された。
提案手法は,LLMの信頼性と信頼性を高めるための有望なステップを提供すると考えられる。 In recent years, large language models (LLMs) have become increasingly prevalent, offering remarkable text generation capabilities. However, a pressing challenge is their tendency to make confidently wrong predictions, highlighting the critical need for uncertainty quantification (UQ) in LLMs. While previous works have mainly focused on addressing aleatoric uncertainty, the full spectrum of uncertainties, including epistemic, remains inadequately explored. Motivated by this gap, we introduce a novel UQ method, sampling with perturbation for UQ (SPUQ), designed to tackle both aleatoric and epistemic uncertainties. The method entails generating a set of perturbations for LLM inputs, sampling outputs for each perturbation, and incorporating an aggregation module that generalizes the sampling uncertainty approach for text generation tasks. Through extensive experiments on various datasets, we investigated different perturbation and aggregation techniques. Our findings show a substantial improvement in model uncertainty calibration, with a reduction in Expected Calibration Error (ECE) by 50\% on average. Our findings suggest that our proposed UQ method offers promising steps toward enhancing the reliability and trustworthiness of LLMs. | 翻訳日:2024-03-06 16:47:45 公開日:2024-03-04 |
# 画像キャプションによる個人差分表現学習 Differentially Private Representation Learning via Image Captioning ( http://arxiv.org/abs/2403.02506v1 ) ライセンス: Link先を確認 | Tom Sander, Yaodong Yu, Maziar Sanjabi, Alain Durmus, Yi Ma, Kamalika Chaudhuri, Chuan Guo | (参考訳) differentially private (dp) machine learningは、プライバシを維持しながら機密データからモデルをトレーニングするためのゴールドスタンダードなソリューションだと考えられている。
しかし、この理想を達成するための大きな障壁は、DP表現学習において特に目に見える準最適プライバシー・正確性トレードオフである。
特に、控えめなプライバシー予算の下では、ほとんどのモデルは手作りの機能よりもはるかに優れた表現を学ぶ。
本稿では,画像キャプションによる効果的なdp表現学習と,インターネット規模のマルチモーダルデータセットへのスケールアップについて述べる。
一連の工学的トリックにより,LAION-2Bの233MサブセットにDP画像キャプタ(DP-Cap)をスクラッチから適切な量の計算量で訓練し,様々な下流視覚や視覚言語タスクで使用可能な,前例のない高品質な画像特徴を得ることに成功した。
例えば、$\varepsilon=8$のプライバシー予算の下で、学習済みDP-Cap機能の上に訓練された線形分類器は、ImageNet-1Kで65.8%の精度を獲得し、以前のSOTAの56.5%を大幅に改善した。
我々の研究は、高ユーティリティDP表現学習はゼロからトレーニングすることで達成できないという一般的な感情に挑戦する。 Differentially private (DP) machine learning is considered the gold-standard solution for training a model from sensitive data while still preserving privacy. However, a major barrier to achieving this ideal is its sub-optimal privacy-accuracy trade-off, which is particularly visible in DP representation learning. Specifically, it has been shown that under modest privacy budgets, most models learn representations that are not significantly better than hand-crafted features. In this work, we show that effective DP representation learning can be done via image captioning and scaling up to internet-scale multimodal datasets. Through a series of engineering tricks, we successfully train a DP image captioner (DP-Cap) on a 233M subset of LAION-2B from scratch using a reasonable amount of computation, and obtaining unprecedented high-quality image features that can be used in a variety of downstream vision and vision-language tasks. For example, under a privacy budget of $\varepsilon=8$, a linear classifier trained on top of learned DP-Cap features attains 65.8% accuracy on ImageNet-1K, considerably improving the previous SOTA of 56.5%. Our work challenges the prevailing sentiment that high-utility DP representation learning cannot be achieved by training from scratch. | 翻訳日:2024-03-06 16:47:26 公開日:2024-03-04 |
# 自然言語処理のためのプリトレイン・フィニチューンパラダイムに関するチュートリアル A Tutorial on the Pretrain-Finetune Paradigm for Natural Language Processing ( http://arxiv.org/abs/2403.02504v1 ) ライセンス: Link先を確認 | Yu Wang | (参考訳) Pretrain-finetune パラダイムは自然言語処理(NLP)における変換的アプローチを表している。
このパラダイムは、大規模な事前学習された言語モデルを使用することで、限られたトレーニングデータであっても、微調整作業において顕著な効率を示す。
この効率性は、注釈付きサンプルの数が非常に限られている社会科学の研究に特に有用である。
本チュートリアルでは,プリトレイン・フィニチューンパラダイムの包括的紹介を行う。
まず,事前学習と微調整の基本的な概念を考察し,次いで実世界のアプリケーションを用いた実践的な演習を行った。
マルチクラス分類や回帰を含む様々なタスクにおけるパラダイムの適用例を示す。
その有効性とユーザフレンドリさを強調するこのチュートリアルは、このパラダイムの広範な採用を促進することを目的としている。
この目的のために、私たちはすべてのコードとデータセットへのオープンアクセスを提供しました。
このチュートリアルは心理学の定量的研究者にとって特に有用であり、この革新的なアプローチに関する洞察に富んだガイドを提供する。 The pretrain-finetune paradigm represents a transformative approach in natural language processing (NLP). This paradigm distinguishes itself through the use of large pretrained language models, demonstrating remarkable efficiency in finetuning tasks, even with limited training data. This efficiency is especially beneficial for research in social sciences, where the number of annotated samples is often quite limited. Our tutorial offers a comprehensive introduction to the pretrain-finetune paradigm. We first delve into the fundamental concepts of pretraining and finetuning, followed by practical exercises using real-world applications. We demonstrate the application of the paradigm across various tasks, including multi-class classification and regression. Emphasizing its efficacy and user-friendliness, the tutorial aims to encourage broader adoption of this paradigm. To this end, we have provided open access to all our code and datasets. The tutorial is particularly valuable for quantitative researchers in psychology, offering them an insightful guide into this innovative approach. | 翻訳日:2024-03-06 16:46:58 公開日:2024-03-04 |
# Wukong: 大規模勧告のスケーリング法を目指して Wukong: Towards a Scaling Law for Large-Scale Recommendation ( http://arxiv.org/abs/2403.02545v1 ) ライセンス: Link先を確認 | Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen | (参考訳) スケーリング法則はモデル品質の持続可能な改善に重要な役割を果たしている。
残念ながら、これまでのレコメンデーションモデルは、大規模言語モデルの領域で見られるような法則を示さない。
この制限は、これらのモデルをより複雑な現実世界のデータセットに適応させる上で大きな課題となる。
本稿では,階層化された因子化マシンをベースとした効率的なネットワークアーキテクチャと,Wukongと呼ばれる相乗的アップスケーリング戦略を提案し,推薦領域におけるスケーリング法則を確立する。
Wukongのユニークなデザインは、より高層で広い層を通して、多様な、あらゆる順序の相互作用を捉えることができる。
我々は,6つの公開データセットに対して広範な評価を行い,その結果から,Wukongが常に最先端のモデルよりも品質的に優れていることを示した。
さらに、内部の大規模データセット上でWukongのスケーラビリティを評価した。
その結果,Wukongは,100Gflopを超える2桁のスケール法則を保ちながら,先行技術が不足するGPT-3/LLaMa-2スケールのトレーニング計算に匹敵する,最先端モデルよりも品質が優れていることがわかった。 Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior arts fall short. | 翻訳日:2024-03-06 16:38:11 公開日:2024-03-04 |
# 深層学習による非コントラストカルシウムスコアリングct画像の冠動脈分画 Coronary artery segmentation in non-contrast calcium scoring CT images using deep learning ( http://arxiv.org/abs/2403.02544v1 ) ライセンス: Link先を確認 | Mariusz Bujny, Katarzyna Jesionek, Jakub Nalepa, Karol Miszalski-Jamka, Katarzyna Widawka-\.Zak, Sabina Wolny, Marcin Kostur | (参考訳) CT(CT)スキャンにおける冠動脈の正確な局在は,冠動脈疾患の医学的評価の観点から重要である。
心コントラスト造影CTでは,冠動脈の高品質な分画を行う方法がいろいろあるが,非造影CTの非侵襲性はいまだ十分に活用されていない。
このような微細な解剖学的構造はこの種の医用画像では目立たないため、既存の方法は高いリコールと低い精度で特徴付けられ、主にカルシウムスコアリングの文脈で動脈硬化性プラークの濾過に用いられる。
本稿では,本研究のギャップを解消し,多ベンダ心電図同期非コントラストct画像における冠動脈のセグメント化のための深層学習アルゴリズムを提案する。
我々は,提案するgt生成プロセスは,多種多様なデータを高速に生成できるため,手作業によるセグメンテーションよりもはるかに効率的であると仮定する。
このようなアプローチに基づいてセグメンテーションの品質を徹底的に評価するために,テストGTを作成するための手動メッシュ・ツー・イメージ登録手法を提案する。
実験結果から,トレーニングに使用するGTよりもトレーニングモデルの精度が有意に高く,相互変動に近いDiceとclDiceの測定値が得られた。 Precise localization of coronary arteries in Computed Tomography (CT) scans is critical from the perspective of medical assessment of coronary artery disease. Although various methods exist that offer high-quality segmentation of coronary arteries in cardiac contrast-enhanced CT scans, the potential of less invasive, non-contrast CT in this area is still not fully exploited. Since such fine anatomical structures are hardly visible in this type of medical images, the existing methods are characterized by high recall and low precision, and are used mainly for filtering of atherosclerotic plaques in the context of calcium scoring. In this paper, we address this research gap and introduce a deep learning algorithm for segmenting coronary arteries in multi-vendor ECG-gated non-contrast cardiac CT images which benefits from a novel framework for semi-automatic generation of Ground Truth (GT) via image registration. We hypothesize that the proposed GT generation process is much more efficient in this case than manual segmentation, since it allows for a fast generation of large volumes of diverse data, which leads to well-generalizing models. To investigate and thoroughly evaluate the segmentation quality based on such an approach, we propose a novel method for manual mesh-to-image registration, which is used to create our test-GT. The experimental study shows that the trained model has significantly higher accuracy than the GT used for training, and leads to the Dice and clDice metrics close to the interrater variability. | 翻訳日:2024-03-06 16:37:49 公開日:2024-03-04 |
# pdqma = dqma = nexp: 隠れ変数と非コラプス測定値を持つqma PDQMA = DQMA = NEXP: QMA With Hidden Variables and Non-collapsing Measurements ( http://arxiv.org/abs/2403.02543v1 ) ライセンス: Link先を確認 | Scott Aaronson, Sabee Grewal, Vishnu Iyer, Simon C. Marshall, Ronak Ramachandran | (参考訳) QMA(Quantum Merlin Arthur)の変種を定義し、アーサーは通常の崩壊測定に加えて、マーリンの証人状態に複数の非崩壊測定を行うことができる。
Aaronson, Bouland, Fitzsimons, Lee (2014) によって定義されるクラスPDQP に類似して、このクラスPDQMA と呼ぶ。
私たちの主な結果はPDQMA = NEXP であり、この結果は MIP = NEXP 定理に基づいており、PDQP/qpoly = ALL である Aaronson (2018) の結果を補完します。
量子力学とはほとんど関係がないが、より「量子的」な結果も示している:すなわち、隠れ変数の歴史全体を調べる能力を持つQMAは、隠れ変数理論の軽微な仮定の下でNEXPと等しい。
また、量子コンピュータは、量子アドバイスと隠れた変数の履歴を検査する能力によって、多項式時間で任意の決定問題を解くことができることも観察する。 We define and study a variant of QMA (Quantum Merlin Arthur) in which Arthur can make multiple non-collapsing measurements to Merlin's witness state, in addition to ordinary collapsing measurements. By analogy to the class PDQP defined by Aaronson, Bouland, Fitzsimons, and Lee (2014), we call this class PDQMA. Our main result is that PDQMA = NEXP; this result builds on the MIP = NEXP Theorem and complements the result of Aaronson (2018) that PDQP/qpoly = ALL. While the result has little to do with quantum mechanics, we also show a more "quantum" result: namely, that QMA with the ability to inspect the entire history of a hidden variable is equal to NEXP, under mild assumptions on the hidden-variable theory. We also observe that a quantum computer, augmented with quantum advice and the ability to inspect the history of a hidden variable, can solve any decision problem in polynomial time. | 翻訳日:2024-03-06 16:37:25 公開日:2024-03-04 |
# スピングラス型ニューラルネットワークにおける記憶の破壊と強化 Demolition and Reinforcement of Memories in Spin-Glass-like Neural Networks ( http://arxiv.org/abs/2403.02537v1 ) ライセンス: Link先を確認 | Enrico Ventura | (参考訳) 統計力学は生物神経系の研究に重要な貢献をしており、それらを相互接続された単位のリカレントネットワークと調整可能な相互作用としてモデル化している。
情報ストレージ(連想記憶)やデータ(生成モデリング)からの確率分布の学習などのネットワークタスクを可能にするために、ニューラルネットワークを最適化するアルゴリズムが提案されている。
これらの手法の中で、アンラーニングアルゴリズムは、ジョン・ホプフィールドと共同研究者によって導入されたシナプス可塑性の新たな理論と一致している。
この論文の主な目的は、連想記憶モデルと生成モデルの両方におけるアンラーニングの有効性を理解することである。
最初,Unlearningアルゴリズムを線形パーセプトロンモデルに単純化し,特定の内部相関を特徴とする雑音のある例から学習できることを実証した。
構造化トレーニングデータの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。
その後、ボルツマンマシンの新しい正規化手法が提示され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
unlearningルールは、この新しい正規化アルゴリズムから派生したもので、一般的なボルツマン・マシン・ラーニングと同等の性能であることが示されている。 Statistical mechanics has made significant contributions to the study of biological neural systems by modeling them as recurrent networks of interconnected units with adjustable interactions. Several algorithms have been proposed to optimize the neural connections to enable network tasks such as information storage (i.e. associative memory) and learning probability distributions from data (i.e. generative modeling). Among these methods, the Unlearning algorithm, aligned with emerging theories of synaptic plasticity, was introduced by John Hopfield and collaborators. The primary objective of this thesis is to understand the effectiveness of Unlearning in both associative memory models and generative models. Initially, we demonstrate that the Unlearning algorithm can be simplified to a linear perceptron model which learns from noisy examples featuring specific internal correlations. The selection of structured training data enables an associative memory model to retrieve concepts as attractors of a neural dynamics with considerable basins of attraction. Subsequently, a novel regularization technique for Boltzmann Machines is presented, proving to outperform previously developed methods in learning hidden probability distributions from data-sets. The Unlearning rule is derived from this new regularized algorithm and is showed to be comparable, in terms of inferential performance, to traditional Boltzmann-Machine learning. | 翻訳日:2024-03-06 16:37:01 公開日:2024-03-04 |
# 解釈型機械学習による太陽周期23・24のSEPイベント予測 Forecasting SEP Events During Solar Cycles 23 and 24 Using Interpretable Machine Learning ( http://arxiv.org/abs/2403.02536v1 ) ライセンス: Link先を確認 | Spiridon Kasapis, Irina N. Kitiashvili, Paul Kosovich, Alexander G. Kosovichev, Viacheslav M. Sadykov, Patrick O'Keefe, Vincent Wang | (参考訳) 太陽エネルギー粒子(SEP)の予測は、地球の磁気圏を超えて宇宙ミッションが広がるにつれて、関心が高まりつつある。
これらの事象は、ほとんどの場合、太陽フレアや高速コロナ質量放出衝撃波による磁気リコネクション駆動プロセスの産物であり、航空、宇宙電子、特に宇宙探査に重大な放射線障害をもたらす。
本研究では、最近開発されたSolar Dynamics Observatory/Helioseismic and Magnetic Imager's (SDO/HMI) Space weather HMI Active Region Patches (SHARP)とSolar and Heliospheric Observatory/Michelson Doppler Imager's (SoHO/MDI) Space Weather MDI Active Region Patches (SMARP)を組み合わせたデータセットを利用する。
我々は,SVM(Support Vector Machines)や回帰モデルなど,機械学習の一連の戦略を用いて,新しいデータプロダクトの予測可能性を評価する。
本研究では,データ量の増加にもかかわらず,予測精度が0.7+-0.1に達することを示唆する。
動作条件(正負の不均衡)を模倣したトレーニングおよびテスト構成を持つ線形SVMモデルは、従来の研究と比較して14時間SEP予測の精度でわずかに増加(+0.04+-0.05)する。
この結果は、SEPイベントにつながる基礎となるプロセスをよりよく理解するために、より洗練された物理インフォームドモデルの必要性を強調している。 Prediction of the Solar Energetic Particle (SEP) events garner increasing interest as space missions extend beyond Earth's protective magnetosphere. These events, which are, in most cases, products of magnetic reconnection-driven processes during solar flares or fast coronal-mass-ejection-driven shock waves, pose significant radiation hazards to aviation, space-based electronics, and particularly, space exploration. In this work, we utilize the recently developed dataset that combines the Solar Dynamics Observatory/Helioseismic and Magnetic Imager's (SDO/HMI) Space weather HMI Active Region Patches (SHARP) and the Solar and Heliospheric Observatory/Michelson Doppler Imager's (SoHO/MDI) Space Weather MDI Active Region Patches (SMARP). We employ a suite of machine learning strategies, including Support Vector Machines (SVM) and regression models, to evaluate the predictive potential of this new data product for a forecast of post-solar flare SEP events. Our study indicates that despite the augmented volume of data, the prediction accuracy reaches 0.7 +- 0.1, which aligns with but does not exceed these published benchmarks. A linear SVM model with training and testing configurations that mimic an operational setting (positive-negative imbalance) reveals a slight increase (+ 0.04 +- 0.05) in the accuracy of a 14-hour SEP forecast compared to previous studies. This outcome emphasizes the imperative for more sophisticated, physics-informed models to better understand the underlying processes leading to SEP events. | 翻訳日:2024-03-06 16:36:42 公開日:2024-03-04 |
# 基本時系列モデルに向けて: 合成するか、合成しないか? Towards Foundation Time Series Model: To Synthesize Or Not To Synthesize? ( http://arxiv.org/abs/2403.02534v1 ) ライセンス: Link先を確認 | Kseniia Kuvshinova, Olga Tsymboi, Alina Kostromina, Dmitry Simakov, Elizaveta Kovtun | (参考訳) 業界は、大量の時系列の予測を一度に行う必要がある場合に豊富です。
しかし、私たちはそれぞれに別々のモデルをトレーニングする余裕がない状況にあるかもしれません。
時系列モデリングにおけるこのような問題は、注意を払わずに残っている。
この設定に対する救済策は、基礎モデルの確立である。
このようなモデルはゼロショットと少数ショットのレギュレーションで機能することが期待されている。
しかし、そのようなモデルのトレーニングデータセットとしてどう考えるべきか?
人工的に生成されたデータによるNLPデータセットの強化によるメリットを考慮すれば、彼らの経験を時系列に取り入れたいと思っています。
自然言語とは対照的に、合成時系列データの生成プロセスは、時系列パターン、時間軸、サンプル数を完全に制御できるため、さらに有利である。
本研究は,合成データに基づく基礎モデルの学習に有利であるか,限られた実生活事例のみを利用する方がよいか,という重要な問題について考察する。
我々の実験は定期的な時系列でのみ行われ、リアルタイムの時系列のみを活用することに賛成した。
さらに、適切なソースデータセットの選択は、推論中のパフォーマンスに大きく影響します。
限られた短時間の時系列データにもアクセスできるようにすると、教師付きフレームワーク内で利用することで、より大量の合成データのトレーニングよりも好ましい結果が得られる。
実験のコードはGithub \url{https://github.com/sb-ai-lab/synthesize_or_not}で公開されている。 The industry is rich in cases when we are required to make forecasting for large amounts of time series at once. However, we might be in a situation where we can not afford to train a separate model for each of them. Such issue in time series modeling remains without due attention. The remedy for this setting is the establishment of a foundation model. Such a model is expected to work in zero-shot and few-shot regimes. However, what should we take as a training dataset for such kind of model? Witnessing the benefits from the enrichment of NLP datasets with artificially-generated data, we might want to adopt their experience for time series. In contrast to natural language, the process of generation of synthetic time series data is even more favorable because it provides full control of series patterns, time horizons, and number of samples. In this work, we consider the essential question if it is advantageous to train a foundation model on synthetic data or it is better to utilize only a limited number of real-life examples. Our experiments are conducted only for regular time series and speak in favor of leveraging solely the real time series. Moreover, the choice of the proper source dataset strongly influences the performance during inference. When provided access even to a limited quantity of short time series data, employing it within a supervised framework yields more favorable results than training on a larger volume of synthetic data. The code for our experiments is publicly available on Github \url{https://github.com/sb-ai-lab/synthesize_or_not}. | 翻訳日:2024-03-06 16:36:11 公開日:2024-03-04 |
# 非折り畳み測定による重ね合わせ検出とQMA Superposition detection and QMA with non-collapsing measurements ( http://arxiv.org/abs/2403.02532v1 ) ライセンス: Link先を確認 | Roozbeh Bassirian, Kunal Marwaha | (参考訳) 検証器が1つの非折り畳み測定を行うことができるQMAがNEXPに等しいことを証明し、Aaronson の開問題を解決する。
これは qma+ = nexp [arxiv:2306.13247] の修正証明の補遺である。
blier と tapp [arxiv:0709.0738] に触発された多くの結果の核心は、量子状態が固定基底の元に近いかどうかを決定する非物理的性質試験問題である。 We prove that QMA where the verifier may also make a single non-collapsing measurement is equal to NEXP, resolving an open question of Aaronson. We show this is a corollary to a modified proof of QMA+ = NEXP [arXiv:2306.13247]. At the core of many results inspired by Blier and Tapp [arXiv:0709.0738] is an unphysical property testing problem deciding whether a quantum state is close to an element of a fixed basis. | 翻訳日:2024-03-06 16:35:51 公開日:2024-03-04 |
# 深層クラスタリングネットワークの高度化に向けて Towards Calibrated Deep Clustering Network ( http://arxiv.org/abs/2403.02998v1 ) ライセンス: Link先を確認 | Yuheng Jia, Jianhong Cheng, Hui Liu, Junhui Hou | (参考訳) 深層クラスタリングは目覚ましい性能を示したが、特定のクラスタに属するサンプルの信頼度が実際の予測精度を大きく上回っているというオーバー信頼の問題が、以前の研究で見過ごされてきた。
この重要な問題に対処するため、我々はキャリブレーションされたディープクラスタリングフレームワークの開発を開拓した。
具体的には、推定された信頼度と実際の精度を効果的に調整できる新しいデュアルヘッドディープクラスタリングパイプラインを提案する。
キャリブレーションヘッドは、正規化手法を用いてクラスタリングヘッドの過信予測を調整し、モデル学習状態と一致する予測信頼度と擬似ラベルを生成する。
このキャリブレーションプロセスは、トレーニングのために信頼性の高い高信頼サンプルを動的に選択するクラスタリングヘッドをガイドする。
さらに,トレーニング速度とネットワーク堅牢性を両立させる効果的なネットワーク初期化戦略を導入する。
広範な実験により,提案手法が最先端のディープクラスタリング法を約10倍上回るだけでなく,クラスタリング精度の面でも大幅に上回ることを示した。 Deep clustering has exhibited remarkable performance; however, the overconfidence problem, i.e., the estimated confidence for a sample belonging to a particular cluster greatly exceeds its actual prediction accuracy, has been overlooked in prior research. To tackle this critical issue, we pioneer the development of a calibrated deep clustering framework. Specifically, we propose a novel dual-head deep clustering pipeline that can effectively calibrate the estimated confidence and the actual accuracy. The calibration head adjusts the overconfident predictions of the clustering head using regularization methods, generating prediction confidence and pseudo-labels that match the model learning status. This calibration process also guides the clustering head in dynamically selecting reliable high-confidence samples for training. Additionally, we introduce an effective network initialization strategy that enhances both training speed and network robustness. Extensive experiments demonstrate the proposed calibrated deep clustering framework not only surpasses state-of-the-art deep clustering methods by approximately 10 times in terms of expected calibration error but also significantly outperforms them in terms of clustering accuracy. | 翻訳日:2024-03-06 14:28:18 公開日:2024-03-04 |
# 長文エンコーダを用いたルーマニアの法的判断予測の改善 Improving Legal Judgement Prediction in Romanian with Long Text Encoders ( http://arxiv.org/abs/2402.19170v2 ) ライセンス: Link先を確認 | Mihai Masala, Traian Rebedea and Horia Velicu | (参考訳) 近年、自然言語処理(nlp)の分野全体が、様々なタスクでほぼ人間的なパフォーマンスを達成する素晴らしい新しい成果を享受している。
合法的なnlpドメインもこのプロセスの一部であり、印象的な成長を遂げている。
しかし、汎用モデルは法域では容易には適用できない。
ドメインの性質(例えば、専門用語、長い文書)のため、法的なNLPには特定のモデルや方法がしばしば必要である。
本研究は,LJP(Lawal Judgment Prediction)と呼ばれる,訴訟の最終判決を予測するための専門モデルと一般モデルの両方について検討する。
我々は特に,トランスフォーマーモデルからシーケンス長まで拡張する手法に注目し,法的なコーパスに存在する長い文書をよりよく理解する。
ルーマニアの4つのLJPデータセットに関する大規模な実験は、かなり異なるサイズと文書長を持つ2つの情報源から生まれたものであり、特殊なモデルと長文を扱うことが優れたパフォーマンスに不可欠であることを示している。 In recent years,the entire field of Natural Language Processing (NLP) has enjoyed amazing novel results achieving almost human-like performance on a variety of tasks. Legal NLP domain has also been part of this process, as it has seen an impressive growth. However, general-purpose models are not readily applicable for legal domain. Due to the nature of the domain (e.g. specialized vocabulary, long documents) specific models and methods are often needed for Legal NLP. In this work we investigate both specialized and general models for predicting the final ruling of a legal case, task known as Legal Judgment Prediction (LJP). We particularly focus on methods to extend to sequence length of Transformer-based models to better understand the long documents present in legal corpora. Extensive experiments on 4 LJP datasets in Romanian, originating from 2 sources with significantly different sizes and document lengths, show that specialized models and handling long texts are critical for a good performance. | 翻訳日:2024-03-06 11:47:05 公開日:2024-03-04 |
# 分類学的品質特性の補遺と評価 A compendium and evaluation of taxonomy quality attributes ( http://arxiv.org/abs/2403.00111v2 ) ライセンス: Link先を確認 | Michael Unterkalmsteiner, Waleed Abdeen | (参考訳) 序論:分類学は特定の領域に関する知識を簡潔に捉え、仲間間で共通の理解を確立する。
研究者は分類学を使って特定の知識領域に関する情報を伝達したり、自動化タスクをサポートする。
Aims: ソフトウェアエンジニアリングにおける分類学の役割にもかかわらず、その品質はめったに評価されません。
本研究の目的は,実用的指標を提供する分類学的品質属性を特定し,定義することであり,研究者や実践者が分類法を比較し,そのタスクに最も適した属性を選択することを支援する。
方法: ソフトウェア工学および情報システム研究から324の論文をレビューし, 提供時に品質特性と測定値の定義を合成した。
3つの領域の6つの分類群に対する測定の有用性を検討した。
結果:7つの品質属性の定義を提案し,分類の質を評価するために用いられる内部および外部の測定法を提案する。
2つの測定値に対して、Pythonの実装を提供します。
この測定は,特定の目的に最適な分類基準を決定するのに有用であることがわかった。
結論:分類学を作成するためのガイドラインはいくつかあるが、分類学を比較するための実用的な基準が欠如している。
本稿では,このギャップを埋めるために,文献の豊富な7種,重複しない分類の質特性と対応する測定値から合成する。
今後の研究は、有用性と実証的検証のさらなる評価を含む。 Introduction: Taxonomies capture knowledge about a particular domain in a succinct manner and establish a common understanding among peers. Researchers use taxonomies to convey information about a particular knowledge area or to support automation tasks, and practitioners use them to enable communication beyond organizational boundaries. Aims: Despite this important role of taxonomies in software engineering, their quality is seldom evaluated. Our aim is to identify and define taxonomy quality attributes that provide practical measurements, helping researchers and practitioners to compare taxonomies and choose the one most adequate for the task at hand. Methods: We reviewed 324 publications from software engineering and information systems research and synthesized, when provided, the definitions of quality attributes and measurements. We evaluated the usefulness of the measurements on six taxonomies from three domains. Results: We propose the definition of seven quality attributes and suggest internal and external measurements that can be used to assess a taxonomy's quality. For two measurements we provide implementations in Python. We found the measurements useful for deciding which taxonomy is best suited for a particular purpose. Conclusion: While there exist several guidelines for creating taxonomies, there is a lack of actionable criteria to compare taxonomies. In this paper, we fill this gap by synthesizing from a wealth of literature seven, non-overlapping taxonomy quality attributes and corresponding measurements. Future work encompasses their further evaluation of usefulness and empirical validation. | 翻訳日:2024-03-06 11:25:40 公開日:2024-03-04 |
# 読解プロセスに基づくマルチホップ質問応答のための明示的・暗黙的知識の提案 Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process ( http://arxiv.org/abs/2402.19350v3 ) ライセンス: Link先を確認 | Guangming Huang, Yunfei Long, Cunjin Luo, Jiaxing Shen, Xia Sun | (参考訳) 事前学習された言語モデル(PLM)は、チェーン・オブ・シント(CoT)を利用して人間の推論と推論プロセスをシミュレートし、マルチホップQAにおける熟練した性能を達成する。
しかし、plmの推論能力と複雑な問題に取り組む人間の能力との間にはギャップが残っている。
心理学的研究は、通過中の明示的な情報と読書中の人間の事前知識の間に重要なつながりがあることを示唆している。
しかしながら、現在の研究は、人間の認知研究の観点から、入力パスとPLMの事前学習に基づく知識のリンクに十分な注意を払っている。
本研究では,明示的および暗黙的知識をプロンプトで接続し,マルチホップqaのためのヒューマンリーディングプロセスと協調する,promping explicit and implicit knowledge(pei)フレームワークを提案する。
我々は、入力文を明示的な知識とみなし、統一的な素早い推論を通して暗黙的な知識を引き出す。
さらに,本モデルでは,暗黙的知識の形式であるプロンプトによる型固有の推論を取り入れている。
実験の結果,PEIはHotpotQAの最先端と同等に動作することがわかった。
アブレーション研究は, 明示的および暗黙的知識の統合と橋渡しにおけるモデルの有効性を確認した。 Pre-trained language models (PLMs) leverage chains-of-thought (CoT) to simulate human reasoning and inference processes, achieving proficient performance in multi-hop QA. However, a gap persists between PLMs' reasoning abilities and those of humans when tackling complex problems. Psychological studies suggest a vital connection between explicit information in passages and human prior knowledge during reading. Nevertheless, current research has given insufficient attention to linking input passages and PLMs' pre-training-based knowledge from the perspective of human cognition studies. In this study, we introduce a Prompting Explicit and Implicit knowledge (PEI) framework, which uses prompts to connect explicit and implicit knowledge, aligning with human reading process for multi-hop QA. We consider the input passages as explicit knowledge, employing them to elicit implicit knowledge through unified prompt reasoning. Furthermore, our model incorporates type-specific reasoning via prompts, a form of implicit knowledge. Experimental results show that PEI performs comparably to the state-of-the-art on HotpotQA. Ablation studies confirm the efficacy of our model in bridging and integrating explicit and implicit knowledge. | 翻訳日:2024-03-06 11:24:57 公開日:2024-03-04 |
# OpenMEDLab: 医療における多要素モデルのためのオープンソースプラットフォーム OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models in Medicine ( http://arxiv.org/abs/2402.18028v2 ) ライセンス: Link先を確認 | Xiaosong Wang and Xiaofan Zhang and Guotai Wang and Junjun He and Zhongyu Li and Wentao Zhu and Yi Guo and Qi Dou and Xiaoxiao Li and Dequan Wang and Liang Hong and Qicheng Lao and Tong Ruan and Yukun Zhou and Yixue Li and Jie Zhao and Kang Li and Xin Sun and Lifeng Zhu and Shaoting Zhang | (参考訳) GPTv4やGeminiといった汎用人工知能の進歩するトレンドは、機械学習やその他の多くの研究分野における研究(学界と産業)の風景を変えつつある。
しかし、そのような基礎モデル(例えば医学)のドメイン固有の応用は、まだ触れられていないか、しばしばごく初期段階にある。
ドメイン知識とデータでこれらのモデルをさらに拡張し、注入することで、トランスファー学習とモデル適応のテクニックを個別にセットする必要があります。
このような技術の開発は、データ、アルゴリズム、事前訓練された基礎モデルのバンドルがまとめられ、組織化された方法でオープンソースになれば、大幅に加速できる。
本稿では,マルチモダリティ基盤モデルのオープンソースプラットフォームであるOpenMEDLabを紹介する。
最前線臨床およびバイオインフォマティクス応用のための大規模言語とビジョンモデルを促進、微調整する先駆的な試みの解決策をカプセル化するとともに、大規模マルチモーダル医療データを用いたドメイン固有の基礎モデルを構築する。
重要なのは、さまざまな医療画像のモダリティ、臨床テキスト、タンパク質工学などのための、事前訓練された基礎モデルへのアクセスだ。
また、ダウンストリームタスクのさまざまなベンチマークにおいて、収集された各アプローチとモデルに対して、刺激的かつ競争的な結果が示される。
私たちは医学的人工知能分野の研究者を歓迎し、最先端の方法やモデルをopenmedlabに継続的に提供し、https://github.com/openmedlab.comからアクセスできるようにします。 The emerging trend of advancing generalist artificial intelligence, such as GPTv4 and Gemini, has reshaped the landscape of research (academia and industry) in machine learning and many other research areas. However, domain-specific applications of such foundation models (e.g., in medicine) remain untouched or often at their very early stages. It will require an individual set of transfer learning and model adaptation techniques by further expanding and injecting these models with domain knowledge and data. The development of such technologies could be largely accelerated if the bundle of data, algorithms, and pre-trained foundation models were gathered together and open-sourced in an organized manner. In this work, we present OpenMEDLab, an open-source platform for multi-modality foundation models. It encapsulates not only solutions of pioneering attempts in prompting and fine-tuning large language and vision models for frontline clinical and bioinformatic applications but also building domain-specific foundation models with large-scale multi-modal medical data. Importantly, it opens access to a group of pre-trained foundation models for various medical image modalities, clinical text, protein engineering, etc. Inspiring and competitive results are also demonstrated for each collected approach and model in a variety of benchmarks for downstream tasks. We welcome researchers in the field of medical artificial intelligence to continuously contribute cutting-edge methods and models to OpenMEDLab, which can be accessed via https://github.com/openmedlab. | 翻訳日:2024-03-06 01:05:23 公開日:2024-03-04 |
# RePrune:カーネル代表選考によるチャンネルのプルーニング REPrune: Channel Pruning via Kernel Representative Selection ( http://arxiv.org/abs/2402.17862v2 ) ライセンス: Link先を確認 | Mincheol Park, Dongjin Kim, Cheonjun Park, Yuna Park, Gyeong Eun Gong, Won Woo Ro, Suhyun Kim | (参考訳) チャネルプルーニングは現代の畳み込みニューラルネットワーク(cnns)を加速するために広く受け入れられている。
結果として得られたprunedモデルは、汎用ソフトウェアとハードウェアリソースへの即時デプロイから恩恵を受ける。
しかし、特に畳み込みフィルタの単位において、その大きな粉砕粒度は、cnnにスパース性を導入する方法や場所を決定する柔軟性がないため、望ましくない精度低下に繋がることが多い。
本稿では,カーネルプルーニングをエミュレートする新しいチャネルプルーニング手法であるREPruneを提案する。
repruneは凝集クラスタリングを使用して各チャネル内の類似のカーネルを識別する。
そして、最大クラスタカバレッジ問題を最適化しつつ、カーネル代表者の取り込みを最大化するフィルタを選択する。
同時にトレーニング・プルーニングのパラダイムを統合することで、REPruneはCNNのトレーニング全体を通じて効率的でプログレッシブなプルーニングを促進する。
実験結果から、REPruneは既存の手法よりもコンピュータビジョンタスクにおいて優れており、加速比と性能保持のバランスを効果的に達成できることがわかった。 Channel pruning is widely accepted to accelerate modern convolutional neural networks (CNNs). The resulting pruned model benefits from its immediate deployment on general-purpose software and hardware resources. However, its large pruning granularity, specifically at the unit of a convolution filter, often leads to undesirable accuracy drops due to the inflexibility of deciding how and where to introduce sparsity to the CNNs. In this paper, we propose REPrune, a novel channel pruning technique that emulates kernel pruning, fully exploiting the finer but structured granularity. REPrune identifies similar kernels within each channel using agglomerative clustering. Then, it selects filters that maximize the incorporation of kernel representatives while optimizing the maximum cluster coverage problem. By integrating with a simultaneous training-pruning paradigm, REPrune promotes efficient, progressive pruning throughout training CNNs, avoiding the conventional train-prune-finetune sequence. Experimental results highlight that REPrune performs better in computer vision tasks than existing methods, effectively achieving a balance between acceleration ratio and performance retention. | 翻訳日:2024-03-05 23:27:23 公開日:2024-03-04 |
# 線形時間変圧器の潜時注意 Latent Attention for Linear Time Transformers ( http://arxiv.org/abs/2402.17512v2 ) ライセンス: Link先を確認 | Rares Dolga, Marius Cobzarenco, David Barber | (参考訳) 変圧器の標準注意機構の時間的複雑さは、シーケンスの長さと二次的にスケールする。
遅延ベクトルによる注目度の定義に基づいて,これを時間とともに線形スケーリングに還元する手法を提案する。
この方法は、標準注意機構のドロップイン代替として容易に使用できる。
我々の"Latte Transformer"モデルは、双方向タスクと一方向タスクの両方に実装でき、因果バージョンは、言語生成タスクの推論中にメモリと時間効率の反復的な実装を可能にする。
次のトークン予測は標準変圧器のシーケンス長と線形にスケールするが、ラテ変圧器は次のトークンを計算するのに一定時間を要する。
提案手法の実証的性能は標準的な注意に匹敵するが,実用性よりもはるかに大きなコンテキストウインドウのスケーリングが可能となる。 The time complexity of the standard attention mechanism in a transformer scales quadratically with the length of the sequence. We introduce a method to reduce this to linear scaling with time, based on defining attention via latent vectors. The method is readily usable as a drop-in replacement for the standard attention mechanism. Our "Latte Transformer" model can be implemented for both bidirectional and unidirectional tasks, with the causal version allowing a recurrent implementation which is memory and time-efficient during inference of language generation tasks. Whilst next token prediction scales linearly with the sequence length for a standard transformer, a Latte Transformer requires constant time to compute the next token. The empirical performance of our method is comparable to standard attention, yet allows scaling to context windows much larger than practical in standard attention. | 翻訳日:2024-03-05 23:26:28 公開日:2024-03-04 |
# 未知領域検出におけるLCMの性能調査 Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent Detection ( http://arxiv.org/abs/2402.17256v2 ) ライセンス: Link先を確認 | Pei Wang, Keqing He, Yejie Wang, Xiaoshuai Song, Yutao Mou, Jingang Wang, Yunsen Xian, Xunliang Cai, Weiran Xu | (参考訳) Out-of-domain(OOD)インテント検出は、ユーザのクエリが、タスク指向対話(TOD)システムの適切な機能に欠かせない、システムの事前定義されたドメイン外にあるかどうかを調べることを目的としている。
従来の方法は、識別モデルの微調整によってそれに対処する。
近年,ChatGPT で表される大規模言語モデル (LLM) を様々な下流タスクに適用する研究が行われているが,OOD 検出タスクの能力についてはまだ不明であり,様々な実験環境下で LLM の総合評価を行い,その強みと弱点を概説する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば不利である。
より深く、一連の追加分析実験を通じて、LLMが直面する課題を議論、要約し、ドメイン知識の注入、IND(In- domain)からOODへの知識伝達の強化、ロングインストラクションの理解など、今後の研究の指針を提供する。 Out-of-domain (OOD) intent detection aims to examine whether the user's query falls outside the predefined domain of the system, which is crucial for the proper functioning of task-oriented dialogue (TOD) systems. Previous methods address it by fine-tuning discriminative models. Recently, some studies have been exploring the application of large language models (LLMs) represented by ChatGPT to various downstream tasks, but it is still unclear for their ability on OOD detection task.This paper conducts a comprehensive evaluation of LLMs under various experimental settings, and then outline the strengths and weaknesses of LLMs. We find that LLMs exhibit strong zero-shot and few-shot capabilities, but is still at a disadvantage compared to models fine-tuned with full resource. More deeply, through a series of additional analysis experiments, we discuss and summarize the challenges faced by LLMs and provide guidance for future work including injecting domain knowledge, strengthening knowledge transfer from IND(In-domain) to OOD, and understanding long instructions. | 翻訳日:2024-03-05 23:26:15 公開日:2024-03-04 |
# llmの(非倫理的な)命令中心の反応はどのようなものか?
safe guardrailsの脆弱性を有害なクエリに公開 How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries ( http://arxiv.org/abs/2402.15302v3 ) ライセンス: Link先を確認 | Somnath Banerjee, Sayan Layek, Rima Hazra, Animesh Mukherjee | (参考訳) 本研究では,大規模言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。
その可能性にもかかわらず、これらのモデルは「ジェイルブレイク」技術や標的操作を含む様々な洗練された方法によって有害または非倫理的なコンテンツを生み出すように騙すことができる。
我々の研究は、特定の問題についてゼロにしている: どの程度まで LLM は、バニラテキストではなく、擬似コード、プログラムまたはソフトウェアスニペットのような命令中心の応答を生成することで、アストレイを導くことができるか。
そこで本研究では、テキストと命令中心の形式(擬似コードなど)の両方で答えるべき複雑なクエリを含むデータセットであるTechHazardQAを紹介し、非倫理的応答のトリガを特定することを目的とした。
LLM - Llama-2-13b, Llama-2-7b, Mistral-V2, Mistral 8X7B - をクエリして,テキストと命令中心の応答を生成する。
評価のために,GPT-4およびヒトの有害度測定値と判定値について報告する。
全体として、LLMに命令中心の応答を要求すれば、モデル全体で約2~38%の非倫理的応答が生成される。
さらに, ROME技術を用いたモデル編集の影響について検討し, 好ましくないコンテンツを生成するための妥当性をさらに高めている。
特に、編集されたLSMに命令中心の応答を生成するよう要求すると、異なるモデル間で、非倫理的な応答生成が3-16%増加する。 In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including 'jailbreaking' techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs -- Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B -- and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models. | 翻訳日:2024-03-05 23:25:53 公開日:2024-03-04 |
# ウェーブレットによる交通予測のためのマルチスケールグラフ畳み込みリカレントネットワーク Wavelet-Inspired Multiscale Graph Convolutional Recurrent Network for Traffic Forecasting ( http://arxiv.org/abs/2401.06040v3 ) ライセンス: Link先を確認 | Qipeng Qian, Tanwi Mallick | (参考訳) 交通予測はインテリジェントな交通システムの基盤である。
時空間グラフニューラルネットワークは、交通予測における最先端の性能を示している。
しかしながら、これらの手法は、粒度やスケールの異なるレベルでの空間的および時間的変化を包含するマルチスケール構造など、交通データにおける自然特性のいくつかを明示的にモデル化していない。
そこで我々は,マルチスケール解析(MSA)法と深層学習(DL)法を組み合わせたWavelet-Inspired Graph Convolutional Recurrent Network (WavGCRN)を提案する。
WavGCRNでは、トラフィックデータを離散ウェーブレット変換(DWT)で時間周波数成分に分解し、マルチストリーム入力構造を構築し、次にグラフ畳み込みリカレントネットワーク(GCRN)を各ストリームのエンコーダとして使用し、異なるスケールの時空間的特徴を抽出し、最終的に学習可能な逆DWTとGCRNをデコーダとして結合し、トラフィックメトリクスの再構成と予測のために全てのストリームから情報を融合する。
さらに,道路網のインフォームドグラフとデータ駆動グラフ学習を組み合わせて空間相関を正確に捉える。
提案手法は,現実のトラフィックデータセット上での解釈可能性,強力な学習能力,および競合予測性能を提供する。 Traffic forecasting is the foundation for intelligent transportation systems. Spatiotemporal graph neural networks have demonstrated state-of-the-art performance in traffic forecasting. However, these methods do not explicitly model some of the natural characteristics in traffic data, such as the multiscale structure that encompasses spatial and temporal variations at different levels of granularity or scale. To that end, we propose a Wavelet-Inspired Graph Convolutional Recurrent Network (WavGCRN) which combines multiscale analysis (MSA)-based method with Deep Learning (DL)-based method. In WavGCRN, the traffic data is decomposed into time-frequency components with Discrete Wavelet Transformation (DWT), constructing a multi-stream input structure; then Graph Convolutional Recurrent networks (GCRNs) are employed as encoders for each stream, extracting spatiotemporal features in different scales; and finally the learnable Inversed DWT and GCRN are combined as the decoder, fusing the information from all streams for traffic metrics reconstruction and prediction. Furthermore, road-network-informed graphs and data-driven graph learning are combined to accurately capture spatial correlation. The proposed method can offer well-defined interpretability, powerful learning capability, and competitive forecasting performance on real-world traffic data sets. | 翻訳日:2024-03-05 23:25:08 公開日:2024-03-04 |
# ステレオカメラオンライン自己診断のための修正ホモグラフィについて Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration ( http://arxiv.org/abs/2309.10314v4 ) ライセンス: Link先を確認 | Hongbo Zhao, Yikang Zhang, Qijun Chen, Rui Fan | (参考訳) ステレオカメラの外部パラメータの正確な推定がステレオマッチングアルゴリズムの性能を保証する鍵となる。
先行技術では、ステレオカメラのオンライン自己校正は、ステレオ整流の原理を考慮せずに、特殊な視覚オドメトリー問題として定式化されている。
本稿では,1対のイメージしか利用できない場合において,新しいステレオカメラオンライン自己校正アルゴリズムの開発の基礎となる,ホモグラフィの整流化という概念を初めて深く掘り下げた。
さらに,ステレオ映像列の存在下でのグローバル最適extrinsicパラメータ推定のための簡易かつ効果的な解法を提案する。
さらに,3つのオイラー角と3つの変換ベクトルを用いた性能定量化の非現実性を強調した。
そこで本研究では,外因性パラメータ推定のロバスト性と精度を定量化する4つの新しい評価指標を提案する。
提案手法の有効性を検証するため,各種実験装置を用いた室内および屋外の広範囲な実験を行った。
総合評価結果は,ベースラインアルゴリズムと比較して優れた性能を示した。
ソースコード、デモビデオ、サプリメントはmias.group/stereocalibratorで公開されている。 Accurate estimation of stereo camera extrinsic parameters is the key to guarantee the performance of stereo matching algorithms. In prior arts, the online self-calibration of stereo cameras has commonly been formulated as a specialized visual odometry problem, without taking into account the principles of stereo rectification. In this paper, we first delve deeply into the concept of rectifying homography, which serves as the cornerstone for the development of our novel stereo camera online self-calibration algorithm, for cases where only a single pair of images is available. Furthermore, we introduce a simple yet effective solution for global optimum extrinsic parameter estimation in the presence of stereo video sequences. Additionally, we emphasize the impracticality of using three Euler angles and three components in the translation vectors for performance quantification. Instead, we introduce four new evaluation metrics to quantify the robustness and accuracy of extrinsic parameter estimation, applicable to both single-pair and multi-pair cases. Extensive experiments conducted across indoor and outdoor environments using various experimental setups validate the effectiveness of our proposed algorithm. The comprehensive evaluation results demonstrate its superior performance in comparison to the baseline algorithm. Our source code, demo video, and supplement are publicly available at mias.group/StereoCalibrator. | 翻訳日:2024-03-05 23:24:11 公開日:2024-03-04 |
# 対応のないオンラインヒューマンモーションリターゲティング Correspondence-free online human motion retargeting ( http://arxiv.org/abs/2302.00556v3 ) ライセンス: Link先を確認 | Rim Rekik, Mathieu Marsot, Anne-H\'el\`ene Olivier, Jean-S\'ebastien Franco and Stefanie Wuhrer | (参考訳) 本稿では,対象対象者の運動を模倣する教師なしヒューマンモーションリターゲティングのためのデータ駆動フレームワークを提案する。
本手法では,ソースとターゲット形状の空間的対応や,ソースの異なるフレーム間の時間的対応は不要である。
これにより、移動中の人間の任意のシーケンスでターゲットの形状をアニメーション化することができ、おそらくは4d取得プラットフォームやコンシューマデバイスでキャプチャされる。
本手法は, 長期的時間的文脈を生かした骨格運動再ターゲティングと, 表面情報を保存する表面的再ターゲティングという2つの既存の作業ラインの利点を, 幾何学的変形モデルと骨格的動き伝達アプローチを組み合わせることで統合する。
これにより、表面的な詳細を考慮しながら、長期の時間的文脈を考慮に入れられる。
推論中、このメソッドはオンラインで実行され、つまり、入力は連続的に処理され、再ターゲティングはフレーム毎に1回のフォワードパスで実行される。
トレーニング中の長期の時間的文脈を含む実験は、骨格運動と詳細保存の精度を向上することを示した。
さらに, 非観察運動や身体形状に一般化する。
本手法は,2つのテストデータセットで最先端の結果を得ることができ,マルチビュー取得プラットフォームの出力で人間のモデルをアニメーション化できることを示す。
コードは \url{https://gitlab.inria.fr/rrekikdi/human-motion-retargeting2023} で利用可能である。 We present a data-driven framework for unsupervised human motion retargeting that animates a target subject with the motion of a source subject. Our method is correspondence-free, requiring neither spatial correspondences between the source and target shapes nor temporal correspondences between different frames of the source motion. This allows to animate a target shape with arbitrary sequences of humans in motion, possibly captured using 4D acquisition platforms or consumer devices. Our method unifies the advantages of two existing lines of work, namely skeletal motion retargeting, which leverages long-term temporal context, and surface-based retargeting, which preserves surface details, by combining a geometry-aware deformation model with a skeleton-aware motion transfer approach. This allows to take into account long-term temporal context while accounting for surface details. During inference, our method runs online, i.e. input can be processed in a serial way, and retargeting is performed in a single forward pass per frame. Experiments show that including long-term temporal context during training improves the method's accuracy for skeletal motion and detail preservation. Furthermore, our method generalizes to unobserved motions and body shapes. We demonstrate that our method achieves state-of-the-art results on two test datasets and that it can be used to animate human models with the output of a multi-view acquisition platform. Code is available at \url{https://gitlab.inria.fr/rrekikdi/human-motion-retargeting2023}. | 翻訳日:2024-03-05 23:23:52 公開日:2024-03-04 |
# 変分高速フォワードによる変分位相推定 Variational Phase Estimation with Variational Fast Forwarding ( http://arxiv.org/abs/2211.16097v3 ) ライセンス: Link先を確認 | Maria-Andreea Filip, David Mu\~noz Ramo, and Nathan Fitzpatrick | (参考訳) サブスペース対角化法は、量子コンピュータによって効率よく得られる小さな行列を古典的に対角化することによって、基底状態や分子ハミルトニアンの励起状態にアクセスするための有望な手段として最近出現している。
最近提案された変分量子位相推定(VQPE)アルゴリズムは実時間進化状態の基底を使い、エネルギー固有値は単位行列 U = exp(-iHt) から直接得ることができる。
本稿では、任意の分子系に対する回路ベースのVQPEの実装を報告し、H2, H3+, H6分子の性能とコストを評価する。
また、変分高速フォワード(VFF)を用いて、VQPEで使用する時間進化回路の量子深さを減少させる。
実時間発展状態への忠実度が低い場合でも、近似はハミルトニアン対角化のよい基礎となることを示す。
高忠実度の場合、近似ユニタリUは正確なVQPEの線形コストを保ち、代わりに対角化可能であることを示す。 Subspace diagonalisation methods have appeared recently as promising means to access the ground state and some excited states of molecular Hamiltonians by classically diagonalising small matrices, whose elements can be efficiently obtained by a quantum computer. The recently proposed Variational Quantum Phase Estimation (VQPE) algorithm uses a basis of real time-evolved states, for which the energy eigenvalues can be obtained directly from the unitary matrix U = exp(-iHt), which can be computed with cost linear in the number of states used. In this paper, we report a circuit-based implementation of VQPE for arbitrary molecular systems and assess its performance and costs for the H2, H3+ and H6 molecules. We also propose using Variational Fast Forwarding (VFF) to decrease to quantum depth of time-evolution circuits for use in VQPE. We show that the approximation provides a good basis for Hamiltonian diagonalisation even when its fidelity to the true time evolved states is low. In the high fidelity case, we show that the approximate unitary U can be diagonalised instead, preserving the linear cost of exact VQPE. | 翻訳日:2024-03-05 23:23:28 公開日:2024-03-04 |
# Data Interpreter: データサイエンスのためのLLMエージェント Data Interpreter: An LLM Agent For Data Science ( http://arxiv.org/abs/2402.18679v2 ) ライセンス: Link先を確認 | Sirui Hong, Yizhang Lin, Bangbang Liu, Binhao Wu, Danyang Li, Jiaqi Chen, Jiayi Zhang, Jinlin Wang, Lingyao Zhang, Mingchen Zhuge, Taicheng Guo, Tuo Zhou, Wei Tao, Wenyi Wang, Xiangru Tang, Xiangtao Lu, Xinbing Liang, Yaying Fei, Yuheng Cheng, Zongze Xu, Chenglin Wu, Li Zhang, Min Yang, Xiawu Zheng | (参考訳) 大規模言語モデル(LLM)に基づくエージェントは顕著な効果を示した。
しかし、それらのパフォーマンスは、リアルタイムなデータ調整、様々なタスク間の複雑な依存関係による最適化の専門知識、正確な推論のための論理的エラーを特定する能力を必要とするデータサイエンスのシナリオで損なわれる可能性がある。
本研究では、データサイエンスにおける問題解決を強化するために、3つの重要なテクニックを強調したコードで解決するためのソリューションであるData Interpreterを紹介する。
1)リアルタイムデータ適応性のための階層的グラフ構造による動的計画、2)実行中のコード習熟度を高めるためのツールの統合、必要な専門知識の充実、3)フィードバックにおける論理的不一貫性の識別、そして体験記録による効率向上。
データインタプリタを様々なデータサイエンスや実世界のタスクで評価する。
オープンソースのベースラインと比較すると、優れたパフォーマンスを示し、機械学習タスクが大幅に改善され、0.86から0.95に増加した。
さらに、数学データセットの26%の増加と112%のオープンエンドタスクの改善が見られた。
ソリューションはhttps://github.com/geekan/MetaGPTでリリースされる。 Large Language Model (LLM)-based agents have demonstrated remarkable effectiveness. However, their performance can be compromised in data science scenarios that require real-time data adjustment, expertise in optimization due to complex dependencies among various tasks, and the ability to identify logical errors for precise reasoning. In this study, we introduce the Data Interpreter, a solution designed to solve with code that emphasizes three pivotal techniques to augment problem-solving in data science: 1) dynamic planning with hierarchical graph structures for real-time data adaptability;2) tool integration dynamically to enhance code proficiency during execution, enriching the requisite expertise;3) logical inconsistency identification in feedback, and efficiency enhancement through experience recording. We evaluate the Data Interpreter on various data science and real-world tasks. Compared to open-source baselines, it demonstrated superior performance, exhibiting significant improvements in machine learning tasks, increasing from 0.86 to 0.95. Additionally, it showed a 26% increase in the MATH dataset and a remarkable 112% improvement in open-ended tasks. The solution will be released at https://github.com/geekan/MetaGPT. | 翻訳日:2024-03-05 23:16:01 公開日:2024-03-04 |
# 拡散モデル共有におけるプライバシーと公平性リスクの探求--敵対的視点から Exploring Privacy and Fairness Risks in Sharing Diffusion Models: An Adversarial Perspective ( http://arxiv.org/abs/2402.18607v2 ) ライセンス: Link先を確認 | Xinjian Luo, Yangfan Jiang, Fei Wei, Yuncheng Wu, Xiaokui Xiao, Beng Chin Ooi | (参考訳) 拡散モデルは最近, サンプリング品質と流通範囲の両面において, 優れた生成性能のため, 学術・産業ともに注目されている。
したがって、プライベートデータを直接共有することを避けてプライバシー保護を高めながら、データ利用を改善する方法として、さまざまな組織で事前訓練された拡散モデルを共有することを提案する。
しかし、こうしたアプローチに関連する潜在的なリスクは包括的に検討されていない。
本稿では,拡散モデルの共有に伴う潜在的なプライバシーと公平性リスクについて,敵対的視点を用いて検討する。
具体的には、一方の当事者(共有者)がプライベートデータを用いて拡散モデルを訓練する状況を調査し、他方の当事者(受信者)にダウンストリームタスクの事前学習モデルへのアクセスを提供する。
拡散モデルのトレーニングデータ分布を操作することで、共有者が公平な毒殺攻撃を行い、受信者の下流モデルに悪影響を与えることを実証する。
一方、受信機はプロパティ推論攻撃を行い、共有者のデータセット内の機密機能の分布を明らかにする。
実世界のデータセットで行った実験では,様々な種類の拡散モデルに対する攻撃性能が顕著であり,関連するアプリケーションにおけるロバストなデータ監査とプライバシ保護プロトコルの重要性を強調した。 Diffusion models have recently gained significant attention in both academia and industry due to their impressive generative performance in terms of both sampling quality and distribution coverage. Accordingly, proposals are made for sharing pre-trained diffusion models across different organizations, as a way of improving data utilization while enhancing privacy protection by avoiding sharing private data directly. However, the potential risks associated with such an approach have not been comprehensively examined. In this paper, we take an adversarial perspective to investigate the potential privacy and fairness risks associated with the sharing of diffusion models. Specifically, we investigate the circumstances in which one party (the sharer) trains a diffusion model using private data and provides another party (the receiver) black-box access to the pre-trained model for downstream tasks. We demonstrate that the sharer can execute fairness poisoning attacks to undermine the receiver's downstream models by manipulating the training data distribution of the diffusion model. Meanwhile, the receiver can perform property inference attacks to reveal the distribution of sensitive features in the sharer's dataset. Our experiments conducted on real-world datasets demonstrate remarkable attack performance on different types of diffusion models, which highlights the critical importance of robust data auditing and privacy protection protocols in pertinent applications. | 翻訳日:2024-03-05 23:15:41 公開日:2024-03-04 |
# 大域フェルミオン対称性を持つれんが壁量子回路 Brick Wall Quantum Circuits with Global Fermionic Symmetry ( http://arxiv.org/abs/2402.18440v2 ) ライセンス: Link先を確認 | Pietro Richelli, Kareljan Schoutens, Alberto Zorzato | (参考訳) 大域フェルミオン対称性を享受するレンガ壁量子回路について検討する。
2量子ビットゲートとそのフェルミオン対称性は、1+1次元の可積分超対称量子場理論における2粒子散乱行列に由来する。
我々の2量子ゲートは3つの自由パラメータの関数として、いわゆるフリーフェルミオンあるいはマッチゲート形式であり、レンガの壁のユニタリ$U_F$とその非自明なハミルトニアン極限$H_{\gamma}$のスペクトル構造を閉形式で導出することができる。
フェルミオン対称性は臨界点の曲面に$H_{\gamma}$をピンするのに対して、対称性を破ると非自明な位相となる。
我々は、この種類の回路のクエンチダイナミクスと絡み合いについて簡単に検討する。 We study brick wall quantum circuits enjoying a global fermionic symmetry. The constituent 2-qubit gate, and its fermionic symmetry, derive from a 2-particle scattering matrix in integrable, supersymmetric quantum field theory in 1+1 dimensions. Our 2-qubit gate, as a function of three free parameters, is of so-called free fermionic or matchgate form, allowing us to derive the spectral structure of both the brick wall unitary $U_F$ and its, non-trivial, hamiltonian limit $H_{\gamma}$ in closed form. We find that the fermionic symmetry pins $H_{\gamma}$ to a surface of critical points, whereas breaking that symmetry leads to non-trivial topological phases. We briefly explore quench dynamics and entanglement build up for this class of circuits. | 翻訳日:2024-03-05 23:15:19 公開日:2024-03-04 |
# オントロジーにおける新しい概念配置のための言語モデルに基づくフレームワーク A Language Model based Framework for New Concept Placement in Ontologies ( http://arxiv.org/abs/2402.17897v2 ) ライセンス: Link先を確認 | Hang Dong, Jiaoyan Chen, Yuan He, Yongsheng Gao, Ian Horrocks | (参考訳) 言語モデルを用いて,テキストから抽出した新たな概念をオントロジーに挿入する作業について検討する。
エッジ探索(edge search)は、挿入する候補位置(つまり概念間の仮定)を見つけること、エッジ形成とエンリッチメント(edge formation and enrichment)は、オントロジ構造を利用してエッジ候補を生成して拡張すること、エッジを最終的に配置するエッジ選択(edge selection)である。
あらゆるステップにおいて、我々は、エッジサーチにBERTのような埋め込みベースの手法や、事前学習された言語モデル(PLM)を応用し、GPTシリーズ、FLAN-T5、Llama 2などの大規模言語モデル(LLM)とBERTファインタニングベースのマルチラベルエッジ-クロスエンコーダを適応するニューラルネットワーク手法を提案する。
SNOMED CTオントロジーとMedMentionsエンティティリンクベンチマークを用いて,最近のデータセットの手法を評価する。
私たちのフレームワークの最良の設定は、検索にplmを微調整し、選択にマルチラベルクロスエンコーダを使用します。
LLMのゼロショットプロンプトは、まだそのタスクには不十分であり、性能向上のための説明可能なLLMのインストラクションチューニングを提案する。
本研究はPLMの利点を示し,今後の研究を動機づけるPLMの促進性能を強調した。 We investigate the task of inserting new concepts extracted from texts into an ontology using language models. We explore an approach with three steps: edge search which is to find a set of candidate locations to insert (i.e., subsumptions between concepts), edge formation and enrichment which leverages the ontological structure to produce and enhance the edge candidates, and edge selection which eventually locates the edge to be placed into. In all steps, we propose to leverage neural methods, where we apply embedding-based methods and contrastive learning with Pre-trained Language Models (PLMs) such as BERT for edge search, and adapt a BERT fine-tuning-based multi-label Edge-Cross-encoder, and Large Language Models (LLMs) such as GPT series, FLAN-T5, and Llama 2, for edge selection. We evaluate the methods on recent datasets created using the SNOMED CT ontology and the MedMentions entity linking benchmark. The best settings in our framework use fine-tuned PLM for search and a multi-label Cross-encoder for selection. Zero-shot prompting of LLMs is still not adequate for the task, and we propose explainable instruction tuning of LLMs for improved performance. Our study shows the advantages of PLMs and highlights the encouraging performance of LLMs that motivates future studies. | 翻訳日:2024-03-05 23:14:43 公開日:2024-03-04 |
# 平均埋め込み上の分布ベルマン演算子 Distributional Bellman Operators over Mean Embeddings ( http://arxiv.org/abs/2312.07358v3 ) ライセンス: Link先を確認 | Li Kevin Wenliang, Gr\'egoire Del\'etang, Matthew Aitchison, Marcus Hutter, Anian Ruoss, Arthur Gretton, Mark Rowland | (参考訳) 本稿では,回帰分布の有限次元平均埋め込み学習に基づく分布強化学習のための新しいアルゴリズムフレームワークを提案する。
この枠組みに基づく動的プログラミングと時間微分学習のためのいくつかの新しいアルゴリズムを導出し、漸近収束理論を提供し、一連の表状タスクにおけるアルゴリズムの経験的性能を検証した。
さらに,本手法を深層強化学習と容易に組み合わせることができることを示し,アーケード学習環境におけるベースライン分散アプローチよりも優れた新しい深層rlエージェントを得る。 We propose a novel algorithmic framework for distributional reinforcement learning, based on learning finite-dimensional mean embeddings of return distributions. We derive several new algorithms for dynamic programming and temporal-difference learning based on this framework, provide asymptotic convergence theory, and examine the empirical performance of the algorithms on a suite of tabular tasks. Further, we show that this approach can be straightforwardly combined with deep reinforcement learning, and obtain a new deep RL agent that improves over baseline distributional approaches on the Arcade Learning Environment. | 翻訳日:2024-03-05 22:04:03 公開日:2024-03-04 |
# 大規模言語モデルを6Gエッジにプッシュする - ビジョン,課題,機会 Pushing Large Language Models to the 6G Edge: Vision, Challenges, and Opportunities ( http://arxiv.org/abs/2309.16739v3 ) ライセンス: Link先を確認 | Zheng Lin, Guanqiao Qu, Qiyuan Chen, Xianhao Chen, Zhe Chen and Kaibin Huang | (参考訳) 目覚ましい能力を示す大規模言語モデル(LLM)は、AI開発に革命をもたらし、私たちの未来を形作る可能性がある。
しかし、そのマルチモダリティを考えると、現状はクラウドベースのデプロイメントにはいくつかの重大な課題に直面している。
1) 長時間の応答時間
2) 高い帯域幅コスト, そして
3)データプライバシーの侵害。
6Gモバイルエッジコンピューティング(MEC)システムは、これらのプレス問題を解決できるかもしれない。
本稿では,LLMを6Gエッジに展開する可能性について検討する。
まず、ロボットやヘルスケアを含むマルチモーダル LLM を利用したキラーアプリケーションを導入し、エンドユーザの近傍に LLM をデプロイする必要性を強調します。
次に,LLMをエッジに配置する上で重要な課題を特定し,LLMの6G MECアーキテクチャを想定する。
さらに,LLMのエッジトレーニングとエッジ推論という,2つの設計側面を探索する。
両側面において,エッジの固有資源制限を考慮して,スプリットラーニング/インファレンス,パラメータ効率の良い微調整,量子化,パラメータ共有推論など様々な最先端技術について検討し,llmの効率的な展開を容易にする。
本稿は,6GエッジにおけるLCMのモチベーション,課題,経路を徹底的に特定するためのポジションペーパーとして機能する。 Large language models (LLMs), which have shown remarkable capabilities, are revolutionizing AI development and potentially shaping our future. However, given their multimodality, the status quo cloud-based deployment faces some critical challenges: 1) long response time; 2) high bandwidth costs; and 3) the violation of data privacy. 6G mobile edge computing (MEC) systems may resolve these pressing issues. In this article, we explore the potential of deploying LLMs at the 6G edge. We start by introducing killer applications powered by multimodal LLMs, including robotics and healthcare, to highlight the need for deploying LLMs in the vicinity of end users. Then, we identify the critical challenges for LLM deployment at the edge and envision the 6G MEC architecture for LLMs. Furthermore, we delve into two design aspects, i.e., edge training and edge inference for LLMs. In both aspects, considering the inherent resource limitations at the edge, we discuss various cutting-edge techniques, including split learning/inference, parameter-efficient fine-tuning, quantization, and parameter-sharing inference, to facilitate the efficient deployment of LLMs. This article serves as a position paper for thoroughly identifying the motivation, challenges, and pathway for empowering LLMs at the 6G edge. | 翻訳日:2024-03-05 22:03:54 公開日:2024-03-04 |
# 言語モデルの言葉は参照しますか。 Do Language Models' Words Refer? ( http://arxiv.org/abs/2308.05576v3 ) ライセンス: Link先を確認 | Matthew Mandelkern and Tal Linzen | (参考訳) 言語モデル(LM)は言語と何をしますか?
誰もが、英語の(ほとんど)コヒーレントな文字列のシーケンスを作成できることに同意する。
しかし、これらの文は何かを意味するのか、それとも、LMは単に説得力のある言語使用のシミュラクルで揺れているのだろうか?
ここでは、この広い問いの1つの側面として、LMの単語が「世界への言葉」接続を達成できるかどうかについて述べる。
lmsが通常の言語ユーザーのように世界と相互作用しないからではないと考えるのは、原始的な理由がある。
言語哲学における外部主義の伝統から洞察を得て、これらの外見は誤解を招く: LMへの入力が単にテキストの文字列であるとしても、それらは自然史を持つテキストの文字列であり、それがLMの言葉を外部世界との参照的接触に含めるのに十分である。 What do language models (LMs) do with language? Everyone agrees that they can produce sequences of (mostly) coherent strings of English. But do those sentences mean something, or are LMs simply babbling in a convincing simulacrum of language use? Here we will address one aspect of this broad question: whether LMs' words can refer, that is, achieve "word-to-world" connections. There is prima facie reason to think they do not since LMs do not interact with the world in the way that ordinary language users do. Drawing on insights from the externalist tradition in philosophy of language, we argue that those appearances are misleading: even if the inputs to an LM are simply strings of text, they are strings of text with natural histories, and that may suffice to put LMs' words into referential contact with the external world. | 翻訳日:2024-03-05 22:03:33 公開日:2024-03-04 |
# hagedorn wavepacketsを用いたアントラセンの1つのビブロンレベル蛍光スペクトルのab initioシミュレーション Ab initio simulation of single vibronic level fluorescence spectra of anthracene using Hagedorn wavepackets ( http://arxiv.org/abs/2403.00702v2 ) ライセンス: Link先を確認 | Zhan Tong Zhang, Ji\v{r}\'i J. L. Van\'i\v{c}ek | (参考訳) 単一ビブロニックレベル(SVL)蛍光分光法は分子振動構造と緩和過程の理解に寄与する。
hagedorn wavepacketsに基づき、我々は最近、任意の初期振動レベル、すなわち複数のモードにおける高い励起からsvlスペクトルを計算し、モデルシステム上の正確な量子計算に対して検証するための時間依存アプローチを提案している。
本稿では,本手法を現実的な分子系であるアントラセンに拡張し,アブ初期電子構造データから構築した調和モデルを用いた。
hagedornアプローチでは、以前報告された12^{1}$と$\overline{11}^{1}$レベルのシミュレーション結果を再現するだけでなく、実験とよく一致して多重励起されたレベルからsvlスペクトルを計算し、基底状態のスペクトルに余分な伝搬をすることなく、同じhagedornウェーブパック軌道から計算することができる。 Single vibronic level (SVL) fluorescence spectroscopy contributes to the understanding of molecular vibrational structures and relaxation processes. Based on Hagedorn wavepackets, we have recently proposed a time-dependent approach to compute SVL spectra from arbitrary initial vibrational levels, i.e., higher excitations in multiple modes, and validated it against exact quantum calculations on model systems. Here, we extend the application of our method to a realistic molecular system, anthracene, employing a harmonic model constructed from ab initio electronic structure data. With the Hagedorn approach, we not only successfully reproduce the previously reported simulation results for singly excited $12^{1}$ and $\overline{11}^{1}$ levels, but are also able to compute SVL spectra from multiply excited levels in good agreement with experiments and from the same Hagedorn wavepacket trajectory without any additional propagation beyond what is required for ground-state emission spectra. | 翻訳日:2024-03-05 22:01:40 公開日:2024-03-04 |
# 動的グラフニューラルネットワークを用いた異種ナノサテライトコンステレーションの自律的協調に向けて Toward Autonomous Cooperation in Heterogeneous Nanosatellite Constellations Using Dynamic Graph Neural Networks ( http://arxiv.org/abs/2403.00692v2 ) ライセンス: Link先を確認 | Guillem Casadesus-Vila, Joan-Adria Ruiz-de-Azua, Eduard Alarcon | (参考訳) 地球観測ミッションの今後の展望は、再訪時間や空間分解などの厳密なミッション要件を満たすために必要な、ネットワーク化された異種ナノ衛星の星座によって定義される。
しかし、これらの衛星ネットワークにおける衛星通信のスケジューリングは、地球規模の衛星コンタクトプラン(CP)を効率的に作成することで複雑な作業であり、現在のソリューションでは地上での調整や、オンボードの計算資源によって制限されている。
本稿では,星座とCPを動的ネットワークとしてモデル化し,グラフベースの手法を用いてこれらの課題を克服する新しい手法を提案する。
提案手法は,最先端の動的グラフニューラルネットワークを用いて,与えられたcpの性能を評価し,シミュレーションアニーリングに基づくヒューリスティックアルゴリズムを用いて更新する。
トレーニングされたニューラルネットワークは、平均絶対誤差3.6分でネットワーク遅延を予測することができる。
シミュレーションの結果,提案手法は大規模衛星ネットワークの接触計画の設計に成功し,従来の手法と同様の遅延率を29.1%向上し,目標評価を20倍高速化できることがわかった。 The upcoming landscape of Earth Observation missions will defined by networked heterogeneous nanosatellite constellations required to meet strict mission requirements, such as revisit times and spatial resolution. However, scheduling satellite communications in these satellite networks through efficiently creating a global satellite Contact Plan (CP) is a complex task, with current solutions requiring ground-based coordination or being limited by onboard computational resources. The paper proposes a novel approach to overcome these challenges by modeling the constellations and CP as dynamic networks and employing graph-based techniques. The proposed method utilizes a state-of-the-art dynamic graph neural network to evaluate the performance of a given CP and update it using a heuristic algorithm based on simulated annealing. The trained neural network can predict the network delay with a mean absolute error of 3.6 minutes. Simulation results show that the proposed method can successfully design a contact plan for large satellite networks, improving the delay by 29.1%, similar to a traditional approach, while performing the objective evaluations 20x faster. | 翻訳日:2024-03-05 22:01:18 公開日:2024-03-04 |
# ROME:大規模言語モデルにおけるテキスト・確率・隠れ状態からの覚書的洞察 ROME: Memorization Insights from Text, Probability and Hidden State in Large Language Models ( http://arxiv.org/abs/2403.00510v2 ) ライセンス: Link先を確認 | Bo Li and Qinghua Zhao and Lijie Wen | (参考訳) 大規模な言語モデルの記憶が重要な意味を持つ。
過去の研究は、記憶の定量化のための指標を確立し、データ重複、モデルサイズ、プロンプト長などの様々な要因を調査し、モデル出力とトレーニングコーパスを比較して記憶の評価を行った。
しかし、トレーニングコーパスは大規模であり、事前処理は時間がかかる。
記憶データにアクセスせずに記憶を探索するために,記憶と非記憶の差異を比較することで記憶を探索する新しい手法であるローマを提案する。
具体的には、まず、選択されたサンプルを記憶されたグループと記憶されていないグループに分類し、次にテキスト、確率、隠された状態の洞察から2つのグループのデモを比較する。
実験の結果,単語長,パート・オブ・スパイチ,単語頻度,平均,ばらつきなどの要因の相違がみられた。 Probing the memorization of large language models holds significant importance. Previous works have established metrics for quantifying memorization, explored various influencing factors, such as data duplication, model size, and prompt length, and evaluated memorization by comparing model outputs with training corpora. However, the training corpora are of enormous scale and its pre-processing is time-consuming. To explore memorization without accessing training data, we propose a novel approach, named ROME, wherein memorization is explored by comparing disparities across memorized and non-memorized. Specifically, models firstly categorize the selected samples into memorized and non-memorized groups, and then comparing the demonstrations in the two groups from the insights of text, probability, and hidden state. Experimental findings show the disparities in factors including word length, part-of-speech, word frequency, mean and variance, just to name a few. | 翻訳日:2024-03-05 22:00:59 公開日:2024-03-04 |
# DINOセマンティック誘導による変形可能なワンショット顔スティル化 Deformable One-shot Face Stylization via DINO Semantic Guidance ( http://arxiv.org/abs/2403.00459v2 ) ライセンス: Link先を確認 | Yang Zhou and Zichong Chen and Hui Huang | (参考訳) 本稿では,従来手法が不足していた外観と構造を同時に考慮したワンショット顔スタイリングの複雑な問題に対処する。
従来の単一イメージスタイルの参照から切り離された変形認識顔のスタイリングを探索し、代わりにリアルスタイルのイメージペアを選択する。
本手法の基盤は,自己教師付き視覚トランスフォーマ(特にdino-vit)を用いて,実領域とスタイル領域をまたいだロバストで一貫性のある顔構造表現を確立することである。
我々のスタイリゼーションプロセスは、空間変換器(STN)の統合によりStyleGANジェネレータを変形に適応させることから始まる。
次に,ディノセマンティクスの指導の下で,生成器の微調整に関する2つの革新的な制約を導入する。
一 ディノ空間における方向ベクトルを規制する方向変形損失、及び
二 DINOトークンの自己相似性に基づく相対的構造的整合性制約であって、多様な世代を確保すること。
さらに、スタイルミキシングを用いて色生成を基準に整列させ、一貫性のない対応を最小化する。
このフレームワークは、一般的なワンショット顔スタイリングの変形性を向上し、微調整時間約10分で顕著な効率を達成する。
広汎な質的および定量的比較は、最先端のワンショット顔スタイリング法よりも優れていることを示す。
コードはhttps://github.com/zichongc/DoesFSで入手できる。 This paper addresses the complex issue of one-shot face stylization, focusing on the simultaneous consideration of appearance and structure, where previous methods have fallen short. We explore deformation-aware face stylization that diverges from traditional single-image style reference, opting for a real-style image pair instead. The cornerstone of our method is the utilization of a self-supervised vision transformer, specifically DINO-ViT, to establish a robust and consistent facial structure representation across both real and style domains. Our stylization process begins by adapting the StyleGAN generator to be deformation-aware through the integration of spatial transformers (STN). We then introduce two innovative constraints for generator fine-tuning under the guidance of DINO semantics: i) a directional deformation loss that regulates directional vectors in DINO space, and ii) a relative structural consistency constraint based on DINO token self-similarities, ensuring diverse generation. Additionally, style-mixing is employed to align the color generation with the reference, minimizing inconsistent correspondences. This framework delivers enhanced deformability for general one-shot face stylization, achieving notable efficiency with a fine-tuning duration of approximately 10 minutes. Extensive qualitative and quantitative comparisons demonstrate our superiority over state-of-the-art one-shot face stylization methods. Code is available at https://github.com/zichongc/DoesFS | 翻訳日:2024-03-05 22:00:43 公開日:2024-03-04 |
# DAMS-DETR: 競合クエリ選択と適応特徴融合を用いた動的適応型マルチスペクトル検出変換器 DAMS-DETR: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion ( http://arxiv.org/abs/2403.00326v2 ) ライセンス: Link先を確認 | Junjie Guo, Chenqiang Gao, Fangcen Liu and Deyu Meng | (参考訳) 赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
しかし, 動的に変化する相補的特徴と既存の相補的不一致は, 相補的情報の融合を困難にする。
本稿では,DTRに基づく動的適応型マルチスペクトル検出変換器(DAMS-DETR)を提案する。
具体的には、有用な事前情報を提供するためのModality Competitive Query Selection戦略を提案する。
この戦略は、各オブジェクトに対する基本的なsalient modality feature表現を動的に選択することができる。
補完情報を効果的にマイニングし,不整合状況に適応するために,赤外線と可視画像の多面的特徴を適応的にサンプリング・集約する多スペクトル変形型クロスアテンションモジュールを提案する。
さらに,detrのカスケード構造を応用し,補完的情報をよりよくマイニングする。
異なるシーンの4つの公開データセットに関する実験は、他の最先端の方法に比べて大幅に改善されている。
コードはhttps://github.com/gjj45/DAMS-DETRで公開される。 Infrared-visible object detection aims to achieve robust even full-day object detection by fusing the complementary information of infrared and visible images. However, highly dynamically variable complementary characteristics and commonly existing modality misalignment make the fusion of complementary information difficult. In this paper, we propose a Dynamic Adaptive Multispectral Detection Transformer (DAMS-DETR) based on DETR to simultaneously address these two challenges. Specifically, we propose a Modality Competitive Query Selection strategy to provide useful prior information. This strategy can dynamically select basic salient modality feature representation for each object. To effectively mine the complementary information and adapt to misalignment situations, we propose a Multispectral Deformable Cross-attention module to adaptively sample and aggregate multi-semantic level features of infrared and visible images for each object. In addition, we further adopt the cascade structure of DETR to better mine complementary information. Experiments on four public datasets of different scenes demonstrate significant improvements compared to other state-of-the-art methods. The code will be released at https://github.com/gjj45/DAMS-DETR. | 翻訳日:2024-03-05 22:00:19 公開日:2024-03-04 |
# マルチモーダルArXiv:大規模視覚言語モデルの科学的理解を改善するデータセット Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models ( http://arxiv.org/abs/2403.00231v2 ) ライセンス: Link先を確認 | Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu | (参考訳) GPT-4Vで実証された大型視覚言語モデル(LVLM)は、自然界からの具体的な画像を含む様々なタスクに優れる。
しかし、幾何学的形状や科学的プロットなどの抽象的な図形を解釈する能力は、科学領域における訓練データセットの不足のために制限されている。
このギャップを埋めるために、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを導入する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットである。
ArXivCapから引用したArXivQAは,科学的数値に基づいてGPT-4Vをプロンプトした質問応答データセットである。
ArXivQAはLVLMの数学的推論能力を大幅に向上させ、マルチモーダルな数学的推論ベンチマークで10.4%の精度向上を達成した。
さらに,ArXivCapを用いて,LVLMのベンチマークを行う4つのタスクを考案した。
現状のLVLMによる評価の結果は、学識者のニュアンスドセマンティクスとの抗争を浮き彫りにしており、ドメイン固有のトレーニングは、実質的なパフォーマンス向上をもたらす。
我々の誤り分析は、視覚的コンテキストの誤解釈、認識誤り、そして現在のLVLMによる過度に単純化されたキャプションの生成を明らかにし、将来の改善に光を当てる。 Large vision-language models (LVLMs), exemplified by GPT-4V, excel across diverse tasks involving concrete images from natural scenes. However, their ability to interpret abstract figures, such as geometry shapes and scientific plots, remains limited due to a scarcity of training datasets in scientific domains. To fill this gap, we introduce Multimodal ArXiv, consisting of ArXivCap and ArXivQA, for enhancing LVLMs scientific comprehension. ArXivCap is a figure-caption dataset comprising 6.4M images and 3.9M captions sourced from 572K ArXiv papers spanning various scientific domains. Drawing from ArXivCap, we introduce ArXivQA, a question-answering dataset generated by prompting GPT-4V based on scientific figures. ArXivQA greatly enhances LVLMs' mathematical reasoning capabilities, achieving a 10.4% absolute accuracy gain on a multimodal mathematical reasoning benchmark. Furthermore, employing ArXivCap, we devise four vision-to-text tasks for benchmarking LVLMs. Evaluation results with state-of-the-art LVLMs underscore their struggle with the nuanced semantics of academic figures, with domain-specific training yielding substantial performance gains. Our error analysis uncovers misinterpretations of visual context, recognition errors, and the production of overly simplified captions by current LVLMs, shedding light on future improvements. | 翻訳日:2024-03-05 21:59:59 公開日:2024-03-04 |
# 高次注意グラフニューラルネットワークを用いた機能的脳ネットワーク解析によるマリファナ利用者のクレービングマップの同定 Identification of Craving Maps among Marijuana Users via Analysis of Functional Brain Networks with High-Order Attention Graph Neural Networks ( http://arxiv.org/abs/2403.00033v2 ) ライセンス: Link先を確認 | Jun-En Ding, Shihao Yang, Anna Zilverstand, and Feng Liu | (参考訳) 高用量のマリファナの摂取は、心理的および社会的影響をもたらす可能性がある。
本研究では,中毒性マリファナ分類のためのHOGAB(High-Order Graph Attention Neural Networks)モデルと,慢性マリファナ利用者の異常脳活動を示す局所的ネットワーククラスタの解析を行う。
HOGABは、動的内在関数ネットワークとLSTM技術を統合し、大麻使用者のfMRI時系列の時間パターンをキャプチャする。
我々は近隣ノードに高次アテンションモジュールを用いて情報融合とメッセージパッシングを行い、長期マリファナ利用者のコミュニティクラスタリング分析を強化した。
さらに,注意機構を取り入れ,aucを85.1%,分類精度を80.7%とすることで,モデル全体の分類能力を向上させる。
具体的には,特に注意・認知・認知機能の向上に欠かせないDorsal AttentionとFrontoparietal Networkにおいて,慢性マリファナ摂取が認知制御に悪影響を及ぼすことが明らかとなった。
以上の結果から,本モデルでは,長期的欲望に関連する脳地図を正確に予測し,分析に重要な脳領域を特定できることが示唆された。 The consumption of high doses of marijuana can have significant psychological and social impacts. In this study, we propose an interpretable novel framework called the HOGAB (High-Order Graph Attention Neural Networks) model for addictive Marijuana classification and analysis of the localized network clusters that demonstrated abnormal brain activities among chronic marijuana users. The HOGAB integrates dynamic intrinsic functional networks with LSTM technology to capture temporal patterns in fMRI time series of marijuana users. We employed the high-order attention module in neighborhood nodes for information fusion and message passing, enhancing community clustering analysis for long-term marijuana users. Furthermore, we improve the overall classification ability of the model by incorporating attention mechanisms, achieving an AUC of 85.1% and an accuracy of 80.7% in classification, higher than the comparison algoirthms. Specifically, we identified the most relevant subnetworks and cognitive regions that are influenced by persistent marijuana usage, revealing that chronic marijuana consumption adversely affects cognitive control, particularly within the Dorsal Attention and Frontoparietal networks, which are essential for attentional, cognitive and higher cognitive functions. The results show that our proposed model is capable of accurately predicting craving bahavior and identifying brain maps associated with long-term cravings, and thus pinpointing brain regions that are important for analysis. | 翻訳日:2024-03-05 21:59:32 公開日:2024-03-04 |
# 言語モデルにおける地理的表現のスケーリング則について On the Scaling Laws of Geographical Representation in Language Models ( http://arxiv.org/abs/2402.19406v2 ) ライセンス: Link先を確認 | Nathan Godey, \'Eric de la Clergerie, Beno\^it Sagot | (参考訳) 言語モデルは長い間、その隠れた表現に地理情報を埋め込むことが示されている。
この一連の作業は、最近、この結果をLarge Language Models (LLMs)に拡張することで再考された。
本稿では,言語モデルのスケーリングにおいて,地理的知識がどのように発達するかを観察することで,確立された文献と最近の文献のギャップを埋めることを提案する。
地理的知識は小さなモデルでも観測可能であり、モデルのサイズが大きくなるにつれて一貫して拡張可能であることを示す。
特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。 Language models have long been shown to embed geographical information in their hidden representations. This line of work has recently been revisited by extending this result to Large Language Models (LLMs). In this paper, we propose to fill the gap between well-established and recent literature by observing how geographical knowledge evolves when scaling language models. We show that geographical knowledge is observable even for tiny models, and that it scales consistently as we increase the model size. Notably, we observe that larger language models cannot mitigate the geographical bias that is inherent to the training data. | 翻訳日:2024-03-05 21:59:06 公開日:2024-03-04 |
# WanJuan-CC: 安全で高品質なWebテキストデータセット WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset ( http://arxiv.org/abs/2402.19282v3 ) ライセンス: Link先を確認 | Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Jin Shi, Lindong Lu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Zhongyin Tu, Hang Yan and Conghui He | (参考訳) 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。
この研究は、大量の高品質なデータを必要とする言語モデルのための大規模な事前学習データセットを構築する際の課題に対処する。
包括的なプロセスは、抽出、ヒューリスティックルールフィルタリング、ファジィ重複、コンテンツ安全性フィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計された。
約68億の英文文書から、安全データの222Tトークンを取得し、WanJuan-CCの一部として高品質データの1.0Tトークンを選定した。
このデータセットから100bトークンをオープンソースにしました。
この論文はデータ品質に関する統計情報も提供しており、ユーザーは必要に応じて適切なデータを選択することができる。
データセットの品質と有用性を評価するため,WanJuan-CCとRefinedWebを用いた1Bパラメータと3Bパラメータモデルをトレーニングした。
その結果、wanjuan-ccは検証データセットとダウンストリームタスクでパフォーマンスが向上した。 This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 100B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks. | 翻訳日:2024-03-05 21:58:56 公開日:2024-03-04 |
# ボソニック励起子の電気的に定義された量子ドット Electrically defined quantum dots for bosonic excitons ( http://arxiv.org/abs/2402.19278v2 ) ライセンス: Link先を確認 | Deepankur Thureja, F. Emre Yazici, Tomasz Smolenski, Martin Kroner, David J. Norris, Atac Imamoglu | (参考訳) 量子ドット(quantum dots)は、粒子運動が3つの空間次元すべてに閉じ込められる半導体ナノ構造である。
最初の実験的実現以来、偏光波の量子を成すナノ結晶はエクシトンと呼ばれ、量子情報処理のための単一光子源から商用ディスプレイまで多くの分野に応用されてきた。
潜在的な応用範囲を拡大するための大きな制限は、量子ドット材料に一般化された励起子エネルギーの大きな不均一性と、チューナビリティの欠如である。
ここでは、離散励起子エネルギーをゲート電圧で調整できる単層半導体における励起子に対する電気的に定義された量子ドットを示すことで、この課題に対処する。
共鳴蛍光測定は、これらの共鳴の強いスペクトルジャンプと点滅を示し、その0次元の性質を検証する。
我々の研究は、エクシトン-エクシトン相互作用からのみ非線形応答が生じる量子閉じ込めボソニックモードを実現するための道を開く。 Quantum dots are semiconductor nano-structures where particle motion is confined in all three spatial dimensions. Since their first experimental realization, nanocrystals confining the quanta of polarization waves, termed excitons, have found numerous applications in fields ranging from single photon sources for quantum information processing to commercial displays. A major limitation to further extending the range of potential applications has been the large inhomogeneity in, and lack-of tunability of, exciton energy that is generic to quantum dot materials. Here, we address this challenge by demonstrating electrically-defined quantum dots for excitons in monolayer semiconductors where the discrete exciton energies can be tuned using applied gate voltages. Resonance fluorescence measurements show strong spectral jumps and blinking of these resonances, verifying their zero-dimensional nature. Our work paves the way for realizing quantum confined bosonic modes where nonlinear response would arise exclusively from exciton--exciton interactions. | 翻訳日:2024-03-05 21:58:37 公開日:2024-03-04 |
# Support"をどう理解するか?
弱制御されたフレーズ接地における暗黙的な因果推論手法 How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding ( http://arxiv.org/abs/2402.19116v2 ) ライセンス: Link先を確認 | Jiamin Luo, Jianing Zhao, Jingjing Wang, Guodong Zhou | (参考訳) WPG (Weakly-supervised Phrase Grounding) は, 粗い文と画像のペアを訓練に用いながら, きめ細かな句領域マッチングを推定する新たな課題である。
しかしながら、WPGに関する既存の研究は、深いマルチモーダル意味論を理解する上でモデルの有効性を評価する上で重要な暗黙のフレーズ領域マッチング関係を無視している。
そこで本研究では,暗黙的関係をモデル化し,明示的関係を超えて強調する上での課題に対処するImplicit-Enhanced Causal Inference (IECI)アプローチを提案する。
特に、このアプローチは、それぞれ上記の2つの課題に取り組むために、介入と反現実的手法の両方を活用する。
さらに、IECIを評価するために高品質な暗黙的拡張データセットがアノテートされ、詳細な評価は、最先端のベースラインに対するIECIの大きな利点を示している。
特に、この暗黙的拡張データセットにおいて、IECIが高度なマルチモーダルLLMよりも大きなマージンで優れており、この方向へのマルチモーダルLLMを評価するためのさらなる研究が促進される可能性がある。 Weakly-supervised Phrase Grounding (WPG) is an emerging task of inferring the fine-grained phrase-region matching, while merely leveraging the coarse-grained sentence-image pairs for training. However, existing studies on WPG largely ignore the implicit phrase-region matching relations, which are crucial for evaluating the capability of models in understanding the deep multimodal semantics. To this end, this paper proposes an Implicit-Enhanced Causal Inference (IECI) approach to address the challenges of modeling the implicit relations and highlighting them beyond the explicit. Specifically, this approach leverages both the intervention and counterfactual techniques to tackle the above two challenges respectively. Furthermore, a high-quality implicit-enhanced dataset is annotated to evaluate IECI and detailed evaluations show the great advantages of IECI over the state-of-the-art baselines. Particularly, we observe an interesting finding that IECI outperforms the advanced multimodal LLMs by a large margin on this implicit-enhanced dataset, which may facilitate more research to evaluate the multimodal LLMs in this direction. | 翻訳日:2024-03-05 21:58:21 公開日:2024-03-04 |
# 深部選択状態空間モデルの理論基礎 Theoretical Foundations of Deep Selective State-Space Models ( http://arxiv.org/abs/2402.19047v2 ) ライセンス: Link先を確認 | Nicola Muca Cirone, Antonio Orvieto, Benjamin Walker, Cristopher Salvi and Terry Lyons | (参考訳) S4のような構造化状態空間モデル (Structured state-space model, SSMs) は、Guらの研究から生まれたものであり、シーケンシャルデータモデリングの効果的なアプローチとして人気を集めている。
深部SSMは、アテンションベースのトランスフォーマーと比較してトレーニングと推論のコストを低減し、様々な領域で優れた性能を示す。
近年の進歩は、線形リカレンスを動力とするSSMが入力と隠された状態(例えばGateLoop、Mamba、GLA)間の乗法的相互作用を可能とすれば、結果のアーキテクチャはテキスト上で訓練された数十億のパラメータのスケールで精度と効率性の両方を上回りうることを示している。
本稿では、Rough Path Theoryのツールを用いた最近の理論的な根拠として、ランダムな線形反復が単純な入力制御遷移(選択機構)を備えている場合、隠れた状態は、入力のシグネチャと呼ばれる強力な数学的対象の低次元射影であり、異なる時間スケールでトークン間の非線形相互作用をキャプチャすることを示す。
我々の理論は、マンバのような現代の選択的状態空間モデルの成功を動機づけるだけでなく、将来のSSMの表現力を理解するための確かな枠組みも提供する。 Structured state-space models (SSMs) such as S4, stemming from the seminal work of Gu et al., are gaining popularity as effective approaches for modeling sequential data. Deep SSMs demonstrate outstanding performance across a diverse set of domains, at a reduced training and inference cost compared to attention-based transformers. Recent developments show that if the linear recurrence powering SSMs allows for multiplicative interactions between inputs and hidden states (e.g. GateLoop, Mamba, GLA), then the resulting architecture can surpass in both in accuracy and efficiency attention-powered foundation models trained on text, at scales of billion parameters. In this paper, we give theoretical grounding to this recent finding using tools from Rough Path Theory: we show that when random linear recurrences are equipped with simple input-controlled transitions (selectivity mechanism), then the hidden state is provably a low-dimensional projection of a powerful mathematical object called the signature of the input -- capturing non-linear interactions between tokens at distinct timescales. Our theory not only motivates the success of modern selective state-space models such as Mamba but also provides a solid framework to understand the expressive power of future SSM variants. | 翻訳日:2024-03-05 21:58:00 公開日:2024-03-04 |
# Spectral Meets Space: Harmonising 3D Shape Matching and Interpolation Spectral Meets Spatial: Harmonising 3D Shape Matching and Interpolation ( http://arxiv.org/abs/2402.18920v2 ) ライセンス: Link先を確認 | Dongliang Cao, Marvin Eisenberger, Nafie El Amrani, Daniel Cremers, Florian Bernard | (参考訳) 3次元形状マッチングと補間は非常に関連性が高いが、異なる3次元形状を連続的に研究し、その結果、準最適性能が得られる。
本研究では3次元形状間の点対応と形状補間の両方を予測する統一的な枠組みを提案する。
この目的のために、深層機能マップフレームワークと古典的表面変形モデルを組み合わせて、スペクトル領域と空間領域の両方の形状をマッピングする。
一方, 空間地図を組み込むことにより, 従来の機能地図法と比較して, より正確でスムーズな対応性が得られる。
一方,スペクトルマップを導入することで,近似形状の変形にのみ有効な,一般的に使用されるが計算コストの高い測地線距離制約を解消する。
さらに、ポーズ優位と形状優位の両変形を捉える新しいテスト時間適応方式を提案する。
異なる難易度データセットを用いて,教師付きアプローチと比較しても,従来のシェープマッチング法と補間法を上回っていることを示す。 Although 3D shape matching and interpolation are highly interrelated, they are often studied separately and applied sequentially to relate different 3D shapes, thus resulting in sub-optimal performance. In this work we present a unified framework to predict both point-wise correspondences and shape interpolation between 3D shapes. To this end, we combine the deep functional map framework with classical surface deformation models to map shapes in both spectral and spatial domains. On the one hand, by incorporating spatial maps, our method obtains more accurate and smooth point-wise correspondences compared to previous functional map methods for shape matching. On the other hand, by introducing spectral maps, our method gets rid of commonly used but computationally expensive geodesic distance constraints that are only valid for near-isometric shape deformations. Furthermore, we propose a novel test-time adaptation scheme to capture both pose-dominant and shape-dominant deformations. Using different challenging datasets, we demonstrate that our method outperforms previous state-of-the-art methods for both shape matching and interpolation, even compared to supervised approaches. | 翻訳日:2024-03-05 21:57:33 公開日:2024-03-04 |
# 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習 Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games ( http://arxiv.org/abs/2402.18781v2 ) ライセンス: Link先を確認 | Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu | (参考訳) 非対称情報確率ゲーム (\textsc{aisg}s) は、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生する。
既存の計算手法である \textsc{aisg} は主にオフラインであり、平衡偏差に適応できない。
さらに、現在のメソッドは信念階層を避けるために、 \textsc{aisg} の特別なクラスに制限される。
これらの制約に対処するため、汎用的な \textsc{aisg} のオンライン学習法である conjectural online learning (\textsc{col}) を提案する。
\textsc{col} は予測器-アクター-クリティカル (\textsc{fac}) アーキテクチャを用いており、そこでは主観的な予測が相手の戦略を推測し、信念階層を破るのに使われ、オンラインのロールアウトは非定常環境(アクター)に戦略を適用するために使用され、モンテカルロシミュレーションはコストを見積もるのに使われ、ベイズ学習は予想をキャリブレーションするために使われる。
我々は、 textsc{col} によって生成される予想が、緩和ベイズ整合という意味での情報フィードバックと漸近的に一致していることを証明する。
また,「textsc{col}」によって誘導される経験的戦略プロファイルは,主観性の下で合理性を特徴づける解の概念であるバーク・ナッシュ平衡に収束することを示した。
侵入応答を用いた実験結果から,非定常攻撃に対する最先端の強化学習法よりも,‘textsc{col}’の方が優れていることが示された。 Asymmetric information stochastic games (\textsc{aisg}s) arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures. Existing computational methods for \textsc{aisg}s are primarily offline and can not adapt to equilibrium deviations. Further, current methods are limited to special classes of \textsc{aisg}s to avoid belief hierarchies. To address these limitations, we propose conjectural online learning (\textsc{col}), an online method for generic \textsc{aisg}s. \textsc{col} uses a forecaster-actor-critic (\textsc{fac}) architecture where subjective forecasts is used to conjecture the opponents' strategies and break belief hierarchies (forecaster), online rollout is used to adapt strategies to nonstationary environments (actor), Monte-Carlo simulation is used to estimate costs (critic), and Bayesian learning is used to calibrate conjectures. We prove that the conjectures produced by \textsc{col} are asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. We also prove that the empirical strategy profile induced by \textsc{col} converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate \textsc{col}'s superiority over state-of-the-art reinforcement learning methods against nonstationary attacks. | 翻訳日:2024-03-05 21:57:13 公開日:2024-03-04 |
# E2USD:多変量時系列の効率的な非教師付き状態検出 E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series ( http://arxiv.org/abs/2402.14041v4 ) ライセンス: Link先を確認 | Zhichen Lai, Huan Li, Dalin Zhang, Yan Zhao, Weizhu Qian, Christian S. Jensen | (参考訳) 本稿では,効率よくyet-accurate unsupervised MTS状態検出が可能なE2USDを提案する。
E2USDはFast Fourier Transform-based Time Series Compressor (FFTCompress) とDecomposed Dual-view Embedding Module (DDEM) を利用している。
さらに,偽陰性の影響を克服し,よりクラスタフレンドリーな埋め込み空間を実現するfncclearningを提案する。
ストリーミング設定における計算オーバーヘッドを軽減するため,Adaptive Threshold Detection (ADATD)を導入する。
6つのベースラインと6つのデータセットによる総合的な実験は、E2USDが計算オーバーヘッドを大幅に削減したSOTA精度を持つことを示す。 We propose E2USD that enables efficient-yet-accurate unsupervised MTS state detection. E2USD exploits a Fast Fourier Transform-based Time Series Compressor (FFTCompress) and a Decomposed Dual-view Embedding Module (DDEM) that together encode input MTSs at low computational overhead. Additionally, we propose a False Negative Cancellation Contrastive Learning method (FNCCLearning) to counteract the effects of false negatives and to achieve more cluster-friendly embedding spaces. To reduce computational overhead further in streaming settings, we introduce Adaptive Threshold Detection (ADATD). Comprehensive experiments with six baselines and six datasets offer evidence that E2USD is capable of SOTA accuracy at significantly reduced computational overhead. | 翻訳日:2024-03-05 21:56:42 公開日:2024-03-04 |
# 対応のないオンラインヒューマンモーションリターゲティング Correspondence-free online human motion retargeting ( http://arxiv.org/abs/2302.00556v2 ) ライセンス: Link先を確認 | Rim Rekik, Mathieu Marsot, Anne-H\'el\`ene Olivier, Jean-S\'ebastien Franco and Stefanie Wuhrer | (参考訳) 本稿では,対象対象者の運動を模倣する教師なしヒューマンモーションリターゲティングのためのデータ駆動フレームワークを提案する。
本手法では,ソースとターゲット形状の空間的対応や,ソースの異なるフレーム間の時間的対応は不要である。
これにより、移動中の人間の任意のシーケンスでターゲットの形状をアニメーション化することができ、おそらくは4d取得プラットフォームやコンシューマデバイスでキャプチャされる。
本手法は, 長期的時間的文脈を生かした骨格運動再ターゲティングと, 表面情報を保存する表面的再ターゲティングという2つの既存の作業ラインの利点を, 幾何学的変形モデルと骨格的動き伝達アプローチを組み合わせることで統合する。
これにより、表面的な詳細を考慮しながら、長期の時間的文脈を考慮に入れられる。
推論中、このメソッドはオンラインで実行され、つまり、入力は連続的に処理され、再ターゲティングはフレーム毎に1回のフォワードパスで実行される。
トレーニング中の長期の時間的文脈を含む実験は、骨格運動と詳細保存の精度を向上することを示した。
さらに, 非観察運動や身体形状に一般化する。
本手法は,2つのテストデータセットで最先端の結果を得ることができ,マルチビュー取得プラットフォームの出力で人間のモデルをアニメーション化できることを示す。
コードは \url{https://gitlab.inria.fr/rrekikdi/human-motion-retargeting2023} で利用可能である。 We present a data-driven framework for unsupervised human motion retargeting that animates a target subject with the motion of a source subject. Our method is correspondence-free, requiring neither spatial correspondences between the source and target shapes nor temporal correspondences between different frames of the source motion. This allows to animate a target shape with arbitrary sequences of humans in motion, possibly captured using 4D acquisition platforms or consumer devices. Our method unifies the advantages of two existing lines of work, namely skeletal motion retargeting, which leverages long-term temporal context, and surface-based retargeting, which preserves surface details, by combining a geometry-aware deformation model with a skeleton-aware motion transfer approach. This allows to take into account long-term temporal context while accounting for surface details. During inference, our method runs online, i.e. input can be processed in a serial way, and retargeting is performed in a single forward pass per frame. Experiments show that including long-term temporal context during training improves the method's accuracy for skeletal motion and detail preservation. Furthermore, our method generalizes to unobserved motions and body shapes. We demonstrate that our method achieves state-of-the-art results on two test datasets and that it can be used to animate human models with the output of a multi-view acquisition platform. Code is available at \url{https://gitlab.inria.fr/rrekikdi/human-motion-retargeting2023}. | 翻訳日:2024-03-05 21:11:58 公開日:2024-03-04 |
# 言語モデルの言葉は参照しますか。 Do Language Models' Words Refer? ( http://arxiv.org/abs/2308.05576v2 ) ライセンス: Link先を確認 | Matthew Mandelkern and Tal Linzen | (参考訳) 言語モデル(LM)は言語と何をしますか?
誰もが、英語の(ほとんど)コヒーレントな文字列のシーケンスを作成できることに同意する。
しかし、これらの文は何かを意味するのか、それとも、LMは単に説得力のある言語使用のシミュラクルで揺れているのだろうか?
ここでは、この広い問いの1つの側面として、LMの単語が「世界への言葉」接続を達成できるかどうかについて述べる。
lmsが通常の言語ユーザーのように世界と相互作用しないからではないと考えるのは、原始的な理由がある。
言語哲学における外部主義の伝統から洞察を得て、これらの外見は誤解を招く: LMへの入力が単にテキストの文字列であるとしても、それらは自然史を持つテキストの文字列であり、それがLMの言葉を外部世界との参照的接触に含めるのに十分である。 What do language models (LMs) do with language? Everyone agrees that they can produce sequences of (mostly) coherent strings of English. But do those sentences mean something, or are LMs simply babbling in a convincing simulacrum of language use? Here we will address one aspect of this broad question: whether LMs' words can refer, that is, achieve "word-to-world" connections. There is prima facie reason to think they do not since LMs do not interact with the world in the way that ordinary language users do. Drawing on insights from the externalist tradition in philosophy of language, we argue that those appearances are misleading: even if the inputs to an LM are simply strings of text, they are strings of text with natural histories, and that may suffice to put LMs' words into referential contact with the external world. | 翻訳日:2024-03-05 20:42:26 公開日:2024-03-04 |
# 大規模言語モデルを6Gエッジにプッシュする - ビジョン,課題,機会 Pushing Large Language Models to the 6G Edge: Vision, Challenges, and Opportunities ( http://arxiv.org/abs/2309.16739v2 ) ライセンス: Link先を確認 | Zheng Lin, Guanqiao Qu, Qiyuan Chen, Xianhao Chen, Zhe Chen and Kaibin Huang | (参考訳) 目覚ましい能力を示す大規模言語モデル(LLM)は、AI開発に革命をもたらし、私たちの未来を形作る可能性がある。
しかし、そのマルチモダリティを考えると、現状はクラウドベースのデプロイメントにはいくつかの重大な課題に直面している。
1) 長時間の応答時間
2) 高い帯域幅コスト, そして
3)データプライバシーの侵害。
6Gモバイルエッジコンピューティング(MEC)システムは、これらのプレス問題を解決できるかもしれない。
本稿では,LLMを6Gエッジに展開する可能性について検討する。
まず、ロボットやヘルスケアを含むマルチモーダル LLM を利用したキラーアプリケーションを導入し、エンドユーザの近傍に LLM をデプロイする必要性を強調します。
次に,LLMをエッジに配置する上で重要な課題を特定し,LLMの6G MECアーキテクチャを想定する。
さらに,LLMのエッジトレーニングとエッジ推論という,2つの設計側面を探索する。
両側面において,エッジの固有資源制限を考慮して,スプリットラーニング/インファレンス,パラメータ効率の良い微調整,量子化,パラメータ共有推論など様々な最先端技術について検討し,llmの効率的な展開を容易にする。
本稿は,6GエッジにおけるLCMのモチベーション,課題,経路を徹底的に特定するためのポジションペーパーとして機能する。 Large language models (LLMs), which have shown remarkable capabilities, are revolutionizing AI development and potentially shaping our future. However, given their multimodality, the status quo cloud-based deployment faces some critical challenges: 1) long response time; 2) high bandwidth costs; and 3) the violation of data privacy. 6G mobile edge computing (MEC) systems may resolve these pressing issues. In this article, we explore the potential of deploying LLMs at the 6G edge. We start by introducing killer applications powered by multimodal LLMs, including robotics and healthcare, to highlight the need for deploying LLMs in the vicinity of end users. Then, we identify the critical challenges for LLM deployment at the edge and envision the 6G MEC architecture for LLMs. Furthermore, we delve into two design aspects, i.e., edge training and edge inference for LLMs. In both aspects, considering the inherent resource limitations at the edge, we discuss various cutting-edge techniques, including split learning/inference, parameter-efficient fine-tuning, quantization, and parameter-sharing inference, to facilitate the efficient deployment of LLMs. This article serves as a position paper for thoroughly identifying the motivation, challenges, and pathway for empowering LLMs at the 6G edge. | 翻訳日:2024-03-05 20:34:32 公開日:2024-03-04 |
# ウェーブレットによる交通予測のためのマルチスケールグラフ畳み込みリカレントネットワーク Wavelet-Inspired Multiscale Graph Convolutional Recurrent Network for Traffic Forecasting ( http://arxiv.org/abs/2401.06040v2 ) ライセンス: Link先を確認 | Qipeng Qian, Tanwi Mallick | (参考訳) 交通予測はインテリジェントな交通システムの基盤である。
時空間グラフニューラルネットワークは、交通予測における最先端の性能を示している。
しかしながら、これらの手法は、粒度やスケールの異なるレベルでの空間的および時間的変化を包含するマルチスケール構造など、交通データにおける自然特性のいくつかを明示的にモデル化していない。
そこで我々は,マルチスケール解析(MSA)法と深層学習(DL)法を組み合わせたWavelet-Inspired Graph Convolutional Recurrent Network (WavGCRN)を提案する。
WavGCRNでは、トラフィックデータを離散ウェーブレット変換(DWT)で時間周波数成分に分解し、マルチストリーム入力構造を構築し、次にグラフ畳み込みリカレントネットワーク(GCRN)を各ストリームのエンコーダとして使用し、異なるスケールの時空間的特徴を抽出し、最終的に学習可能な逆DWTとGCRNをデコーダとして結合し、トラフィックメトリクスの再構成と予測のために全てのストリームから情報を融合する。
さらに,道路網のインフォームドグラフとデータ駆動グラフ学習を組み合わせて空間相関を正確に捉える。
提案手法は,現実のトラフィックデータセット上での解釈可能性,強力な学習能力,および競合予測性能を提供する。 Traffic forecasting is the foundation for intelligent transportation systems. Spatiotemporal graph neural networks have demonstrated state-of-the-art performance in traffic forecasting. However, these methods do not explicitly model some of the natural characteristics in traffic data, such as the multiscale structure that encompasses spatial and temporal variations at different levels of granularity or scale. To that end, we propose a Wavelet-Inspired Graph Convolutional Recurrent Network (WavGCRN) which combines multiscale analysis (MSA)-based method with Deep Learning (DL)-based method. In WavGCRN, the traffic data is decomposed into time-frequency components with Discrete Wavelet Transformation (DWT), constructing a multi-stream input structure; then Graph Convolutional Recurrent networks (GCRNs) are employed as encoders for each stream, extracting spatiotemporal features in different scales; and finally the learnable Inversed DWT and GCRN are combined as the decoder, fusing the information from all streams for traffic metrics reconstruction and prediction. Furthermore, road-network-informed graphs and data-driven graph learning are combined to accurately capture spatial correlation. The proposed method can offer well-defined interpretability, powerful learning capability, and competitive forecasting performance on real-world traffic data sets. | 翻訳日:2024-03-05 20:05:29 公開日:2024-03-04 |
# 高次注意グラフニューラルネットワークを用いた機能的脳ネットワーク解析によるマリファナ利用者のクレービングマップの同定 Identification of Craving Maps among Marijuana Users via Analysis of Functional Brain Networks with High-Order Attention Graph Neural Networks ( http://arxiv.org/abs/2403.00033v1 ) ライセンス: Link先を確認 | Jun-En Ding, Shihao Yang, Anna Zilverstand, and Feng Liu | (参考訳) 高用量のマリファナの摂取は、心理的および社会的影響をもたらす可能性がある。
本研究では,中毒性マリファナ分類のためのHOGAB(High-Order Graph Attention Neural Networks)モデルと,慢性マリファナ利用者の異常脳活動を示す局所的ネットワーククラスタの解析を行う。
HOGABは、動的内在関数ネットワークとLSTM技術を統合し、大麻使用者のfMRI時系列の時間パターンをキャプチャする。
我々は近隣ノードに高次アテンションモジュールを用いて情報融合とメッセージパッシングを行い、長期マリファナ利用者のコミュニティクラスタリング分析を強化した。
さらに,注意機構を取り入れ,aucを85.1%,分類精度を80.7%とすることで,モデル全体の分類能力を向上させる。
具体的には,特に注意・認知・認知機能の向上に欠かせないDorsal AttentionとFrontoparietal Networkにおいて,慢性マリファナ摂取が認知制御に悪影響を及ぼすことが明らかとなった。
以上の結果から,本モデルでは,長期的欲望に関連する脳地図を正確に予測し,分析に重要な脳領域を特定できることが示唆された。 The consumption of high doses of marijuana can have significant psychological and social impacts. In this study, we propose an interpretable novel framework called the HOGAB (High-Order Graph Attention Neural Networks) model for addictive Marijuana classification and analysis of the localized network clusters that demonstrated abnormal brain activities among chronic marijuana users. The HOGAB integrates dynamic intrinsic functional networks with LSTM technology to capture temporal patterns in fMRI time series of marijuana users. We employed the high-order attention module in neighborhood nodes for information fusion and message passing, enhancing community clustering analysis for long-term marijuana users. Furthermore, we improve the overall classification ability of the model by incorporating attention mechanisms, achieving an AUC of 85.1% and an accuracy of 80.7% in classification, higher than the comparison algoirthms. Specifically, we identified the most relevant subnetworks and cognitive regions that are influenced by persistent marijuana usage, revealing that chronic marijuana consumption adversely affects cognitive control, particularly within the Dorsal Attention and Frontoparietal networks, which are essential for attentional, cognitive and higher cognitive functions. The results show that our proposed model is capable of accurately predicting craving bahavior and identifying brain maps associated with long-term cravings, and thus pinpointing brain regions that are important for analysis. | 翻訳日:2024-03-05 19:25:21 公開日:2024-03-04 |
# マルチモーダルArXiv:大規模視覚言語モデルの科学的理解を改善するデータセット Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models ( http://arxiv.org/abs/2403.00231v1 ) ライセンス: Link先を確認 | Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu | (参考訳) GPT-4Vで実証された大型視覚言語モデル(LVLM)は、自然界からの具体的な画像を含む様々なタスクに優れる。
しかし、幾何学的形状や科学的プロットなどの抽象的な図形を解釈する能力は、科学領域における訓練データセットの不足のために制限されている。
このギャップを埋めるために、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを導入する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットである。
ArXivCapから引用したArXivQAは,科学的数値に基づいてGPT-4Vをプロンプトした質問応答データセットである。
ArXivQAはLVLMの数学的推論能力を大幅に向上させ、マルチモーダルな数学的推論ベンチマークで10.4%の精度向上を達成した。
さらに,ArXivCapを用いて,LVLMのベンチマークを行う4つのタスクを考案した。
現状のLVLMによる評価の結果は、学識者のニュアンスドセマンティクスとの抗争を浮き彫りにしており、ドメイン固有のトレーニングは、実質的なパフォーマンス向上をもたらす。
我々の誤り分析は、視覚的コンテキストの誤解釈、認識誤り、そして現在のLVLMによる過度に単純化されたキャプションの生成を明らかにし、将来の改善に光を当てる。 Large vision-language models (LVLMs), exemplified by GPT-4V, excel across diverse tasks involving concrete images from natural scenes. However, their ability to interpret abstract figures, such as geometry shapes and scientific plots, remains limited due to a scarcity of training datasets in scientific domains. To fill this gap, we introduce Multimodal ArXiv, consisting of ArXivCap and ArXivQA, for enhancing LVLMs scientific comprehension. ArXivCap is a figure-caption dataset comprising 6.4M images and 3.9M captions sourced from 572K ArXiv papers spanning various scientific domains. Drawing from ArXivCap, we introduce ArXivQA, a question-answering dataset generated by prompting GPT-4V based on scientific figures. ArXivQA greatly enhances LVLMs' mathematical reasoning capabilities, achieving a 10.4% absolute accuracy gain on a multimodal mathematical reasoning benchmark. Furthermore, employing ArXivCap, we devise four vision-to-text tasks for benchmarking LVLMs. Evaluation results with state-of-the-art LVLMs underscore their struggle with the nuanced semantics of academic figures, with domain-specific training yielding substantial performance gains. Our error analysis uncovers misinterpretations of visual context, recognition errors, and the production of overly simplified captions by current LVLMs, shedding light on future improvements. | 翻訳日:2024-03-05 18:23:48 公開日:2024-03-04 |
# DAMS-DETR: 競合クエリ選択と適応特徴融合を用いた動的適応型マルチスペクトル検出変換器 DAMS-DETR: Dynamic Adaptive Multispectral Detection Transformer with Competitive Query Selection and Adaptive Feature Fusion ( http://arxiv.org/abs/2403.00326v1 ) ライセンス: Link先を確認 | Junjie Guo, Chenqiang Gao, Fangcen Liu and Deyu Meng | (参考訳) 赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
しかし, 動的に変化する相補的特徴と既存の相補的不一致は, 相補的情報の融合を困難にする。
本稿では,DTRに基づく動的適応型マルチスペクトル検出変換器(DAMS-DETR)を提案する。
具体的には、有用な事前情報を提供するためのModality Competitive Query Selection戦略を提案する。
この戦略は、各オブジェクトに対する基本的なsalient modality feature表現を動的に選択することができる。
補完情報を効果的にマイニングし,不整合状況に適応するために,赤外線と可視画像の多面的特徴を適応的にサンプリング・集約する多スペクトル変形型クロスアテンションモジュールを提案する。
さらに,detrのカスケード構造を応用し,補完的情報をよりよくマイニングする。
異なるシーンの4つの公開データセットに関する実験は、他の最先端の方法に比べて大幅に改善されている。
コードはhttps://github.com/gjj45/DAMS-DETRで公開される。 Infrared-visible object detection aims to achieve robust even full-day object detection by fusing the complementary information of infrared and visible images. However, highly dynamically variable complementary characteristics and commonly existing modality misalignment make the fusion of complementary information difficult. In this paper, we propose a Dynamic Adaptive Multispectral Detection Transformer (DAMS-DETR) based on DETR to simultaneously address these two challenges. Specifically, we propose a Modality Competitive Query Selection strategy to provide useful prior information. This strategy can dynamically select basic salient modality feature representation for each object. To effectively mine the complementary information and adapt to misalignment situations, we propose a Multispectral Deformable Cross-attention module to adaptively sample and aggregate multi-semantic level features of infrared and visible images for each object. In addition, we further adopt the cascade structure of DETR to better mine complementary information. Experiments on four public datasets of different scenes demonstrate significant improvements compared to other state-of-the-art methods. The code will be released at https://github.com/gjj45/DAMS-DETR. | 翻訳日:2024-03-05 17:54:27 公開日:2024-03-04 |
# DINOセマンティック誘導による変形可能なワンショット顔スティル化 Deformable One-shot Face Stylization via DINO Semantic Guidance ( http://arxiv.org/abs/2403.00459v1 ) ライセンス: Link先を確認 | Yang Zhou and Zichong Chen and Hui Huang | (参考訳) 本稿では,従来手法が不足していた外観と構造を同時に考慮したワンショット顔スタイリングの複雑な問題に対処する。
従来の単一イメージスタイルの参照から切り離された変形認識顔のスタイリングを探索し、代わりにリアルスタイルのイメージペアを選択する。
本手法の基盤は,自己教師付き視覚トランスフォーマ(特にdino-vit)を用いて,実領域とスタイル領域をまたいだロバストで一貫性のある顔構造表現を確立することである。
我々のスタイリゼーションプロセスは、空間変換器(STN)の統合によりStyleGANジェネレータを変形に適応させることから始まる。
次に,ディノセマンティクスの指導の下で,生成器の微調整に関する2つの革新的な制約を導入する。
一 ディノ空間における方向ベクトルを規制する方向変形損失、及び
二 DINOトークンの自己相似性に基づく相対的構造的整合性制約であって、多様な世代を確保すること。
さらに、スタイルミキシングを用いて色生成を基準に整列させ、一貫性のない対応を最小化する。
このフレームワークは、一般的なワンショット顔スタイリングの変形性を向上し、微調整時間約10分で顕著な効率を達成する。
広汎な質的および定量的比較は、最先端のワンショット顔スタイリング法よりも優れていることを示す。
コードはhttps://github.com/zichongc/DoesFSで入手できる。 This paper addresses the complex issue of one-shot face stylization, focusing on the simultaneous consideration of appearance and structure, where previous methods have fallen short. We explore deformation-aware face stylization that diverges from traditional single-image style reference, opting for a real-style image pair instead. The cornerstone of our method is the utilization of a self-supervised vision transformer, specifically DINO-ViT, to establish a robust and consistent facial structure representation across both real and style domains. Our stylization process begins by adapting the StyleGAN generator to be deformation-aware through the integration of spatial transformers (STN). We then introduce two innovative constraints for generator fine-tuning under the guidance of DINO semantics: i) a directional deformation loss that regulates directional vectors in DINO space, and ii) a relative structural consistency constraint based on DINO token self-similarities, ensuring diverse generation. Additionally, style-mixing is employed to align the color generation with the reference, minimizing inconsistent correspondences. This framework delivers enhanced deformability for general one-shot face stylization, achieving notable efficiency with a fine-tuning duration of approximately 10 minutes. Extensive qualitative and quantitative comparisons demonstrate our superiority over state-of-the-art one-shot face stylization methods. Code is available at https://github.com/zichongc/DoesFS | 翻訳日:2024-03-05 17:24:44 公開日:2024-03-04 |
# ROME:大規模言語モデルにおけるテキスト・確率・隠れ状態からの覚書的洞察 ROME: Memorization Insights from Text, Probability and Hidden State in Large Language Models ( http://arxiv.org/abs/2403.00510v1 ) ライセンス: Link先を確認 | Bo Li and Qinghua Zhao and Lijie Wen | (参考訳) 大規模な言語モデルの記憶が重要な意味を持つ。
過去の研究は、記憶の定量化のための指標を確立し、データ重複、モデルサイズ、プロンプト長などの様々な要因を調査し、モデル出力とトレーニングコーパスを比較して記憶の評価を行った。
しかし、トレーニングコーパスは大規模であり、事前処理は時間がかかる。
記憶データにアクセスせずに記憶を探索するために,記憶と非記憶の差異を比較することで記憶を探索する新しい手法であるローマを提案する。
具体的には、まず、選択されたサンプルを記憶されたグループと記憶されていないグループに分類し、次にテキスト、確率、隠された状態の洞察から2つのグループのデモを比較する。
実験の結果,単語長,パート・オブ・スパイチ,単語頻度,平均,ばらつきなどの要因の相違がみられた。 Probing the memorization of large language models holds significant importance. Previous works have established metrics for quantifying memorization, explored various influencing factors, such as data duplication, model size, and prompt length, and evaluated memorization by comparing model outputs with training corpora. However, the training corpora are of enormous scale and its pre-processing is time-consuming. To explore memorization without accessing training data, we propose a novel approach, named ROME, wherein memorization is explored by comparing disparities across memorized and non-memorized. Specifically, models firstly categorize the selected samples into memorized and non-memorized groups, and then comparing the demonstrations in the two groups from the insights of text, probability, and hidden state. Experimental findings show the disparities in factors including word length, part-of-speech, word frequency, mean and variance, just to name a few. | 翻訳日:2024-03-05 17:14:36 公開日:2024-03-04 |
# 動的グラフニューラルネットワークを用いた異種ナノサテライトコンステレーションの自律的協調に向けて Toward Autonomous Cooperation in Heterogeneous Nanosatellite Constellations Using Dynamic Graph Neural Networks ( http://arxiv.org/abs/2403.00692v1 ) ライセンス: Link先を確認 | Guillem Casadesus-Vila, Joan-Adria Ruiz-de-Azua, Eduard Alarcon | (参考訳) 地球観測ミッションの今後の展望は、再訪時間や空間分解などの厳密なミッション要件を満たすために必要な、ネットワーク化された異種ナノ衛星の星座によって定義される。
しかし、これらの衛星ネットワークにおける衛星通信のスケジューリングは、地球規模の衛星コンタクトプラン(CP)を効率的に作成することで複雑な作業であり、現在のソリューションでは地上での調整や、オンボードの計算資源によって制限されている。
本稿では,星座とCPを動的ネットワークとしてモデル化し,グラフベースの手法を用いてこれらの課題を克服する新しい手法を提案する。
提案手法は,最先端の動的グラフニューラルネットワークを用いて,与えられたcpの性能を評価し,シミュレーションアニーリングに基づくヒューリスティックアルゴリズムを用いて更新する。
トレーニングされたニューラルネットワークは、平均絶対誤差3.6分でネットワーク遅延を予測することができる。
シミュレーションの結果,提案手法は大規模衛星ネットワークの接触計画の設計に成功し,従来の手法と同様の遅延率を29.1%向上し,目標評価を20倍高速化できることがわかった。 The upcoming landscape of Earth Observation missions will defined by networked heterogeneous nanosatellite constellations required to meet strict mission requirements, such as revisit times and spatial resolution. However, scheduling satellite communications in these satellite networks through efficiently creating a global satellite Contact Plan (CP) is a complex task, with current solutions requiring ground-based coordination or being limited by onboard computational resources. The paper proposes a novel approach to overcome these challenges by modeling the constellations and CP as dynamic networks and employing graph-based techniques. The proposed method utilizes a state-of-the-art dynamic graph neural network to evaluate the performance of a given CP and update it using a heuristic algorithm based on simulated annealing. The trained neural network can predict the network delay with a mean absolute error of 3.6 minutes. Simulation results show that the proposed method can successfully design a contact plan for large satellite networks, improving the delay by 29.1%, similar to a traditional approach, while performing the objective evaluations 20x faster. | 翻訳日:2024-03-05 16:47:03 公開日:2024-03-04 |
# hagedorn wavepacketsを用いたアントラセンの1つのビブロンレベル蛍光スペクトルのab initioシミュレーション Ab initio simulation of single vibronic level fluorescence spectra of anthracene using Hagedorn wavepackets ( http://arxiv.org/abs/2403.00702v1 ) ライセンス: Link先を確認 | Zhan Tong Zhang, Ji\v{r}\'i J. L. Van\'i\v{c}ek | (参考訳) 単一ビブロニックレベル(SVL)蛍光分光法は分子振動構造と緩和過程の理解に寄与する。
hagedorn wavepacketsに基づき、我々は最近、任意の初期振動レベル、すなわち複数のモードにおける高い励起からsvlスペクトルを計算し、モデルシステム上の正確な量子計算に対して検証するための時間依存アプローチを提案している。
本稿では,本手法を現実的な分子系であるアントラセンに拡張し,アブ初期電子構造データから構築した調和モデルを用いた。
hagedornアプローチでは、以前報告された12^{1}$と$\overline{11}^{1}$レベルのシミュレーション結果を再現するだけでなく、実験とよく一致して多重励起されたレベルからsvlスペクトルを計算し、基底状態のスペクトルに余分な伝搬をすることなく、同じhagedornウェーブパック軌道から計算することができる。 Single vibronic level (SVL) fluorescence spectroscopy contributes to the understanding of molecular vibrational structures and relaxation processes. Based on Hagedorn wavepackets, we have recently proposed a time-dependent approach to compute SVL spectra from arbitrary initial vibrational levels, i.e., higher excitations in multiple modes, and validated it against exact quantum calculations on model systems. Here, we extend the application of our method to a realistic molecular system, anthracene, employing a harmonic model constructed from ab initio electronic structure data. With the Hagedorn approach, we not only successfully reproduce the previously reported simulation results for singly excited $12^{1}$ and $\overline{11}^{1}$ levels, but are also able to compute SVL spectra from multiply excited levels in good agreement with experiments and from the same Hagedorn wavepacket trajectory without any additional propagation beyond what is required for ground-state emission spectra. | 翻訳日:2024-03-05 16:33:26 公開日:2024-03-04 |