このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240830となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 複雑系における高次因果関係の定義に向けて
Towards Definition of Higher Order Causality in Complex Systems ( http://arxiv.org/abs/2409.08295v1 ) ライセンス: Link先を確認 | Jakub Kořenek, Pavel Sanda, Jaroslav Hlinka, | (参考訳) 複雑なシステムの力学、特にシステムの要素間の相互作用構造と因果関係の捕捉についての記述は、学際的な研究の中心的な問題の一つである。
ペアワイズ因果相互作用の特徴づけは、確立された理論的概念と比較的厳密な分野であり、現在の焦点は、その効率的な推定の技術的問題に焦点を当てている一方で、グランガー因果性や移動エントロピーのような標準概念は、多くの実世界の複雑なシステムに非常に関連する現象である高次の相乗効果や相互作用を忠実に反映していないことが判明した。
本稿では,因果的推論に対する情報理論的アプローチの一般化と改良を提案し,複数の因果的相互作用ではなく,真の多変量の記述を可能にし,因果的ネットワークから因果的ハイパーネットへ移行する。
特に、変数や共通原因を媒介する能力を保ちながら、排他的解離のような純粋に相乗的相互作用の場合、それは多変量因果集合に因果的役割を割り当てるが、個々の入力に \emph{not} を割り当て、eg2加法的単変量原因の場合と区別する。
我々は, この概念を, 最近報告された生物神経力学の生物物理学的シミュレーションに応用し, 相乗的計算を用いて実証した。
The description of the dynamics of complex systems, in particular the capture of the interaction structure and causal relationships between elements of the system, is one of the central questions of interdisciplinary research. While the characterization of pairwise causal interactions is a relatively ripe field with established theoretical concepts and the current focus is on technical issues of their efficient estimation, it turns out that the standard concepts such as Granger causality or transfer entropy may not faithfully reflect possible synergies or interactions of higher orders, phenomena highly relevant for many real-world complex systems. In this paper, we propose a generalization and refinement of the information-theoretic approach to causal inference, enabling the description of truly multivariate, rather than multiple pairwise, causal interactions, and moving thus from causal networks to causal hypernetworks. In particular, while keeping the ability to control for mediating variables or common causes, in case of purely synergetic interactions such as the exclusive disjunction, it ascribes the causal role to the multivariate causal set but \emph{not} to individual inputs, distinguishing it thus from the case of e.g. two additive univariate causes. We demonstrate this concept by application to illustrative theoretical examples as well as a biophysically realistic simulation of biological neuronal dynamics recently reported to employ synergetic computations. | 翻訳日:2024-09-22 21:50:24 公開日:2024-08-30 |
# OrthoDoc:CTにおける診断支援のための多モード大言語モデル
OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography ( http://arxiv.org/abs/2409.09052v1 ) ライセンス: Link先を確認 | Youzhu Jin, Yichen Zhang, | (参考訳) マルチモーダル大言語モデル (MLLM) は画像処理の一般分野において大きな成功を収めている。
彼らのタスクの一般化とフリーフォームの会話能力は、医師の診断支援を大いに促進し、患者の状態をよりよく理解し、医師と患者の信頼を高めるのに役立つ。
CT(Computed Tomography)は、患者の病態の内部メカニズムを捉えた非侵襲的イメージング技術であり、広く利用されている。
しかし, 過去の研究では, この画像データの複雑なテクスチャ的特徴は, アルゴリズムによる正確な解釈を困難にしており, 診断支援における一般LLMの性能を阻害している。
そこで我々は,CT診断のためのMLLMであるOrthoDocを開発した。
OrthoDocは12万のCT画像と診断レポートに基づいてトレーニングされており、モデル幻覚を効果的に緩和するRetrieval-Augmented Generation (RAG)モジュールを含んでいる。
このモジュールは、広範な医学文献、教科書、説明データによって通知される。
したがって、OrthoDocは複雑なCT画像を処理するだけでなく、医学的知識や言語に関する理由を保存し、理解する。
大規模な実験では、OrthoDocはGPT-4による商用モデルよりも優れており、優れた診断能力と精度を示している。
具体的には、OrthoDocは骨折、関節炎、腫瘍などの一般的な整形外科疾患の診断において、既存のモデルを大幅に上回っている。
さらに、OrthoDocは稀で複雑なケースを扱う際に、堅牢な一般化と安定性を示す。
Multimodal large language models (MLLMs) have achieved significant success in the general field of image processing. Their emerging task generalization and freeform conversational capabilities can greatly facilitate medical diagnostic assistance, helping patients better understand their conditions and enhancing doctor-patient trust. Computed Tomography (CT) is a non-invasive imaging technique used to capture the internal mechanisms of a patient's condition and is widely utilized. However, in past research, the complex textural features of this imaging data have made accurate interpretation by algorithms challenging, impeding the performance of general LLMs in diagnostic assistance. To address this, we developed OrthoDoc, a MLLM designed for CT diagnostics. OrthoDoc is trained on 120,000 CT images and diagnostic reports and includes a Retrieval-Augmented Generation (RAG) module capable of effectively mitigating model hallucinations. This module is informed by extensive medical literature, textbooks, and explanatory data. Thus, OrthoDoc not only processes complex CT images but also stores, understands, and reasons over medical knowledge and language. In extensive experiments, OrthoDoc outperforms commercial models led by GPT-4, demonstrating superior diagnostic capabilities and accuracy. Specifically, OrthoDoc significantly surpasses existing models in the diagnosis of common orthopedic conditions such as fractures, arthritis, and tumors. Additionally, OrthoDoc exhibits robust generalization and stability when handling rare and complex cases. | 翻訳日:2024-09-22 21:42:00 公開日:2024-08-30 |
# H&E全スライディング画像による乳癌分子サブタイプの深層学習による分類
Deep learning-based classification of breast cancer molecular subtypes from H&E whole-slide images ( http://arxiv.org/abs/2409.09053v1 ) ライセンス: Link先を確認 | Masoud Tafavvoghi, Anders Sildnes, Mehrdad Rakaee, Nikita Shvetsov, Lars Ailo Bongo, Lill-Tove Rasmussen Busund, Kajsa Møllersen, | (参考訳) 乳がん分子サブタイプを分類することは治療戦略の調整に不可欠である。
免疫組織化学(IHC)と遺伝子発現プロファイリングは分子サブタイピングの標準的な方法であるが、IHCは主観的であり、遺伝子プロファイリングは高価であり、多くの地域では広くアクセスできない。
従来のアプローチでは、分子置換のためのH&E-stained whole slide image (WSI) に対するディープラーニングモデルの適用の可能性を強調していたが、これらの取り組みはメソッド、データセット、報告されたパフォーマンスによって異なる。
本研究は, H&E-stained WSIs が乳癌分子サブタイプ (luminal A, B, HER2-enriched, Basal) の予測にのみ活用できるかどうかを検討した。
乳がんの1,433 WSIを2段階のパイプラインで用いた。第1に,腫瘍領域のみを分子サブタイピングに使用し,第2に,1-vs-Rest(OvR)戦略を用いて4つのバイナリOvR分類器を訓練し,eXtreme Gradient Boosting(XGBoost)モデルを用いて結果を集計した。
パイプラインは221個のWSIで試験され、腫瘍検出には0.95点、分子置換には0.73点のマクロF1スコアが得られた。
以上の結果から, 教師付きディープラーニングモデルは, 乳がんにおける分子サブタイピング支援ツールとして有効である可能性が示唆された。
私たちのコードは、進行中の研究と開発を促進するために利用できます。
Classifying breast cancer molecular subtypes is crucial for tailoring treatment strategies. While immunohistochemistry (IHC) and gene expression profiling are standard methods for molecular subtyping, IHC can be subjective, and gene profiling is costly and not widely accessible in many regions. Previous approaches have highlighted the potential application of deep learning models on H&E-stained whole slide images (WSI) for molecular subtyping, but these efforts vary in their methods, datasets, and reported performance. In this work, we investigated whether H&E-stained WSIs could be solely leveraged to predict breast cancer molecular subtypes (luminal A, B, HER2-enriched, and Basal). We used 1,433 WSIs of breast cancer in a two-step pipeline: first, classifying tumor and non-tumor tiles to use only the tumor regions for molecular subtyping; and second, employing a One-vs-Rest (OvR) strategy to train four binary OvR classifiers and aggregating their results using an eXtreme Gradient Boosting (XGBoost) model. The pipeline was tested on 221 hold-out WSIs, achieving an overall macro F1 score of 0.95 for tumor detection and 0.73 for molecular subtyping. Our findings suggest that, with further validation, supervised deep learning models could serve as supportive tools for molecular subtyping in breast cancer. Our codes are made available to facilitate ongoing research and development. | 翻訳日:2024-09-22 21:42:00 公開日:2024-08-30 |
# ESGによる責任あるAIの実現:産業エンゲージメントからの洞察と勧告
Achieving Responsible AI through ESG: Insights and Recommendations from Industry Engagement ( http://arxiv.org/abs/2409.10520v1 ) ライセンス: Link先を確認 | Harsha Perera, Sung Une Lee, Yue Liu, Boming Xia, Qinghua Lu, Liming Zhu, Jessica Cairns, Moana Nottage, | (参考訳) 人工知能(AI)がビジネス運用に不可欠なものになるにつれて、環境、社会、ガバナンス(ESG)フレームワークに責任あるAI(RAI)を統合することは、倫理的かつ持続可能なAI展開に不可欠である。
本研究は,主要な企業がESG目標とRAIをどのように一致させるかを検討する。
28の業界リーダとのインタビューを通じて、RAIとESGプラクティスの強い結びつきを特定しました。
しかし、内部のRAIポリシーと公開情報の間には大きなギャップがあり、取締役会レベルの専門知識、堅牢なガバナンス、従業員の関与の必要性が強調されている。
RAI戦略の強化、透明性の重視、クロスファンクショナルなコラボレーション、既存のESGフレームワークへのシームレスな統合など、重要な推奨事項を提供します。
As Artificial Intelligence (AI) becomes integral to business operations, integrating Responsible AI (RAI) within Environmental, Social, and Governance (ESG) frameworks is essential for ethical and sustainable AI deployment. This study examines how leading companies align RAI with their ESG goals. Through interviews with 28 industry leaders, we identified a strong link between RAI and ESG practices. However, a significant gap exists between internal RAI policies and public disclosures, highlighting the need for greater board-level expertise, robust governance, and employee engagement. We provide key recommendations to strengthen RAI strategies, focusing on transparency, cross-functional collaboration, and seamless integration into existing ESG frameworks. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# エンティティ認識というサイバーセキュリティのためのLSTMリカレントニューラルネットワーク
LSTM Recurrent Neural Networks for Cybersecurity Named Entity Recognition ( http://arxiv.org/abs/2409.10521v1 ) ライセンス: Link先を確認 | Houssem Gasmi, Jannik Laval, Abdelaziz Bouras, | (参考訳) ブログや記事などの構造化されていないオンラインソースから、よりフォーマルな表現への自動的かつタイムリーなサイバーセキュリティ情報の変換は、近年、ドメイン内の多くのアプリケーションにとって必要となっている。
名前付きエンティティ認識(NER)は、この目標に向けた初期段階の1つです。
これは、技術文書で製品、バージョン、アタック名など、関連するドメインエンティティを検出することを含む。
一般的には情報抽出分野における単純なタスクと考えられているが、そのエンティティの複雑な構造のため、サイバーセキュリティのようないくつかの領域では、かなり難しい。
最先端の手法は、エンティティの特性、そのコンテキスト、ドメイン知識、言語特性を記述する、時間と労働集約的な特徴工学を必要とする。
本論文で実証されたモデルはドメイン独立であり,サイバーセキュリティ領域のエンティティに特有の機能に依存しないため,機能工学を行うための専門知識は必要ない。
この手法は、Long Short-Term Memory (LSTM) と Conditional Random Fields (CRFs) と呼ばれる一連のリカレントニューラルネットワークに依存している。
その結果, 注釈付きコーパスが適度な大きさであることから, この手法は最先端の手法よりも優れていることがわかった。
The automated and timely conversion of cybersecurity information from unstructured online sources, such as blogs and articles to more formal representations has become a necessity for many applications in the domain nowadays. Named Entity Recognition (NER) is one of the early phases towards this goal. It involves the detection of the relevant domain entities, such as product, version, attack name, etc. in technical documents. Although generally considered a simple task in the information extraction field, it is quite challenging in some domains like cybersecurity because of the complex structure of its entities. The state of the art methods require time-consuming and labor intensive feature engineering that describes the properties of the entities, their context, domain knowledge, and linguistic characteristics. The model demonstrated in this paper is domain independent and does not rely on any features specific to the entities in the cybersecurity domain, hence does not require expert knowledge to perform feature engineering. The method used relies on a type of recurrent neural networks called Long Short-Term Memory (LSTM) and the Conditional Random Fields (CRFs) method. The results we obtained showed that this method outperforms the state of the art methods given an annotated corpus of a decent size. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# ブリッジングユーザダイナミクス:Schrödinger Bridgeと拡散モデルによるシーケンスレコメンデーションの変換
Bridging User Dynamics: Transforming Sequential Recommendations with Schrödinger Bridge and Diffusion Models ( http://arxiv.org/abs/2409.10522v1 ) ライセンス: Link先を確認 | Wenjia Xie, Rui Zhou, Hao Wang, Tingjia Shen, Enhong Chen, | (参考訳) ユーザ関心の動的変化を正確に把握する能力によって、シークエンシャルレコメンデーションが注目を集めている。
生成モデル、特に拡散モデルが画像や音声などの分野で大きな成果を上げており、逐次レコメンデーションの分野ではかなりの可能性を秘めていることに気づきました。
しかし,拡散モデルに基づく既存の逐次レコメンデーション手法は,ガウス分布に限定した事前分布によって制約されるため,各レコメンデーションにユーザ固有の情報を導入できなくなり,情報損失につながる。
これらの問題に対処するため、拡散に基づく逐次レコメンデーションモデルにSchr\"odinger Bridgeを導入し、SdifRecモデルを作成する。
これにより、拡散モデルのガウス前処理をユーザの現在の状態に置き換え、ユーザの現在の状態からターゲットのレコメンデーションまでプロセスを直接モデル化することができる。
さらに,コラボレーティブな情報をレコメンデーションでよりよく活用するために,ユーザクラスタリング情報を利用したcon-SdifRecと呼ばれるSdifRecの拡張版を提案する。
最後に、複数の公開ベンチマークデータセットに関する広範な実験は、いくつかの最先端手法との比較を通じて、SdifRecとcon-SdifRecの有効性を実証した。
さらに詳細な分析により、その効率性と堅牢性が検証された。
Sequential recommendation has attracted increasing attention due to its ability to accurately capture the dynamic changes in user interests. We have noticed that generative models, especially diffusion models, which have achieved significant results in fields like image and audio, hold considerable promise in the field of sequential recommendation. However, existing sequential recommendation methods based on diffusion models are constrained by a prior distribution limited to Gaussian distribution, hindering the possibility of introducing user-specific information for each recommendation and leading to information loss. To address these issues, we introduce the Schr\"odinger Bridge into diffusion-based sequential recommendation models, creating the SdifRec model. This allows us to replace the Gaussian prior of the diffusion model with the user's current state, directly modeling the process from a user's current state to the target recommendation. Additionally, to better utilize collaborative information in recommendations, we propose an extended version of SdifRec called con-SdifRec, which utilizes user clustering information as a guiding condition to further enhance the posterior distribution. Finally, extensive experiments on multiple public benchmark datasets have demonstrated the effectiveness of SdifRec and con-SdifRec through comparison with several state-of-the-art methods. Further in-depth analysis has validated their efficiency and robustness. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# 野生生物保全のためのハーネス化人工知能
Harnessing Artificial Intelligence for Wildlife Conservation ( http://arxiv.org/abs/2409.10523v1 ) ライセンス: Link先を確認 | Paul Fergus, Carl Chalmers, Steve Longmore, Serge Wich, | (参考訳) 世界の生物多様性の急激な減少は、革新的な保護戦略を必要としている。
本稿では,野生生物保護における人工知能(AI)の利用について検討し,保全型AIプラットフォームに着目した。
機械学習とコンピュータビジョンを活用して、Reserve AIは、視覚スペクトルと熱赤外カメラを使用して、動物、人間、密猟に関連する物体を検出し、分類する。
このプラットフォームは、このデータを畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャで処理し、絶滅危惧種を含む種を監視する。
リアルタイム検出は、時間クリティカルな状況(例えば密猟)に必要な即時応答を提供するが、非リアルタイム分析は長期的な野生生物のモニタリングと生息環境の健康評価をサポートする。
ヨーロッパ、北アメリカ、アフリカ、東南アジアの事例研究は、このプラットフォームが種の識別、生物多様性の監視、密猟防止に成功していることを強調している。
また、データ品質、モデル精度、論理的制約に関する課題についても論じ、技術進歩、新しい地理的地域への進出、地域社会や政策立案者とのより深い連携など、今後の方向性を概説する。
保全AIは、野生生物保護の緊急課題に対処するための重要な一歩であり、グローバルに実装可能なスケーラブルで適応可能なソリューションを提供する。
The rapid decline in global biodiversity demands innovative conservation strategies. This paper examines the use of artificial intelligence (AI) in wildlife conservation, focusing on the Conservation AI platform. Leveraging machine learning and computer vision, Conservation AI detects and classifies animals, humans, and poaching-related objects using visual spectrum and thermal infrared cameras. The platform processes this data with convolutional neural networks (CNNs) and Transformer architectures to monitor species, including those which are critically endangered. Real-time detection provides the immediate responses required for time-critical situations (e.g. poaching), while non-real-time analysis supports long-term wildlife monitoring and habitat health assessment. Case studies from Europe, North America, Africa, and Southeast Asia highlight the platform's success in species identification, biodiversity monitoring, and poaching prevention. The paper also discusses challenges related to data quality, model accuracy, and logistical constraints, while outlining future directions involving technological advancements, expansion into new geographical regions, and deeper collaboration with local communities and policymakers. Conservation AI represents a significant step forward in addressing the urgent challenges of wildlife conservation, offering a scalable and adaptable solution that can be implemented globally. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# 3CSim: 自律走行における制御評価のためのCARLAコーナーケースシミュレーション
3CSim: CARLA Corner Case Simulation for Control Assessment in Autonomous Driving ( http://arxiv.org/abs/2409.10524v1 ) ライセンス: Link先を確認 | Matúš Čávojský, Eugen Šlapak, Matúš Dopiriak, Gabriel Bugár, Juraj Gazda, | (参考訳) CARLAシミュレータ内の自律走行(AD)システムを評価するためのCARLAコーナーケースシミュレーション(3CSim)を提案する。
このフレームワークは、標準ではない、まれで、認知的に困難なシナリオに焦点を当てることで、従来のADモデルトレーニングの制限に対処するために設計されている。
これらのコーナーケースは、異常な条件下で高度な制御能力をテストするため、車両の安全性と信頼性を確保するために不可欠である。
本手法では,状態異常,行動異常,エビデンスに基づく異常に分類されるコーナーケースの分類を導入する。
9つの事前定義された気象条件,タイミング,交通密度を含む,調整可能なパラメータを持つ32個のコーナーケースを実装した。
このフレームワークは、反復可能で変更可能なシナリオ評価を可能にし、さらなる分析のための包括的なデータセットの作成を容易にする。
We present the CARLA corner case simulation (3CSim) for evaluating autonomous driving (AD) systems within the CARLA simulator. This framework is designed to address the limitations of traditional AD model training by focusing on non-standard, rare, and cognitively challenging scenarios. These corner cases are crucial for ensuring vehicle safety and reliability, as they test advanced control capabilities under unusual conditions. Our approach introduces a taxonomy of corner cases categorized into state anomalies, behavior anomalies, and evidence-based anomalies. We implement 32 unique corner cases with adjustable parameters, including 9 predefined weather conditions, timing, and traffic density. The framework enables repeatable and modifiable scenario evaluations, facilitating the creation of a comprehensive dataset for further analysis. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# 「これですか?」 : 位置的協調のための生態学的検証に向けて
"Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration ( http://arxiv.org/abs/2409.10525v1 ) ライセンス: Link先を確認 | Dan Bohus, Sean Andrist, Yuwei Bao, Eric Horvitz, Ann Paradiso, | (参考訳) 本稿では,大規模なマルチモーダルモデルによる位置的協調作業の能力を評価するため,生態学的に有効なベンチマークの構築に向けた最初の取り組みについて報告する。
既存のベンチマークとは対照的に,既存のデータセットや合成データセットに対して,テンプレートやヒューマンアノテータ,あるいは大規模言語モデル(LLM)を用いて質問応答対を生成する手法では,エンド・ツー・エンドのAIシステムとのインタラクションにおいて,ユーザがコンテキスト内で質問を生成する対話型システム駆動アプローチを提案し,検討する。
既存のEQA(Embodied Question answering)ベンチマークでよく見られる質問の形式や内容がどう違うのかを説明し、新たな現実的な課題を議論する。
We report initial work towards constructing ecologically valid benchmarks to assess the capabilities of large multimodal models for engaging in situated collaboration. In contrast to existing benchmarks, in which question-answer pairs are generated post hoc over preexisting or synthetic datasets via templates, human annotators, or large language models (LLMs), we propose and investigate an interactive system-driven approach, where the questions are generated by users in context, during their interactions with an end-to-end situated AI system. We illustrate how the questions that arise are different in form and content from questions typically found in existing embodied question answering (EQA) benchmarks and discuss new real-world challenge problems brought to the fore. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# ディジタルインターベンション実装におけるオンライン意思決定アルゴリズムの効果的なモニタリング
Effective Monitoring of Online Decision-Making Algorithms in Digital Intervention Implementation ( http://arxiv.org/abs/2409.10526v1 ) ライセンス: Link先を確認 | Anna L. Trella, Susobhan Ghosh, Erin E. Bonar, Lara Coughlin, Finale Doshi-Velez, Yongyi Guo, Pei-Yao Hung, Inbal Nahum-Shani, Vivek Shetty, Maureen Walton, Iris Yan, Kelly W. Zhang, Susan A. Murphy, | (参考訳) オンラインAI意思決定アルゴリズムは、個人に対する治療を動的にパーソナライズするために、デジタル介入によってますます使われている。
これらのアルゴリズムは、リアルタイムで、蓄積データに基づく治療の配信を決定する。
本研究の目的は,(1)個人を保護し,(2)データ品質を確保することを目的として,オンライン意思決定アルゴリズムの効果的なモニタリングを可能にするためのガイドラインを提供することである。
我々は,2つのデジタル介入臨床試験(OralyticsとMiWaves)において,オンライン意思決定アルゴリズムのモニタリングに関するガイドラインを解明し,我々の経験を議論する。
本ガイドラインでは,(1) フォールバック手法の開発,(2) 問題発生時に実施される事前特定手順,(2) 重度(赤,黄色,緑)で分類する潜在的な問題を特定する。
どちらの試験も、監視システムはメモリ外問題、データベースタイムアウト、外部ソースとの通信の失敗など、リアルタイムの問題を検出した。
フォールバック法は、参加者が試験中に治療を受けないことを防ぎ、また統計分析における誤ったデータの使用を妨げた。
これらの試行は、医療科学者がデジタル介入のためのモニタリングシステムを構築する方法のケーススタディを提供する。
これらのアルゴリズムの監視システムがなければ、重大な問題は発見されず、未解決だっただろう。
代わりに、これらの監視システムは参加者を保護し、介入の更新と科学的発見の促進のために得られたデータの品質を確保した。
これらの監視ガイドラインと調査結果は、デジタル介入チームに、オンライン意思決定アルゴリズムをデジタル介入に組み込む自信を与える。
Online AI decision-making algorithms are increasingly used by digital interventions to dynamically personalize treatment to individuals. These algorithms determine, in real-time, the delivery of treatment based on accruing data. The objective of this paper is to provide guidelines for enabling effective monitoring of online decision-making algorithms with the goal of (1) safeguarding individuals and (2) ensuring data quality. We elucidate guidelines and discuss our experience in monitoring online decision-making algorithms in two digital intervention clinical trials (Oralytics and MiWaves). Our guidelines include (1) developing fallback methods, pre-specified procedures executed when an issue occurs, and (2) identifying potential issues categorizing them by severity (red, yellow, and green). Across both trials, the monitoring systems detected real-time issues such as out-of-memory issues, database timeout, and failed communication with an external source. Fallback methods prevented participants from not receiving any treatment during the trial and also prevented the use of incorrect data in statistical analyses. These trials provide case studies for how health scientists can build monitoring systems for their digital intervention. Without these algorithm monitoring systems, critical issues would have gone undetected and unresolved. Instead, these monitoring systems safeguarded participants and ensured the quality of the resulting data for updating the intervention and facilitating scientific discovery. These monitoring guidelines and findings give digital intervention teams the confidence to include online decision-making algorithms in digital interventions. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# 共感型会話レコメンダシステムに向けて
Towards Empathetic Conversational Recommender Systems ( http://arxiv.org/abs/2409.10527v1 ) ライセンス: Link先を確認 | Xiaoyu Zhang, Ruobing Xie, Yougang Lyu, Xin Xin, Pengjie Ren, Mingfei Liang, Bo Zhang, Zhanhui Kang, Maarten de Rijke, Zhaochun Ren, | (参考訳) 会話レコメンデータシステム(CRS)は,マルチターン対話を通じてユーザの好みを抽出することができる。
通常は、対話コンテキストをキャプチャするために、外部の知識と事前訓練された言語モデルを含む。
ベンチマークデータセットに基づいてトレーニングされたほとんどのCRSアプローチは、これらのベンチマークの標準項目とレスポンスが最適であると仮定する。
しかし、ユーザーは標準項目で否定的な感情を表現でき、標準応答に感情的な関与を感じない可能性があると、彼らは見落としている。
この問題は、ユーザニーズに合わせるのではなく、データセットでレコメンデータのロジックを複製する傾向にある。
この不整合を是正するために,我々はCRS内に共感を導入する。
共感とは、感情を捉え、表現するシステムの能力を指す。
本稿では,共感型会話レコメンデータ(ECR)フレームワークを提案する。
ECRには、感情対応アイテムレコメンデーションと感情対応応答生成という、2つの主要なモジュールが含まれている。
具体的には、ユーザの感情を利用して、正確なレコメンデーションのためのユーザの嗜好モデリングを洗練します。
人間のような感情反応を生成するために、ECRは、学習済み言語モデルを微調整し、感情と一致させ幻覚を緩和するために、検索強化プロンプトを適用した。
そこで我々は,大規模な言語モデルで注釈付けされた感情ラベルと,外部リソースから収集した感情レビューを用いて,共感的データを拡大する。
実世界のCRSシナリオにおけるユーザの満足度を捉えるための新しい評価指標を提案する。
ReDialデータセットの実験は、推奨精度を高め、ユーザの満足度を向上させる上で、我々のフレームワークの有効性を検証する。
Conversational recommender systems (CRSs) are able to elicit user preferences through multi-turn dialogues. They typically incorporate external knowledge and pre-trained language models to capture the dialogue context. Most CRS approaches, trained on benchmark datasets, assume that the standard items and responses in these benchmarks are optimal. However, they overlook that users may express negative emotions with the standard items and may not feel emotionally engaged by the standard responses. This issue leads to a tendency to replicate the logic of recommenders in the dataset instead of aligning with user needs. To remedy this misalignment, we introduce empathy within a CRS. With empathy we refer to a system's ability to capture and express emotions. We propose an empathetic conversational recommender (ECR) framework. ECR contains two main modules: emotion-aware item recommendation and emotion-aligned response generation. Specifically, we employ user emotions to refine user preference modeling for accurate recommendations. To generate human-like emotional responses, ECR applies retrieval-augmented prompts to fine-tune a pre-trained language model aligning with emotions and mitigating hallucination. To address the challenge of insufficient supervision labels, we enlarge our empathetic data using emotion labels annotated by large language models and emotional reviews collected from external resources. We propose novel evaluation metrics to capture user satisfaction in real-world CRS scenarios. Our experiments on the ReDial dataset validate the efficacy of our framework in enhancing recommendation accuracy and improving user satisfaction. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# ImageBindのマルチモーダル埋め込みスペースの解析
From Latent to Engine Manifolds: Analyzing ImageBind's Multimodal Embedding Space ( http://arxiv.org/abs/2409.10528v1 ) ライセンス: Link先を確認 | Andrew Hamara, Pablo Rivas, | (参考訳) 本研究は,オンライン自動車部品一覧作成のための有意義な融合型マルチモーダル埋め込みを生成するImageBindの能力について検討する。
本稿では,画像とテキストの重なり合う情報を抽出し,投稿のセマンティクスを結合埋め込みに組み合わせることを目的とした,簡易な埋め込み統合ワークフローを提案する。
このような融合埋め込みをベクトルデータベースに格納した後、次元還元実験を行い、クラスタリングにより関節埋め込みのセマンティックな品質を伝達し、各クラスタセントロイドに最も近いポストを調べる経験的証拠を提供する。
さらに、ImageBindのゼロショットクロスモーダル検索による最初の発見は、純粋なオーディオ埋め込みが意味論的に類似したマーケットプレースリスティングと相関し、将来の研究の道筋を示すことを示唆している。
This study investigates ImageBind's ability to generate meaningful fused multimodal embeddings for online auto parts listings. We propose a simplistic embedding fusion workflow that aims to capture the overlapping information of image/text pairs, ultimately combining the semantics of a post into a joint embedding. After storing such fused embeddings in a vector database, we experiment with dimensionality reduction and provide empirical evidence to convey the semantic quality of the joint embeddings by clustering and examining the posts nearest to each cluster centroid. Additionally, our initial findings with ImageBind's emergent zero-shot cross-modal retrieval suggest that pure audio embeddings can correlate with semantically similar marketplace listings, indicating potential avenues for future research. | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# 検索エンジン、ニュースメディア、そして2020年の米大統領選の陰謀
Googling the Big Lie: Search Engines, News Media, and the US 2020 Election Conspiracy ( http://arxiv.org/abs/2409.10531v1 ) ライセンス: Link先を確認 | Ernesto de León, Mykola Makhortykh, Aleksandra Urman, Roberto Ulloa, | (参考訳) 2020年の米大統領選が不正だったという陰謀説は、選挙から数ヶ月後、メディアの目立った議題として残っていた。
検索エンジンが主張を徹底的に取り除き、単純な否定を提供するか、あるいは陰謀を支持するかは、その話題の情報公開を理解するために不可欠である。
我々は,Google,DuckDuckGo,Bingの3つの検索エンジン(Ohio,California,UK)の違いを評価し,11の検索クエリを用いて,この陰謀について,検索エンジンがどのようにニュースを提供したかを検討する。
結果は、この陰謀を単に否定することは、すべての検索エンジンで最大のデバッキング戦略であることを示している。
Googleは、Big Lieに明確に焦点を絞った記事に強いメインストリーム効果があるが、DuckDuckGoとBingのディスプレイは、場所によっては、陰謀を支持しているか、取り下げに失敗している記事が多い。
最後に,ニッチなイデオロギーによる検索クエリ(例えば "sharpie marker ballots Arizona" など)は,より陰謀支持の材料にはならない。
代わりに、この陰謀を支持するコンテンツは、主にイデオロギーに依存しない検索クエリ(例えば、"voter fraud 2020")の産物である。
The conspiracy theory that the US 2020 presidential election was fraudulent - the Big Lie - remained a prominent part of the media agenda months after the election. Whether and how search engines prioritized news stories that sought to thoroughly debunk the claims, provide a simple negation, or support the conspiracy is crucial for understanding information exposure on the topic. We investigate how search engines provided news on this conspiracy by conducting a large-scale algorithm audit evaluating differences between three search engines (Google, DuckDuckGo, and Bing), across three locations (Ohio, California, and the UK), and using eleven search queries. Results show that simply denying the conspiracy is the largest debunking strategy across all search engines. While Google has a strong mainstreaming effect on articles explicitly focused on the Big Lie - providing thorough debunks and alternative explanations - DuckDuckGo and Bing display, depending on the location, a large share of articles either supporting the conspiracy or failing to debunk it. Lastly, we find that niche ideologically driven search queries (e.g., "sharpie marker ballots Arizona") do not lead to more conspiracy-supportive material. Instead, content supporting the conspiracy is largely a product of broader ideology-agnostic search queries (e.g., "voter fraud 2020"). | 翻訳日:2024-09-22 21:32:16 公開日:2024-08-30 |
# 量子測定の公理的基礎と生存効果
Axiomatic foundation of quantum measurements and survival effect ( http://arxiv.org/abs/1712.06999v2 ) ライセンス: Link先を確認 | Vladimir I. Kruglov, | (参考訳) 量子第一種測定の公理理論は、5つの仮定に基づいて厳密な形で展開される。
連続スペクトルを持つ可観測性の測定理論は、引き裂かれたヒルベルト空間で与えられる。
このアプローチはまた、非理想的初期条件による測定についても記述する。
これは粒子の位置測定における生存効果をもたらす。
また, 粒子の運動量測定における生存効果は認められていない。
これらの公理理論の仮定は、ハイゼンベルクの不確実性関係に反する生存効果をもたらす。
この理論結果は、粒子の位置と運動量の不確実性を最小限にした波動関数によって示される。
生存効果は不確実性関係に不可欠な補正をもたらす。
これらの改良された不確実性関係は、生存率測定効果の実験的検証にも利用できる。
The axiomatic theory of quantum first-kind measurements is developed in a rigorous form based on five Postulates. The measurement theory for observable with continuous spectrum is given in a rigged Hilbert space. This approach also describes the measurements with non-ideal initial conditions. It yields the survival effect in the position measurement of the particles. It is also found that there is no such survival effect in the momentum measurement of the particles. These Postulates of axiomatic theory yield the survival effect which violates the Heisenberg uncertainty relation. This theoretical result is demonstrated by the wave function with minimum of position and momentum uncertainty of the particle. The survival effect leads to essential corrections for the uncertainty relations. These modified uncertainty relations can also be used for the experimental verification of the survival measurement effect. | 翻訳日:2024-09-08 15:56:29 公開日:2024-08-30 |
# 部分放電曲線を用いたグラフニューラルネットワークを用いたリチウムイオン電池の健康評価
Graph neural network-based lithium-ion battery state of health estimation using partial discharging curve ( http://arxiv.org/abs/2409.00141v1 ) ライセンス: Link先を確認 | Kate Qi Zhou, Yan Qin, Chau Yuen, | (参考訳) データ駆動方式はリチウムイオン電池の健康状態(SOH)を推定する上で大きな注目を集めている。
正確なSOH推定には、トレーニングとテストデータセット間の統計的分布の分解関連特徴とアライメントが必要である。
しかし、現在の研究はしばしばこれらのニーズを見落とし、任意の電圧セグメント選択に依存している。
これらの課題に対処するために、グラフ畳み込みネットワーク(GCN)を介して時空間分解ダイナミクスを活用する革新的なアプローチを提案する。
本手法は,行列プロファイル異常検出アルゴリズムを用いて放電電圧セグメントを系統的に選択し,手動選択の必要性を排除し,情報損失を防止する。
これらの選択されたセグメントは、GCNベースのSOH推定モデルに統合された基本構造を形成し、サイクル間ダイナミクスをキャプチャし、オフライントレーニングとオンラインテストデータ間の統計的不一致を緩和する。
広く受け入れられているオープンソースデータセットによる検証により,ルート平均2乗誤差が1%未満の精度でSOH推定が可能であることが示された。
Data-driven methods have gained extensive attention in estimating the state of health (SOH) of lithium-ion batteries. Accurate SOH estimation requires degradation-relevant features and alignment of statistical distributions between training and testing datasets. However, current research often overlooks these needs and relies on arbitrary voltage segment selection. To address these challenges, this paper introduces an innovative approach leveraging spatio-temporal degradation dynamics via graph convolutional networks (GCNs). Our method systematically selects discharge voltage segments using the Matrix Profile anomaly detection algorithm, eliminating the need for manual selection and preventing information loss. These selected segments form a fundamental structure integrated into the GCN-based SOH estimation model, capturing inter-cycle dynamics and mitigating statistical distribution incongruities between offline training and online testing data. Validation with a widely accepted open-source dataset demonstrates that our method achieves precise SOH estimation, with a root mean squared error of less than 1%. | 翻訳日:2024-09-06 16:50:17 公開日:2024-08-30 |
# 動的深さデコーディング: LLMの高速な投機的デコーディング
Dynamic Depth Decoding: Faster Speculative Decoding for LLMs ( http://arxiv.org/abs/2409.00142v1 ) ライセンス: Link先を確認 | Oscar Brown, Zhengjie Wang, Andrea Do, Nikhil Mathew, Cheng Yu, | (参考訳) 投機的復号化によるLarge Language Models (LLM) の高速化は、精度を損なうことなく、大幅なランタイム改善をもたらす。
現在、ERGLE-2は最先端の投機的復号法であり、動的なドラフトツリーを用いてERGLEを改善する。
動的深度を用いてEAGLE-2のツリー起草法を最適化する動的深度復号法(DDD)を導入する。
これは、EAGLE-2がEAGLEで達成した平均スピードアップを44 %$で拡張し、DDDの平均スピードアップを3.16$xにする。
The acceleration of Large Language Models (LLMs) with speculative decoding provides a significant runtime improvement without any loss of accuracy. Currently, EAGLE-2 is the state-of-the-art speculative decoding method, improving on EAGLE with a dynamic draft tree. We introduce Dynamic Depth Decoding (DDD), which optimises EAGLE-2's tree drafting method using a dynamic depth. This extends the average speedup that EAGLE-2 achieves over EAGLE by $44\%$, giving DDD an average speedup of $3.16$x. | 翻訳日:2024-09-06 16:50:17 公開日:2024-08-30 |
# 多モード交絡におけるロバスト時間不変学習
Robust Temporal-Invariant Learning in Multimodal Disentanglement ( http://arxiv.org/abs/2409.00143v1 ) ライセンス: Link先を確認 | Guoyang Xu, Junqi Xue, Zhenxi Song, Yuxin Liu, Zirui Wang, Min Zhang, Zhiguo Zhang, | (参考訳) マルチモーダル感情認識は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
しかし、従来の研究は連続時系列に固有のフレームレベルの冗長性を抑えておらず、ノイズを伴う不完全なモジュラリティ表現をもたらす。
この問題に対処するために,時間ステップ間の分布差を最小限に抑え,よりスムーズな時系列パターンを効果的に捉え,表現の質と頑健さを向上させる時間不変学習を提案する。
テキスト知識におけるリッチな意味情報を完全に活用するために,テキスト駆動融合モジュール (TDFM) を提案する。
相互モーダル相互作用を導くため、TDFMはモーダル不変表現を通じて異なるモーダル間の相関を評価する。
さらに、モジュラリティ不変部分空間とモダリティ固有部分空間をアンタングル化するモダリティ判別器を導入する。
2つの公開データセットの実験結果は、我々のモデルの優位性を示している。
Multimodal sentiment recognition aims to learn representations from different modalities to identify human emotions. However, previous works does not suppresses the frame-level redundancy inherent in continuous time series, resulting in incomplete modality representations with noise. To address this issue, we propose the Temporal-invariant learning, which minimizes the distributional differences between time steps to effectively capture smoother time series patterns, thereby enhancing the quality of the representations and robustness of the model. To fully exploit the rich semantic information in textual knowledge, we propose a Text-Driven Fusion Module (TDFM). To guide cross-modal interactions, TDFM evaluates the correlations between different modality through modality-invariant representations. Furthermore, we introduce a modality discriminator to disentangle modality-invariant and modality-specific subspaces. Experimental results on two public datasets demonstrate the superiority of our model. | 翻訳日:2024-09-06 16:50:17 公開日:2024-08-30 |
# MultiMath: 大規模言語モデルのための視覚的および数学的推論
MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models ( http://arxiv.org/abs/2409.00147v1 ) ライセンス: Link先を確認 | Shuai Peng, Di Fu, Liangcai Gao, Xiuqin Zhong, Hongguang Fu, Zhi Tang, | (参考訳) 大規模言語モデル(LLM)の急速な発展は、その領域固有の能力、特に数学的推論に関する広範な研究を刺激している。
しかし、ほとんどのオープンソースのLCMは、幾何学図、チャート、関数プロットのような視覚的な入力に依存しているにもかかわらず、視覚的インジェクションとの統合を無視し、数学的推論にのみ焦点を当てている。
このギャップを埋めるために,数学と視覚のギャップを埋めるマルチモーダルな大規模言語モデルである \textbf{MultiMath-7B} を導入する。
\textbf{MultiMath-7B} は、視覚言語アライメント、視覚および数学の授業チューニング、およびプロセス教師付き強化学習に焦点を当てた4段階のプロセスを通じて訓練される。
また,画像キャプションとステップワイズによるK-12レベルにまたがる,新しい多様かつ包括的マルチモーダルな数学的データセットである \textbf{MultiMath-300K} を構築した。
MultiMath-7Bは、既存のマルチモーダル数学ベンチマークのオープンソースモデル間での最先端(SOTA)性能を実現し、テキストのみの数学的ベンチマークでも優れている。
我々のモデルとデータセットは {\textcolor{blue}{\url{https://github.com/pengshuai-rin/MultiMath}}} で利用可能です。
The rapid development of large language models (LLMs) has spurred extensive research into their domain-specific capabilities, particularly mathematical reasoning. However, most open-source LLMs focus solely on mathematical reasoning, neglecting the integration with visual injection, despite the fact that many mathematical tasks rely on visual inputs such as geometric diagrams, charts, and function plots. To fill this gap, we introduce \textbf{MultiMath-7B}, a multimodal large language model that bridges the gap between math and vision. \textbf{MultiMath-7B} is trained through a four-stage process, focusing on vision-language alignment, visual and math instruction-tuning, and process-supervised reinforcement learning. We also construct a novel, diverse and comprehensive multimodal mathematical dataset, \textbf{MultiMath-300K}, which spans K-12 levels with image captions and step-wise solutions. MultiMath-7B achieves state-of-the-art (SOTA) performance among open-source models on existing multimodal mathematical benchmarks and also excels on text-only mathematical benchmarks. Our model and dataset are available at {\textcolor{blue}{\url{https://github.com/pengshuai-rin/MultiMath}}}. | 翻訳日:2024-09-06 16:50:17 公開日:2024-08-30 |
# セマンティックスから階層へ:時間的知識グラフ推論のためのハイブリッドユークリッド-タングル-双曲空間モデル
From Semantics to Hierarchy: A Hybrid Euclidean-Tangent-Hyperbolic Space Model for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2409.00149v1 ) ライセンス: Link先を確認 | Siling Feng, Zhisheng Qi, Cong Lin, | (参考訳) 時間的知識グラフ(TKG)推論は、過去のデータに基づいて将来の出来事を予測するが、複雑な意味と階層的な情報が絡むため、それは難しい。
既存のユークリッドモデルはセマンティクスを捉えるのに優れているが、階層構造に苦しむ。
逆に、双曲的モデルは階層的特徴をうまく管理するが、浅いモデルのパラメータの制限やL2ノルムに依存する深層モデルの適切な正規化がないため、複雑な意味論を表現できない。
曲率変換のような現在の解はこれらの問題に対処するには不十分である。
本研究ではユークリッドモデルと双曲モデルの両方の強みを利用する新しいハイブリッド幾何空間アプローチを提案する。
提案手法は単一空間から多空間パラメータモデリングへ移行し,セマンティック情報と階層情報の両方を効果的に取得する。
当初、複素意味論はユークリッド空間の正規化を伴う事実共起および自己回帰的手法によって捉えられる。
埋め込みは、拡張機構を用いてタンジェント空間に変換され、階層構造を再学習しながら意味情報を保存し、クエリ候補を分離したモデリングアプローチにより、後にハイパーボリック空間に変換される。
最後に、双曲型およびユークリッド型スコアリング関数を学習可能なクエリ固有混合係数によって組み合わせ、双曲型およびユークリッド型空間からの埋め込みを利用することによって、階層型および意味学習のためのハイブリッド帰納的バイアスを実現する。
4つのTKGベンチマークによる実験結果から,従来の単一空間モデルと比較してYAGOの平均逆ランクが15.0%の誤差を相対的に減少させることが示された。
さらに、リッチな可視化分析は、我々のアプローチの有効性を検証し、セマンティックおよび階層的な複雑さの異なるデータセットに対する適応能力を示す。
Temporal knowledge graph (TKG) reasoning predicts future events based on historical data, but it's challenging due to the complex semantic and hierarchical information involved. Existing Euclidean models excel at capturing semantics but struggle with hierarchy. Conversely, hyperbolic models manage hierarchical features well but fail to represent complex semantics due to limitations in shallow models' parameters and the absence of proper normalization in deep models relying on the L2 norm. Current solutions, as curvature transformations, are insufficient to address these issues. In this work, a novel hybrid geometric space approach that leverages the strengths of both Euclidean and hyperbolic models is proposed. Our approach transitions from single-space to multi-space parameter modeling, effectively capturing both semantic and hierarchical information. Initially, complex semantics are captured through a fact co-occurrence and autoregressive method with normalizations in Euclidean space. The embeddings are then transformed into Tangent space using a scaling mechanism, preserving semantic information while relearning hierarchical structures through a query-candidate separated modeling approach, which are subsequently transformed into Hyperbolic space. Finally, a hybrid inductive bias for hierarchical and semantic learning is achieved by combining hyperbolic and Euclidean scoring functions through a learnable query-specific mixing coefficient, utilizing embeddings from hyperbolic and Euclidean spaces. Experimental results on four TKG benchmarks demonstrate that our method reduces error relatively by up to 15.0% in mean reciprocal rank on YAGO compared to previous single-space models. Additionally, enriched visualization analysis validates the effectiveness of our approach, showing adaptive capabilities for datasets with varying levels of semantic and hierarchical complexity. | 翻訳日:2024-09-06 16:50:17 公開日:2024-08-30 |
# 非自己回帰型言語モデルを用いた話者タグ補正
Speaker Tagging Correction With Non-Autoregressive Language Models ( http://arxiv.org/abs/2409.00151v1 ) ライセンス: Link先を確認 | Grigor Kirakosyan, Davit Karamyan, | (参考訳) 会話を扱う音声アプリケーションは、話し言葉を認識するだけでなく、誰がいつ話すかを判断する必要がある。
話者に単語を割り当てるタスクは通常、2つの異なるシステム、すなわち自動音声認識(ASR)システムと話者ダイアリゼーション(SD)システムの出力を統合することで対処される。
実用的な設定では、話者ダイアリゼーションシステムは、時間分解能の高い一様セグメンテーション、不正確な単語タイムスタンプ、誤クラスタリング、話者数の推定、背景雑音など、様々な要因により、性能の著しい劣化を経験することができる。
したがって、エラーを自動的に検出し、可能な限り修正することが重要である。
我々は,非自己回帰言語モデルに基づく第2パス話者タグ付け補正システムを用いて,異なる話者によって話される文の境界に置かれる単語の誤りを訂正した。
まず, 単語ダイアリゼーション誤り率 (WDER) を TAL と test set of Fisher の2つのデータセットで削減する手法を提案する。
さらに, 話者タグ付け補正課題において, ベースライン法と比較して, cpWERの大幅な改善が見られた。
Speech applications dealing with conversations require not only recognizing the spoken words but also determining who spoke when. The task of assigning words to speakers is typically addressed by merging the outputs of two separate systems, namely, an automatic speech recognition (ASR) system and a speaker diarization (SD) system. In practical settings, speaker diarization systems can experience significant degradation in performance due to a variety of factors, including uniform segmentation with a high temporal resolution, inaccurate word timestamps, incorrect clustering and estimation of speaker numbers, as well as background noise. Therefore, it is important to automatically detect errors and make corrections if possible. We used a second-pass speaker tagging correction system based on a non-autoregressive language model to correct mistakes in words placed at the borders of sentences spoken by different speakers. We first show that the employed error correction approach leads to reductions in word diarization error rate (WDER) on two datasets: TAL and test set of Fisher. Additionally, we evaluated our system in the Post-ASR Speaker Tagging Correction challenge and observed significant improvements in cpWER compared to baseline methods. | 翻訳日:2024-09-06 16:50:17 公開日:2024-08-30 |
# 機械学習の一般的なステップは、医学における説明可能性を妨げる
Common Steps in Machine Learning Might Hinder The Explainability Aims in Medicine ( http://arxiv.org/abs/2409.00155v1 ) ライセンス: Link先を確認 | Ahmed M Salih, | (参考訳) データ前処理は機械学習における重要なステップであり、モデルの性能を改善し、実行時間を短縮する。
これには、欠落した値の処理、外れ値の検出と削除、データ拡張、次元の削減、データの正規化、境界変数の影響の処理が含まれる。
モデルの精度は向上するが、特に医学において慎重に考慮されていない場合、モデルの説明可能性を妨げる可能性がある。
欠落した値と外れ値が不適切に実装された場合、新しい発見をブロックする可能性がある。
さらに、決定を下す際には、モデル内のすべてのグループに対してモデルが不公平になる可能性がある。
さらに、これらの特徴を単体で臨床的に意味のないものにし、したがって説明できない。
本稿では、機械学習におけるデータ前処理の共通ステップと、モデルの説明可能性と解釈可能性への影響について論じる。
最後に,その説明可能性の低下を抑えつつ,モデルの性能を向上する可能性について論じる。
Data pre-processing is a significant step in machine learning to improve the performance of the model and decreases the running time. This might include dealing with missing values, outliers detection and removing, data augmentation, dimensionality reduction, data normalization and handling the impact of confounding variables. Although it is found the steps improve the accuracy of the model, but they might hinder the explainability of the model if they are not carefully considered especially in medicine. They might block new findings when missing values and outliers removal are implemented inappropriately. In addition, they might make the model unfair against all the groups in the model when making the decision. Moreover, they turn the features into unitless and clinically meaningless and consequently not explainable. This paper discusses the common steps of the data preprocessing in machine learning and their impacts on the explainability and interpretability of the model. Finally, the paper discusses some possible solutions that improve the performance of the model while not decreasing its explainability. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# 自閉症スペクトラム障害児の社会的コミュニケーションの重症度予測のためのエンドツーエンドフレームワークの開発
Developing an End-to-End Framework for Predicting the Social Communication Severity Scores of Children with Autism Spectrum Disorder ( http://arxiv.org/abs/2409.00158v1 ) ライセンス: Link先を確認 | Jihyun Mun, Sunhee Kim, Minhwa Chung, | (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、個人のコミュニケーション能力と社会的相互作用に大きな影響を及ぼす生涯状態である。
早期診断と介入は、基礎発達段階におけるALDの特徴的行動の重大な影響により重要である。
しかし、標準化された診断ツールの限界は、客観的かつ正確な診断方法の開発を必要としている。
本稿では、生音声データから、ASDを持つ子どもの社会的コミュニケーションの重症度を自動的に予測するエンドツーエンドフレームワークを提案する。
このフレームワークは、ASDを持つ子供たちの音声データを微調整した自動音声認識モデルと、最終予測スコアを生成するための微調整事前学習言語モデルとを組み込んだものである。
ピアソン相関係数の0.6566と人間評価スコアを達成し,ASD評価のためのアクセシブルで客観的なツールとしての可能性を示した。
Autism Spectrum Disorder (ASD) is a lifelong condition that significantly influencing an individual's communication abilities and their social interactions. Early diagnosis and intervention are critical due to the profound impact of ASD's characteristic behaviors on foundational developmental stages. However, limitations of standardized diagnostic tools necessitate the development of objective and precise diagnostic methodologies. This paper proposes an end-to-end framework for automatically predicting the social communication severity of children with ASD from raw speech data. This framework incorporates an automatic speech recognition model, fine-tuned with speech data from children with ASD, followed by the application of fine-tuned pre-trained language models to generate a final prediction score. Achieving a Pearson Correlation Coefficient of 0.6566 with human-rated scores, the proposed method showcases its potential as an accessible and objective tool for the assessment of ASD. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# LLMの幻覚グラフも--構造的視点から
LLMs hallucinate graphs too: a structural perspective ( http://arxiv.org/abs/2409.00159v1 ) ライセンス: Link先を確認 | Erwan Le Merrer, Gilles Tredan, | (参考訳) LLMが幻覚、すなわち誤った情報を事実として返すことは知られている。
本稿では,これらの幻覚を構造化された形で研究する可能性について紹介する。
この文脈における幻覚は、文献からよく知られたグラフ(例えば、Karate club, Les Mis\'erables, graph atlas)に刺激されたときの誤った出力である。
これらの幻影グラフは、事実の精度よりもはるかにリッチであるという利点があるが、本論文は、そのようなリッチな幻覚はLLMの出力を特徴づけるのに利用できると論じる。
我々の最初の貢献は、主要な近代LSMからのトポロジカル幻覚の多様性を観察することである。
2つ目の貢献は、グラフアトラス集合内のいくつかのグラフからの平均的なグラフ編集距離であるグラフアトラス距離という、このような幻覚の振幅に対する計量の提案である。
我々は、この指標を、そのランクを得るために1万倍のプロンプトを利用する幻覚のランクである幻覚のリーダーボードと比較する。
It is known that LLMs do hallucinate, that is, they return incorrect information as facts. In this paper, we introduce the possibility to study these hallucinations under a structured form: graphs. Hallucinations in this context are incorrect outputs when prompted for well known graphs from the literature (e.g. Karate club, Les Mis\'erables, graph atlas). These hallucinated graphs have the advantage of being much richer than the factual accuracy -- or not -- of a fact; this paper thus argues that such rich hallucinations can be used to characterize the outputs of LLMs. Our first contribution observes the diversity of topological hallucinations from major modern LLMs. Our second contribution is the proposal of a metric for the amplitude of such hallucinations: the Graph Atlas Distance, that is the average graph edit distance from several graphs in the graph atlas set. We compare this metric to the Hallucination Leaderboard, a hallucination rank that leverages 10,000 times more prompts to obtain its ranking. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# 複雑な機械システムのための学習型有限要素法モデリング
Learning-Based Finite Element Methods Modeling for Complex Mechanical Systems ( http://arxiv.org/abs/2409.00160v1 ) ライセンス: Link先を確認 | Jiasheng Shi, Fu Lin, Weixiong Rao, | (参考訳) 複雑な力学系シミュレーションは多くの実世界の応用において重要である。
有限要素法(FEM)を用いたデファクト数値解法は計算集約的なオーバーヘッドに悩まされる。
近年のCNNやGNNベースのシミュレーションモデルでは、計算時間と許容精度の低下が進んでいるが、距離メッシュノードの長距離空間依存性による複雑な力学シミュレーションを効果的に表現し、局所的および大域的表現を独立に学習することに苦慮している。
本稿では,新しい2レベルメッシュグラフネットワークを提案する。
ネットワークの鍵は、開発したGraph BlockとAtention Blockをインターウィーブして、長時間の空間依存であっても、メカニックインタラクションをよりよく学習することだ。
3つの合成データセットと1つの実データセットの評価は、我々の研究の優位性を示している。
例えば、ビームデータセットでは、我々の研究は54.3\%低い予測エラーと9.87\%少ない学習可能なネットワークパラメータをもたらす。
Complex mechanic systems simulation is important in many real-world applications. The de-facto numeric solver using Finite Element Method (FEM) suffers from computationally intensive overhead. Though with many progress on the reduction of computational time and acceptable accuracy, the recent CNN or GNN-based simulation models still struggle to effectively represent complex mechanic simulation caused by the long-range spatial dependency of distance mesh nodes and independently learning local and global representation. In this paper, we propose a novel two-level mesh graph network. The key of the network is to interweave the developed Graph Block and Attention Block to better learn mechanic interactions even for long-rang spatial dependency. Evaluation on three synthetic and one real datasets demonstrates the superiority of our work. For example, on the Beam dataset, our work leads to 54.3\% lower prediction errors and 9.87\% fewer learnable network parameters. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# (一)「時間の量子測定」の物理効果
(Un)physical consequences of "Quantum Measurements of Time" ( http://arxiv.org/abs/2409.00161v1 ) ライセンス: Link先を確認 | Will Cavendish, Siddhant Das, Markus Nöth, Ali Ayatollah Rafsanjani, | (参考訳) 量子クロック提案(L. Maccone and K. Sacha, Phys. Rev. Lett. 124, 110402 (2020))の実証的な予測は、量子到着時問題の解として見ればパラドックス的である。
We note that the empirical predictions of the "Quantum Clock Proposal" [L. Maccone and K. Sacha, Phys. Rev. Lett. 124, 110402 (2020)] are paradoxical when viewed as a solution to the quantum arrival-time problem. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# シーケンス・リワード・モデリングへのシーケンス:言語フィードバックによるRLHFの改善
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback ( http://arxiv.org/abs/2409.00162v1 ) ライセンス: Link先を確認 | Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang, | (参考訳) 大規模言語モデル(LLM)の行動と人間の意図と価値の調整は、依然として重要な課題である。
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに基づいて報酬モデル(RM)を訓練し、LLMを微調整することで、RMフィードバックを最大化する。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
つまり、RMは人間の好みと正確に一致したフィードバックを提供しず、LCMは予期せぬ一般化を探求し、アライメントの目的を達成することができない。
この問題を軽減するために,新しい「textit{sequence-to-sequence (seq2seq) reward modeling}」法を提案する。
その重要な洞察は、スカラーフィードバックではなく言語フィードバックから学ぶことは、追加のアノテーションなしでRLHFを改善することである。
報酬モデルの対象をバイナリ最大推定(MLE)からシーケンスMLEに置き換えた。
この方法は、追加のアノテーションやモデル、トレーニング段階を使わずに、よりリッチできめ細かい言語フィードバックを可能にする。
本実験は, テキスト要約作業において, シングルターン安全対話における拒絶応答パラダイムの低減と, 長時間応答バイアスを低減させる効果を実証した。
さらに,Seq2seq RMは3つのNLPタスクにおける2Bおよび7B LLM間のRLHF性能を改善し,平均勝率76.9\%を達成する。
さらに,Seq2seq RMは,分布外プロンプト下でのRLHFの性能を向上させることができることを示す。
Aligning the behavior of Large language models (LLMs) with human intentions and values remains a critical challenge. Reinforcement learning from human feedback (RLHF) aligns LLMs by training a reward model (RM) on human preferences and fine-tuning the LLMs to maximize RM feedback. Despite its effectiveness and popularity, RLHF is prone to biased local optimization. It means RM fails to provide feedback that accurately aligns with human preference, causing LLMs to explore unexpected generalizations, and failing to achieve alignment objectives. To mitigate this issue, we propose a novel \textit{sequence-to-sequence (seq2seq) reward modeling} method. Its key insight is that learning from language feedback rather than scalar feedback improves RLHF without additional annotations. We replaced the reward modeling target from binary maximum likelihood estimation (MLE) with sequence MLE. This method enables richer and fine-grained language feedback without additional annotations, models, or training stages. Our experiments demonstrated its effectiveness, specifically, reducing the refusal-to-response paradigm in single-turn safety dialogues and the long-response bias in text summarization tasks. We provide further analysis that seq2seq RM improves RLHF performance across 2B and 7B LLMs on 3 NLP tasks, achieving an average win rate of 76.9\%. We further show that seq2seq RM can still improve the performance of RLHF under out-of-distribution prompts. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# 食道癌術後再発・生存予測のためのディープニューラルネットワーク
Deep Neural Networks for Predicting Recurrence and Survival in Patients with Esophageal Cancer After Surgery ( http://arxiv.org/abs/2409.00163v1 ) ライセンス: Link先を確認 | Yuhan Zheng, Jessie A Elliott, John V Reynolds, Sheraz R Markar, Bartłomiej W. Papież, ENSURE study group, | (参考訳) 食道癌は, 再発率が高く, 再発率も高く, 再発率も低かった。
関連する予後因子を調査して予後を予測することで、術後の臨床的意思決定が促進され、患者の結果が改善する可能性がある。
本研究では,疾患のない生存 (DFS) と総合生存 (OS) の3つのモデルの予後因子の同定と識別性能を, ENSURE 研究による大規模多施設国際データセットを用いて評価した。
最初にCox Proportional Hazards(CoxPH)モデルを用いて、各特徴が結果に与える影響を評価した。
次に、DFSとOSを予測するために、CoxPHとDeepSurvとDeepHitという2つのディープニューラルネットワークモデルを使用しました。
本モデルで同定した有意な予後因子は臨床文献と一致し,術後病理所見は臨床段階像よりも有意であった。
DeepSurv と DeepHit は CoxPH に匹敵する識別精度を示し、DeepSurv は DFS と OS の予測タスクでわずかに上回り、それぞれ 0.735 と 0.74 の C-インデックスを達成した。
これらの結果は,予測精度を向上し,リスク階層化に関する個人化されたガイダンスを提供するための予測ツールとしてのDNNの可能性を示しているが,CoxPHは依然として十分な予測モデルであり,本研究で使用されるデータである。
Esophageal cancer is a major cause of cancer-related mortality internationally, with high recurrence rates and poor survival even among patients treated with curative-intent surgery. Investigating relevant prognostic factors and predicting prognosis can enhance post-operative clinical decision-making and potentially improve patients' outcomes. In this work, we assessed prognostic factor identification and discriminative performances of three models for Disease-Free Survival (DFS) and Overall Survival (OS) using a large multicenter international dataset from ENSURE study. We first employed Cox Proportional Hazards (CoxPH) model to assess the impact of each feature on outcomes. Subsequently, we utilised CoxPH and two deep neural network (DNN)-based models, DeepSurv and DeepHit, to predict DFS and OS. The significant prognostic factors identified by our models were consistent with clinical literature, with post-operative pathologic features showing higher significance than clinical stage features. DeepSurv and DeepHit demonstrated comparable discriminative accuracy to CoxPH, with DeepSurv slightly outperforming in both DFS and OS prediction tasks, achieving C-index of 0.735 and 0.74, respectively. While these results suggested the potential of DNNs as prognostic tools for improving predictive accuracy and providing personalised guidance with respect to risk stratification, CoxPH still remains an adequately good prediction model, with the data used in this study. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# 臨床文献からの表現型化:メドキット図書館
Facilitating phenotyping from clinical texts: the medkit library ( http://arxiv.org/abs/2409.00164v1 ) ライセンス: Link先を確認 | Antoine Neuraz, Ghislain Vaillant, Camila Arias, Olivier Birot, Kim-Tam Huynh, Thibaut Fabacher, Alice Rogier, Nicolas Garcelon, Ivan Lerner, Bastien Rance, Adrien Coulet, | (参考訳) Phenotypingは、通常電子健康記録(EHR)のコレクションから、特定の、潜在的に複雑な、特性または状態に関連する個人を特定するアルゴリズムを適用することで構成される。
EHRの臨床的情報の多くはテキストに埋もれているため、EHRの二次的使用に依存する研究において、テキストからの表現が重要な役割を担っている。
しかし、臨床テキストの内容と形式の両方の不均一性と高度に専門的な側面は、この作業を特に面倒なものにし、観察研究における時間とコストの制約の源となっている。
表現型パイプラインの開発,評価,再現性を向上するために,medkitというオープンソースのPythonライブラリを開発した。
medkit操作と呼ばれる、簡単に再利用可能なソフトウェアブロックで構築されたデータ処理パイプラインの構築を可能にする。
ライブラリのコアに加えて、すでに開発したオペレーションとパイプラインを共有し、再利用と充実のために表現型コミュニティを招待します。
medkitはhttps://github.com/medkit-lib/medkitで入手できる。
Phenotyping consists in applying algorithms to identify individuals associated with a specific, potentially complex, trait or condition, typically out of a collection of Electronic Health Records (EHRs). Because a lot of the clinical information of EHRs are lying in texts, phenotyping from text takes an important role in studies that rely on the secondary use of EHRs. However, the heterogeneity and highly specialized aspect of both the content and form of clinical texts makes this task particularly tedious, and is the source of time and cost constraints in observational studies. To facilitate the development, evaluation and reproductibility of phenotyping pipelines, we developed an open-source Python library named medkit. It enables composing data processing pipelines made of easy-to-reuse software bricks, named medkit operations. In addition to the core of the library, we share the operations and pipelines we already developed and invite the phenotyping community for their reuse and enrichment. medkit is available at https://github.com/medkit-lib/medkit | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# 推論、干渉、不変性:量子フーリエ変換がデータからどのように学習するか
Inference, interference and invariance: How the Quantum Fourier Transform can help to learn from data ( http://arxiv.org/abs/2409.00172v1 ) ライセンス: Link先を確認 | David Wakeham, Maria Schuld, | (参考訳) 典型的な量子アルゴリズムからインスピレーションを得て、機械学習のためのヒューリスティックを設計するにはどうすればよいのか?
Deutsch-Josza から Shor のアルゴリズムに共通する青写真は、ラベル付き情報をオラクルを介して重畳し、フーリエ空間に干渉し、測定することである。
本稿では,この干渉戦略が,有限データサンプルから基底真理への一般化にどのように役立つかを理解することを目的とする。
本研究の枠組みは隠れサブグループ問題 (HSP) を中心に構築され, オラクルを古典的な学習データに置き換えることで学習課題に転換する。
HSPを解くための標準的な量子アルゴリズムは、量子フーリエ変換を用いて不変部分空間、すなわち隠れ対称性が現れるヒルベルト空間の部分集合を公開する。
この知見に基づいて、この不変部分空間にデータを「比較」する推論原理を提案し、量子状態の重複による具体的な実装を提案する。
このことが、機械学習アプリケーションに対称性を活用できる、よく動機付けられた量子ヒューリスティックに繋がることを期待しています。
How can we take inspiration from a typical quantum algorithm to design heuristics for machine learning? A common blueprint, used from Deutsch-Josza to Shor's algorithm, is to place labeled information in superposition via an oracle, interfere in Fourier space, and measure. In this paper, we want to understand how this interference strategy can be used for inference, i.e. to generalize from finite data samples to a ground truth. Our investigative framework is built around the Hidden Subgroup Problem (HSP), which we transform into a learning task by replacing the oracle with classical training data. The standard quantum algorithm for solving the HSP uses the Quantum Fourier Transform to expose an invariant subspace, i.e., a subset of Hilbert space in which the hidden symmetry is manifest. Based on this insight, we propose an inference principle that "compares" the data to this invariant subspace, and suggest a concrete implementation via overlaps of quantum states. We hope that this leads to well-motivated quantum heuristics that can leverage symmetries for machine learning applications. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# LiDAR支援レーダ画像強調のための逆ネットワーク生成手法
A Generative Adversarial Network-based Method for LiDAR-Assisted Radar Image Enhancement ( http://arxiv.org/abs/2409.00196v1 ) ライセンス: Link先を確認 | Thakshila Thilakanayake, Oscar De Silva, Thumeera R. Wanasinghe, George K. Mann, Awantha Jayasiri, | (参考訳) 本稿では,レーダ画像強調のためのGAN(Generative Adversarial Network)に基づくアプローチを提案する。
レーダーセンサーは、悪天候下での運用には頑丈だが、自動運転車(AV)への適用は、通常、低解像度のデータによって制限される。
本研究の主な目的は、レーダー画像を拡張し、環境の詳細と特徴をより正確に表現し、AVにおけるより正確な物体識別を容易にすることである。
提案手法は,高分解能2次元投影光検出・測光(LiDAR)点雲を地上の真理画像として,低分解能レーダ画像を入力としてGANを訓練する。
地上の真理像は2つの主要な段階から得られた。
まず、生のLiDARスキャンを蓄積してLiDAR点雲マップを生成する。
次に、2次元投影されたLiDAR点雲を得るために、カスタマイズされたLiDAR点雲の収穫・投射法を採用した。
提案手法の推論過程はレーダー画像にのみ依存し,その拡張版を生成する。
提案手法の有効性は,定性的および定量的な結果によって実証される。
提案手法は, 気象条件下であっても, 入力レーダ画像と比較して, より鮮明なオブジェクト表現で高画質な画像を生成することができることを示す。
This paper presents a generative adversarial network (GAN) based approach for radar image enhancement. Although radar sensors remain robust for operations under adverse weather conditions, their application in autonomous vehicles (AVs) is commonly limited by the low-resolution data they produce. The primary goal of this study is to enhance the radar images to better depict the details and features of the environment, thereby facilitating more accurate object identification in AVs. The proposed method utilizes high-resolution, two-dimensional (2D) projected light detection and ranging (LiDAR) point clouds as ground truth images and low-resolution radar images as inputs to train the GAN. The ground truth images were obtained through two main steps. First, a LiDAR point cloud map was generated by accumulating raw LiDAR scans. Then, a customized LiDAR point cloud cropping and projection method was employed to obtain 2D projected LiDAR point clouds. The inference process of the proposed method relies solely on radar images to generate an enhanced version of them. The effectiveness of the proposed method is demonstrated through both qualitative and quantitative results. These results show that the proposed method can generate enhanced images with clearer object representation compared to the input radar images, even under adverse weather conditions. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# 量子微分可能性測度:プロジェクター対状態最大化
Quantum distinguishability measures: projectors vs. states maximization ( http://arxiv.org/abs/2409.00198v1 ) ライセンス: Link先を確認 | Adrian A. Budini, Ruynet L. de Matos Filho, Marcelo F. Santos, | (参考訳) 2つの量子状態の区別性は、そのトレース距離の観点から定義することができる。
この定義の運用上の意味は、計測プロジェクタの最大化である。
ここでは、プロジェクタの代わりに正規化状態(密度行列)の最大化に基づく可微分性の別の定義を導入する。
この手順は、通常の 1-ノルムに基づくアプローチとは対照的に、無限ノルムに基づく距離(二つの状態の間の距離)につながることが示されている。
凸性、単調性、ユニタリ変換の下での不変性といった性質が満たされる。
古典的確率と仮説テストシナリオの最大化に基づく等価な運用実装も確立されている。
完全に正の変換の作用を考えるとき、縮約性はユニタリ写像に対してのみ与えられる。
この特徴により、提案した微分可能性測度で記述できる非ユニタリ写像の量子性の測度を導入でき、収縮度からの最大偏差に対応することができる。
特に、主な結果と結論が維持される。
The distinguishability between two quantum states can be defined in terms of their trace distance. The operational meaning of this definition involves a maximization over measurement projectors. Here we introduce an alternative definition of distinguishability which, instead of projectors, is based on maximization over normalized states (density matrices). It is shown that this procedure leads to a distance (between two states) that, in contrast to the usual approach based on a 1-norm, is based on an infinite-norm. Properties such as convexity, monotonicity, and invariance under unitary transformations are fulfilled. Equivalent operational implementations based on maximization over classical probabilities and hypothesis testing scenarios are also established. When considering the action of completely positive transformations contractivity is only granted for unital maps. This feature allows us to introduce a measure of the quantumness of non-unital maps that can be written in terms of the proposed distinguishability measure and corresponds to the maximal possible deviation from contractivity. Particular examples sustain the main results and conclusions. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# コードの意図しないセキュリティ欠陥:根本原因分析による自動防御
Unintentional Security Flaws in Code: Automated Defense via Root Cause Analysis ( http://arxiv.org/abs/2409.00199v1 ) ライセンス: Link先を確認 | Nafis Tanveer Islam, Mazal Bethany, Dylan Manuel, Murtuza Jadliwala, Peyman Najafirad, | (参考訳) ソフトウェアセキュリティは依然として重要な問題であり、特にジュニア開発者は、セキュリティプラクティスに関する包括的な知識を欠いていることが多いため、コードベースに貢献している。
開発者が積極的にセキュアなコードを書くのを助けるツールは存在するが、開発者が脆弱性のあるコードを修正するのを手助けする実際の効果はほとんど測定されていない。
さらに、これらのアプローチは、脆弱性の分類とローカライズに重点を置いており、問題の根本原因である特定のコードセグメントを強調しない。
これらの課題に対処するため,我々は,ジュニアディベロッパがコードを保護する上で,既存の手法の有効性を評価する総合的研究を行った。
5種類のセキュリティ脆弱性を調査した結果、現在のツールによって、脆弱性のあるコードの36.2\%しか確保できなかったことが判明した。
これらの参加者からの質問の結果はさらに、脆弱性の根本原因であるコードを知らないことが、脆弱性のあるコードの修復における主要な課題の1つであることを示唆している。
そこで我々は,脆弱性分類とローカライゼーションのためのグラフ畳み込みネットワーク(GCN)とT5言語モデル埋め込みを組み合わせた,自動脆弱性根本原因(RC)ツールキットT5-RCGCNを開発した。
さらに、脆弱性の根本原因であるコードセグメントを特定するためにDeepLiftSHAPを統合しました。
3つのデータセットで56人のジュニア開発者を対象に、T5-RCGCNをテストしました。
このツールを使用する開発者は、脆弱性の根本原因のより深い理解を得たため、独立してコードを保護する能力が17.0\%向上した。
これらの結果は、即時セキュリティ強化と長期的な開発者スキル向上の両面でのツールの可能性を示している。
Software security remains a critical concern, particularly as junior developers, often lacking comprehensive knowledge of security practices, contribute to codebases. While there are tools to help developers proactively write secure code, their actual effectiveness in helping developers fix their vulnerable code remains largely unmeasured. Moreover, these approaches typically focus on classifying and localizing vulnerabilities without highlighting the specific code segments that are the root cause of the issues, a crucial aspect for developers seeking to fix their vulnerable code. To address these challenges, we conducted a comprehensive study evaluating the efficacy of existing methods in helping junior developers secure their code. Our findings across five types of security vulnerabilities revealed that current tools enabled developers to secure only 36.2\% of vulnerable code. Questionnaire results from these participants further indicated that not knowing the code that was the root cause of the vulnerability was one of their primary challenges in repairing the vulnerable code. Informed by these insights, we developed an automated vulnerability root cause (RC) toolkit called T5-RCGCN, that combines T5 language model embeddings with a graph convolutional network (GCN) for vulnerability classification and localization. Additionally, we integrated DeepLiftSHAP to identify the code segments that were the root cause of the vulnerability. We tested T5-RCGCN with 56 junior developers across three datasets, showing a 28.9\% improvement in code security compared to previous methods. Developers using the tool also gained a deeper understanding of vulnerability root causes, resulting in a 17.0\% improvement in their ability to secure code independently. These results demonstrate the tool's potential for both immediate security enhancement and long-term developer skill growth. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# クリエイティブ・サイコメトリック・アイテムジェネレータ:大規模言語モデルを用いたアイテム生成と検証のためのフレームワーク
The creative psychometric item generator: a framework for item generation and validation using large language models ( http://arxiv.org/abs/2409.00202v1 ) ライセンス: Link先を確認 | Antonio Laverghetta Jr., Simone Luchini, Averie Linell, Roni Reiter-Palmon, Roger Beaty, | (参考訳) 大規模言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために、ますます使われています。
LLMの創造性について多くの先行研究が行われてきたが、現代経済における創造性の中心的役割にもかかわらず、人間にとって有効な創造性評価を作成できるかどうかについてはほとんど研究されていない。
我々は,創造的問題解決(CPS)タスクという,古典的な自由責任な創造性テストのための,テスト項目(クエスト)を作成するための心理的にインスパイアされたフレームワークを開発する。
我々のフレームワークであるクリエイティブ・サイコメトリック・アイテムジェネレータ(CPIG)は、LCMベースのアイテムジェネレータと評価器を組み合わせて、CPSアイテムを書くための新しいプロンプトを反復的に作成する。
CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。
我々の発見は、人間とAIのための有効で信頼性の高いクリエイティビティテストを自動的に生成するためにLLMを使うことに影響を及ぼす。
Increasingly, large language models (LLMs) are being used to automate workplace processes requiring a high degree of creativity. While much prior work has examined the creativity of LLMs, there has been little research on whether they can generate valid creativity assessments for humans despite the increasingly central role of creativity in modern economies. We develop a psychometrically inspired framework for creating test items (questions) for a classic free-response creativity test: the creative problem-solving (CPS) task. Our framework, the creative psychometric item generator (CPIG), uses a mixture of LLM-based item generators and evaluators to iteratively develop new prompts for writing CPS items, such that items from later iterations will elicit more creative responses from test takers. We find strong empirical evidence that CPIG generates valid and reliable items and that this effect is not attributable to known biases in the evaluation process. Our findings have implications for employing LLMs to automatically generate valid and reliable creativity tests for humans and AI. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# MedDet:効率的な頚椎椎間板ヘルニア検出のための生成的対側蒸留法
MedDet: Generative Adversarial Distillation for Efficient Cervical Disc Herniation Detection ( http://arxiv.org/abs/2409.00204v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Nengmin Yi, Shengbo Tan, Ying Cai, Yi Yang, Lei Xu, Qingtai Li, Zhang Yi, Daji Ergu, Yang Zhao, | (参考訳) 頚椎椎間板ヘルニア(Cervical disc herniation, CDH)は、筋骨格障害の1つである。
医用画像の自動検出の進歩にもかかわらず、これらの手法の現実的な応用を妨げる2つの大きな課題がある。
第一に、計算の複雑さとリソース要求は、リアルタイムアプリケーションにとって大きなギャップを生じさせる。
第二に、MRIのノイズは特徴抽出を歪ませることで既存の手法の有効性を低下させる。
まず, モデル圧縮と効率向上のために, マルチ教師による単一学習知識の蒸留を活用するMedDetを導入した。
さらに、MRIのノイズ耐性を改善するために、2階のnmODEをカスタマイズする。
最後に,CDH-1848データセットの総合的な実験を行い,従来の手法と比較して最大5%のmAP改善を実現した。
提案手法は,約67.8%のパラメータを,36.9%のFLOPを教師モデルと比較し,推論速度を5倍以上に向上させる。
これらの進歩はCDH自動検出の性能と効率を大幅に向上させ、将来的な臨床応用の可能性を示している。
プロジェクトのWebサイト https://steve-zeyu-zhang.github.io/MedDet
Cervical disc herniation (CDH) is a prevalent musculoskeletal disorder that significantly impacts health and requires labor-intensive analysis from experts. Despite advancements in automated detection of medical imaging, two significant challenges hinder the real-world application of these methods. First, the computational complexity and resource demands present a significant gap for real-time application. Second, noise in MRI reduces the effectiveness of existing methods by distorting feature extraction. To address these challenges, we propose three key contributions: Firstly, we introduced MedDet, which leverages the multi-teacher single-student knowledge distillation for model compression and efficiency, meanwhile integrating generative adversarial training to enhance performance. Additionally, we customize the second-order nmODE to improve the model's resistance to noise in MRI. Lastly, we conducted comprehensive experiments on the CDH-1848 dataset, achieving up to a 5% improvement in mAP compared to previous methods. Our approach also delivers over 5 times faster inference speed, with approximately 67.8% reduction in parameters and 36.9% reduction in FLOPs compared to the teacher model. These advancements significantly enhance the performance and efficiency of automated CDH detection, demonstrating promising potential for future application in clinical practice. See project website https://steve-zeyu-zhang.github.io/MedDet | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# RING#: Roto-translation Equivariant Gram Learningを用いたPR-by-PEグローバルローカライゼーション
RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning ( http://arxiv.org/abs/2409.00206v1 ) ライセンス: Link先を確認 | Sha Lu, Xuecheng Xu, Yuxuan Wu, Haojian Lu, Xieyuanli Chen, Rong Xiong, Yue Wang, | (参考訳) カメラやLiDARなどの搭載センサーを用いたグローバルなローカライゼーションは、GPS信号が信頼できない場合に自律運転やロボット工学の応用に不可欠である。
ほとんどのアプローチは、シーケンシャルな位置認識とポーズ推定によって、グローバルなローカライゼーションを実現する。
そのうちのいくつかはタスクごとに個別のモデルを訓練し、他方は2つのヘッドを持つ1つのモデルを採用し、タスク固有の損失を個別にトレーニングする。
しかし、位置認識の精度は位置認識の成功に大きく依存しており、視点や環境の外観に大きな変化があるシナリオではしばしば失敗する。
これにより、最終ポーズ推定はローカライゼーションを非効率にする。
そこで本研究では,ポーズ推定から直接位置認識を導出することにより,グローバルな位置推定精度を向上させる新しいパラダイムであるPR-by-PEローカライゼーションを提案する。
我々のフレームワークであるRING#は、鳥眼ビュー(BEV)空間で動作するエンドツーエンドのPR-by-PEローカライゼーションネットワークであり、視覚とLiDARセンサーの両方をサポートするように設計されている。
BEV特徴量から2つの同変表現を学習するための理論的基礎を導入し、世界規模で収束し、計算的に効率的なポーズ推定を可能にする。
NCLTとオックスフォードデータセットの総合的な実験は、視覚とLiDARの両モードで、我々の手法が最先端のアプローチよりも優れていることを示した。
さらに,本手法の有効性を確認するため,広範囲な解析を行った。
コードは公開されます。
Global localization using onboard perception sensors, such as cameras and LiDARs, is crucial in autonomous driving and robotics applications when GPS signals are unreliable. Most approaches achieve global localization by sequential place recognition and pose estimation. Some of them train separate models for each task, while others employ a single model with dual heads, trained jointly with separate task-specific losses. However, the accuracy of localization heavily depends on the success of place recognition, which often fails in scenarios with significant changes in viewpoint or environmental appearance. Consequently, this renders the final pose estimation of localization ineffective. To address this, we propose a novel paradigm, PR-by-PE localization, which improves global localization accuracy by deriving place recognition directly from pose estimation. Our framework, RING#, is an end-to-end PR-by-PE localization network operating in the bird's-eye view (BEV) space, designed to support both vision and LiDAR sensors. It introduces a theoretical foundation for learning two equivariant representations from BEV features, which enables globally convergent and computationally efficient pose estimation. Comprehensive experiments on the NCLT and Oxford datasets across both vision and LiDAR modalities demonstrate that our method outperforms state-of-the-art approaches. Furthermore, we provide extensive analyses to confirm the effectiveness of our method. The code will be publicly released. | 翻訳日:2024-09-06 16:37:47 公開日:2024-08-30 |
# 意味的因果グラフを用いたインストラクションファインタニングによる大規模言語モデルにおけるイベント推論の強化
Enhancing Event Reasoning in Large Language Models through Instruction Fine-Tuning with Semantic Causal Graphs ( http://arxiv.org/abs/2409.00209v1 ) ライセンス: Link先を確認 | Mazal Bethany, Emet Bethany, Brandon Wherry, Cho-Yu Chiang, Nishant Vishwamitra, Anthony Rios, Peyman Najafirad, | (参考訳) イベント検出とテキスト推論は、さまざまな領域にわたる重要な応用となっている。
LLMは近年、推論能力の顕著な進歩を見せているが、特にイベントトリガーとタイプ間の因果関係を考慮したトレーニング方法が欠如しているため、イベント検出に苦慮することが多い。
この課題に対処するために、イベント検出のための命令微調整LDMの新しいアプローチを提案する。
本手法ではセマンティック因果グラフ(SCG)を導入し,テキスト内の因果関係と文脈情報の両方を抽出する。
イベントトリガとイベントタイプとの関係に着目した微調整LDMのためのSCG命令を提案し,Low-Rank Adaptation (LoRA) を用いてLCMの一般的な推論能力の維持を支援する。
評価の結果,SCG 命令を用いた LLM の訓練は,イベントトリガー分類において,平均35.69 % の精度で標準命令の微調整よりも優れていた。
特に、当社の微調整Mistral 7Bモデルは、イベントトリガー識別の平均31.01\%、イベントトリガー分類37.40\%、イベント分類16.43\%でGPT-4を上回ります。
6つのベンチマークで平均2.03ポイントの最小値しか得られない。
本研究は,各種データセットにまたがる事象検出タスクにおいて,複数のLSMを探索し,学習戦略,訓練アプローチについて検討する。
Event detection and text reasoning have become critical applications across various domains. While LLMs have recently demonstrated impressive progress in reasoning abilities, they often struggle with event detection, particularly due to the absence of training methods that consider causal relationships between event triggers and types. To address this challenge, we propose a novel approach for instruction fine-tuning LLMs for event detection. Our method introduces Semantic Causal Graphs (SCGs) to capture both causal relationships and contextual information within text. Building off of SCGs, we propose SCG Instructions for fine-tuning LLMs by focusing on event triggers and their relationships to event types, and employ Low-Rank Adaptation (LoRA) to help preserve the general reasoning abilities of LLMs. Our evaluations demonstrate that training LLMs with SCG Instructions outperforms standard instruction fine-tuning by an average of 35.69\% on Event Trigger Classification. Notably, our fine-tuned Mistral 7B model also outperforms GPT-4 on key event detection metrics by an average of 31.01\% on Event Trigger Identification, 37.40\% on Event Trigger Classification, and 16.43\% on Event Classification. We analyze the retention of general capabilities, observing only a minimal average drop of 2.03 points across six benchmarks. This comprehensive study investigates multiple LLMs for the event detection task across various datasets, prompting strategies, and training approaches. | 翻訳日:2024-09-06 16:18:34 公開日:2024-08-30 |
# LLMのための定義強化ヒューリスティック・プロンプティングによる文書レベルの引数抽出の強化
Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs ( http://arxiv.org/abs/2409.00214v1 ) ライセンス: Link先を確認 | Tongyue Sun, Jiayi Xiao, | (参考訳) イベント引数抽出(EAE)は、構造化されていないテキストから構造化された情報を抽出する上で重要であるが、実際の文書レベルのEAEの複雑さのため、依然として困難である。
本研究では,文書レベルEAEにおけるLarge Language Models (LLMs) の性能向上を目的とした定義拡張ヒューリスティック・プロンプト(DHP)手法を提案する。
提案手法は引数抽出関連定義とヒューリスティックルールを統合し,抽出プロセスのガイド,エラー伝搬の低減,タスク精度の向上を実現する。
また、人間の推論をシミュレートするためにChain-of-Thought(CoT)法を使用し、複雑な問題を管理可能なサブプロブレムに分解する。
実験により,本手法は既存のプロンプト手法よりも一定の性能向上を実現し,文書レベルのAEデータセット上での少数ショット教師付き学習を実現していることがわかった。
DHP法はLLMの一般化能力を高め、大きな注釈付きデータセットへの依存を減らし、文書レベルのEAEの新しい研究視点を提供する。
Event Argument Extraction (EAE) is pivotal for extracting structured information from unstructured text, yet it remains challenging due to the complexity of real-world document-level EAE. We propose a novel Definition-augmented Heuristic-driven Prompting (DHP) method to enhance the performance of Large Language Models (LLMs) in document-level EAE. Our method integrates argument extraction-related definitions and heuristic rules to guide the extraction process, reducing error propagation and improving task accuracy. We also employ the Chain-of-Thought (CoT) method to simulate human reasoning, breaking down complex problems into manageable sub-problems. Experiments have shown that our method achieves a certain improvement in performance over existing prompting methods and few-shot supervised learning on document-level EAE datasets. The DHP method enhances the generalization capability of LLMs and reduces reliance on large annotated datasets, offering a novel research perspective for document-level EAE. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 物体プロミネンスを用いた定量的画像解析の構造化
Structuring Quantitative Image Analysis with Object Prominence ( http://arxiv.org/abs/2409.00216v1 ) ライセンス: Link先を確認 | Christian Arnold, Andreas Küpfer, | (参考訳) フォトグラファーや画像素材の編集者が画像を作成すると、前景の物や背景の物から何が重要なのかを述べる。
このオブジェクトの優位性は、定性的研究者にとって重要な分析カテゴリであるが、最近の自動画像解析への定量的アプローチは、この重要な区別をしていないが、画像のすべての領域を同じように扱う。
データとして画像を分析するための重要なステップとして,オブジェクトの優位性について慎重に検討する。
そのモデリングでは、対象を定義し、人間の目がどれだけ注意を払うかを測定し測定する必要がある。
我々の手法は質的な分析と定量的アプローチのスケーラビリティを組み合わせる。
異なる実装 – オブジェクトサイズと中心性,ピクセルのイメージ深度,高精細なイメージ領域など – によるオブジェクトの優位性を実証し,2つのアプリケーションでアプローチの有用性を示す。
まず、画像に基づいて8つのアメリカの新聞のイデオロギーを拡大する。
第2に、2016年と2020年の米国大統領選挙のキャンペーンビデオにおける女性の優位性を分析します。
われわれの記事は、概念的に意味のある方法で画像データの研究を熱心に支援してくれることを願っている。
When photographers and other editors of image material produce an image, they make a statement about what matters by situating some objects in the foreground and others in the background. While this prominence of objects is a key analytical category to qualitative scholars, recent quantitative approaches to automated image analysis have not yet made this important distinction but treat all areas of an image similarly. We suggest carefully considering objects' prominence as an essential step in analyzing images as data. Its modeling requires defining an object and operationalizing and measuring how much attention a human eye would pay. Our approach combines qualitative analyses with the scalability of quantitative approaches. Exemplifying object prominence with different implementations -- object size and centeredness, the pixels' image depth, and salient image regions -- we showcase the usefulness of our approach with two applications. First, we scale the ideology of eight US newspapers based on images. Second, we analyze the prominence of women in the campaign videos of the U.S. presidential races in 2016 and 2020. We hope that our article helps all keen to study image data in a conceptually meaningful way at scale. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# ProGRes: ASR n-Best上でのプログレッシブな生成リコーディング
ProGRes: Prompted Generative Rescoring on ASR n-Best ( http://arxiv.org/abs/2409.00217v1 ) ライセンス: Link先を確認 | Ada Defne Tur, Adel Moumen, Mirco Ravanelli, | (参考訳) 大規模言語モデル(LLM)は,ビーム探索過程において発生するn-best仮説を効果的に再現することにより,音声認識の性能を向上させる能力を示した。
しかし、近年のジェネレーティブ・インストラクション・チューニング LLM を仮説再構成に活用する最善の方法はいまだ不明である。
本稿では, 命令調整型LLMを用いて, 適切にプロンプトされたLLMを用いて生成した新しい仮説を用いて, n-best音声認識仮説を動的に拡張する手法を提案する。
具体的には、信頼性スコア、LLMシークエンススコア、およびプロンプトベースの仮説生成を組み合わせた、ASR n-best Rescoringの新しいゼロショット手法を提案する。
Llama-3-Instruct, GPT-3.5 Turbo, GPT-4 Turbo をプロンプトベースジェネレータとして, Llama-3 をシーケンススコアラ LLM として比較した。
単語誤り率 (WER) は, 5%から25%の範囲で有意に改善した。
Large Language Models (LLMs) have shown their ability to improve the performance of speech recognizers by effectively rescoring the n-best hypotheses generated during the beam search process. However, the best way to exploit recent generative instruction-tuned LLMs for hypothesis rescoring is still unclear. This paper proposes a novel method that uses instruction-tuned LLMs to dynamically expand the n-best speech recognition hypotheses with new hypotheses generated through appropriately-prompted LLMs. Specifically, we introduce a new zero-shot method for ASR n-best rescoring, which combines confidence scores, LLM sequence scoring, and prompt-based hypothesis generation. We compare Llama-3-Instruct, GPT-3.5 Turbo, and GPT-4 Turbo as prompt-based generators with Llama-3 as sequence scorer LLM. We evaluated our approach using different speech recognizers and observed significant relative improvement in the word error rate (WER) ranging from 5% to 25%. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# モデル形不確かさを用いた潜在空間ダイナミクスの学習:確率的低次モデリング手法
Learning Latent Space Dynamics with Model-Form Uncertainties: A Stochastic Reduced-Order Modeling Approach ( http://arxiv.org/abs/2409.00220v1 ) ライセンス: Link先を確認 | Jin Yi Yong, Rudy Geelen, Johann Guilleminot, | (参考訳) 本稿では,演算子推論手法を用いた複素系の低次モデリングにおけるモデル形式不確かさの表現と定量化のための確率論的アプローチを提案する。
このような不確実性は、適切な状態空間表現の選択、多くの低次モデリング手法の基礎となるプロジェクションステップ、あるいは訓練中に行われた考慮の副産物として生じる。
文献における先行研究に続いて、提案手法は、プロジェクション行列のランダム化により近似空間を拡張することにより、これらの不確実性を捉える。
これは、リーマン射影作用素と、スティーフェル多様体の部分集合上で作用するリトラクション作用素と、情報理論の定式化を組み合わせることで達成される。
提案手法の有効性は, 推算演算子に対するモデル形状の不確実性の影響を同定し, 定量化することにより, 流体力学における正準問題に対して評価される。
This paper presents a probabilistic approach to represent and quantify model-form uncertainties in the reduced-order modeling of complex systems using operator inference techniques. Such uncertainties can arise in the selection of an appropriate state-space representation, in the projection step that underlies many reduced-order modeling methods, or as a byproduct of considerations made during training, to name a few. Following previous works in the literature, the proposed method captures these uncertainties by expanding the approximation space through the randomization of the projection matrix. This is achieved by combining Riemannian projection and retraction operators - acting on a subset of the Stiefel manifold - with an information-theoretic formulation. The efficacy of the approach is assessed on canonical problems in fluid mechanics by identifying and quantifying the impact of model-form uncertainties on the inferred operators. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 大規模言語モデルはオープンターゲットスタンス検出に対処できるか?
Can Large Language Models Address Open-Target Stance Detection? ( http://arxiv.org/abs/2409.00222v1 ) ライセンス: Link先を確認 | Abu Ubaida Akash, Ahmed Fahmy, Amine Trabelsi, | (参考訳) スタンス検出(SD)は、テキストの位置を目標に向けて評価し、通常、"favor"、"against"、"neutral"とラベル付けされる。
オープンターゲットスタンス検出(OTSD, Open-Target Stance Detection)を導入する。
GPT-3.5, Llama 3, Mistral などの大規模言語モデル (LLMs) の評価を行い, その性能を, 事前定義された目標を用いたTSE (Target-Stance extract) アプローチと比較した。
LLMは、実際のターゲットが明示的に記述され、テキストに明示的に言及されていないときに、ターゲット生成においてTSEよりもパフォーマンスがよい。
姿勢検出では、LLMは明示的なシナリオでは優れているが、非明示的なシナリオでは失敗する。
Stance detection (SD) assesses a text's position towards a target, typically labeled as "favor," "against," or "neutral." We introduce Open-Target Stance Detection (OTSD), where targets are neither seen during training nor provided as input. Evaluating Large Language Models (LLMs) like GPT-3.5, Llama 3, and Mistral, we compare their performance with the Target-Stance Extraction (TSE) approach, which has the advantage of using predefined targets. LLMs perform better than TSE in target generation when the real target is explicitly and not explicitly mentioned in the text. For stance detection, LLMs perform better in explicit scenarios but fail in non-explicit ones. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 移動学習に基づく表面異常検出のためのハイブリッド量子ニューラルネットワークモデル
Transfer Learning Based Hybrid Quantum Neural Network Model for Surface Anomaly Detection ( http://arxiv.org/abs/2409.00228v1 ) ライセンス: Link先を確認 | Sounak Bhowmik, Himanshu Thapliyal, | (参考訳) データ量の急速な増加は、ディープラーニングモデルのサイズと複雑さを増大させた。
これらのモデルは今や、これまで以上にリソース集約的で、トレーニングに時間がかかる。
本稿では,量子トランスファー学習(QTL)に基づく古典モデルのパラメータ数を,性能を損なわずに大幅に削減する手法を提案する。
パラメータの数を減らすことで、過度に適合する問題やトレーニング時間を減らし、モデルの柔軟性と応答速度を向上する。
例えば、我々は、資源集約的で柔軟性の低い異常検出システム(ADS)を量子移動学習に基づくハイブリッドモデルに置き換え、新しい異常の頻繁な発生に対処できることを示すために、表面異常検出問題を選択した。
実験の結果,トレーニング可能なパラメータの総数を初期モデルの90%まで削減できることがわかった。
The rapid increase in the volume of data increased the size and complexity of the deep learning models. These models are now more resource-intensive and time-consuming for training than ever. This paper presents a quantum transfer learning (QTL) based approach to significantly reduce the number of parameters of the classical models without compromising their performance, sometimes even improving it. Reducing the number of parameters reduces overfitting problems and training time and increases the models' flexibility and speed of response. For illustration, we have selected a surface anomaly detection problem to show that we can replace the resource-intensive and less flexible anomaly detection system (ADS) with a quantum transfer learning-based hybrid model to address the frequent emergence of new anomalies better. We showed that we could reduce the total number of trainable parameters up to 90% of the initial model without any drop in performance. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 空間認識拡散モデルによる大域的電場再構成とスパース観測
Spatially-Aware Diffusion Models with Cross-Attention for Global Field Reconstruction with Sparse Observations ( http://arxiv.org/abs/2409.00230v1 ) ライセンス: Link先を確認 | Yilin Zhuang, Sibo Cheng, Karthik Duraisamy, | (参考訳) 拡散モデルは、複雑な分布を表現し、不確実性を組み込む能力に注目されており、ノイズや不完全データの存在下での堅牢な予測に理想的である。
本研究では,部分的な観測から完全な空間場を推定するフィールド再構成タスクにおいて,スコアに基づく拡散モデルを開発し,拡張する。
本研究では,観測された領域と観測されていない領域間のトラクタブルマッピングを構築するために,スパース観測と補間フィールドの学習可能な統合を帰納バイアスとして利用する条件符号化手法を提案する。
センシング表現の洗練と時間次元の未解決により、任意の移動センサを処理し、フィールドを効果的に再構築することができる。
さらに,静的および時間依存PDEにおける決定論的補間法に対するアプローチの総合的なベンチマークを行う。
本研究は, 様々なサンプリングハイパーパラメータ, ノイズレベル, コンディショニング手法における性能評価のための, 強いベースラインのギャップに対処する試みである。
提案手法は,ノイズのないデータに優れるが,クロスアテンションを持つ拡散モデルと条件エンコーディングにより,雑音条件下での他の手法よりも優れることを示す。
さらに、拡散モデルと決定論的手法の両方が、定常問題に対する精度と計算コストの数値的アプローチを超越している。
また, アンサンブルサンプリングを用いた共分散に基づく修正作業において, モデルが再現可能かどうかを把握し, 融合結果の精度を向上させる能力を示す。
Diffusion models have gained attention for their ability to represent complex distributions and incorporate uncertainty, making them ideal for robust predictions in the presence of noisy or incomplete data. In this study, we develop and enhance score-based diffusion models in field reconstruction tasks, where the goal is to estimate complete spatial fields from partial observations. We introduce a condition encoding approach to construct a tractable mapping mapping between observed and unobserved regions using a learnable integration of sparse observations and interpolated fields as an inductive bias. With refined sensing representations and an unraveled temporal dimension, our method can handle arbitrary moving sensors and effectively reconstruct fields. Furthermore, we conduct a comprehensive benchmark of our approach against a deterministic interpolation-based method across various static and time-dependent PDEs. Our study attempts to addresses the gap in strong baselines for evaluating performance across varying sampling hyperparameters, noise levels, and conditioning methods. Our results show that diffusion models with cross-attention and the proposed conditional encoding generally outperform other methods under noisy conditions, although the deterministic method excels with noiseless data. Additionally, both the diffusion models and the deterministic method surpass the numerical approach in accuracy and computational cost for the steady problem. We also demonstrate the ability of the model to capture possible reconstructions and improve the accuracy of fused results in covariance-based correction tasks using ensemble sampling. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# ロバストな小児胸部X線分類モデル構築のための自己教師付き学習
Self-Supervised Learning for Building Robust Pediatric Chest X-ray Classification Models ( http://arxiv.org/abs/2409.00231v1 ) ライセンス: Link先を確認 | Sheng Cheng, Zbigniew A. Starosolski, Devika Subramanian, | (参考訳) 近年のDeep Learning for Medical Artificial Intelligenceの進歩により、成人胸部X線(CXR)解釈における臨床専門家の診断能力とモデルが一致することが示されている。
しかし、大きな注釈付き小児画像データセットが不足しているため、小児領域での応用は依然として限られている。
さらに、異なる病院にまたがる小児CXR画像の変動や、0歳から18歳までの多彩な年齢差から大きな課題が生じる。
これらの課題に対処するために,移動学習と自己教師付きコントラスト学習を組み合わせた新しいアプローチ SCC を提案する。
十分に訓練された成人CXRモデルからの移行学習は、小児訓練データの不足に関連する問題を緩和する。
コントラスト強調によるコントラスト学習は、肺に焦点を当て、画像のバリエーションの影響を減らし、様々な小児科のCXR画像に高品質な埋め込みを生成する。
我々は、ある小児科のCXRデータセットでSCCをトレーニングし、異なるソースから他の2つの小児科のデータセットでその性能を評価する。
以上の結果から,SCCのアウト・オブ・ディストリビューション(ゼロショット)性能は,AUCの13.6%,テストデータセット34.6%以上であることがわかった。
さらに、ラベル付き画像の10倍の少ない撮影学習では、SCCはラベル付きデータセット全体をトレーニングした正規転送学習のパフォーマンスにマッチする。
本フレームワークの汎用性を検証するため,3つのベンチマーク乳がんデータセットの性能を検証した。
自然画像に基づいて訓練され、1つの乳房データセットで微調整されたモデルから始めると、SCCはAUCの3.6%、ゼロショット学習の5.5%で、他の2つのデータセットで完全に教師付き学習ベースラインを上回っている。
Recent advancements in deep learning for Medical Artificial Intelligence have demonstrated that models can match the diagnostic performance of clinical experts in adult chest X-ray (CXR) interpretation. However, their application in the pediatric context remains limited due to the scarcity of large annotated pediatric image datasets. Additionally, significant challenges arise from the substantial variability in pediatric CXR images across different hospitals and the diverse age range of patients from 0 to 18 years. To address these challenges, we propose SCC, a novel approach that combines transfer learning with self-supervised contrastive learning, augmented by an unsupervised contrast enhancement technique. Transfer learning from a well-trained adult CXR model mitigates issues related to the scarcity of pediatric training data. Contrastive learning with contrast enhancement focuses on the lungs, reducing the impact of image variations and producing high-quality embeddings across diverse pediatric CXR images. We train SCC on one pediatric CXR dataset and evaluate its performance on two other pediatric datasets from different sources. Our results show that SCC's out-of-distribution (zero-shot) performance exceeds regular transfer learning in terms of AUC by 13.6% and 34.6% on the two test datasets. Moreover, with few-shot learning using 10 times fewer labeled images, SCC matches the performance of regular transfer learning trained on the entire labeled dataset. To test the generality of the framework, we verify its performance on three benchmark breast cancer datasets. Starting from a model trained on natural images and fine-tuned on one breast dataset, SCC outperforms the fully supervised learning baseline on the other two datasets in terms of AUC by 3.6% and 5.5% in zero-shot learning. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 一様磁場中におけるローゼン・モースポテンシャルを有するギャップ付きグラフェンに基づく大質量ディラック粒子
Massive Dirac particles based on gapped graphene with Rosen-Morse potential in a uniform magnetic field ( http://arxiv.org/abs/2409.00234v1 ) ライセンス: Link先を確認 | A. Kalani, Alireza Amani, M. A. Ramzanpour, | (参考訳) 我々は,ローゼン・モースポテンシャルと外部均一磁場の存在下で,二次元平面におけるギャップ状グラフェン構造を探索する。
対応する構造を記述するために、グラフェン中の電子の伝播を相対論的フェルミオン準粒子とみなし、ディラック方程式を用いて擬スピン対称性を持つ2成分スピノルの波動関数を用いて解析する。
次に、ディラック方程式を解いて解析するために、ルジャンドル微分方程式を用いて固有値と固有ベクトルを求める。
その後、主数 \(n\) とスピン軌道 \(k\) の量子数の観点から、ローゼン・モースの係数と磁気ポテンシャルに依存するエネルギーの有界状態を得る。
そして、基底状態のエネルギースペクトルと第1励起状態のエネルギースペクトルの値を算出し、その波動関数と対応する確率を座標$r$でプロットする。
以下に示すように、2次元の波動ベクトルである$K_x$と$K_y$で表す。
最後に、エネルギーバンドは、磁気項を伴わずに、波動ベクトル$K_x$および$K_y$でプロットされる。
We explore the gapped graphene structure in the two-dimensional plane in the presence of the Rosen-Morse potential and an external uniform magnetic field. In order to describe the corresponding structure, we consider the propagation of electrons in graphene as relativistic fermion quasi-particles, and analyze it by the wave functions of two-component spinors with pseudo-spin symmetry using the Dirac equation. Next, to solve and analyze the Dirac equation, we obtain the eigenvalues and eigenvectors using the Legendre differential equation. After that, we obtain the bounded states of energy depending on the coefficients of Rosen-Morse and magnetic potentials in terms of quantum numbers of principal \(n\) and spin-orbit \(k\). Then, the values of the energy spectrum for the ground state and the first excited state are calculated, and the wave functions and the corresponding probabilities are plotted in terms of coordinates $r$. In what follows, we explore the band structure of gapped graphene by the modified dispersion relation and write it in terms of the two-dimensional wave vectors $K_x$ and $K_y$. Finally, the energy bands are plotted in terms of the wave vectors $K_x$ and $K_y$ with and without the magnetic term. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 世界規模での山火事予測のためのJULES-INFERNOの深層学習サロゲートモデル
Deep learning surrogate models of JULES-INFERNO for wildfire prediction on a global scale ( http://arxiv.org/abs/2409.00237v1 ) ライセンス: Link先を確認 | Sibo Cheng, Hector Chassagnon, Matthew Kasoar, Yike Guo, Rossella Arcucci, | (参考訳) 世界的な山火事モデルは、変化する山火事の予測と対応において重要な役割を担っている。
JULES-INFERNOは、世界規模で燃えた山火事や地域をシミュレートした、地球規模の植生と火災モデルである。
しかし、データ次元とシステムの複雑さが高いため、JULES-INFERNOの計算コストは、目に見えない初期条件による火災リスク予測に適用することが困難である。
通常、30年間JULES-INFERNOを実行している場合、ハイパフォーマンスコンピューティング(HPC)クラスタ上で数時間かかる。
このボトルネックに対処するため、この研究では、JULES-INFERNOモデルをシュロゲートし、世界的な山火事予測を高速化するDeep Learning技術に基づいて、2つのデータ駆動モデルを構築している。
より正確には、これらの機械学習モデルは、その後の地球域の燃焼を反復的に予測するための入力として、地球温度、植生密度、土壌水分、過去の予測を捉えている。
AEP(Average Error per Pixel)とSSIM(Structure similarity Index Measure)は,提案したサロゲートモデルの性能を評価する指標として使用される。
未確認シナリオのアルゴリズム性能を改善するための微調整戦略も提案されている。
計算効率(ラップトップCPU上で30年間の予測で20秒未満)と予測精度(JULES-INFERNOの出力と比較すると0.3 %以下,SSIM 98 %以上)の両面で,提案モデルの性能は高い。
Global wildfire models play a crucial role in anticipating and responding to changing wildfire regimes. JULES-INFERNO is a global vegetation and fire model simulating wildfire emissions and area burnt on a global scale. However, because of the high data dimensionality and system complexity, JULES-INFERNO's computational costs make it challenging to apply to fire risk forecasting with unseen initial conditions. Typically, running JULES-INFERNO for 30 years of prediction will take several hours on High Performance Computing (HPC) clusters. To tackle this bottleneck, two data-driven models are built in this work based on Deep Learning techniques to surrogate the JULES-INFERNO model and speed up global wildfire forecasting. More precisely, these machine learning models take global temperature, vegetation density, soil moisture and previous forecasts as inputs to predict the subsequent global area burnt on an iterative basis. Average Error per Pixel (AEP) and Structural Similarity Index Measure (SSIM) are used as metrics to evaluate the performance of the proposed surrogate models. A fine tuning strategy is also proposed in this work to improve the algorithm performance for unseen scenarios. Numerical results show a strong performance of the proposed models, in terms of both computational efficiency (less than 20 seconds for 30 years of prediction on a laptop CPU) and prediction accuracy (with AEP under 0.3\% and SSIM over 98\% compared to the outputs of JULES-INFERNO). | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 崩壊接地データを用いた事前学習型マルチモーダル幻覚検出装置
Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data ( http://arxiv.org/abs/2409.00238v1 ) ライセンス: Link先を確認 | Spencer Whitehead, Jacob Phillips, Sean Hendryx, | (参考訳) マルチモーダル言語モデルは、その出力に幻覚を示し、信頼性を制限できる。
これらの誤りを自動的に検出する能力は、それらを緩和する上で重要であるが、調査があまり行われておらず、既存の取り組みは幻覚を局所化せず、分類タスクとしてフレーミングする。
そこで本研究では,まず,モデルが幻覚テキストを局所化し,強いベースラインモデルを提示しなければならないシーケンスラベリングタスクとして,マルチモーダル幻覚検出を行う。
このタスクに対する人為的アノテーションのコストが高いことを前提として,事前学習に使用する劣化した接地データを作成することにより,これらのモデルのサンプル効率を向上させる手法を提案する。
句接地データを活用することで、接地されたスパンを置き換える幻覚を生成し、幻覚化されたテキストを生成する。
実験により、このデータによる事前学習は、微調整時のサンプル効率を向上し、グラウンドデータからの学習信号がこれらの改善に重要な役割を果たすことが示された。
Multimodal language models can exhibit hallucinations in their outputs, which limits their reliability. The ability to automatically detect these errors is important for mitigating them, but has been less explored and existing efforts do not localize hallucinations, instead framing this as a classification task. In this work, we first pose multimodal hallucination detection as a sequence labeling task where models must localize hallucinated text spans and present a strong baseline model. Given the high cost of human annotations for this task, we propose an approach to improve the sample efficiency of these models by creating corrupted grounding data, which we use for pre-training. Leveraging phrase grounding data, we generate hallucinations to replace grounded spans and create hallucinated text. Experiments show that pre-training on this data improves sample efficiency when fine-tuning, and that the learning signal from the grounding data plays an important role in these improvements. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# ハイパーグラフ簡易探索のための量子アルゴリズム
Quantum algorithms for hypergraph simplex finding ( http://arxiv.org/abs/2409.00239v1 ) ライセンス: Link先を確認 | Zhiying Yu, Shalev Ben-David, | (参考訳) ハイパーグラフへの三角形探索の一般化である, 単純度探索のための量子クエリアルゴリズムについて検討する。
この問題は階数還元性を満たす:ランク-r$ハイパーグラフの単純さを見つける量子クエリアルゴリズムは、ランク-(r-1)$ハイパーグラフの単純さを見つけるためのより高速なアルゴリズムに変換できる。
すると、ネストされたジョンソングラフの量子ウォーク(ネストされたレベルが一定数ある)が適応的な学習グラフに変換できることが示される。
次に、複雑な量子探索アルゴリズムを設計・解析するのに有用なフレームワークである$\alpha$-symmetric learning graphという概念を紹介した。
Le Gall, Nishimura, Tani (2016) の3$-simplex find に触発されて、我々は新しい手法を用いて、$O(n^{2.46})$量子クエリコストで4$-simplex find の 4$-simplex find のアルゴリズムを取得し、自明な$O(n^{2.5})$アルゴリズムを改善した。
We study the quantum query algorithms for simplex finding, a generalization of triangle finding to hypergraphs. This problem satisfies a rank-reduction property: a quantum query algorithm for finding simplices in rank-$r$ hypergraphs can be turned into a faster algorithm for finding simplices in rank-$(r-1)$ hypergraphs. We then show that every nested Johnson graph quantum walk (with any constant number of nested levels) can be converted into an adaptive learning graph. Then, we introduce the concept of $\alpha$-symmetric learning graphs, which is a useful framework for designing and analyzing complex quantum search algorithms. Inspired by the work of Le Gall, Nishimura, and Tani (2016) on $3$-simplex finding, we use our new technique to obtain an algorithm for $4$-simplex finding in rank-$4$ hypergraphs with $O(n^{2.46})$ quantum query cost, improving the trivial $O(n^{2.5})$ algorithm. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# 顔行動単位認識におけるシームズネットワークを用いた一フレーム校正
One-Frame Calibration with Siamese Network in Facial Action Unit Recognition ( http://arxiv.org/abs/2409.00240v1 ) ライセンス: Link先を確認 | Shuangquan Feng, Virginia R. de Sa, | (参考訳) 顔表情分析において、自動顔動作ユニット(AU)認識が広く用いられている。
既存のAU認識システムは、より多くのキャリブレーションを伴わずに顔が見えないように、NCG (cross-Participant non-calibrated generalization) を目標としている。
しかし、顔の属性の多様性のため、目に見えない顔の単一の画像から正確にAUのアクティベーションを推測することは、人間の専門家にとっても時には不可能である。
そこで我々は,AU認識における一フレームキャリブレーション(OFC)を提案する。各顔に対して,その中性表現の1つの画像が校正の基準画像として使用される。
この戦略により、AU認識のためのCalibrating Siamese Network(CSN)を開発し、単純なiResNet-50(IR50)バックボーンでその顕著な効果を示す。
DISFA, DISFA+ および UNBC-McMaster データセットについて、我々の OFC CSN-IR50 モデルを示す。
(a)顔特性バイアス(しわによる偏り、額面の位置、顔毛などを含む)を緩和することにより、IR50の性能を大幅に向上させる。
b) ベースラインサブトラクションのNaive OFC法を著しく上回り、また、
(c)このnoive OFCメソッドの微調整版及び
また, AU 強度推定と AU 検出の両方において,最先端の NCG モデルよりも優れていた。
Automatic facial action unit (AU) recognition is used widely in facial expression analysis. Most existing AU recognition systems aim for cross-participant non-calibrated generalization (NCG) to unseen faces without further calibration. However, due to the diversity of facial attributes across different identities, accurately inferring AU activation from single images of an unseen face is sometimes infeasible, even for human experts -- it is crucial to first understand how the face appears in its neutral expression, or significant bias may be incurred. Therefore, we propose to perform one-frame calibration (OFC) in AU recognition: for each face, a single image of its neutral expression is used as the reference image for calibration. With this strategy, we develop a Calibrating Siamese Network (CSN) for AU recognition and demonstrate its remarkable effectiveness with a simple iResNet-50 (IR50) backbone. On the DISFA, DISFA+, and UNBC-McMaster datasets, we show that our OFC CSN-IR50 model (a) substantially improves the performance of IR50 by mitigating facial attribute biases (including biases due to wrinkles, eyebrow positions, facial hair, etc.), (b) substantially outperforms the naive OFC method of baseline subtraction as well as (c) a fine-tuned version of this naive OFC method, and (d) also outperforms state-of-the-art NCG models for both AU intensity estimation and AU detection. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# TorchDA: 深層学習と変換機能を備えたデータ同化を実行するPythonパッケージ
TorchDA: A Python package for performing data assimilation with deep learning forward and transformation functions ( http://arxiv.org/abs/2409.00244v1 ) ライセンス: Link先を確認 | Sibo Cheng, Jinyang Min, Che Liu, Rossella Arcucci, | (参考訳) データ同化技術は、複雑な高次元物理系の高精度シミュレーションが計算コストが高く、これらのシステムに適用可能な正確な観測関数を得ることが難しいため、複雑な高次元物理系を扱う課題に直面していることが多い。
データ同化ワークフローにディープラーニングモデルを統合することへの関心が高まっているが、現在のデータ同化のためのソフトウェアパッケージは、ディープラーニングモデルを内部で扱うことはできない。
本研究では,データ同化と深層ニューラルネットワークをシームレスに組み合わせ,状態遷移と観測関数のモデルとして機能する新しいPythonパッケージを提案する。
TorchDAと名付けられたこのパッケージは、カルマンフィルタ、エンサンブルカルマンフィルタ(EnKF)、3D変分法(3DVar)、および4D変分法(4DVar)アルゴリズムを実装しており、アプリケーション要求に基づいて柔軟なアルゴリズム選択を可能にする。
ロレンツ63と2次元浅層水系の総合的な実験は、同化を伴わないスタンドアロンモデル予測よりも大幅に性能を向上した。
浅層水解析は、全空間または縮小順序空間内の異なる物理量空間間のマッピングデータ同化能力を検証する。
全体として、この革新的なソフトウェアパッケージは、データ同化内でのディープラーニング表現の柔軟な統合を可能にし、科学的領域にわたる複雑な高次元力学システムに取り組むための汎用的なツールを提供する。
Data assimilation techniques are often confronted with challenges handling complex high dimensional physical systems, because high precision simulation in complex high dimensional physical systems is computationally expensive and the exact observation functions that can be applied in these systems are difficult to obtain. It prompts growing interest in integrating deep learning models within data assimilation workflows, but current software packages for data assimilation cannot handle deep learning models inside. This study presents a novel Python package seamlessly combining data assimilation with deep neural networks to serve as models for state transition and observation functions. The package, named TorchDA, implements Kalman Filter, Ensemble Kalman Filter (EnKF), 3D Variational (3DVar), and 4D Variational (4DVar) algorithms, allowing flexible algorithm selection based on application requirements. Comprehensive experiments conducted on the Lorenz 63 and a two-dimensional shallow water system demonstrate significantly enhanced performance over standalone model predictions without assimilation. The shallow water analysis validates data assimilation capabilities mapping between different physical quantity spaces in either full space or reduced order space. Overall, this innovative software package enables flexible integration of deep learning representations within data assimilation, conferring a versatile tool to tackle complex high dimensional dynamical systems across scientific domains. | 翻訳日:2024-09-06 16:18:33 公開日:2024-08-30 |
# ハイブリッド量子技術のためのスピン量子ビットとしての酸化マグネシウムのNV中心
An NV- center in magnesium oxide as a spin qubit for hybrid quantum technologies ( http://arxiv.org/abs/2409.00246v1 ) ライセンス: Link先を確認 | Vrindaa Somjit, Joel Davidsson, Yu Jin, Giulia Galli, | (参考訳) 最近の予測では、MgO や CaO のような酸化物は長いコヒーレンス時間でスピン欠陥の宿主となり、量子応用に有望な材料となることが示唆されている。
しかし、ほとんどの場合、特定の欠陥は特定されていない。
ここでは、高スループット第1原理フレームワークと高度な電子構造法を用いて、ハイブリッド量子技術に好適な電子的および光学的性質を持つMgO中のNV様中心を同定する。
この欠陥は安定な三重項基底と励起状態を持ち、一重項シェルビング状態は光初期化とスピン依存の読み出しを可能にする。
我々は、吸収、放出、ゼロフォノンラインエネルギー、ゼロフィールド分割テンソル、超微細相互作用パラメータなどのいくつかの特性を予測し、この欠陥を実験的に同定するのに役立つ。
計算の結果,MgO中のNV中心は強い擬似ジャーン・テラー効果と低周波フォノンモードにより,かなりの振動結合を受けることがわかった。
このような結合を減らし,デバイ・ウォラー因子を増大させる設計戦略について論じる。
我々は、MgOの技術的成熟とともに、NV欠陥の好ましい性質は、スピントロニクス量子センサや単一量子ビットゲートのようなハイブリッド古典量子応用を可能にすることを提案する。
Recent predictions suggest that oxides, such as MgO and CaO, could serve as hosts of spin defects with long coherence times and thus be promising materials for quantum applications. However, in most cases specific defects have not yet been identified. Here, by using a high-throughput first-principles framework and advanced electronic structure methods, we identify an NV-like center in MgO with favorable electronic and optical properties for hybrid quantum technologies. We show that this defect has stable triplet ground and excited states, with singlet shelving states enabling optical initialization and spin-dependent readout. We predict several properties, including absorption, emission, and zero-phonon line energies, as well as zero-field splitting tensor, and hyperfine interaction parameters, which can aid in the experimental identification of this defect. Our calculations show that due to a strong pseudo-Jahn Teller effect and low frequency phonon modes, the NV- center in MgO is subject to a substantial vibronic coupling. We discuss design strategies to reduce such coupling and increase the Debye-Waller factor, including the effect of strain and the localization of the defect states. We propose that the favorable properties of the NV- defect, along with the technological maturity of MgO, could enable hybrid classical-quantum applications, such as spintronic quantum sensors and single qubit gates. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# レーザー粉体融合における処理の展開--機械学習と高出力実験の相乗効果-
Unveiling Processing--Property Relationships in Laser Powder Bed Fusion: The Synergy of Machine Learning and High-throughput Experiments ( http://arxiv.org/abs/2409.00248v1 ) ライセンス: Link先を確認 | Mahsa Amiri, Zahra Zanjani Foumani, Penghui Cao, Lorenzo Valdevit, Ramin Bostanabad, | (参考訳) 添加物製造における所望の機械的特性を達成するためには多くの実験が必要である。
本稿では,高出力(HT)実験と階層機械学習(ML)の相乗効果を取り入れ,レーザー粉体融合(LPBF)におけるプロセスパラメータの集合と選択された機械的特性(引張強度と延性)との複雑な関係を明らかにする手法を提案する。
HT法では, 高速自動硬度, ポーシティのキャラクタリゼーションのための小型試料の製作と, より労働集約的な降伏強度および延性測定のための小型の引張試験片の製作を想定している。
MLアプローチはガウス過程(GP)の逐次的応用に基づいており、まずプロセスパラメータと硬さ/ポーシティの相関を学習し、その後、プロセスパラメータに強度と延性に関連するGPによって採用する。
最後に、これらのGPを利用して、強度と延性の組み合わせを最大化する処理パラメータを同定する最適化手法が考案された。
より大規模で作業集約的なデータに基づく学習の確立により、高価な特徴量への依存を減らし、大規模処理空間の探索を可能にする。
本手法は材料非依存であり、17-4PHステンレス鋼への適用を実証する。
Achieving desired mechanical properties in additive manufacturing requires many experiments and a well-defined design framework becomes crucial in reducing trials and conserving resources. Here, we propose a methodology embracing the synergy between high-throughput (HT) experimentation and hierarchical machine learning (ML) to unveil the complex relationships between a large set of process parameters in Laser Powder Bed Fusion (LPBF) and selected mechanical properties (tensile strength and ductility). The HT method envisions the fabrication of small samples for rapid automated hardness and porosity characterization, and a smaller set of tensile specimens for more labor-intensive direct measurement of yield strength and ductility. The ML approach is based on a sequential application of Gaussian processes (GPs) where the correlations between process parameters and hardness/porosity are first learnt and subsequently adopted by the GPs that relate strength and ductility to process parameters. Finally, an optimization scheme is devised that leverages these GPs to identify the processing parameters that maximize combinations of strength and ductility. By founding the learning on larger easy-to-collect and smaller labor-intensive data, we reduce the reliance on expensive characterization and enable exploration of a large processing space. Our approach is material-agnostic and herein we demonstrate its application on 17-4PH stainless steel. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 医療レポート生成は多ラベル分類の問題である
Medical Report Generation Is A Multi-label Classification Problem ( http://arxiv.org/abs/2409.00250v1 ) ライセンス: Link先を確認 | Yijian Fan, Zhenbang Yang, Rui Liu, Mingjie Li, Xiaojun Chang, | (参考訳) 医療報告生成は、医療画像から詳細な正確な説明を自動的に作成する医療における重要な課題である。
伝統的に、このタスクはシーケンス生成問題としてアプローチされ、コヒーレントで文脈的に関係のあるレポートを生成するために、視覚・言語技術に依存している。
しかし,本稿では,医療報告生成を多ラベル分類問題として再考する新たな視点を提案する。
このようにしてタスクをフレーミングすることで、よく使われる知識グラフから放射線学ノードを活用し、分類手法によりよりよく把握できる。
そこで我々は,BLIPに基づく新たなレポート生成フレームワークを導入し,医用画像内の複数の重要な側面を正確に分類し,効果的なレポート生成を可能にする。
このアプローチはレポート生成プロセスを単純化するだけでなく、パフォーマンス指標を大幅に強化する。
我々の広範な実験は、2つのベンチマークデータセットにまたがる既存のアプローチを超越して、キーノードの活用が最先端(SOTA)のパフォーマンスを実現することを実証している。
この結果は、従来のタスクを革新的な手法で再検討し、より効率的で正確な医療レポート作成の道を開く可能性を浮き彫りにした。
Medical report generation is a critical task in healthcare that involves the automatic creation of detailed and accurate descriptions from medical images. Traditionally, this task has been approached as a sequence generation problem, relying on vision-and-language techniques to generate coherent and contextually relevant reports. However, in this paper, we propose a novel perspective: rethinking medical report generation as a multi-label classification problem. By framing the task this way, we leverage the radiology nodes from the commonly used knowledge graph, which can be better captured through classification techniques. To verify our argument, we introduce a novel report generation framework based on BLIP integrated with classified key nodes, which allows for effective report generation with accurate classification of multiple key aspects within the medical images. This approach not only simplifies the report generation process but also significantly enhances performance metrics. Our extensive experiments demonstrate that leveraging key nodes can achieve state-of-the-art (SOTA) performance, surpassing existing approaches across two benchmark datasets. The results underscore the potential of re-envisioning traditional tasks with innovative methodologies, paving the way for more efficient and accurate medical report generation. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# より良いデータセットを構築する: データセット作成者による責任ある設計のための7つの勧告
Building Better Datasets: Seven Recommendations for Responsible Design from Dataset Creators ( http://arxiv.org/abs/2409.00252v1 ) ライセンス: Link先を確認 | Will Orr, Kate Crawford, | (参考訳) 機械学習における高品質なデータセットの需要の増加は、これらのデータセットの倫理的かつ責任ある作成に対する懸念を引き起こしている。
データセットの作成者は、責任あるプラクティスを開発する上で重要な役割を果たすが、彼らの視点と専門性は、現在の文献でまだ強調されていない。
本稿では,このギャップを,現場の現状について18人の主要なデータセット作成者へのインタビューを含む質的研究から洞察を得ることによって埋める。
データセットの作成者が直面している課題や考慮事項について光を当て、私たちの発見は、より深いコラボレーション、知識共有、そして集団開発の可能性を強調しました。
彼らの視点を綿密に分析することで、データ品質やドキュメント、プライバシと同意といった問題や、意図しないユースケースによる潜在的な害を軽減する方法など、責任あるデータセット生成を改善するための7つの中心的な推奨事項を共有します。
データセット作成者の経験を批判的に反映し、共有することによって、責任あるデータセット作成プラクティスを促進し、機械学習研究において重要で、しばしば過小評価されるこの側面の微妙な理解を深めることを目指している。
The increasing demand for high-quality datasets in machine learning has raised concerns about the ethical and responsible creation of these datasets. Dataset creators play a crucial role in developing responsible practices, yet their perspectives and expertise have not yet been highlighted in the current literature. In this paper, we bridge this gap by presenting insights from a qualitative study that included interviewing 18 leading dataset creators about the current state of the field. We shed light on the challenges and considerations faced by dataset creators, and our findings underscore the potential for deeper collaboration, knowledge sharing, and collective development. Through a close analysis of their perspectives, we share seven central recommendations for improving responsible dataset creation, including issues such as data quality, documentation, privacy and consent, and how to mitigate potential harms from unintended use cases. By fostering critical reflection and sharing the experiences of dataset creators, we aim to promote responsible dataset creation practices and develop a nuanced understanding of this crucial but often undervalued aspect of machine learning research. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# MAPWise: 高度なマップクエリのためのビジョンランゲージモデルの評価
MAPWise: Evaluating Vision-Language Models for Advanced Map Queries ( http://arxiv.org/abs/2409.00255v1 ) ライセンス: Link先を確認 | Srija Mukhopadhyay, Abhishek Rajgaria, Prerana Khatiwada, Vivek Gupta, Dan Roth, | (参考訳) 視覚言語モデル(VLM)は、視覚情報と言語情報の合同理解を必要とするタスクに優れる。
これらのモデルに対する特に有望だが未発見の応用は、様々な種類の地図に基づいて質問に答えることにある。
本研究では,データ解析や表現に広く用いられているコロプレスマップに基づく質問応答におけるVLMの有効性について検討した。
そこで本研究では,3つの地域(米国,インド,中国)の地図からなる地図ベースの質問回答ベンチマークについて紹介する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
また、離散的かつ連続的な値を持つマップが含まれており、カラーマッピング、カテゴリー順序付け、スタイルパターンのバリエーションを含み、包括的な分析を可能にしている。
本ベンチマークでは、複数のVLMの性能評価を行い、その能力のギャップを強調し、そのようなモデルを改善するための洞察を提供する。
Vision-language models (VLMs) excel at tasks requiring joint understanding of visual and linguistic information. A particularly promising yet under-explored application for these models lies in answering questions based on various kinds of maps. This study investigates the efficacy of VLMs in answering questions based on choropleth maps, which are widely used for data analysis and representation. To facilitate and encourage research in this area, we introduce a novel map-based question-answering benchmark, consisting of maps from three geographical regions (United States, India, China), each containing 1000 questions. Our benchmark incorporates 43 diverse question templates, requiring nuanced understanding of relative spatial relationships, intricate map features, and complex reasoning. It also includes maps with discrete and continuous values, encompassing variations in color-mapping, category ordering, and stylistic patterns, enabling comprehensive analysis. We evaluate the performance of multiple VLMs on this benchmark, highlighting gaps in their abilities and providing insights for improving such models. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 未知外乱推定によるマルチロータUAVの誘引領域の改善
Improving the Region of Attraction of a Multi-rotor UAV by Estimating Unknown Disturbances ( http://arxiv.org/abs/2409.00257v1 ) ライセンス: Link先を確認 | Sachithra Atapattu, Oscar De Silva, Thumeera R Wanasinghe, George K I Mann, Raymond G Gosine, | (参考訳) 本研究では,リニア2次制御器(LQR)コントローラを用いて制御された多回転無人航空機(UAV)のアトラクション(ROA)領域を精度良く推定する機械学習支援手法を提案する。
従来の ROA 推定手法は ROA 計算のための名目的力学モデルに依存しており、未知の力学と物理系の乱れによる不正確な推定が導かれる。
この問題に対処するために,我々はニューラルネットワークを用いて,平面四重項の未知の乱れを予測する。
次に、学習された外乱と統合された名目モデルを用いて、グラフィカル手法を用いて平面四重項のROAを算出する。
次に、推定ROAをリアプノフ解析とグラフィカルアプローチを用いて計算したROAと比較する。
その結果、提案手法はROAをより正確に推定するが、従来のリャプノフに基づく推定はより保守的であることが示された。
This study presents a machine learning-aided approach to accurately estimate the region of attraction (ROA) of a multi-rotor unmanned aerial vehicle (UAV) controlled using a linear quadratic regulator (LQR) controller. Conventional ROA estimation approaches rely on a nominal dynamic model for ROA calculation, leading to inaccurate estimation due to unknown dynamics and disturbances associated with the physical system. To address this issue, our study utilizes a neural network to predict these unknown disturbances of a planar quadrotor. The nominal model integrated with the learned disturbances is then employed to calculate the ROA of the planer quadrotor using a graphical technique. The estimated ROA is then compared with the ROA calculated using Lyapunov analysis and the graphical approach without incorporating the learned disturbances. The results illustrated that the proposed method provides a more accurate estimation of the ROA, while the conventional Lyapunov-based estimation tends to be more conservative. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 多スピン系における周期的古典的軌跡と量子傷
Periodic classical trajectories and quantum scars in many-spin systems ( http://arxiv.org/abs/2409.00258v1 ) ライセンス: Link先を確認 | Igor Ermakov, Oleg Lychkovskiy, Boris V. Fine, | (参考訳) 比較的一般的なカオス多体系における例外的周期的古典的軌跡の安定性を数値的に研究し、これらの軌跡と「量子多体傷」として知られる例外的非熱量子固有状態との間の関連性を探る。
考慮された系は、古典的および量子的両方の短距離相互作用を持つカオススピン鎖である。
古典的な側面では、選択された周期軌道は、すべてのスピンが時間関数として進化する同じ方向を瞬時に指すようなものである。
これらの軌道の安定度を特徴づける最大のリャプノフ指数は、相互作用定数と鎖長に対する驚くほど強い非自明な依存を持つ。
特に、上述の周期軌道が、カオス運動によって圧倒的に支配される多体エネルギーシェル上でリアプノフ安定であるような、かなり長いスピン鎖を同定する。
また、緩やかな大きなスピン鎖における周期軌道の不安定性は、半周期的に近い準周期的非エルゴード的状態へと発展する。
場合によっては、この状態の寿命は非常に長く、積分力学の近傍におけるアーノルド拡散の顕在化であると解釈する場合もある。
量子側では、全てのスピンが最初に同じ方向を向いている量子状態の力学を数値的に研究する。
本研究は,スピン3/2以上の数値的にアクセス可能な有限鎖に対する量子多体傷の存在を明らかにする。
量子傷が支配する動的熱化過程は、同じエネルギーにおける一般的な熱化と比較して遅くなることが示されている。
最後に、周期運動の古典的なセパラトリクスに近接する量子シグネチャを同定する。
We numerically investigate the stability of exceptional periodic classical trajectories in rather generic chaotic many-body systems and explore a possible connection between these trajectories and exceptional nonthermal quantum eigenstates known as "quantum many-body scars". The systems considered are chaotic spin chains with short-range interactions, both classical and quantum. On the classical side, the chosen periodic trajectories are such that all spins instantaneously point in the same direction, which evolves as a function of time. We find that the largest Lyapunov exponents characterising the stabillity of these trajectories have surprisingly strong and nontrivial dependencies on the interaction constants and chain lengths. In particular, we identify rather long spin chains, where the above periodic trajectories are Lyapunov-stable on many-body energy shells overwhelmingly dominated by chaotic motion. We also find that instabilities around periodic trajectories in modestly large spin chains develop into a transient nearly quasiperiodic non-ergodic regime. In some cases, the lifetime of this regime is extremely long, which we interpret as a manifestation of Arnold diffusion in the vicinity of integrable dynamics. On the quantum side, we numerically investigate the dynamics of quantum states starting with all spins initially pointing in the same direction: these are the quantum counterparts of the initial conditions for the above periodic classical trajectories. Our investigation reveals the existence of quantum many-body scars for numerically accessible finite chains of spins 3/2 and higher. The dynamic thermalisation process dominated by quantum scars is shown to exhibit a slowdown in comparison with generic thermalisation at the same energy. Finally, we identify quantum signatures of the proximity to a classical separatrix of the periodic motion. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 物理拘束型畳み込みニューラルネットワークによるスパース・ノイズ計測からの非定常流れの再構成
Reconstructing unsteady flows from sparse, noisy measurements with a physics-constrained convolutional neural network ( http://arxiv.org/abs/2409.00260v1 ) ライセンス: Link先を確認 | Yaxin Mo, Luca Magri, | (参考訳) 流体流量の測定から得られるデータは、通常スパース、ノイズ、不均一であり、しばしば混合圧力と速度の測定から得られる。
本稿では,不完全データから全流れ場を再構成する物理制約型畳み込みニューラルネットワークを開発した。
機械学習文学と新たに提案された3つの損失関数について検討する。
一 予測が値を取ることができる柔らかい制約のある損失
二 センサ位置の予測を制約するスナップショット強化損失
三 センサ位置における予測平均を制約する平均強化損失
提案手法はトレーニング中に全流場を必要としないため,不完全なデータから復元するのに適している。
本研究では, ブラフ体と乱流コルモゴロフ流の層流を復元する手法を適用した。
まず,すべての格子点の1%未満に位置するセンサから発生した層流とコルモゴロフ流の両方を再現する。
スナップショット強化損失は,ソフト拘束損失と比較して,コルモゴロフ流の復元誤差を約25%低減する。
第二に,3つの信号対雑音比で,ラミナー・ウェイクとコルモゴロフ流を復元する平均的な損失を提案する。
実験の結果,ネットワークのランダムな初期化と測定におけるノイズレベルの両方に対して,厳密な制約のある損失関数がより堅牢であることが判明した。
高騒音レベルでは、平均強制損失は瞬時にスナップショットを正確に復元することができ、未知のノイズで破損したデータからのフローを再構成する際の適切な選択となる。
提案手法は, 疎度でノイズの多いデータから物理フローを復元する機会を開放する。
Data from fluid flow measurements are typically sparse, noisy, and heterogeneous, often from mixed pressure and velocity measurements, resulting in incomplete datasets. In this paper, we develop a physics-constrained convolutional neural network, which is a deterministic tool, to reconstruct the full flow field from incomplete data. We explore three loss functions, both from machine learning literature and newly proposed: (i) the softly-constrained loss, which allows the prediction to take any value; (ii) the snapshot-enforced loss, which constrains the prediction at the sensor locations; and (iii) the mean-enforced loss, which constrains the mean of the prediction at the sensor locations. The proposed methods do not require the full flow field during training, making it suitable for reconstruction from incomplete data. We apply the method to reconstruct a laminar wake of a bluff body and a turbulent Kolmogorov flow. First, we assume that measurements are not noisy and reconstruct both the laminar wake and the Kolmogorov flow from sensors located at fewer than 1% of all grid points. The snapshot-enforced loss reduces the reconstruction error of the Kolmogorov flow by approximately 25% compared to the softly-constrained loss. Second, we assume that measurements are noisy and propose the mean-enforced loss to reconstruct the laminar wake and the Kolmogorov flow at three different signal-to-noise ratios. We find that, across the ratios tested, the loss functions with harder constraints are more robust to both the random initialization of the networks and the noise levels in the measurements. At high noise levels, the mean-enforced loss can recover the instantaneous snapshots accurately, making it the suitable choice when reconstructing flows from data corrupted with an unknown amount of noise. The proposed method opens opportunities for physical flow reconstruction from sparse, noisy data. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# ディバースダイアログ:人間に似た多様性を持つチャットボットの設計手法
DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity ( http://arxiv.org/abs/2409.00262v1 ) ライセンス: Link先を確認 | Xiaoyu Lin, Xinkai Yu, Ankit Aich, Salvatore Giorgi, Lyle Ungar, | (参考訳) ヒューマンユーザをシミュレートする大規模言語モデル(LLM)は、家庭教師やカスタマーサービスといったアプリケーションでチャットボットを評価するために頻繁に使用される。
効果的な評価は、これらのシミュレーションの中で高いレベルの人間的な多様性を必要とする。
本稿では, GPT-4o mini が生成した会話が, 人間の模擬参加者として使用する場合, 複数の言語的特徴をまたいだ実際の人間との会話と体系的に異なることを示す。
これらの特徴には、トピックのバリエーション、語彙的属性、および使用される言語の平均的な振る舞いと多様性(ばらつき)の両方が含まれる。
このような不一致に対処するために,年齢,性別,感情のトーン,議論される話題など,実際の人間関係から派生した特徴を取り入れ,ユーザシミュレーションのプロンプトを自動生成する手法を提案する。
ディファレンシャル言語分析と深い言語調査を併用したアプローチの評価を行った。
本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
具体的には、LLMチャットボット会話の人間的類似性を高め、言語的多様性を高める。
平均して、人間とLLMが生成する会話の平均的特徴の誤差が54%減少するのを観察する。
ヒトのような多様性を持つチャットボットセットを構築する手法は、ユーザ向けボットの評価プロセスを強化する大きな可能性を秘めている。
Large Language Models (LLMs), which simulate human users, are frequently employed to evaluate chatbots in applications such as tutoring and customer service. Effective evaluation necessitates a high degree of human-like diversity within these simulations. In this paper, we demonstrate that conversations generated by GPT-4o mini, when used as simulated human participants, systematically differ from those between actual humans across multiple linguistic features. These features include topic variation, lexical attributes, and both the average behavior and diversity (variance) of the language used. To address these discrepancies, we propose an approach that automatically generates prompts for user simulations by incorporating features derived from real human interactions, such as age, gender, emotional tone, and the topics discussed. We assess our approach using differential language analysis combined with deep linguistic inquiry. Our method of prompt optimization, tailored to target specific linguistic features, shows significant improvements. Specifically, it enhances the human-likeness of LLM chatbot conversations, increasing their linguistic diversity. On average, we observe a 54 percent reduction in the error of average features between human and LLM-generated conversations. This method of constructing chatbot sets with human-like diversity holds great potential for enhancing the evaluation process of user-facing bots. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# AWRaCLe:ビジュアルインコンテキスト学習による全天候画像復元
AWRaCLe: All-Weather Image Restoration using Visual In-Context Learning ( http://arxiv.org/abs/2409.00263v1 ) ライセンス: Link先を確認 | Sudarshan Rajagopalan, Vishal M. Patel, | (参考訳) 悪天候下でのオールウェザー画像復元(AWIR)は、様々な種類の劣化が存在するため難しい課題である。
この領域における以前の研究は、広範なトレーニングデータに依存していたが、修復指導のための追加の文脈情報の利用は欠如している。
その結果、既存の手法の性能は、個別のトレーニングサンプルから学習した劣化キューによって制限される。
近年のビジュアル・イン・コンテキスト・ラーニングの進歩は、提供されたコンテキストに存在する情報を先行として利用することにより、複数のコンピュータビジョンタスクを同時に処理できる汎用モデルを導入している。
本稿では,AWIRの新しい手法であるビジュアル・インコンテクスト・ラーニング(AWRaCLe)を用いたオールウェザー画像復元手法を提案する。
これを実現するために、AWRaCLeは分解コンテキスト抽出(DCE)とコンテキスト融合(CF)を組み込んで、文脈から分解固有の機能を画像復元ネットワークにシームレスに統合する。
提案したDCEブロックとCFブロックは、CLIP機能を活用し、注意機構を組み込んで、文脈情報を積極的に学習し、融合する。
これらのブロックは、全天候条件下での視覚的文脈内学習のために特別に設計されており、効果的な文脈利用に不可欠である。
広範囲にわたる実験を通じて,全天候修復におけるAWRaCLeの有効性を実証し,本手法がAWIRの最先端技術であることを示す。
All-Weather Image Restoration (AWIR) under adverse weather conditions is a challenging task due to the presence of different types of degradations. Prior research in this domain relies on extensive training data but lacks the utilization of additional contextual information for restoration guidance. Consequently, the performance of existing methods is limited by the degradation cues that are learnt from individual training samples. Recent advancements in visual in-context learning have introduced generalist models that are capable of addressing multiple computer vision tasks simultaneously by using the information present in the provided context as a prior. In this paper, we propose All-Weather Image Restoration using Visual In-Context Learning (AWRaCLe), a novel approach for AWIR that innovatively utilizes degradation-specific visual context information to steer the image restoration process. To achieve this, AWRaCLe incorporates Degradation Context Extraction (DCE) and Context Fusion (CF) to seamlessly integrate degradation-specific features from the context into an image restoration network. The proposed DCE and CF blocks leverage CLIP features and incorporate attention mechanisms to adeptly learn and fuse contextual information. These blocks are specifically designed for visual in-context learning under all-weather conditions and are crucial for effective context utilization. Through extensive experiments, we demonstrate the effectiveness of AWRaCLe for all-weather restoration and show that our method advances the state-of-the-art in AWIR. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 人工知能法の概要
The Artificial Intelligence Act: critical overview ( http://arxiv.org/abs/2409.00264v1 ) ライセンス: Link先を確認 | Nuno Sousa e Silva, | (参考訳) この記事では、最近承認された人工知能法を概観する。
これはまず、2024/1689年のEU(Regulation)の主要な構造、目的、アプローチを示すことから始まる。
鍵となる概念の定義が従うと、材料と領域の範囲、および適用のタイミングが分析される。
規則は明確に原則を定めていないが、公正性、説明責任、透明性、およびAIにおける株式の主な考え方は、規制の一連の規則である。
これは、未定義の禁止されたAIプラクティスのセット(脆弱性の操作とe活用、社会的スコアリング、生体認証と分類、予測警察)を調べる前に議論される。
これらのルールがAIシステムよりも行動を扱うことが強調されている。
リスクの高いAIシステムの資格と規制は、特定のシステムに対する透明性の義務、汎用モデルの規制、認証、監督、制裁に関する規則とともに取り組まれている。
このテキストは、たとえ全体フレームワークが適切かつバランスが取れたとしても、そのアプローチは非常に複雑であり、欧州連合内および国境を越えて責任あるイノベーションを促進するという自身の目的を破るリスクがある、と結論付けている。
This article provides a critical overview of the recently approved Artificial Intelligence Act. It starts by presenting the main structure, objectives, and approach of Regulation (EU) 2024/1689. A definition of key concepts follows, and then the material and territorial scope, as well as the timing of application, are analyzed. Although the Regulation does not explicitly set out principles, the main ideas of fairness, accountability, transparency, and equity in AI underly a set of rules of the regulation. This is discussed before looking at the ill-defined set of forbidden AI practices (manipulation and e exploitation of vulnerabilities, social scoring, biometric identification and classification, and predictive policing). It is highlighted that those rules deal with behaviors rather than AI systems. The qualification and regulation of high-risk AI systems are tackled, alongside the obligation of transparency for certain systems, the regulation of general-purpose models, and the rules on certification, supervision, and sanctions. The text concludes that even if the overall framework can be deemed adequate and balanced, the approach is so complex that it risks defeating its own purpose of promoting responsible innovation within the European Union and beyond its borders. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 説明可能な人工知能: ニーズ,技術,応用,今後の方向性に関する調査
Explainable Artificial Intelligence: A Survey of Needs, Techniques, Applications, and Future Direction ( http://arxiv.org/abs/2409.00265v1 ) ライセンス: Link先を確認 | Melkamu Mersha, Khang Lam, Joseph Wood, Ali AlShami, Jugal Kalita, | (参考訳) 人工知能モデルは、ブラックボックスの性質、特に医療、金融、自動運転車といった安全上重要な分野において、重大な課題に直面している。
説明可能な人工知能(XAI)は、これらのモデルがどのように意思決定や予測を行い、透明性、説明責任、公正性を確保するかを説明することで、これらの課題に対処する。
既存の研究では、XAIの基本概念、その一般的原理、およびXAI技術の範囲について検討されている。
しかしながら、詳細な数学的表現、XAIモデルの設計方法論、その他の関連する側面を掘り下げる包括的なレビューがないため、文献にはまだギャップが残っている。
本稿では、共通用語と定義、XAIの必要性、XAIの受益者の必要性、XAI手法の分類、および異なる応用分野におけるXAI手法の適用に関する総合的な文献レビューを提供する。
この調査は、AIモデルの信頼性、透明性、説明責任、公正性の向上に関心があるXAI研究者、XAI実践者、AIモデル開発者、およびXAI受益者を対象としている。
Artificial intelligence models encounter significant challenges due to their black-box nature, particularly in safety-critical domains such as healthcare, finance, and autonomous vehicles. Explainable Artificial Intelligence (XAI) addresses these challenges by providing explanations for how these models make decisions and predictions, ensuring transparency, accountability, and fairness. Existing studies have examined the fundamental concepts of XAI, its general principles, and the scope of XAI techniques. However, there remains a gap in the literature as there are no comprehensive reviews that delve into the detailed mathematical representations, design methodologies of XAI models, and other associated aspects. This paper provides a comprehensive literature review encompassing common terminologies and definitions, the need for XAI, beneficiaries of XAI, a taxonomy of XAI methods, and the application of XAI methods in different application areas. The survey is aimed at XAI researchers, XAI practitioners, AI model developers, and XAI beneficiaries who are interested in enhancing the trustworthiness, transparency, accountability, and fairness of their AI models. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 認知モデルを用いた人間とGPT-4の主観的類似度の測定
Leveraging a Cognitive Model to Measure Subjective Similarity of Human and GPT-4 Written Content ( http://arxiv.org/abs/2409.00269v1 ) ライセンス: Link先を確認 | Tyler Malloy, Maria José Ferreira, Fei Fang, Cleotilde Gonzalez, | (参考訳) 2つの文書間のコサイン類似性は、GPT-4のような大規模言語モデル(LLM)によって形成されたトークン埋め込みを用いて計算でき、それらの文書を様々な用途で分類するのに使われる。
しかしながら、これらの類似性は最終的にこれらのLCMを訓練するために使用されるコーパスに依存しており、個人の主観的類似性や、それらのバイアスや制約が類似性指標にどのように影響するかを反映していない可能性がある。
類似度指標の認知的なパーソナライズが欠如していることは、カテゴリーや好みの個人的判断が限られている教育やレコメンデーションの設定において特に問題となり、バイアスは特に関係がある。
これを解決するために、インスタンスベース学習(IBL)認知モデルとLLM埋め込みを統合して、インスタンスベース個別類似度(IBIS)メトリクスを開発する。
この類似度尺度は、個人のバイアスと制約を、意思決定の認知メカニズムに根ざした方法で考慮するという点で有益である。
IBIS測定値を評価するために,メールの人的分類のデータセットを危険(フィッシング)か安全(ハム)のいずれかとして導入する。
このデータセットは、認知モデルを利用して、教育環境での人間の被験者の主観的類似度を測定する利点を示すために使用される。
Cosine similarity between two documents can be computed using token embeddings formed by Large Language Models (LLMs) such as GPT-4, and used to categorize those documents across a range of uses. However, these similarities are ultimately dependent on the corpora used to train these LLMs, and may not reflect subjective similarity of individuals or how their biases and constraints impact similarity metrics. This lack of cognitively-aware personalization of similarity metrics can be particularly problematic in educational and recommendation settings where there is a limited number of individual judgements of category or preference, and biases can be particularly relevant. To address this, we rely on an integration of an Instance-Based Learning (IBL) cognitive model with LLM embeddings to develop the Instance-Based Individualized Similarity (IBIS) metric. This similarity metric is beneficial in that it takes into account individual biases and constraints in a manner that is grounded in the cognitive mechanisms of decision making. To evaluate the IBIS metric, we also introduce a dataset of human categorizations of emails as being either dangerous (phishing) or safe (ham). This dataset is used to demonstrate the benefits of leveraging a cognitive model to measure the subjective similarity of human participants in an educational setting. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# BERTによるフレームの発見--汎用ニュースフレーム検出へのトランスフォーマーベースアプローチ
Finding frames with BERT: A transformer-based approach to generic news frame detection ( http://arxiv.org/abs/2409.00272v1 ) ライセンス: Link先を確認 | Vihang Jumle, Mykola Makhortykh, Maryna Sydorova, Victoria Vziatysheva, | (参考訳) フラーミングはコミュニケーション科学の分野で最も広く使われている概念の一つである。
デジタルデータの提供は、ソーシャルリアリティーの特定の側面がオンラインコミュニケーションにおいてより健全であるかを研究するための新たな可能性を提供する一方で、フレーミング分析のスケーリングと新しい研究分野への導入(例えば、人工知能によるシステムによる社会的な問題表現への影響の研究)に関する課題も提起している。
これらの課題に対処するために、英語オンラインコンテンツにおけるニュースフレームの汎用的検出のためのトランスフォーマーベースのアプローチを導入する。
その間、トレーニングおよびテストデータセットの構成、モデルアーキテクチャ、アプローチの妥当性について検討し、ジェネリックニュースフレームの自動検出の可能性と限界を反映する。
Framing is among the most extensively used concepts in the field of communication science. The availability of digital data offers new possibilities for studying how specific aspects of social reality are made more salient in online communication but also raises challenges related to the scaling of framing analysis and its adoption to new research areas (e.g. studying the impact of artificial intelligence-powered systems on representation of societally relevant issues). To address these challenges, we introduce a transformer-based approach for generic news frame detection in Anglophone online content. While doing so, we discuss the composition of the training and test datasets, the model architecture, and the validation of the approach and reflect on the possibilities and limitations of the automated detection of generic news frames. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 原子-原子散乱における熱衝突の普遍性の境界
Boundaries of universality of thermal collisions for atom-atom scattering ( http://arxiv.org/abs/2409.00273v1 ) ライセンス: Link先を確認 | Xuyang Guo, Kirk W. Madison, James L. Booth, Roman V. Krems, | (参考訳) いくつかの原子衝突の熱速度係数は、短距離での原子間相互作用の詳細から著しく独立している。
これにより、これらの速度係数は長距離相互作用パラメータと質量の普遍関数となり、以前は周囲圧力に対する自己定義原子センサーの開発に利用されていた。
本稿では,原子-原子衝突における温度平均速度係数の相互作用ポテンシャルの変化に対する応答について,厳密な量子散乱計算を用いて検討する。
我々は、相互作用ポテンシャルの分布によって決定される確率論的予測として量子散乱観測器を扱い、普遍性とその境界を包括的に解析する。
光, 少数電子原子, 重く偏光可能な原子を分離し, 結果として生じる速度係数の分布に特徴的な変化が認められた。
我々は、異なる温度における熱衝突普遍性の境界を示す図を作成し、その普遍性を活用するための将来の実験のためのガイダンスを提供する。
Thermal rate coefficients for some atomic collisions have been observed to be remarkably independent of the details of interatomic interactions at short range. This makes these rate coefficients universal functions of the long-range interaction parameters and masses, which was previously exploited to develop a self-defining atomic sensor for ambient pressure. Here, we employ rigorous quantum scattering calculations to examine the response of thermally averaged rate coefficients for atom-atom collisions to changes in the interaction potentials. We perform a comprehensive analysis of the universality, and the boundaries thereof, by treating the quantum scattering observables as probabilistic predictions determined by a distribution of interaction potentials. We show that there is a characteristic change of the resulting distributions of rate coefficients, separating light, few-electron atoms and heavy, polarizable atoms. We produce diagrams that illustrate the boundaries of the thermal collision universality at different temperatures and provide guidance for future experiments seeking to exploit the universality. | 翻訳日:2024-09-06 16:02:27 公開日:2024-08-30 |
# 英語母音の動的モデルに向けて : 二重化による証拠
Towards a dynamical model of English vowels. Evidence from diphthongisation ( http://arxiv.org/abs/2409.00275v1 ) ライセンス: Link先を確認 | Patrycja Strycharczuk, Sam Kirkham, Emily Gorman, Takayuki Nagamine, | (参考訳) ディフソン母音は固有の動的変化の度合いを示し、その程度は同期的にも発音的にも変化し、ディフソン母音は単音節となり、その逆になる。
この種の変化をモデル化するには、モノフソンと反対にディフソンを定義する必要がある。
しかしながら、明示的な定義の定式化は、これらの領域では二フトン化がしばしば勾配であることから、音響学や調音学において明らかにされている。
本研究では,二音節母音がコヒーレントな音韻カテゴリーを形成するか否かを調音的観点から検討する。
音韻的長母音の完全なセットを生成する北英6話者の音韻計測と音響データについて述べる。
ダイフソン化のいくつかの尺度を分析し、これら全ては、ディフソンが長いモノフソンと分類的に異なるものではないことを示唆している。
本研究は,2音節と長音節が共通なジェスチャー表現を持ち,各症例において2つの調音的目標から構成される調音的音韻・運動動態モデルを用いて考察した。
すべての長母音に対する2つのターゲット表現は、音韻学的重みによって独立に支持され、また、歴史的二声化の性質や、現在の英語における動的母音の変動によっても支持されていると論じる。
Diphthong vowels exhibit a degree of inherent dynamic change, the extent of which can vary synchronically and diachronically, such that diphthong vowels can become monophthongs and vice versa. Modelling this type of change requires defining diphthongs in opposition to monophthongs. However, formulating an explicit definition has proven elusive in acoustics and articulation, as diphthongisation is often gradient in these domains. In this study, we consider whether diphthong vowels form a coherent phonetic category from the articulatory point of view. We present articulometry and acoustic data from six speakers of Northern Anglo-English producing a full set of phonologically long vowels. We analyse several measures of diphthongisation, all of which suggest that diphthongs are not categorically distinct from long monophthongs. We account for this observation with an Articulatory Phonology/Task Dynamic model in which diphthongs and long monophthongs have a common gestural representation, comprising two articulatory targets in each case, but they differ according to gestural constriction and location of the component gestures. We argue that a two-target representation for all long vowels is independently supported by phonological weight, as well as by the nature of historical diphthongisation and present-day dynamic vowel variation in British English. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# 逆攻撃時のパラメータ化非線形システム同定問題に対する厳密な回復保証
Exact Recovery Guarantees for Parameterized Non-linear System Identification Problem under Adversarial Attacks ( http://arxiv.org/abs/2409.00276v1 ) ライセンス: Link先を確認 | Haixiang Zhang, Baturalp Yalcin, Javad Lavaei, Eduardo Sontag, | (参考訳) 本研究では,逆攻撃下での基底関数を用いたパラメータ化非線形システムのシステム同定問題について検討する。
LASSO型推定器を用いて, 組込みの$\ell_1$-loss最小化問題の解法により発生する非滑らかな推定器の正確な回復特性を解析した。
まず, 推定器の厳密さと, 基礎となる最適化問題に対する大域的解の特異性について, 必要かつ十分な条件を導出する。
次に、基底関数の有界性とリプシッツ連続性の2つの異なるシナリオの下で、推定器の正確な回復保証を提供する。
非漸近的正確な回復は、クリーンデータよりもひどく破損したデータがある場合でも高い確率で保証される。
最後に、我々の理論の妥当性を数値的に説明する。
非線形システム同定問題に対する非滑らかな推定器のサンプル複雑性解析に関する最初の研究である。
In this work, we study the system identification problem for parameterized non-linear systems using basis functions under adversarial attacks. Motivated by the LASSO-type estimators, we analyze the exact recovery property of a non-smooth estimator, which is generated by solving an embedded $\ell_1$-loss minimization problem. First, we derive necessary and sufficient conditions for the well-specifiedness of the estimator and the uniqueness of global solutions to the underlying optimization problem. Next, we provide exact recovery guarantees for the estimator under two different scenarios of boundedness and Lipschitz continuity of the basis functions. The non-asymptotic exact recovery is guaranteed with high probability, even when there are more severely corrupted data than clean data. Finally, we numerically illustrate the validity of our theory. This is the first study on the sample complexity analysis of a non-smooth estimator for the non-linear system identification problem. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# Menzerath の法則の単純な確率過程
Simple stochastic processes behind Menzerath's Law ( http://arxiv.org/abs/2409.00279v1 ) ライセンス: Link先を確認 | Jiří Milička, | (参考訳) 本稿では、メンゼロス法則(メンゼロス・アルトマン法とも呼ばれる)を再検討し、言語構成物の長さと構成物の平均の長さの関係をモデル化する。
最近の研究では、単純な確率過程はメンセラート的な振る舞いを示すことができるが、既存のモデルは実世界のデータを正確に反映することができないことが示されている。
もし、単語が音節と音韻の両方で長さを変えるという基本原理を採用すれば、これらの変数間の相関は完璧ではなく、これらの変化が乗法的な性質であるなら、二変量正規分布が得られる。
本稿では、この非常に単純な原理から、メンゼロス=アルトマン法則の古典的なアルトマンモデルを得ることを示す。
境界分布と独立に結合分布をモデル化すれば、ガウスコプラを用いてさらに正確なモデルを得ることができる。
モデルは経験的データと対立し、代替手法について議論する。
This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# RealFace -- 歩行者の顔データセット
RealFace -- Pedestrian Face Dataset ( http://arxiv.org/abs/2409.00283v1 ) ライセンス: Link先を確認 | Leonardo Ramos Thomas, | (参考訳) Real Face Datasetは、さまざまな環境下で11,000以上の画像と55,000以上の検出された顔からなる、野生の歩行者顔検出ベンチマークデータセットである。
このデータセットは、顔検出および認識アルゴリズムの評価と開発のために、現実世界の顔画像の包括的で多様なコレクションを提供することを目的としている。
Real Face Datasetは、顔検出と認識アルゴリズムに取り組んでいる研究者や開発者にとって貴重なリソースである。
1万1000枚以上の画像と5万5000個の検出された顔を持つこのデータセットは、現実世界の顔画像の包括的で多様なコレクションを提供する。
この多様性は、照明、スケール、ポーズ、閉塞といった様々な環境条件下でのアルゴリズムの性能を評価するために重要である。
このデータセットは、現実のシナリオに重点を置いているため、現実的なアプリケーションでは特に重要であり、課題のある環境で顔がキャプチャされる可能性がある。
そのサイズに加えて、データセットには、スケール、ポーズ、オクルージョンの多様性の高いイメージが含まれており、実用的なアプリケーションシナリオに焦点を当てており、顔検出と認識の方法のベンチマークとテストのための貴重なリソースとして分離されている。
データセットが提示する課題は、現実の監視アプリケーションで直面する困難と一致し、顔を検出し、差別的特徴を抽出する能力が最重要である。
Real Face Datasetは、顔検出および認識方法のパフォーマンスを大規模に評価する機会を提供する。
現実のシナリオとの関連性は、研究者や開発者にとって、実用的なアプリケーションのための堅牢で効果的なアルゴリズムを作成しようとしている重要なリソースとなる。
The Real Face Dataset is a pedestrian face detection benchmark dataset in the wild, comprising over 11,000 images and over 55,000 detected faces in various ambient conditions. The dataset aims to provide a comprehensive and diverse collection of real-world face images for the evaluation and development of face detection and recognition algorithms. The Real Face Dataset is a valuable resource for researchers and developers working on face detection and recognition algorithms. With over 11,000 images and 55,000 detected faces, the dataset offers a comprehensive and diverse collection of real-world face images. This diversity is crucial for evaluating the performance of algorithms under various ambient conditions, such as lighting, scale, pose, and occlusion. The dataset's focus on real-world scenarios makes it particularly relevant for practical applications, where faces may be captured in challenging environments. In addition to its size, the dataset's inclusion of images with a high degree of variability in scale, pose, and occlusion, as well as its focus on practical application scenarios, sets it apart as a valuable resource for benchmarking and testing face detection and recognition methods. The challenges presented by the dataset align with the difficulties faced in real-world surveillance applications, where the ability to detect faces and extract discriminative features is paramount. The Real Face Dataset provides an opportunity to assess the performance of face detection and recognition methods on a large scale. Its relevance to real-world scenarios makes it an important resource for researchers and developers aiming to create robust and effective algorithms for practical applications. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# 可塑性レンズによる大規模言語モデルのデータ値のフレーミング
Reframing Data Value for Large Language Models Through the Lens of Plausability ( http://arxiv.org/abs/2409.00284v1 ) ライセンス: Link先を確認 | Mohamad Rida Rammal, Ruida Zhou, Suhas Diggavi, | (参考訳) データバリュエーション(Data valuation)は,“このデータの価値はどの程度か?
既存のデータアセスメント手法は主に差別モデルに焦点を当てており、主に訓練においてそのユーティリティーのレンズを通してデータの価値を調べる。
しかし、より広い言語モデルの推進により、トレーニングを必要とする評価手法に依存するようになり、特定の技術に依存している。
本稿では,その妥当性を中心に,言語モデルにおけるデータ値問題に対する別の視点を提案する。
モデル自体が合理的に生成可能な場合、データはより少ない値を保持すると仮定する。
価値データの概念に沿う直感的な基準から、計算可能で、証明可能な性質を持つ第一原理から導出される新しい値関数を開発する。
価値関数を理論的に分析し、複数のシナリオやデータセットで評価する。
Data valuation seeks to answer the important question, "How much is this data worth?" Existing data valuation methods have largely focused on discriminative models, primarily examining data value through the lens of its utility in training. However, with the push for ever-larger language models, relying on valuation methods that require training becomes increasingly expensive and dependent on specific techniques. We propose an alternative perspective on the data value problem for language models, centering around the plausibility of the data. We posit that data holds lesser value if it can be plausibly generated by the model itself. Starting from some intuitive criteria that align with our notions of valuable data, we develop a novel value function that is computationally tractable and derived from first principles with provable properties. We conduct a theoretical analysis of our value function and evaluate it across multiple scenarios and datasets. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# OnlySportsLM:何十億ものパラメータ下でのSOTA性能によるスポーツドメイン言語モデルの最適化
OnlySportsLM: Optimizing Sports-Domain Language Models with SOTA Performance under Billion Parameters ( http://arxiv.org/abs/2409.00286v1 ) ライセンス: Link先を確認 | Zexin Chen, Chengxi Li, Xiangyu Xie, Parijat Dube, | (参考訳) 本稿では,スポーツ関連データに特化して訓練された,小規模なドメイン特化言語モデルの可能性について検討する。
特別に設計された小型モデル構造を持つ広範囲なトレーニングデータが,モデルサイズ制約を克服できるかどうかを検討する。
本研究では, OnlySportsLM, OnlySports Dataset, OnlySports Benchmark からなる OnlySports コレクションを紹介した。
私たちのアプローチは以下のとおりです。
1)FineWebから600億の巨大なトークンをSports Datasetで作成する。
2) スポーツ関連タスクに対するRWKVアーキテクチャの最適化により,20層640次元構造を持つ196Mパラメータモデルが得られた。
3) OnlySportsLM を OnlySports Dataset の一部としてトレーニングし,
4) OnlySports Benchmarkで結果のモデルをテストします。
OnlySportsLMは、以前の135M/360Mモデルよりも37.62%/34.08%の精度向上を実現し、スポーツ分野でのSomlLM 1.7BやQwen 1.5Bのような大型モデルのパフォーマンスに匹敵する。
さらに、Not onlySportsコレクションは、高品質でドメイン固有の言語モデルを構築するための包括的なワークフローを提供し、さまざまな専門分野にわたる効率的なAI開発のためのレプリカブルな青写真を提供する。
This paper explores the potential of a small, domain-specific language model trained exclusively on sports-related data. We investigate whether extensive training data with specially designed small model structures can overcome model size constraints. The study introduces the OnlySports collection, comprising OnlySportsLM, OnlySports Dataset, and OnlySports Benchmark. Our approach involves: 1) creating a massive 600 billion tokens OnlySports Dataset from FineWeb, 2) optimizing the RWKV architecture for sports-related tasks, resulting in a 196M parameters model with 20-layer, 640-dimension structure, 3) training the OnlySportsLM on part of OnlySports Dataset, and 4) testing the resultant model on OnlySports Benchmark. OnlySportsLM achieves a 37.62%/34.08% accuracy improvement over previous 135M/360M state-of-the-art models and matches the performance of larger models such as SomlLM 1.7B and Qwen 1.5B in the sports domain. Additionally, the OnlySports collection presents a comprehensive workflow for building high-quality, domain-specific language models, providing a replicable blueprint for efficient AI development across various specialized fields. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# ReFFLY:メロディ制約付き歌詞編集モデル
REFFLY: Melody-Constrained Lyrics Editing Model ( http://arxiv.org/abs/2409.00292v1 ) ライセンス: Link先を確認 | Songyan Zhao, Bingxuan Li, Yufei Tian, Nanyun Peng, | (参考訳) メロディから歌詞への自動生成は、与えられたメロディに合わせて歌詞を生成することを目的としている。
以前の作品では、キーワードやジャンルなどの高レベルな制御信号に基づいて歌詞を生成できるが、(1) 制御性の欠如、前作では内容の制御がほとんどあるいは全くなく、スクラッチから歌詞を生成できないこと、(2) 完全に構造化された曲を所望の形式で生成できないこと、(3) 歌詞中の顕著な単語をメロディの顕著な音符で整列させることができず、結果として歌詞とメロディの整列性が低下すること、の3つの課題に悩まされる。
本稿では,任意の形式のプレーンテキスト草案を高品質で本格的な歌詞に編集するための最初の改訂フレームワークであるREFFLY(Revision Framework for Lyrics)を紹介する。
提案手法は,生成した歌詞が原文の意味を保ち,旋律と整合し,所望の曲構造に固執することを保証する。
我々は,REFFLYが歌詞のリビジョンや歌の翻訳など,多様なタスク設定でうまく機能することが実証された。
実験の結果,Lyra (Tian et al 2023) や GPT-4 などのモデルでは,音楽性,テキスト品質ともに25%向上した。
Automatic melody-to-lyric generation aims to produce lyrics that align with a given melody. Although previous work can generate lyrics based on high-level control signals, such as keywords or genre, they often struggle with three challenges: (1) lack of controllability, as prior works are only able to produce lyrics from scratch, with little or no control over the content; (2) inability to generate fully structured songs with the desired format; and (3) failure to align prominent words in the lyrics with prominent notes in the melody, resulting in poor lyrics-melody alignment. In this work, we introduce REFFLY (REvision Framework For Lyrics), the first revision framework designed to edit arbitrary forms of plain text draft into high-quality, full-fledged song lyrics. Our approach ensures that the generated lyrics retain the original meaning of the draft, align with the melody, and adhere to the desired song structures. We demonstrate that REFFLY performs well in diverse task settings, such as lyrics revision and song translation. Experimental results show that our model outperforms strong baselines, such as Lyra (Tian et al. 2023) and GPT-4, by 25% in both musicality and text quality. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# 消費者電子製品における異常検出のための量子機械学習
Quantum Machine Learning for Anomaly Detection in Consumer Electronics ( http://arxiv.org/abs/2409.00294v1 ) ライセンス: Link先を確認 | Sounak Bhowmik, Himanshu Thapliyal, | (参考訳) 異常検出はサイバーセキュリティにおいて重要なタスクである。
技術的進歩は、ネットワーク侵入、金融詐欺、ID盗難、不動産侵入のような新しいサイバー物理的脅威をもたらす。
急速に変化する世界では、しばしば出現する新しいタイプの異常により、古典的な機械学習モデルは全ての脅威を防ぐには不十分である。
量子機械学習(QML)は、異常をより効率的に検出できる強力な計算ツールとして登場している。
そこで本研究では,家電製品におけるQMLとその異常検出への応用について紹介する。
異常検出タスクにQMLアルゴリズムを適用するための汎用フレームワークを提示した。
また、教師なし、教師なし、強化学習に基づくQMLアルゴリズムについても論じており、消費者電子分野における異常検出への応用を示すための最近の5つのケーススタディも紹介している。
Anomaly detection is a crucial task in cyber security. Technological advancement brings new cyber-physical threats like network intrusion, financial fraud, identity theft, and property invasion. In the rapidly changing world, with frequently emerging new types of anomalies, classical machine learning models are insufficient to prevent all the threats. Quantum Machine Learning (QML) is emerging as a powerful computational tool that can detect anomalies more efficiently. In this work, we have introduced QML and its applications for anomaly detection in consumer electronics. We have shown a generic framework for applying QML algorithms in anomaly detection tasks. We have also briefly discussed popular supervised, unsupervised, and reinforcement learning-based QML algorithms and included five case studies of recent works to show their applications in anomaly detection in the consumer electronics field. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# Box2Flow: ビデオからのインスタンスベースのアクションフローグラフ
Box2Flow: Instance-based Action Flow Graphs from Videos ( http://arxiv.org/abs/2409.00295v1 ) ライセンス: Link先を確認 | Jiatong Li, Kalliopi Basioti, Vladimir Pavlovic, | (参考訳) ウェブ上のプロシージャビデオは、様々なタスクを完了させる方法を示している。
これらのタスクは、しばしば異なる方法で実行され、いくつかのステップを同時に実行でき、他のステップは特定の順序で完了するように制約される。
フローグラフは、タスクのステップ関係を説明するために使用することができる。
現在のタスクベースの手法では、特定のタスクの利用可能なすべてのビデオに対して、単一のフローグラフを学習しようとする。
抽出されたフローグラフは抽象的すぎる傾向があり、詳細なステップ記述をキャプチャできない。
本研究の目的は,単一のビデオからそれらを抽出することで,正確でリッチなフローグラフを学習することである。
そこで本研究では,ステップフローグラフを所定のプロシージャビデオから予測するインスタンスベース手法であるBox2Flowを提案する。
詳しくは,ビデオからバウンディングボックスを抽出し,ステップペア間の一対のエッジ確率を予測し,スパンニングツリーアルゴリズムを用いてフローグラフを構築する。
MM-ReSとYouCookIIの実験により,フローグラフを効果的に抽出できることを示す。
A large amount of procedural videos on the web show how to complete various tasks. These tasks can often be accomplished in different ways and step orderings, with some steps able to be performed simultaneously, while others are constrained to be completed in a specific order. Flow graphs can be used to illustrate the step relationships of a task. Current task-based methods try to learn a single flow graph for all available videos of a specific task. The extracted flow graphs tend to be too abstract, failing to capture detailed step descriptions. In this work, our aim is to learn accurate and rich flow graphs by extracting them from a single video. We propose Box2Flow, an instance-based method to predict a step flow graph from a given procedural video. In detail, we extract bounding boxes from videos, predict pairwise edge probabilities between step pairs, and build the flow graph with a spanning tree algorithm. Experiments on MM-ReS and YouCookII show our method can extract flow graphs effectively. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# Credit Scores: パフォーマンスと等価性
Credit Scores: Performance and Equity ( http://arxiv.org/abs/2409.00296v1 ) ライセンス: Link先を確認 | Stefania Albanesi, Domonkos F. Vamossy, | (参考訳) 信用スコアは米国の消費者債務の配分に欠かせないが、その業績についてはほとんど証拠がない。
我々は、消費者デフォルトの機械学習モデルに対して広く使用されている信用スコアをベンチマークし、特に低得点の借主のかなりの誤分類を見出した。
我々のモデルは、低品質なデータで優れた性能を示すため、若年層、低所得層、少数層の予測精度を向上し、これらの人口の立ち上がりに繋がる。
以上の結果から, 信用スコアリング性能の向上が, より公平な信用アクセスにつながる可能性が示唆された。
Credit scores are critical for allocating consumer debt in the United States, yet little evidence is available on their performance. We benchmark a widely used credit score against a machine learning model of consumer default and find significant misclassification of borrowers, especially those with low scores. Our model improves predictive accuracy for young, low-income, and minority groups due to its superior performance with low quality data, resulting in a gain in standing for these populations. Our findings suggest that improving credit scoring performance could lead to more equitable access to credit. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# 固定点算術における量子ニューラルネットワークの表現力について
On Expressive Power of Quantized Neural Networks under Fixed-Point Arithmetic ( http://arxiv.org/abs/2409.00297v1 ) ライセンス: Link先を確認 | Geonho Hwang, Yeachan Park, Sejun Park, | (参考訳) ニューラルネットワークの表現力の研究は、通常、丸め誤差なしで実際のパラメータや操作を考える。
本研究では,離散的な固定点パラメータとラウンドリングによる誤りを生じる可能性のある固定点演算の下で,量子化されたネットワークの普遍近似特性について検討する。
まず、量子化されたネットワークの普遍近似のための固定点演算とアクティベーション関数に必要条件と十分な条件を提供する。
そこで本研究では,Sigmoid,ReLU,ELU,SoftPlus,SiLU,Mish,GELUなどの一般的なアクティベーション機能が,我々の十分な条件を満たすことを示す。
言い換えれば、これらのアクティベーション関数を用いたネットワークは、普遍的な近似が可能である。
例えば、活性化関数 $\sigma$ に対して、$\sigma(x)=0$ となるような固定点数 $x$ が存在する。
すなわち、大規模な活性化関数に対して必要かつ十分な条件を見つける。
最後に、$\{-1,1\}$の双対重みを用いた量子化ネットワークでさえ、実用的なアクティベーション関数に対して普遍的に近似できることを示す。
Research into the expressive power of neural networks typically considers real parameters and operations without rounding error. In this work, we study universal approximation property of quantized networks under discrete fixed-point parameters and fixed-point operations that may incur errors due to rounding. We first provide a necessary condition and a sufficient condition on fixed-point arithmetic and activation functions for universal approximation of quantized networks. Then, we show that various popular activation functions satisfy our sufficient condition, e.g., Sigmoid, ReLU, ELU, SoftPlus, SiLU, Mish, and GELU. In other words, networks using those activation functions are capable of universal approximation. We further show that our necessary condition and sufficient condition coincide under a mild condition on activation functions: e.g., for an activation function $\sigma$, there exists a fixed-point number $x$ such that $\sigma(x)=0$. Namely, we find a necessary and sufficient condition for a large class of activation functions. We lastly show that even quantized networks using binary weights in $\{-1,1\}$ can also universally approximate for practical activation functions. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# データは再び失われる --$k$Nearest Neighborsとスペクトルグラフ理論を用いた発電データの再構成
Data is missing again -- Reconstruction of power generation data using $k$-Nearest Neighbors and spectral graph theory ( http://arxiv.org/abs/2409.00300v1 ) ライセンス: Link先を確認 | Amandine Pierrot, Pierre Pinson, | (参考訳) 風力発電所における不足データやその後の不完全なデータ記録のリスクは、タービンやセンサーの数の増加とともに増大する。
本稿では,データ駆動型概念と専門家の知識を融合した計算手法を提案する。
提案手法は, スペクトルグラフ理論を用いて, ウィンドファームのグラフからラプラシアン固有写像を学習することに依存する。
これらの学習された表現は、ウィンドファームのレイアウトのみに基づいてもよいし、収集されたデータから提供される情報も考慮できる。
関連する重み付きグラフは時間とともに変更可能で、オンライン形式で追跡することができる。
ウェスタストラフ洋上風力発電への適用は、風力発電のレイアウト情報を考慮しないアプローチよりも大幅に改善されている。
The risk of missing data and subsequent incomplete data records at wind farms increases with the number of turbines and sensors. We propose here an imputation method that blends data-driven concepts with expert knowledge, by using the geometry of the wind farm in order to provide better estimates when performing Nearest Neighbor imputation. Our method relies on learning Laplacian eigenmaps out of the graph of the wind farm through spectral graph theory. These learned representations can be based on the wind farm layout only, or additionally account for information provided by collected data. The related weighted graph is allowed to change with time and can be tracked in an online fashion. Application to the Westermost Rough offshore wind farm shows significant improvement over approaches that do not account for the wind farm layout information. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# ContextVLM:視覚言語モデルを用いた自律走行のためのゼロショットとFewショットコンテキスト理解
ContextVLM: Zero-Shot and Few-Shot Context Understanding for Autonomous Driving using Vision Language Models ( http://arxiv.org/abs/2409.00301v1 ) ライセンス: Link先を確認 | Shounak Sural, Naren, Ragunathan Rajkumar, | (参考訳) 近年,交通システムの安全性向上を目的とした自律走行車(AV)技術の発展が目覚ましい。
AVはある程度現実世界に配備されているが、本格的な展開では、大雨、雪、照明の低さ、建設ゾーン、トンネル内のGPS信号の喪失といった課題を、AVがしっかりとナビゲートする必要がある。
これらの特定の課題に対処するには、AVは動作している環境の物理的特性を確実に認識する必要がある。
本稿では,AVの環境特性を正確に識別し,適切な処理を行うためのタスクとしてコンテキスト認識を定義する。
具体的には、AVが認識しなければならない様々な天候、照明、交通、道路条件を捉えた24の環境状況を定義します。
環境コンテキストを認識する必要性に動機付けられて、AVに関連する1.6万以上のコンテキストクエリペアを持つ、DrivingContextsと呼ばれるコンテキスト認識データセットを作成しました。
従来の教師付きコンピュータビジョンアプローチは様々なコンテキストにうまく対応できないため、ゼロショットと少数ショットのアプローチを用いて、視覚言語モデルを用いてコンテキストを検出するContextVLMというフレームワークを提案する。
ContextVLMは、4GBのNvidia GeForce GTX 1050 Ti GPU上で、クエリ毎に10.5ミリ秒のレイテンシでリアルタイムに実行しながら、データセット上で95%以上の精度で関連する駆動コンテキストを確実に検出することができる。
In recent years, there has been a notable increase in the development of autonomous vehicle (AV) technologies aimed at improving safety in transportation systems. While AVs have been deployed in the real-world to some extent, a full-scale deployment requires AVs to robustly navigate through challenges like heavy rain, snow, low lighting, construction zones and GPS signal loss in tunnels. To be able to handle these specific challenges, an AV must reliably recognize the physical attributes of the environment in which it operates. In this paper, we define context recognition as the task of accurately identifying environmental attributes for an AV to appropriately deal with them. Specifically, we define 24 environmental contexts capturing a variety of weather, lighting, traffic and road conditions that an AV must be aware of. Motivated by the need to recognize environmental contexts, we create a context recognition dataset called DrivingContexts with more than 1.6 million context-query pairs relevant for an AV. Since traditional supervised computer vision approaches do not scale well to a variety of contexts, we propose a framework called ContextVLM that uses vision-language models to detect contexts using zero- and few-shot approaches. ContextVLM is capable of reliably detecting relevant driving contexts with an accuracy of more than 95% on our dataset, while running in real-time on a 4GB Nvidia GeForce GTX 1050 Ti GPU on an AV with a latency of 10.5 ms per query. | 翻訳日:2024-09-06 15:46:49 公開日:2024-08-30 |
# 多軸加工におけるアクセシビリティの深部ニューラルネットワークによる表現
Deep Neural Implicit Representation of Accessibility for Multi-Axis Manufacturing ( http://arxiv.org/abs/2409.02115v1 ) ライセンス: Link先を確認 | George P. Harabin, Morad Behandish, Amir Mirzendehdel, | (参考訳) 多軸添加および減算製造のための設計およびプロセス計画における主な関心事は、移動物体(例えば、ツールアセンブリ)と静止物体(例えば、フィクスチャと一体化された部分)の衝突回避である。
相対的剛性変換と2点間の回転の様々な対の衝突測度は、6次元非ユークリッド構成空間上のコンパクトに支持されたスカラー場によって概念化することができる。
この場の明示的な表現と計算は時間と空間の両方で費用がかかる。
もし$Oを修正すれば
(m)$ sparsely sampled rotations(例:ツールの向き)、衝突測度場の計算は、$O(mn^3) \logのような高速フーリエ変換(FFT)スケールによる解像度$O(n^3)$の均一格子上の3次元点集合の指標関数の畳み込みである。
n) 時間で$、空間で$O(mn^3)$。
本稿では,ディープニューラルネットワーク(DNN)を用いた衝突計測の暗黙的表現を開発する。
本手法は, 回転のスパースサンプリングから衝突測度を正確に補間することができ, メモリフットプリントの小さい衝突測度場を表現できることを示す。
さらに,この表現を微調整により効率的に更新し,マルチレゾリューションデータ上でネットワークをより効率的にトレーニングし,幾何への漸進的な変化を許容できることを示す(例えば,CNCツールアクセシビリティ制約を受ける部分のトポロジ最適化など)。
One of the main concerns in design and process planning for multi-axis additive and subtractive manufacturing is collision avoidance between moving objects (e.g., tool assemblies) and stationary objects (e.g., a part unified with fixtures). The collision measure for various pairs of relative rigid translations and rotations between the two pointsets can be conceptualized by a compactly supported scalar field over the 6D non-Euclidean configuration space. Explicit representation and computation of this field is costly in both time and space. If we fix $O(m)$ sparsely sampled rotations (e.g., tool orientations), computation of the collision measure field as a convolution of indicator functions of the 3D pointsets over a uniform grid (i.e., voxelized geometry) of resolution $O(n^3)$ via fast Fourier transforms (FFTs) scales as in $O(mn^3 \log n)$ in time and $O(mn^3)$ in space. In this paper, we develop an implicit representation of the collision measure field via deep neural networks (DNNs). We show that our approach is able to accurately interpolate the collision measure from a sparse sampling of rotations, and can represent the collision measure field with a small memory footprint. Moreover, we show that this representation can be efficiently updated through fine-tuning to more efficiently train the network on multi-resolution data, as well as accommodate incremental changes to the geometry (such as might occur in iterative processes such as topology optimization of the part subject to CNC tool accessibility constraints). | 翻訳日:2024-09-05 23:53:09 公開日:2024-08-30 |
# ビームトイパワービースト
BEAUTY Powered BEAST ( http://arxiv.org/abs/2103.00674v6 ) ライセンス: Link先を確認 | Kai Zhang, Wan Zhang, Zhigen Zhao, Wen Zhou, | (参考訳) 本研究は,UniformiTY (BEAUTY) の2成分拡張近似を用いた分布自由性試験である。
この方法は有名なオイラーの公式を一般化し、境界二項展開からの二項相互作用の期待の線形結合を通じて任意のコプラの特徴関数を近似する。
この理論は、決定論的重み行列が各テストのパワー特性を特徴づける、特定の2次形式の対称性統計から近似することで、多くの重要な独立性テストの統一を可能にする。
頑健なパワーを達成するため,データ適応重みを用いた試験統計をBEAST(Binary Expansion Adaptive Symmetry Test)と呼ぶ。
任意の選択肢に対して、ネイマン・ピアソン検定は対称性統計のオラクル重み付き和で近似できることを示した。
このオラクルを使ったBEASTは、実現可能なパワーの有用なベンチマークを提供します。
このオラクルパワーにアプローチするために、私たちは、オラクルテストの定期的な再サンプリング近似を通じてBEASTを考案します。
BEASTは、多くの既存のテストの幅広い選択肢に対する経験的パワーを改善し、重要な場合の依存性フォームの明確な解釈を提供する。
We study distribution-free goodness-of-fit tests with the proposed Binary Expansion Approximation of UniformiTY (BEAUTY) approach. This method generalizes the renowned Euler's formula, and approximates the characteristic function of any copula through a linear combination of expectations of binary interactions from marginal binary expansions. This novel theory enables a unification of many important tests of independence via approximations from specific quadratic forms of symmetry statistics, where the deterministic weight matrix characterizes the power properties of each test. To achieve a robust power, we examine test statistics with data-adaptive weights, referred to as the Binary Expansion Adaptive Symmetry Test (BEAST). For any given alternative, we demonstrate that the Neyman-Pearson test can be approximated by an oracle weighted sum of symmetry statistics. The BEAST with this oracle provides a useful benchmark of feasible power. To approach this oracle power, we devise the BEAST through a regularized resampling approximation of the oracle test. The BEAST improves the empirical power of many existing tests against a wide spectrum of common alternatives and delivers a clear interpretation of dependency forms when significant. | 翻訳日:2024-09-04 23:16:54 公開日:2024-08-30 |
# 凍結型視覚変換器の入力空間適応のためのプロンプト生成ネットワーク
Prompt Generation Networks for Input-Space Adaptation of Frozen Vision Transformers ( http://arxiv.org/abs/2210.06466v3 ) ライセンス: Link先を確認 | Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano, | (参考訳) コンピュータビジョンにおけるトランスフォーマーアーキテクチャの導入により、モデルスケールの増大は、パフォーマンスとロバスト性向上を達成するための明確な経路として実証されている。
しかし、モデルパラメータが数十億に達すると、NLPのようにモデルが推論APIとしてホストされるようになると、古典的な微調整アプローチはますます制限され、実現不可能になってきています。
視覚的入力プロンプト学習(Visual input-prompt learning)は、視覚的(RGB)空間における追加入力を学習する適応技術であり、フォワードパスへのアクセスも後処理も必要とせず、凍結およびクラウドホストされたモデルに適応するための潜在的な解決策として登場した。
しかし、これまでのところ、これらの制約は適応性能を著しく低下させてきた。
そこで本研究では,各データポイント毎に異なるプロンプトを生成するPrompt Generation Network(PGN)を提案する。
PGNは、トレーニング済みのモデルを様々な新しいデータセットに効果的に適応することを示します。
最後に、PGNを遅延空間で効率よく訓練できるが、推論のためにRGB入力空間に展開する"prompt inversion"手法を紹介する。
With the introduction of the transformer architecture in computer vision, increasing model scale has been demonstrated as a clear path to achieving performance and robustness gains. However, with model parameter counts reaching the billions, classical finetuning approaches are becoming increasingly limiting and even unfeasible when models become hosted as inference APIs, as in NLP. Visual input-prompt learning, an adaptation technique in which additional inputs in visual (RGB) space are learned, has emerged as a potential solution for adapting frozen and cloud-hosted models, requiring neither access to the forward pass, nor post-processing. Yet so far, these constraints have deteriorated adaptation performances significantly. To this end, we propose the Prompt Generation Network (PGN) that generates a different prompt for every data point, which is then used to adapt a frozen pretrained vision model to a target task. We show that the PGN effectively adapts pretrained models to various new datasets: It surpasses previous methods by a large margin on 12/12 datasets and even outperforms full-finetuning on 5/12, while requiring 100x fewer parameters. Lastly, we introduce the "prompt inversion" trick, with which PGNs can be efficiently trained in a latent space but deployed in RGB input space for inference. | 翻訳日:2024-09-04 23:05:43 公開日:2024-08-30 |
# 双方向コントラスト学習による会話の絡み合い
Conversation Disentanglement with Bi-Level Contrastive Learning ( http://arxiv.org/abs/2210.15265v2 ) ライセンス: Link先を確認 | Chengyu Huang, Zheng Zhang, Hao Fei, Lizi Liao, | (参考訳) Conversation Disentanglementは、発話を分離したセッションにグループ化することを目的としており、これは多人数会話の処理における基本的なタスクである。
既存の方法には2つの欠点がある。
まず、ペアワイズな発話関係を過度に強調するが、発話対コンテキスト関係のモデリングには不適切な注意を払っている。
第2に、トレーニングには大量の人間の注釈付きデータが必要であり、実際に取得するにはコストがかかる。
これらの問題に対処するために,両水準のコントラスト学習に基づく一般的な不整合モデルを提案する。
同じセッションでより近い発話をもたらし、各発話が表現空間内のクラスタ化されたセッションプロトタイプの近くにあるように促します。
既存のアプローチとは異なり、当社の非角モデルはラベル付きデータを用いた教師付き設定と、そのようなデータが利用できない場合の教師なし設定の両方で動作する。
提案手法は,複数の公開データセットにまたがる両方の設定において,新しい最先端性能を実現する。
Conversation disentanglement aims to group utterances into detached sessions, which is a fundamental task in processing multi-party conversations. Existing methods have two main drawbacks. First, they overemphasize pairwise utterance relations but pay inadequate attention to the utterance-to-context relation modeling. Second, huge amount of human annotated data is required for training, which is expensive to obtain in practice. To address these issues, we propose a general disentangle model based on bi-level contrastive learning. It brings closer utterances in the same session while encourages each utterance to be near its clustered session prototypes in the representation space. Unlike existing approaches, our disentangle model works in both supervised setting with labeled data and unsupervised setting when no such data is available. The proposed method achieves new state-of-the-art performance on both settings across several public datasets. | 翻訳日:2024-09-04 23:05:43 公開日:2024-08-30 |
# 全領域イジングモデルによるNスピン-1/2$系における量子絡み合い、幾何学的および動的外観の相補性
Complementarity between quantum entanglement, geometrical and dynamical appearances in N spin-$1/2$ system under all-range Ising model ( http://arxiv.org/abs/2304.05278v3 ) ライセンス: Link先を確認 | Jamal Elfakir, Brahim Amghar, Abdallah Slaoui, Mohammed Daoud, | (参考訳) 幾何学科学の成長に伴い、現代の幾何学によって情報の世界を探索する手法を含め、幾何学的・位相的・動的特性と量子的絡み合いとの間には謎の曖昧な関係が常にある。
幾何学は距離や曲率などの要素間の相互関係を研究するため、積分可能量子系の実用的で理解可能な記述をもたらす強力な構造を持つ情報科学を提供する。
ここでは、これらの構造を全範囲イジングモデルの下でN$相互作用スピン-1/2$の物理系で探索する。
系の力学により、関連する量子状態空間を定義するフビニ・スタディ計量を決定する。
ガウス・ボンネットの定理の範囲内でガウス曲率を適用することで、ダンベル型構造と球面位相の両方を持つ閉2次元多様体上でその力学が生じることを証明した。
系の進化過程に現れる幾何学的位相と位相的位相を十分に議論する。
その後、時間-最適進化を達成して量子ブラキストロン問題を解く。
一つ目は幾何学的な性質であり、その絡み合いレベルがフビニ・スタディ計量、ガウス曲率、幾何学的位相などの導出した幾何学的構造にどのように影響するかを探求する。
2つ目は動的性質であり、進化速度と関連するフビニ・スタディ距離に対する絡み合い効果に対処する。
さらに、絡み合いの度合いにより、量子ブラキストロン問題を解く。
With the growth of geometric science, including the methods of exploring the world of information by means of modern geometry, there has always been a mysterious and fascinating ambiguous link between geometric, topological and dynamical characteristics with quantum entanglement. Since geometry studies the interrelations between elements such as distance and curvature, it provides the information sciences with powerful structures that yield practically useful and understandable descriptions of integrable quantum systems. We explore here these structures in a physical system of $N$ interaction spin-$1/2$ under all-range Ising model. By performing the system dynamics, we determine the Fubini-Study metric defining the relevant quantum state space. Applying Gaussian curvature within the scope of the Gauss-Bonnet theorem, we proved that the dynamics happens on a closed two-dimensional manifold having both a dumbbell-shape structure and a spherical topology. The geometric and topological phases appearing during the system evolution processes are sufficiently discussed. Subsequently, we resolve the quantum brachistochrone problem by achieving the time-optimal evolution. By restricting the whole system to a two spin-$1/2$ system, we investigate the relevant entanglement from two viewpoints; The first is of geometric nature and explores how the entanglement level affects derived geometric structures such as the Fubini-Study metric, the Gaussian curvature, and the geometric phase. The second is of dynamic nature and addresses the entanglement effect on the evolution speed and the related Fubini-Study distance. Further, depending on the degree of entanglement, we resolve the quantum brachistochrone problem. | 翻訳日:2024-09-04 22:54:55 公開日:2024-08-30 |
# FlakyFix: 大規模な言語モデルを使用して、フレキシブルなテスト修正カテゴリとテストコード修正を予測する
FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair ( http://arxiv.org/abs/2307.00012v4 ) ライセンス: Link先を確認 | Sakina Fatima, Hadi Hemmati, Lionel Briand, | (参考訳) 不安定なテストは、非決定的に同じソフトウェアバージョンをテスト中にパスまたは失敗し、混乱と開発労力の浪費を引き起こすため、問題となる。
機械学習モデルは、フレキネスとその根本原因を予測するために使われてきたが、問題を修正するためのサポートを提供する作業は、はるかに少ない。
このギャップに対処するために、本稿では、フレキネスを除去し、そのベースでテストコードを修正するために必要な修正の種類を予測することに焦点を当てる。
これは、フレキネスの根本原因がテスト自身にあるのではなく、本番コードにあるような、フレキなテストのサブセットに対して行います。
1つの鍵となるアイデアは、予想される修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことである。
そこで我々はまず,13の修正カテゴリのラベル付きデータセットを自動的に生成するフレームワークを提案し,テストコードのみを解析することにより,フレークテストの修正カテゴリを予測するモデルを訓練する。
コードモデルと数ショット学習を用いた実験結果から,修正カテゴリのほとんどを正確に予測できることが判明した。
フレキネスを自動的に修復するための固定カテゴリラベルの有用性を示すため,大規模言語モデル (LLM) である GPT-3.5 Turbo のプロンプトを補修提案を依頼する余分な知識で強化した。
提案する修正カテゴリラベルは文脈内学習を補完するもので, GPT-3.5 Turbo がフレークテストの修正に有効であることが示唆された。
本研究は, GPT修復フラキ試験のサンプルの実施と解析に基づいて, これらの修復の大多数(約51%から83%)が通過することが期待されると推定した。
修復されたテストが失敗した場合、平均してテストコードの16%は、通過するためにさらに変更する必要がある。
Flaky tests are problematic because they non-deterministically pass or fail for the same software version under test, causing confusion and wasting development effort. While machine learning models have been used to predict flakiness and its root causes, there is much less work on providing support to fix the problem. To address this gap, in this paper, we focus on predicting the type of fix that is required to remove flakiness and then repair the test code on that basis. We do this for a subset of flaky tests where the root cause of flakiness is in the test itself and not in the production code. One key idea is to guide the repair process with additional knowledge about the test's flakiness in the form of its predicted fix category. Thus, we first propose a framework that automatically generates labeled datasets for 13 fix categories and trains models to predict the fix category of a flaky test by analyzing the test code only. Our experimental results using code models and few-shot learning show that we can correctly predict most of the fix categories. To show the usefulness of such fix category labels for automatically repairing flakiness, we augment the prompts of GPT-3.5 Turbo, a Large Language Model (LLM), with such extra knowledge to request repair suggestions. The results show that our suggested fix category labels, complemented with in-context learning, significantly enhance the capability of GPT-3.5 Turbo in generating fixes for flaky tests. Based on the execution and analysis of a sample of GPT-repaired flaky tests, we estimate that a large percentage of such repairs (roughly between 51% and 83%) can be expected to pass. For the failing repaired tests, on average, 16% of the test code needs to be further changed for them to pass. | 翻訳日:2024-09-04 22:44:54 公開日:2024-08-30 |
# マトリオシカ拡散モデル
Matryoshka Diffusion Models ( http://arxiv.org/abs/2310.15111v2 ) ライセンス: Link先を確認 | Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Josh Susskind, Navdeep Jaitly, | (参考訳) 拡散モデルは、高品質な画像やビデオを生成するためのデファクトアプローチであるが、計算と最適化の課題のため、高次元モデルの学習は依然として困難な課題である。
既存の方法は、しばしば画素空間でカスケードされたモデルを訓練したり、別々に訓練されたオートエンコーダのサンプリングされた潜在空間を使用する。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Models(MDM)を紹介する。
本研究では,複数解像度で複数の入力を重畳する拡散処理を提案し,大規模入力の特徴とパラメータを大規模インプット内にネストするNestedUNetアーキテクチャを提案する。
さらに、MDMは、低解像度から高解像度のプログレッシブトレーニングスケジュールを可能にするため、高解像度生成のための最適化が大幅に改善される。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
注目すべきは、最大1024x1024ピクセルの解像度で単一のピクセル空間モデルをトレーニングでき、わずか1200万の画像を含むCC12Mデータセットを使用して、強力なゼロショットの一般化を示すことである。
私たちのコードはhttps://github.com/apple/ml-mdmでリリースされています。
Diffusion models are the de facto approach for generating high-quality images and videos, but learning high-dimensional models remains a formidable task due to computational and optimization challenges. Existing methods often resort to training cascaded models in pixel space or using a downsampled latent space of a separately trained auto-encoder. In this paper, we introduce Matryoshka Diffusion Models(MDM), an end-to-end framework for high-resolution image and video synthesis. We propose a diffusion process that denoises inputs at multiple resolutions jointly and uses a NestedUNet architecture where features and parameters for small-scale inputs are nested within those of large scales. In addition, MDM enables a progressive training schedule from lower to higher resolutions, which leads to significant improvements in optimization for high-resolution generation. We demonstrate the effectiveness of our approach on various benchmarks, including class-conditioned image generation, high-resolution text-to-image, and text-to-video applications. Remarkably, we can train a single pixel-space model at resolutions of up to 1024x1024 pixels, demonstrating strong zero-shot generalization using the CC12M dataset, which contains only 12 million images. Our code is released at https://github.com/apple/ml-mdm | 翻訳日:2024-09-04 22:14:48 公開日:2024-08-30 |
# 関数制約による非滑らかな射影自由最適化
Nonsmooth Projection-Free Optimization with Functional Constraints ( http://arxiv.org/abs/2311.11180v2 ) ライセンス: Link先を確認 | Kamiar Asgari, Michael J. Neely, | (参考訳) 本稿では,制約付き非平滑凸最適化のための段階的アルゴリズムを提案する。
確立されたFrank-Wolfeアルゴリズムとその変種はすでに射影を回避しているが、それらは主に滑らかな客観的関数のために設計されている。
対照的に,提案アルゴリズムは一般凸関数不等式制約で非滑らかな問題を扱うことができる。
これは$\epsilon$-suboptimal Solutions in $\mathcal{O}(\epsilon^{-2})$ iterations を達成する。
この性能は、既存の下位境界と一致している。
決定論的下位段階を確率的下位段階に置き換える際にも同様のパフォーマンスが観察される。
機能的不等式制約が存在しない特別な場合、我々のアルゴリズムは制約のない問題のために設計された最近の非滑らかな射影自由法と良好に競合する。
提案手法では,新しいラグランジュ乗算器更新規則とともに,単純な分離方式を用いる。
This paper presents a subgradient-based algorithm for constrained nonsmooth convex optimization that does not require projections onto the feasible set. While the well-established Frank-Wolfe algorithm and its variants already avoid projections, they are primarily designed for smooth objective functions. In contrast, our proposed algorithm can handle nonsmooth problems with general convex functional inequality constraints. It achieves an $\epsilon$-suboptimal solution in $\mathcal{O}(\epsilon^{-2})$ iterations, with each iteration requiring only a single (potentially inexact) Linear Minimization Oracle (LMO) call and a (possibly inexact) subgradient computation. This performance is consistent with existing lower bounds. Similar performance is observed when deterministic subgradients are replaced with stochastic subgradients. In the special case where there are no functional inequality constraints, our algorithm competes favorably with a recent nonsmooth projection-free method designed for constraint-free problems. Our approach utilizes a simple separation scheme in conjunction with a new Lagrange multiplier update rule. | 翻訳日:2024-09-04 22:02:40 公開日:2024-08-30 |
# 機械学習におけるハードウェア選択の公正性への影響について
On The Fairness Impacts of Hardware Selection in Machine Learning ( http://arxiv.org/abs/2312.03886v2 ) ライセンス: Link先を確認 | Sree Harsha Nelaturu, Nishaanth Kanna Ravichandran, Cuong Tran, Sara Hooker, Ferdinando Fioretto, | (参考訳) 機械学習のエコシステムでは、ハードウェアの選択は単なるユーティリティと見なされ、アルゴリズムやデータのスポットライトに隠れている。
この監視は、ML-as-a-serviceプラットフォームのようなコンテキストにおいて特に問題となる。
ハードウェアの選択は一般化特性にどのように影響しますか?
本稿では,ハードウェアがモデル性能と公平性の微妙なバランスに与える影響について検討する。
ハードウェアの選択が既存の格差を悪化させる可能性を示し、これらの相違は、異なる階層群間での勾配流と損失面の変化に起因することを示した。
理論的および実証的分析の両面から,本論文はハードウェアによる性能不均衡を緩和するための効果的な戦略を提案する。
In the machine learning ecosystem, hardware selection is often regarded as a mere utility, overshadowed by the spotlight on algorithms and data. This oversight is particularly problematic in contexts like ML-as-a-service platforms, where users often lack control over the hardware used for model deployment. How does the choice of hardware impact generalization properties? This paper investigates the influence of hardware on the delicate balance between model performance and fairness. We demonstrate that hardware choices can exacerbate existing disparities, attributing these discrepancies to variations in gradient flows and loss surfaces across different demographic groups. Through both theoretical and empirical analysis, the paper not only identifies the underlying factors but also proposes an effective strategy for mitigating hardware-induced performance imbalances. | 翻訳日:2024-09-04 22:02:40 公開日:2024-08-30 |
# きめ細かな逆流によるテキスト生成のための学習言語モデル
Training Language Models to Generate Text with Citations via Fine-grained Rewards ( http://arxiv.org/abs/2402.04315v3 ) ライセンス: Link先を確認 | Chengyu Huang, Zeqiu Wu, Yushi Hu, Wenya Wang, | (参考訳) 近年のLarge Language Models (LLM) はユーザクエリの応答に有用であることが証明されているが,幻覚の傾向があり,信頼性の低いソースへの参照が欠如しているため,その応答には信頼性が欠如していることが多い。
これらの問題に対する直感的な解決策は、証拠として外部文書を参照するテキスト内引用を含めることである。
以前の研究は、直接 LLM にインテキストの引用を生成するよう促してきたが、その性能は、特に小さな LLM の場合、満足には程遠い。
本研究では, LLMに対して, 応答の正確性を確保しつつ, 支援的かつ関連性の高い引用を生成するための, 微粒な報酬を用いた効果的な学習フレームワークを提案する。
また、これらの微粒な報酬を一般的なLLMトレーニング戦略に適用する体系的な分析を行い、従来の実践よりも有利であることを示す。
ALCEベンチマークから得られた質問応答(QA)データセットについて広範な実験を行い、EXPERTQAを用いてモデルの一般化性を検証する。
LLaMA-2-7Bでは、細粒度の報酬がGPT-3.5-turboを上回り、ベースラインの中で最高の性能を達成している。
While recent Large Language Models (LLMs) have proven useful in answering user queries, they are prone to hallucination, and their responses often lack credibility due to missing references to reliable sources. An intuitive solution to these issues would be to include in-text citations referring to external documents as evidence. While previous works have directly prompted LLMs to generate in-text citations, their performances are far from satisfactory, especially when it comes to smaller LLMs. In this work, we propose an effective training framework using fine-grained rewards to teach LLMs to generate highly supportive and relevant citations, while ensuring the correctness of their responses. We also conduct a systematic analysis of applying these fine-grained rewards to common LLM training strategies, demonstrating its advantage over conventional practices. We conduct extensive experiments on Question Answering (QA) datasets taken from the ALCE benchmark and validate the model's generalizability using EXPERTQA. On LLaMA-2-7B, the incorporation of fine-grained rewards achieves the best performance among the baselines, even surpassing that of GPT-3.5-turbo. | 翻訳日:2024-09-04 19:43:36 公開日:2024-08-30 |
# 名詞句における頭部の最適配置 : 形容詞・数字・形容詞・名詞の場合
The optimal placement of the head in the noun phrase. The case of demonstrative, numeral, adjective and noun ( http://arxiv.org/abs/2402.10311v7 ) ライセンス: Link先を確認 | Ramon Ferrer-i-Cancho, | (参考訳) 文の語順は複数の原則で表される。
統語的依存距離最小化の原理は、単一頭部統語的依存構造における部分最小化(または予測可能性最大化)の原理と矛盾する:前者は、頭部を線形配置の中心に置くべきであると予測する一方で、後者は、頭部を一方の端(第一または最後)に配置するべきであると予測する。
致命的な最小化(または予測可能性の最大化)が統語的依存距離を最小化するかどうかが重要な問題である。
単一頭部構造の文脈では、2つの条件、すなわち2つの条件が満たされた場合、これはより起こりやすいと予測されている。
a) 関係する単語が減り
b) 単語が短い。
ここでは、指示詞、数字、形容詞、名詞からなる名詞句の予測をテストする。
言語において好まれる順序によって、名詞は終わりの1つに置かれる傾向にあり、理論的な予測が裏付けられる。
選択順序の構文依存性距離は、偶然に予想されるよりも長い。
The word order of a sentence is shaped by multiple principles. The principle of syntactic dependency distance minimization is in conflict with the principle of surprisal minimization (or predictability maximization) in single head syntactic dependency structures: while the former predicts that the head should be placed at the center of the linear arrangement, the latter predicts that the head should be placed at one of the ends (either first or last). A critical question is when surprisal minimization (or predictability maximization) should surpass syntactic dependency distance minimization. In the context of single head structures, it has been predicted that this is more likely to happen when two conditions are met, i.e. (a) fewer words are involved and (b) words are shorter. Here we test the prediction on the noun phrase when it is composed of a demonstrative, a numeral, an adjective and a noun. We find that, across preferred orders in languages, the noun tends to be placed at one of the ends, confirming the theoretical prediction. We also show evidence of anti locality effects: syntactic dependency distances in preferred orders are longer than expected by chance. | 翻訳日:2024-09-04 19:31:47 公開日:2024-08-30 |
# PoCo:RGBD屋内位置認識のためのポイントコンテキストクラスタ
PoCo: Point Context Cluster for RGBD Indoor Place Recognition ( http://arxiv.org/abs/2404.02885v2 ) ライセンス: Link先を確認 | Jing Liang, Zhuo Deng, Zheming Zhou, Omid Ghasemalizadeh, Dinesh Manocha, Min Sun, Cheng-Hao Kuo, Arnie Sen, | (参考訳) 本稿では,屋内RGB-D位置認識タスクのための新しいエンドツーエンドアルゴリズム(PoCo)を提案する。
このタスクは、視野の制約や知覚センサーの制限による固有の課題を提示する。
本稿では,最近のコンテキスト・オブ・クラスタ(CoC)を一般化したネットワークアーキテクチャを提案する。
さらに,グローバルな記述子表現を強化するために,色と幾何学的モダリティをポイント特徴に統合してアーキテクチャを開発する。
公開データセットであるScanNet-PRとARKitをそれぞれ807シナリオと5047シナリオで評価した。
ScanNet-PRでは64.63%のR@1、ベストパブリッシュされた結果CGis(61.12%)から5.7%の改善、Arkitでは45.12%のR@1、ベストパブリッシュされた結果CGis(39.82%)から13.3%の改善。
また,PoCoは推定時間(1.75倍高速)においてCGisよりも高い効率を示し,実環境下での認識におけるPoCoの有効性を示した。
We present a novel end-to-end algorithm (PoCo) for the indoor RGB-D place recognition task, aimed at identifying the most likely match for a given query frame within a reference database. The task presents inherent challenges attributed to the constrained field of view and limited range of perception sensors. We propose a new network architecture, which generalizes the recent Context of Clusters (CoCs) to extract global descriptors directly from the noisy point clouds through end-to-end learning. Moreover, we develop the architecture by integrating both color and geometric modalities into the point features to enhance the global descriptor representation. We conducted evaluations on public datasets ScanNet-PR and ARKit with 807 and 5047 scenarios, respectively. PoCo achieves SOTA performance: on ScanNet-PR, we achieve R@1 of 64.63%, a 5.7% improvement from the best-published result CGis (61.12%); on Arkit, we achieve R@1 of 45.12%, a 13.3% improvement from the best-published result CGis (39.82%). In addition, PoCo shows higher efficiency than CGis in inference time (1.75X-faster), and we demonstrate the effectiveness of PoCo in recognizing places within a real-world laboratory environment. | 翻訳日:2024-09-04 18:50:14 公開日:2024-08-30 |
# 地球科学の因果関係 -時系列と時空間因果関係の考察-
Causality for Earth Science -- A Review on Time-series and Spatiotemporal Causality Methods ( http://arxiv.org/abs/2404.05746v2 ) ライセンス: Link先を確認 | Sahara Ali, Uzma Hasan, Xingyan Li, Omar Faruque, Akila Sampath, Yiyi Huang, Md Osman Gani, Jianwu Wang, | (参考訳) 本研究は,地球科学における時系列の広さと深度,時空間因果関係の手法とその応用について述べる。
より具体的には、因果関係の発見と因果関係の推測について概説し、根底にある因果関係の仮定を説明し、領域領域の評価手法と重要な用語を列挙する。
本稿では,時系列および時空間因果解析に導入された様々な最先端手法を,その強度と限界とともに適用する。
本論文は, 極度の気象イベント, 海面上昇, テレコネクションなど, 地球科学の特定の問題に対処するためのいくつかの手法の既存の応用について述べる。
このサーベイペーパーは、地球科学データセット(合成、シミュレーション、観測データ)やオープンソースの因果解析ツールなど、データ駆動因果解析に関心のあるデータサイエンス研究者のプライマーとして機能する。
因果性に基づく地球科学研究を行う上でのオープンな課題と機会を示すため、異なる動的および熱力学的プロセスの因果性を研究するために、AI主導のアプローチを採用することに関心を持つ地球科学コミュニティにも同じように利益をもたらすだろう。
This survey paper covers the breadth and depth of time-series and spatiotemporal causality methods, and their applications in Earth Science. More specifically, the paper presents an overview of causal discovery and causal inference, explains the underlying causal assumptions, and enlists evaluation techniques and key terminologies of the domain area. The paper elicits the various state-of-the-art methods introduced for time-series and spatiotemporal causal analysis along with their strengths and limitations. The paper further describes the existing applications of several methods for answering specific Earth Science questions such as extreme weather events, sea level rise, teleconnections etc. This survey paper can serve as a primer for Data Science researchers interested in data-driven causal study as we share a list of resources, such as Earth Science datasets (synthetic, simulated and observational data) and open source tools for causal analysis. It will equally benefit the Earth Science community interested in taking an AI-driven approach to study the causality of different dynamic and thermodynamic processes as we present the open challenges and opportunities in performing causality-based Earth Science study. | 翻訳日:2024-09-04 18:50:14 公開日:2024-08-30 |
# データ認証、Consent、そしてAIの保証はすべて壊れている。
Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them? ( http://arxiv.org/abs/2404.12691v2 ) ライセンス: Link先を確認 | Shayne Longpre, Robert Mahari, Naana Obeng-Marnu, William Brannon, Tobin South, Katy Gero, Sandy Pentland, Jad Kabbara, | (参考訳) 基礎モデルの新機能は、大部分が大規模で、広くオープンソース化され、文書化されていないトレーニングデータ収集に負っている。
既存のデータ収集の実践は、信頼性の追跡、同意の検証、プライバシーの保護、表現と偏見への対処、著作権の尊重、倫理的かつ信頼できる基礎モデルを総合的に開発するという課題に繋がった。
これに応えて、規制は基礎モデルの制限を理解するためにデータの透明性を訓練する必要性を強調している。
基礎モデルトレーニングデータランドスケープと既存のソリューションを大規模に分析した結果,基盤モデル開発に責任を負う上で欠落するインフラストラクチャを特定した。
我々は、データの信頼性、同意、ドキュメントをトレースする一般的なツールの現在の欠点について検討し、政策立案者、開発者、データ作成者が、普遍的なデータ証明標準を採用することにより、責任ある基礎モデル開発を促進する方法について概説する。
New capabilities in foundation models are owed in large part to massive, widely-sourced, and under-documented training data collections. Existing practices in data collection have led to challenges in tracing authenticity, verifying consent, preserving privacy, addressing representation and bias, respecting copyright, and overall developing ethical and trustworthy foundation models. In response, regulation is emphasizing the need for training data transparency to understand foundation models' limitations. Based on a large-scale analysis of the foundation model training data landscape and existing solutions, we identify the missing infrastructure to facilitate responsible foundation model development practices. We examine the current shortcomings of common tools for tracing data authenticity, consent, and documentation, and outline how policymakers, developers, and data creators can facilitate responsible foundation model development by adopting universal data provenance standards. | 翻訳日:2024-09-04 18:40:27 公開日:2024-08-30 |
# Phi-3テクニカルレポート:スマートフォンでローカルに高機能な言語モデル
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone ( http://arxiv.org/abs/2404.14219v4 ) ライセンス: Link先を確認 | Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Qin Cai, Vishrav Chaudhary, Dong Chen, Dongdong Chen, Weizhu Chen, Yen-Chun Chen, Yi-Ling Chen, Hao Cheng, Parul Chopra, Xiyang Dai, Matthew Dixon, Ronen Eldan, Victor Fragoso, Jianfeng Gao, Mei Gao, Min Gao, Amit Garg, Allie Del Giorno, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Wenxiang Hu, Jamie Huynh, Dan Iter, Sam Ade Jacobs, Mojan Javaheripi, Xin Jin, Nikos Karampatziakis, Piero Kauffmann, Mahoud Khademi, Dongwoo Kim, Young Jin Kim, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Yunsheng Li, Chen Liang, Lars Liden, Xihui Lin, Zeqi Lin, Ce Liu, Liyuan Liu, Mengchen Liu, Weishung Liu, Xiaodong Liu, Chong Luo, Piyush Madan, Ali Mahmoudzadeh, David Majercak, Matt Mazzola, Caio César Teodoro Mendes, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Liliang Ren, Gustavo de Rosa, Corby Rosset, Sambudha Roy, Olatunji Ruwase, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Yelong Shen, Swadheen Shukla, Xia Song, Masahiro Tanaka, Andrea Tupini, Praneetha Vaddamanu, Chunyu Wang, Guanhua Wang, Lijuan Wang, Shuohang Wang, Xin Wang, Yu Wang, Rachel Ward, Wen Wen, Philipp Witte, Haiping Wu, Xiaoxia Wu, Michael Wyatt, Bin Xiao, Can Xu, Jiahang Xu, Weijian Xu, Jilong Xue, Sonali Yadav, Fan Yang, Jianwei Yang, Yifan Yang, Ziyi Yang, Donghan Yu, Lu Yuan, Chenruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yue Zhang, Yunan Zhang, Xiren Zhou, | (参考訳) 我々は、3.3兆のトークンでトレーニングされた3.8億のパラメータ言語モデルであるphi-3-miniを紹介し、その全体的な性能は、電話に展開できるほど小さいにもかかわらず、Mixtral 8x7BやGPT-3.5(例えば、phi-3-miniはMMLUで69%、MT-benchで8.38)のようなモデルに匹敵する。
我々のトレーニングデータセットは、非常にフィルタされたWebデータと合成データからなるphi-2用データセットのスケールアップ版です。
モデルはさらに堅牢性、安全性、チャットフォーマットに整合している。
また,4.8Tトークンに対して訓練した7B,14Bモデルであるphi-3-small,phi-3-mediumのパラメータスケーリング結果も,それぞれ,MMLUで75%,MMLUで78%,MT-benchで8.7,8.9)よりも有意に向上した。
マルチリンガル,マルチモーダル,ロングコンテクストの能力を向上させるため, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3つのモデルを導入する。
660億のアクティブパラメータを持つ16 x 3.8BのMoEモデルであるphi-3.5-MoEは、Llama 3.1やMixtralシリーズのような他のオープンソースモデルと比較して、言語推論、数学、コードタスクにおいて優れたパフォーマンスを達成し、Gemini-1.5-FlashやGPT-4o-miniと同等である。
一方、phi-3.5-Visionは、phi-3.5-miniから派生した42億のパラメータモデルである。
We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. Our training dataset is a scaled-up version of the one used for phi-2, composed of heavily filtered publicly available web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide parameter-scaling results with a 7B, 14B models trained for 4.8T tokens, called phi-3-small, phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75%, 78% on MMLU, and 8.7, 8.9 on MT-bench). To enhance multilingual, multimodal, and long-context capabilities, we introduce three models in the phi-3.5 series: phi-3.5-mini, phi-3.5-MoE, and phi-3.5-Vision. The phi-3.5-MoE, a 16 x 3.8B MoE model with 6.6 billion active parameters, achieves superior performance in language reasoning, math, and code tasks compared to other open-source models of similar scale, such as Llama 3.1 and the Mixtral series, and on par with Gemini-1.5-Flash and GPT-4o-mini. Meanwhile, phi-3.5-Vision, a 4.2 billion parameter model derived from phi-3.5-mini, excels in reasoning tasks and is adept at handling both single-image and text prompts, as well as multi-image and text prompts. | 翻訳日:2024-09-04 18:40:27 公開日:2024-08-30 |
# ニューラル演算子を用いたS行列位相の学習
Learning S-Matrix Phases with Neural Operators ( http://arxiv.org/abs/2404.14551v2 ) ライセンス: Link先を確認 | V. Niarchos, C. Papageorgakis, | (参考訳) フーリエ・ニューラル・オペレーター (FNO) を用いて、固定エネルギーにおける2ドルから2ドル程度の弾性散乱における振幅の弾性率と振幅の位相の関係について検討する。
従来のアプローチとは異なり、ユニタリティによって課される積分関係を使わず、FNOを訓練して有限部分波展開を持つ振幅の多くのサンプルから発見する。
真のサンプルでのみ訓練されると、FNOは無限の部分波展開を伴う振幅の(一様または曖昧な)位相を正確に予測する。
偽のサンプルもトレーニングすると、真の/偽の分類指標を生成することで、予測の品質を評価することができる。
本研究では,この指数の値が予測位相のユニタリ性制約違反と強く相関していることと,それが許容プロファイルと許容プロファイルの境界を規定する実例を考察する。
同時回帰分類タスクを伴い、NOのアンサンブルにおける統計の役割を強調する。
理論物理学における新しい方法論としてのアプローチのメリットと限界について論じる。
We use Fourier Neural Operators (FNOs) to study the relation between the modulus and phase of amplitudes in $2\to 2$ elastic scattering at fixed energies. Unlike previous approaches, we do not employ the integral relation imposed by unitarity, but instead train FNOs to discover it from many samples of amplitudes with finite partial wave expansions. When trained only on true samples, the FNO correctly predicts (unique or ambiguous) phases of amplitudes with infinite partial wave expansions. When also trained on false samples, it can rate the quality of its prediction by producing a true/false classifying index. We observe that the value of this index is strongly correlated with the violation of the unitarity constraint for the predicted phase, and present examples where it delineates the boundary between allowed and disallowed profiles of the modulus. Our application of FNOs is unconventional: it involves a simultaneous regression-classification task and emphasizes the role of statistics in ensembles of NOs. We comment on the merits and limitations of the approach and its potential as a new methodology in Theoretical Physics. | 翻訳日:2024-09-04 18:40:27 公開日:2024-08-30 |
# 格子外科用SATスカルペル:表面コードフォールトトレラント量子コンピューティングのためのサブルーチンの表現と合成
A SAT Scalpel for Lattice Surgery: Representation and Synthesis of Subroutines for Surface-Code Fault-Tolerant Quantum Computing ( http://arxiv.org/abs/2404.18369v3 ) ライセンス: Link先を確認 | Daniel Bochen Tan, Murphy Yuezhen Niu, Craig Gidney, | (参考訳) 大規模量子コンピューティングには量子エラー補正が必要である。
有望な量子誤り訂正符号は表面符号である。
このコードに対して、フォールトトレラント量子コンピューティング(FTQC)は格子手術、すなわちコードのパッチの分割とマージによって行うことができる。
格子型サブルーチン(LaS)の頻繁な使用を考えると,FTQCの時空容積を最小化するために,それらの設計を最適化することが重要である。
本研究では,LaSを表す変数と,これらの変数の制約を定義する。
この定式化を利用して、LaSの合成器LaSsynthを開発し、LaSの構成問題をSATインスタンスにエンコードし、SATソルバに解を求める。
ベースライン設計から始めると、時空体積を縮めた解法を徐々に呼び出すことができ、よりコンパクトな設計を導出できる。
我々の基礎的な定式化とSATソルバの使用により、LaSynthは設計空間を徹底的に探索し、最適設計を容積で得ることができる。
例えば、FTQCのボトルネックである15-to-1 T-factoryの2つの最先端の人間設計に対して、それぞれ8%と18%のボリューム削減を実現している。
Quantum error correction is necessary for large-scale quantum computing. A promising quantum error correcting code is the surface code. For this code, fault-tolerant quantum computing (FTQC) can be performed via lattice surgery, i.e., splitting and merging patches of code. Given the frequent use of certain lattice-surgery subroutines (LaS), it becomes crucial to optimize their design in order to minimize the overall spacetime volume of FTQC. In this study, we define the variables to represent LaS and the constraints on these variables. Leveraging this formulation, we develop a synthesizer for LaS, LaSsynth, that encodes a LaS construction problem into a SAT instance, subsequently querying SAT solvers for a solution. Starting from a baseline design, we can gradually invoke the solver with shrinking spacetime volume to derive more compact designs. Due to our foundational formulation and the use of SAT solvers, LaSsynth can exhaustively explore the design space, yielding optimal designs in volume. For example, it achieves 8% and 18% volume reduction respectively over two states-of-the-art human designs for the 15-to-1 T-factory, a bottleneck in FTQC. | 翻訳日:2024-09-04 18:30:43 公開日:2024-08-30 |
# FRACTAL: 横ランドスケープの3次元セマンティックセマンティックセグメンテーションのための超大規模空中ライダーデータセット
FRACTAL: An Ultra-Large-Scale Aerial Lidar Dataset for 3D Semantic Segmentation of Diverse Landscapes ( http://arxiv.org/abs/2405.04634v4 ) ライセンス: Link先を確認 | Charles Gaydon, Michel Daab, Floryne Roche, | (参考訳) マッピング機関は、建物やその他の地上構造をマッピングするための新しいツールとして、Aerial Lidar Scanning (ALS) を採用するようになっている。
ALSデータを大規模に処理するには、高度に多様な領域でよく機能する効率的なポイント分類方法が必要である。
しかし、これらの分類法を評価するには大規模な注釈付きLidarデータセットが必要であるが、現在のLidarベンチマークはスコープが制限されており、しばしば1つの都市部をカバーする。
このデータギャップを埋めるために、FRench ALS Clouds from TArgeted Landscapes (FRACTAL) data: Ultra-large-scale air Lidar dataset of 100,000 dense point clouds with high quality labels for 7 semantic class and spaning 250 km$^2$。
FRACTALは、フランスの5つの異なる地域から、希少なクラスや挑戦的な風景を明示的にサンプリングすることで、空間的および意味的な多様性を達成する。
データセットのデータ収集,アノテーション,キュレーションプロセスについて述べる。
我々は最先端の3Dポイントクラウド分類モデルを用いて,ベースラインセマンティックセマンティックセマンティクスの結果を提供する。
FRACTALは大規模土地モニタリングのための3D深層学習手法の開発を支援することを目的としている。
Mapping agencies are increasingly adopting Aerial Lidar Scanning (ALS) as a new tool to map buildings and other above-ground structures. Processing ALS data at scale requires efficient point classification methods that perform well over highly diverse territories. Large annotated Lidar datasets are needed to evaluate these classification methods, however, current Lidar benchmarks have restricted scope and often cover a single urban area. To bridge this data gap, we introduce the FRench ALS Clouds from TArgeted Landscapes (FRACTAL) dataset: an ultra-large-scale aerial Lidar dataset made of 100,000 dense point clouds with high quality labels for 7 semantic classes and spanning 250 km$^2$. FRACTAL achieves high spatial and semantic diversity by explicitly sampling rare classes and challenging landscapes from five different regions of France. We describe the data collection, annotation, and curation process of the dataset. We provide baseline semantic segmentation results using a state of the art 3D point cloud classification model. FRACTAL aims to support the development of 3D deep learning approaches for large-scale land monitoring. | 翻訳日:2024-09-04 18:30:43 公開日:2024-08-30 |
# 運動アバター : 任意運動による人・動物アバターの生成
Motion Avatar: Generate Human and Animal Avatars with Arbitrary Motion ( http://arxiv.org/abs/2405.11286v2 ) ライセンス: Link先を確認 | Zeyu Zhang, Yiran Wang, Biao Wu, Shuo Chen, Zhiyuan Zhang, Shiya Huang, Wenbo Zhang, Meng Fang, Ling Chen, Yang Zhao, | (参考訳) 近年、映画製作、ビデオゲーム、AR/VR、人間とロボットの相互作用といった分野における多種多様な応用により、3Dアバターやモーションを作ることに大きな関心が寄せられている。
しかし、現在の取り組みは主に3Dアバターメッシュのみを生成するか、モーションシーケンスを生成することに集中しており、これら2つの側面を統合することは永続的な課題であることが証明されている。
加えて、アバターとモーションジェネレーションは主に人間をターゲットにしているが、訓練データや方法が不十分なため、これらの技術を動物に拡張することは重要な課題である。
これらのギャップを埋めるために,本稿では3つの重要な貢献について述べる。
まず,テキストクエリによる動作を伴う高品質なカスタマイズ可能な人間と動物のアバターの自動生成を可能にする,Motion Avatarというエージェントベースの新しいアプローチを提案する。
この手法は動的3次元キャラクタ生成の進歩を著しく促進した。
第2に、動作とアバターの生成を協調するLLMプランナを導入し、識別計画をカスタマイズ可能なQ&A方式に変換する。
最後に,65の動物カテゴリーにまたがる約30万のテキストモーションペアと,その構築パイプラインであるZooGenからなる動物運動データセットZoo-300Kを紹介した。
プロジェクトサイト https://steve-zeyu-zhang.github.io/MotionAvatar/
In recent years, there has been significant interest in creating 3D avatars and motions, driven by their diverse applications in areas like film-making, video games, AR/VR, and human-robot interaction. However, current efforts primarily concentrate on either generating the 3D avatar mesh alone or producing motion sequences, with integrating these two aspects proving to be a persistent challenge. Additionally, while avatar and motion generation predominantly target humans, extending these techniques to animals remains a significant challenge due to inadequate training data and methods. To bridge these gaps, our paper presents three key contributions. Firstly, we proposed a novel agent-based approach named Motion Avatar, which allows for the automatic generation of high-quality customizable human and animal avatars with motions through text queries. The method significantly advanced the progress in dynamic 3D character generation. Secondly, we introduced a LLM planner that coordinates both motion and avatar generation, which transforms a discriminative planning into a customizable Q&A fashion. Lastly, we presented an animal motion dataset named Zoo-300K, comprising approximately 300,000 text-motion pairs across 65 animal categories and its building pipeline ZooGen, which serves as a valuable resource for the community. See project website https://steve-zeyu-zhang.github.io/MotionAvatar/ | 翻訳日:2024-09-04 18:20:55 公開日:2024-08-30 |
# AlabOS: 自律的な研究所のためのPythonベースの再構成可能なワークフロー管理フレームワーク
AlabOS: A Python-based Reconfigurable Workflow Management Framework for Autonomous Laboratories ( http://arxiv.org/abs/2405.13930v2 ) ライセンス: Link先を確認 | Yuxing Fei, Bernardus Rendy, Rishi Kumar, Olympia Dartsi, Hrushikesh P. Sahasrabuddhe, Matthew J. McDermott, Zheren Wang, Nathan J. Szymanski, Lauren N. Walters, David Milsted, Yan Zeng, Anubhav Jain, Gerbrand Ceder, | (参考訳) 近年の自律的な研究室の出現と、高スループットスクリーニングとアクティブラーニングのアルゴリズムが組み合わさって、材料発見とイノベーションの加速を約束している。
これらの自律システムは複雑さが増すにつれて、堅牢で効率的なワークフロー管理ソフトウェアへの需要がますます重要になっている。
本稿では,実験のオーケストレーションと資源管理のための汎用ソフトウェアフレームワークであるAlabOSを紹介する。
AlabOSは再構成可能な実験ワークフローモデルとリソース予約機構を備えており、モジュールタスクで構成されたさまざまなワークフローを同時に実行しつつ、タスク間の衝突を排除している。
1.5年間に約3,500個のサンプルを合成したA-Labの試作実験室で,AlabOSの実装を実演した。
The recent advent of autonomous laboratories, coupled with algorithms for high-throughput screening and active learning, promises to accelerate materials discovery and innovation. As these autonomous systems grow in complexity, the demand for robust and efficient workflow management software becomes increasingly critical. In this paper, we introduce AlabOS, a general-purpose software framework for orchestrating experiments and managing resources, with an emphasis on automated laboratories for materials synthesis and characterization. AlabOS features a reconfigurable experiment workflow model and a resource reservation mechanism, enabling the simultaneous execution of varied workflows composed of modular tasks while eliminating conflicts between tasks. To showcase its capability, we demonstrate the implementation of AlabOS in a prototype autonomous materials laboratory, A-Lab, with around 3,500 samples synthesized over 1.5 years. | 翻訳日:2024-09-04 18:11:10 公開日:2024-08-30 |
# 61A-Botレポート:CS1のAIアシスタントは、学生の宿題時間とスタッフの需要削減を助ける
61A-Bot Report: AI Assistants in CS1 Save Students Homework Time and Reduce Demands on Staff. (Now What?) ( http://arxiv.org/abs/2406.05600v2 ) ライセンス: Link先を確認 | J. D. Zamfirescu-Pereira, Laryn Qi, Björn Hartmann, John DeNero, Narges Norouzi, | (参考訳) LLM用のチャットボットインタフェースを使えば、学生はすぐに対話的で宿題を手伝うことができるが、思慮深く設計されたボットでさえ、すべての教育的目標を達成できないかもしれない。
本稿では,大規模CS1コースの学生を対象に,GPT-4ベースの対話型宿題アシスタント(61Aボット)の開発と展開について報告する。
私たちのアシスタントは、主に低摩擦の"get feedback"プロンプトを通じて、学生がすでにコードをテストするために実行しているコマンドライン"autograder"を通じて、ワンショットでコンテキストフィードバックを提供します。
私たちのBotは、学生のコードを独自のプロンプトでラップし、教育的な目標をサポートし、ソリューションを直接提供しないようにします。
学生が報告したフィードバックや、学生の宿題の進捗状況の追跡を通じて、ボットが学生に与える影響を議論し、分析する。
コースフォーラムでは、宿題関連質問率の削減や、ボットが利用可能になったときの宿題完了時間の大幅な削減が見られます。
50~80歳の学生の場合、これらの減量は通常、割り当て毎に30分以上かかり、標準偏差は前学期の平均よりも4分以上速くなります。
最後に、CS1におけるAI支援の潜在的なコストと利益と同様に、これらの観察、生徒の学習に対する潜在的影響について論じる。
Chatbot interfaces for LLMs enable students to get immediate, interactive help on homework assignments, but even a thoughtfully-designed bot may not serve all pedagogical goals. In this paper, we report on the development and deployment of a GPT-4-based interactive homework assistant ("61A Bot") for students in a large CS1 course; over 2000 students made over 100,000 requests of our bot across two semesters. Our assistant offers one-shot, contextual feedback, primarily through a low-friction "get feedback" prompt within the command-line "autograder" our students already run to test their code. Our Bot wraps student code in a custom prompt that supports our pedagogical goals and avoids providing solutions directly. We discuss our deployment and then analyze the impacts of our Bot on students, primarily through student-reported feedback and tracking of student homework progress. We find reductions in homework-related question rates in our course forum, as well as substantial reductions in homework completion time when our Bot is available. For students in the 50th-80th percentile, these reductions typically exceed 30 minutes per assignment, over 4 standard deviations faster than the mean in prior semesters. Finally, we conclude with a discussion of these observations, the potential impacts on student learning, as well as other potential costs and benefits of AI assistance in CS1. | 翻訳日:2024-09-04 17:51:09 公開日:2024-08-30 |
# 未ペアH&E-IHCステン翻訳のための混合ドメインコントラスト学習
Mix-Domain Contrastive Learning for Unpaired H&E-to-IHC Stain Translation ( http://arxiv.org/abs/2406.11799v2 ) ライセンス: Link先を確認 | Song Wang, Zhong Zhang, Huan Yan, Ming Xu, Guanghui Wang, | (参考訳) H&E-to-IHCの染色技術は、特に医療専門家の不足や高価な機器へのアクセスが限られている低資源地域では、正確ながん診断に有望な解決策を提供する。
H&E-IHC画像対の画素レベルのずれを考慮すると、現在の研究では、画像対の同じ位置からのパッチ間の病理的整合性について検討している。
しかし、それらの多くはドメインまたはパッチ間の対応を強調し、非対応オブジェクトが提供するサイド情報を見渡す。
本稿では,非ペアH&E-to-IHCステンレス翻訳における監視情報を活用するためのMDCL法を提案する。
具体的には、提案手法は、アンカーパッチと全てのパッチとの相関をマッチング画像から推定することにより、ドメイン間およびドメイン内病理情報を集約し、混合ドメインから追加のコントラスト知識を学習するようネットワークに促す。
ミックスドメインの病理情報アグリゲーションにより、MDCLは、対応するパッチと、生成されたIHC画像の異なる位置からのパッチの成分差との病理的整合性を高める。
MISTとBCIという2つのH&EからIHCへのステンレス翻訳データセットに対する大規模な実験により、提案手法が複数のメトリクスにわたって最先端の性能を達成することを示した。
H&E-to-IHC stain translation techniques offer a promising solution for precise cancer diagnosis, especially in low-resource regions where there is a shortage of health professionals and limited access to expensive equipment. Considering the pixel-level misalignment of H&E-IHC image pairs, current research explores the pathological consistency between patches from the same positions of the image pair. However, most of them overemphasize the correspondence between domains or patches, overlooking the side information provided by the non-corresponding objects. In this paper, we propose a Mix-Domain Contrastive Learning (MDCL) method to leverage the supervision information in unpaired H&E-to-IHC stain translation. Specifically, the proposed MDCL method aggregates the inter-domain and intra-domain pathology information by estimating the correlation between the anchor patch and all the patches from the matching images, encouraging the network to learn additional contrastive knowledge from mixed domains. With the mix-domain pathology information aggregation, MDCL enhances the pathological consistency between the corresponding patches and the component discrepancy of the patches from the different positions of the generated IHC image. Extensive experiments on two H&E-to-IHC stain translation datasets, namely MIST and BCI, demonstrate that the proposed method achieves state-of-the-art performance across multiple metrics. | 翻訳日:2024-09-04 17:41:09 公開日:2024-08-30 |
# 複数の地上ノードと衛星との接続に適した再構成可能な絡み合い分布ネットワーク
A reconfigurable entanglement distribution network suitable for connecting multiple ground nodes with a satellite ( http://arxiv.org/abs/2406.13916v2 ) ライセンス: Link先を確認 | Stéphane Vinet, Ramy Tannous, Thomas Jennewein, | (参考訳) 衛星ベースの量子通信チャネルは、超長距離通信において重要である。
衛星の通過期間が短いことを考えると、衛星がその領域を通過している間、都市全体のネットワークの複数のユーザーを効率的に接続することは困難である。
短距離衛星通過中、地上ネットワークは、すべての地上ノードが衛星受信機との絡み合いを確立するマルチポイント・ツー・ポイント・トポロジーとして構成される。
この衛星が利用できない場合、衛星アップリンクは1つの光スイッチで地上ノードに再送信され、ネットワークはペアの地上ネットワークとして構成される。
我々はパルス超絡み合った光子源を数値シミュレーションし、提案した量子鍵分布のネットワーク構成の性能について検討する。
衛星受信機が時間多重化を利用する場合,地上ノードが周波数多重化を利用する場合のスケーリングが好ましい。
スケーラビリティ、簡単な再構成性、およびファイバーネットワークとの容易な統合により、このアーキテクチャは多くの地上ノードと衛星の量子通信に有望な候補となり、地球規模での地上ノードの相互接続への道を開いた。
Satellite-based quantum communication channels are important for ultra-long distances. Given the short duration of a satellite pass, it can be challenging to efficiently connect multiple users of a city-wide network while the satellite is passing over that area. We propose a network with dual-functionality: during a brief satellite pass, the ground network is configured as a multipoint-to-point topology where all ground nodes establish entanglement with a satellite receiver. During times when this satellite is not available, the satellite up-link is rerouted via a single optical switch to the ground nodes, and the network is configured as a pair-wise ground network. We numerically simulate a pulsed hyper-entangled photon source and study the performance of the proposed network configurations for quantum key distribution. We find favourable scaling in the case that the satellite receiver exploits time-multiplexing whereas the ground nodes utilize frequency-multiplexing. The scalability, simple reconfigurability, and easy integration with fibre networks make this architecture a promising candidate for quantum communication of many ground nodes and a satellite, thus paving the way towards interconnection of ground nodes at a global scale. | 翻訳日:2024-09-04 17:41:09 公開日:2024-08-30 |
# ラベル付きランダム有限集合を用いた再同定とオクルージョンハンドリングによる視覚的多物体追跡
Visual Multi-Object Tracking with Re-Identification and Occlusion Handling using Labeled Random Finite Sets ( http://arxiv.org/abs/2407.08872v2 ) ライセンス: Link先を確認 | Linh Van Ma, Tran Thien Dat Nguyen, Changbeom Shim, Du Yong Kim, Namkoo Ha, Moongu Jeon, | (参考訳) 本稿では、オブジェクトの出現と隠蔽を解消するオンライン視覚多目的追跡(MOT)アルゴリズムを提案する。
我々の解はラベル付きランダム有限集合 (LRFS) フィルタリング手法に基づいており、原理的には1つのベイズ再帰を通じて消失、外見、再出現、閉塞に対処する。
しかし、実際には、既存の数値近似は、特に検出されていない長い時間後において、再出現する物体を新しい軌道として初期化させる。
オクルージョン処理では、オクルージョンモデルの洗練と計算要求との間のトレードオフによってフィルタの有効性が判断される。
我々の貢献は、検出数の線形複雑さを維持しながら、再出現するオブジェクトに対処するためにオブジェクトの特徴を利用する新しいモデリング手法である。
さらに,フィルタのオクルージョン処理を改善するために,トラック間の重なり合う領域とサイズを考慮に入れたファジィ検出モデルを提案する。
また,フィルタの高速バージョンを開発し,計算時間を短縮する。
ソースコードはhttps://github.com/linh-gist/mv-glmb-ab.comで公開されている。
This paper proposes an online visual multi-object tracking (MOT) algorithm that resolves object appearance-reappearance and occlusion. Our solution is based on the labeled random finite set (LRFS) filtering approach, which in principle, addresses disappearance, appearance, reappearance, and occlusion via a single Bayesian recursion. However, in practice, existing numerical approximations cause reappearing objects to be initialized as new tracks, especially after long periods of being undetected. In occlusion handling, the filter's efficacy is dictated by trade-offs between the sophistication of the occlusion model and computational demand. Our contribution is a novel modeling method that exploits object features to address reappearing objects whilst maintaining a linear complexity in the number of detections. Moreover, to improve the filter's occlusion handling, we propose a fuzzy detection model that takes into consideration the overlapping areas between tracks and their sizes. We also develop a fast version of the filter to further reduce the computational time. The source code is publicly available at https://github.com/linh-gist/mv-glmb-ab. | 翻訳日:2024-09-04 17:21:21 公開日:2024-08-30 |
# 感情認識における脳波信号にニューラルガス特徴を付加したPSOファジィXGBoost分類器
PSO Fuzzy XGBoost Classifier Boosted with Neural Gas Features on EEG Signals in Emotion Recognition ( http://arxiv.org/abs/2407.09950v2 ) ライセンス: Link先を確認 | Seyed Muhammad Hossein Mousavi, | (参考訳) 感情認識は、表情、音声パターン、身体の動き、脳波などの生理的信号など、さまざまなデータソースから人間の感情を識別し分類する技術駆動のプロセスである。
これらの生理学的指標は、データに富んでいるが、その複雑さと変動性のために課題を示し、洗練された特徴の選択と抽出方法を必要とする。
NGNは、教師なし学習アルゴリズムであり、事前に定義されたグリッド構造を持たない入力空間に効果的に適応し、生理的データからの特徴抽出を改善する。
さらに、ファジィ論理の組み込みにより、人間の意思決定を模倣する推論を導入することにより、ファジィデータの処理が可能となる。
PSOとXGBoostの組み合わせは、効率的なハイパーパラメータチューニングと決定プロセス最適化によるモデル性能の最適化を支援する。
本研究では, ニューラルネットワーク(NGN), XGBoost, Particle Swarm Optimization (PSO) とファジィ論理を統合し, 生理的信号を用いた感情認識の促進を図る。
本研究は,PSOとファジィ論理によるXGBoostの改良,NGNの特徴選択における有効性,および標準ベンチマークによるPSOファジィXGBoost分類器の性能比較に関する3つの重要な疑問に対処する。
得られた結果から,我々の手法は感情認識システムの精度を高め,多くの分類器を用いた他の特徴選択技術よりも優れており,理論的進歩と感情認識技術への実践的応用の両方に有意な影響を及ぼす可能性が示唆された。
Emotion recognition is the technology-driven process of identifying and categorizing human emotions from various data sources, such as facial expressions, voice patterns, body motion, and physiological signals, such as EEG. These physiological indicators, though rich in data, present challenges due to their complexity and variability, necessitating sophisticated feature selection and extraction methods. NGN, an unsupervised learning algorithm, effectively adapts to input spaces without predefined grid structures, improving feature extraction from physiological data. Furthermore, the incorporation of fuzzy logic enables the handling of fuzzy data by introducing reasoning that mimics human decision-making. The combination of PSO with XGBoost aids in optimizing model performance through efficient hyperparameter tuning and decision process optimization. This study explores the integration of Neural-Gas Network (NGN), XGBoost, Particle Swarm Optimization (PSO), and fuzzy logic to enhance emotion recognition using physiological signals. Our research addresses three critical questions concerning the improvement of XGBoost with PSO and fuzzy logic, NGN's effectiveness in feature selection, and the performance comparison of the PSO-fuzzy XGBoost classifier with standard benchmarks. Acquired results indicate that our methodologies enhance the accuracy of emotion recognition systems and outperform other feature selection techniques using the majority of classifiers, offering significant implications for both theoretical advancement and practical application in emotion recognition technology. | 翻訳日:2024-09-04 17:21:21 公開日:2024-08-30 |
# Rasa:低リソース環境下でのインド言語のための表現型音声合成システムの構築
Rasa: Building Expressive Speech Synthesis Systems for Indian Languages in Low-resource Settings ( http://arxiv.org/abs/2407.14056v2 ) ライセンス: Link先を確認 | Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra, | (参考訳) このデータセットは、アサメ、ベンガル、タミルの3つの言語をカバーする6つのエクマン感情のそれぞれに対して、10時間の中立なスピーチと1-3時間の表現的なスピーチを含む。
我々のアブレーション研究では、MUSHRAのスコアが示すように、中立な1時間と表現的なデータの30分でフェアなシステムが得られることが判明した。
中性データを10時間まで増加させ、最小限の表現データで表現性を著しく向上させる。
これはリソース制約のある言語に実用的なレシピを提供し、少ない量の表現的データとともに容易に入手可能な中立データを優先順位付けする。
我々は,表現力を高めるために,音節的にバランスの取れたデータとプール感情の重要性を示す。
また、恐怖や驚きといった特定の感情を生み出す上での課題も強調します。
We release Rasa, the first multilingual expressive TTS dataset for any Indian language, which contains 10 hours of neutral speech and 1-3 hours of expressive speech for each of the 6 Ekman emotions covering 3 languages: Assamese, Bengali, & Tamil. Our ablation studies reveal that just 1 hour of neutral and 30 minutes of expressive data can yield a Fair system as indicated by MUSHRA scores. Increasing neutral data to 10 hours, with minimal expressive data, significantly enhances expressiveness. This offers a practical recipe for resource-constrained languages, prioritizing easily obtainable neutral data alongside smaller amounts of expressive data. We show the importance of syllabically balanced data and pooling emotions to enhance expressiveness. We also highlight challenges in generating specific emotions, e.g., fear and surprise. | 翻訳日:2024-09-04 17:21:21 公開日:2024-08-30 |
# SHS: Scorpion Hunting Strategy Swarm Algorithm
SHS: Scorpion Hunting Strategy Swarm Algorithm ( http://arxiv.org/abs/2407.14202v2 ) ライセンス: Link先を確認 | Abhilash Singh, Seyed Muhammad Hossein Mousavi, Kumar Gaurav, | (参考訳) 我々はScorpion Hunting Strategy (SHS)を導入した。
このアルゴリズムは、アルファ振動子とベータ振動子を用いて獲物を識別、発見、捕獲するスコーピオンの狩猟戦略からインスピレーションを得ている。
これらのオペレータは、SHSアルゴリズムのエクスプロイトと探索能力を制御する。
最適化法を定式化するために,これらの動的事象と挙動を数学的にシミュレートする。
本研究では,20個のベンチマーク関数(従来の10関数とCEC2020関数を含む10個のCEC2020関数を含む)を定性的および定量的に解析し,SHSアルゴリズムの有効性を評価する。
12の最先端メタヒューリスティックアルゴリズムとの比較分析により,提案アルゴリズムが極めて有望な結果をもたらすことを示す。
これらの結果は、Wilcoxon rank sum testによって得られた統計的に重要な結果によってさらに裏付けられている。
さらに、Friedmanテストから導かれる平均ランクによって決定されるSHSのランクは、他のアルゴリズムと比較して前方に位置する。
理論的検証を超えて、6つの異なる実世界の最適化タスクに適用することにより、SHSアルゴリズムの実用性を示す。
これらの応用は、複雑な最適化問題に対処するアルゴリズムの可能性を示している。
要約すると、この研究は革新的なSHSアルゴリズムを導入するだけでなく、厳密なベンチマークや実世界の問題解決シナリオを通じて、その効果と汎用性を裏付けるものである。
We introduced the Scorpion Hunting Strategy (SHS), a novel population-based, nature-inspired optimisation algorithm. This algorithm draws inspiration from the hunting strategy of scorpions, which identify, locate, and capture their prey using the alpha and beta vibration operators. These operators control the SHS algorithm's exploitation and exploration abilities. To formulate an optimisation method, we mathematically simulate these dynamic events and behaviors. We evaluate the effectiveness of the SHS algorithm by employing 20 benchmark functions (including 10 conventional and 10 CEC2020 functions), using both qualitative and quantitative analyses. Through a comparative analysis with 12 state-of-the-art meta-heuristic algorithms, we demonstrate that the proposed SHS algorithm yields exceptionally promising results. These findings are further supported by statistically significant results obtained through the Wilcoxon rank sum test. Additionally, the ranking of SHS, as determined by the average rank derived from the Friedman test, positions it at the forefront when compared to other algorithms. Going beyond theoretical validation, we showcase the practical utility of the SHS algorithm by applying it to six distinct real-world optimisation tasks. These applications illustrate the algorithm's potential in addressing complex optimisation challenges. In summary, this work not only introduces the innovative SHS algorithm but also substantiates its effectiveness and versatility through rigorous benchmarking and real-world problem-solving scenarios. | 翻訳日:2024-09-04 17:11:28 公開日:2024-08-30 |
# LLMにおけるデータポジショニングのスケーリング法則
Scaling Laws for Data Poisoning in LLMs ( http://arxiv.org/abs/2408.02946v2 ) ライセンス: Link先を確認 | Dillon Bowen, Brendan Murphy, Will Cai, David Khachaturov, Adam Gleave, Kellin Pelrine, | (参考訳) 近年の研究では、LSMは部分的に破損したデータや有害なデータに基づいて訓練されるデータ中毒に弱いことが示されている。
汚染されたデータは検出しにくく、ガードレールを壊し、望ましくない有害な行動を引き起こす。
より大きく、より有能なLSMを訓練し、展開する研究所を指導する強力な取り組みを考えると、データ中毒のリスクはスケールによって自然に軽減されるのか、それが脅威の増加なのかを問うことが重要である。
我々は、悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを考える。
実験では,データ中毒が,脅威モデルに対応する3つのデータセットに対する15~72億のパラメータから,フロンティアのLLMに対する影響を評価した。
より大きなLSMはますます脆弱になってきており、有害な行動を学ぶことは、最小限のデータ中毒のLSMよりもはるかに高速であることがわかった。
これらの結果は、より大きなLSMにおけるデータ中毒に対する堅牢な保護の必要性を浮き彫りにした。
Recent work shows that LLMs are vulnerable to data poisoning, in which they are trained on partially corrupted or harmful data. Poisoned data is hard to detect, breaks guardrails, and leads to undesirable and harmful behavior. Given the intense efforts by leading labs to train and deploy increasingly larger and more capable LLMs, it is critical to ask if the risk of data poisoning will be naturally mitigated by scale, or if it is an increasing threat. We consider three threat models by which data poisoning can occur: malicious fine-tuning, imperfect data curation, and intentional data contamination. Our experiments evaluate the effects of data poisoning on 23 frontier LLMs ranging from 1.5-72 billion parameters on three datasets which speak to each of our threat models. We find that larger LLMs are increasingly vulnerable, learning harmful behavior significantly more quickly than smaller LLMs with even minimal data poisoning. These results underscore the need for robust safeguards against data poisoning in larger LLMs. | 翻訳日:2024-09-04 17:01:34 公開日:2024-08-30 |
# クラウドプラットフォーム向けニューラルネットワークユニットのハードウェア支援仮想化
Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms ( http://arxiv.org/abs/2408.04104v2 ) ライセンス: Link先を確認 | Yuqi Xue, Yiqi Liu, Lifeng Nai, Jian Huang, | (参考訳) 今日、クラウドプラットフォームは、機械学習(ML)推論サービスを支えるニューラルネットワークユニット(NPU)のようなハードウェアアクセラレータをデプロイしている。
サービスの適切な品質を確保しつつ、リソース利用を最大化するために、マルチテナントMLサービスの効率的なリソース共有のためにNPUを仮想化するのが自然なアプローチである。
しかし、現代のクラウドプラットフォーム向けのNPUの仮想化は容易ではない。
これは、NPUハードウェアのシステム抽象化サポートの欠如に加えて、仮想化NPUのきめ細かい動的演算子スケジューリングを可能にするアーキテクチャとISAサポートの欠如によるものである。
我々は、総合的なNPU仮想化フレームワークであるNeu10を紹介する。
ソフトウェアおよびハードウェアスタック全体にわたるNPUの仮想化技術について検討する。
Neu10は、(1)物理NPU(pNPU)における不均一な計算ユニットの詳細な仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのためのきめ細かいテンソル演算のスケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。
実運用レベルのNPUシミュレータをベースとしたNeu10を実装した。
我々の実験によると、Neu10はML推論サービスのスループットを1.4$\times$に改善し、テールレイテンシを4.6$\times$に削減し、NPUの利用率を1.2$\times$に改善している。
Cloud platforms today have been deploying hardware accelerators like neural processing units (NPUs) for powering machine learning (ML) inference services. To maximize the resource utilization while ensuring reasonable quality of service, a natural approach is to virtualize NPUs for efficient resource sharing for multi-tenant ML services. However, virtualizing NPUs for modern cloud platforms is not easy. This is not only due to the lack of system abstraction support for NPU hardware, but also due to the lack of architectural and ISA support for enabling fine-grained dynamic operator scheduling for virtualized NPUs. We present Neu10, a holistic NPU virtualization framework. We investigate virtualization techniques for NPUs across the entire software and hardware stack. Neu10 consists of (1) a flexible NPU abstraction called vNPU, which enables fine-grained virtualization of the heterogeneous compute units in a physical NPU (pNPU); (2) a vNPU resource allocator that enables pay-as-you-go computing model and flexible vNPU-to-pNPU mappings for improved resource utilization and cost-effectiveness; (3) an ISA extension of modern NPU architecture for facilitating fine-grained tensor operator scheduling for multiple vNPUs. We implement Neu10 based on a production-level NPU simulator. Our experiments show that Neu10 improves the throughput of ML inference services by up to 1.4$\times$ and reduces the tail latency by up to 4.6$\times$, while improving the NPU utilization by 1.2$\times$ on average, compared to state-of-the-art NPU sharing approaches. | 翻訳日:2024-09-04 17:01:34 公開日:2024-08-30 |
# 大規模言語モデルとのリレーショナルデータベースインタラクションの改善:カラム記述とテキスト-SQLパフォーマンスへの影響
Improving Relational Database Interactions with Large Language Models: Column Descriptions and Their Impact on Text-to-SQL Performance ( http://arxiv.org/abs/2408.04691v2 ) ライセンス: Link先を確認 | Niklas Wretblad, Oskar Holmström, Erik Larsson, Axel Wiksäter, Oscar Söderlund, Hjalmar Öhman, Ture Pontén, Martin Forsberg, Martin Sörme, Fredrik Heintz, | (参考訳) リレーショナルデータベースは、曖昧な列や難解な解釈値などのテーブル内容の非形式的な記述に悩まされ、人間のユーザとText-to-SQLモデルの両方に影響を与えます。
本稿では,大規模言語モデル(LLM)を用いて,関係データベースのセマンティックレイヤとして情報的列記述を生成する。
BIRD-Bench 開発セットを用いて,LLM と人間アノテーションによって生成・改良されたゴールド標準カラム記述付きデータセットであるColSQL を開発した。
GPT-4oとCommand R+は高品質な記述生成に優れていた。
さらに,モデル性能を評価するためにLLM-as-a-judgeを適用した。
この手法は人間の評価とうまく一致しないが、その可能性を探究し、改善すべき領域を特定するためを含む。
このタスクの自動評価の信頼性を向上させるには、さらなる作業が必要である。
また、詳細な列記述により、特に列が非形式的である場合、テキストからSQLへの実行精度が大幅に向上することがわかった。
本研究では,LLMを詳細なメタデータを生成する効果的なツールとして確立し,リレーショナルデータベースのユーザビリティを向上させる。
Relational databases often suffer from uninformative descriptors of table contents, such as ambiguous columns and hard-to-interpret values, impacting both human users and Text-to-SQL models. This paper explores the use of large language models (LLMs) to generate informative column descriptions as a semantic layer for relational databases. Using the BIRD-Bench development set, we created ColSQL, a dataset with gold-standard column descriptions generated and refined by LLMs and human annotators. We evaluated several instruction-tuned models, finding that GPT-4o and Command R+ excelled in generating high-quality descriptions. Additionally, we applied an LLM-as-a-judge to evaluate model performance. Although this method does not align well with human evaluations, we included it to explore its potential and to identify areas for improvement. More work is needed to improve the reliability of automatic evaluations for this task. We also find that detailed column descriptions significantly improve Text-to-SQL execution accuracy, especially when columns are uninformative. This study establishes LLMs as effective tools for generating detailed metadata, enhancing the usability of relational databases. | 翻訳日:2024-09-04 17:01:34 公開日:2024-08-30 |
# DeepSpeak Dataset v1.0
DeepSpeak Dataset v1.0 ( http://arxiv.org/abs/2408.05366v2 ) ライセンス: Link先を確認 | Sarah Barrington, Matyas Bohacek, Hany Farid, | (参考訳) ウェブカメラの前で話し、身振りで示す人々の、大規模データセット、DeepSpeak-----の実際の、そして、ディープフェイクな映像について説明する。
このデータセットの最初のバージョンにおける実際のビデオは、220人の多様な個人による17時間の映像で構成されている。
26時間以上の映像で構成されたフェイクビデオは、さまざまな最先端のフェイススワップと、自然とAIが生成する音声によるリップシンクのディープフェイクで構成されている。
私たちは、このデータセットの将来バージョンを、異なる、そして更新されたディープフェイク技術でリリースする予定です。
このデータセットは、研究および非商用用途で自由に利用でき、商用利用の要求も考慮される。
We describe a large-scale dataset--DeepSpeak--of real and deepfake footage of people talking and gesturing in front of their webcams. The real videos in this first version of the dataset consist of 17 hours of footage from 220 diverse individuals. Constituting more than 26 hours of footage, the fake videos consist of a range of different state-of-the-art face-swap and lip-sync deepfakes with natural and AI-generated voices. We expect to release future versions of this dataset with different and updated deepfake technologies. This dataset is made freely available for research and non-commercial uses; requests for commercial use will be considered. | 翻訳日:2024-09-04 16:51:50 公開日:2024-08-30 |
# パラメータ効率による性能向上のためのCLAT(Critity Leveraged Adversarial Training)
Criticality Leveraged Adversarial Training (CLAT) for Boosted Performance via Parameter Efficiency ( http://arxiv.org/abs/2408.10204v2 ) ライセンス: Link先を確認 | Bhavna Gopal, Huanrui Yang, Jingyang Zhang, Mark Horton, Yiran Chen, | (参考訳) 敵対的トレーニングはニューラルネットワークの堅牢性を高めるが、過度に適合する傾向にあり、クリーンデータに対する一般化エラーが増大する。
CLATは、パラメータ効率を学習プロセスに導入することで、敵のオーバーフィッティングを軽減し、クリーンな精度と敵のロバスト性の両方を改善した革新的なアプローチである。
CLATは、モデル全体をチューニングする代わりに、ロバストでない特徴を主に学習するような、ロバスト性クリティカルな層を特定し、その一方で、残りのモデルを凍結してロバスト性を高める。
動的臨界層選択を使用して、微調整プロセス全体を通して層臨界度の変化に適応する。
実験的に、CLATは既存の対向訓練法の上に適用でき、トレーニング可能なパラメータの数を約95%削減し、ベースライン法と比較して対向的ロバスト性は2%以上向上する。
Adversarial training enhances neural network robustness but suffers from a tendency to overfit and increased generalization errors on clean data. This work introduces CLAT, an innovative approach that mitigates adversarial overfitting by introducing parameter efficiency into the adversarial training process, improving both clean accuracy and adversarial robustness. Instead of tuning the entire model, CLAT identifies and fine-tunes robustness-critical layers - those predominantly learning non-robust features - while freezing the remaining model to enhance robustness. It employs dynamic critical layer selection to adapt to changes in layer criticality throughout the fine-tuning process. Empirically, CLAT can be applied on top of existing adversarial training methods, significantly reduces the number of trainable parameters by approximately 95%, and achieves more than a 2% improvement in adversarial robustness compared to baseline methods. | 翻訳日:2024-09-04 16:42:00 公開日:2024-08-30 |
# ダブル量子ドットにおけるマイクロ波誘起冷却:スピン量子ビット付近の熱雑音低減のためのミルライルビン温度の達成
Microwave-Induced Cooling in Double Quantum Dots: Achieving Millikelvin Temperatures to Reduce Thermal Noise around Spin Qubits ( http://arxiv.org/abs/2408.12024v2 ) ライセンス: Link先を確認 | Daryoosh Vashaee, Jahanfar Abouie, | (参考訳) ゲート定義量子ドットにおけるスピン量子ビットは、そのスケーラビリティと長いコヒーレンス時間のために、主要な技術として出現している。
しかし、これらの量子ビットを極低温に保つには、通常複雑な低温システムが必要である。
本稿では,マイクロ波誘起状態分解とフォノン濾過を併用した新しい二重量子ドット(DQD)冷却システムを提案する。このシステムはマイクロ波誘起状態分解とフォノンフィルタリングを利用し,量子ドットのオンサイトエネルギーとラビ振動を高速に循環分解することで,熱集団を地中へ効率よく移動させ,自然熱遷移速度を超過する。
冷却サイクルは、特定のエネルギーレベルの違いに共鳴するマイクロ波パルスによって補う、断熱的および双葉的遷移を通じてシステムを駆動するゲート電位を調整することを含む。
この機構は、励起状態から基底状態へと人口を継続的に汲み上げ、システムの温度を効果的に下げる。
数値計算により, 冷却性能が劣化エネルギー, 磁場強度, ダイアバティック・リターン時間に敏感であることを示す。
Spin qubits in gate-defined quantum dots are emerging as a leading technology due to their scalability and long coherence times. However, maintaining these qubits at ultra-low temperatures typically requires complex cryogenic systems. This paper proposes a novel gate-defined double quantum dot (DQD) cooling system using microwave-induced state depopulation and phonon filtering to achieve local temperatures below 10 mK at a bath temperature of 1 K. The system utilizes microwave-induced state depopulation and phonon filtering, combined with fast cyclic detuning of the quantum dot on-site energies and Rabi oscillations, to efficiently transfer thermal populations to the ground state, thereby surpassing natural thermal transition rates. The cooling cycle involves adjusting gate potentials to drive the system through adiabatic and diabatic transitions, complemented by microwave pulses resonant with specific energy level differences. This mechanism continuously pumps the population from excited states into the ground state, effectively reducing the system's temperature. Numerical calculations demonstrate the feasibility of achieving these low local temperatures, with detailed analysis showing the sensitivity of cooling performance to detuning energy, magnetic field strength, and diabatic return time. | 翻訳日:2024-09-04 16:32:02 公開日:2024-08-30 |
# LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!
LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal! ( http://arxiv.org/abs/2408.13402v2 ) ライセンス: Link先を確認 | Jainaveen Sundaram, Ravi Iyer, | (参考訳) MM-LLM(Multimodal Large Language Models)は、過去1年で大幅に進歩し、タスク間で素晴らしいパフォーマンスを誇示している。
しかし、AIを真に民主化するためには、モデルは強力な能力を示し、ほとんどの人がアクセス可能な小さな計算フットプリント上で効率的に実行できなければならない。
LLaVaOLMoBitnet1B - Image(s)+Text入力を受信してコヒーレントなテキスト応答を生成する3次マルチモーダルLCM。
このモデルは、この分野のさらなる研究を促進するためのトレーニングスクリプトとともに、完全にオープンソースである。
この付随する技術レポートは、トレーニングプロセス、評価の詳細、第三次モデルに関連する課題、将来の機会を強調します。
モデルへのリンク:https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
Multimodal Large Language Models (MM-LLMs) have seen significant advancements in the last year, demonstrating impressive performance across tasks. However, to truly democratize AI, models must exhibit strong capabilities and be able to run efficiently on small compute footprints accessible by most. Part of this quest, we introduce LLaVaOLMoBitnet1B - the first Ternary Multimodal LLM capable of accepting Image(s)+Text inputs to produce coherent textual responses. The model is fully open-sourced along with training scripts to encourage further research in this space. This accompanying technical report highlights the training process, evaluation details, challenges associated with ternary models and future opportunities. Link to the model: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B | 翻訳日:2024-09-04 16:32:02 公開日:2024-08-30 |
# QAOAによるMaxCut問題における小さなグラフ摂動の影響について
On the Effects of Small Graph Perturbations in the MaxCut Problem by QAOA ( http://arxiv.org/abs/2408.15413v2 ) ライセンス: Link先を確認 | Leonardo Lavagna, Simone Piperno, Andrea Ceschini, Massimo Panella, | (参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)を用いて,グラフクラスにおける最大カット(MaxCut)問題を対称性を用いて検討する。
特に、グラフ対称性とQAOAシミュレーションによって達成される近似比の関係に関するヒューリスティックスを考察する。
そのために、まずよく知られたグラフ上のMaxCut問題を解き、そのグラフの単純かつ制御可能な摂動を考え、QAOAで近似したMaxCutを求める。
グラフのスペクトルとその摂動の解析、および関連する自己同型群の慎重な研究を通じて、対称性がQAOAの性能にどのように影響するかについての貴重な知見を抽出することを目的とする。
これらの洞察は、量子回路の複雑さ、トレーニングステップの数、関連するパラメータの数をヒューリスティックに減らし、QAOAベースのソリューションの効率と有効性を高めるために利用することができる。
We investigate the Maximum Cut (MaxCut) problem on different graph classes with the Quantum Approximate Optimization Algorithm (QAOA) using symmetries. In particular, heuristics on the relationship between graph symmetries and the approximation ratio achieved by a QAOA simulation are considered. To do so, we first solve the MaxCut problem on well-known graphs, then we consider a simple and controllable perturbation of the graph and find again the approximate MaxCut with the QAOA. Through an analysis of the spectrum of the graphs and their perturbations, as well as a careful study of the associated automorphism groups, we aim to extract valuable insights into how symmetry impacts the performance of QAOA. These insights can then be leveraged to heuristically reduce the quantum circuit complexity, the number of training steps, or the number of parameters involved, thus enhancing the efficiency and effectiveness of QAOA-based solutions. | 翻訳日:2024-09-04 16:21:29 公開日:2024-08-30 |
# ニューラルネットワーク文学におけるKARTとUATの共通解釈
Addressing common misinterpretations of KART and UAT in neural network literature ( http://arxiv.org/abs/2408.16389v2 ) ライセンス: Link先を確認 | Vugar Ismailov, | (参考訳) このノートは、KART(Kolmogorov-Arnold Representation Theorem)とUAT(Universal Approximation Theorem)に言及し、ニューラルネットワーク近似に関するいくつかの論文で共通の誤解に焦点を当てている。
我々の発言は、ニューラルネットワークの専門家の間でのKARTとUATのより正確な理解を支援することを目的としています。
This note addresses the Kolmogorov-Arnold Representation Theorem (KART) and the Universal Approximation Theorem (UAT), focusing on their common misinterpretations in some papers related to neural network approximation. Our remarks aim to support a more accurate understanding of KART and UAT among neural network specialists. | 翻訳日:2024-09-04 12:43:33 公開日:2024-08-30 |
# Jina-ColBERT-v2: 汎用多言語対話レトリバー
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever ( http://arxiv.org/abs/2408.16672v2 ) ライセンス: Link先を確認 | Rohan Jha, Bo Wang, Michael Günther, Georgios Mastrapas, Saba Sturua, Isabelle Mohr, Andreas Koukounas, Mohammad Kalim Akram, Nan Wang, Han Xiao, | (参考訳) ColBERTのような多ベクトル密度モデルは情報検索に非常に有効であることが証明されている。
ColBERTの遅延相互作用評価は、クロスエンコーダで見られる共同クエリ文書の注意を近似し、二エンコーダアーキテクチャと最近のインデックス化と検索の最適化のおかげで、従来の高密度検索モデルに近い推論効率を維持している。
本稿では,長いコンテキストウィンドウと多言語検索をサポートする新しいアーキテクチャとトレーニングフレームワークを提案する。
さらに,Matryoshka Representation Lossを活用することで,埋め込み次元を128から64に減らすことで,モデルの検索性能に大きな影響を与え,最大50%のストレージ要求を削減できることが実証された。
我々の新しいモデルであるJina-ColBERT-v2は、英語と多言語検索タスクにまたがって強い性能を示す。
Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this paper, we introduce a novel architecture and a training framework to support long context window and multilingual retrieval. Leveraging Matryoshka Representation Loss, we further demonstrate that the reducing the embedding dimensionality from 128 to 64 has insignificant impact on the model's retrieval performance and cut storage requirements by up to 50%. Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks, | 翻訳日:2024-09-04 12:24:11 公開日:2024-08-30 |
# 最も一般的な変形 GUP 形式の枠組みにおける1次元量子系
One-dimension quantum systems in the framework of the most general deformation GUP form ( http://arxiv.org/abs/1702.03498v2 ) ライセンス: Link先を確認 | Ying-Jie Zhao, | (参考訳) 本稿では、S. Masood, {\em et al} によって詳細に議論された非局所量子力学から動機付けられた GUP の最も一般的な形式について概説する。
我々は、このGUP形式の特別な極限を1次元線形ポテンシャルに適用し、エネルギー補正と修正波動関数を計算する。
また, 1次元デルタ電位井戸と1次元デルタ電位障壁の変形効果についても検討した。
さらに, 一次元水素原子の変形効果に注目し, 原子のスターク効果を別々に検討した。
最後に、短い結論を下す。
In this paper we briefly review the most general form of GUP motivated from nonlocal quantum mechanics discussed in detail by S. Masood, {\em et al}. We apply the special limit of this GUP form to the one-dimension linear potential to calculate the energy correction and the modified wave function. We also discuss the deformation effect on one dimensional delta potential well and one dimensional delta potential barrier. Moreover, we pay attention to the deformation effect on one dimensional hydrogen atom and investigate the Stark effect on the atom separately. Finally, we make a short conclusion. | 翻訳日:2024-09-03 14:11:27 公開日:2024-08-30 |
# 重音を用いた非滑らか確率最適化のための高確率複素境界
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise ( http://arxiv.org/abs/2106.05958v3 ) ライセンス: Link先を確認 | Eduard Gorbunov, Marina Danilova, Innokentiy Shibaev, Pavel Dvurechensky, Alexander Gasnikov, | (参考訳) 確率的一階法は大規模機械学習モデルのトレーニングに標準である。
ランダムな振る舞いは、アルゴリズムの特定の実行によって、高い最適化された目標値が得られるが、理論的な保証は通常、目的値の期待に対して証明される。
したがって、アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らかな確率凸最適化の方法は、負のパワーまたは対数的な信頼度に依存するが、実際には持たない準ガウス雑音分布の仮定の下で、複雑性を持つ。
本稿では,この問題を解き,非ガウス雑音を用いた非滑らか凸確率確率最適化問題に対する信頼度に対数的依存を持つ最初の高確率収束結果を導出する。
そこで本研究では,勾配クリッピングを用いた2つの確率的手法のステップサイズルールを提案する。
さらに,H\ より古い連続勾配を用いた一般化された滑らかな対象に対して解析を行い,両手法とも強い凸問題に対する拡張を提供する。
最後に,本研究の結果から,第1の(加速された)手法は全てのレシエーションにおいて最適反復とオラクルの複雑さを持ち,第2の手法は非滑らかな設定において最適であることが示唆された。
Stochastic first-order methods are standard for training large-scale machine learning models. Random behavior may cause a particular run of an algorithm to result in a highly suboptimal objective value, whereas theoretical guarantees are usually proved for the expectation of the objective value. Thus, it is essential to theoretically guarantee that algorithms provide small objective residual with high probability. Existing methods for non-smooth stochastic convex optimization have complexity bounds with the dependence on the confidence level that is either negative-power or logarithmic but under an additional assumption of sub-Gaussian (light-tailed) noise distribution that may not hold in practice. In our paper, we resolve this issue and derive the first high-probability convergence results with logarithmic dependence on the confidence level for non-smooth convex stochastic optimization problems with non-sub-Gaussian (heavy-tailed) noise. To derive our results, we propose novel stepsize rules for two stochastic methods with gradient clipping. Moreover, our analysis works for generalized smooth objectives with H\"older-continuous gradients, and for both methods, we provide an extension for strongly convex problems. Finally, our results imply that the first (accelerated) method we consider also has optimal iteration and oracle complexity in all the regimes, and the second one is optimal in the non-smooth setting. | 翻訳日:2024-09-03 14:11:27 公開日:2024-08-30 |
# 画像復調のためのDense-Sparse Deep Convolutional Neural Networks Training
Dense-Sparse Deep Convolutional Neural Networks Training for Image Denoising ( http://arxiv.org/abs/2107.04857v2 ) ライセンス: Link先を確認 | Basit O. Alawode, Mudassir Masood, | (参考訳) 近年,畳み込みニューラルネットワークのような深層学習手法が画像認知領域で注目されている。
これは、ブロックマッチングや3Dフィルタリングアルゴリズムのような最先端の古典的画像認識アルゴリズムを超えることが証明されたためである。
ディープラーニング畳み込み畳み込みニューラルネットワークは、バッチ正規化と残留学習の正規化メソッドを追加して、多くのフィードフォワード畳み込み層を使用して、トレーニングを高速化し、denoisingパフォーマンスを大幅に改善する。
しかし、これは膨大な数のトレーニング可能なパラメータを犠牲にしている。
本稿では,高密度スパース・デンス・ネットワークのトレーニング手法を深層化畳み込みニューラルネットワークに適用することにより,学習可能なパラメータを著しく削減できることを示す。
我々は,高密度スパース・デンス・アプローチを用いてトレーニングしたネットワークが,パラメータ数を減らして性能向上を達成できることから,モチベーションを導いた。
提案した減算深度畳み込み畳み込みニューラルネットワークは、パラメータが大幅に減少し、深度畳み込み畳み込み畳み込みニューラルネットワークに匹敵する性能を有する効率的な縮み込みモデルである。
さらに、デノナイジングは処理時間が大幅に短縮された。
Recently, deep learning methods such as the convolutional neural networks have gained prominence in the area of image denoising. This is owing to their proven ability to surpass state-of-the-art classical image denoising algorithms such as block-matching and 3D filtering algorithm. Deep denoising convolutional neural networks use many feed-forward convolution layers with added regularization methods of batch normalization and residual learning to speed up training and improve denoising performance significantly. However, this comes at the expense of a huge number of trainable parameters. In this paper, we show that by employing an enhanced dense-sparse-dense network training procedure to the deep denoising convolutional neural networks, comparable denoising performance level can be achieved at a significantly reduced number of trainable parameters. We derive motivation from the fact that networks trained using the dense-sparse-dense approach have been shown to attain performance boost with reduced number of parameters. The proposed reduced deep denoising convolutional neural networks network is an efficient denoising model with significantly reduced parameters and comparable performance to the deep denoising convolutional neural networks. Additionally, denoising was achieved at significantly reduced processing time. | 翻訳日:2024-09-03 14:11:27 公開日:2024-08-30 |
# リカレントニューラルネットワークにおけるメモリの曲線について:近似と最適化解析
On the Curse of Memory in Recurrent Neural Networks: Approximation and Optimization Analysis ( http://arxiv.org/abs/2009.07799v3 ) ライセンス: Link先を確認 | Zhong Li, Jiequn Han, Weinan E, Qianxiao Li, | (参考訳) 本研究では、時間的データにおける入出力関係の学習に適用した場合に、リカレントニューラルネットワーク(RNN)の近似特性と最適化ダイナミクスについて検討する。
本稿では,線形関係から生成されたデータから連続時間線形RNNを学習するための単純だが代表的な設定について考察する。
数学的には、後者は線型汎函数の列として理解することができる。
このような線形汎函数の普遍近似定理を証明し、近似率とそのメモリとの関係を特徴づける。
さらに,線形RNNの微粒化解析を行い,記憶と学習の複雑な相互作用を明らかにする。
統一されたテーマはメモリの非自明な効果であり、この概念は我々のフレームワークで正確に近似と最適化に有効である: ターゲットに長期記憶がある場合、それを近似するために多数のニューロンが必要となる。
さらに、トレーニングプロセスはスローダウンに悩まされる。
特に、これら2つの効果は、指数関数的にメモリと共に発音される。
これらの分析は、繰り返しアーキテクチャを用いて時間的関係を学習する際に生じる新しい現象を数学的に理解するための基本的なステップである。
We study the approximation properties and optimization dynamics of recurrent neural networks (RNNs) when applied to learn input-output relationships in temporal data. We consider the simple but representative setting of using continuous-time linear RNNs to learn from data generated by linear relationships. Mathematically, the latter can be understood as a sequence of linear functionals. We prove a universal approximation theorem of such linear functionals, and characterize the approximation rate and its relation with memory. Moreover, we perform a fine-grained dynamical analysis of training linear RNNs, which further reveal the intricate interactions between memory and learning. A unifying theme uncovered is the non-trivial effect of memory, a notion that can be made precise in our framework, on approximation and optimization: when there is long term memory in the target, it takes a large number of neurons to approximate it. Moreover, the training process will suffer from slow downs. In particular, both of these effects become exponentially more pronounced with memory - a phenomenon we call the "curse of memory". These analyses represent a basic step towards a concrete mathematical understanding of new phenomenon that may arise in learning temporal relationships using recurrent architectures. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# 各種ネットワーク設定における高調波セキュアマルチパーティ計算
High-Throughput Secure Multiparty Computation with an Honest Majority in Various Network Settings ( http://arxiv.org/abs/2206.03776v9 ) ライセンス: Link先を確認 | Christopher Harth-Kitzerow, Ajith Suresh, Yongqin Wang, Hossein Yalame, Georg Carle, Murali Annavaram, | (参考訳) 本研究では, 半正直なセキュアな3次元計算(3PC) と悪意のある4次元計算(4PC) のためのリング上の新しいプロトコルを提案する。
既存のほとんどの研究は、全体的な通信の複雑さを改善することに重点を置いているが、ネットワークの不均一性や計算の複雑さといった課題は、実際にはMPCの性能に影響を及ぼす。
我々のプロトコルは、性能が大幅に低下することなく、パーティ間の複数の弱いネットワークリンクを任意に許容することで、これらの問題に対処する。
さらに、関連する作業に比べてゲート毎の基本命令の最大半分を必要とすることで、計算の複雑さを著しく低減する。
これらの改善により、同種ネットワーク設定における最先端プロトコルのスループットが最大2倍になり、現実世界の不均一な設定では最大8倍のスループットが得られる。
当社のプロトコルは,3PCで3要素,4PCで5要素を必要としながら,乗算あたりの通信の複雑さを最もよく知られたものに保ちます。
高スループットに最適化されたオープンソースのC++フレームワークで、最先端プロトコル(Replicated 3PC, ASTRA, Fantastic Four, Tetrad)とともに、当社のプロトコルを実装しました。
実装された6つの3PCおよび4PCプロトコルのうち5つは、25Gbit/sのLAN環境において、毎秒10億以上の32ビット乗算または32億のANDゲートを達成する。
MP-SPDZ、ABY3、MPyC、MOTIONといった既存のフレームワークを2~3桁で上回っている。
In this work, we present novel protocols over rings for semi-honest secure three-party computation (3PC) and malicious four-party computation (4PC) with one corruption. While most existing works focus on improving total communication complexity, challenges such as network heterogeneity and computational complexity, which impact MPC performance in practice, remain underexplored. Our protocols address these issues by tolerating multiple arbitrarily weak network links between parties without any substantial decrease in performance. Additionally, they significantly reduce computational complexity by requiring up to half the number of basic instructions per gate compared to related work. These improvements lead to up to twice the throughput of state-of-the-art protocols in homogeneous network settings and up to eight times higher throughput in real-world heterogeneous settings. These advantages come at no additional cost: Our protocols maintain the best-known total communication complexity per multiplication, requiring 3 elements for 3PC and 5 elements for 4PC. We implemented our protocols alongside several state-of-the-art protocols (Replicated 3PC, ASTRA, Fantastic Four, Tetrad) in a novel open-source C++ framework optimized for high throughput. Five out of six implemented 3PC and 4PC protocols achieve more than one billion 32-bit multiplications or over 32 billion AND gates per second using our implementation in a 25 Gbit/s LAN environment. This represents the highest throughput achieved in 3PC and 4PC so far, outperforming existing frameworks like MP-SPDZ, ABY3, MPyC, and MOTION by two to three orders of magnitude. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# 分散時系列のモデル化のためのワッサーシュタイン多変量自己回帰モデル
Wasserstein multivariate auto-regressive models for modeling distributional time series ( http://arxiv.org/abs/2207.05442v3 ) ライセンス: Link先を確認 | Yiye Jiang, Jérémie Bigot, | (参考訳) 本稿では,実線の有界区間において,異なる時間インスタントによってインデックス付けされ,支持される複数の確率測度の集合からなるデータの統計的解析に着目する。
これらの時間依存確率測度をワッサーシュタイン空間のランダムな対象としてモデル化することにより、多変量分布時系列の統計解析のための新しい自己回帰モデルを提案する。
反復ランダム関数系の理論を用いて、そのようなモデルの解の存在、特異性、定常性に関する結果を提供する。
また、このモデルの自己回帰係数に対する一貫した推定器を提案する。
モデル係数に課す単純な制約のため、これらの制約の下で学習される推定器は、自然にスパース構造を持つ。
この空間性は,多変量分布時系列から時間依存性のグラフを学習する上で,提案モデルの適用を可能にする。
シミュレーションデータを用いた推定手法の数値的性能について検討する。
また,本手法を各国の年齢分布から得られたデータ集合に適用した。
This paper is focused on the statistical analysis of data consisting of a collection of multiple series of probability measures that are indexed by distinct time instants and supported over a bounded interval of the real line. By modeling these time-dependent probability measures as random objects in the Wasserstein space, we propose a new auto-regressive model for the statistical analysis of multivariate distributional time series. Using the theory of iterated random function systems, results on the existence, uniqueness and stationarity of the solution of such a model are provided. We also propose a consistent estimator for the auto-regressive coefficients of this model. Due to the simplex constraints that we impose on the model coefficients, the proposed estimator that is learned under these constraints, naturally has a sparse structure. The sparsity allows the application of the proposed model in learning a graph of temporal dependency from multivariate distributional time series. We explore the numerical performances of our estimation procedure using simulated data. To shed some light on the benefits of our approach for real data analysis, we also apply this methodology to a data set made of observations from age distribution in different countries. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# コーディネート条件サンプリングによる高次元アイデンティティテストの複雑さ
Complexity of High-Dimensional Identity Testing with Coordinate Conditional Sampling ( http://arxiv.org/abs/2207.09102v3 ) ライセンス: Link先を確認 | Antonio Blanca, Zongchen Chen, Daniel Štefankovič, Eric Vigoda, | (参考訳) 本研究では,高次元分布におけるアイデンティティテスト問題について検討する。
明示的な分布 $\mu$, an $\varepsilon>0$, and access to sample oracle(s) for a hidden distribution $\pi$, the goal in the identity testing is both distributions $\mu$ and $\pi$ are same or least $\varepsilon$-far apart。
隠れ分布の$\pi$から完全なサンプルにしかアクセスできない場合、その次元において)指数関数的に多くのサンプルがアイデンティティテストに必要とされることが知られており、それ故に以前の研究は様々な「条件付き」サンプリングオラクルへの追加アクセスでアイデンティティテストを研究した。
これは$\mathsf{Coordinate\Oracle}$と呼ばれ、この新しいモデルにおけるアイデンティティテスト問題の計算的および統計的特徴を与える。
エントロピーの近似テンソル化(英語版)として知られる解析的性質が$n$-次元可視分布$\mu$に対して成り立つなら、$\tilde{O}(n/\varepsilon)$$$\mathsf{Coordinate\Oracle}$に対するクエリを使用する任意の隠れ分布$\pi$に対して効率的なアイデンティティテストアルゴリズムが存在する。
エントロピーの近似テンソル化は、最近の研究が高次元分布の大規模なクラスのために確立した、関連する条件である。
また、よく研究された$n$次元分布のクラス、特に$\{+1,-1\}^n$上のスパース反強磁性イジングモデルに対して、エントロピーの近似テンソル化が失敗する状態においては、$\mathsf{RP}=\mathsf{NP}$でない限り、効率的な恒等性検査アルゴリズムがないことを示す。
我々は、この結果と一致する$\Omega(n/\varepsilon)$統計下限で補う。
We study the identity testing problem for high-dimensional distributions. Given as input an explicit distribution $\mu$, an $\varepsilon>0$, and access to sampling oracle(s) for a hidden distribution $\pi$, the goal in identity testing is to distinguish whether the two distributions $\mu$ and $\pi$ are identical or are at least $\varepsilon$-far apart. When there is only access to full samples from the hidden distribution $\pi$, it is known that exponentially many samples (in the dimension) may be needed for identity testing, and hence previous works have studied identity testing with additional access to various "conditional" sampling oracles. We consider a significantly weaker conditional sampling oracle, which we call the $\mathsf{Coordinate\ Oracle}$, and provide a computational and statistical characterization of the identity testing problem in this new model. We prove that if an analytic property known as approximate tensorization of entropy holds for an $n$-dimensional visible distribution $\mu$, then there is an efficient identity testing algorithm for any hidden distribution $\pi$ using $\tilde{O}(n/\varepsilon)$ queries to the $\mathsf{Coordinate\ Oracle}$. Approximate tensorization of entropy is a pertinent condition as recent works have established it for a large class of high-dimensional distributions. We also prove a computational phase transition: for a well-studied class of $n$-dimensional distributions, specifically sparse antiferromagnetic Ising models over $\{+1,-1\}^n$, we show that in the regime where approximate tensorization of entropy fails, there is no efficient identity testing algorithm unless $\mathsf{RP}=\mathsf{NP}$. We complement our results with a matching $\Omega(n/\varepsilon)$ statistical lower bound for the sample complexity of identity testing in the $\mathsf{Coordinate\ Oracle}$ model. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# 深層強化学習ヒューリスティックを用いた協調型Dec-PMMDPの解法
Solving Collaborative Dec-POMDPs with Deep Reinforcement Learning Heuristics ( http://arxiv.org/abs/2211.15411v6 ) ライセンス: Link先を確認 | Nitsan Soffair, | (参考訳) WQMIX、QMIX、QTRAN、VDNはDec-POMDPのためのSOTAアルゴリズムである。
これらはいずれも複雑なエージェントの協調ドメインを解くことはできない。
このような問題を解決するアルゴリズムを提供する。
最初の段階では、単一エージェントの問題を解決し、ポリシーを得る。
第2段階では、単一エージェントポリシーを用いてマルチエージェント問題を解く。
SA2MAは、複雑なエージェントの協調ドメインにおける全ての競合に対して明らかな優位性を持っている。
WQMIX, QMIX, QTRAN, and VDN are SOTA algorithms for Dec-POMDP. All of them cannot solve complex agents' cooperation domains. We give an algorithm to solve such problems. In the first stage, we solve a single-agent problem and get a policy. In the second stage, we solve the multi-agent problem with the single-agent policy. SA2MA has a clear advantage over all competitors in complex agents' cooperative domains. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# 信頼性の不明なデータソース上のニューラルネットワークのトレーニング
Training Neural Networks on Data Sources with Unknown Reliability ( http://arxiv.org/abs/2212.02895v2 ) ライセンス: Link先を確認 | Alexander Capstick, Francesca Palermo, Tianyu Cui, Payam Barnaghi, | (参考訳) 複数のソースからデータを生成する場合、従来のトレーニング手法では、各ソースに等しい信頼性を仮定するモデルを更新し、トレーニング中に個々のデータ品質を考慮しない。
しかし、多くのアプリケーションにおいて、ソースは様々なレベルの信頼性を持ち、ニューラルネットワークの性能に悪影響を及ぼす可能性がある。
重要な問題は、トレーニング中に個々のソースのデータの品質が分かっていないことが多いことだ。
教師付き学習に焦点を当てたこの研究は、ソースの推定相対信頼性に比例した多くのステップで、各データソース上でニューラルネットワークをトレーニングすることを目的としたソリューションを提供する。
このようにして、ウォームアップ中のすべてのソースでのトレーニングを可能にし、最終トレーニング段階での信頼性の低いソースでの学習を減らし、モデルがノイズに過度に適応していることを示す。
各種実験を通して、信頼性のあるデータソースと信頼性の低いデータソースを混合してトレーニングした場合のモデル性能を著しく向上させ、信頼性のあるデータソースのみでモデルがトレーニングされた場合のパフォーマンスを維持できることを示す。
When data is generated by multiple sources, conventional training methods update models assuming equal reliability for each source and do not consider their individual data quality during training. However, in many applications, sources have varied levels of reliability that can have negative effects on the performance of a neural network. A key issue is that often the quality of data for individual sources is not known during training. Focusing on supervised learning, this work presents a solution that aims to train neural networks on each data source for a number of steps proportional to the source's estimated relative reliability. This way, we allow training on all sources during the warm-up, and reduce learning on less reliable sources during the final training stages, when it has been shown models overfit to noise. We show through diverse experiments, this can significantly improve model performance when trained on mixtures of reliable and unreliable data sources, and maintain performance when models are trained on reliable sources only. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# CLIP バインディングの概念は有用か? : 大規模画像モデルにおける構成性の提案
Does CLIP Bind Concepts? Probing Compositionality in Large Image Models ( http://arxiv.org/abs/2212.10537v3 ) ライセンス: Link先を確認 | Martha Lewis, Nihal V. Nayak, Peilin Yu, Qinan Yu, Jack Merullo, Stephen H. Bach, Ellie Pavlick, | (参考訳) テキストと画像を組み合わせた大規模ニューラルネットワークモデルは,近年,驚くべき進歩を遂げています。
しかしながら、そのようなモデルが、どのようにしてそれらが作用する概念の合成表現をエンコードするかは未解決の問題であり、例えば「赤」と「キューブ」の成分を推論して「赤立方体」を正しく同定するなどである。
本研究では,構成概念を符号化し,変数を構造に敏感な方法でバインドする,大規模な事前学習型視覚・言語モデル(CLIP)の能力に焦点を当てる(例:「球の裏面」と「立方体の後ろの球体」を区別する)。
CLIPの性能を調べるために,従来の構成言語構造を組込み空間内に実装しようとする研究の行であるCDSM(Composental Distributional semantics Model)の研究から,いくつかのアーキテクチャを比較した。
概念的バインディングをテストするために設計された,3つの合成データセット – 単一オブジェクト,2オブジェクト,リレーショナル – でベンチマークを行った。
CLIPは単一オブジェクト設定で概念を構成することができるが、概念バインディングが必要な状況では、パフォーマンスが劇的に低下する。
同時にCDSMも性能が悪く、性能も高い。
Large-scale neural network models combining text and images have made incredible progress in recent years. However, it remains an open question to what extent such models encode compositional representations of the concepts over which they operate, such as correctly identifying "red cube" by reasoning over the constituents "red" and "cube". In this work, we focus on the ability of a large pretrained vision and language model (CLIP) to encode compositional concepts and to bind variables in a structure-sensitive way (e.g., differentiating "cube behind sphere" from "sphere behind cube"). To inspect the performance of CLIP, we compare several architectures from research on compositional distributional semantics models (CDSMs), a line of research that attempts to implement traditional compositional linguistic structures within embedding spaces. We benchmark them on three synthetic datasets - single-object, two-object, and relational - designed to test concept binding. We find that CLIP can compose concepts in a single-object setting, but in situations where concept binding is needed, performance drops dramatically. At the same time, CDSMs also perform poorly, with best performance at chance level. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# ロボットと人間の共同作業者による倉庫ロジスティックスのためのスケーラブルなマルチエージェント強化学習
Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers ( http://arxiv.org/abs/2212.11498v3 ) ライセンス: Link先を確認 | Aleksandar Krnjaic, Raul D. Steleac, Jonathan D. Thomas, Georgios Papoudakis, Lukas Schäfer, Andrew Wing Keung To, Kuan-Ho Lao, Murat Cubuktepe, Matthew Haley, Peter Börsting, Stefano V. Albrecht, | (参考訳) 我々は、多数の移動ロボットと人間のピッカーが協力して倉庫内でアイテムを収集、配達する倉庫について検討する。
私たちが取り組んだ、オーダーピッキング問題と呼ばれる基本的な問題は、この作業においてパフォーマンスを最大化するために、これらの作業員が倉庫内での動きと行動を調整する必要があることである。
ヒューリスティックなアプローチを用いた産業手法の確立には、自然に変化する倉庫の構成を最適化するために、大規模なエンジニアリングの努力が必要である。
対照的に、マルチエージェント強化学習(MARL)は、さまざまな倉庫構成(例えば、サイズ、レイアウト、労働者の番号/タイプ、アイテム補充頻度)や、さまざまな種類のオーダーピッキングパラダイム(例えば、Goods-to-PersonやPerson-to-Goods)に柔軟に適用することができる。
我々は,マネージャエージェントが労働者エージェントに目標を割り当てる階層的MARLアルゴリズムを開発し,グローバルな目標(例えば,選別率)を最大化するために,管理者と労働者の方針を協調的に訓練する。
我々の階層的アルゴリズムは、基本的MARLアルゴリズムよりもサンプル効率が大幅に向上し、様々な倉庫構成と異なるオーダーピッキングパラダイムにおいて、複数の確立された業界ヒューリスティックよりも全体の選択率が向上する。
We consider a warehouse in which dozens of mobile robots and human pickers work together to collect and deliver items within the warehouse. The fundamental problem we tackle, called the order-picking problem, is how these worker agents must coordinate their movement and actions in the warehouse to maximise performance in this task. Established industry methods using heuristic approaches require large engineering efforts to optimise for innately variable warehouse configurations. In contrast, multi-agent reinforcement learning (MARL) can be flexibly applied to diverse warehouse configurations (e.g. size, layout, number/types of workers, item replenishment frequency), and different types of order-picking paradigms (e.g. Goods-to-Person and Person-to-Goods), as the agents can learn how to cooperate optimally through experience. We develop hierarchical MARL algorithms in which a manager agent assigns goals to worker agents, and the policies of the manager and workers are co-trained toward maximising a global objective (e.g. pick rate). Our hierarchical algorithms achieve significant gains in sample efficiency over baseline MARL algorithms and overall pick rates over multiple established industry heuristics in a diverse set of warehouse configurations and different order-picking paradigms. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# ヒューリスティック多エージェント計画によるエージェント協調の最適化
Optimizing Agent Collaboration through Heuristic Multi-Agent Planning ( http://arxiv.org/abs/2301.01246v5 ) ライセンス: Link先を確認 | Nitsan Soffair, | (参考訳) QDec-POMDP問題に対処するSOTAアルゴリズム、QDec-FPとQDec-FPSは、異なるタイプの検知エージェントを含む問題に効果的に対処できない。
本稿では,あるエージェントが検知アクションを取らなかった場合,エージェントが同じ計画を採用するように要求することで,この問題に対処する新しいアルゴリズムを提案する。
このような状況下で,本アルゴリズムはQDec-FPとQDec-FPSの双方よりも性能が優れている。
The SOTA algorithms for addressing QDec-POMDP issues, QDec-FP and QDec-FPS, are unable to effectively tackle problems that involve different types of sensing agents. We propose a new algorithm that addresses this issue by requiring agents to adopt the same plan if one agent is unable to take a sensing action but the other can. Our algorithm performs significantly better than both QDec-FP and QDec-FPS in these types of situations. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# 一般非凸円錐最適化のためのNewton-CGに基づくバリア拡張ラグランジアン法
A Newton-CG based barrier-augmented Lagrangian method for general nonconvex conic optimization ( http://arxiv.org/abs/2301.04204v2 ) ライセンス: Link先を確認 | Chuan He, Heng Huang, Zhaosong Lu, | (参考訳) 本稿では,非凸円錐最適化の2次定常点(SOSP)について,非線形等式制約と凸円錐制約の2つの微分可能な関数を最小化することを検討する。
特に、この問題の近似SOSPを求めるために、ニュートン共役勾配(ニュートン-CG)に基づくバリア拡張ラグランジアン法を提案する。
いくつかの軽微な仮定の下で、我々の手法は$\widetilde{\cal O}(\epsilon^{-11/2})$と$\widetilde{\cal O}(\epsilon^{-11/2}\min\{n,\epsilon^{-5/4}\})$の演算複雑性を、高い確率で一般の非凸円錐最適化の$-SOSPの合計内部反復複雑性を享受できることが示される。
さらに、制約条件の下で、これらの複雑性境界は、それぞれ$\widetilde{\cal O}(\epsilon^{-7/2})$と$\widetilde{\cal O}(\epsilon^{-7/2}\min\{n,\epsilon^{-3/4}\})$に改善される。
我々の知る限りでは、一般的な非凸円錐最適化の近似SOSPを求める複雑さに関する最初の研究である。
提案手法が一階法よりも解品質の点で優れていることを示すために, 予備的な数値計算結果を示す。
In this paper we consider finding an approximate second-order stationary point (SOSP) of general nonconvex conic optimization that minimizes a twice differentiable function subject to nonlinear equality constraints and also a convex conic constraint. In particular, we propose a Newton-conjugate gradient (Newton-CG) based barrier-augmented Lagrangian method for finding an approximate SOSP of this problem. Under some mild assumptions, we show that our method enjoys a total inner iteration complexity of $\widetilde{\cal O}(\epsilon^{-11/2})$ and an operation complexity of $\widetilde{\cal O}(\epsilon^{-11/2}\min\{n,\epsilon^{-5/4}\})$ for finding an $(\epsilon,\sqrt{\epsilon})$-SOSP of general nonconvex conic optimization with high probability. Moreover, under a constraint qualification, these complexity bounds are improved to $\widetilde{\cal O}(\epsilon^{-7/2})$ and $\widetilde{\cal O}(\epsilon^{-7/2}\min\{n,\epsilon^{-3/4}\})$, respectively. To the best of our knowledge, this is the first study on the complexity of finding an approximate SOSP of general nonconvex conic optimization. Preliminary numerical results are presented to demonstrate superiority of the proposed method over first-order methods in terms of solution quality. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# INFNクラウド上のサービスとしてのハイパーパラメータ最適化
Hyperparameter Optimization as a Service on INFN Cloud ( http://arxiv.org/abs/2301.05522v3 ) ライセンス: Link先を確認 | Matteo Barbetti, Lucio Anderlini, | (参考訳) 複雑な機械学習モデルのトレーニングを並列化する最もシンプルで、最も効果的な方法は、複数のマシンで複数のトレーニングインスタンスを実行し、ハイパーパラメータ空間をスキャンして基礎となる統計モデルと学習手順を最適化することである。
多くの場合、このようなメタラーニングの手順は、前回のトライアルや進行中のトライアルの知識を整理する共通のデータベースにアクセスする能力によって制限される。
異なる環境で提供されるオポチュニティGPUの爆発は、そのような最適化キャンペーンを設計する際のさらなる課題である。
このコントリビューションでは、単純なHTTPリクエストを通じて、複数のトレーニングインスタンスを監視、調整するためにINFN Cloudをベースにした専用のサービスにアクセスするために、REST APIのセットをどのように使用できるかについて議論する。
Hopaas(Hyperparameter Optitimization as A Service)と呼ばれるこのサービスは、Webインターフェースと、INFN Cloudの仮想インスタンスでUvicornとNGINXを経由するFastAPIバックエンドで実装されたAPIセットで構成されている。
最適化アルゴリズムは現在、オプトゥーナが提供したベイズ手法に基づいている。
Pythonフロントエンドも、クイックプロトタイピング用に提供されている。
我々は、プライベート、INFNクラウド、CINECAリソースを組み合わせたハイパーパラメータ最適化キャンペーンに応用する。
このような多ノード多サイト最適化の研究は、LHCb実験の超高速シミュレーションのためのパラメータ化のセットの開発を著しく加速させた。
The simplest and often most effective way of parallelizing the training of complex machine learning models is to execute several training instances on multiple machines, scanning the hyperparameter space to optimize the underlying statistical model and the learning procedure. Often, such a meta-learning procedure is limited by the ability of accessing securely a common database organizing the knowledge of the previous and ongoing trials. Exploiting opportunistic GPUs provided in different environments represents a further challenge when designing such optimization campaigns. In this contribution, we discuss how a set of REST APIs can be used to access a dedicated service based on INFN Cloud to monitor and coordinate multiple training instances, with gradient-less optimization techniques, via simple HTTP requests. The service, called Hopaas (Hyperparameter OPtimization As A Service), is made of a web interface and sets of APIs implemented with a FastAPI backend running through Uvicorn and NGINX in a virtual instance of INFN Cloud. The optimization algorithms are currently based on Bayesian techniques as provided by Optuna. A Python frontend is also made available for quick prototyping. We present applications to hyperparameter optimization campaigns performed by combining private, INFN Cloud, and CINECA resources. Such multi-node multi-site optimization studies have given a significant boost to the development of a set of parameterizations for the ultra-fast simulation of the LHCb experiment. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# 条件付きカーネル平均埋め込みの再帰的推定
Recursive Estimation of Conditional Kernel Mean Embeddings ( http://arxiv.org/abs/2302.05955v2 ) ライセンス: Link先を確認 | Ambrus Tamás, Balázs Csanád Csáji, | (参考訳) カーネルとは、機械学習で広く使われる技術である埋め込みを意味し、確率分布を再生されたカーネルヒルベルト空間(RKHS)の要素にマッピングする。
インプット・アウトプット・ペアが観測される教師付き学習問題に対しては、インプットに与えられた出力の条件分布が重要な対象である。
出力の入力依存条件分布は、RKHS値関数、条件付きカーネル平均写像で符号化することができる。
本稿では,ボヒナー空間のヒルベルト空間における条件付きカーネル平均写像を推定する新たな再帰的アルゴリズムを提案する。
軽度条件下での再帰的推定器の弱く強い$L_2$整合性を証明した。
この考え方は、局所コンパクトポーランド空間におけるヒルベルト空間値回帰に対するストーンの定理を一般化するものである。
本稿では,条件付きカーネルの平均埋め込みに関する新たな知見を提示し,提案手法の収束に関して,強い漸近的境界を与える。
最後に、結果は、ユークリッド空間から来る入力、リーマン多様体、函数空間の局所コンパクト部分集合の3つの応用領域で示される。
Kernel mean embeddings, a widely used technique in machine learning, map probability distributions to elements of a reproducing kernel Hilbert space (RKHS). For supervised learning problems, where input-output pairs are observed, the conditional distribution of outputs given the inputs is a key object. The input dependent conditional distribution of an output can be encoded with an RKHS valued function, the conditional kernel mean map. In this paper we present a new recursive algorithm to estimate the conditional kernel mean map in a Hilbert space valued $L_2$ space, that is in a Bochner space. We prove the weak and strong $L_2$ consistency of our recursive estimator under mild conditions. The idea is to generalize Stone's theorem for Hilbert space valued regression in a locally compact Polish space. We present new insights about conditional kernel mean embeddings and give strong asymptotic bounds regarding the convergence of the proposed recursive method. Finally, the results are demonstrated on three application domains: for inputs coming from Euclidean spaces, Riemannian manifolds and locally compact subsets of function spaces. | 翻訳日:2024-09-02 20:50:35 公開日:2024-08-30 |
# 混合ウェーブレット統合によるパノラマの深部畳み込み
Deep Convolutional Framelet Denoising for Panoramic by Mixed Wavelet Integration ( http://arxiv.org/abs/2302.10306v3 ) ライセンス: Link先を確認 | Masoud Shahraki Mohammadi, Seyed Javad Seyed Mahdavi Chabok, | (参考訳) 前処理における品質向上とノイズ除去は、画像処理における最も重要なステップの1つである。
X線画像は、原子と衝突する光子と散乱ノイズ吸収のばらつきによって生成される。
このノイズは、グラフの医療的品質を低下させ、時には反復し、患者の有効用量を増加させる。
この領域で最も重要な課題の1つは、常に画像ノイズを下げることである。
BM3dやローパスフィルタ、Autoencoderといった技術がこの一歩を踏み出した。
構造設計と高い繰り返し率のため、様々なアーキテクチャを用いたニューラルネットワークは、過去10年間で、従来のBM3Dやローパスフィルタを超越して、良好な結果でノイズ低減を実現している。
ハンケル行列とニューラルネットワークの組み合わせは、これらの構成の1つである。
ハンケル行列は、非局所行列を用いて、個々の値を局所成分と非局所成分に分離することで局所円を識別することを目的としている。
非局所行列は波動またはDCTを用いて作成することができる。
本稿では,この波形をダウブチー(D4)ウェーブレットに高エネルギー濃度で統合し,各段階でのみ波形を組み込むu-Netニューラルネットワークアーキテクチャを採用することを提案する。
結果はPSNRとSSIMの基準を用いて評価され,様々な波を用いて検証された。
他のデータセットによる研究によると、1波ネットワークの有効性は0.5%から1.2%に増加した。
Enhancing quality and removing noise during preprocessing is one of the most critical steps in image processing. X-ray images are created by photons colliding with atoms and the variation in scattered noise absorption. This noise leads to a deterioration in the graph's medical quality and, at times, results in repetition, thereby increasing the patient's effective dose. One of the most critical challenges in this area has consistently been lowering the image noise. Techniques like BM3d, low-pass filters, and Autoencoder have taken this step. Owing to their structural design and high rate of repetition, neural networks employing diverse architectures have, over the past decade, achieved noise reduction with satisfactory outcomes, surpassing the traditional BM3D and low-pass filters. The combination of the Hankel matrix with neural networks represents one of these configurations. The Hankel matrix aims to identify a local circle by separating individual values into local and non-local components, utilizing a non-local matrix. A non-local matrix can be created using the wave or DCT. This paper suggests integrating the waveform with the Daubechies (D4) wavelet due to its higher energy concentration and employs the u-Net neural network architecture, which incorporates the waveform exclusively at each stage. The outcomes were evaluated using the PSNR and SSIM criteria, and the outcomes were verified by using various waves. The effectiveness of a one-wave network has increased from 0.5% to 1.2%, according to studies done on other datasets | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# Lamarr: Gaussにデプロイされた機械学習モデルに基づくLHCb超高速シミュレーション
Lamarr: LHCb ultra-fast simulation based on machine learning models deployed within Gauss ( http://arxiv.org/abs/2303.11428v3 ) ライセンス: Link先を確認 | Matteo Barbetti, | (参考訳) LHCb実験で利用可能なコンピューティングリソースの約90%は、CERNのLarge Hadron ColliderのRun 2のシミュレーションデータサンプルの作成に費やされている。
アップグレードされたLHCb検出器は、より大きなデータサンプルを収集することができ、Run 3で収集されるデータを分析するために、さらに多くのシミュレートされたイベントが必要になる。
シミュレーションは、シグナルを解釈し、背景を拒絶し、効率を測定するために重要な必要性である。
必要なシミュレーションは、誓約されたリソースをはるかに超え、これらのシミュレーションデータサンプルを作成するには、技術や技術が進化する必要がある。
本稿では,LHCb実験における検出器応答と再構成アルゴリズムの両方をパラメータ化してシミュレーション生成を高速化する,ガウディベースのフレームワークであるLamarrについて論じる。
複数のアルゴリズムと戦略を駆使した深部生成モデルを用いて、LHCb検出器の単一成分の高レベル応答を効果的にパラメータ化し、ニューラルネットワーク内で検出および再構成フェーズで導入された実験誤差と不確実性を符号化する。
可能な場合、モデルは実際のデータに基づいて直接訓練され、適切なリウィーディング手順を適用することで、統計的に任意のバックグラウンドコンポーネントを減算する。
一般的なLHCb Gauss SimulationフレームワークにLamarrを組み込むことで、実行と利用可能なジェネレータをシームレスに組み合わせることができる。
ソフトウェアパッケージは、今までの詳細なシミュレーションとは無関係にシミュレーションプロセスを可能にする。
About 90% of the computing resources available to the LHCb experiment has been spent to produce simulated data samples for Run 2 of the Large Hadron Collider at CERN. The upgraded LHCb detector will be able to collect larger data samples, requiring many more simulated events to analyze the data to be collected in Run 3. Simulation is a key necessity of analysis to interpret signal, reject background and measure efficiencies. The needed simulation will far exceed the pledged resources, requiring an evolution in technologies and techniques to produce these simulated data samples. In this contribution, we discuss Lamarr, a Gaudi-based framework to speed-up the simulation production parameterizing both the detector response and the reconstruction algorithms of the LHCb experiment. Deep Generative Models powered by several algorithms and strategies are employed to effectively parameterize the high-level response of the single components of the LHCb detector, encoding within neural networks the experimental errors and uncertainties introduced in the detection and reconstruction phases. Where possible, models are trained directly on real data, statistically subtracting any background components by applying appropriate reweighing procedures. Embedding Lamarr in the general LHCb Gauss Simulation framework allows to combine its execution with any of the available generators in a seamless way. The resulting software package enables a simulation process independent of the detailed simulation used to date. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# FedAgg: Aggregated Gradientsによる適応的なフェデレーション学習
FedAgg: Adaptive Federated Learning with Aggregated Gradients ( http://arxiv.org/abs/2303.15799v5 ) ライセンス: Link先を確認 | Wenhao Yuan, Xuehe Wang, | (参考訳) フェデレートラーニング(FL)は、個々のデバイスが、ローカルに保存されたプライベートデータを活用しながら、中央サーバの調整の下で共有モデルを協調的にトレーニングすることを可能にする、重要な分散トレーニングパラダイムとして登場した。
それにもかかわらず、異種クライアントで生成した非独立・同一分散(Non-IID)データや、参加者間の不必要な情報交換は、トレーニング効果を著しく阻害し、モデルの収束率を低下させ、プライバシー漏洩のリスクを増大させる可能性がある。
局所モデルパラメータと平均モデルパラメータのばらつきを緩和し,FedAggと呼ばれる適応型FEDerated Learningアルゴリズムを提案し,局所モデルの偏差を定量化するペナルティ項に基づいて学習率を適応的に調整する。
ローカルトレーニングにおける情報交換の課題に対処し、各クライアントに対して分散適応学習率を設計するために、平均的局所パラメータと勾配を時間とともに近似する2つの平均場項を導入する。
厳密な理論解析を通じて、平均場項の存在と収束を実証し、提案アルゴリズムの収束に頑健な上限を与える。
IIDおよび非IIDデータセットにおけるモデル性能の向上と収束速度の促進を目的とした既存のFL戦略と比較して,実世界のデータセットに対する広範な実験結果が,我々のフレームワークの優位性を裏付けるものである。
Federated Learning (FL) has emerged as a crucial distributed training paradigm, enabling discrete devices to collaboratively train a shared model under the coordination of a central server, while leveraging their locally stored private data. Nonetheless, the non-independent-and-identically-distributed (Non-IID) data generated on heterogeneous clients and the incessant information exchange among participants may significantly impede training efficacy, retard the model convergence rate and increase the risk of privacy leakage. To alleviate the divergence between the local and average model parameters and obtain a fast model convergence rate, we propose an adaptive FEDerated learning algorithm called FedAgg by refining the conventional stochastic gradient descent (SGD) methodology with an AGgregated Gradient term at each local training epoch and adaptively adjusting the learning rate based on a penalty term that quantifies the local model deviation. To tackle the challenge of information exchange among clients during local training and design a decentralized adaptive learning rate for each client, we introduce two mean-field terms to approximate the average local parameters and gradients over time. Through rigorous theoretical analysis, we demonstrate the existence and convergence of the mean-field terms and provide a robust upper bound on the convergence of our proposed algorithm. The extensive experimental results on real-world datasets substantiate the superiority of our framework in comparison with existing state-of-the-art FL strategies for enhancing model performance and accelerating convergence rate under IID and Non-IID datasets. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# ベイズニューラルネットワークへの非競合データの導入
Incorporating Unlabelled Data into Bayesian Neural Networks ( http://arxiv.org/abs/2304.01762v3 ) ライセンス: Link先を確認 | Mrinank Sharma, Tom Rainforth, Yee Whye Teh, Vincent Fortuin, | (参考訳) 従来のベイジアンニューラルネットワーク(BNN)では、ラベルのないデータを活用できず、予測を改善することができない。
この制限を克服するために,未ラベルデータを用いて事前予測分布の適切なモデル学習を行うセルフスーパービジョンベイズニューラルネットワークを導入する。
これは、対照的な事前学習技術を活用し、変分下界を最適化することで達成される。
次に、自己教師付きBNNの事前予測分布は、従来のBNNよりも問題セマンティクスが優れていることを示す。
従来型のBNNよりも予測性能が向上し,特に低予算体制下での予測性能が向上した。
Conventional Bayesian Neural Networks (BNNs) are unable to leverage unlabelled data to improve their predictions. To overcome this limitation, we introduce Self-Supervised Bayesian Neural Networks, which use unlabelled data to learn models with suitable prior predictive distributions. This is achieved by leveraging contrastive pretraining techniques and optimising a variational lower bound. We then show that the prior predictive distributions of self-supervised BNNs capture problem semantics better than conventional BNN priors. In turn, our approach offers improved predictive performance over conventional BNNs, especially in low-budget regimes. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# EEGMatch:半監督型脳波を用いたクロスオブジェクト感情認識のための不完全ラベルを用いた学習
EEGMatch: Learning with Incomplete Labels for Semi-Supervised EEG-based Cross-Subject Emotion Recognition ( http://arxiv.org/abs/2304.06496v2 ) ライセンス: Link先を確認 | Rushuang Zhou, Weishan Ye, Zhiguo Zhang, Yanyang Luo, Li Zhang, Linling Li, Gan Huang, Yining Dong, Yuan-Ting Zhang, Zhen Liang, | (参考訳) 脳電図(EEG)は感情認識のための客観的ツールであり、有望なパフォーマンスを示す。
しかし、この分野ではラベル不足の問題が大きな課題であり、脳波に基づく感情認識の幅広い適用を制限している。
本稿では,ラベル付きEEGデータとラベルなしEEGデータの両方を活用するための,新しい半教師付き学習フレームワーク(EEGMatch)を提案する。
まず、モデル学習のためのより有効なサンプルを生成するために、EEG-Mixupに基づくデータ拡張法を開発した。
次に, 半教師付き2段階ペアワイズ学習法を提案し, 脳波データと各感情クラスの原型表現とのグローバルな関係を測り, 脳波データ間の局所的な内在的関係を捉える。
第3に、分散ミスマッチが緩和された複数のドメイン(ラベル付きソースドメイン、ラベルなしソースドメイン、ターゲットドメイン)間でデータ表現を整列するために、半教師付きマルチドメイン適応を導入する。
2つのベンチマークデータベース (SEED と SEED-IV) 上で, クロスオブジェクト・ワン・オブ・サブジェクト・アウト・クロスバリデーション評価プロトコルを用いて大規模な実験を行った。
その結果, 脳波信号を用いた感情認識におけるラベル不足問題に対するEEGMatchの有効性を実証し, 不完全なラベル条件下での最先端手法よりも優れた性能(SEED-IVでは6.89%, SEED-IVでは1.44%)が得られた。
ソースコードはhttps://github.com/KAZABANA/EEGMatch.comで入手できる。
Electroencephalography (EEG) is an objective tool for emotion recognition and shows promising performance. However, the label scarcity problem is a main challenge in this field, which limits the wide application of EEG-based emotion recognition. In this paper, we propose a novel semi-supervised learning framework (EEGMatch) to leverage both labeled and unlabeled EEG data. First, an EEG-Mixup based data augmentation method is developed to generate more valid samples for model learning. Second, a semi-supervised two-step pairwise learning method is proposed to bridge prototype-wise and instance-wise pairwise learning, where the prototype-wise pairwise learning measures the global relationship between EEG data and the prototypical representation of each emotion class and the instance-wise pairwise learning captures the local intrinsic relationship among EEG data. Third, a semi-supervised multi-domain adaptation is introduced to align the data representation among multiple domains (labeled source domain, unlabeled source domain, and target domain), where the distribution mismatch is alleviated. Extensive experiments are conducted on two benchmark databases (SEED and SEED-IV) under a cross-subject leave-one-subject-out cross-validation evaluation protocol. The results show the proposed EEGmatch performs better than the state-of-the-art methods under different incomplete label conditions (with 6.89% improvement on SEED and 1.44% improvement on SEED-IV), which demonstrates the effectiveness of the proposed EEGMatch in dealing with the label scarcity problem in emotion recognition using EEG signals. The source code is available at https://github.com/KAZABANA/EEGMatch. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# Twitterバイオマスにおける自己表現の次元と誤情報共有との関連性の測定
Measuring Dimensions of Self-Presentation in Twitter Bios and their Links to Misinformation Sharing ( http://arxiv.org/abs/2305.09548v3 ) ライセンス: Link先を確認 | Navid Madani, Rabiraj Bandyopadhyay, Briony Swire-Thompson, Michael Miller Yoder, Kenneth Joseph, | (参考訳) ソーシャルメディアプラットフォームは、"bio"として知られるプロファイル記述フィールドをユーザに提供し、世界に自らを提示する。
これらの生物のテキストは、オンラインの自己表現と行動に対する理解を改善することができるが、既存の研究はキーワードベースのアプローチにのみ依存している。
本稿では, 年齢や党派など, 社会的意味の健全な次元を捉えた空間に生物を埋め込むための, 単純で効果的かつ理論的に動機づけられた一組のアプローチを提案し, 評価する。
4つのタスクでメソッドを評価し、最強のメソッドがいくつかの実用的なベースラインを上回っていることを示す。
次に,Twitter\hl{上の低品質ニュースサイトにおける自己表現とURLの共有の関連性を理解する上での手法の有用性について述べる。
我々の研究は、計算社会科学者が生体情報を利用するのを助ける新しいツールを提供し、Twitter上での誤情報共有がどのように認識されるかに関する新たな洞察を提供する。
Social media platforms provide users with a profile description field, commonly known as a ``bio," where they can present themselves to the world. A growing literature shows that text in these bios can improve our understanding of online self-presentation and behavior, but existing work relies exclusively on keyword-based approaches to do so. We here propose and evaluate a suite of \hl{simple, effective, and theoretically motivated} approaches to embed bios in spaces that capture salient dimensions of social meaning, such as age and partisanship. We \hl{evaluate our methods on four tasks, showing that the strongest one out-performs several practical baselines.} We then show the utility of our method in helping understand associations between self-presentation and the sharing of URLs from low-quality news sites on Twitter\hl{, with a particular focus on explore the interactions between age and partisanship, and exploring the effects of self-presentations of religiosity}. Our work provides new tools to help computational social scientists make use of information in bios, and provides new insights into how misinformation sharing may be perceived on Twitter. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# 古典的計画における探索・爆発のスケール適応的バランス
Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning ( http://arxiv.org/abs/2305.09840v3 ) ライセンス: Link先を確認 | Stephen Wissow, Masataro Asai, | (参考訳) ゲームツリー探索と自動計画において,探索と搾取のバランスが重要な問題となっている。
しかし,MAB(Multi-Armed Bandit)の文献では,この問題は広く分析されているものの,これらの結果を適用しようとすると,計画コミュニティは限られた成功を収めている。
我々は,MAB文献のより詳細な理論的理解がモンテカルロ木探索 (MCTS) / トライアルベースヒューリスティック木探索 (THTS) に基づく既存の計画アルゴリズムの改善に役立つことを示す。
特に、THTS は UCB1 MAB アルゴリズムをアドホックな方法で使用しており、UTB1 の固定有界サポート報酬分布の理論的な要件は、古典的な計画のヒューリスティックな探索では満たされない。
主な問題は、 UCB1 の報酬の異なるスケールへの適応の欠如にある。
提案するMCTS/THTSアルゴリズムであるGreedyUCT-Normal, UCB1-Normal bandit for agile classical Planningでは,報奨分散を考慮した分散処理を行うとともに,Greedy Best First Searchと既存のMCTS/THTSベースのアルゴリズム(GreedyUCT,GreedyUCT*)より優れたアルゴリズム性能(ノード拡張が少ない計画が多い)を実現した。
Balancing exploration and exploitation has been an important problem in both game tree search and automated planning. However, while the problem has been extensively analyzed within the Multi-Armed Bandit (MAB) literature, the planning community has had limited success when attempting to apply those results. We show that a more detailed theoretical understanding of MAB literature helps improve existing planning algorithms that are based on Monte Carlo Tree Search (MCTS) / Trial Based Heuristic Tree Search (THTS). In particular, THTS uses UCB1 MAB algorithms in an ad hoc manner, as UCB1's theoretical requirement of fixed bounded support reward distributions is not satisfied within heuristic search for classical planning. The core issue lies in UCB1's lack of adaptations to the different scales of the rewards. We propose GreedyUCT-Normal, a MCTS/THTS algorithm with UCB1-Normal bandit for agile classical planning, which handles distributions with different scales by taking the reward variance into consideration, and resulted in an improved algorithmic performance (more plans found with less node expansions) that outperforms Greedy Best First Search and existing MCTS/THTS-based algorithms (GreedyUCT,GreedyUCT*). | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# DiffLoad:拡散モデルによる電力負荷予測の不確実性定量化
DiffLoad: Uncertainty Quantification in Electrical Load Forecasting with Diffusion Model ( http://arxiv.org/abs/2306.01001v4 ) ライセンス: Link先を確認 | Zhixian Wang, Qingsong Wen, Chaoli Zhang, Liang Sun, Yi Wang, | (参考訳) 電力需要予測は、単位コミットメントや経済派遣を含む電力システムの意思決定において重要な役割を担っている。
再生可能エネルギー源の統合と、新型コロナウイルスのパンデミックなどの外部イベントの発生により、負荷予測の不確実性が急速に高まっている。
負荷予測の不確実性は, てんかん性不確実性と失読性不確実性という2つのタイプに分けられる。
このような不確実性を分離することで、意思決定者は、その不確実性がどの程度あるかをよりよく理解し、次の意思決定に対する信頼を高めることができる。
本稿では, エピステミック不確かさを推定するための拡散型Seq2Seq構造を提案し, 強靭性付加コーシー分布を用いてアレタリック不確かさを推定する。
本手法は,負荷予測の精度を確保するだけでなく,2種類の不確実性を分離し,異なる負荷レベルに適用できることを示す。
関連するコードは \url{https://anonymous.4open.science/r/DiffLoad-4714/} にある。
Electrical load forecasting plays a crucial role in decision-making for power systems, including unit commitment and economic dispatch. The integration of renewable energy sources and the occurrence of external events, such as the COVID-19 pandemic, have rapidly increased uncertainties in load forecasting. The uncertainties in load forecasting can be divided into two types: epistemic uncertainty and aleatoric uncertainty. Separating these types of uncertainties can help decision-makers better understand where and to what extent the uncertainty is, thereby enhancing their confidence in the following decision-making. This paper proposes a diffusion-based Seq2Seq structure to estimate epistemic uncertainty and employs the robust additive Cauchy distribution to estimate aleatoric uncertainty. Our method not only ensures the accuracy of load forecasting but also demonstrates the ability to separate the two types of uncertainties and be applicable to different levels of loads. The relevant code can be found at \url{https://anonymous.4open.science/r/DiffLoad-4714/}. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# TSAR-MVS: テクスチャレス認識セグメンテーションと相関リファインメントガイドによるマルチビューステレオ
TSAR-MVS: Textureless-aware Segmentation and Correlative Refinement Guided Multi-View Stereo ( http://arxiv.org/abs/2308.09990v4 ) ライセンス: Link先を確認 | Zhenlong Yuan, Jiakai Cao, Zhaoqi Wang, Zhaoxin Li, | (参考訳) テクスチャレス領域の再構成は、画像間の信頼性の高い画素対応が欠如しているため、MVSでは長年、難しい問題であった。
本稿では, テクスチャレス領域による3次元再構成の課題を, フィルタリング, 精細化, セグメンテーションにより効果的に解決する, マルチビューステレオ(TSAR-MVS)を提案する。
まず,不均一不連続検出器と信頼度推定器を融合させて不正確な深度推定を除去する手法であるジョイント仮説フィルタリングを実装した。
第2に、自信を持って画素を拡大するために、RANSACを利用してスーパーピクセルをベースとした3次元平面を生成する反復的相関補正戦略を導入し、重み付き中央フィルタにより、正確に決定された画素の影響を拡大する。
最後に,エッジ検出と線検出を利用したテクスチャレス認識セグメンテーション手法を提案する。
ETH3D, Tanks & Temples および Strecha データセットの実験により,提案手法の優れた性能と強力な一般化能力が示された。
The reconstruction of textureless areas has long been a challenging problem in MVS due to lack of reliable pixel correspondences between images. In this paper, we propose the Textureless-aware Segmentation And Correlative Refinement guided Multi-View Stereo (TSAR-MVS), a novel method that effectively tackles challenges posed by textureless areas in 3D reconstruction through filtering, refinement and segmentation. First, we implement the joint hypothesis filtering, a technique that merges a confidence estimator with a disparity discontinuity detector to eliminate incorrect depth estimations. Second, to spread the pixels with confident depth, we introduce an iterative correlation refinement strategy that leverages RANSAC to generate 3D planes based on superpixels, succeeded by a weighted median filter for broadening the influence of accurately determined pixels. Finally, we present a textureless-aware segmentation method that leverages edge detection and line detection for accurately identify large textureless regions for further depth completion. Experiments on ETH3D, Tanks & Temples and Strecha datasets demonstrate the superior performance and strong generalization capability of our proposed method. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# スプリットアンラーニング
Split Unlearning ( http://arxiv.org/abs/2308.10422v3 ) ライセンス: Link先を確認 | Guangsheng Yu, Yanna Jiang, Qin Wang, Xu Wang, Baihe Ma, Caijun Sun, Wei Ni, Ren Ping Liu, | (参考訳) 我々は,SISAベースの機械アンラーニング(SP'21)をSL(Split Learning)で実現し,実践的なスプリット・アンラーニング・フレームワークの提案,実装,評価を行った。
SplitWiper と SplitWiper+ を導入し,既存の SL メソッドがクライアントとサーバ間の密結合のため,SISA の "Isolated" 原則を侵害する問題に対処する。
この結合には、頻繁な双方向データフローと、すべてのクライアントに対する反復的なトレーニングが含まれる。
我々は、新しいワンウェイ・ワン・オフ・プロパゲーション・スキームを設計することで、これらの課題を解決する。
我々の設計では、クライアントとサーバ間のニューラルネットワークの伝搬を分離し、SplitWiperにおけるSISAベースのアンラーニングを可能にする。
SplitWiper+は、このスキームの下でクライアントラベルのプライバシーをさらに強化する。
多様なデータ分散とタスクにわたる広範な実験により、クライアントのみを対象とするSplitWiperは、0%の未学習精度を実現し、既存のSL法よりも108%以上の効率で精度を維持しつつ、一方のワンオフ伝搬によるオーバーヘッドを一定に保ち、計算と通信のコストを99%以上削減できることを示した。
SplitWiper+は、マスク付きラベルをサーバーと共有する際に、ラベルのプライバシーの90%以上を保護している。
We for the first time propose, implement, and evaluate a practical Split Unlearning framework by enabling SISA-based machine unlearning (SP'21) in Split Learning (SL). We introduce SplitWiper and SplitWiper+, which leverage the inherent "Sharded" structure of SL and address the issues where existing SL methods compromise the "Isolated" principle of SISA due to the tight coupling between clients and the server. This coupling involves frequent bidirectional data flows and iterative training across all clients. We resolve these challenges by designing a new one-way-one-off propagation scheme. Our design decouples the propagation of neural signals between clients and between clients and the server, enabling SISA-based unlearning in SplitWiper, even with absent clients. SplitWiper+ further enhances client label privacy against the server under this scheme by using differential privacy. Our extensive experiments across diverse data distributions and tasks demonstrate that SplitWiper, which involves only the requesting clients, achieves 0% unlearning accuracy and is over 108% more effective in retaining accuracy than existing SL methods, while maintaining constant overhead through its one-way-one-off propagation, reducing computational and communication costs by over 99%. SplitWiper+ preserves over 90% of label privacy when sharing masked labels with servers. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# ハイブリッドイベントフレームカメラのための非同期線形フィルタアーキテクチャ
An Asynchronous Linear Filter Architecture for Hybrid Event-Frame Cameras ( http://arxiv.org/abs/2309.01159v2 ) ライセンス: Link先を確認 | Ziwei Wang, Yonhon Ng, Cedric Scheerlinck, Robert Mahony, | (参考訳) イベントカメラは、ハイダイナミックレンジ(HDR)の視覚情報をぼやけずに捉えるのに理想的だが、静止画やゆっくりと変化するシーンの撮像能力は貧弱である。
逆に、従来の画像センサは、ゆっくりと変化するシーンの絶対強度を効果的に測定するが、HDRや素早く変化するシーンでは不十分である。
本稿では,HDRビデオ再構成と空間畳み込みのための非同期線形フィルタアーキテクチャを提案する。
キーとなるアイデアは、統合またはコンカレントされた画像情報を直接エンコードし、各イベントまたはフレームがカメラから到着するときに非同期に更新する状態の導入である。
状態は、リアルタイムロボットシステムのための後続のビジョンモジュールにフィードするために必要な時は常に、そのまま読み取ることができる。
実験結果は、照明条件と高速動作に挑戦する公開データセットと、HDR参照を備えた新しいデータセットの両方で評価される。
提案されたAKFパイプラインは、絶対強度誤差(69.4%削減)と画像類似度指数(平均35.5%改善)の両方において、他の最先端手法よりも優れている。
また,Gaussian,Sobel,Laplacianといった線形空間カーネルと画像畳み込みの統合をアーキテクチャの応用として示す。
Event cameras are ideally suited to capture High Dynamic Range (HDR) visual information without blur but provide poor imaging capability for static or slowly varying scenes. Conversely, conventional image sensors measure absolute intensity of slowly changing scenes effectively but do poorly on HDR or quickly changing scenes. In this paper, we present an asynchronous linear filter architecture, fusing event and frame camera data, for HDR video reconstruction and spatial convolution that exploits the advantages of both sensor modalities. The key idea is the introduction of a state that directly encodes the integrated or convolved image information and that is updated asynchronously as each event or each frame arrives from the camera. The state can be read-off as-often-as and whenever required to feed into subsequent vision modules for real-time robotic systems. Our experimental results are evaluated on both publicly available datasets with challenging lighting conditions and fast motions, along with a new dataset with HDR reference that we provide. The proposed AKF pipeline outperforms other state-of-the-art methods in both absolute intensity error (69.4% reduction) and image similarity indexes (average 35.5% improvement). We also demonstrate the integration of image convolution with linear spatial kernels Gaussian, Sobel, and Laplacian as an application of our architecture. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# ブロック隣接行列の時空間依存性の曲げ加工
Mending of Spatio-Temporal Dependencies in Block Adjacency Matrix ( http://arxiv.org/abs/2310.02606v2 ) ライセンス: Link先を確認 | Osama Ahmad, Omer Abdul Jalil, Usman Nazir, Murtaza Taj, | (参考訳) 空間的および時間的次元にわたってデータを動的に進化させるアプリケーションの世界では、グラフニューラルネットワーク(GNN)はしばしば、時間的変化を効果的にモデル化するために、RNNやトランスフォーマーのようなシーケンスモデリングアーキテクチャによって補完される。
これらのハイブリッドモデルは通常、空間的および時間的学習要素を直列に配置する。
GNNのみを用いて時空間依存性を共同でモデル化する先駆的な試みは、異なる時間ステップでグラフから隣接行列を対角的に連結して構築したBlock Adjacency Matrix \(\mathbf{A_B}\) \cite{1} の導入である。
このアプローチにより、完全な時空間データを含む1つのグラフが得られたが、異なる時間ステップからのグラフは切断され、GNNメッセージパスは空間的に接続されたノードのみに制限された。
この重要な課題に対処するため、時間的依存を補うために特別に設計された新しいエンドツーエンドの学習アーキテクチャを提案する。
そこで我々は,時空間データをグラフとして学習可能な表現のためのフレームワークを提供する。
提案手法は,SurgVisDomやC2D2などのベンチマークデータセットにおいて,既存の最先端グラフモデルを上回る精度で優れた性能を示す。
また,CLIP や 3D CNN アーキテクチャに依存する手法よりもはるかに少ないパラメータで計算複雑性を著しく低減する。
In the realm of applications where data dynamically evolves across spatial and temporal dimensions, Graph Neural Networks (GNNs) are often complemented by sequence modeling architectures, such as RNNs and transformers, to effectively model temporal changes. These hybrid models typically arrange the spatial and temporal learning components in series. A pioneering effort to jointly model the spatio-temporal dependencies using only GNNs was the introduction of the Block Adjacency Matrix \(\mathbf{A_B}\) \cite{1}, which was constructed by diagonally concatenating adjacency matrices from graphs at different time steps. This approach resulted in a single graph encompassing complete spatio-temporal data; however, the graphs from different time steps remained disconnected, limiting GNN message-passing to spatially connected nodes only. Addressing this critical challenge, we propose a novel end-to-end learning architecture specifically designed to mend the temporal dependencies, resulting in a well-connected graph. Thus, we provide a framework for the learnable representation of spatio-temporal data as graphs. Our methodology demonstrates superior performance on benchmark datasets, such as SurgVisDom and C2D2, surpassing existing state-of-the-art graph models in terms of accuracy. Our model also achieves significantly lower computational complexity, having far fewer parameters than methods reliant on CLIP and 3D CNN architectures. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# 直交オプティマイザを用いた言語モデルにおけるMixture-of-Experts表現の多様化
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer ( http://arxiv.org/abs/2310.09762v2 ) ライセンス: Link先を確認 | Boan Liu, Liang Ding, Li Shen, Keqin Peng, Yu Cao, Dazhao Cheng, Dacheng Tao, | (参考訳) The Mixture of Experts (MoE) is appeared as a high successful technique in Deep Learning, based on the principle of divide-and-conquer to maximum model capacity without significant further compute cost。
大規模言語モデル (LLMs) の時代においても、GPT-4 が様々な推論結果を保証するために MoE 構造を採用することを一部の研究者が示しているように、MoE は依然として重要な役割を担っている。
しかし、MoEは、特に専門家間の不均衡と均質な表現の問題において、パフォーマンスの縮退に影響を受けやすい。
これまでの研究では、不均衡の問題に広範囲に対処してきたが、同質表現の課題は未解決のままである。
本研究では,同種表現問題に光を当て,MoEの専門家は多様性の専門化と欠如に失敗し,その表現にフラストレーションの高い類似性(MoEモデルでは最大99\%)をもたらす。
この問題はMoEの表現力を制限するものであり、我々はその本来の意図と矛盾していると主張する。
この問題に対処するため,直交型エキスパートオプティマイザであるOMoEを提案する。
さらに,各専門家に対して,他の専門家が対象とする部分空間に直交する方向の更新を奨励する交互トレーニング戦略を導入する。
まず,表現の多様性を明確に向上させ,次に直交重み計算における専門家間の相互作用を暗黙的に促進する。
広範にわたる実験により,提案アルゴリズムは,GLUEベンチマーク,SuperGLUEベンチマーク,質問応答タスク,名称エンティティ認識タスクにおいて,MoEモデルを微調整する性能を大幅に向上することを示した。
The Mixture of Experts (MoE) has emerged as a highly successful technique in deep learning, based on the principle of divide-and-conquer to maximize model capacity without significant additional computational cost. Even in the era of large-scale language models (LLMs), MoE continues to play a crucial role, as some researchers have indicated that GPT-4 adopts the MoE structure to ensure diverse inference results. However, MoE is susceptible to performance degeneracy, particularly evident in the issues of imbalance and homogeneous representation among experts. While previous studies have extensively addressed the problem of imbalance, the challenge of homogeneous representation remains unresolved. In this study, we shed light on the homogeneous representation problem, wherein experts in the MoE fail to specialize and lack diversity, leading to frustratingly high similarities in their representations (up to 99\% in a well-performed MoE model). This problem restricts the expressive power of the MoE and, we argue, contradicts its original intention. To tackle this issue, we propose a straightforward yet highly effective solution: OMoE, an orthogonal expert optimizer. Additionally, we introduce an alternating training strategy that encourages each expert to update in a direction orthogonal to the subspace spanned by other experts. Our algorithm facilitates MoE training in two key ways: firstly, it explicitly enhances representation diversity, and secondly, it implicitly fosters interaction between experts during orthogonal weights computation. Through extensive experiments, we demonstrate that our proposed optimization algorithm significantly improves the performance of fine-tuning the MoE model on the GLUE benchmark, SuperGLUE benchmark, question-answering task, and name entity recognition tasks. | 翻訳日:2024-09-02 20:41:13 公開日:2024-08-30 |
# ディープフールアルゴリズムを用いたターゲットクラス操作のためのディープニューラルネットワーク上の敵攻撃の試行
Tailoring Adversarial Attacks on Deep Neural Networks for Targeted Class Manipulation Using DeepFool Algorithm ( http://arxiv.org/abs/2310.13019v4 ) ライセンス: Link先を確認 | S. M. Fazle Rabby Labib, Joyanta Jyoti Mondal, Meem Arafat Manab, Sarfaraz Newaz, Xi Xiao, | (参考訳) ディープニューラルネットワーク(DNN)の敵対的攻撃に対する感受性は、多くのアプリケーションにわたる信頼性を損なうものであり、これらの脆弱性の詳細な調査と堅牢な防御戦略の策定の必要性を浮き彫りにしている。
Moosavi-Dezfooli et al (2016)によるDeepFoolアルゴリズムは、入力画像の誤分類を引き起こすのに必要な最小の摂動を識別する重要なステップである。
それでも、その一般的な方法論は、ターゲットの介入を必要とするシナリオでは不十分である。
さらに、過去の研究では、画像の連続的な歪み、画質の維持、または誤分類に必要な信頼しきい値に適切に対処することなく、攻撃の成功率に主に集中してきた。
これらのギャップを埋めるために、我々は、DeepFoolの進化であるET DeepFoolアルゴリズムを導入しました。
我々の実証研究は、画像の整合性を維持し、様々なDNNアーキテクチャにおける摂動を最小限に抑えるという、この洗練されたアプローチの優位性を実証している。
Gajjar et al (2022)によるTargeted DeepFoolのような以前のイテレーションとは異なり、我々の手法は摂動過程の非並列制御を可能にし、モデル応答の正確な操作を可能にする。
予備的な結果から、AlexNet や Advanced Vision Transformer など一部のモデルでは、このような操作に満足できるロバストさが示されている。
このモデルロバスト性の様々なレベルの発見は、我々の信頼度調整によって明らかにされたように、画像認識の分野に大きく影響する可能性がある。
私たちのコードは、論文を受理して公表します。
The susceptibility of deep neural networks (DNNs) to adversarial attacks undermines their reliability across numerous applications, underscoring the necessity for an in-depth exploration of these vulnerabilities and the formulation of robust defense strategies. The DeepFool algorithm by Moosavi-Dezfooli et al. (2016) represents a pivotal step in identifying minimal perturbations required to induce misclassification of input images. Nonetheless, its generic methodology falls short in scenarios necessitating targeted interventions. Additionally, previous research studies have predominantly concentrated on the success rate of attacks without adequately addressing the consequential distortion of images, the maintenance of image quality, or the confidence threshold required for misclassification. To bridge these gaps, we introduce the Enhanced Targeted DeepFool (ET DeepFool) algorithm, an evolution of DeepFool that not only facilitates the specification of desired misclassification targets but also incorporates a configurable minimum confidence score. Our empirical investigations demonstrate the superiority of this refined approach in maintaining the integrity of images and minimizing perturbations across a variety of DNN architectures. Unlike previous iterations, such as the Targeted DeepFool by Gajjar et al. (2022), our method grants unparalleled control over the perturbation process, enabling precise manipulation of model responses. Preliminary outcomes reveal that certain models, including AlexNet and the advanced Vision Transformer, display commendable robustness to such manipulations. This discovery of varying levels of model robustness, as unveiled through our confidence level adjustments, could have far-reaching implications for the field of image recognition. Our code will be made public upon acceptance of the paper. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 測定統計の非古典性に対する厳密な不等式
Tight inequalities for nonclassicality of measurement statistics ( http://arxiv.org/abs/2310.14263v4 ) ライセンス: Link先を確認 | V. S. Kovtoniuk, E. V. Stolyarov, O. V. Kliushnichenko, A. A. Semenov, | (参考訳) 量子光学では、測光統計(例えば、測光統計)は、古典的な放射場の統計的混合で再生できない場合、非古典的とみなされる。
我々はそのような非古典主義に必要かつ十分な条件を定式化した。
この条件は、古典的な電磁放射に関連する確率の凸集合を強固に束縛する不等式によって与えられる。
これらの不等式の全集合と部分集合の分析形式は、リアルな測光測定と不均衡なホモダイン検出の重要なケースに対して得られる。
一例として、位相印加されたコヒーレント状態の光計数統計について考察する。
一般的な直観とは対照的に、ここで開発された分析は、これらの統計の異なる非古典的な性質を明らかにし、最小限の資源と実験的に相関させることができる。
In quantum optics, measurement statistics -- for example, photocounting statistics -- are considered nonclassical if they cannot be reproduced with statistical mixtures of classical radiation fields. We have formulated a necessary and sufficient condition for such nonclassicality. This condition is given by a set of inequalities that tightly bound the convex set of probabilities associated with classical electromagnetic radiation. Analytical forms for full sets and subsets of these inequalities are obtained for important cases of realistic photocounting measurements and unbalanced homodyne detection. As an example, we consider photocounting statistics of phase-squeezed coherent states. Contrary to a common intuition, the analysis developed here reveals distinct nonclassical properties of these statistics that can be experimentally corroborated with minimal resources. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# WhiteFox:大規模言語モデルを活用したWhite-Boxコンパイラファジィ
WhiteFox: White-Box Compiler Fuzzing Empowered by Large Language Models ( http://arxiv.org/abs/2310.15991v2 ) ライセンス: Link先を確認 | Chenyuan Yang, Yinlin Deng, Runyu Lu, Jiayi Yao, Jiawei Liu, Reyhaneh Jabbarvand, Lingming Zhang, | (参考訳) 誤コンパイルはプログラムの振る舞いを偽装し、重大な結果をもたらすため、コンパイラの正しさは不可欠である。
ファジングはコンパイラの欠陥を明らかにするために研究されている。
既存のアーティファクトは、内部のコンパイラ動作を十分に理解せずにテストを生成するブラックボックスとグレイボックスファジングに重点を置いている。
一方、シンボリック実行のような従来のホワイトボックス技術は、コンパイラの巨大なコードベースに計算的に適用できない。
最近の進歩は、コード生成/理解タスクにおいて、LLM(Large Language Models)が優れていることを示している。
それでも、LLMをコンパイラのソースコード情報で導くことは、コンパイラテストの欠如した研究である。
そこで本研究では,LLMを用いた最初のホワイトボックスコンパイラファザであるWhiteFoxを提案する。
マルチエージェントフレームワークを採用している: LLMベースの分析エージェントは、低レベル最適化ソースコードを調べ、最適化をトリガーできる高レベルテストプログラムの要求を生成する。
さらに、最適化トリガテストは、オンザフライでの生成を改善するフィードバックとして使用される。
最も人気のある3つのDLコンパイラ(PyTorchインダクタ、TensorFlow-XLA、TensorFlow Lite)に対する我々の評価によると、WhiteFoxは最先端のファジィよりも最大8倍高いパフォーマンスで、深い最適化を実行するための高品質なテストプログラムを生成することができる。
WhiteFoxはDLコンパイラの101のバグを発見した。
WhiteFoxはPyTorchチームによって承認され、開発ワークフローに組み込まれている。
DLコンパイラ以外にも、WhiteFoxは異なるドメインのコンパイラにも適用できる。
Compiler correctness is crucial, as miscompilation can falsify program behaviors, leading to serious consequences. Fuzzing has been studied to uncover compiler defects. However, compiler fuzzing remains challenging: Existing arts focus on black- and grey-box fuzzing, which generates tests without sufficient understanding of internal compiler behaviors. Meanwhile, traditional white-box techniques, like symbolic execution, are computationally inapplicable to the giant codebase of compilers. Recent advances demonstrate that Large Language Models (LLMs) excel in code generation/understanding tasks. Nonetheless, guiding LLMs with compiler source-code information remains a missing piece of research in compiler testing. To this end, we propose WhiteFox, the first white-box compiler fuzzer using LLMs with source-code information to test compiler optimization, with a spotlight on detecting deep logic bugs in the deep learning (DL) compilers. WhiteFox adopts a multi-agent framework: an LLM-based analysis agent examines the low-level optimization source code and produces requirements on the high-level test programs that can trigger the optimization; an LLM-based generation agent produces test programs based on the summarized requirements. Additionally, optimization-triggering tests are used as feedback to enhance the generation on the fly. Our evaluation on the three most popular DL compilers (i.e., PyTorch Inductor, TensorFlow-XLA, and TensorFlow Lite) shows WhiteFox can generate high-quality test programs to exercise deep optimizations, practicing up to 8X more than state-of-the-art fuzzers. WhiteFox has found 101 bugs for the DL compilers, with 92 confirmed as previously unknown and 70 fixed. WhiteFox has been acknowledged by the PyTorch team and is being incorporated into its development workflow. Beyond DL compilers, WhiteFox can also be adapted for compilers in different domains. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 教師なしデータ取得によるオブジェクト検出のためのオンラインソースフリードメイン適応の改善
Improving Online Source-free Domain Adaptation for Object Detection by Unsupervised Data Acquisition ( http://arxiv.org/abs/2310.19258v3 ) ライセンス: Link先を確認 | Xiangyu Shi, Yanyuan Qiao, Qi Wu, Lingqiao Liu, Feras Dayoub, | (参考訳) 自律走行車における効果的な物体検出は、多種多様な不慣れな環境での展開によって挑戦される。
オンラインソースフリードメイン適応(O-SFDA)は、ターゲットドメインからのラベルなしデータのストリームをオンライン形式でモデル適応する。
しかしながら、すべてのキャプチャされたフレームには、特に冗長データやクラス不均衡の問題の存在下で、適応に有用な情報が含まれているわけではない。
本稿では、教師なしデータ取得による適応オブジェクト検出のためのO-SFDAを強化する新しい手法を提案する。
本手法は,オンライントレーニングプロセスに組み込む上で,最も情報に富む未ラベルフレームを優先する。
実世界のデータセットに対する実証的な評価により,本手法は既存のO-SFDA技術よりも優れており,適応オブジェクト検出器の改善のための教師なしデータ取得の可能性を実証している。
Effective object detection in autonomous vehicles is challenged by deployment in diverse and unfamiliar environments. Online Source-Free Domain Adaptation (O-SFDA) offers model adaptation using a stream of unlabeled data from a target domain in an online manner. However, not all captured frames contain information beneficial for adaptation, especially in the presence of redundant data and class imbalance issues. This paper introduces a novel approach to enhance O-SFDA for adaptive object detection through unsupervised data acquisition. Our methodology prioritizes the most informative unlabeled frames for inclusion in the online training process. Empirical evaluation on a real-world dataset reveals that our method outperforms existing state-of-the-art O-SFDA techniques, demonstrating the viability of unsupervised data acquisition for improving the adaptive object detector. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# ニューラルネットワークの知識編集に関する調査研究
A Survey on Knowledge Editing of Neural Networks ( http://arxiv.org/abs/2310.19704v3 ) ライセンス: Link先を確認 | Vittorio Mazzia, Alessandro Pedrani, Andrea Caciolai, Kay Rottmann, Davide Bernardi, | (参考訳) ディープニューラルネットワークは、さまざまな分野や関連するタスクにおいて、人間のパフォーマンスをマッチングし、追い越して、アカデミックや産業で広まりつつある。
しかし、人間と同じように、最大の人工ニューラルネットワークでさえミスを犯し、世界が進むにつれて、一度正しい予測が無効になる可能性がある。
ミスや最新の情報を考慮したサンプルによるデータセットの強化は、実用アプリケーションでは一般的な回避策となっている。
しかし、破滅的な忘れ込みの有名な現象は、ニューラルネットワークパラメータの暗黙的に記憶された知識の正確な変化を達成する上で、しばしば望ましい行動を達成するために完全なモデルの再訓練を必要とする。
これは高価で信頼性がなく、大規模な自己教師型事前トレーニングの現在のトレンドと相容れないため、データ変更にニューラルネットワークモデルを適用するためのより効率的で効果的な方法を見つける必要がある。
このニーズに対処するために、知識編集は、事前学習されたタスクにおけるモデル行動に影響を与えることなく、信頼性、データ効率、高速な目標モデルの変更を可能にすることを目的とした、新しい研究分野として浮上している。
本調査では,最近の人工知能研究分野について概説する。
まず、ニューラルネットワークの編集の問題を紹介し、それを共通のフレームワークで形式化し、継続的学習のような悪名高い研究分野と区別する。
次に、これまでに提案された最も関連性の高い知識編集アプローチとデータセットをレビューし、正規化技術、メタラーニング、直接モデル編集、アーキテクチャ戦略の4つのファミリーにグループ化する。
最後に、今後の研究における他の研究分野との共通点と潜在的方向性について概説する。
Deep neural networks are becoming increasingly pervasive in academia and industry, matching and surpassing human performance on a wide variety of fields and related tasks. However, just as humans, even the largest artificial neural networks make mistakes, and once-correct predictions can become invalid as the world progresses in time. Augmenting datasets with samples that account for mistakes or up-to-date information has become a common workaround in practical applications. However, the well-known phenomenon of catastrophic forgetting poses a challenge in achieving precise changes in the implicitly memorized knowledge of neural network parameters, often requiring a full model re-training to achieve desired behaviors. That is expensive, unreliable, and incompatible with the current trend of large self-supervised pre-training, making it necessary to find more efficient and effective methods for adapting neural network models to changing data. To address this need, knowledge editing is emerging as a novel area of research that aims to enable reliable, data-efficient, and fast changes to a pre-trained target model, without affecting model behaviors on previously learned tasks. In this survey, we provide a brief review of this recent artificial intelligence field of research. We first introduce the problem of editing neural networks, formalize it in a common framework and differentiate it from more notorious branches of research such as continuous learning. Next, we provide a review of the most relevant knowledge editing approaches and datasets proposed so far, grouping works under four different families: regularization techniques, meta-learning, direct model editing, and architectural strategies. Finally, we outline some intersections with other fields of research and potential directions for future works. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# DeformGS: 変形可能なオブジェクト操作のための高変形性シーンにおけるシーンフロー
DeformGS: Scene Flow in Highly Deformable Scenes for Deformable Object Manipulation ( http://arxiv.org/abs/2312.00583v2 ) ライセンス: Link先を確認 | Bardienus P. Duisterhof, Zhao Mandi, Yunchao Yao, Jia-Wei Liu, Jenny Seidenschwarz, Mike Zheng Shou, Deva Ramanan, Shuran Song, Stan Birchfield, Bowen Wen, Jeffrey Ichnowski, | (参考訳) ロボットに布などの変形可能な物体の折り畳み、ドレープ、あるいは再配置を教えることで、さまざまな自動化アプリケーションをアンロックする。
剛体物体の操作には顕著な進歩があるが、変形可能な物体を操作することは、しばしば閉塞、無限次元状態空間、複雑な力学など、ユニークな課題を生んでいる。
オブジェクトのポーズ推定と追跡が、厳密な操作のためのロボットを支援するのと同じように、高度に変形可能なオブジェクトの密集した3Dトラッキング(シーンフロー)は、模倣学習やリアル2sim転送によるデジタルツインの作成といった既存のアプローチを支援しながら、ロボット工学の新たな応用を可能にする。
複数のカメラからダイナミックなシーンを同時撮影することで、高度に変形可能なシーンのシーンフローを復元するDeformGSを提案する。
DeformGSは、最先端で高速なノベルビュー合成のために多数のガウス人の特性を学習する手法であるガウススプラッティングの最近の進歩を基盤としている。
DeformGSは変形関数を学び、標準的性質を持つガウスの集合を世界空間に射影する。
変形関数は、ガウスの位置、回転、シャドウスカラーを推測するために、ニューラルボクセル符号化と多層パーセプトロン(MLP)を用いる。
運動量と等距離の保存に基づく物理に着想を得た正規化項を施行し、より小さな軌道誤差を伴う軌道を導いた。
また、既存の基礎モデルSAMとXMEMを利用してノイズマスクを作成し、ガウス毎のマスクを学習し、物理学に着想を得た正規化を改良する。
DeformGSは、シャドーとオクルージョンを備えた高度に変形可能なシーンで高品質な3Dトラッキングを実現する。
実験では、DeformGSは最先端と比較して平均55.8%の3Dトラッキングを改善している。
十分なテクスチャで、DeformGSは1.5 x 1.5 mの布の上で3.3mmの中央値追跡誤差を達成している。
ウェブサイト:https://deformgs.github.io
Teaching robots to fold, drape, or reposition deformable objects such as cloth will unlock a variety of automation applications. While remarkable progress has been made for rigid object manipulation, manipulating deformable objects poses unique challenges, including frequent occlusions, infinite-dimensional state spaces and complex dynamics. Just as object pose estimation and tracking have aided robots for rigid manipulation, dense 3D tracking (scene flow) of highly deformable objects will enable new applications in robotics while aiding existing approaches, such as imitation learning or creating digital twins with real2sim transfer. We propose DeformGS, an approach to recover scene flow in highly deformable scenes, using simultaneous video captures of a dynamic scene from multiple cameras. DeformGS builds on recent advances in Gaussian splatting, a method that learns the properties of a large number of Gaussians for state-of-the-art and fast novel-view synthesis. DeformGS learns a deformation function to project a set of Gaussians with canonical properties into world space. The deformation function uses a neural-voxel encoding and a multilayer perceptron (MLP) to infer Gaussian position, rotation, and a shadow scalar. We enforce physics-inspired regularization terms based on conservation of momentum and isometry, which leads to trajectories with smaller trajectory errors. We also leverage existing foundation models SAM and XMEM to produce noisy masks, and learn a per-Gaussian mask for better physics-inspired regularization. DeformGS achieves high-quality 3D tracking on highly deformable scenes with shadows and occlusions. In experiments, DeformGS improves 3D tracking by an average of 55.8% compared to the state-of-the-art. With sufficient texture, DeformGS achieves a median tracking error of 3.3 mm on a cloth of 1.5 x 1.5 m in area. Website: https://deformgs.github.io | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 感染封止における確率的接触追跡の有用性--スーパースプレッダと感染経路再構築の役割
Effectiveness of probabilistic contact tracing in epidemic containment: the role of super-spreaders and transmission path reconstruction ( http://arxiv.org/abs/2312.00910v2 ) ライセンス: Link先を確認 | A. P. Muntoni, F. Mazza, A. Braunstein, G. Catania, L. Dall'Asta, | (参考訳) 新型コロナウイルスのパンデミックは、初期段階の非薬学介入戦略の重要性を浮き彫りにしている。
マスクの普及と接触追跡戦略の体系的実装は、大規模な移動制限など、より伝統的なアプローチに対する潜在的に効果的で社会的に影響の少ない代替手段を提供する。
しかし,手動接触追跡は接触ネットワークへのアクセスにおいて強い制限に直面しており,露出通知や関連するテストの急激な増加により,スマートフォンベースのデジタル接触追跡プロトコルのスケーラビリティは急激な拡大期には実現不可能となる。
リスク評価のための確率的手法の統合により、新たな診断検査の割り当てをより効果的に導くことにより、デジタル接触追跡の大幅な改善が得られる。
本研究では,SARS-CoV-2拡散の3つの最先端モデルを用いて,接触追跡に基づく封じ込め対策に関連する診断・社会的コストを定量的に分析した。
その結果,確率論的手法により,低コストでより効率的な緩和が可能であることが示唆された。
第2に, 後方・多段追跡と超拡散イベントの捕捉において, 確率的接触追跡技術が顕著に有効であることを示す。
The recent COVID-19 pandemic underscores the significance of early-stage non-pharmacological intervention strategies. The widespread use of masks and the systematic implementation of contact tracing strategies provide a potentially equally effective and socially less impactful alternative to more conventional approaches, such as large-scale mobility restrictions. However, manual contact tracing faces strong limitations in accessing the network of contacts, and the scalability of currently implemented protocols for smartphone-based digital contact tracing becomes impractical during the rapid expansion phases of the outbreaks, due to the surge in exposure notifications and associated tests. A substantial improvement in digital contact tracing can be obtained through the integration of probabilistic techniques for risk assessment that can more effectively guide the allocation of new diagnostic tests. In this study, we first quantitatively analyze the diagnostic and social costs associated with these containment measures based on contact tracing, employing three state-of-the-art models of SARS-CoV-2 spreading. Our results suggest that probabilistic techniques allow for more effective mitigation at a lower cost. Secondly, our findings reveal a remarkable efficacy of probabilistic contact-tracing techniques in performing backward and multi-step tracing and capturing super-spreading events. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 改良された実空間並列化行列-積状態圧縮とユニタリ量子力学シミュレーションへの応用
Improved real-space parallelizable matrix-product state compression and its application to unitary quantum dynamics simulation ( http://arxiv.org/abs/2312.02667v2 ) ライセンス: Link先を確認 | Rong-Yang Sun, Tomonori Shirakawa, Seiji Yunoki, | (参考訳) テンソルネットワーク状態を用いた近接量子デバイスの効率的なシミュレーションを目指して,改良された実空間並列化行列積状態(MPS)圧縮法を提案する。
本手法は, 逐次的再正規化手順を必要とせず, 波動関数ノルムの安定性を維持しつつ, システムサイズに関わらず, 一定時間で全ての仮想結合を効率よく圧縮することができる。
さらに, 劣化した標準形を部分的に復元し, シミュレーションの精度を向上するパラレル・リゲージ技術を導入する。
さらに、この手法を用いてユニタリ量子力学をシミュレートし、改良された並列時間進化ブロック決定(pTEBD)アルゴリズムを導入する。
改良されたpTEBDアルゴリズムを用いて、1000量子ビットを超える1次元および2次元量子回路の広範なシミュレーションを行う。
得られた数値結果は、改良されたpTEBDアルゴリズムが現在の最先端MPSアルゴリズムと同じレベルのシミュレーション精度を達成できることを示したが、多項式的に短い時間で、現代のスーパーコンピュータ上でほぼ完璧なスケーリング性能を示す。
Towards the efficient simulation of near-term quantum devices using tensor network states, we introduce an improved real-space parallelizable matrix-product state (MPS) compression method. This method enables efficient compression of all virtual bonds in constant time, irrespective of the system size, with controlled accuracy, while it maintains the stability of the wavefunction norm without necessitating sequential renormalization procedures. In addition, we introduce a parallel regauging technique to partially restore the deviated canonical form, thereby improving the accuracy of the simulation in subsequent steps. We further apply this method to simulate unitary quantum dynamics and introduce an improved parallel time-evolving block-decimation (pTEBD) algorithm. We employ the improved pTEBD algorithm for extensive simulations of typical one- and two-dimensional quantum circuits, involving over 1000 qubits. The obtained numerical results unequivocally demonstrate that the improved pTEBD algorithm achieves the same level of simulation precision as the current state-of-the-art MPS algorithm but in polynomially shorter time, exhibiting nearly perfect weak scaling performance on a modern supercomputer. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 視覚言語的アライメントに基づく弱教師付き3次元視覚接地
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment ( http://arxiv.org/abs/2312.09625v3 ) ライセンス: Link先を確認 | Xiaoxu Xu, Yitian Yuan, Qiudan Zhang, Wenhui Wu, Zequn Jie, Lin Ma, Xu Wang, | (参考訳) 3Dポイントクラウド内のオブジェクトやリージョンをターゲットとする自然言語クエリの基盤化を学ぶことは、3Dシーン理解にとって極めて重要です。
それでも、既存の3Dビジュアルグラウンドディングアプローチでは、テキストクエリのためのかなりの数のバウンディングボックスアノテーションが必要である。
本稿では,視覚言語アライメントに基づく3次元視覚グラウンドの弱教師付きアプローチである3D-VLAを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスを整合させる上で、現在の大規模視覚言語モデル(VLM)の優れた能力を生かし、2D画像と3Dポイントクラウドの自然な対応性を生かし、トレーニング手順で細かいボックスアノテーションを必要とせずに、テキストと3Dポイントクラウドの対応を暗黙的に構築する。
推測段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
またReferIt3DおよびScanReferデータセットの広範な実験により、我々の3D-VLAは、完全に教師された手法よりも同等で優れた結果が得られることを示した。
Learning to ground natural language queries to target objects or regions in 3D point clouds is quite essential for 3D scene understanding. Nevertheless, existing 3D visual grounding approaches require a substantial number of bounding box annotations for text queries, which is time-consuming and labor-intensive to obtain. In this paper, we propose 3D-VLA, a weakly supervised approach for 3D visual grounding based on Visual Linguistic Alignment. Our 3D-VLA exploits the superior ability of current large-scale vision-language models (VLMs) on aligning the semantics between texts and 2D images, as well as the naturally existing correspondences between 2D images and 3D point clouds, and thus implicitly constructs correspondences between texts and 3D point clouds with no need for fine-grained box annotations in the training procedure. During the inference stage, the learned text-3D correspondence will help us ground the text queries to the 3D target objects even without 2D images. To the best of our knowledge, this is the first work to investigate 3D visual grounding in a weakly supervised manner by involving large scale vision-language models, and extensive experiments on ReferIt3D and ScanRefer datasets demonstrate that our 3D-VLA achieves comparable and even superior results over the fully supervised methods. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 時間データを用いた量子機械学習におけるコヒーレンス時間バリアの克服
Overcoming the Coherence Time Barrier in Quantum Machine Learning on Temporal Data ( http://arxiv.org/abs/2312.16165v2 ) ライセンス: Link先を確認 | Fangjun Hu, Saeed A. Khan, Nicholas T. Bronn, Gerasimos Angelatos, Graham E. Rowlands, Guilhem J. Ribeill, Hakan E. Türeci, | (参考訳) 今日知られている多くの量子アルゴリズムの実践的実装は、実行中の量子ハードウェアと量子サンプリングノイズのコヒーレンス時間によって制限されている。
ここでは、量子ビットに基づく量子システムのための機械学習アルゴリズム NISQRC を提案する。
NISQRCは、Volterra Series分析によって確認された量子システムにおいて、適切な長さの持続時間メモリを維持しながら、中間回路の測定と決定論的リセット操作を利用して回路実行を削減する。
これにより、NISQRCは有限コヒーレンスによって課せられる制限を克服できるだけでなく、監視された回路やサンプリングノイズといった、まだ実現されていない仮説的フォールトトレラント量子コンピュータにおいても持続する問題も克服できる。
提案手法の有効性を検証するため, 歪曲するチャネルに属するテスト信号のシンボルを復元するチャネル等化タスクについて検討する。
7量子ビット量子プロセッサのシミュレーションと実験により、NISQRCはコヒーレンス時間によって制限されるのではなく、任意に長いテスト信号を復元できることを示した。
Practical implementation of many quantum algorithms known today is limited by the coherence time of the executing quantum hardware and quantum sampling noise. Here we present a machine learning algorithm, NISQRC, for qubit-based quantum systems that enables inference on temporal data over durations unconstrained by decoherence. NISQRC leverages mid-circuit measurements and deterministic reset operations to reduce circuit executions, while still maintaining an appropriate length persistent temporal memory in quantum system, confirmed through the proposed Volterra Series analysis. This enables NISQRC to overcome not only limitations imposed by finite coherence, but also information scrambling in monitored circuits and sampling noise, problems that persist even in hypothetical fault-tolerant quantum computers that have yet to be realized. To validate our approach, we consider the channel equalization task to recover test signal symbols that are subject to a distorting channel. Through simulations and experiments on a 7-qubit quantum processor we demonstrate that NISQRC can recover arbitrarily long test signals, not limited by coherence time. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 局所モデルを用いた不変因果予測
Invariant Causal Prediction with Local Models ( http://arxiv.org/abs/2401.05218v2 ) ライセンス: Link先を確認 | Alexander Mey, Rui Manuel Castro, | (参考訳) 観測データから対象変数の因果親を特定するタスクについて検討する。
我々の主な前提は、候補変数は、特定の仮定の下で、観察されたシステムに対する介入と見なされる様々な環境で観察されるということである。
対象と候補の線形関係を仮定し,各環境において因果構造が環境間で不変であるという制約を課す。
提案した設定の中では、因果親の識別可能性に関する十分な条件を提供し、最小統計量と最大統計量の比率を用いた親識別の仮説テストに基づいて、L-ICP ($\textbf{L}$ocalized $\textbf{I}$nvariant $\textbf{Ca}$usal $\textbf{P}$rediction)と呼ばれる実用的な方法を導入する。
次に、L-ICPの統計的パワーがサンプルサイズで指数関数的に速く収束することを示し、最終的にL-ICPの挙動をより一般的な設定で実験的に解析する。
We consider the task of identifying the causal parents of a target variable among a set of candidates from observational data. Our main assumption is that the candidate variables are observed in different environments which may, under certain assumptions, be regarded as interventions on the observed system. We assume a linear relationship between target and candidates, which can be different in each environment with the only restriction that the causal structure is invariant across environments. Within our proposed setting we provide sufficient conditions for identifiability of the causal parents and introduce a practical method called L-ICP ($\textbf{L}$ocalized $\textbf{I}$nvariant $\textbf{Ca}$usal $\textbf{P}$rediction), which is based on a hypothesis test for parent identification using a ratio of minimum and maximum statistics. We then show in a simplified setting that the statistical power of L-ICP converges exponentially fast in the sample size, and finally we analyze the behavior of L-ICP experimentally in more general settings. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 効率的な映像編集のためのオブジェクト中心拡散
Object-Centric Diffusion for Efficient Video Editing ( http://arxiv.org/abs/2401.05735v3 ) ライセンス: Link先を確認 | Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian, | (参考訳) 拡散ベースのビデオ編集は印象的な品質に達しており、テキスト編集のプロンプトに従って、グローバルなスタイル、ローカルな構造、ビデオ入力の属性を変換することができる。
しかし、そのような解は通常、拡散反転または/またはクロスフレームの注意の形で、時間的に一貫性のあるフレームを生成するために重いメモリと計算コストを発生させる。
本稿では、このような非効率性の分析を行い、品質を維持しながら大幅なスピードアップを可能にする、単純かつ効果的な修正を提案する。
さらに,オブジェクト中心拡散(Object-Centric Diffusion, Object-Centric Diffusion)を導入し,生成アーティファクトの修正と,より多くの計算を前景の編集領域に割り当てることでレイテンシの低減を実現した。
これを2つの新しい提案によって達成する。
一 対象中心サンプリング、健常地域又は背景地域に費やした拡散ステップを分離し、前者に多くを費やすこと。
二 重要でない背景領域に冗長なトークンを融合させることにより、クロスフレーム注意のコストを低減させるオブジェクト中心のトークンマージ。
どちらの手法も、リトレーニングなしでビデオ編集モデルに容易に適用でき、メモリと計算コストを大幅に削減することができる。
Inversion-based and control-signal-based editing pipelines, and show a latency reduction to the same synthesis quality。
プロジェクトページ:qualcomm-ai-research.github.io/object-centric-diffusion。
Diffusion-based video editing have reached impressive quality and can transform either the global style, local structure, and attributes of given video inputs, following textual edit prompts. However, such solutions typically incur heavy memory and computational costs to generate temporally-coherent frames, either in the form of diffusion inversion and/or cross-frame attention. In this paper, we conduct an analysis of such inefficiencies, and suggest simple yet effective modifications that allow significant speed-ups whilst maintaining quality. Moreover, we introduce Object-Centric Diffusion, to fix generation artifacts and further reduce latency by allocating more computations towards foreground edited regions, arguably more important for perceptual quality. We achieve this by two novel proposals: i) Object-Centric Sampling, decoupling the diffusion steps spent on salient or background regions and spending most on the former, and ii) Object-Centric Token Merging, which reduces cost of cross-frame attention by fusing redundant tokens in unimportant background regions. Both techniques are readily applicable to a given video editing model without retraining, and can drastically reduce its memory and computational cost. We evaluate our proposals on inversion-based and control-signal-based editing pipelines, and show a latency reduction up to 10x for a comparable synthesis quality. Project page: qualcomm-ai-research.github.io/object-centric-diffusion. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# RandOhm:ランダム化回路構成を用いたインピーダンスサイドチャネル攻撃の軽減
RandOhm: Mitigating Impedance Side-channel Attacks using Randomized Circuit Configurations ( http://arxiv.org/abs/2401.08925v3 ) ライセンス: Link先を確認 | Saleh Khalaj Monfared, Domenic Forte, Shahin Tajik, | (参考訳) 物理的サイドチャネル攻撃は集積回路のセキュリティを損なう可能性がある。
ほとんどの物理的サイドチャネル攻撃(例えば、電力や電磁)は、通常、現在の消費の変化や、マスキングのようなアルゴリズムによる対策がそれらを効果的に軽減できる電圧変動として、チップの動的挙動を利用する。
しかし、最近示されたように、これらの緩和技術はインピーダンス解析のような後方散乱したサイドチャネル攻撃に対して完全には効果がない。
インピーダンス攻撃の場合、敵はチップ電源ネットワーク(PDN)のデータ依存インピーダンス変動を利用して秘密情報を抽出する。
本研究では、メインストリームFPGAの部分再構成(PR)機能に基づいて移動目標防御(MTD)戦略を利用するRandOhmを導入する。
PDNインピーダンスによる情報漏洩は、回路の秘密に敏感な部分の実行時再構成によって大幅に低減できることを示す。
これにより、回路の配置とルーティングを常にランダムにすることで、インピーダンス値からデータ依存の計算を非相関化することができる。
さらに、既存のPRベースの対策とは対照的に、RandOhmはプログラマブルSoCにオープンソースのビットストリーム操作ツールをデプロイし、ランダム化を高速化し、リアルタイム保護を提供する。
本研究では,28nmFPGA上で実現されたAES暗号に対してRandOhmを適用した。
我々は,非目立たずかつプロファイル化されたインピーダンス解析攻撃を行うことで,我々のアプローチのレジリエンスを分析し,遅延や性能の観点から緩和のオーバーヘッドを調査する。
Physical side-channel attacks can compromise the security of integrated circuits. Most physical side-channel attacks (e.g., power or electromagnetic) exploit the dynamic behavior of a chip, typically manifesting as changes in current consumption or voltage fluctuations where algorithmic countermeasures, such as masking, can effectively mitigate them. However, as demonstrated recently, these mitigation techniques are not entirely effective against backscattered side-channel attacks such as impedance analysis. In the case of an impedance attack, an adversary exploits the data-dependent impedance variations of the chip power delivery network (PDN) to extract secret information. In this work, we introduce RandOhm, which exploits a moving target defense (MTD) strategy based on the partial reconfiguration (PR) feature of mainstream FPGAs and programmable SoCs to defend against impedance side-channel attacks. We demonstrate that the information leakage through the PDN impedance could be significantly reduced via runtime reconfiguration of the secret-sensitive parts of the circuitry. Hence, by constantly randomizing the placement and routing of the circuit, one can decorrelate the data-dependent computation from the impedance value. Moreover, in contrast to existing PR-based countermeasures, RandOhm deploys open-source bitstream manipulation tools on programmable SoCs to speed up the randomization and provide real-time protection. To validate our claims, we apply RandOhm to AES ciphers realized on 28-nm FPGAs. We analyze the resiliency of our approach by performing non-profiled and profiled impedance analysis attacks and investigate the overhead of our mitigation in terms of delay and performance. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 実用的なデータ駆動ツールによるアグリゲータの強化: 要求応答に対するアグリゲータと非アグリゲータの柔軟性
Empowering Aggregators with Practical Data-Driven Tools: Harnessing Aggregated and Disaggregated Flexibility for Demand Response ( http://arxiv.org/abs/2401.10726v3 ) ライセンス: Link先を確認 | Costas Mylonas, Donata Boric, Leila Luttenberger Maric, Alexandros Tsitsanis, Eleftheria Petrianou, Magda Foti, | (参考訳) 本研究では、再生可能エネルギー源(RES)が提示する不確実性を考慮したエネルギーシステムのレジリエンスの強化に焦点をあて、需要応答(DR)プログラムを通じて、アグリゲータとビルの利用者との相互作用を考察する。
まず、DFT(Disdisrete Fourier Transformation)とクラスタリング技術を用いて、限られたデータを持つ環境において、集約された柔軟性の提供戦略を最適化する手法を導入する。
第2に、DRイベント中の暖房換気・空調システム(HVAC)の非凝集フレキシビリティ・プロビジョニングを評価し、正確なデバイスレベルの分析に機械学習と最適化技術を用いる。
第1のアプローチは、アグリゲーターが建物全体の消費のために1つのスマートメーターの環境において柔軟性を提供するための非侵襲的な経路を提供し、第2のアプローチは、乗員の熱快適プロファイルの構築を慎重に検討することで、HVACシステムへの専用測定装置の柔軟性を最大化する。
本論文は,データ駆動技術の適用と,産業用・住宅用両方の事例研究を通じて,アグリゲーターにとって,バランスとフレキシビリティ市場における重要な機会を明らかにするとともに,アグリゲーターのエンド・ツー・エンドの実践的ツールの開発と実証に成功している。
This study explores the interaction between aggregators and building occupants in activating flexibility through Demand Response (DR) programs, with a focus on reinforcing the resilience of the energy system considering the uncertainties presented by Renewable Energy Sources (RES). Firstly, it introduces a methodology of optimizing aggregated flexibility provision strategies in environments with limited data, utilizing Discrete Fourier Transformation (DFT) and clustering techniques to identify building occupants' activity patterns. Secondly, the study assesses the disaggregated flexibility provision of Heating Ventilation and Air Conditioning (HVAC) systems during DR events, employing machine learning and optimization techniques for precise, device-level analysis. The first approach offers a non-intrusive pathway for aggregators to provide flexibility services in environments of a single smart meter for the whole building's consumption, while the second approach maximizes the amount of flexibility in the case of dedicated metering devices to the HVAC systems by carefully considering building occupants' thermal comfort profiles. Through the application of data-driven techniques and encompassing case studies from both industrial and residential buildings, this paper not only unveils pivotal opportunities for aggregators in the balancing and emerging flexibility markets but also successfully develops and demonstrates end-to-end practical tools for aggregators. | 翻訳日:2024-09-02 20:31:28 公開日:2024-08-30 |
# 点雲表現と拡散モデルによる結晶構造の創成
Generative Design of Crystal Structures by Point Cloud Representations and Diffusion Model ( http://arxiv.org/abs/2401.13192v3 ) ライセンス: Link先を確認 | Zhelin Li, Rami Mrad, Runxian Jiao, Guan Huang, Jun Shan, Shibing Chu, Yuanping Chen, | (参考訳) エネルギー的に安定な結晶構造を効果的に生成することは、主に結晶格子内の原子の配置によって、材料設計において長年の課題であった。
安定な物質の発見を容易にするために, 点雲表現を利用して複雑な構造情報を符号化し, 合成可能な材料を生成するための枠組みを提案する。
このフレームワークの中心には、基礎となる柱として拡散モデルが導入されている。
提案手法の有効性を評価するため,トレーニングデータセットから入力構造を再構築し,高い復元性能を厳格に検証した。
さらに, 全く新しい物質を生成することにより, ポイントクラウド型結晶拡散(PCCD)の深い可能性を示し, 合成性を強調した。
本研究は, 従来の代替や経験に基づく発見ではなく, 創成設計の最先端の進路を通した材料設計・合成の進歩への重要な貢献である。
Efficiently generating energetically stable crystal structures has long been a challenge in material design, primarily due to the immense arrangement of atoms in a crystal lattice. To facilitate the discovery of stable material, we present a framework for the generation of synthesizable materials, leveraging a point cloud representation to encode intricate structural information. At the heart of this framework lies the introduction of a diffusion model as its foundational pillar. To gauge the efficacy of our approach, we employ it to reconstruct input structures from our training datasets, rigorously validating its high reconstruction performance. Furthermore, we demonstrate the profound potential of Point Cloud-Based Crystal Diffusion (PCCD) by generating entirely new materials, emphasizing their synthesizability. Our research stands as a noteworthy contribution to the advancement of materials design and synthesis through the cutting-edge avenue of generative design instead of the conventional substitution or experience-based discovery. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# 量子回路応用のための低損失ハイブリッドNb/Au超伝導共振器
Low loss hybrid Nb/Au superconducting resonators for quantum circuit applications ( http://arxiv.org/abs/2401.14764v3 ) ライセンス: Link先を確認 | Marina C. de Ory, Victor Rollano, David Rodriguez, Maria T. Magaz, Daniel Granados, Alicia Gomez, | (参考訳) 超伝導共振器は、量子コンピューティングや高性能検出器などの今後の量子技術開発において重要な役割を果たしている。
しかし、ノイズと感度に関する主な制限の1つは、デバイス内の酸化物層に存在する2レベルシステムとの相互作用である。
この問題の緩和に焦点をあて,ニオブ回路と10nmの金カッピング層を組み合わせた超伝導デバイスについて検討した。
以上の結果から,Au層の追加は2レベルのシステム欠陥の密度を低減し,高い品質の要因を保ちながら,幅広い温度と駆動能力について検討した。
また,非線形応答の増加も観察された。
この結果から,Nb/Au積層素子共振器が超伝導量子技術の進歩に有効である可能性が示唆された。
中でも金の存在は、アルキルチオール基を固定して自己集合単分子膜を形成することを可能にし、ハイブリッド量子プロセッサの開発のための分子スピン量子ビットとの統合を改善した。
Superconducting resonators play a crucial role in developing forthcoming quantum technologies such as quantum computing or high performance detectors. Yet, one of their main limitations regarding to noise and sensitivity is the interaction with two-level systems present in oxide layers in the device. Focused on mitigating this problem, we study a superconducting device combining a niobium circuit with a 10 nm gold capping layer. Our investigation covers a wide range of temperatures and driving powers, revealing that adding the Au layer reduces the density of two-level system defects while maintaining a very high quality factor. Moreover, an increase in the non-linearity response is also observed. Our findings suggest the potential of Nb/Au lumped element resonators as versatile and promising tools for advancing superconducting quantum technologies. Among others, the presence of gold allows anchoring alkyl thiol groups to form self-assembled monolayers, improving the integration with molecular spin qubits for the development of hybrid quantum processors. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# 脳波を用いた感情認識におけるグラフニューラルネットワーク
Graph Neural Networks in EEG-based Emotion Recognition: A Survey ( http://arxiv.org/abs/2402.01138v3 ) ライセンス: Link先を確認 | Chenyu Liu, Xinliang Zhou, Yihao Wu, Ruizhi Yang, Zhongruo Wang, Liming Zhai, Ziyu Jia, Yang Liu, | (参考訳) 他のモダリティと比較すると、脳波に基づく感情認識は人間の脳の感情パターンに直感的に反応し、脳とコンピュータのインターフェイスの分野で最も関係のあるタスクの1つになっている。
脳領域内の依存関係は感情と密接に関連しているため、脳波に基づく感情認識のためのグラフニューラルネットワーク(GNN)を開発することが大きなトレンドである。
しかし、感情脳波の脳領域依存性は、他の時系列フィールドのものとGNNを区別する生理的基盤を持つ。
さらに、脳波に基づく感情認識において、GNNを構築するための包括的なレビューやガイダンスは存在しない。
本調査では,グラフ構築の統一的枠組みの下での既存手法の共通点と相違点を明らかにする。
脳波を用いた感情認識におけるGNN構築のための明確なガイダンスを提供するために,フレームワークの3段階から手法を分析し,分類する。
さらに,時間的全連結グラフやグラフ凝縮など,オープンな課題や今後の方向性についても論じる。
Compared to other modalities, EEG-based emotion recognition can intuitively respond to the emotional patterns in the human brain and, therefore, has become one of the most concerning tasks in the brain-computer interfaces field. Since dependencies within brain regions are closely related to emotion, a significant trend is to develop Graph Neural Networks (GNNs) for EEG-based emotion recognition. However, brain region dependencies in emotional EEG have physiological bases that distinguish GNNs in this field from those in other time series fields. Besides, there is neither a comprehensive review nor guidance for constructing GNNs in EEG-based emotion recognition. In the survey, our categorization reveals the commonalities and differences of existing approaches under a unified framework of graph construction. We analyze and categorize methods from three stages in the framework to provide clear guidance on constructing GNNs in EEG-based emotion recognition. In addition, we discuss several open challenges and future directions, such as Temporal full-connected graph and Graph condensation. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# 言語モデルは重要な文法的構成に関する人間の判断と一致している
Language models align with human judgments on key grammatical constructions ( http://arxiv.org/abs/2402.01676v2 ) ライセンス: Link先を確認 | Jennifer Hu, Kyle Mahowald, Gary Lupyan, Anna Ivanova, Roger Levy, | (参考訳) 大規模言語モデル(LLM)は、人間のような言語的一般化をもたらすか?
Dentella et al (2023) ("DGL") は、いくつかの LLM に対し、LLM が "yes-response bias" と "failure to distinguish grammatical from ungrammatical sentences" を示して、80の英文の文法的判断を引き出すよう促した("Is the following sentence grammatically correct in English?")。
我々は、十分に確立されたプラクティスを用いてLLMのパフォーマンスを再評価し、実際にDGLのデータが、LLMが人間の行動をどのように捉えているかを示す証拠となることを発見した。
モデルは全体として高い精度を達成するだけでなく、人間の言語学的判断のきめ細かい変化も捉えている。
Do large language models (LLMs) make human-like linguistic generalizations? Dentella et al. (2023) ("DGL") prompt several LLMs ("Is the following sentence grammatically correct in English?") to elicit grammaticality judgments of 80 English sentences, concluding that LLMs demonstrate a "yes-response bias" and a "failure to distinguish grammatical from ungrammatical sentences". We re-evaluate LLM performance using well-established practices and find that DGL's data in fact provide evidence for just how well LLMs capture human behaviors. Models not only achieve high accuracy overall, but also capture fine-grained variation in human linguistic judgments. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# 適応的勾配法で正方根を除去できるか? : 2次視点
Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective ( http://arxiv.org/abs/2402.03496v9 ) ライセンス: Link先を確認 | Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani, | (参考訳) Adam(W)のような適応的な勾配最適化アルゴリズムは、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。
彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。
これらの方法はしばしば近似二階法として動機付けされるが、平方根は基本的な違いを表す。
本研究では,適応手法の動作が根の除去時にどのように変化するか,すなわち2階のモチベーションを強化するかを検討する。
意外なことに、これらの平方根自由適応法は、変換器の性能を維持しながら、畳み込みアーキテクチャ上のSGDへの一般化ギャップを閉じている。
2階の観点は、プリコンディショナー不変性の概念を通じて任意の曲率近似を組み込むことができる非対角法の開発にも実用的な利点がある。
シャンプーのような根ベースの手法とは対照的に、根のない手法は数値的に不安定な行列の根分解や逆変換を必要としないため、半精度でうまく高速に機能する。
本研究は,適応的手法の開発に関する新たな知見を提供し,その成功における適応性の役割について重要な疑問を提起するものである。
(実験コード:https://github.com/yorkerlin/remove-the-square-root Optimizationr code:https://github.com/f-dangel/sirfshampoo)
Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e., strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for developing non-diagonal methods that can incorporate arbitrary curvature approximations through the concept of preconditioner invariance. In contrast to root-based methods like Shampoo, root-free counterparts work well and fast with half-precision since they do not require numerically unstable matrix root decompositions and inversions. Overall, our findings provide new insights into the development of adaptive methods and raise important questions regarding the overlooked role of adaptivity in their success. (experiment code: https://github.com/yorkerlin/remove-the-square-root optimizer code: https://github.com/f-dangel/sirfshampoo) | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# 大規模言語モデルにおけるグループと対称性の原理の探索
Exploring Group and Symmetry Principles in Large Language Models ( http://arxiv.org/abs/2402.06120v2 ) ライセンス: Link先を確認 | Shima Imani, Hamid Palangi, | (参考訳) 大規模言語モデル(LLM)は、幅広いアプリケーションで素晴らしいパフォーマンスを示しているが、その推論能力を評価することは依然として大きな課題である。
本稿では,物理学や数学などの分野において重要な役割を担った群と対称性の原理に基づく枠組みを導入し,その能力を評価する別の方法を提案する。
提案するフレームワークは一般に,これらの特性を利用する利点を示すために, 4つの群特性(閉包, 同一性, 逆転, 連想性)に対する算術的推論とそれらのモデルの性能について検討する。
以上の結果から,LSMは様々な試験体制におけるグループ特性の維持に苦慮していることが明らかとなった。
閉鎖試験では,特定の出力に対するバイアスと,特定のシーケンス長の後に100%から0%の急激な性能低下が観察された。
それらはまた、文脈に無関係な情報を追加することを表すアイデンティティテストでは不十分であり、逆テストを受けると感度を示し、否定に関してモデルの堅牢性を調べる。
さらに,より小さなステップに分割することで,これまでに実施したアソシエーションテストにおいてLCMが有効であることを示す。
これらのテストをサポートするために、私たちは、リリース予定の合成データセットを開発しました。
Large Language Models (LLMs) have demonstrated impressive performance across a wide range of applications; however, assessing their reasoning capabilities remains a significant challenge. In this paper, we introduce a framework grounded in group and symmetry principles, which have played a crucial role in fields such as physics and mathematics, and offer another way to evaluate their capabilities. While the proposed framework is general, to showcase the benefits of employing these properties, we focus on arithmetic reasoning and investigate the performance of these models on four group properties: closure, identity, inverse, and associativity. Our findings reveal that LLMs studied in this work struggle to preserve group properties across different test regimes. In the closure test, we observe biases towards specific outputs and an abrupt degradation in their performance from 100% to 0% after a specific sequence length. They also perform poorly in the identity test, which represents adding irrelevant information in the context, and show sensitivity when subjected to inverse test, which examines the robustness of the model with respect to negation. In addition, we demonstrate that breaking down problems into smaller steps helps LLMs in the associativity test that we have conducted. To support these tests we have developed a synthetic dataset which will be released. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# 高エネルギー衝突体におけるトラック再構成のための量子アニール型アルゴリズム
Quantum-Annealing-Inspired Algorithms for Track Reconstruction at High-Energy Colliders ( http://arxiv.org/abs/2402.14718v2 ) ライセンス: Link先を確認 | Hideki Okawa, Qing-Guo Zeng, Xian-Zhe Tao, Man-Hong Yung, | (参考訳) 荷電粒子再構成や軌道再構成は、高エネルギーコライダー物理学におけるパターン認識の最も重要な要素の1つである。
計算資源の膨大な消費は知られており、特に粒子の乗算率が高ければ、高輝度大型ハドロン衝突型加速器やスーパープロトン-プロトン衝突型加速器のような将来の衝突機の条件となる。
トラック再構成は2次非拘束バイナリ最適化(QUBO)問題として定式化することができ、様々な量子アルゴリズムが量子シミュレータとハードウェアの両方で研究・評価されている。
シミュレーション分岐アルゴリズム(simulated bifurcation algorithm)は、量子アニーリングにインスパイアされたアルゴリズムの集合であり、他のイジングマシンと真剣な競合関係にあることが知られている。
本研究では,粒子追跡問題の解法としてシミュレートされた分岐アルゴリズムを用いることができることを示す。
シミュレーションされた分岐アルゴリズムは古典的コンピュータ上で動作し、グラフィカル処理ユニットの並列処理や使用に適しており、高速で大量のデータを処理できる。
これらのアルゴリズムは、再現効率と純度をシミュレートした焼鈍法と比較し、時折改善するが、実行時間を最大4桁まで短縮することができる。
これらの結果から,QUBOモデルと量子アニーリングにインスパイアされたアルゴリズムは,現在および将来の粒子追跡問題に有用であることが示唆された。
Charged particle reconstruction or track reconstruction is one of the most crucial components of pattern recognition in high-energy collider physics. It is known to entail enormous consumption of computing resources, especially when the particle multiplicity is high, which will be the conditions at future colliders, such as the High Luminosity Large Hadron Collider and Super Proton-Proton Collider. Track reconstruction can be formulated as a quadratic unconstrained binary optimization (QUBO) problem, for which various quantum algorithms have been investigated and evaluated with both a quantum simulator and hardware. Simulated bifurcation algorithms are a set of quantum-annealing-inspired algorithms, known to be serious competitors to other Ising machines. In this study, we show that simulated bifurcation algorithms can be employed to solve the particle tracking problem. The simulated bifurcation algorithms run on classical computers and are suitable for parallel processing and usage of graphical processing units, and they can handle significantly large amounts of data at high speed. These algorithms exhibit reconstruction efficiency and purity comparable to or sometimes improved over those of simulated annealing, but the running time can be reduced by as much as four orders of magnitude. These results suggest that QUBO models together with quantum-annealing-inspired algorithms are valuable for current and future particle tracking problems. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# トランスフォーマーは表現力があるが、その表現力は回帰に十分か?
Transformers are Expressive, But Are They Expressive Enough for Regression? ( http://arxiv.org/abs/2402.15478v3 ) ライセンス: Link先を確認 | Swaroop Nath, Harshad Khadilkar, Pushpak Bhattacharyya, | (参考訳) トランスフォーマーは自然言語処理において重要な役割を担い、機械翻訳や要約といったアプリケーションで顕著な成功を収めている。
広く採用されていることから、トランスフォーマーの表現性を分析しようと試みている作品もいくつかある。
ニューラルネットワークの表現性は、近似可能な関数のクラスである。
ニューラルネットワークは、普遍関数近似器として機能できる場合、完全に表現可能である。
トランスフォーマーでも同様を解析しようと試みる。
既存の主張とは対照的に,我々はトランスフォーマーがスムーズな関数を確実に近似するのに苦労していることを明らかにした。
中心的な疑問は、「変換器は本当に普遍関数近似器か?」である。この問題に対処するため、我々は、理論的な洞察を提供し、実験を通じて証拠を支持する、徹底的な調査を行う。
理論的には、トランスフォーマーエンコーダは滑らかな関数を近似できない。
実験により、我々はこの理論を補完し、フルトランスフォーマーアーキテクチャが滑らかな関数を近似できないことを示す。
これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。
コードリンク:https://github.com/swaroop-nath/transformer- expressivity。
Transformers have become pivotal in Natural Language Processing, demonstrating remarkable success in applications like Machine Translation and Summarization. Given their widespread adoption, several works have attempted to analyze the expressivity of Transformers. Expressivity of a neural network is the class of functions it can approximate. A neural network is fully expressive if it can act as a universal function approximator. We attempt to analyze the same for Transformers. Contrary to existing claims, our findings reveal that Transformers struggle to reliably approximate smooth functions, relying on piecewise constant approximations with sizable intervals. The central question emerges as: ''Are Transformers truly Universal Function Approximators?'' To address this, we conduct a thorough investigation, providing theoretical insights and supporting evidence through experiments. Theoretically, we prove that Transformer Encoders cannot approximate smooth functions. Experimentally, we complement our theory and show that the full Transformer architecture cannot approximate smooth functions. By shedding light on these challenges, we advocate a refined understanding of Transformers' capabilities. Code Link: https://github.com/swaroop-nath/transformer-expressivity. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# パーシステンス図の量子距離近似
Quantum Distance Approximation for Persistence Diagrams ( http://arxiv.org/abs/2402.17295v2 ) ライセンス: Link先を確認 | Bernardo Ameneyro, Rebekah Herrman, George Siopsis, Vasileios Maroulas, | (参考訳) トポロジカルデータ解析法は, 多種多様な分野の分類やクラスタリングに有用であり, 潜在的に複雑かつ高次元なデータセットの形状に関する重要な情報を要約した2次元の永続化図を提供することができる。
永続化ダイアグラムの空間には、統計構造を持ち、これらの要約を機械学習アルゴリズムに使用できるワッサーシュタイン距離など、さまざまなメトリクスが与えられる。
しかしながら、2つの永続化ダイアグラム間の距離を計算するには、2つのダイアグラムのポイントにマッチする最適な方法を見つける必要がある。
本研究では, 永続図間の距離を推定する量子コンピュータの可能性を探り, 特に, ワッサーシュタイン距離と$d^{c}_{p}$距離の変分量子アルゴリズムを提案する。
我々の実装は、最適化問題の制約を符号化するために制御節に依存するQuantum Approximate Optimization Algorithmの重み付けバージョンである。
Topological Data Analysis methods can be useful for classification and clustering tasks in many different fields as they can provide two dimensional persistence diagrams that summarize important information about the shape of potentially complex and high dimensional data sets. The space of persistence diagrams can be endowed with various metrics such as the Wasserstein distance which admit a statistical structure and allow to use these summaries for machine learning algorithms. However, computing the distance between two persistence diagrams involves finding an optimal way to match the points of the two diagrams and may not always be an easy task for classical computers. In this work we explore the potential of quantum computers to estimate the distance between persistence diagrams, in particular we propose variational quantum algorithms for the Wasserstein distance as well as the $d^{c}_{p}$ distance. Our implementation is a weighted version of the Quantum Approximate Optimization Algorithm that relies on control clauses to encode the constraints of the optimization problem. | 翻訳日:2024-09-02 20:21:37 公開日:2024-08-30 |
# サイドチャネルトレースにおける暗号化操作の局所化のためのディープラーニング手法
A Deep-Learning Technique to Locate Cryptographic Operations in Side-Channel Traces ( http://arxiv.org/abs/2402.19037v2 ) ライセンス: Link先を確認 | Giuseppe Chiari, Davide Galli, Francesco Lattari, Matteo Matteucci, Davide Zoni, | (参考訳) サイドチャネル攻撃は、部分的に計算されたデータと測定されたサイドチャネル信号とを関連付けることで、暗号プリミティブの実行から秘密情報を抽出することができる。
しかし、サイドチャネル攻撃を成功させるためには、攻撃者は実行しなければならない。
一 対象暗号プリミティブがサイドチャネルトレース内で実行され、次に実行された時刻を即時特定する難題
二 その時刻における測定データの時刻調整を即時に行うこと。
本稿では,対象の暗号処理をサイドチャネルトレースで実行した時刻を検出できる新しい深層学習手法を提案する。
最先端の解とは対照的に,提案手法はランダム遅延挿入法を用いて得られた微量変形の存在下でも機能する。
我々は、RISC-V CPUを搭載したFPGA実装のシステムオンチップ上で実行される、保護されていない、保護されていない様々な暗号化プリミティブに対する攻撃で、提案手法を検証した。
Side-channel attacks allow extracting secret information from the execution of cryptographic primitives by correlating the partially known computed data and the measured side-channel signal. However, to set up a successful side-channel attack, the attacker has to perform i) the challenging task of locating the time instant in which the target cryptographic primitive is executed inside a side-channel trace and then ii)the time-alignment of the measured data on that time instant. This paper presents a novel deep-learning technique to locate the time instant in which the target computed cryptographic operations are executed in the side-channel trace. In contrast to state-of-the-art solutions, the proposed methodology works even in the presence of trace deformations obtained through random delay insertion techniques. We validated our proposal through a successful attack against a variety of unprotected and protected cryptographic primitives that have been executed on an FPGA-implemented system-on-chip featuring a RISC-V CPU. | 翻訳日:2024-09-02 20:21:36 公開日:2024-08-30 |
# RoadRunner - 自動オフロード運転のためのトレーサビリティ推定学習
RoadRunner -- Learning Traversability Estimation for Autonomous Off-road Driving ( http://arxiv.org/abs/2402.19341v3 ) ライセンス: Link先を確認 | Jonas Frey, Manthan Patel, Deegan Atha, Julian Nubert, David Fan, Ali Agha, Curtis Padgett, Patrick Spieler, Marco Hutter, Shehryar Khattak, | (参考訳) オフロード環境での高速での自律ナビゲーションは、オンボードセンシングのみを使用して、ロボットが周囲を包括的に理解する必要がある。
オフロード設定によって引き起こされる極端な条件は、ライティングや動きのぼやけによる画質低下や、高速運転時のLiDARセンシングから得られる限られた幾何学的情報の原因となる可能性がある。
本研究では,カメラとLiDARセンサの入力から直接地形変動を予測できる新しいフレームワークであるRoadRunnerを提案する。
RoadRunnerは、センサ情報を融合し、不確実性の扱い、低レイテンシで動作しながら地形の幾何学的およびトラバーサビリティに関するコンテキスト情報予測を生成することにより、信頼性の高い自律ナビゲーションを可能にする。
本手法は,手作りのセマンティッククラスを分類し,ヒューリスティックを用いてトラバーサビリティコストを予測する既存の手法とは対照的に,自己管理型でエンドツーエンドに学習する。
RoadRunnerネットワークアーキテクチャは、LiDARとカメラ情報を共通のBird’s Eye Viewの視点に埋め込む自動運転ドメインから、一般的なセンサーフュージョンネットワークアーキテクチャの上に構築されている。
トレーニングは、既存のトラバーサビリティ推定スタックを使用して、現実世界のオフロード駆動データセットからスケーラブルな方法で、後からトレーニングデータを生成する。
さらに、RoadRunnerは、500msから140msまでの約4倍のシステムレイテンシを改善し、トラバーサビリティコストと標高マップ予測の精度を改善している。
我々は,非構造砂漠環境を通した複数の現実の運転シナリオにおいて,安全かつ信頼性の高いオフロードナビゲーションを実現する上で,ロードランナーの有効性を実証する。
Autonomous navigation at high speeds in off-road environments necessitates robots to comprehensively understand their surroundings using onboard sensing only. The extreme conditions posed by the off-road setting can cause degraded camera image quality due to poor lighting and motion blur, as well as limited sparse geometric information available from LiDAR sensing when driving at high speeds. In this work, we present RoadRunner, a novel framework capable of predicting terrain traversability and an elevation map directly from camera and LiDAR sensor inputs. RoadRunner enables reliable autonomous navigation, by fusing sensory information, handling of uncertainty, and generation of contextually informed predictions about the geometry and traversability of the terrain while operating at low latency. In contrast to existing methods relying on classifying handcrafted semantic classes and using heuristics to predict traversability costs, our method is trained end-to-end in a self-supervised fashion. The RoadRunner network architecture builds upon popular sensor fusion network architectures from the autonomous driving domain, which embed LiDAR and camera information into a common Bird's Eye View perspective. Training is enabled by utilizing an existing traversability estimation stack to generate training data in hindsight in a scalable manner from real-world off-road driving datasets. Furthermore, RoadRunner improves the system latency by a factor of roughly 4, from 500 ms to 140 ms, while improving the accuracy for traversability costs and elevation map predictions. We demonstrate the effectiveness of RoadRunner in enabling safe and reliable off-road navigation at high speeds in multiple real-world driving scenarios through unstructured desert environments. | 翻訳日:2024-09-02 20:21:36 公開日:2024-08-30 |
# アナログ読み出し情報を用いた超伝導論理量子ビットの誤差率の低減
Reducing the error rate of a superconducting logical qubit using analog readout information ( http://arxiv.org/abs/2403.00706v2 ) ライセンス: Link先を確認 | Hany Ali, Jorge Marques, Ophelia Crawford, Joonas Majaniemi, Marc Serra-Peralta, David Byfield, Boris Varbanov, Barbara M. Terhal, Leonardo DiCarlo, Earl T. Campbell, | (参考訳) 量子誤り訂正により、物理誤り率よりも低い論理誤り率を持つ論理量子ビットの保存が可能となり、復号法により性能が向上する。
従来のエラー復号法は、読み出しデータのバイナライゼーション(`hardening')に依存し、アナログ(`soft')読み出し信号に埋め込まれた貴重な情報を無視することが多い。
トランスモンを用いた距離3 (d=3$) ビットフリップ符号の復号処理にソフト情報を組み込むことの利点を示す実験結果を示す。
この目的のために、論理状態である$\ket{0_{\mathrm{L}}}$を構成する16ドルの計算状態のそれぞれを符号化するために、$3\times3$のデータキュービットアレイを使用し、繰り返し$Z$バス安定化器測定を行うことでビットフリップエラーから保護する。
$\ket{0_{\mathrm{L}}}$状態の論理的忠実さを推定するために、我々は16ドルの計算状態を平均化し、最小ウェイト完全マッチングとリカレントニューラルネットワークという2つの復号戦略を採用する。
その結果,ソフト情報を用いて抽出した論理誤差率を最大6.8 %まで下げることができた。
ソフト情報による復号化は、物理キュービットプラットフォームとは独立して広く適用でき、読み出し時間を削減することができ、論理エラー率をさらに最小化することができる。
Quantum error correction enables the preservation of logical qubits with a lower logical error rate than the physical error rate, with performance depending on the decoding method. Traditional error decoding approaches, relying on the binarization (`hardening') of readout data, often ignore valuable information embedded in the analog (`soft') readout signal. We present experimental results showcasing the advantages of incorporating soft information into the decoding process of a distance-three ($d=3$) bit-flip surface code with transmons. To this end, we use the $3\times3$ data-qubit array to encode each of the $16$ computational states that make up the logical state $\ket{0_{\mathrm{L}}}$, and protect them against bit-flip errors by performing repeated $Z$-basis stabilizer measurements. To infer the logical fidelity for the $\ket{0_{\mathrm{L}}}$ state, we average across the $16$ computational states and employ two decoding strategies: minimum weight perfect matching and a recurrent neural network. Our results show a reduction of up to $6.8\%$ in the extracted logical error rate with the use of soft information. Decoding with soft information is widely applicable, independent of the physical qubit platform, and could reduce the readout duration, further minimizing logical error rates. | 翻訳日:2024-09-02 20:21:36 公開日:2024-08-30 |
# 一般確率論における量子チャネルの不適合性
The incompatibility of quantum channels in general probabilistic theories ( http://arxiv.org/abs/2403.01392v2 ) ライセンス: Link先を確認 | Masataka Yamada, Takayuki Miyadera, | (参考訳) 量子論において、同時に実行できない操作の集合が存在する。
これらの操作の集合は非互換と呼ばれる。
この不整合性の定義は一般確率論(GPT)にまで拡張されるが、合成系の定義に対する互換集合の集合の依存性は十分には研究されていない。
量子チャネルについては、従来の合成系に基づいてヒルベルト空間のテンソル積を用いて整合性を定義する。
しかし、GPTでは複合系は一意的に定義されておらず、状態の集合は最小テンソルから最大テンソルへと変化しうる。
その結果、min-tensor互換チャネル対の集合は、量子互換チャネル対の集合よりも厳密に幅が広いことがわかった。
さらに、運用の観点から、ほぼ量子互換のチャネル対の概念を導入する。
この概念は、相性検証における相関関数がチャネルと効果の局所的再解釈によって実現される場合に対応する。
ほぼ量子互換なチャネル対の集合は、すべての min-テンソル互換なチャネル対の集合よりも厳密に狭いことを実証する。
In quantum theory, there exist sets of operations that cannot be performed simultaneously. These sets of operations are referred to as incompatible. While this definition of incompatibility extends to general probabilistic theories (GPTs), the dependency of the set of compatible sets on the definition of composite systems has not been thoroughly investigated. For quantum channels, compatibility is defined using the tensor product of Hilbert spaces, based on the conventional composite system. However, in GPTs, composite systems are not uniquely defined, and the set of states can vary from the minimal tensor to the maximal tensor.In this paper, in addition to the usual quantum compatibility, we introduce min-tensor-compatibility using the minimal tensor on the composite system of effect spaces and investigate their relationship employing noisy identity channels on qubits. As a result, we found that the set of min-tensor-compatible channel pairs is strictly broader than the set of quantum-compatible channel pairs. Furthermore, we introduce the concept of almost quantum compatible pairs of channels from an operational perspective. This concept corresponds to cases where the correlation functions in the verification of compatibility can be realized through a channel and local reinterpretation of effects. We demonstrate that the set of all almost quantum compatible channel pairs is strictly narrower than the set of all min-tensor-compatible channel pairs. | 翻訳日:2024-09-02 20:21:36 公開日:2024-08-30 |
# AgentsCourt: 裁判所論争シミュレーションと法的知識強化による司法判断エージェントの構築
AgentsCourt: Building Judicial Decision-Making Agents with Court Debate Simulation and Legal Knowledge Augmentation ( http://arxiv.org/abs/2403.02959v2 ) ライセンス: Link先を確認 | Zhitao He, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu, Jun Zhao, | (参考訳) ディープラーニングの発展に伴い、自然言語処理技術は伝統的な司法産業の様々な面の効率を効果的に改善した。
しかし、現在のほとんどの取り組みは、個々の司法段階におけるタスクに焦点を当てており、複数の段階にまたがる複雑なタスクを扱うのは困難である。
大きな言語モデルを利用した自律型エージェントがますます賢くなり、現実世界の設定で複雑な決定を下すようになり、司法情報に新たな洞察を与えている。
本稿では, 司法判断のための新しいマルチエージェントフレームワーク, AgentsCourtを提案する。
我々の枠組みは、裁判所の審理シミュレーション、法的資源の検索、および審査員の判断をシミュレートする意思決定改善からなる古典的な審理プロセスに従う。
2)420の中国判決文書を包含する司法基準であるSimuCourtを導入する。
さらに,この課題を支援するために,複数リソースの法知識を持つ大規模法知識基盤である法定KBを構築した。
以上の結果から,本フレームワークは,特に法律項目の生成において,第1および第2のインスタンス設定において,それぞれ8.6%,第9.1%のF1スコアの大幅な改善を達成している。
With the development of deep learning, natural language processing technology has effectively improved the efficiency of various aspects of the traditional judicial industry. However, most current efforts focus on tasks within individual judicial stages, making it difficult to handle complex tasks that span multiple stages. As the autonomous agents powered by large language models are becoming increasingly smart and able to make complex decisions in real-world settings, offering new insights for judicial intelligence. In this paper, (1) we propose a novel multi-agent framework, AgentsCourt, for judicial decision-making. Our framework follows the classic court trial process, consisting of court debate simulation, legal resources retrieval and decision-making refinement to simulate the decision-making of judge. (2) we introduce SimuCourt, a judicial benchmark that encompasses 420 Chinese judgment documents, spanning the three most common types of judicial cases. Furthermore, to support this task, we construct a large-scale legal knowledge base, Legal-KB, with multi-resource legal knowledge. (3) Extensive experiments show that our framework outperforms the existing advanced methods in various aspects, especially in generating legal articles, where our model achieves significant improvements of 8.6% and 9.1% F1 score in the first and second instance settings, respectively. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# 中国のバイオメディカルテキストマイニングと地域社会の課題
Advancing Chinese biomedical text mining with community challenges ( http://arxiv.org/abs/2403.04261v2 ) ライセンス: Link先を確認 | Hui Zong, Rongrong Wu, Jiaxue Cha, Weizhe Feng, Erman Wu, Jiakun Li, Aibin Shao, Liang Tao, Zuofeng Li, Buzhou Tang, Bairong Shen, | (参考訳) 目的: 本研究は, 中国におけるバイオメディカルテキストマイニングにおける地域社会の課題の最近の進展を概観することを目的としている。
方法: 課題記述, データセット記述, データソース, タスクタイプ, 関連リンクを含む, バイオメディカルテキストマイニングのコミュニティ課題における評価課題に関する情報を収集した。
組織的な要約と比較分析は、名前付きエンティティ認識、エンティティ正規化、属性抽出、関係抽出、イベント抽出、テキスト分類、テキスト類似性、知識グラフ構築、質問応答、テキスト生成、大規模言語モデル評価など、様々なバイオメディカル自然言語処理タスクに対して行われた。
結果: 2017年から2023年までの6つのコミュニティ課題から39の評価タスクを特定した。
バイオメディカルテキストマイニングにおけるタスクタイプやデータソースの多様性について検討した。
翻訳的バイオメディカル情報学の観点から,これらの課題タスクの潜在的な臨床応用について検討した。
我々は,これらのコミュニティ課題に対するコントリビューション,制限,教訓,ガイドラインについて議論するとともに,大規模言語モデルの時代における今後の方向性を強調した。
結論: コミュニティ・チャレンジ・アセスメント・コンペティションは, バイオメディカルテキストマイニング分野における技術革新の促進と学際的コラボレーションの促進に重要な役割を担っている。
これらの課題は、研究者が最先端のソリューションを開発するための貴重なプラットフォームを提供する。
Objective: This study aims to review the recent advances in community challenges for biomedical text mining in China. Methods: We collected information of evaluation tasks released in community challenges of biomedical text mining, including task description, dataset description, data source, task type and related links. A systematic summary and comparative analysis were conducted on various biomedical natural language processing tasks, such as named entity recognition, entity normalization, attribute extraction, relation extraction, event extraction, text classification, text similarity, knowledge graph construction, question answering, text generation, and large language model evaluation. Results: We identified 39 evaluation tasks from 6 community challenges that spanned from 2017 to 2023. Our analysis revealed the diverse range of evaluation task types and data sources in biomedical text mining. We explored the potential clinical applications of these community challenge tasks from a translational biomedical informatics perspective. We compared with their English counterparts, and discussed the contributions, limitations, lessons and guidelines of these community challenges, while highlighting future directions in the era of large language models. Conclusion: Community challenge evaluation competitions have played a crucial role in promoting technology innovation and fostering interdisciplinary collaboration in the field of biomedical text mining. These challenges provide valuable platforms for researchers to develop state-of-the-art solutions. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# アルツハイマー病の不可逆進行軌跡の学習
Learning the irreversible progression trajectory of Alzheimer's disease ( http://arxiv.org/abs/2403.06087v2 ) ライセンス: Link先を確認 | Yipei Wang, Bing He, Shannon Risacher, Andrew Saykin, Jingwen Yan, Xiaoqian Wang, | (参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、30年にわたって展開する進行性脳疾患である。
したがって、早期に症状の発症前に介入を適用できるように、疾患の進行を捉えることが重要である。
機械学習(ML)モデルは、ADの開始を予測するのに効果的であることが示されている。
しかし、フォローアップ来訪者に対しては、既存のAD分類手法は正確なグループ割り当てのみを目的としており、フォローアップ来訪者の単調な増加リスクは無視されるのが普通である。
訪問中の変動リスクスコアはADの不可逆性に反し、モデルの信頼性を損なうとともに、疾患の進行を理解する上ではほとんど価値を与えない。
そこで本研究では,ADを経時的に予測する新しい正規化手法を提案する。
本手法は,表現性を維持しつつ進行中の疾患リスクの増加を期待する単調性を維持することを目的としている。
具体的には、単調性制約を導入し、追跡訪問を通じて一貫した順序で疾患リスクを予測するモデルを提案する。
アルツハイマー病神経画像イニシアチブ(ADNI)の縦構造MRIとアミロイドPET画像データを用いて本手法の評価を行った。
本モデルでは, 疾患リスクの進行性の把握において, 既存の手法よりも優れ, 同時に予測精度も向上する。
Alzheimer's disease (AD) is a progressive and irreversible brain disorder that unfolds over the course of 30 years. Therefore, it is critical to capture the disease progression in an early stage such that intervention can be applied before the onset of symptoms. Machine learning (ML) models have been shown effective in predicting the onset of AD. Yet for subjects with follow-up visits, existing techniques for AD classification only aim for accurate group assignment, where the monotonically increasing risk across follow-up visits is usually ignored. Resulted fluctuating risk scores across visits violate the irreversibility of AD, hampering the trustworthiness of models and also providing little value to understanding the disease progression. To address this issue, we propose a novel regularization approach to predict AD longitudinally. Our technique aims to maintain the expected monotonicity of increasing disease risk during progression while preserving expressiveness. Specifically, we introduce a monotonicity constraint that encourages the model to predict disease risk in a consistent and ordered manner across follow-up visits. We evaluate our method using the longitudinal structural MRI and amyloid-PET imaging data from the Alzheimer's Disease Neuroimaging Initiative (ADNI). Our model outperforms existing techniques in capturing the progressiveness of disease risk, and at the same time preserves prediction accuracy. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# 創発的エージェント・ソサイエティにおける社会的ノルムの出現--原理と建築
Emergence of Social Norms in Generative Agent Societies: Principles and Architecture ( http://arxiv.org/abs/2403.08251v4 ) ライセンス: Link先を確認 | Siyue Ren, Zhiyao Cui, Ruiqi Song, Zhen Wang, Shuyue Hu, | (参考訳) 社会的規範は、行動規範の理解と定着に向けてエージェントを導く上で重要な役割を担い、マルチエージェントシステム(MAS)における社会的対立を減らす。
しかし、現在のLLMベースの(あるいは生成的な)MASには、規範的な能力がない。
本稿では,生成型MASにおける社会的規範の出現を促進するために,CRSECという新しいアーキテクチャを提案する。
私たちのアーキテクチャは、創造と表現、スプレッド、評価、コンプライアンスの4つのモジュールで構成されています。
これは、創発的プロセスのいくつかの重要な側面を1つにまとめる。
(i)社会規範の発祥地
(ii) 形式的にどのように表現されるか
三 エージェントのコミュニケーション及び観察の方法
四 衛生検査で検査し、長期にわたって合成する方法、及び
(v)エージェントの計画と行動にどのように組み込まれているか。
Smallville Sandboxゲーム環境に導入した我々の実験は、我々の建築が社会規範を確立し、生成的MAS内での社会的衝突を減らす能力を示すものである。
評価対象者30名を対象に実施した人的評価の結果,その有効性を確認した。
私たちのプロジェクトは、https://github.com/sxswz213/CRSEC.com/sxswz213/CRSEC.comのリンクからアクセスできます。
Social norms play a crucial role in guiding agents towards understanding and adhering to standards of behavior, thus reducing social conflicts within multi-agent systems (MASs). However, current LLM-based (or generative) MASs lack the capability to be normative. In this paper, we propose a novel architecture, named CRSEC, to empower the emergence of social norms within generative MASs. Our architecture consists of four modules: Creation & Representation, Spreading, Evaluation, and Compliance. This addresses several important aspects of the emergent processes all in one: (i) where social norms come from, (ii) how they are formally represented, (iii) how they spread through agents' communications and observations, (iv) how they are examined with a sanity check and synthesized in the long term, and (v) how they are incorporated into agents' planning and actions. Our experiments deployed in the Smallville sandbox game environment demonstrate the capability of our architecture to establish social norms and reduce social conflicts within generative MASs. The positive outcomes of our human evaluation, conducted with 30 evaluators, further affirm the effectiveness of our approach. Our project can be accessed via the following link: https://github.com/sxswz213/CRSEC. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# 微分プライバシのシャッフルモデルにおけるサミネーション問題に対するほぼ最適クリッピング
Almost Instance-optimal Clipping for Summation Problems in the Shuffle Model of Differential Privacy ( http://arxiv.org/abs/2403.10116v2 ) ライセンス: Link先を確認 | Wei Dong, Qiyao Luo, Giulia Fanti, Elaine Shi, Ke Yi, | (参考訳) 最悪ケースの最適誤差境界(例:古典的なラプラス機構)を達成するための異なるプライベートなメカニズムは、文献でよく研究されている。
しかし、典型的なデータが最悪のケースから遠く離れた場合、データセットの最大の値に依存する \emph{instance-specific} エラー境界の方が有意義である。
例えば、各ユーザが領域 $\{0,1,\dots,U\}$ から整数 $x_i$ を持ち、$\sum_i x_i$ を見積もる和推定問題を考える。
これは$O(U/\varepsilon)$の最悪の最適誤差を持つが、最近の研究では、クリッピング機構が$O(\max_i x_i \cdot \log\log U /\varepsilon)$のインスタンス最適誤差を達成できることが示されている。
シャッフルモデルでは、既知のインスタンス最適化プロトコルは通信効率が低い。
クリッピング機構はシャッフルモデルでも機能するが、ラウンド1はクリッピングしきい値を見つけ、ラウンド2はクリッピングを行い、クリッピングデータのノイズ和を計算する。
本稿では,この2つの連続的なステップを1ラウンドで同時に行う方法について,インスタンス-最適エラーバウンダリを維持しながら,ユーザ1人あたり1+o(1)$メッセージで示す。
また、この手法を高次元和推定問題とスパースベクトル集約(すなわち、ユーザレベルの差分プライバシーの下での周波数推定)に拡張する。
Differentially private mechanisms achieving worst-case optimal error bounds (e.g., the classical Laplace mechanism) are well-studied in the literature. However, when typical data are far from the worst case, \emph{instance-specific} error bounds -- which depend on the largest value in the dataset -- are more meaningful. For example, consider the sum estimation problem, where each user has an integer $x_i$ from the domain $\{0,1,\dots,U\}$ and we wish to estimate $\sum_i x_i$. This has a worst-case optimal error of $O(U/\varepsilon)$, while recent work has shown that the clipping mechanism can achieve an instance-optimal error of $O(\max_i x_i \cdot \log\log U /\varepsilon)$. Under the shuffle model, known instance-optimal protocols are less communication-efficient. The clipping mechanism also works in the shuffle model, but requires two rounds: Round one finds the clipping threshold, and round two does the clipping and computes the noisy sum of the clipped data. In this paper, we show how these two seemingly sequential steps can be done simultaneously in one round using just $1+o(1)$ messages per user, while maintaining the instance-optimal error bound. We also extend our technique to the high-dimensional sum estimation problem and sparse vector aggregation (a.k.a. frequency estimation under user-level differential privacy). | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# フォールトトレラント量子回路の低密度パリティチェック表現
Low-density parity-check representation of fault-tolerant quantum circuits ( http://arxiv.org/abs/2403.10268v2 ) ライセンス: Link先を確認 | Ying Li, | (参考訳) フォールトトレラント量子コンピューティングでは、量子アルゴリズムは誤り訂正が可能な量子回路によって実装される。
これらの回路は通常、基礎となる物理プラットフォームの特性を考慮して、特定の量子誤り訂正符号に基づいて構築される。
これらの回路を今日の量子コンピューティング技術の制約(特にエラー率、量子ビット数、ネットワークトポロジー)の中で最適化することは、近い将来の量子アプリケーションの実現可能性に重大な影響を与える。
本稿では,フォールトトレラント量子回路の設計と解析を行うツールキットを提案する。
古典的低密度パリティチェック(LDPC)符号を用いて安定化回路を表現するためのフレームワークを提案する。
表現中の各コードワードは回路に関する量子力学方程式に対応し、パリティチェックで使用される相関関係を定式化し、回路内の論理演算を記述する。
その結果、LDPCコードはフォールトトレランスを定量化し、論理演算を検証する手段を提供する。
本稿では,従来のLDPC符号からフォールトトレラント量子回路を構築するためのグラフ理論ツールの提案とともに,タナーグラフ記法を用いて回路からLDPC符号を生成する手順について概説する。
これらの知見は,既存のフォールトトレラントプロトコルを最適化し,新しいプロトコルを開発する上で,古典的誤り訂正手法を適用するための体系的なアプローチを提供する。
一例として、LDPC表現に基づくハイパーグラフ製品コード上での普遍的フォールトトレラント量子コンピューティングのための資源効率の高いスキームを開発する。
In fault-tolerant quantum computing, quantum algorithms are implemented through quantum circuits capable of error correction. These circuits are typically constructed based on specific quantum error correction codes, with consideration given to the characteristics of the underlying physical platforms. Optimising these circuits within the constraints of today's quantum computing technologies, particularly in terms of error rates, qubit counts, and network topologies, holds substantial implications for the feasibility of quantum applications in the near future. This paper presents a toolkit for designing and analysing fault-tolerant quantum circuits. We introduce a framework for representing stabiliser circuits using classical low-density parity-check (LDPC) codes. Each codeword in the representation corresponds to a quantum-mechanical equation regarding the circuit, formalising the correlations utilised in parity checks and delineating logical operations within the circuit. Consequently, the LDPC code provides a means of quantifying fault tolerance and verifying logical operations. We outline the procedure for generating LDPC codes from circuits using the Tanner graph notation, alongside proposing graph-theory tools for constructing fault-tolerant quantum circuits from classical LDPC codes. These findings offer a systematic approach to applying classical error correction techniques in optimising existing fault-tolerant protocols and developing new ones. As an example, we develop a resource-efficient scheme for universal fault-tolerant quantum computing on hypergraph product codes based on the LDPC representation. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# スパイキングウェーブレットトランス
Spiking Wavelet Transformer ( http://arxiv.org/abs/2403.11138v4 ) ライセンス: Link先を確認 | Yuetong Fang, Ziqing Wang, Lingfeng Zhang, Jiahang Cao, Honglei Chen, Renjing Xu, | (参考訳) スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理方法をエミュレートすることによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
SNNでトランスフォーマーを組み込むと、精度が保証される。
しかし、彼らは、グローバルな自己認識機構に依存するため、移動エッジやピクセルレベルの明るさ変化などの高周波パターンを学ぶのに苦労している。
これらの高周波表現の学習は、SNNベースのイベント駆動ビジョンには難しいが不可欠である。
この問題に対処するために,スパースウェーブレット変換を活用することで,空間周波数の包括的特徴をスパイク駆動方式で効果的に学習する,注目のないアーキテクチャであるSpking Wavelet Transformer (SWformer)を提案する。
重要なコンポーネントは、周波数対応のトークンミキサー(FATM)で、3つのブランチがある。
1)空間周波数領域学習のためのスパイクウェーブレット学習装置
2)空間特徴抽出のための畳み込みに基づく学習者
3) チャネル間情報集約のためのスパイクポイントワイド畳み込み -負スパイクダイナミクスを組み込んだもの
1) 周波数表現を高める。
FATMにより、SWformerは、私たちの経験的な結果によって証明されているように、高周波数の視覚成分を捕捉するバニラスパイキングトランスフォーマーよりも優れている。
静的データセットとニューロモルフィックデータセットの両方の実験は、SWformerが乗算のないイベント駆動方式で空間周波数パターンをキャプチャし、最先端のSNNより優れた性能を発揮することを示す。
SWformerはパラメータカウントを22.03%削減し、Vanilla Spiking Transformerと比較して、ImageNetデータセットのパフォーマンスが2.52%向上した。
コードは、https://github.com/bic-L/Spiking-Wavelet-Transformerで入手できる。
Spiking neural networks (SNNs) offer an energy-efficient alternative to conventional deep learning by emulating the event-driven processing manner of the brain. Incorporating Transformers with SNNs has shown promise for accuracy. However, they struggle to learn high-frequency patterns, such as moving edges and pixel-level brightness changes, because they rely on the global self-attention mechanism. Learning these high-frequency representations is challenging but essential for SNN-based event-driven vision. To address this issue, we propose the Spiking Wavelet Transformer (SWformer), an attention-free architecture that effectively learns comprehensive spatial-frequency features in a spike-driven manner by leveraging the sparse wavelet transform. The critical component is a Frequency-Aware Token Mixer (FATM) with three branches: 1) spiking wavelet learner for spatial-frequency domain learning, 2) convolution-based learner for spatial feature extraction, and 3) spiking pointwise convolution for cross-channel information aggregation - with negative spike dynamics incorporated in 1) to enhance frequency representation. The FATM enables the SWformer to outperform vanilla Spiking Transformers in capturing high-frequency visual components, as evidenced by our empirical results. Experiments on both static and neuromorphic datasets demonstrate SWformer's effectiveness in capturing spatial-frequency patterns in a multiplication-free and event-driven fashion, outperforming state-of-the-art SNNs. SWformer achieves a 22.03% reduction in parameter count, and a 2.52% performance improvement on the ImageNet dataset compared to vanilla Spiking Transformers. The code is available at: https://github.com/bic-L/Spiking-Wavelet-Transformer. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# 四重項を用いた熱電流の全熱反転
All-thermal reversal of heat currents using qutrits ( http://arxiv.org/abs/2403.11160v2 ) ライセンス: Link先を確認 | Irene Ada Picatoste, Rafael Sánchez, | (参考訳) 熱浴に結合されたいくつかのレベルシステムは、量子熱力学の有用なモデルを提供し、量子情報設定における熱電流の役割を理解するのに有用である。
冷却やサーマルメーザーのような有用な操作は、自律的な3レベルシステムで提案されている。
本研究では, システムを構成する2つの貯水池の同時冷凍機とヒートポンプとして, 2つのクエットのコヒーレントカップリングを提案する。
これは、平衡状態にあるが系の熱を注入しない他の2つの貯水池との結合によって起こる。
本研究では, 作動物質に制限された電流変動の測定によって, マクスウェルデーモンの作用と区別できるかどうかを考察する。
Few-level systems coupled to thermal baths provide useful models for quantum thermodynamics and to understand the role of heat currents in quantum information settings. Useful operations such as cooling or thermal masers have been proposed in autonomous three-level systems. In this work, we propose the coherent coupling of two qutrits as a simultaneous refrigerator and heat pump of two reservoirs forming a system. This occurs thanks to the coupling to two other reservoirs which are out of equilibrium but do not inject heat in the system. We explore the thermodynamic performance of such operation and discuss whether it can be distinguished from the action of a Maxwell demon via measurements of current fluctuations limited to the working substance. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# 名前付きエンティティ認識の評価: ブラジルの新規企業決算記録データセットにおける単言語モデルと多言語トランスフォーマーモデルの比較分析
Evaluating Named Entity Recognition: A comparative analysis of mono- and multilingual transformer models on a novel Brazilian corporate earnings call transcripts dataset ( http://arxiv.org/abs/2403.12212v2 ) ライセンス: Link先を確認 | Ramon Abilio, Guilherme Palermo Coelho, Ana Estela Antunes da Silva, | (参考訳) 2018年、Transformerアーキテクチャが導入されて以来、自然言語処理は、様々なタスクに微調整可能なトレーニング済みのTransformerベースのモデルによって、大きな勢いを増している。
ほとんどのモデルは大きな英語コーパスで事前訓練されており、ブラジルポルトガル語など他の言語には適用できない。
本研究では,ブラジルポルトガル語 (BERTimbau と PTT5) と多言語モデル (mBERT と mT5) の2つのモデルについて検討した。
BERTimbauとmBERTはEncoderモジュールのみを使用し、TT5とmT5はEncoderとDecoderの両方を使用する。
本研究では,ファイナンシャル・ネームド・エンティティ・認識(NER)タスク上での性能評価を行い,微調整と推論のための計算条件を決定することを目的とした。
この目的のために、ブラジル銀行の決算報告の文章を弱教師付きアプローチで注釈付けしたブラジル金融NER(BraFiNER)データセットを開発した。
さらに,トークン分類タスクをテキスト生成問題として再編成する手法も導入した。
モデルを微調整した後、パフォーマンスメトリクスとエラーメトリクスを使って評価した。
以上の結果から,BERTベースモデルはT5ベースモデルより一貫して優れていた。
多言語モデルはマクロF1スコアに匹敵する性能を示したが、BERTimbauはPTT5よりも優れた性能を示した。
エラーメトリクスに関しては、BERTimbauは他のモデルよりも優れています。
また, PTT5 と mT5 は, 財務領域における精度と整合性の重要性を強調し, 金銭的, パーセンテージ的に変化した文を生成することも確認した。
NERタスクに対するBERT-およびT5-based modelの異なる性能に関する知見を提供する。
Since 2018, when the Transformer architecture was introduced, Natural Language Processing has gained significant momentum with pre-trained Transformer-based models that can be fine-tuned for various tasks. Most models are pre-trained on large English corpora, making them less applicable to other languages, such as Brazilian Portuguese. In our research, we identified two models pre-trained in Brazilian Portuguese (BERTimbau and PTT5) and two multilingual models (mBERT and mT5). BERTimbau and mBERT use only the Encoder module, while PTT5 and mT5 use both the Encoder and Decoder. Our study aimed to evaluate their performance on a financial Named Entity Recognition (NER) task and determine the computational requirements for fine-tuning and inference. To this end, we developed the Brazilian Financial NER (BraFiNER) dataset, comprising sentences from Brazilian banks' earnings calls transcripts annotated using a weakly supervised approach. Additionally, we introduced a novel approach that reframes the token classification task as a text generation problem. After fine-tuning the models, we evaluated them using performance and error metrics. Our findings reveal that BERT-based models consistently outperform T5-based models. While the multilingual models exhibit comparable macro F1-scores, BERTimbau demonstrates superior performance over PTT5. In terms of error metrics, BERTimbau outperforms the other models. We also observed that PTT5 and mT5 generated sentences with changes in monetary and percentage values, highlighting the importance of accuracy and consistency in the financial domain. Our findings provide insights into the differing performance of BERT- and T5-based models for the NER task. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# スペクトルインバージョンによる超高速パルスの超解像
Super-resolution of ultrafast pulses via spectral inversion ( http://arxiv.org/abs/2403.12746v2 ) ライセンス: Link先を確認 | Michał Lipka, Michał Parniak, | (参考訳) 古典分光の分解能限界は、複素電磁場の位相に含まれる情報を活用する量子インスピレーション法によって超えることができる。
空間イメージングにおけるそれらの実装は広く議論され、実証されてきたが、スペクトル領域の実装は少なく、少ない。
広帯域光(10~100GHz)を対象とした分光超解像法を実験的に実証し,画像反転干渉計のスペクトル領域アナログに基づく。
原理実証実験において、等輝度の2つの非コヒーレントスペクトル特徴と、コヒーレンス時間当たりの光子との小さな分離を推定するパラダイム的問題を考察した。
漸近的推定理論の根拠として、スペクトル直接像に対する2ドル以上の改善は、所定の推定値の分散に必要な資源(光子)の観点から示される。
この装置は、電気光学タイムレンズとインバージョンを実装したパッシブスペクトル分散器を備えた、アクティブに安定化されたマッハ・ツェンダー型干渉計に基づいている。
このように、このメソッドはオンチップの統合、優れたスケーラビリティ、さらにモードソートなどのアプリケーションを実現する。
The resolution limits of classical spectroscopy can be surpassed by quantum-inspired methods leveraging the information contained in the phase of the complex electromagnetic field. Their counterpart in spatial imaging has been widely discussed and demonstrated; however, the spectral-domain implementations are few and scarce. We experimentally demonstrate a spectroscopic super-resolution method aimed at broadband light (10s to 100s of GHz), and based on the spectral-domain analog of image inversion interferometry. In a proof-of-principle experiment, we study the paradigmatic problem of estimating a small separation between two incoherent spectral features of equal brightness, with a small number of photons per coherence time. On the grounds of asymptotic estimation theory, more than a $2$-fold improvement over the spectral direct imaging is demonstrated in terms of required resources (photons) for a given estimator variance. The setup is based on an actively stabilized Mach-Zehnder-type interferometer with electro-optic time lenses and passive spectral dispersers implementing the inversion. As such, the method promises on-chip integration, good scalability, and further applications e.g. for mode sorting. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# ゼロショットマルチオブジェクトシーンコンプリート
Zero-Shot Multi-Object Scene Completion ( http://arxiv.org/abs/2403.14628v2 ) ライセンス: Link先を確認 | Shun Iwase, Katherine Liu, Vitor Guizilini, Adrien Gaidon, Kris Kitani, Rares Ambrus, Sergey Zakharov, | (参考訳) 1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
シングルオブジェクトの3D形状の完成が顕著な進歩を遂げたにもかかわらず、高度に散らばった現実世界のマルチオブジェクトシーンにおける高品質な再構成は依然として課題である。
そこで本研究では,Octree U-Netと潜伏3D MAEを利用して,局所的およびグローバルな幾何学的推論により,高品質でほぼリアルタイムなマルチオブジェクトシーン補完を実現するアーキテクチャであるOctMAEを提案する。
3D MAEは、潜伏空間でも計算可能で、メモリ集約性が高いため、新しい隠蔽マスキング戦略を導入し、3Dロータリーな埋め込みを導入し、実行時間とシーン完了の質を大幅に向上させる。
多様な場面で広範囲のオブジェクトに一般化するために、我々は、物理に基づく位置決めを伴う多目的シーンでレンダリングされるObjaverseデータセットから12Kの3Dオブジェクトモデルの多種多様なセットを特徴とする大規模なフォトリアリスティックデータセットを作成する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れ, 強力なゼロショット能力を示す。
We present a 3D scene completion method that recovers the complete geometry of multiple unseen objects in complex scenes from a single RGB-D image. Despite notable advancements in single-object 3D shape completion, high-quality reconstructions in highly cluttered real-world multi-object scenes remains a challenge. To address this issue, we propose OctMAE, an architecture that leverages an Octree U-Net and a latent 3D MAE to achieve high-quality and near real-time multi-object scene completion through both local and global geometric reasoning. Because a naive 3D MAE can be computationally intractable and memory intensive even in the latent space, we introduce a novel occlusion masking strategy and adopt 3D rotary embeddings, which significantly improves the runtime and scene completion quality. To generalize to a wide range of objects in diverse scenes, we create a large-scale photorealistic dataset, featuring a diverse set of 12K 3D object models from the Objaverse dataset which are rendered in multi-object scenes with physics-based positioning. Our method outperforms the current state-of-the-art on both synthetic and real-world datasets and demonstrates a strong zero-shot capability. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# VRSO:静的オブジェクトアノテーションのための視覚中心再構成
VRSO: Visual-Centric Reconstruction for Static Object Annotation ( http://arxiv.org/abs/2403.15026v3 ) ライセンス: Link先を確認 | Chenyao Yu, Yingfeng Cai, Jiaxin Zhang, Hui Kong, Wei Sui, Cong Yang, | (参考訳) 知的運転システムの認識結果の一部として、3次元空間における静的物体検出(SOD)は、環境理解を駆動するための重要な手がかりとなる。
SODタスクのためのディープニューラルネットワークの迅速なデプロイにより、高品質なトレーニングサンプルの需要が急増した。
従来の信頼性の高い方法では、高密度のLiDAR点雲と参照イメージを手動でラベル付けする。
ほとんどの公共運転データセットは、SODの真実(GT)を提供するためにこの戦略を採用しているが、実際には高価で時間がかかる。
本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。
Waymo Open Datasetの実験では、VRSOアノテーションからの平均再射誤差は2.6ピクセルであり、Waymo Open Datasetラベル(10.6ピクセル)の約4倍低い。
VRSOは,(1)カメラ画像のみを入力として3次元空間の静的物体を復元し,(2)手動アノテーションは,自動再構成とアノテーションパイプラインに基づいてSODタスクのGTを生成するため,ほとんど関与しない。
As a part of the perception results of intelligent driving systems, static object detection (SOD) in 3D space provides crucial cues for driving environment understanding. With the rapid deployment of deep neural networks for SOD tasks, the demand for high-quality training samples soars. The traditional, also reliable, way is manual labelling over the dense LiDAR point clouds and reference images. Though most public driving datasets adopt this strategy to provide SOD ground truth (GT), it is still expensive and time-consuming in practice. This paper introduces VRSO, a visual-centric approach for static object annotation. Experiments on the Waymo Open Dataset show that the mean reprojection error from VRSO annotation is only 2.6 pixels, around four times lower than the Waymo Open Dataset labels (10.6 pixels). VRSO is distinguished in low cost, high efficiency, and high quality: (1) It recovers static objects in 3D space with only camera images as input, and (2) manual annotation is barely involved since GT for SOD tasks is generated based on an automatic reconstruction and annotation pipeline. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# Frankenstein: セマンティック・コメンデーショナルな3Dシーンを1つのトリプレーンで生成する
Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane ( http://arxiv.org/abs/2403.16210v2 ) ライセンス: Link先を確認 | Han Yan, Yang Li, Zhennan Wu, Shenzhou Chen, Weixuan Sun, Taizhang Shang, Weizhe Liu, Tian Chen, Xiaqiang Dai, Chao Ma, Hongdong Li, Pan Ji, | (参考訳) 拡散に基づくフレームワークであるFrankensteinについて述べる。
単一の統一された3次元形状を出力する既存の方法とは異なり、フランケンシュタインは同時に複数の分離された形状を生成し、それぞれが意味的に意味のある部分に対応する。
3Dシーン情報を1つの3平面テンソルに符号化し、そこから複数のSDFフィールドをデコードして構成形状を表現する。
トレーニング中、オートエンコーダは三面体を潜在空間に圧縮し、次に、合成シーンの分布を近似するために偏極拡散過程を用いる。
フランケンシュタインは、部屋の内部と、自動的に分離された部分を持つ人間のアバターを生成するという有望な結果を実証している。
生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。
私たちのプロジェクトページは、https://wolfball.github.io/frankenstein/.com/で公開されています。
We present Frankenstein, a diffusion-based framework that can generate semantic-compositional 3D scenes in a single pass. Unlike existing methods that output a single, unified 3D shape, Frankenstein simultaneously generates multiple separated shapes, each corresponding to a semantically meaningful part. The 3D scene information is encoded in one single tri-plane tensor, from which multiple Singed Distance Function (SDF) fields can be decoded to represent the compositional shapes. During training, an auto-encoder compresses tri-planes into a latent space, and then the denoising diffusion process is employed to approximate the distribution of the compositional scenes. Frankenstein demonstrates promising results in generating room interiors as well as human avatars with automatically separated parts. The generated scenes facilitate many downstream applications, such as part-wise re-texturing, object rearrangement in the room or avatar cloth re-targeting. Our project page is available at: https://wolfball.github.io/frankenstein/. | 翻訳日:2024-09-02 20:11:53 公開日:2024-08-30 |
# One-Size-Fits-Allを超えて:モデル選択を埋め込みするためのマルチドメインマルチタスクフレームワーク
Beyond One-Size-Fits-All: Multi-Domain, Multi-Task Framework for Embedding Model Selection ( http://arxiv.org/abs/2404.00458v2 ) ライセンス: Link先を確認 | Vivek Khetan, | (参考訳) 本稿では,自然言語処理(NLP)タスクにおける最も効果的な埋め込みモデルの選択を支援するフレームワークの開発に向けた体系的なアプローチを提案する。
This position paper proposes a systematic approach towards developing a framework to help select the most effective embedding models for natural language processing (NLP) tasks, addressing the challenge posed by the proliferation of both proprietary and open-source encoder models. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# LightFF:フォワードフォワードアルゴリズムのための軽量推論
LightFF: Lightweight Inference for Forward-Forward Algorithm ( http://arxiv.org/abs/2404.05241v6 ) ライセンス: Link先を確認 | Amin Aminifar, Baichuan Huang, Azra Abtahi, Amir Aminifar, | (参考訳) 人間の脳は優れたエネルギー効率、すなわち約20ワットのワットでタスクを実行する。
一方、最先端のArtificial/Deep Neural Networks(ANN/DNN)は、最近大量のエネルギーを消費していることが示されている。
これらのANN/DNNのトレーニングは、ほとんど生物学的に不可能であることが知られているバックプロパゲーションアルゴリズムに基づいて行われる。
これにより、フォワード-フォワードアルゴリズムを含む、新しい世代のフォワード専用技術が導かれた。
本稿では,Forward-Forwardアルゴリズムを用いてトレーニングしたDNNを対象とした,軽量な推論手法を提案する。
我々は,MNIST と CIFAR データセットを用いた軽量推論手法と,その関連性を示す2つの実世界の応用,すなわちてんかん性発作検出と,ウェアラブル技術を用いた心臓不整脈分類について検討した。
私たちのコードはhttps://github.com/AminAminifar/LightFF.comで利用可能です。
The human brain performs tasks with an outstanding energy efficiency, i.e., with approximately 20 Watts. The state-of-the-art Artificial/Deep Neural Networks (ANN/DNN), on the other hand, have recently been shown to consume massive amounts of energy. The training of these ANNs/DNNs is done almost exclusively based on the back-propagation algorithm, which is known to be biologically implausible. This has led to a new generation of forward-only techniques, including the Forward-Forward algorithm. In this paper, we propose a lightweight inference scheme specifically designed for DNNs trained using the Forward-Forward algorithm. We have evaluated our proposed lightweight inference scheme in the case of the MNIST and CIFAR datasets, as well as two real-world applications, namely, epileptic seizure detection and cardiac arrhythmia classification using wearable technologies, where complexity overheads/energy consumption is a major constraint, and demonstrate its relevance. Our code is available at https://github.com/AminAminifar/LightFF. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# 高速漁:効率よくスケーラブルな深部能動画像分類のためのBAITの近似
Fast Fishing: Approximating BAIT for Efficient and Scalable Deep Active Image Classification ( http://arxiv.org/abs/2404.08981v2 ) ライセンス: Link先を確認 | Denis Huseljic, Paul Hahn, Marek Herde, Lukas Rauch, Bernhard Sick, | (参考訳) Deep Active Learning (AL)は、ディープニューラルネットワークのトレーニングに要するアノテーションコストを最小限にすることを目指している。
Fisher Informationをベースにした最近提案されたAL戦略であるBAITは、さまざまなデータセットで素晴らしいパフォーマンスを示している。
しかし、BAITの高計算・メモリ要件は、大規模分類タスクの適用性を妨げ、その結果、BAITの評価を無視している。
本稿では,BAITの計算効率とスケーラビリティを向上する2つの手法を提案する。
特に,フィッシャー情報を近似することにより,時間的複雑性を著しく低減する。
特に、元の定式化を適応させる。
一 最も可能性の高い授業に期待を寄せて、
二 グラデーション計算の代替可能性をもたらす二分分類タスクを構築すること。
これにより、ImageNetを含む大規模データセットでのBAITの効率的な利用が可能になる。
様々なデータセットに対する統一的かつ包括的評価は、我々の近似が時間的複雑さを著しく減らし、強い性能を達成することを示す。
さらに,最新のAL戦略を実装したオープンソースツールボックスも,https://github.com/dhuseljic/dal-toolboxで公開しています。
Deep active learning (AL) seeks to minimize the annotation costs for training deep neural networks. BAIT, a recently proposed AL strategy based on the Fisher Information, has demonstrated impressive performance across various datasets. However, BAIT's high computational and memory requirements hinder its applicability on large-scale classification tasks, resulting in current research neglecting BAIT in their evaluation. This paper introduces two methods to enhance BAIT's computational efficiency and scalability. Notably, we significantly reduce its time complexity by approximating the Fisher Information. In particular, we adapt the original formulation by i) taking the expectation over the most probable classes, and ii) constructing a binary classification task, leading to an alternative likelihood for gradient computations. Consequently, this allows the efficient use of BAIT on large-scale datasets, including ImageNet. Our unified and comprehensive evaluation across a variety of datasets demonstrates that our approximations achieve strong performance with considerably reduced time complexity. Furthermore, we provide an extensive open-source toolbox that implements recent state-of-the-art AL strategies, available at https://github.com/dhuseljic/dal-toolbox. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# トークンレベルの直接参照最適化
Token-level Direct Preference Optimization ( http://arxiv.org/abs/2404.11999v5 ) ライセンス: Link先を確認 | Yongcheng Zeng, Guoqing Liu, Weiyu Ma, Ning Yang, Haifeng Zhang, Jun Wang, | (参考訳) 微調整された事前訓練された大規模言語モデル(LLM)は、それらを人間の価値観や意図と整合させるのに不可欠である。
このプロセスは、モデルが生成した全回答の評価に焦点をあてて、ペア比較や基準LLMに対するKL分散といった手法を利用することが多い。
しかしながら、これらの応答の生成は、シーケンシャルで自己回帰的な方法でトークンレベルで行われる。
本稿では,トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を提案する。
分散効率の課題に直面している従来の方法とは異なり、TDPOはトークンごとに前方KL分散制約を導入し、アライメントと多様性を改善している。
トークンベースの報酬システムのためのBradley-Terryモデルを利用することで、TDPOは、明示的な報酬モデリングを必要とせずに単純さを保ちながら、KL分散の規制を強化する。
テキストタスク間の実験結果は、TDPOが生成多様性との整合性に優れた性能を示す。
特に、TDPOによる微調整は、制御された感情生成とシングルターン対話データセットにおいてDPOよりもバランスが良く、DPOおよびPPOベースのRLHF手法と比較して、生成した応答の品質が著しく向上する。
我々のコードはhttps://github.com/Vance0124/Token-level-Direct-Preference-Optimizationでオープンソース化されています。
Fine-tuning pre-trained Large Language Models (LLMs) is essential to align them with human values and intentions. This process often utilizes methods like pairwise comparisons and KL divergence against a reference LLM, focusing on the evaluation of full answers generated by the models. However, the generation of these responses occurs in a token level, following a sequential, auto-regressive fashion. In this paper, we introduce Token-level Direct Preference Optimization (TDPO), a novel approach to align LLMs with human preferences by optimizing policy at the token level. Unlike previous methods, which face challenges in divergence efficiency, TDPO incorporates forward KL divergence constraints for each token, improving alignment and diversity. Utilizing the Bradley-Terry model for a token-based reward system, TDPO enhances the regulation of KL divergence, while preserving simplicity without the need for explicit reward modeling. Experimental results across various text tasks demonstrate TDPO's superior performance in balancing alignment with generation diversity. Notably, fine-tuning with TDPO strikes a better balance than DPO in the controlled sentiment generation and single-turn dialogue datasets, and significantly improves the quality of generated responses compared to both DPO and PPO-based RLHF methods. Our code is open-sourced at https://github.com/Vance0124/Token-level-Direct-Preference-Optimization. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# 視線が知覚できる:マルチモーダル大言語モデルの非現実的推論能力のベンチマーク
Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models ( http://arxiv.org/abs/2404.12966v3 ) ライセンス: Link先を確認 | Yian Li, Wentao Tian, Yang Jiao, Jingjing Chen, | (参考訳) カウンターファクチュアル推論は、人間の知性の重要な証明として、確立した事実に基づいて仮定を行い、潜在的な結果を外挿することを指す。
既存のマルチモーダルな大規模言語モデル(MLLM)は、様々なビジュアル質問回答(VQA)ベンチマークで検証された、印象的な認知と推論能力を示した。
それでも、既存のMLLMは、逆問題に直面した場合、どのように機能するのか?
この疑問に答えるために,我々はまず,MLLM の因果推論能力を体系的に評価するために,新規な \textbf{C}ounter\textbf{F}actual \textbf{M}ulti\textbf{M}odal reasoning benchmark をキュレートする。
我々のCFMMは6つの課題から構成されており、それぞれが、多方面にわたるMLLMの対実的推論能力を評価するために、数百の人間ラベル付きおよびGPT生成の対実的質問を含む。
興味深いことに、実験を通して、既存のMLLMは、自分たちが見ているものを信じることを好んでいるが、問題に提示される偽の前提を無視し、不正確な応答をもたらす。
さらに,提案するCFMMを用いて,MLLMを広範囲に評価する。
CFMMのパフォーマンスといくつかのVQAベンチマークとの間の大きなギャップは、既存のMLLMが人間レベルのインテリジェンスに近づくための十分な改善の余地があることを示している。
一方,今後のCFMMにおけるMLLMの性能向上により,高度な知能を持つMLLMの開発に向けた潜在的な道筋を探求することができる。
Counterfactual reasoning, as a crucial manifestation of human intelligence, refers to making presuppositions based on established facts and extrapolating potential outcomes. Existing multimodal large language models (MLLMs) have exhibited impressive cognitive and reasoning capabilities, which have been examined across a wide range of Visual Question Answering (VQA) benchmarks. Nevertheless, how will existing MLLMs perform when faced with counterfactual questions? To answer this question, we first curate a novel \textbf{C}ounter\textbf{F}actual \textbf{M}ulti\textbf{M}odal reasoning benchmark, abbreviated as \textbf{CFMM}, to systematically assess the counterfactual reasoning capabilities of MLLMs. Our CFMM comprises six challenging tasks, each including hundreds of carefully human-labeled and GPT-generated counterfactual questions, to evaluate MLLM's counterfactual reasoning capabilities across diverse aspects. Through experiments, interestingly, we find that existing MLLMs prefer to believe what they see, but ignore the counterfactual presuppositions presented in the question, thereby leading to inaccurate responses. Furthermore, we evaluate a wide range of prevalent MLLMs on our proposed CFMM. The significant gap between their performance on our CFMM and that on several VQA benchmarks indicates that there is still considerable room for improvement in existing MLLMs toward approaching human-level intelligence. On the other hand, through boosting MLLMs performances on our CFMM in the future, potential avenues toward developing MLLMs with advanced intelligence can be explored. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# 最適・バウンドの任意の角度のマルチエージェントパスフィニング
Optimal and Bounded Suboptimal Any-Angle Multi-agent Pathfinding ( http://arxiv.org/abs/2404.16379v2 ) ライセンス: Link先を確認 | Konstantin Yakovlev, Anton Andreychuk, Roni Stern, | (参考訳) マルチエージェントパスフィンディング(MAPF)は、エージェントの集合に対するコンフリクトフリーパスの集合を見つける問題である。
通常、エージェントの動きは、考えられる位置の事前定義されたグラフに制限され、それらの間の遷移を許容する。
本稿では,各エージェントが接続する線分を移動しても,障害物との衝突を起こさない限り,可能な位置を移動可能なMAPF問題の解決方法について検討する。
これは任意の角度のパスフィニングとして知られている。
提案手法は,最初の最適非角度マルチエージェントパスフィンディングアルゴリズムである。
我々のプランナーは、Continuous Conflict-based Search (CCBS)アルゴリズムと、Safe Interval Path Planning (TO-AA-SIPP)の最適な任意の角度の変形に基づいている。
しかし、これらの直接的な組み合わせは、どの角度の経路も非常に大きな分岐係数を持つ探索木を誘導するので、スケールが良くない。
これを緩和するために、古典的MAPFから任意の角度設定、すなわち Disjoint Splitting と Multi-Constraints への2つの手法を適用する。
これらの組み合わせによる実験結果は、CBSとTO-AA-SIPPのバニラ組み合わせよりも30%以上の問題を解くことができることを示している。
さらに,制御された方法でソリューションコストのトレーディングランタイムを実現するアルゴリズムの,有界-準最適変種を提案する。
Multi-agent pathfinding (MAPF) is the problem of finding a set of conflict-free paths for a set of agents. Typically, the agents' moves are limited to a pre-defined graph of possible locations and allowed transitions between them, e.g. a 4-neighborhood grid. We explore how to solve MAPF problems when each agent can move between any pair of possible locations as long as traversing the line segment connecting them does not lead to a collision with the obstacles. This is known as any-angle pathfinding. We present the first optimal any-angle multi-agent pathfinding algorithm. Our planner is based on the Continuous Conflict-based Search (CCBS) algorithm and an optimal any-angle variant of the Safe Interval Path Planning (TO-AA-SIPP). The straightforward combination of those, however, scales poorly since any-angle path finding induces search trees with a very large branching factor. To mitigate this, we adapt two techniques from classical MAPF to the any-angle setting, namely Disjoint Splitting and Multi-Constraints. Experimental results on different combinations of these techniques show they enable solving over 30% more problems than the vanilla combination of CCBS and TO-AA-SIPP. In addition, we present a bounded-suboptimal variant of our algorithm, that enables trading runtime for solution cost in a controlled manner. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# Markov Flow Policy -- Deep MC
Markov flow policy -- deep MC ( http://arxiv.org/abs/2405.00877v3 ) ライセンス: Link先を確認 | Nitsan Soffair, Gilad Katz, | (参考訳) 分散アルゴリズムは、短期的な推定に依存するため、しばしば評価エラーに遭遇し、単純で短期的なタスクに対処し、望ましくない時間的割引(\(\gamma\))を課す効果を阻害する。
興味深いことに、これらのアルゴリズムは割引を適用することなくテストされることが多く、これは \textit{train-test bias} と呼ばれる現象である。
これらの課題に対応するために、我々は、非負のニューラルネットワークフローを利用して総合的な前方視予測を可能にするマルコフフローポリシーを提案する。
TD7コードベースへの統合と MuJoCo ベンチマークによる評価を通じて,MFP を平均報酬アルゴリズムの領域内での単純で実践的で実装が容易なソリューションとして位置づけ,大幅なパフォーマンス向上を観測した。
Discounted algorithms often encounter evaluation errors due to their reliance on short-term estimations, which can impede their efficacy in addressing simple, short-term tasks and impose undesired temporal discounts (\(\gamma\)). Interestingly, these algorithms are often tested without applying a discount, a phenomenon we refer as the \textit{train-test bias}. In response to these challenges, we propose the Markov Flow Policy, which utilizes a non-negative neural network flow to enable comprehensive forward-view predictions. Through integration into the TD7 codebase and evaluation using the MuJoCo benchmark, we observe significant performance improvements, positioning MFP as a straightforward, practical, and easily implementable solution within the domain of average rewards algorithms. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# Hoaxpedia:ウィキペディアのHoax記事データセットを統一
Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset ( http://arxiv.org/abs/2405.02175v3 ) ライセンス: Link先を確認 | Hsuvas Borkakoty, Luis Espinosa-Anke, | (参考訳) Hoaxesは意図的に作成された偽情報の一種であり、ウィキペディアのような参照知識資源の信頼性に深刻な影響を及ぼす可能性がある。
ウィキペディアの検出が難しいのは、公式のスタイルガイドラインに従ってしばしば書かれることです。
本稿ではまず,正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析し,既存の文献や公式ウィキペディアリストから311個のホックス記事を集めたHoaxpediaを紹介する。
本稿では,複数の言語モデル,Hoax-to-legit比,テキスト分類器の量(記事と記事の定義のみ)を分析した結果について報告する。
以上の結果から,ウィキペディアのコンテンツのみに基づく偽コンテンツの検出は困難だが実現可能であることが示唆され,編集履歴の分布の違いから分析を補完する結果を得た。
Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 hoax articles (from existing literature and official Wikipedia lists), together with semantically similar legitimate articles, which together form a binary text classification dataset aimed at fostering research in automated hoax detection. In this paper, We report results after analyzing several language models, hoax-to-legit ratios, and the amount of text classifiers are exposed to (full article vs the article's definition alone). Our results suggest that detecting deceitful content in Wikipedia based on content alone is hard but feasible, and complement our analysis with a study on the differences in distributions in edit histories, and find that looking at this feature yields better classification results than context. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# 信念進化ネットワークによる異方性カノニカル分解
Isopignistic Canonical Decomposition via Belief Evolution Network ( http://arxiv.org/abs/2405.02653v2 ) ライセンス: Link先を確認 | Qianli Zhou, Tianxiang Zhan, Yong Deng, | (参考訳) 不確実な環境での汎用情報処理モデルの開発は、説明可能な人工知能の発展に不可欠である。
デンプスター・シェーファーのエビデンスの理論は、主観的確率論と可能性理論と密接に関連しているてんかんの不確実性を表現するためのよく知られた効果的な推論方法である。
特定の信念構造の下では相互に変換できるが、情報処理の統一的なアプローチと同様に、明確かつ解釈可能な変換プロセスが欠如している。
本稿では,同義的信念関数と超注意的伝達可能信念モデルの観点から,これらの課題に対処することを目的とする。
まず,信念進化ネットワークに基づく同義変換を提案する。
この変換は、潜在的な決定結果を保ちながら、情報グラニュラーの調整を可能にする。
等比変換は、新しい正準分解を確立するために、超注意的な伝達可能な信念モデルと統合される。
この分解は、可能性分布とその同型質量関数の間の逆経路を与える。
正準分解の結果は等比関数と呼ばれ、BPAの正当性と相対コミットメント度を反映した同一の情報量分布である。
さらに,同義性関数を調整して基本信念の割り当てを再構築する手法を提案する。
過注意な伝達可能な信念モデルにおける不確実性のモデリングと処理におけるこのアプローチの利点を探求する。
より一般に、確率論、デンプスター・シェーファー理論、可能性理論に基づく人工知能の一般モデルを構築するための理論的基盤を確立する。
Developing a general information processing model in uncertain environments is fundamental for the advancement of explainable artificial intelligence. Dempster-Shafer theory of evidence is a well-known and effective reasoning method for representing epistemic uncertainty, which is closely related to subjective probability theory and possibility theory. Although they can be transformed to each other under some particular belief structures, there remains a lack of a clear and interpretable transformation process, as well as a unified approach for information processing. In this paper, we aim to address these issues from the perspectives of isopignistic belief functions and the hyper-cautious transferable belief model. Firstly, we propose an isopignistic transformation based on the belief evolution network. This transformation allows for the adjustment of the information granule while retaining the potential decision outcome. The isopignistic transformation is integrated with a hyper-cautious transferable belief model to establish a new canonical decomposition. This decomposition offers a reverse path between the possibility distribution and its isopignistic mass functions. The result of the canonical decomposition, called isopignistic function, is an identical information content distribution to reflect the propensity and relative commitment degree of the BPA. Furthermore, this paper introduces a method to reconstruct the basic belief assignment by adjusting the isopignistic function. It explores the advantages of this approach in modeling and handling uncertainty within the hyper-cautious transferable belief model. More general, this paper establishes a theoretical basis for building general models of artificial intelligence based on probability theory, Dempster-Shafer theory, and possibility theory. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# レーザーエスケープ:光学探査攻撃の検出と緩和
LaserEscape: Detecting and Mitigating Optical Probing Attacks ( http://arxiv.org/abs/2405.03632v2 ) ライセンス: Link先を確認 | Saleh Khalaj Monfared, Kyle Mitard, Andrew Cannon, Domenic Forte, Shahin Tajik, | (参考訳) 集積回路(IC)のセキュリティは、故障解析手法に依存する高度な物理攻撃によって破壊される可能性がある。
光探査はそのような攻撃の最も顕著な例の1つであり、攻撃中のICの知識が限られているにもかかわらず、数日のうちに達成できる。
残念なことに、文献にはほとんど対策が提案されておらず、実際に作られたものや試験は行われていない。
これらの対策は通常、標準のセルライブラリを変更する必要があり、フィールドプログラマブルゲートアレイ(FPGA)のようなデジタルおよびプログラム可能なプラットフォームと互換性がない。
本研究では,攻撃の防止から検出・応答へと注意を移す。
我々は、光学探査攻撃を検出し軽減するための、最初の完全デジタルかつFPGA互換の対策であるLaserEscapeを紹介する。
LaserEscapeにはデジタル遅延ベースのセンサーが組み込まれており、レーザー光による布の物理的変化をリアルタイムで確実に検出する。
さらに、攻撃に対する応答として、LaserEscapeはランダム化されたハードウェア再構成性を使用して、リアルタイムの隠れアプローチをデプロイする。
それは気付きます
1)標的防御(MTD)を移動させ、秘密鍵の保護のために焦点の探究領域から攻撃対象の機密回路を物理的に移動させる。
2) 目的回路の機能を論理的に難読化し, 機能抽出やリバースエンジニアリングの試みに対処する多型。
28nmFPGA上で保護・保護されていない設計に対して光探査攻撃を行うことにより,本手法の有効性とレジリエンスを実証する。
以上の結果から,チップの動作を中断することなく,光探傷攻撃を確実に検出・緩和できることが示唆された。
The security of integrated circuits (ICs) can be broken by sophisticated physical attacks relying on failure analysis methods. Optical probing is one of the most prominent examples of such attacks, which can be accomplished in a matter of days, even with limited knowledge of the IC under attack. Unfortunately, few countermeasures are proposed in the literature, and none has been fabricated and tested in practice. These countermeasures usually require changing the standard cell libraries and, thus, are incompatible with digital and programmable platforms, such as field programmable gate arrays (FPGAs). In this work, we shift our attention from preventing the attack to detecting and responding to it. We introduce LaserEscape, the first fully digital and FPGA-compatible countermeasure to detect and mitigate optical probing attacks. LaserEscape incorporates digital delay-based sensors to reliably detect the physical alteration on the fabric caused by laser beam irradiations in real time. Furthermore, as a response to the attack, LaserEscape deploys real-time hiding approaches using randomized hardware reconfigurability. It realizes 1) moving target defense (MTD) to physically move the sensitive circuity under attack out of the probing field of focus to protect secret keys and 2) polymorphism to logically obfuscate the functionality of the targeted circuit to counter function extraction and reverse engineering attempts. We demonstrate the effectiveness and resiliency of our approach by performing optical probing attacks on protected and unprotected designs on a 28-nm FPGA. Our results show that optical probing attacks can be reliably detected and mitigated without interrupting the chip's operation. | 翻訳日:2024-09-02 20:01:42 公開日:2024-08-30 |
# 軽量画像超解像のための大規模座標カーネルアテンションネットワーク
Large coordinate kernel attention network for lightweight image super-resolution ( http://arxiv.org/abs/2405.09353v2 ) ライセンス: Link先を確認 | Fangwei Hao, Jiesheng Wu, Haotian Lu, Ji Du, Jing Xu, Xiaoxuan Xu, | (参考訳) マルチスケールの受容場と大きなカーネルアテンション (LKA) モジュールは、軽量画像超分解能タスクの性能を著しく向上することが示されている。
しかし、既存の軽量超解像法(SR)は、局所モデリングのためのマルチスケールの受容場を持つ効率的なビルディングブロックの設計にはほとんど注意を払わず、LKAモジュールは、畳み込みカーネルのサイズが大きくなるにつれて、計算量とメモリフットプリントの2次的な増加に直面している。
最初の課題に対処するために,マルチスケールの分離可能な畳み込み(MBSConv)をマルチスケールの受容場を持つ高効率なビルディングブロックとして提案し,識別表現の重要な要素であるマルチスケール情報の学習に焦点を合わせることができる。
第2の課題は、LKAの鍵となる特性を再考し、ローカル情報と長距離依存の直接的な相互作用は、顕著な性能を提供するために重要であることを発見した。
そこで本研究では,LKAの複雑さを緩和するために,LKAの深度方向の畳み込みレイヤの2次元畳み込みカーネルを水平および垂直1次元カーネルに分解する大規模な座標カーネルアテンション(LCKA)モジュールを提案する。
LCKAは、水平方向だけでなく垂直方向でも、局所情報と長距離依存の直接的な相互作用を可能にする。
さらに、LCKAは、深度的な畳み込み層において非常に大きなカーネルを直接使用することで、よりコンテキスト的な情報をキャプチャし、再構成性能を大幅に向上させ、計算複雑性とメモリフットプリントを低下させる。
MBSConvとLCKAを統合し,大規模なカーネルアテンションネットワーク(LCAN)を提案する。
The multi-scale receptive field and large kernel attention (LKA) module have been shown to significantly improve performance in the lightweight image super-resolution task. However, existing lightweight super-resolution (SR) methods seldom pay attention to designing efficient building block with multi-scale receptive field for local modeling, and their LKA modules face a quadratic increase in computational and memory footprints as the convolutional kernel size increases. To address the first issue, we propose the multi-scale blueprint separable convolutions (MBSConv) as highly efficient building block with multi-scale receptive field, it can focus on the learning for the multi-scale information which is a vital component of discriminative representation. As for the second issue, we revisit the key properties of LKA in which we find that the adjacent direct interaction of local information and long-distance dependencies is crucial to provide remarkable performance. Thus, taking this into account and in order to mitigate the complexity of LKA, we propose a large coordinate kernel attention (LCKA) module which decomposes the 2D convolutional kernels of the depth-wise convolutional layers in LKA into horizontal and vertical 1-D kernels. LCKA enables the adjacent direct interaction of local information and long-distance dependencies not only in the horizontal direction but also in the vertical. Besides, LCKA allows for the direct use of extremely large kernels in the depth-wise convolutional layers to capture more contextual information, which helps to significantly improve the reconstruction performance, and it incurs lower computational complexity and memory footprints. Integrating MBSConv and LCKA, we propose a large coordinate kernel attention network (LCAN). | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# リプシッツ境界政策ネットワークを用いたロバスト強化学習について
On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks ( http://arxiv.org/abs/2405.11432v2 ) ライセンス: Link先を確認 | Nicholas H. Barbara, Ruigang Wang, Ian R. Manchester, | (参考訳) 本稿では, 深層強化学習におけるロバストな政策ネットワークについて考察する。
リプシッツ境界上の制約を自然に満たす政策パラメータ化の利点を考察し、その経験的性能と2つの代表的な問題(振り子揺らぎとアタリポン)の堅牢性について分析する。
より小さなリプシッツ境界を持つポリシネットワークは、バニラ多層パーセプトロンや畳み込みニューラルネットワークで構成された制約のないポリシーよりも、障害、ランダムノイズ、標的敵攻撃に対して堅牢であることを示す。
しかし、リプシッツ層の構造は重要である。
最近提案したサンドウィッチ層のような表現力のあるリプシッツ層は, クリーン性能を犠牲にすることなく, 堅牢性を向上することができる。
This paper presents a study of robust policy networks in deep reinforcement learning. We investigate the benefits of policy parameterizations that naturally satisfy constraints on their Lipschitz bound, analyzing their empirical performance and robustness on two representative problems: pendulum swing-up and Atari Pong. We illustrate that policy networks with smaller Lipschitz bounds are more robust to disturbances, random noise, and targeted adversarial attacks than unconstrained policies composed of vanilla multi-layer perceptrons or convolutional neural networks. However, the structure of the Lipschitz layer is important. We find that the widely-used method of spectral normalization is too conservative and severely impacts clean performance, whereas more expressive Lipschitz layers such as the recently-proposed Sandwich layer can achieve improved robustness without sacrificing clean performance. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# 機械学習とWi-Fi: AI/ML-Native IEEE 802.11ネットワークへの道を開く
Machine Learning & Wi-Fi: Unveiling the Path Towards AI/ML-Native IEEE 802.11 Networks ( http://arxiv.org/abs/2405.11504v2 ) ライセンス: Link先を確認 | Francesc Wilhelmi, Szymon Szott, Katarzyna Kosek-Szott, Boris Bellalta, | (参考訳) 人工知能(AI)と機械学習(ML)は、現在、未来の通信システムの進化を駆動するために欠かせない技術と考えられている成熟した技術である。
同時に、Wi-Fi技術は過去30年にわたって常に進化し、新しい機能を世代ごとに導入し、複雑さを増している。
そのため、研究者たちは、従来のアプローチでは解決が難しい今後のWi-Fi課題に対処するために、AI/MLの機能が必要かもしれないことを見てきた。
本稿では,現在および将来のWi-FiネットワークにおけるAI/MLの役割について論じ,今後の展開について述べる。
AI/MLネイティブWi-Fi、主要な課題、標準化の取り組み、主要なイネーブラーへのロードマップも議論されている。
異なる採用段階において、Wi-FiにおけるAI/MLの可能性を示すための模範的なユースケースが提供される。
Artificial intelligence (AI) and machine learning (ML) are nowadays mature technologies considered essential for driving the evolution of future communications systems. Simultaneously, Wi-Fi technology has constantly evolved over the past three decades and incorporated new features generation after generation, thus gaining in complexity. As such, researchers have observed that AI/ML functionalities may be required to address the upcoming Wi-Fi challenges that will be otherwise difficult to solve with traditional approaches. This paper discusses the role of AI/ML in current and future Wi-Fi networks and depicts the ways forward. A roadmap towards AI/ML-native Wi-Fi, key challenges, standardization efforts, and major enablers are also discussed. An exemplary use case is provided to showcase the potential of AI/ML in Wi-Fi at different adoption stages. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# エンタープライズRAGのための原子単位を用いた質問ベース検索
Question-Based Retrieval using Atomic Units for Enterprise RAG ( http://arxiv.org/abs/2405.12363v2 ) ライセンス: Link先を確認 | Vatsal Raina, Mark Gales, | (参考訳) エンタープライズ検索拡張生成(RAG)は、強力な大規模言語モデル(LLM)と内部的、あるいは時間的に変化する文書を組み合わせるための、非常に柔軟なフレームワークを提供する。
RAGでは、文書はまずチャンクされる。
関連チャンクはユーザクエリに対して検索され、コンテクストとしてシンセサイザーLLMに渡されてクエリ応答を生成する。
しかし、誤ったチャンクがシンセサイザーLLMを誘導して誤応答を発生させるため、検索ステップは性能を制限できる。
この研究は、より正確なチャンクリのために、標準密度検索ステップのゼロショット適応を適用した。
具体的には、チャンクをまず原子ステートメントに分解する。
合成質問の集合がこれらの原子上で生成される(コンテキストとしてチャンクが用いられる)。
センス検索は、ユーザクエリに最も近い合成質問と関連するチャンクを見つけることを伴う。
その結果,原子による検索はチャンクによる検索よりも高いリコールにつながることがわかった。
原子上に生成した合成質問を用いた検索により、さらなる性能向上が観察された。
検索ステップでのリコールの高速化により、RAGパイプラインを使用したエンタープライズLLMのパフォーマンスの向上が可能となる。
Enterprise retrieval augmented generation (RAG) offers a highly flexible framework for combining powerful large language models (LLMs) with internal, possibly temporally changing, documents. In RAG, documents are first chunked. Relevant chunks are then retrieved for a user query, which are passed as context to a synthesizer LLM to generate the query response. However, the retrieval step can limit performance, as incorrect chunks can lead the synthesizer LLM to generate a false response. This work applies a zero-shot adaptation of standard dense retrieval steps for more accurate chunk recall. Specifically, a chunk is first decomposed into atomic statements. A set of synthetic questions are then generated on these atoms (with the chunk as the context). Dense retrieval involves finding the closest set of synthetic questions, and associated chunks, to the user query. It is found that retrieval with the atoms leads to higher recall than retrieval with chunks. Further performance gain is observed with retrieval using the synthetic questions generated over the atoms. Higher recall at the retrieval step enables higher performance of the enterprise LLM using the RAG pipeline. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# 動的語彙を用いた文脈自動音声認識
Contextualized Automatic Speech Recognition with Dynamic Vocabulary ( http://arxiv.org/abs/2405.13344v2 ) ライセンス: Link先を確認 | Yui Sudo, Yosuke Fukumoto, Muhammad Shakeel, Yifan Peng, Shinji Watanabe, | (参考訳) ディープバイアス(DB)は、バイアスリストを用いて、まれな単語や文脈句に対するエンドツーエンドの自動音声認識(E2E-ASR)モデルの性能を向上させる。
しかし、既存のほとんどの手法では、バイアスフレーズを事前定義された静的語彙のサブワードのシーケンスとして扱う。
この単純配列分解は不自然なトークンパターンを生じさせ、発生確率を著しく低下させる。
より高度な技術は、外部言語モデルの浅い融合や再描画を含む追加モジュールで語彙を拡張することでこの問題に対処する。
しかし、追加のモジュールによってワークロードが増加します。
本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
このアプローチでは、バイアスフレーズ内でサブワードの依存関係を学ぶ必要がなくなる。
この方法は、一般的なE2E-ASRアーキテクチャにおいて、埋め込み層と出力層のみを拡張するため、様々なアーキテクチャに容易に適用できる。
実験の結果,提案手法は従来のDB法と比較して,英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
Deep biasing (DB) enhances the performance of end-to-end automatic speech recognition (E2E-ASR) models for rare words or contextual phrases using a bias list. However, most existing methods treat bias phrases as sequences of subwords in a predefined static vocabulary. This naive sequence decomposition produces unnatural token patterns, significantly lowering their occurrence probability. More advanced techniques address this problem by expanding the vocabulary with additional modules, including the external language model shallow fusion or rescoring. However, they result in increasing the workload due to the additional modules. This paper proposes a dynamic vocabulary where bias tokens can be added during inference. Each entry in a bias list is represented as a single token, unlike a sequence of existing subword tokens. This approach eliminates the need to learn subword dependencies within the bias phrases. This method is easily applied to various architectures because it only expands the embedding and output layers in common E2E-ASR architectures. Experimental results demonstrate that the proposed method improves the bias phrase WER on English and Japanese datasets by 3.1 -- 4.9 points compared with the conventional DB method. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# 磁気メトリーにおけるエネルギー分解能限界の量子熱力学的導出
Quantum thermodynamic derivation of the energy resolution limit in magnetometry ( http://arxiv.org/abs/2405.14687v3 ) ライセンス: Link先を確認 | I. K. Kominis, | (参考訳) 近年, 磁界推定値, センサ体積, 測定時間, および作用単位の分散によって構成される量とを$\hbar$で結合するエネルギー分解能限界を, 多数の磁気センサ技術の実現が満足していることが実証された。
この極限の第一原理の導出はいまだ解明されていない。
ここでは、量子熱力学の議論に基づく導出について述べる。
エネルギー分解限界は、量子計測とランダウアー消去に必然的に関係し、磁場と交換される量子熱力学の結果であることを示す。
これらの考察を原子磁気センサ、ダイヤモンド磁気センサ、SQUIDに適用し、エネルギー分解能の限界を10^0\hbar$から10^7\hbar$に広げる。
この量子熱力学と磁気学の接続は、より敏感なデバイスへの量子センシング技術の進歩に役立つ。
It was recently demonstrated that a multitude of realizations of several magnetic sensing technologies satisfy the energy resolution limit, which connects a quantity composed by the variance of the magnetic field estimate, the sensor volume and the measurement time, and having units of action, with $\hbar$. A first-principles derivation of this limit is still elusive. We here present such a derivation based on quantum thermodynamic arguments. We show that the energy resolution limit is a result of quantum thermodynamic work necessarily associated with quantum measurement and Landauer erasure, the work being exchanged with the magnetic field. We apply these considerations to atomic magnetometers, diamond magnetometers, and SQUIDs, spanning an energy resolution limit from $10^0\hbar$ to $10^7\hbar$. This connection between quantum thermodynamics and magnetometry can help advance quantum sensing technologies towards even more sensitive devices. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# RT-GS2:Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields
RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields ( http://arxiv.org/abs/2405.18033v2 ) ライセンス: Link先を確認 | Mihnea-Bogdan Jurca, Remco Royen, Ion Giosan, Adrian Munteanu, | (参考訳) ガウシアン・スプレイティングは、リアルタイムに高いレンダリング性能を達成することによって、新しいビュー合成の世界に革命をもたらした。
近年,下流タスクのセマンティック情報を用いた3次元表現の強化に焦点が当てられている。
本稿では,ガウススティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
既存のガウスのSplattingベースのアプローチはシーン固有のトレーニングに依存しているが、RT-GS2は見えないシーンに一般化する能力を示している。
本稿では,ビュー非依存な3次元ガウス特徴を自己教師付きで抽出し,新しいビュー依存/ビュー非依存(VDVI)機能融合により,ビュー間のセマンティック一貫性を向上する手法を提案する。
3つの異なるデータセットに対する大規模な実験では、RT-GS2がセマンティックセグメンテーションの品質における最先端の手法よりも優れていることが示され、ReplicaデータセットではmIoUが8.01%増加した。
さらに,提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
この研究は、我々の知る限り、放射場の3次元ガウス表現に対する初めてのリアルタイム一般化可能なセマンティックセマンティックセグメンテーション法を導入することで、この分野における重要な進歩を示している。
Gaussian Splatting has revolutionized the world of novel view synthesis by achieving high rendering performance in real-time. Recently, studies have focused on enriching these 3D representations with semantic information for downstream tasks. In this paper, we introduce RT-GS2, the first generalizable semantic segmentation method employing Gaussian Splatting. While existing Gaussian Splatting-based approaches rely on scene-specific training, RT-GS2 demonstrates the ability to generalize to unseen scenes. Our method adopts a new approach by first extracting view-independent 3D Gaussian features in a self-supervised manner, followed by a novel View-Dependent / View-Independent (VDVI) feature fusion to enhance semantic consistency over different views. Extensive experimentation on three different datasets showcases RT-GS2's superiority over the state-of-the-art methods in semantic segmentation quality, exemplified by a 8.01% increase in mIoU on the Replica dataset. Moreover, our method achieves real-time performance of 27.03 FPS, marking an astonishing 901 times speedup compared to existing approaches. This work represents a significant advancement in the field by introducing, to the best of our knowledge, the first real-time generalizable semantic segmentation method for 3D Gaussian representations of radiance fields. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# エキスパート Token Resonance:親和性駆動型アクティブセレクションによるMoEルーティングの再定義
Expert-Token Resonance: Redefining MoE Routing through Affinity-Driven Active Selection ( http://arxiv.org/abs/2406.00023v2 ) ライセンス: Link先を確認 | Jing Li, Zhijie Sun, Dachao Lin, Xuan He, Yi Lin, Binfan Zheng, Li Zeng, Rongqian Zhao, Xin Chen, | (参考訳) Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場し、前例のない計算効率を提供している。
しかし、これらのアーキテクチャはトークン分布の不均衡や専門家の均質化といった課題に対処し、最適な意味一般化を妨げている。
親和性駆動型アクティブセレクションによるMoEルーティングを再定義する新しいフレームワークを提案する。
フレームワークのイノベーションは、(1)専門家と知識の親和性メトリクスの厳密な定式化である。
2)専門家とトークンの共振を利用した適応的双方向選択機構
(3)動的トークン分布の進化における専門家の容量制限の理論的導出と実験的証拠。
また、直交的特徴抽出モジュールや、専門家のローカライゼーションのための最適化された損失関数とも統合されている。
理論的解析により,本手法は高いキャパシティ・バウンダリ・リダクションを実現しつつ,専門家の均質化を緩和することを示した。
モデル収束や有効性を損なうことなく、各専門家が処理するトークンの40%の削減を達成する。
通信最適化と組み合わせることで、トレーニング効率が5.4%から46.6%向上することが観察できる。
微調整を監督した後、GDAD、C-Eval、TeleQnAベンチマークで9.7%から14.1%のパフォーマンス向上を示した。
Mixture-of-Experts (MoE) architectures have emerged as a paradigm-shifting approach for large language models (LLMs), offering unprecedented computational efficiency. However, these architectures grapple with challenges of token distribution imbalance and expert homogenization, impeding optimal semantic generalization. We introduce a novel framework that redefines MoE routing through affinity-driven active selection. The innovations for the framework encompass: (1) A rigorous formulation of expert-token affinity metrics. (2) An adaptive bidirectional selection mechanism leveraging resonance between experts and tokens. (3) Theoretical derivation and experimental evidence of reduced expert capacity bounds under dynamic token distribution evolution. It is also integrated with orthogonal feature extraction module and an optimized loss function for expert localization. Our theoretical analysis demonstrates that this approach mitigates expert homogenization while enabling substantial capacity boundary reduction. Experimental validation corroborates these findings: it achieves a 40% reduction in token processed by each expert without compromising model convergence or efficacy. When coupled with communication optimizations, the training efficiency improvements of 5.4% to 46.6% can be observed. After supervised fine-tuning, it exhibits performance gains of 9.7% to 14.1% across GDAD, C-Eval, and TeleQnA benchmarks. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# MiniGPT-Reverse-Designing: MiniGPT-4を用いた画像調整予測
MiniGPT-Reverse-Designing: Predicting Image Adjustments Utilizing MiniGPT-4 ( http://arxiv.org/abs/2406.00971v2 ) ライセンス: Link先を確認 | Vahid Azizi, Fatemeh Koochaki, | (参考訳) VLM(Vision-Language Models)は近年,LLM(Large Language Models)との統合によって,大幅な進歩を遂げている。
画像とテキストのモダリティを同時に処理するVLMは、様々なマルチモーダルタスクにおける画像とテキスト間の相互作用を学習し、理解する能力を示している。
複雑な視覚言語タスクとして定義できるリバースデザインは、ソースイメージ、編集バージョン、オプションの高レベルテキスト編集記述を与えられたときに、編集とそのパラメータを予測することを目的としている。
このタスクでは、VLMは、ソースイメージ、編集されたバージョン、オプションのテキストコンテキスト間の相互作用を、従来の視覚言語タスクを超えて同時に理解する必要がある。
本稿では,逆設計タスクのためにMiniGPT-4を拡張し,微調整する。
本実験では, 逆設計などの複雑なタスクに対して, 市販VLM, 特にMiniGPT-4の拡張性を示す。
code is available at this \href{https://github.com/VahidAz/MiniGPT-Reverse-Designing}
Vision-Language Models (VLMs) have recently seen significant advancements through integrating with Large Language Models (LLMs). The VLMs, which process image and text modalities simultaneously, have demonstrated the ability to learn and understand the interaction between images and texts across various multi-modal tasks. Reverse designing, which could be defined as a complex vision-language task, aims to predict the edits and their parameters, given a source image, an edited version, and an optional high-level textual edit description. This task requires VLMs to comprehend the interplay between the source image, the edited version, and the optional textual context simultaneously, going beyond traditional vision-language tasks. In this paper, we extend and fine-tune MiniGPT-4 for the reverse designing task. Our experiments demonstrate the extensibility of off-the-shelf VLMs, specifically MiniGPT-4, for more complex tasks such as reverse designing. Code is available at this \href{https://github.com/VahidAz/MiniGPT-Reverse-Designing} | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# DreamPhysics:ビデオ拡散プリミティブを用いた動的3次元ガウスの物理特性の学習
DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors ( http://arxiv.org/abs/2406.01476v2 ) ライセンス: Link先を確認 | Tianyu Huang, Haoze Zhang, Yihan Zeng, Zhilu Zhang, Hui Li, Wangmeng Zuo, Rynson W. H. Lau, | (参考訳) 動的3Dインタラクションは最近、多くの注目を集めています。
しかし、4Dコンテンツを作るのはまだ難しい。
1つの解決策は、物理に基づくシミュレーションで3Dシーンをアニメーションすることであり、オブジェクトに正確な物理的特性を手動で割り当てるか、シミュレーション結果が不自然なものになる。
もう一つの解決策は、ビデオ生成モデルの蒸留により3Dオブジェクトの変形を学習することであり、これは、物理前の不適切な抽出と適用により、小さく連続的な動きを持つ3Dビデオを生成する傾向がある。
本研究は, 上記の2つの解の長所と短所を組み合わせ, 映像拡散前の物質場の物理的特性を学習し, 物理に基づく物質点法シミュレータを用いて現実的な動きを伴う4次元コンテンツを生成することを提案する。
特に,本研究では,蒸留中の映像の動作情報を強調するため,モーション蒸留サンプリングを提案する。
さらに, この最適化を容易にするために, フレームブースティングを施したkan系材料フィールドを提案する。
実験により,本手法は最先端技術よりもリアルな動きを楽しめることが示された。
コードはhttps://github.com/tyhuang0428/DreamPhysics.comで公開されている。
Dynamic 3D interaction has been attracting a lot of attention recently. However, creating such 4D content remains challenging. One solution is to animate 3D scenes with physics-based simulation, which requires manually assigning precise physical properties to the object or the simulated results would become unnatural. Another solution is to learn the deformation of 3D objects with the distillation of video generative models, which, however, tends to produce 3D videos with small and discontinuous motions due to the inappropriate extraction and application of physical prior. In this work, combining the strengths and complementing shortcomings of the above two solutions, we propose to learn the physical properties of a material field with video diffusion priors, and then utilize a physics-based Material-Point-Method (MPM) simulator to generate 4D content with realistic motions. In particular, we propose motion distillation sampling to emphasize video motion information during distillation. Moreover, to facilitate the optimization, we further propose a KAN-based material field with frame boosting. Experimental results demonstrate that our method enjoys more realistic motion than state-of-the-arts. Codes are released at: https://github.com/tyhuang0428/DreamPhysics. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# 気象予測の強化:深部拡散モデルによる超解法
Enhancing Weather Predictions: Super-Resolution via Deep Diffusion Models ( http://arxiv.org/abs/2406.04099v2 ) ライセンス: Link先を確認 | Jan Martinů, Petr Šimánek, | (参考訳) 本研究では,気象データの超解像に対する深層学習拡散モデルの適用について検討した。
拡散モデル,特にSR3およびResDiffアーキテクチャの機能を活用し,低分解能気象データを高分解能出力に変換する手法を提案する。
WeatherBenchデータセットを用いて実施した実験では,2メートル温度変数の超解像に着目し,詳細な正確な気象図を作成する能力を示した。
その結果,ResDiffモデルはさらに改良され,従来のSR3法よりも平均二乗誤差(MSE),構造類似度指数(SSIM),ピーク信号対雑音比(PSNR)が大幅に向上した。
この研究は気象学的な応用における拡散モデルの可能性を強調し、気象予測と気候分析の今後の進歩に対するその効果、課題、展望について洞察を提供する。
This study investigates the application of deep-learning diffusion models for the super-resolution of weather data, a novel approach aimed at enhancing the spatial resolution and detail of meteorological variables. Leveraging the capabilities of diffusion models, specifically the SR3 and ResDiff architectures, we present a methodology for transforming low-resolution weather data into high-resolution outputs. Our experiments, conducted using the WeatherBench dataset, focus on the super-resolution of the two-meter temperature variable, demonstrating the models' ability to generate detailed and accurate weather maps. The results indicate that the ResDiff model, further improved by incorporating physics-based modifications, significantly outperforms traditional SR3 methods in terms of Mean Squared Error (MSE), Structural Similarity Index (SSIM), and Peak Signal-to-Noise Ratio (PSNR). This research highlights the potential of diffusion models in meteorological applications, offering insights into their effectiveness, challenges, and prospects for future advancements in weather prediction and climate analysis. | 翻訳日:2024-09-02 19:51:26 公開日:2024-08-30 |
# Hydra-MDP:マルチターゲットハイドラ蒸留によるエンドツーエンドマルチモーダルプランニング
Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation ( http://arxiv.org/abs/2406.06978v4 ) ライセンス: Link先を確認 | Zhenxin Li, Kailin Li, Shihao Wang, Shiyi Lan, Zhiding Yu, Yishen Ji, Zhiqi Li, Ziyue Zhu, Jan Kautz, Zuxuan Wu, Yu-Gang Jiang, Jose M. Alvarez, | (参考訳) 教師-学生モデルに複数の教師を取り入れた新しいパラダイムであるHydra-MDPを提案する。
このアプローチでは、人間とルールベースの教師の両方から知識を蒸留して学生モデルを訓練し、様々な評価指標に合わせて様々な軌道候補を学習するマルチヘッドデコーダを特徴とする。
ルールベースの教師の知識により、Hydra-MDPは、非微分不可能なポストプロセッシングに頼るのではなく、エンド・ツー・エンドの方法で環境がプランニングにどのように影響するかを学ぶ。
この手法はナブシム問題において1^{st}$の精度を達成し、様々な運転環境や条件における一般化の大幅な改善を示す。
詳細は \url{https://github.com/NVlabs/Hydra-MDP} を参照してください。
We propose Hydra-MDP, a novel paradigm employing multiple teachers in a teacher-student model. This approach uses knowledge distillation from both human and rule-based teachers to train the student model, which features a multi-head decoder to learn diverse trajectory candidates tailored to various evaluation metrics. With the knowledge of rule-based teachers, Hydra-MDP learns how the environment influences the planning in an end-to-end manner instead of resorting to non-differentiable post-processing. This method achieves the $1^{st}$ place in the Navsim challenge, demonstrating significant improvements in generalization across diverse driving environments and conditions. More details by visiting \url{https://github.com/NVlabs/Hydra-MDP}. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# ブロックベースアテンションマスクを用いた効率的かつ効率的な非自己回帰復号化に向けて
Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask ( http://arxiv.org/abs/2406.10034v3 ) ライセンス: Link先を確認 | Tianzi Wang, Xurong Xie, Zhaoqing Li, Shoukang Hu, Zengrui Jin, Jiajun Deng, Mingyu Cui, Shujie Hu, Mengzhe Geng, Guinan Li, Helen Meng, Xunying Liu, | (参考訳) 本稿では,非自己回帰(NAR)ブロックベースのアテンションマスクデコーダ(AMD)を提案する。
AMDは、アテンションマスクを用いて隠蔽される出力ラベルの連続ブロック内で並列なNAR推論を行い、ブロック間の左から右へのAR予測と履歴コンテキストのアマルガメーションを行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダは、ベースラインのCTC+ARデコードに対して最大1.73xのデコード速度比を発生させるが、テストセットに統計的に有意な単語誤り率(WER)が増加しないことを示唆している。
同じデコードリアルタイム因子で操作すると、CTC+ARベースライン上で統計学的に重要なWERの最大0.7%と0.3%の絶対値(5.3%と6.1%の相対値)が得られた。
This paper proposes a novel non-autoregressive (NAR) block-based Attention Mask Decoder (AMD) that flexibly balances performance-efficiency trade-offs for Conformer ASR systems. AMD performs parallel NAR inference within contiguous blocks of output labels that are concealed using attention masks, while conducting left-to-right AR prediction and history context amalgamation between blocks. A beam search algorithm is designed to leverage a dynamic fusion of CTC, AR Decoder, and AMD probabilities. Experiments on the LibriSpeech-100hr corpus suggest the tripartite Decoder incorporating the AMD module produces a maximum decoding speed-up ratio of 1.73x over the baseline CTC+AR decoding, while incurring no statistically significant word error rate (WER) increase on the test sets. When operating with the same decoding real time factors, statistically significant WER reductions of up to 0.7% and 0.3% absolute (5.3% and 6.1% relative) were obtained over the CTC+AR baseline. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# EUvsDisinfo:ニュース記事におけるプロクレムリン情報の多言語検出用データセット
EUvsDisinfo: A Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles ( http://arxiv.org/abs/2406.12614v4 ) ライセンス: Link先を確認 | João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton, | (参考訳) この研究は、EUvsDisinfoという、親クレムリンのアウトレットから派生した偽情報の多言語データセットを紹介し、信頼できる/バイアスの少ない情報源からの信頼できる記事を紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
また、最大の話題や時間的報道も提供している。
本データセットを用いて,異なる言語にまたがるプロクレムリン情報の拡散について検討し,特定の非情報トピックを対象とする言語固有のパターンを明らかにする。
さらに、2022年のウクライナ侵攻以前には、偽情報の内容が顕著に急増していたことを指摘し、8年間の話題分布の進化を分析した。
最後に、トレーニングモデルにおけるデータセットの適用性を示し、多言語設定における偽情報と信頼できるコンテンツを効果的に区別する。
This work introduces EUvsDisinfo, a multilingual dataset of disinformation articles originating from pro-Kremlin outlets, along with trustworthy articles from credible / less biased sources. It is sourced directly from the debunk articles written by experts leading the EUvsDisinfo project. Our dataset is the largest to-date resource in terms of the overall number of articles and distinct languages. It also provides the largest topical and temporal coverage. Using this dataset, we investigate the dissemination of pro-Kremlin disinformation across different languages, uncovering language-specific patterns targeting certain disinformation topics. We further analyse the evolution of topic distribution over an eight-year period, noting a significant surge in disinformation content before the full-scale invasion of Ukraine in 2022. Lastly, we demonstrate the dataset's applicability in training models to effectively distinguish between disinformation and trustworthy content in multilingual settings. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# 科学ミッションのための宇宙におけるAI:ニューラルネットワークモデルのアップロードを最小限にするための戦略
AI in Space for Scientific Missions: Strategies for Minimizing Neural-Network Model Upload ( http://arxiv.org/abs/2406.14297v2 ) ライセンス: Link先を確認 | Jonah Ekelund, Ricardo Vinuesa, Yuri Khotyaintsev, Pierre Henri, Gian Luca Delzanno, Stefano Markidis, | (参考訳) 人工知能(AI)は、地上制御や事前定義された手順に頼るのではなく、いくつかの宇宙船決定をオンボードAIに委譲することで、宇宙探査に革命をもたらす可能性がある。
推論エンジンを実行する宇宙船には、AI/ML処理ユニットが搭載される可能性が高い。
ニューラルネットワークには、地上でのトレーニングによって得られたパラメータであるテレコマンドをアップロードすることで、オンボードで更新できるパラメータがプリインストールされている。
しかし、衛星アップリンクは帯域幅が限られており、通信コストも高い。
さらに、最適なニューラルネットワークで運用するミッションは、貴重な科学的データを見逃すことになる。
これにより、ダウンロードされる科学データの価値を高めながら、より小さなネットワークでアップリンクコストを削減できる。
本研究では,アップロード時間を削減するために,精度の低下と最小限のニューラルネットワークの利用を評価検討する。
AIのユースケースの例として、NASAのMMSミッションに注目します。
我々は、地球磁気圏におけるAIの搭載方法を示し、より高い値データを選択的にダウンリンクするためにデータを分類したり、興味のある領域を認識してバーストモードをトリガーし、ハイレートでデータを収集する。
簡単なフィルタリング手法とアルゴリズムを用いて、関心領域の開始と終了が分類ストリーム上でどのように検出されるかを示す。
分類のために、我々は94%の精度でトレーニングされた確立された畳み込みニューラルネットワーク(CNN)を使用します。
また、ネットワークを1つの線形層に減らし、確立したCNNと同じ精度でトレーニングする方法を示す。
これにより、モデル全体のサイズを最大98.9%削減できる。
さらに,ネットワークパラメータの表現に低精度のフォーマットを用いることで,各ネットワークを最大75%削減し,0.6ポイント未満の精度で精度を向上できることを示す。
Artificial Intelligence (AI) has the potential to revolutionize space exploration by delegating several spacecraft decisions to an onboard AI instead of relying on ground control and predefined procedures. It is likely that there will be an AI/ML Processing Unit onboard the spacecraft running an inference engine. The neural-network will have pre-installed parameters that can be updated onboard by uploading, by telecommands, parameters obtained by training on the ground. However, satellite uplinks have limited bandwidth and transmissions can be costly. Furthermore, a mission operating with a suboptimal neural network will miss out on valuable scientific data. Smaller networks can thereby decrease the uplink cost, while increasing the value of the scientific data that is downloaded. In this work, we evaluate and discuss the use of reduced-precision and bare-minimum neural networks to reduce the time for upload. As an example of an AI use case, we focus on the NASA's Magnetosperic MultiScale (MMS) mission. We show how an AI onboard could be used in the Earth's magnetosphere to classify data to selectively downlink higher value data or to recognize a region-of-interest to trigger a burst-mode, collecting data at a high-rate. Using a simple filtering scheme and algorithm, we show how the start and end of a region-of-interest can be detected in on a stream of classifications. To provide the classifications, we use an established Convolutional Neural Network (CNN) trained to an accuracy >94%. We also show how the network can be reduced to a single linear layer and trained to the same accuracy as the established CNN. Thereby, reducing the overall size of the model by up to 98.9%. We further show how each network can be reduced by up to 75% of its original size, by using lower-precision formats to represent the network parameters, with a change in accuracy of less than 0.6 percentage points. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# データから動的ベイズネットワークを学習する:基礎、第一原理、数値比較
Learning Dynamic Bayesian Networks from Data: Foundations, First Principles and Numerical Comparisons ( http://arxiv.org/abs/2406.17585v2 ) ライセンス: Link先を確認 | Vyacheslav Kungurtsev, Fadwa Idlahcen, Petr Rysavy, Pavel Rytir, Ales Wodecki, | (参考訳) 本稿では,データからの動的ベイズネットワーク(DBN)の学習の基礎を,一定時間にわたって複数の軌跡のサンプルとして示す。
一般化の形式と、特定の変数分布に対する共通型DBNの集合について述べる。
本研究は,DBNモデルにおける構造と重みの相互依存性と,それらが学習に与える影響を包括的に議論する。
次に、最も重要な統計的特徴と、学習構造と重みの間の相互作用をどのように扱うかに基づいて、学習方法の概要を説明し、それらを分類する。
確率とベイズスコア関数の分析形式を与え、静的な場合との違いを強調した。
構造要求を強制するために最適化に使用される関数について論じる。
より複雑な拡張と表現について簡単に議論する。
最後に、各変種間で異なる異なるが代表的なアルゴリズムについて異なる設定で比較する。
In this paper, we present a guide to the foundations of learning Dynamic Bayesian Networks (DBNs) from data in the form of multiple samples of trajectories for some length of time. We present the formalism for a generic as well as a set of common types of DBNs for particular variable distributions. We present the analytical form of the models, with a comprehensive discussion on the interdependence between structure and weights in a DBN model and their implications for learning. Next, we give a broad overview of learning methods and describe and categorize them based on the most important statistical features, and how they treat the interplay between learning structure and weights. We give the analytical form of the likelihood and Bayesian score functions, emphasizing the distinction from the static case. We discuss functions used in optimization to enforce structural requirements. We briefly discuss more complex extensions and representations. Finally we present a set of comparisons in different settings for various distinct but representative algorithms across the variants. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# 視覚言語異常検出のための人間の自由な自動プロンプト:メタガイド型プロンプトスキームによるプロンプト最適化
Human-Free Automated Prompting for Vision-Language Anomaly Detection: Prompt Optimization with Meta-guiding Prompt Scheme ( http://arxiv.org/abs/2406.18197v2 ) ライセンス: Link先を確認 | Pi-Wei Chen, Jerry Chun-Wei Lin, Jia Ji, Feng-Hao Yeh, Chao-Chun Chen, | (参考訳) 事前学習された視覚言語モデル(VLM)は、数ショットの学習を通じて様々な下流タスクに高度に適用可能であり、プロンプトベースの異常検出は有望なアプローチである。
従来の手法は、特定の異常なタイプの事前の知識を必要とする人為的なプロンプトに依存している。
我々のゴールは、データ駆動方式でプロンプトを最適に学習し、人間の介入の必要性をなくす、人間の自由なプロンプトベースの異常検出フレームワークを開発することである。
このアプローチの主な課題は、トレーニングフェーズにおける異常サンプルの欠如である。
さらに、VLMにおけるビジョントランスフォーマー(ViT)ベースの画像エンコーダは、元の画像と出力特徴マップとの局所性特徴ミスマッチによる画素ワイド異常セグメンテーションには理想的ではない。
最初の課題に取り組むため、我々は、トレーニング用異常サンプルを合成するオブジェクト指向異常生成モジュール(OAGM)を開発した。
さらに、MPTS(Meta-Guiding Prompt-Tuning Scheme)は、学習可能なプロンプトの勾配に基づく最適化方向を反復的に調整し、合成された異常に過度に適合しないようにする。
第2の課題として,ローカル性意識(Locality-Aware Attention)を提案する。各ローカルパッチ機能は,近傍のパッチ機能にのみ対応し,元のロケーションに対応するローカリティ機能を保持する。
このフレームワークは、人間の意味的な制約なしに、バックプロパゲーションを通じて連続的な潜伏空間を探索することで、最適なプロンプト埋め込みを可能にする。
さらに、修正された局所性認識アテンションにより、画素単位の異常セグメンテーションの精度が向上する。
Pre-trained vision-language models (VLMs) are highly adaptable to various downstream tasks through few-shot learning, making prompt-based anomaly detection a promising approach. Traditional methods depend on human-crafted prompts that require prior knowledge of specific anomaly types. Our goal is to develop a human-free prompt-based anomaly detection framework that optimally learns prompts through data-driven methods, eliminating the need for human intervention. The primary challenge in this approach is the lack of anomalous samples during the training phase. Additionally, the Vision Transformer (ViT)-based image encoder in VLMs is not ideal for pixel-wise anomaly segmentation due to a locality feature mismatch between the original image and the output feature map. To tackle the first challenge, we have developed the Object-Attention Anomaly Generation Module (OAGM) to synthesize anomaly samples for training. Furthermore, our Meta-Guiding Prompt-Tuning Scheme (MPTS) iteratively adjusts the gradient-based optimization direction of learnable prompts to avoid overfitting to the synthesized anomalies. For the second challenge, we propose Locality-Aware Attention, which ensures that each local patch feature attends only to nearby patch features, preserving the locality features corresponding to their original locations. This framework allows for the optimal prompt embeddings by searching in the continuous latent space via backpropagation, free from human semantic constraints. Additionally, the modified locality-aware attention improves the precision of pixel-wise anomaly segmentation. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# 病理・内視鏡画像の基礎モデル:胃炎症への応用
Foundational Models for Pathology and Endoscopy Images: Application for Gastric Inflammation ( http://arxiv.org/abs/2406.18249v2 ) ライセンス: Link先を確認 | Hamideh Kerdegari, Kyle Higgins, Dennis Veselkov, Ivan Laponogov, Inese Polaka, Miguel Coimbra, Junior Andrea Pescino, Marcis Leja, Mario Dinis-Ribeiro, Tania Fleitas Kanonnikoff, Kirill Veselkov, | (参考訳) 医学診断における人工知能(AI)の統合は, 上部消化管癌 (GI) 管理における重要な進歩であり, 世界的がん死亡の主な原因である。
特に胃癌(GC)では、慢性炎症は萎縮、腸内転移(IM)、異形成、最終的には癌などの粘膜に変化を引き起こす。
内視鏡的定期監視による早期発見は、より良い結果を得るために不可欠である。
ファンデーションモデル(FM)は、多様なデータに基づいて訓練され、幅広いユースケースに適用可能な機械学習モデルまたはディープラーニングモデルであり、内視鏡の精度とその後の病理画像解析の精度を高めるための有望なソリューションを提供する。
本総説では, 内視鏡および病理画像診断におけるFMの最近の進歩, 応用, 課題について述べる。
まず、これらのモデルの根底にある中核となる原則とアーキテクチャを解明し、トレーニング方法論と予測能力開発における大規模データの役割を解明しました。
さらに,マルチモーダルデータの統合,より堅牢で公平なモデルの開発,リアルタイム診断支援の可能性など,新たな動向と今後の研究方向性について論じる。
本総説は,GC症例の予防・管理に関する臨床実践にFMを取り入れることの複雑さをナビゲートする上で,研究者や実践者にとってのロードマップを提供することを目的としている。
The integration of artificial intelligence (AI) in medical diagnostics represents a significant advancement in managing upper gastrointestinal (GI) cancer, a major cause of global cancer mortality. Specifically for gastric cancer (GC), chronic inflammation causes changes in the mucosa such as atrophy, intestinal metaplasia (IM), dysplasia and ultimately cancer. Early detection through endoscopic regular surveillance is essential for better outcomes. Foundation models (FM), which are machine or deep learning models trained on diverse data and applicable to broad use cases, offer a promising solution to enhance the accuracy of endoscopy and its subsequent pathology image analysis. This review explores the recent advancements, applications, and challenges associated with FM in endoscopy and pathology imaging. We started by elucidating the core principles and architectures underlying these models, including their training methodologies and the pivotal role of large-scale data in developing their predictive capabilities. Moreover, this work discusses emerging trends and future research directions, emphasizing the integration of multimodal data, the development of more robust and equitable models, and the potential for real-time diagnostic support. This review aims to provide a roadmap for researchers and practitioners in navigating the complexities of incorporating FM into clinical practice for prevention/management of GC cases, thereby improving patient outcomes. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# 量子アニールを用いた等質Bethe-Salpeter方程式の解法
Solving the homogeneous Bethe-Salpeter equation with a quantum annealer ( http://arxiv.org/abs/2406.18669v2 ) ライセンス: Link先を確認 | Filippo Fornetti, Alex Gnech, Tobias Frederico, Francesco Pederiva, Matteo Rinaldi, Alessandro Roggero, Giovanni Salme', Sergio Scopetta, Michele Viviani, | (参考訳) 実相対論的量子場理論フレームワークにおける有界系を記述する同質Bethe-Salpeter方程式(hBSE)は、D-Wave量子アニールを用いて初めて解かれた。
離散化の標準的な手法を適用すると、はしご近似におけるhBSEは、一般化固有値問題(GEVP)において形式的に変換される。
後者の行列は、量子アニールを用いて非対称GEVPを調べるための適切な形式的アプローチを得る、すなわち2次非制約バイナリ最適化問題として再キャストする、という課題を提起する。
シミュレーション・アニーリング・パッケージとD-Wave Advantage 4.1システムの両方を用いて,64次元の行列に適用したアルゴリズムの広範な数値解析を行った。
計算結果は、標準的な古典的アルゴリズムで得られたものと非常によく似ており、また興味深い拡張性も示している。
The homogeneous Bethe-Salpeter equation (hBSE), describing a bound system in a genuinely relativistic quantum-field theory framework, was solved for the first time by using a D-Wave quantum annealer. After applying standard techniques of discretization, the hBSE, in ladder approximation, can be formally transformed in a generalized eigenvalue problem (GEVP), with two square matrices: one symmetric and the other non symmetric. The latter matrix poses the challenge of obtaining a suitable formal approach for investigating the non symmetric GEVP by means of a quantum annealer, i.e to recast it as a quadratic unconstrained binary optimization problem. A broad numerical analysis of the proposed algorithms, applied to matrices of dimension up to 64, was carried out by using both the proprietary simulated-anneaing package and the D-Wave Advantage 4.1 system. The numerical results very nicely compare with those obtained with standard classical algorithms, and also show interesting scalability features. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# VSA分散表現を用いた帰納的推論学習に向けて
Towards Learning Abductive Reasoning using VSA Distributed Representations ( http://arxiv.org/abs/2406.19121v3 ) ライセンス: Link先を確認 | Giacomo Camposampiero, Michael Hersche, Aleksandar Terzić, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi, | (参考訳) 本稿では,Abductive Rule Learner with Context-Awareness(ARLC)を紹介する。
ARLCは、誘導的推論のための新しくより広く適用可能な訓練目標を特徴とし、Ravenの進行行列(RPM)を解く際に、より良い解釈可能性と高い精度をもたらす。
ARLCはドメイン知識のプログラミングとデータ分散の基礎となるルールの学習を可能にする。
我々は、I-RAVENデータセット上でARLCを評価し、分布内および分布外の両方(属性-ルール対)テストで最先端の精度を示す。
ARLCは、桁数が桁違いに少ないにもかかわらず、大きな言語モデルを含む、ニューロシンボリックおよびコネクショニストのベースラインを超越している。
プログラムされた知識の上の例から漸進的に学習することで、ARLCのプログラム後のトレーニングに対する堅牢性を示す。
我々は、ARLCの2x2 RPM星座から目に見えない星座へのシームレスな転移学習を検証する。
私たちのコードはhttps://github.com/IBM/abductive-rule-learner-with-context-awarenessで利用可能です。
We introduce the Abductive Rule Learner with Context-awareness (ARLC), a model that solves abstract reasoning tasks based on Learn-VRF. ARLC features a novel and more broadly applicable training objective for abductive reasoning, resulting in better interpretability and higher accuracy when solving Raven's progressive matrices (RPM). ARLC allows both programming domain knowledge and learning the rules underlying a data distribution. We evaluate ARLC on the I-RAVEN dataset, showcasing state-of-the-art accuracy across both in-distribution and out-of-distribution (unseen attribute-rule pairs) tests. ARLC surpasses neuro-symbolic and connectionist baselines, including large language models, despite having orders of magnitude fewer parameters. We show ARLC's robustness to post-programming training by incrementally learning from examples on top of programmed knowledge, which only improves its performance and does not result in catastrophic forgetting of the programmed solution. We validate ARLC's seamless transfer learning from a 2x2 RPM constellation to unseen constellations. Our code is available at https://github.com/IBM/abductive-rule-learner-with-context-awareness. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# 脅威インフォームドサイバーレジリエンス指数:サイバー攻撃に対する防御効果を測定するための確率論的定量的アプローチ
Threat-Informed Cyber Resilience Index: A Probabilistic Quantitative Approach to Measure Defence Effectiveness Against Cyber Attacks ( http://arxiv.org/abs/2406.19374v4 ) ライセンス: Link先を確認 | Lampis Alevizos, Vinh-Thong Ta, | (参考訳) 動的サイバー脅威の状況では、堅牢な情報セキュリティを維持するためには、不確実性の下での効果的な意思決定が不可欠である。
本稿では、サイバー攻撃(キャンプ)に対する組織の防御効果を定量化するための、脅威に富んだ確率的アプローチであるサイバー回復指数(CRI)を紹介する。
Threat-Intelligence Based Security Assessment (TIBSA) の方法論に基づいて、複雑な脅威のインテリジェンスを、ストックマーケットインデックスに似た、実行可能な統一されたメトリクスに変換する数学的モデルを提示します。
提案手法は,実世界の不確実性や最新の脅威アクター戦術,テクニック,手順(TTP)を考慮した攻撃行動をシミュレーションするために,部分観測可能なマルコフ決定プロセス(POMDP)を利用する。
これにより、静的なコンプライアンスベースのアセスメントを超えて、組織のセキュリティ姿勢を動的にコンテキスト対応で評価することが可能になります。
その結果、意思決定者は、量的および質的な評価のギャップを埋め、データ駆動型のリソース割り当てと戦略的計画を可能にする、単一のサイバーレジリエンスの指標を備えている。
これは最終的に、より情報的な意思決定、内部または過渡状態の緩和、リソース割り当ての支援につながる可能性がある。
In the dynamic cyber threat landscape, effective decision-making under uncertainty is crucial for maintaining robust information security. This paper introduces the Cyber Resilience Index (CRI), a threat-informed probabilistic approach to quantifying an organisation's defence effectiveness against cyber-attacks (campaigns). Building upon the Threat-Intelligence Based Security Assessment (TIBSA) methodology, we present a mathematical model that translates complex threat intelligence into an actionable, unified metric similar to a stock market index, that executives can understand and interact with while teams can act upon. Our method leverages Partially Observable Markov Decision Processes (POMDPs) to simulate attacker behaviour considering real-world uncertainties and the latest threat actor tactics, techniques, and procedures (TTPs). This allows for dynamic, context-aware evaluation of an organization's security posture, moving beyond static compliance-based assessments. As a result, decision-makers are equipped with a single metric of cyber resilience that bridges the gap between quantitative and qualitative assessments, enabling data-driven resource allocation and strategic planning. This can ultimately lead to more informed decision-making, mitigate under or overspending, and assist in resource allocation. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# CaFNet: レーダカメラ深さ推定のための信頼性駆動フレームワーク
CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation ( http://arxiv.org/abs/2407.00697v3 ) ライセンス: Link先を確認 | Huawei Sun, Hao Feng, Julius Ott, Lorenzo Servadei, Robert Wille, | (参考訳) 深度推定は3次元シーンを正確に解釈するために自律運転において重要である。
近年,レーダーのロバスト性や低コスト性から,レーダー・カメラ深度推定が十分に注目されている。
そこで本稿では,RGB画像とスパースおよびノイズの多いレーダポイントクラウドデータを組み合わせて,深度推定のための2段階の信頼度対応フュージョンネット(CaFNet)を提案する。
第1段階は、レーダーの信頼性マップと予備の粗い深さマップを予測することにより、不明瞭な標高やノイズ測定などのレーダー固有の課題に対処する。
レーダ点と対応する物体を関連付け、潜在的な射影面を特定することを含む、信頼マップの基底真理を生成するための新しいアプローチが提示される。
これらのマップと初期レーダ入力は、第2エンコーダによって処理される。
最終深度推定のために、レーダと画像の特徴を効果的に統合するための信頼性を考慮したゲート融合機構を発明し、レーダノイズを除去して深度マップの信頼性を高める。
提案手法はnuScenesデータセットに基づいて評価され,現在の先行モデルに対して,平均絶対誤差(MAE)が3.2%,Root Mean Square Error(RMSE)が2.7%向上した。
コード:https://github.com/harborsarah/CaFNet
Depth estimation is critical in autonomous driving for interpreting 3D scenes accurately. Recently, radar-camera depth estimation has become of sufficient interest due to the robustness and low-cost properties of radar. Thus, this paper introduces a two-stage, end-to-end trainable Confidence-aware Fusion Net (CaFNet) for dense depth estimation, combining RGB imagery with sparse and noisy radar point cloud data. The first stage addresses radar-specific challenges, such as ambiguous elevation and noisy measurements, by predicting a radar confidence map and a preliminary coarse depth map. A novel approach is presented for generating the ground truth for the confidence map, which involves associating each radar point with its corresponding object to identify potential projection surfaces. These maps, together with the initial radar input, are processed by a second encoder. For the final depth estimation, we innovate a confidence-aware gated fusion mechanism to integrate radar and image features effectively, thereby enhancing the reliability of the depth map by filtering out radar noise. Our methodology, evaluated on the nuScenes dataset, demonstrates superior performance, improving upon the current leading model by 3.2% in Mean Absolute Error (MAE) and 2.7% in Root Mean Square Error (RMSE). Code: https://github.com/harborsarah/CaFNet | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# GlyphDraw2:拡散モデルと大規模言語モデルを用いた複雑なグリフポスターの自動生成
GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models ( http://arxiv.org/abs/2407.02252v2 ) ライセンス: Link先を確認 | Jian Ma, Yonglin Deng, Chen Chen, Haonan Lu, Zhenyu Yang, | (参考訳) ポスターは、視覚コミュニケーションとブランドの可視性を高め、産業デザインに重要な貢献をすることで、マーケティングと広告において重要な役割を担っている。
制御可能なT2I拡散モデルの最近の進歩により、合成画像中のテキストのレンダリングに焦点が当てられている。
テキストレンダリングの精度が向上したにもかかわらず、自動ポスター生成の分野はいまだ探索されていない。
本稿では,LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
さらに、制御可能なフォント、調整可能な画像解像度、英語と中国語の両方で記述とテキストによるポスターのレンダリングをサポートし、さらに高解像度のフォントデータセットと1024ピクセルを超える解像度のポスターデータセットを導入している。
我々のアプローチはSDXLアーキテクチャを活用している。
複雑な背景とコンテキストに富んだ背景を持つポスター画像を生成する際の,我々の方法の有効性を検証する実験は,https://github.com/OPPO-Mente-Lab/GlyphDraw2.comで公開されている。
Posters play a crucial role in marketing and advertising by enhancing visual communication and brand visibility, making significant contributions to industrial design. With the latest advancements in controllable T2I diffusion models, increasing research has focused on rendering text within synthesized images. Despite improvements in text rendering accuracy, the field of automatic poster generation remains underexplored. In this paper, we propose an automatic poster generation framework with text rendering capabilities leveraging LLMs, utilizing a triple-cross attention mechanism based on alignment learning. This framework aims to create precise poster text within a detailed contextual background. Additionally, the framework supports controllable fonts, adjustable image resolution, and the rendering of posters with descriptions and text in both English and Chinese.Furthermore, we introduce a high-resolution font dataset and a poster dataset with resolutions exceeding 1024 pixels. Our approach leverages the SDXL architecture. Extensive experiments validate our method's capability in generating poster images with complex and contextually rich backgrounds.Codes is available at https://github.com/OPPO-Mente-Lab/GlyphDraw2. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# 量子状態合成:決定複雑度クラスと合成誤差低減の可能性
Quantum State Synthesis: Relation with Decision Complexity Classes and Impossibility of Synthesis Error Reduction ( http://arxiv.org/abs/2407.02907v2 ) ライセンス: Link先を確認 | Hugo Delavenne, François Le Gall, | (参考訳) 本研究では、量子状態合成複雑性クラス(量子状態の生成の複雑さに焦点を当てた最近の計算複雑性の概念)と従来の決定複雑性クラスとの関係について検討する。
特に,量子状態合成複雑性クラスにおける合成の質を特徴付ける合成誤差パラメータの役割について検討する。
まず、高い合成誤差構造において、合成クラスの崩壊は等価な決定クラスの崩壊を意味することを示す。
より合理的な合成誤差について、BQP と QCMA の類似関係を示す。
最後に、量子状態合成クラスでは、一般に合成の質を改善することは不可能であることが示され、完全性や音質パラメータ(繰り返しによって改善できる)とは異なり、任意の計算力でも合成誤差を低減できない。
This work investigates the relationships between quantum state synthesis complexity classes (a recent concept in computational complexity that focuses on the complexity of preparing quantum states) and traditional decision complexity classes. We especially investigate the role of the synthesis error parameter, which characterizes the quality of the synthesis in quantum state synthesis complexity classes. We first show that in the high synthesis error regime, collapse of synthesis classes implies collapse of the equivalent decision classes. For more reasonable synthesis error, we then show a similar relationships for BQP and QCMA. Finally, we show that for quantum state synthesis classes it is in general impossible to improve the quality of the synthesis: unlike the completeness and soundness parameters (which can be improved via repetition), the synthesis error cannot be reduced, even with arbitrary computational power. | 翻訳日:2024-09-02 19:41:40 公開日:2024-08-30 |
# ボルンルールは計測ノイズの結果か?
Is the Born rule a result of measurement noise? ( http://arxiv.org/abs/2407.03139v2 ) ライセンス: Link先を確認 | Frank Torres, | (参考訳) ボルン則は、偏りのない量子測定で観測される固有状態の確率分布を主張するが、それを保持する理由はいまだ解明されていない。
シュロディンガー方程式力学(英語版)によりボルン則がどのように説明されるかについて、ある測定が、ある測定固有状態が任意に小さな許容範囲に収まるまで、ランダムなゆらぎに対応する系を含む場合について論じる。
時間に依存した確率的ユニタリ行列 U(t) のクラスで、この振る舞いを生成するランダムウォークダイナミクスについて述べる。
また、このユニタリ行列のクラスに相当するシュロディンガー方程式における確率ポテンシャルエネルギーのクラスについても論じる。
この分析は、予測されたランダムウォークメカニズムに実際に従う計測方法や、ボルンルールの確率から逸脱する信頼性の高い測定装置を設計できるかどうかなど、考慮すべきいくつかの疑問を提起する。
興味深いことに、もしこのランダムウォーク機構に何らかの測定が従えば、量子系を確率的な「ノイズ」に露出させることは、単に望ましくない副作用ではなく、そのような測定の本質的な部分である。
この特徴は、量子センシングと量子コンピューティングにおけるノイズの低減に影響を及ぼすであろう。
これは進行中の作業の草案です。
質問や提案は歓迎です。
The Born rule asserts the probability distribution of eigenstates observed in unbiased quantum measurements, but the reason it holds remains elusive. This manuscript discusses how the Born rule might be explained by Schrodinger equation dynamics, if a measurement comprises a system responding to random fluctuations until it is within an arbitrarily small tolerance of a measurement eigenstate. We describe the random walk dynamics that produce this behavior in terms of a class of time-dependent, stochastic unitary matrices U(t). We also discuss the class of stochastic potential energies in the Schrodinger equation that is equivalent to this class of unitary matrices. This analysis raises some questions worth considering, including how to determine if any measurements actually follow the predicted random walk mechanism and whether a reliable measurement apparatus could be designed that deviates from Born rule probabilities. Interestingly, if any measurements do follow this random walk mechanism, then exposing a quantum system to stochastic 'noise' is an intrinsic part of such a measurement, not merely an unwanted side effect. This characteristic would have implications for reducing noise in quantum sensing and quantum computing. This is a draft of a work in progress. Questions and suggestions are welcome. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# ConCodeEval: ドメイン特化言語におけるコード制約に対する大規模言語モデルの評価
ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages ( http://arxiv.org/abs/2407.03387v2 ) ライセンス: Link先を確認 | Mehant Kammakomati, Sameer Pimparkhede, Srikanth Tamilselvam, Prince Kumar, Pushpak Bhattacharyya, | (参考訳) 最近の研究によると、Large Language Models (LLM) は、ゼロショットと少数ショットの設定で様々なテキスト生成タスクの自然言語制約を理解するのに苦労している。
一方、コードドメインでは、企業内のシステムレベルのプログラミングタスクに広く使用されるJSONやYAMLのようなドメイン特化言語(DSL)で記述されたコードの整合性を維持するために、コードフォーマットの制約が広く使われています。
LLMがますますシステムレベルのコードタスクに使われていることを考えると、これらの制約を理解することが不可欠である。
しかしながら、コード制約に対する制御性を評価する作業は行われていない。
そのために,5つの表現にまたがる2つのコード制約に対する新しいタスクを持つ,第一級ベンチマークであるConCodeEvalを紹介した。
この結果から,言語モデルは制約に悩まされていることが示唆された。
通常のコードタスクに対して優れたパフォーマンスを発揮するコード言語は、同じ言語がきめ細かい制約を表現している場合、うまく機能しない。
Recent work shows Large Language Models (LLMs) struggle to understand natural language constraints for various text generation tasks in zero- and few-shot settings. While, in the code domain, there is wide usage of constraints in code format to maintain the integrity of code written in Domain-Specific Languages (DSLs) like JSON and YAML which are widely used for system-level programming tasks in enterprises. Given that LLMs are increasingly used for system-level code tasks, evaluating if they can comprehend these code constraints is crucial. However, no work has been done to evaluate their controllability over code constraints. Hence, we introduce ConCodeEval, a first-of-its-kind benchmark having two novel tasks for code constraints across five representations. Our findings suggest that language models struggle with code constraints. Code languages that perform excellently for normal code tasks do not perform well when the same languages represent fine-grained constraints. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# 大規模言語モデルに対するジェイルブレイク攻撃と防衛:調査
Jailbreak Attacks and Defenses Against Large Language Models: A Survey ( http://arxiv.org/abs/2407.04295v2 ) ライセンス: Link先を確認 | Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li, | (参考訳) 大きな言語モデル(LLM)は、質問応答、翻訳、コード補完など、様々なテキスト生成タスクで例外的に実行されています。
しかし、LSMの過剰な支援は「ジェイルブレイク」という課題を提起し、敵のプロンプトを設計することで、利用方針や社会に対する悪意ある反応を発生させるモデルを生み出している。
LLMの異なる脆弱性を利用したジェイルブレイク攻撃手法の出現に伴い、対応する安全アライメント対策も進化している。
本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。
例えば、攻撃方法はターゲットモデルの透明性に基づいてブラックボックスとホワイトボックスの攻撃に分割される。
一方,防衛手法を即時防衛とモデルレベルの防衛に分類する。
さらに,これらの攻撃・防御手法を別のサブクラスに分割し,それらの関係を図示するコヒーレントな図を提示する。
また、現在の評価手法についても検討を行い、異なる視点から比較する。
本研究の目的は,LLMを敵攻撃から保護するための今後の研究・実践を刺激することである。
とりわけ、Jailbreakはコミュニティ内でも重要な関心事ですが、私たちはこの領域の理解を深め、よりセキュアなLDMを開発するための基盤を提供すると信じています。
Large Language Models (LLMs) have performed exceptionally in various text-generative tasks, including question answering, translation, code completion, etc. However, the over-assistance of LLMs has raised the challenge of "jailbreaking", which induces the model to generate malicious responses against the usage policy and society by designing adversarial prompts. With the emergence of jailbreak attack methods exploiting different vulnerabilities in LLMs, the corresponding safety alignment measures are also evolving. In this paper, we propose a comprehensive and detailed taxonomy of jailbreak attack and defense methods. For instance, the attack methods are divided into black-box and white-box attacks based on the transparency of the target model. Meanwhile, we classify defense methods into prompt-level and model-level defenses. Additionally, we further subdivide these attack and defense methods into distinct sub-classes and present a coherent diagram illustrating their relationships. We also conduct an investigation into the current evaluation methods and compare them from different perspectives. Our findings aim to inspire future research and practical implementations in safeguarding LLMs against adversarial attacks. Above all, although jailbreak remains a significant concern within the community, we believe that our work enhances the understanding of this domain and provides a foundation for developing more secure LLMs. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# シュレーディンガーの猫の独身死亡
Unitary death of Schrödinger's cat ( http://arxiv.org/abs/2407.04389v2 ) ライセンス: Link先を確認 | Pavel Stránský, Pavel Cejnar, Radim Filip, | (参考訳) 我々は,1つの軟モード発振器とキュービットの相互作用を記述するRabiモデルのダイナミクスを解析した。
本研究では, 振動子の対称なSchr{\「o}dinger cat状態が, 測定誘起波動関数崩壊に類似した自発一元化過程で突然消失することを示す。
この効果は、例えば、閉じ込められたイオン、マクロメカニカル発振器、超伝導回路で実験的に試験するには十分に堅牢である。
We analyze dynamics of the Rabi model describing interactions of a qubit with a single soft-mode oscillator. We show that the model with a slightly violated parity generates symmetric Schr{\"o}dinger cat states of the oscillator, which suddenly perish in a spontaneous unitary process similar to the measurement-induced wave-function collapse. The effect is sufficiently robust to be tested experimentally, e.g., with trapped ions, macroscopic mechanical oscillators or superconducting circuits. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# プラケット格子上のSU($4$)ハイゼンベルク模型の基底状態相図
Ground-state phase diagram of the SU($4$) Heisenberg model on a plaquette lattice ( http://arxiv.org/abs/2407.05556v2 ) ライセンス: Link先を確認 | Ryui Kaneko, Shimpei Goto, Ippei Danshita, | (参考訳) 無限射影対状態に基づくテンソル-ネットワーク法を用いて, プラケット結合上の空間異方性を持つ正方格子上のSU($4$)ハイゼンベルク模型の基底状態について検討する。
SU($4$) の単座基底状態が強い異方性極限に現れるのに対し、N'eel と valence-bond の結晶位はほぼ等方性極限に共存する。
中間パラメータ領域を調べることにより、これらの位相間の相転移を同定する。
相転移の性質は1次であり、遷移点が約$J'/J\approx 0.85(5)$と推定される。
また、プラケット結合における一重項相関の異方性依存性を計算し、光格子中の超低温原子の将来の実験に役立てる。
We investigate the ground state of the SU($4$) Heisenberg model on a square lattice with spatial anisotropy on each plaquette bond using the tensor-network method based on infinite projected entangled pair states. We find that the SU($4$) singlet ground state appears in the strongly anisotropic limit, whereas N\'eel and valence-bond crystal orders coexist in the nearly isotropic limit. By examining the intermediate parameter region, we identify a phase transition between these phases. The nature of the phase transition is likely to be of first order, and the transition point is estimated to be around $J'/J\approx 0.85(5)$, where $J$ and $J'$ are the interaction strengths of intra- and interplaquette bonds, respectively. We also calculate the anisotropy dependence of singlet correlations on a plaquette bond, which will be useful for future experiments of ultracold atoms in optical lattices. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# PEER:マルチエージェントフレームワークとチューニングメソッドによるドメイン特化タスクのエキスパート化
PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods ( http://arxiv.org/abs/2407.06985v4 ) ライセンス: Link先を確認 | Yiying Wang, Xiaojing Li, Binzhu Wang, Yueyang Zhou, Yingru Lin, Han Ji, Hong Chen, Jinshi Zhang, Fei Yu, Zewei Zhao, Song Jin, Renji Gong, Wanqing Xu, | (参考訳) ドメイン固有のアプリケーションでは、正確なプロンプトを付加したGPT-4(Retrieval-Augmented Generation (RAG))が顕著な可能性を示しているが、パフォーマンス、コスト、データプライバシの重大な三重項に直面している。
ハイパフォーマンスには高度な処理技術が必要だが、複雑なワークフロー内で複数のエージェントを管理することは、しばしばコストと困難さを証明している。
これを解決するために、PEER(Plan, Execute, Express, Review)マルチエージェントフレームワークを紹介します。
これは、正確な質問分解、高度な情報検索、包括的な要約、厳密な自己評価を統合することで、ドメイン固有のタスクを体系化する。
コストとデータのプライバシに関する懸念から、企業は、GPT-4のようなプロプライエタリなモデルからカスタムモデルに移行し、コスト、セキュリティ、パフォーマンスのバランスを保っている。
我々は、効率的なモデルチューニングのためのオンラインデータとユーザフィードバックを活用する産業プラクティスを開発した。
本研究は、ドメイン固有の問題解決にマルチエージェントシステムを適用し、効果的なエージェントチューニング戦略を実装するためのベストプラクティスガイドラインを提供する。
GPT-4の性能は95.0%で、コストを効果的に管理し、データのプライバシーを確保する。
In domain-specific applications, GPT-4, augmented with precise prompts or Retrieval-Augmented Generation (RAG), shows notable potential but faces the critical tri-lemma of performance, cost, and data privacy. High performance requires sophisticated processing techniques, yet managing multiple agents within a complex workflow often proves costly and challenging. To address this, we introduce the PEER (Plan, Execute, Express, Review) multi-agent framework. This systematizes domain-specific tasks by integrating precise question decomposition, advanced information retrieval, comprehensive summarization, and rigorous self-assessment. Given the concerns of cost and data privacy, enterprises are shifting from proprietary models like GPT-4 to custom models, striking a balance between cost, security, and performance. We developed industrial practices leveraging online data and user feedback for efficient model tuning. This study provides best practice guidelines for applying multi-agent systems in domain-specific problem-solving and implementing effective agent tuning strategies. Our empirical studies, particularly in the financial question-answering domain, demonstrate that our approach achieves 95.0% of GPT-4's performance, while effectively managing costs and ensuring data privacy. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# Etalon: LLM推論システムのための全体的パフォーマンス評価フレームワーク
Etalon: Holistic Performance Evaluation Framework for LLM Inference Systems ( http://arxiv.org/abs/2407.07000v2 ) ライセンス: Link先を確認 | Amey Agrawal, Anmol Agarwal, Nitin Kedia, Jayashree Mohan, Souvik Kundu, Nipun Kwatra, Ramachandran Ramjee, Alexey Tumanov, | (参考訳) 大規模言語モデル(LLM)を本番環境で実行することでかなりのコストがかかり、推論システムの最適化が近年進歩している。
現在、これらのシステムは従来のレイテンシとスループットのメトリクス(TTFT、TBT、正規化レイテンシ、TPOTなど)に対して評価されている。
しかし、これらのメトリクスはLLM推論のニュアンスを完全に捉えることができず、チャットや翻訳といったリアルタイムアプリケーションにとって重要なユーザ向けパフォーマンスを不完全に評価する結果となった。
本稿では,LLM推論システムの評価において,現在の性能指標の落とし穴を最初に同定する。
次に我々は,LLM推論プロセスの複雑さと,そのリアルタイムユーザエクスペリエンスへの影響を反映した,流動性指標を含む総合的なパフォーマンス評価フレームワークであるEtalonを提案する。
最後に、Etalonを使って既存のさまざまなオープンソースプラットフォームとモデル・アズ・ア・サービスを評価し、その強みと弱点について論じます。
Etalonはhttps://github.com/project-etalon/etalon.comで入手できる。
Serving large language models (LLMs) in production can incur substantial costs, which has prompted recent advances in inference system optimizations. Today, these systems are evaluated against conventional latency and throughput metrics (eg. TTFT, TBT, Normalised Latency and TPOT). However, these metrics fail to fully capture the nuances of LLM inference, leading to an incomplete assessment of user-facing performance crucial for real-time applications such as chat and translation. In this paper, we first identify the pitfalls of current performance metrics in evaluating LLM inference systems. We then propose Etalon, a comprehensive performance evaluation framework that includes fluidity-index -- a novel metric designed to reflect the intricacies of the LLM inference process and its impact on real-time user experience. Finally, we evaluate various existing open-source platforms and model-as-a-service offerings using Etalon, discussing their strengths and weaknesses. Etalon is available at https://github.com/project-etalon/etalon. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# モバイルデバイスにおける創傷セグメント化のための軽量モデルの早期探索
Early Explorations of Lightweight Models for Wound Segmentation on Mobile Devices ( http://arxiv.org/abs/2407.07605v3 ) ライセンス: Link先を確認 | Vanessa Borst, Timo Dittus, Konstantin Müller, Samuel Kounev, | (参考訳) 高齢化は、高齢者の慢性的な傷の増加など、医療に多くの課題をもたらす。
写真ドキュメンテーションに基づくセラピストによる創傷評価への現在のアプローチは主観的であり、スマートフォン写真からコンピュータ支援による創傷認識の必要性を強調している。
これは客観的かつ便利な治療モニタリングを提供するが、いつでも自宅から患者にアクセスできる。
しかし, 移動体画像セグメント化の研究にもかかわらず, 移動体創傷セグメント化に焦点が当てられていない。
このギャップに対処するため,スマートフォンによる創傷セグメント化に適した3つの軽量アーキテクチャについて検討を行った。
公開データセットとUNetをベースラインとして使用することで、ENetとTopFormerの両方、さらに大きなUNeXtの亜種がUNetに匹敵するパフォーマンスを示した結果が期待できる。
さらに,本手法をスマートフォンアプリに展開し,傷痕と傷痕を識別するTopFormerの有効性を示した。
本研究は,移動体創傷セグメント化のためのトランスフォーマーモデルの可能性を明らかにするものであるが,今後の研究はマスクの輪郭をさらに改善することを目的としている。
The aging population poses numerous challenges to healthcare, including the increase in chronic wounds in the elderly. The current approach to wound assessment by therapists based on photographic documentation is subjective, highlighting the need for computer-aided wound recognition from smartphone photos. This offers objective and convenient therapy monitoring, while being accessible to patients from their home at any time. However, despite research in mobile image segmentation, there is a lack of focus on mobile wound segmentation. To address this gap, we conduct initial research on three lightweight architectures to investigate their suitability for smartphone-based wound segmentation. Using public datasets and UNet as a baseline, our results are promising, with both ENet and TopFormer, as well as the larger UNeXt variant, showing comparable performance to UNet. Furthermore, we deploy the models into a smartphone app for visual assessment of live segmentation, where results demonstrate the effectiveness of TopFormer in distinguishing wounds from wound-coloured objects. While our study highlights the potential of transformer models for mobile wound segmentation, future work should aim to further improve the mask contours. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# 2次元視線ガイドを用いた3次元重み付きセマンティックセグメンテーション
3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance ( http://arxiv.org/abs/2407.09826v2 ) ライセンス: Link先を確認 | Xiaoxu Xu, Yitian Yuan, Jinlong Li, Qiudan Zhang, Zequn Jie, Lin Ma, Hao Tang, Nicu Sebe, Xu Wang, | (参考訳) 本稿では,2次元視覚-言語モデルを用いた3次元セマンティック・セマンティック・セマンティクスの弱教師付きアプローチである3DSS-VLGを提案する。
具体的には、2次元視覚言語モデルの優れた一般化能力を生かし、3次元埋め込みとテキスト埋め込みを暗黙的にアライメントするための埋め込みソフトガイダンスステージを提案する。
さらに,特定のシーンレベルラベルの助けを借りて特徴表現を浄化するために,埋め込み特化ステージを導入し,対応するテキスト埋め込みによって監督される優れた特徴を指定する。
したがって、3Dモデルは画像埋め込みとテキスト埋め込みの両方から情報的監督を得ることができ、競争力のあるセグメンテーション性能をもたらす。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
さらに,3DSS-VLGは,S3DISデータセットとScanNetデータセットの両方で最先端の性能を達成できるだけでなく,強力な一般化能力も維持できることを示す。
In this paper, we propose 3DSS-VLG, a weakly supervised approach for 3D Semantic Segmentation with 2D Vision-Language Guidance, an alternative approach that a 3D model predicts dense-embedding for each point which is co-embedded with both the aligned image and text spaces from the 2D vision-language model. Specifically, our method exploits the superior generalization ability of the 2D vision-language models and proposes the Embeddings Soft-Guidance Stage to utilize it to implicitly align 3D embeddings and text embeddings. Moreover, we introduce the Embeddings Specialization Stage to purify the feature representation with the help of a given scene-level label, specifying a better feature supervised by the corresponding text embedding. Thus, the 3D model is able to gain informative supervisions both from the image embedding and text embedding, leading to competitive segmentation performances. To the best of our knowledge, this is the first work to investigate 3D weakly supervised semantic segmentation by using the textual semantic information of text category labels. Moreover, with extensive quantitative and qualitative experiments, we present that our 3DSS-VLG is able not only to achieve the state-of-the-art performance on both S3DIS and ScanNet datasets, but also to maintain strong generalization capability. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# 局所的位置情報プライバシーのためのスケーラブルな最適化
Scalable Optimization for Locally Relevant Geo-Location Privacy ( http://arxiv.org/abs/2407.13725v2 ) ライセンス: Link先を確認 | Chenxi Qiu, Ruiyao Liu, Primal Pappachan, Anna Squicciarini, Xinpeng Xie, | (参考訳) 地理的難読化機能は位置プライバシー保護機構(LPPM)として機能し、モバイルユーザーは正確な位置ではなく、難読化された場所をサーバと共有することができる。
この技術は、難読化処理が不可逆であるため、サーバ側のデータ漏洩時にユーザの位置情報のプライバシを保護する。
データ難読化によるユーティリティ損失を最小限に抑えるため、線形プログラミング(LP)が広く使われている。
しかし、LPは決定変数の多項式爆発に直面するため、大規模な地球難読化には実用的ではない。
本稿では, 局所関連地球難読化 (LR-Geo) と呼ばれる新しいLPPMを提案する。
これは、各ユーザの地理的難読化計算を、ユーザの実際の位置に近い局所的関連(LR)ロケーションに制限することで達成される。
LR位置がユーザの真の位置を不注意に明らかにすることを防止するため、ユーザはローカルでLP係数を計算し、LR位置自体ではなく、これらの係数のみをサーバにアップロードする。
次に、サーバは、供給された係数を用いてLP問題を解く。
さらに,指数的難読化機構によりLPフレームワークを強化し,複数のユーザ間で難読化分布が識別不能であることを保証する。
LP定式化の制約構造を利用して,Bendersの分解を適用し,計算効率をさらに向上する。
理論的解析により, 地理的難読化は各ユーザごとに独立に計算されているものの, 高い確率で複数のユーザ間での地理的不識別性制約に固執していることが確認された。
最後に、実世界のデータセットを用いた実験結果から、LR-Geoは計算時間、データユーティリティ、プライバシ保護の点で、既存の測地難読化手法よりも優れていることが示された。
Geo-obfuscation functions as a location privacy protection mechanism (LPPM), enabling mobile users to share obfuscated locations with servers instead of their exact locations. This technique protects users' location privacy during server-side data breaches since the obfuscation process is irreversible. To minimize the utility loss caused by data obfuscation, linear programming (LP) is widely used. However, LP can face a polynomial explosion in decision variables, making it impractical for large-scale geo-obfuscation applications. In this paper, we propose a new LPPM called Locally Relevant Geo-obfuscation (LR-Geo) to optimize geo-obfuscation using LP more efficiently. This is accomplished by restricting the geo-obfuscation calculations for each user to locally relevant (LR) locations near the user's actual location. To prevent LR locations from inadvertently revealing a user's true whereabouts, users compute the LP coefficients locally and upload only these coefficients to the server, rather than the LR locations themselves. The server then solves the LP problem using the provided coefficients. Additionally, we enhance the LP framework with an exponential obfuscation mechanism to ensure that the obfuscation distribution is indistinguishable across multiple users. By leveraging the constraint structure of the LP formulation, we apply Benders' decomposition to further boost computational efficiency. Our theoretical analysis confirms that, even though geo-obfuscation is calculated independently for each user, it still adheres to geo-indistinguishability constraints across multiple users with high probability. Finally, experimental results using a real-world dataset demonstrate that LR-Geo outperforms existing geo-obfuscation methods in terms of computational time, data utility, and privacy protection. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# マルチモーダル表現学習における因果的十分性と必要性について
On the Causal Sufficiency and Necessity of Multi-Modal Representation Learning ( http://arxiv.org/abs/2407.14058v2 ) ライセンス: Link先を確認 | Jingyao Wang, Wenwen Qiang, Jiangmeng Li, Lingyu Si, Changwen Zheng, Bing Su, | (参考訳) マルチモーダル学習(MML)の効果的なパラダイムは、モーダル間の統一表現を学習することである。
因果的観点では、異なるモダリティ間の一貫性を制約することは、一次事象を伝達する因果的表現をマイニングすることができる。
しかし、このような単純な一貫性は、不必要な情報や不必要な情報を学習するリスクに直面することがある:必要だが不十分な原因は、モダリティ間で不変であるが、必要な正確性を持っていないかもしれない; 十分だが不必要な原因は、特定のモダリティに順応する傾向があるが、新しいデータに適応することが困難である。
本稿では,MMLにおける因果的かつ必要な表現,すなわち因果完全原因(C^3$)を学習することを目的とする。
まず、MMLに対する$C^3$という概念を定義し、因果便宜と必要性の確率を反映する。
また、実際に学習した表現のC^3$のスコアを確実に計算するために、C^3$の識別可能性と測定値、すなわち、C^3$のリスクも提案する。
次に,MMLの性能保証を厳密な一般化境界で確立することにより,$C^3$リスクの有効性を理論的に証明する。
これらの理論結果に基づいて, 因果完全因果正規化(C^3$R)と呼ばれるプラグ・アンド・プレイ法を提案し, リスクバウンドを制約することで因果完全表現を学習する。
様々なベンチマークデータセットで行った大規模な実験は、C^3$Rの有効性を実証的に実証した。
An effective paradigm of multi-modal learning (MML) is to learn unified representations among modalities. From a causal perspective, constraining the consistency between different modalities can mine causal representations that convey primary events. However, such simple consistency may face the risk of learning insufficient or unnecessary information: a necessary but insufficient cause is invariant across modalities but may not have the required accuracy; a sufficient but unnecessary cause tends to adapt well to specific modalities but may be hard to adapt to new data. To address this issue, in this paper, we aim to learn representations that are both causal sufficient and necessary, i.e., Causal Complete Cause ($C^3$), for MML. Firstly, we define the concept of $C^3$ for MML, which reflects the probability of being causal sufficiency and necessity. We also propose the identifiability and measurement of $C^3$, i.e., $C^3$ risk, to ensure calculating the learned representations' $C^3$ scores in practice. Then, we theoretically prove the effectiveness of $C^3$ risk by establishing the performance guarantee of MML with a tight generalization bound. Based on these theoretical results, we propose a plug-and-play method, namely Causal Complete Cause Regularization ($C^3$R), to learn causal complete representations by constraining the $C^3$ risk bound. Extensive experiments conducted on various benchmark datasets empirically demonstrate the effectiveness of $C^3$R. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# チェイン・オブ・サートを用いた検索増強生成の実証的研究
An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought ( http://arxiv.org/abs/2407.15569v2 ) ライセンス: Link先を確認 | Yuetong Zhao, Hongyu Cao, Xianyu Zhao, Zhijian Ou, | (参考訳) 2022年末にChatGPTがローンチされて以来、ChatGPTで表される生成対話モデルは、急速に日常生活において必須のツールになりつつある。
ユーザの期待が高まるにつれ、複雑な問題を解決するための生成対話モデルの能力の向上が、現在研究の焦点となっている。
本稿では,RAFT(Retrieval Augmented Fine-Tuning)法の有効性について述べる。
RAFTは、チェーン・オブ・ソートとモデル教師付き微調整(SFT)と検索拡張生成(RAG)を組み合わせることで、モデルの情報抽出と論理的推論能力を大幅に向上させる。
RAFT法を複数のデータセットで評価し、長文QAタスクや短文QAタスク、中国語と英語のタスク、支援的および比較的推論タスクなど、様々な推論タスクのパフォーマンスを分析した。
特に、長期QAタスクと中国のデータセットに関するこれまでの研究のギャップに対処している。
さらに,RAFT法におけるチェーン・オブ・シント(CoT)の利点も評価した。
この研究は、生成的対話モデルの性能向上に焦点をあてた研究に貴重な洞察を与える。
Since the launch of ChatGPT at the end of 2022, generative dialogue models represented by ChatGPT have quickly become essential tools in daily life. As user expectations increase, enhancing the capability of generative dialogue models to solve complex problems has become a focal point of current research. This paper delves into the effectiveness of the RAFT (Retrieval Augmented Fine-Tuning) method in improving the performance of Generative dialogue models. RAFT combines chain-of-thought with model supervised fine-tuning (SFT) and retrieval augmented generation (RAG), which significantly enhanced the model's information extraction and logical reasoning abilities. We evaluated the RAFT method across multiple datasets and analysed its performance in various reasoning tasks, including long-form QA and short-form QA tasks, tasks in both Chinese and English, and supportive and comparison reasoning tasks. Notably, it addresses the gaps in previous research regarding long-form QA tasks and Chinese datasets. Moreover, we also evaluate the benefit of the chain-of-thought (CoT) in the RAFT method. This work offers valuable insights for studies focused on enhancing the performance of generative dialogue models. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# MSP-MVS: 誘導型マルチビューステレオ以前の多粒度セグメンテーション
MSP-MVS: Multi-granularity Segmentation Prior Guided Multi-View Stereo ( http://arxiv.org/abs/2407.19323v2 ) ライセンス: Link先を確認 | Zhenlong Yuan, Cong Liu, Fei Shen, Zhaoxin Li, Tianlu Mao, Zhaoqi Wang, | (参考訳) MVSにおけるテクスチャレス領域の再構築は、固定パッチ内での信頼性の高いピクセル対応が欠如しているため、課題となる。
特定の方法は受容場を拡張するためにパッチ変形を用いるが、それらのパッチは誤って深度不連続な領域を計算するために深度エッジをスキップし、あいまいさを引き起こす。
その結果,Multi-granularity Segmentation Prior Multi-View Stereo (MSP-MVS)を導入した。
具体的には、まず、均一領域におけるパッチ変形を抑制するために、多重粒度深度エッジを統合することで、多重粒度セグメンテーションを提案する。
さらに,同種領域の適切なカバレッジを確保するために,より均一に分散されたアンカーを用いた変形パッチを提供するアンカー分布について述べる。
さらに、スパース代表候補を持つより大きなパッチを表すために、反復的な局所探索最適化を導入し、各パッチの表現能力を大幅に向上させる。
ETH3D と Tanks & Temples ベンチマークの最先端結果から,提案手法の有効性とロバストな一般化能力が示された。
Reconstructing textureless areas in MVS poses challenges due to the absence of reliable pixel correspondences within fixed patch. Although certain methods employ patch deformation to expand the receptive field, their patches mistakenly skip depth edges to calculate areas with depth discontinuity, thereby causing ambiguity. Consequently, we introduce Multi-granularity Segmentation Prior Multi-View Stereo (MSP-MVS). Specifically, we first propose multi-granularity segmentation prior by integrating multi-granularity depth edges to restrict patch deformation within homogeneous areas. Moreover, we present anchor equidistribution that bring deformed patches with more uniformly distributed anchors to ensure an adequate coverage of their own homogeneous areas. Furthermore, we introduce iterative local search optimization to represent larger patch with sparse representative candidates, significantly boosting the expressive capacity for each patch. The state-of-the-art results on ETH3D and Tanks & Temples benchmarks demonstrate the effectiveness and robust generalization ability of our proposed method. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# 反復的トランスバーサルCNOTデコーダ
An iterative transversal CNOT decoder ( http://arxiv.org/abs/2407.20976v2 ) ライセンス: Link先を確認 | Kwok Ho Wan, Mark Webber, Austin G. Fowler, Winfried K. Hensinger, | (参考訳) 閉じ込められたイオンや中性原子のような潜在的な量子ビット候補のための現代のプラットフォームは、シャットリングを通じて離れた物理量子ビット間の長距離接続を可能にする。
これにより、遠隔論理キュービット間の逆論理CNOTゲートの経路が開き、制御と対象論理キュービット上の各物理キュービット間で物理CNOTゲートが実行される。
しかし、CNOTは1つの論理量子ビットから別の論理量子ビットへの誤りを伝播させ、論理量子ビット間の相関誤差をもたらす。
我々は、この相関エラーに対処するために、各論理量子ビットを個別に復号するマルチパスイテレーティブデコーダを開発した。
回路レベルのノイズと$\mathcal{O}(1)$コードサイクルの条件下では、しきい値が引き続き持続し、論理的エラー率も大幅に低下せず、距離$d$回転曲面符号に対して$p^{\lfloor\frac{d}{2}\rfloor}$のサブ閾値論理的エラー率スケーリングと一致することを示す。
Modern platforms for potential qubit candidates, such as trapped ions or neutral atoms, allow long range connectivity between distant physical qubits through shuttling. This opens up an avenue for transversal logical CNOT gates between distant logical qubits, whereby physical CNOT gates are performed between each corresponding physical qubit on the control and target logical qubits. However, the transversal CNOT can propagate errors from one logical qubit to another, leading to correlated errors between logical qubits. We have developed a multi-pass iterative decoder that decodes each logical qubit separately to deal with this correlated error. We show that under circuit-level noise and only $\mathcal{O}(1)$ code cycles, a threshold can still persist, and the logical error rate will not be significantly degraded, matching the sub-threshold logical error rate scaling of $p^{\lfloor\frac{d}{2}\rfloor}$ for a distance $d$ rotated surface code. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# エンド・ツー・エンド同時音声翻訳におけるLLMエージェントによる人間親の獲得に向けて
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent ( http://arxiv.org/abs/2407.21646v2 ) ライセンス: Link先を確認 | Shanbo Cheng, Zhichao Huang, Tom Ko, Hang Li, Ningxin Peng, Lu Xu, Qini Zhang, | (参考訳) 本稿では,クロス言語エージェントであるCLASIについて述べる。
プロフェッショナルなヒューマンインタプリタにインスパイアされた私たちは、新しいデータ駆動の読み書き戦略を使用して、翻訳品質とレイテンシのバランスを取ります。
ドメイン内用語の翻訳の課題に対処するため、CLASIは多モーダル検索モジュールを使用して翻訳を強化するための関連情報を取得する。
提案手法は, 入力音声, 履歴状況, 検索情報を考慮し, 誤り許容翻訳を生成する。
実験結果から,本システムは他システムよりも優れた性能を示した。
専門家の人間通訳と相まって,より優れた評価基準,有効な情報比率(VIP)でCLASIを評価し,聴取者に伝達できる情報量を測定した。
実世界のシナリオでは、言語が不流で非公式で不明瞭な場合、CLASIは中国語と英語と中国語の翻訳方向それぞれ81.3%と78.0%のVIPを達成している。
対照的に、最先端の商用またはオープンソースシステムは35.4%と41.6%しか達成していない。
非常に厳しいデータセットでは、他のシステムが13%のVIPで達成できるが、CLASIは70%のVIPを達成できる。
In this paper, we present Cross Language Agent -- Simultaneous Interpretation, CLASI, a high-quality and human-like Simultaneous Speech Translation (SiST) System. Inspired by professional human interpreters, we utilize a novel data-driven read-write strategy to balance the translation quality and latency. To address the challenge of translating in-domain terminologies, CLASI employs a multi-modal retrieving module to obtain relevant information to augment the translation. Supported by LLMs, our approach can generate error-tolerated translation by considering the input audio, historical context, and retrieved information. Experimental results show that our system outperforms other systems by significant margins. Aligned with professional human interpreters, we evaluate CLASI with a better human evaluation metric, valid information proportion (VIP), which measures the amount of information that can be successfully conveyed to the listeners. In the real-world scenarios, where the speeches are often disfluent, informal, and unclear, CLASI achieves VIP of 81.3% and 78.0% for Chinese-to-English and English-to-Chinese translation directions, respectively. In contrast, state-of-the-art commercial or open-source systems only achieve 35.4% and 41.6%. On the extremely hard dataset, where other systems achieve under 13% VIP, CLASI can still achieve 70% VIP. | 翻訳日:2024-09-02 17:48:46 公開日:2024-08-30 |
# L4DR:LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection
L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection ( http://arxiv.org/abs/2408.03677v3 ) ライセンス: Link先を確認 | Xun Huang, Ziyu Xu, Hai Wu, Jinlong Wang, Qiming Xia, Yan Xia, Jonathan Li, Kyle Gao, Chenglu Wen, Cheng Wang, | (参考訳) LiDARベースの視覚システムは3Dオブジェクト検出に不可欠であり、自律的なナビゲーションには不可欠である。
しかし、LiDAR点雲の品質劣化により、悪天候下での性能劣化に悩まされる。
LiDARと4Dレーダーセンサーを融合させることで、この問題を解決することが期待されている。
しかし、LiDARと4Dレーダの融合は、データ品質と悪天候の劣化度で大きく異なるため、困難である。
これらの問題に対処するために,L4DRという,LiDARと4Dレーダ融合を効果的に実現した気象破砕型3次元物体検出手法を導入する。
我々のL4DRには、LiDARと4Dレーダの初期の融合の相補性の最初の調査であるセンサギャップを分解するMMEとFAD技術が含まれています。
さらに, マルチスケールGated Fusion (MSGF) モジュールと組み合わせた並列特徴抽出バックボーンを設計し, 悪天候下でのセンサ劣化の度合いの変動に対処する。
霧を模擬したVoDデータセットの実験的評価により,L4DRは気象条件の変化に適応可能であることが示された。
霧のレベルによってパフォーマンスが大幅に向上し、3D mAPは従来のLiDARのみのアプローチよりも最大20.0%向上した。
さらに,K-Radarデータセットを用いて,現実の悪天候条件下でのL4DRの性能改善を検証した。
LiDAR-based vision systems are integral for 3D object detection, which is crucial for autonomous navigation. However, they suffer from performance degradation in adverse weather conditions due to the quality deterioration of LiDAR point clouds. Fusing LiDAR with the weather-robust 4D radar sensor is expected to solve this problem. However, the fusion of LiDAR and 4D radar is challenging because they differ significantly in terms of data quality and the degree of degradation in adverse weather. To address these issues, we introduce L4DR, a weather-robust 3D object detection method that effectively achieves LiDAR and 4D Radar fusion. Our L4DR includes Multi-Modal Encoding (MME) and Foreground-Aware Denoising (FAD) technique to reconcile sensor gaps, which is the first exploration of the complementarity of early fusion between LiDAR and 4D radar. Additionally, we design an Inter-Modal and Intra-Modal ({IM}2 ) parallel feature extraction backbone coupled with a Multi-Scale Gated Fusion (MSGF) module to counteract the varying degrees of sensor degradation under adverse weather conditions. Experimental evaluation on a VoD dataset with simulated fog proves that L4DR is more adaptable to changing weather conditions. It delivers a significant performance increase under different fog levels, improving the 3D mAP by up to 20.0% over the traditional LiDAR-only approach. Moreover, the results on the K-Radar dataset validate the consistent performance improvement of L4DR in real-world adverse weather conditions. | 翻訳日:2024-09-02 17:38:33 公開日:2024-08-30 |
# TaSL: 言語モデル継続学習のためのタスクスキルのローカライゼーションと統合
TaSL: Task Skill Localization and Consolidation for Language Model Continual Learning ( http://arxiv.org/abs/2408.05200v2 ) ライセンス: Link先を確認 | Yujie Feng, Xu Chu, Yongxin Xu, Zexin Lu, Bo Liu, Philip S. Yu, Xiao-Ming Wu, | (参考訳) 言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。
この領域における大きな課題は、モデルが新しいタスクを学ぶ際に獲得した知識を失う、破滅的な忘れ事である。
既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。
本稿では,タスクスキル・ローカライゼーションと統合(TaSL)と呼ばれる,言語モデルのための新しいCLフレームワークを提案する。
TaSLは当初、パラメータ依存に基づいてモデルを"スキルユニット"に分離し、より正確な制御を可能にする。
その後、新規なグループワイドスキルローカライズ技術を用いて、新しいタスクにおけるスキルユニットの重要性の分布を確認する。
この重要度分布を従来の課題と比較することにより、タスク固有の知識を保持し、忘れないようにし、双方向の知識伝達を容易にするタスク共有知識を更新する、きめ細かいスキル統合戦略を実現する。
結果として、TaSLは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
TaSLは強力な一般化可能性を示し、様々なベースモデルに適合し、LoRAのようなPEFTメソッドに適応できる。
さらに、メモリリプレイ技術との統合による拡張をサポートすることで、顕著な拡張性を提供する。
220Mから7Bパラメータのモデルを含む2つのCLベンチマークで包括的な実験を行い、異なる設定でTaSLとその変種の有効性を確認した。
Language model continual learning (CL) has recently attracted significant interest for its ability to adapt large language models (LLMs) to dynamic real-world scenarios without retraining. A major challenge in this domain is catastrophic forgetting, where models lose previously acquired knowledge upon learning new tasks. Existing approaches commonly utilize multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge, yet these methods are inefficient and fail to leverage potential knowledge transfer across tasks. In this paper, we introduce a novel CL framework for language models, named Task Skill Localization and Consolidation (TaSL), which boosts knowledge transfer without depending on memory replay. TaSL initially segregates the model into 'skill units' based on parameter dependencies, allowing for more precise control. Subsequently, it employs a novel group-wise skill localization technique to ascertain the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained skill consolidation strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, TaSL achieves an optimal balance between retaining prior knowledge and excelling in new tasks. TaSL also demonstrates strong generalizability, making it suitable for various base models and adaptable to PEFT methods like LoRA. Furthermore, it offers notable extensibility, supporting enhancements through integration with memory replay techniques. Comprehensive experiments conducted on two CL benchmarks, involving models ranging from 220M to 7B parameters, affirm the effectiveness of TaSL and its variants across different settings. | 翻訳日:2024-09-02 17:38:33 公開日:2024-08-30 |
# デルタエンジンによる仮想世界を進化させる
Evolving Virtual World with Delta-Engine ( http://arxiv.org/abs/2408.05842v3 ) ライセンス: Link先を確認 | Hongqiu Wu, Zekai Xu, Tianyang Xu, Shize Wei, Yan Wang, Jiale Hong, Weiqi Wu, Hai Zhao, Min Zhang, Zhezhi He, | (参考訳) 本稿では,人々が住むことができるサイバー空間である「emph{virtual world}」に焦点を当てる。
理想的な仮想世界は、私たちの現実世界と非常によく似ている。
重要な側面の1つは、その進化する性質であり、個人が成長し、それによって客観的世界に影響を与える能力に反映されている。
このような力学は予測不可能であり、既存のシステムの範囲を超えている。
そこで我々は,この仮想世界を駆動する特別なエンジンである「textbf{\emph{Delta-Engine}}」を提案する。
$\Delta$は、世界の進化とエンジンのスケーラビリティを関連付ける。
ベースエンジンとニューラルプロキシで構成される。
ベースエンジンは仮想世界のプロトタイプをプログラムし、トリガーが与えられたら、ニューラルネットワークはベースエンジン上で \emph{incremental prediction} を通じて新しいスニペットを生成する。
本稿ではデルタエンジンのフルスタック導入について述べる。
デルタエンジンの重要な特徴は、世界中の未知の要素へのスケーラビリティである。技術的には、ニューラルネットワークとベースエンジンの完全なコワーキング、高品質なデータとの整合性から導かれる。
本稿では,ベースエンジンをプロキシに組み込むエンジン指向の微調整手法を提案する。
次に、人間とLLMの協調設計を議論し、新しい興味深いデータを効率よく生成する。
最終的に,デルタエンジンの性能を総合的に評価する3つの評価原則を提案する。
In this paper, we focus on the \emph{virtual world}, a cyberspace where people can live in. An ideal virtual world shares great similarity with our real world. One of the crucial aspects is its evolving nature, reflected by individuals' capability to grow and thereby influence the objective world. Such dynamics is unpredictable and beyond the reach of existing systems. For this, we propose a special engine called \textbf{\emph{Delta-Engine}} to drive this virtual world. $\Delta$ associates the world's evolution to the engine's scalability. It consists of a base engine and a neural proxy. The base engine programs the prototype of the virtual world; given a trigger, the neural proxy generates new snippets on the base engine through \emph{incremental prediction}. This paper presents a full-stack introduction to the delta-engine. The key feature of the delta-engine is its scalability to unknown elements within the world, Technically, it derives from the prefect co-work of the neural proxy and the base engine, and the alignment with high-quality data. We introduce an engine-oriented fine-tuning method that embeds the base engine into the proxy. We then discuss the human-LLM collaborative design to produce novel and interesting data efficiently. Eventually, we propose three evaluation principles to comprehensively assess the performance of a delta engine: naive evaluation, incremental evaluation, and adversarial evaluation. | 翻訳日:2024-09-02 17:38:33 公開日:2024-08-30 |
# マルコフスイッチングを用いた非線形波動方程式のパラメータ推定
Parameters Inference for Nonlinear Wave Equations with Markovian Switching ( http://arxiv.org/abs/2408.05990v2 ) ライセンス: Link先を確認 | Yi Zhang, Zhikun Zhang, Xiangjun Wang, | (参考訳) 定数係数を持つ伝統的な偏微分方程式は、しばしば実世界の現象の急激な変化を捉えるのに苦労し、可変係数 PDE とマルコフスイッチングモデルの開発に繋がる。
近年,マルコフスイッチングモデルを用いたPDEの概念を導入し,その有効性を確立し,数値的手法を提案する。
しかし,これらのモデルでは,ジャンプ係数のパラメータ推定について限定的な議論がなされている。
本稿では,マルコフスイッチングを用いた波動方程式のパラメータ推定に着目し,このギャップに対処する。
離散スパースベイズ学習を用いたベイズ統計フレームワークを提案し,その収束と一様誤差境界を確立する。
提案手法では,各セグメント毎のパラメータ推定問題に対して,各セグメント毎の独立なパラメータ推定が可能となる。
本手法の有効性は,マルコフスイッチングを伴う異なる波動方程式の時空間ノイズデータを含む3つの数値ケースを用いて実証した。
その結果,変数係数PDEのパラメータ推定では高い性能を示した。
Traditional partial differential equations with constant coefficients often struggle to capture abrupt changes in real-world phenomena, leading to the development of variable coefficient PDEs and Markovian switching models. Recently, research has introduced the concept of PDEs with Markov switching models, established their well-posedness and presented numerical methods. However, there has been limited discussion on parameter estimation for the jump coefficients in these models. This paper addresses this gap by focusing on parameter inference for the wave equation with Markovian switching. We propose a Bayesian statistical framework using discrete sparse Bayesian learning to establish its convergence and a uniform error bound. Our method requires fewer assumptions and enables independent parameter inference for each segment by allowing different underlying structures for the parameter estimation problem within each segmented time interval. The effectiveness of our approach is demonstrated through three numerical cases, which involve noisy spatiotemporal data from different wave equations with Markovian switching. The results show strong performance in parameter estimation for variable coefficient PDEs. | 翻訳日:2024-09-02 17:38:33 公開日:2024-08-30 |
# ゲームにおける意思決定スタイルと政策多様性の知覚的類似性
Perceptual Similarity for Measuring Decision-Making Style and Policy Diversity in Games ( http://arxiv.org/abs/2408.06051v2 ) ライセンス: Link先を確認 | Chiu-Chou Lin, Wei-Chen Chiu, I-Chen Wu, | (参考訳) プレイスタイルとして知られる意思決定スタイルの定義と測定はゲームにおいて重要であり、これらのスタイルは個人性と多様性の幅広い範囲を反映している。
しかし、これらのスタイルに対して普遍的に適用可能な尺度を見つけることは困難である。
ゲーム画面と生のアクションに基づいてプレイスタイルの類似度を測定する最初の教師なし指標であるPlaystyle Distanceをベースとして,様々な状態の粒度を持つマルチスケール分析,心理学に根ざした知覚核,効率的評価のためのクロスオーバー・ユニオン法の利用という,精度向上のための3つの拡張を導入する。
これらの革新は測定精度を向上するだけでなく、人間の類似性認知に関する洞察も提供する。
2つのレースゲームと7つのアタリゲームの間で、我々の技術はゼロショットプレイスタイルの分類の精度を大幅に向上させ、512組未満の観察アクションペアで90%を超える精度を実現した。
さらに,2048年とGoを用いた実験では,パズルやボードゲームにおける個別のプレイスタイル尺度の可能性を示した。
また,これらの指標を用いて意思決定の多様性を評価するアルゴリズムを開発した。
そこで本研究では,エンド・ツー・エンドのゲーム分析と,多種多様なプレイスタイルのための人工知能の進化について検討した。
Defining and measuring decision-making styles, also known as playstyles, is crucial in gaming, where these styles reflect a broad spectrum of individuality and diversity. However, finding a universally applicable measure for these styles poses a challenge. Building on Playstyle Distance, the first unsupervised metric to measure playstyle similarity based on game screens and raw actions, we introduce three enhancements to increase accuracy: multiscale analysis with varied state granularity, a perceptual kernel rooted in psychology, and the utilization of the intersection-over-union method for efficient evaluation. These innovations not only advance measurement precision but also offer insights into human cognition of similarity. Across two racing games and seven Atari games, our techniques significantly improve the precision of zero-shot playstyle classification, achieving an accuracy exceeding 90 percent with fewer than 512 observation-action pairs, which is less than half an episode of these games. Furthermore, our experiments with 2048 and Go demonstrate the potential of discrete playstyle measures in puzzle and board games. We also develop an algorithm for assessing decision-making diversity using these measures. Our findings improve the measurement of end-to-end game analysis and the evolution of artificial intelligence for diverse playstyles. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# 差別化可能なエッジベースOPC
Differentiable Edge-based OPC ( http://arxiv.org/abs/2408.08969v3 ) ライセンス: Link先を確認 | Guojin Chen, Haoyu Yang, Haoxing Ren, Bei Yu, David Z. Pan, | (参考訳) 光近接補正(OPC)は半導体製造の境界を押し進め、集積回路の継続的なスケーリングを可能にするために重要である。
画素ベースのOPCは逆リソグラフィ技術(ILT)と呼ばれ、その柔軟性と精度から研究の関心を集めている。
その複雑さと複雑な特徴は、マスクの書き込み、欠陥の増加、コストの上昇といった課題を招き、工業的普及を妨げている。
本稿では、エッジベースのOPCとILTの両方の利点を享受する差別化可能なOPCフレームワークであるDiffOPCを提案する。
DiffOPCはマスクルールを意識した勾配に基づく最適化手法を用いて、マスク最適化中のマスクエッジセグメントの動きを効率的に誘導し、コスト関数からマスクエッジへの真の勾配の伝播によるウェハ誤差を最小化する。
提案手法は,最先端のOPC技術と比較して製造コストを半減させ,画素ベースのOPCの高精度化と産業採用に必要な実用性とのギャップを埋めると共に,製造コストを半減させる。
Optical proximity correction (OPC) is crucial for pushing the boundaries of semiconductor manufacturing and enabling the continued scaling of integrated circuits. While pixel-based OPC, termed as inverse lithography technology (ILT), has gained research interest due to its flexibility and precision. Its complexity and intricate features can lead to challenges in mask writing, increased defects, and higher costs, hence hindering widespread industrial adoption. In this paper, we propose DiffOPC, a differentiable OPC framework that enjoys the virtue of both edge-based OPC and ILT. By employing a mask rule-aware gradient-based optimization approach, DiffOPC efficiently guides mask edge segment movement during mask optimization, minimizing wafer error by propagating true gradients from the cost function back to the mask edges. Our approach achieves lower edge placement error while reducing manufacturing cost by half compared to state-of-the-art OPC techniques, bridging the gap between the high accuracy of pixel-based OPC and the practicality required for industrial adoption, thus offering a promising solution for advanced semiconductor manufacturing. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# 水平・二次境界に対するミニマリストアプローチとしてのモデルベースRL
Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds ( http://arxiv.org/abs/2408.08994v2 ) ライセンス: Link先を確認 | Zhiyong Wang, Dongruo Zhou, John C. S. Lui, Wen Sun, | (参考訳) MLE(Maximum Likelihood Estimation)を通じて移行モデルを学習し、学習モデル内で計画を行うことは、おそらく最も標準的で、最もシンプルなモデルベース強化学習(RL)フレームワークである。
本研究では,楽観的で悲観的な計画手順を備えたモデルベースRLスキームが,オンラインとオフラインのRL設定において,強い後悔とサンプルの複雑さの境界を達成できることを示す。
特に、軌道的報酬が0と1の間で正規化され、遷移が時間的均質である条件下では、地平線フリーおよび二階境界を達成することを実証する。
水平自由とは、我々の境界はマルコフ決定過程の地平線に多項式依存を持たないことを意味する。
2階境界(英: second-order bound)は、システムがほぼ決定論的であるときに小さくなり得るポリシーの戻り値の分散に関してスケールする、インスタンス依存境界の一種である。
我々のアルゴリズムは単純で、かなり標準的なものであり、実際にRLの文献で広く研究されている:彼らはMLEを通してモデルを学習し、MLEソリューションの周りにバージョン空間を構築し、オンラインモードかオフラインモードかによって楽観的または悲観的な計画を実行する。
これらのアルゴリズムは、分散学習や分散重み付け学習などの特別なアルゴリズム設計に頼らず、線形構造や表構造をはるかに超越したリッチ関数近似を利用することができる。
アルゴリズムの単純さは、地平線のない、2階の後悔分析が実際には標準であり、主に不確実性に直面した楽観主義/悲観主義の一般的な枠組みに従うことを示唆している。
Learning a transition model via Maximum Likelihood Estimation (MLE) followed by planning inside the learned model is perhaps the most standard and simplest Model-based Reinforcement Learning (RL) framework. In this work, we show that such a simple Model-based RL scheme, when equipped with optimistic and pessimistic planning procedures, achieves strong regret and sample complexity bounds in online and offline RL settings. Particularly, we demonstrate that under the conditions where the trajectory-wise reward is normalized between zero and one and the transition is time-homogenous, it achieves horizon-free and second-order bounds. Horizon-free means that our bounds have no polynomial dependence on the horizon of the Markov Decision Process. A second-order bound is a type of instance-dependent bound that scales with respect to the variances of the returns of the policies which can be small when the system is nearly deterministic and (or) the optimal policy has small values. We highlight that our algorithms are simple, fairly standard, and indeed have been extensively studied in the RL literature: they learn a model via MLE, build a version space around the MLE solution, and perform optimistic or pessimistic planning depending on whether operating in the online or offline mode. These algorithms do not rely on additional specialized algorithmic designs such as learning variances and performing variance-weighted learning and thus can leverage rich function approximations that are significantly beyond linear or tabular structures. The simplicity of the algorithms also implies that our horizon-free and second-order regret analysis is actually standard and mainly follows the general framework of optimism/pessimism in the face of uncertainty. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# 少人数のDPOは、トレーニングの堅牢性を高めるために罰則を拒絶する
Minor DPO reject penalty to increase training robustness ( http://arxiv.org/abs/2408.09834v3 ) ライセンス: Link先を確認 | Shiming Xie, Hong Chen, Fred Yu, Zeye Sun, Xiuyu Wu, Yingfan Hu, | (参考訳) 人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
過去には、人間のフィードバック(RLHF)アルゴリズムからの強化学習を使用して、LLMポリシーを最適化し、これらの嗜好に適合させ、元のモデルから遠ざからないようにしている。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
選択されたデータと拒否データの選好ペアを用いて、DPOは相対ログ確率を暗黙の報奨関数としてモデル化し、単純なバイナリクロスエントロピーの目的を使ってLCMポリシーを最適化する。
DPOは非常にまっすぐで理解しやすいです。
ほとんどの場合、効率よく、よく機能する。
本稿では、DPOにおける$\beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
これらの知見により、元のRLアルゴリズムに整合したMinorDPOを提案し、好みの最適化プロセスの安定性を向上させる。
Learning from human preference is a paradigm used in large-scale language model (LLM) fine-tuning step to better align pretrained LLM to human preference for downstream task. In the past it uses reinforcement learning from human feedback (RLHF) algorithm to optimize the LLM policy to align with these preferences and not to draft too far from the original model. Recently, Direct Preference Optimization (DPO) has been proposed to solve the alignment problem with a simplified RL-free method. Using preference pairs of chosen and reject data, DPO models the relative log probability as implicit reward function and optimize LLM policy using a simple binary cross entropy objective directly. DPO is quite straight forward and easy to be understood. It perform efficiently and well in most cases. In this article, we analyze the working mechanism of $\beta$ in DPO, disclose its syntax difference between RL algorithm and DPO, and understand the potential shortage brought by the DPO simplification. With these insights, we propose MinorDPO, which is better aligned to the original RL algorithm, and increase the stability of preference optimization process. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# 説明可能なAIによる生産スケジューリングにおける強化学習
Demystifying Reinforcement Learning in Production Scheduling via Explainable AI ( http://arxiv.org/abs/2408.09841v2 ) ライセンス: Link先を確認 | Daniel Fischer, Hannah M. Hüsener, Felix Grumbach, Lukas Vollenkemper, Arthur Müller, Pascal Reusch, | (参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
我々は、フロー生産における特殊なDRLエージェントのスケジューリング決定の背後にある理由を説明するために、2つの説明可能なAI(xAI)フレームワーク、すなわちSHAP(DeepSHAP)とCaptum(Input x Gradient)を体系的に適用するケーススタディを行う。
我々は,xAI文献の手法にはファリシフィビリティや一貫した用語が欠如しており,ドメイン知識や対象のオーディエンス,現実のシナリオを十分に考慮しておらず,典型的には因果解釈よりも単純なインプット・アウトプットの説明を提供する。
この問題を解決するために,仮説に基づくワークフローを導入する。
このアプローチにより、説明がドメイン知識と一致しているかを検証し、エージェントの報酬仮説に合致する。
さらに,これらの知見を第三者に伝達する上で,対象者に対する仮説を調整し,検証後のエージェントの行動の解釈として機能させることが課題である。
提案するワークフローでは,説明の繰り返しの検証が強調され,DRLに基づくスケジューリングのユースケースにも適用可能である。
Deep Reinforcement Learning (DRL) is a frequently employed technique to solve scheduling problems. Although DRL agents ace at delivering viable results in short computing times, their reasoning remains opaque. We conduct a case study where we systematically apply two explainable AI (xAI) frameworks, namely SHAP (DeepSHAP) and Captum (Input x Gradient), to describe the reasoning behind scheduling decisions of a specialized DRL agent in a flow production. We find that methods in the xAI literature lack falsifiability and consistent terminology, do not adequately consider domain-knowledge, the target audience or real-world scenarios, and typically provide simple input-output explanations rather than causal interpretations. To resolve this issue, we introduce a hypotheses-based workflow. This approach enables us to inspect whether explanations align with domain knowledge and match the reward hypotheses of the agent. We furthermore tackle the challenge of communicating these insights to third parties by tailoring hypotheses to the target audience, which can serve as interpretations of the agent's behavior after verification. Our proposed workflow emphasizes the repeated verification of explanations and may be applicable to various DRL-based scheduling use cases. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# ドッキング技術報告
Docling Technical Report ( http://arxiv.org/abs/2408.09869v3 ) ライセンス: Link先を確認 | Christoph Auer, Maksym Lysak, Ahmed Nassar, Michele Dolfi, Nikolaos Livathinos, Panos Vagenas, Cesar Berrospi Ramis, Matteo Omenetti, Fabian Lindlbauer, Kasper Dinkla, Lokesh Mishra, Yusik Kim, Shubham Gupta, Rafael Teixeira de Lima, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Peter W. J. Staar, | (参考訳) この技術レポートではDoclingを紹介します。Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージです。
レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端の専門的なAIモデルを活用し、小さなリソース予算でコモディティハードウェア上で効率的に動作する。
コードインターフェースにより、簡単に拡張でき、新しい機能やモデルの追加が可能になる。
This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# カスタマイズ拡散モデルのためのプロンプト非依存的対向摂動
Prompt-Agnostic Adversarial Perturbation for Customized Diffusion Models ( http://arxiv.org/abs/2408.10571v2 ) ライセンス: Link先を確認 | Cong Wan, Yuhang He, Xiang Song, Yihong Gong, | (参考訳) 拡散モデルは、カスタマイズされたテキスト・ツー・イメージ生成に革命をもたらし、テキスト記述による個人データからの写真の効率的な合成を可能にした。
しかし、これらの進歩は、プライバシー侵害や芸術作品の無許可複製などのリスクを引き起こす。
従来の研究は主に、個人画像を保護するための敵対的な例を生成するために、プロンプト固有の手法を主に用いていたが、既存の手法の有効性は、異なるプロンプトに対する制約付き適応性によって妨げられている。
本稿では,カスタマイズした拡散モデルのためのPR法を提案する。
PAPはまず、ラプラス近似を用いてプロンプト分布をモデル化し、その後、モデル化された分布に基づいて外乱期待を最大化することにより、急激な摂動を発生させる。
このアプローチは、即時無敵攻撃に効果的に取り組み、防御安定性を向上させる。
顔のプライバシと芸術的スタイルの保護に関する大規模な実験は、既存の手法と比較して、我々の手法のより優れた一般化を実証している。
Diffusion models have revolutionized customized text-to-image generation, allowing for efficient synthesis of photos from personal data with textual descriptions. However, these advancements bring forth risks including privacy breaches and unauthorized replication of artworks. Previous researches primarily center around using prompt-specific methods to generate adversarial examples to protect personal images, yet the effectiveness of existing methods is hindered by constrained adaptability to different prompts. In this paper, we introduce a Prompt-Agnostic Adversarial Perturbation (PAP) method for customized diffusion models. PAP first models the prompt distribution using a Laplace Approximation, and then produces prompt-agnostic perturbations by maximizing a disturbance expectation based on the modeled distribution. This approach effectively tackles the prompt-agnostic attacks, leading to improved defense stability. Extensive experiments in face privacy and artistic style protection, demonstrate the superior generalization of our method in comparison to existing techniques. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# GeoMeter: 大規模ビジュアル言語モデルの深さと高さの知覚
GeoMeter: Probing Depth and Height Perception of Large Visual-Language Models ( http://arxiv.org/abs/2408.11748v3 ) ライセンス: Link先を確認 | Shehreen Azad, Yash Jain, Rishit Garg, Yogesh S Rawat, Vibhav Vineet, | (参考訳) 幾何学的理解は、我々の環境をナビゲートし、相互作用するために不可欠である。
大きな視覚言語モデル(VLM)は印象的な能力を示しているが、現実のシナリオにそれらをデプロイするには、視覚知覚における同等の幾何学的理解が必要である。
本研究では、これらのモデルの幾何学的理解に焦点を当て、特にシーン内の物体の深さと高さを対象とする。
我々の観察では、VLMは形状や大きさなどの基本的な幾何学的性質の知覚に優れていますが、物体の深さや高さを推測する上で大きな課題に直面しています。
この問題を解決するために、これらの側面を厳格に評価するために、Synthetic 2D、Synthetic 3D、Real-Worldシナリオを含むベンチマークデータセットスイートであるGeoMeterを紹介した。
これらのデータセットを用いて17の最先端のVLMをベンチマークし、深さと高さの両方の知覚に一貫して苦労していることを発見した。
我々の重要な洞察は、VLMの深さと高さの推論能力の欠点と、これらのモデルに存在する固有のバイアスを詳細に分析することである。
本研究は, 実世界の応用において重要な, 幾何的理解の高度化によるVLMの開発方法を明らかにすることを目的としている。
Geometric understanding is crucial for navigating and interacting with our environment. While large Vision Language Models (VLMs) demonstrate impressive capabilities, deploying them in real-world scenarios necessitates a comparable geometric understanding in visual perception. In this work, we focus on the geometric comprehension of these models; specifically targeting the depths and heights of objects within a scene. Our observations reveal that, although VLMs excel in basic geometric properties perception such as shape and size, they encounter significant challenges in reasoning about the depth and height of objects. To address this, we introduce GeoMeter, a suite of benchmark datasets encompassing Synthetic 2D, Synthetic 3D, and Real-World scenarios to rigorously evaluate these aspects. We benchmark 17 state-of-the-art VLMs using these datasets and find that they consistently struggle with both depth and height perception. Our key insights include detailed analyses of the shortcomings in depth and height reasoning capabilities of VLMs and the inherent bias present in these models. This study aims to pave the way for the development of VLMs with enhanced geometric understanding, crucial for real-world applications. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# 好ましくないグラフ事前学習とプロンプト学習
Non-Homophilic Graph Pre-Training and Prompt Learning ( http://arxiv.org/abs/2408.12594v3 ) ライセンス: Link先を確認 | Xingtong Yu, Jie Zhang, Yuan Fang, Renhe Jiang, | (参考訳) グラフは様々な分野にわたるオブジェクト間の複雑な関係をモデル化するためにユビキタスである。
グラフニューラルネットワーク(GNN)はグラフベースのアプリケーションでは主要な技術となっているが、その性能は豊富なラベル付きデータに大きく依存している。
ラベリングの要件を減らすために、事前学習と迅速な学習が一般的な選択肢となっている。
しかし、既存のプロンプト法のほとんどは、実世界のグラフのホモ親和性とヘテロ親和性の特徴を区別しない。
特に、多くの実世界のグラフは非ホモ親和性であり、厳密にも一様でもホモ親和性を持たず、ホモ親和性とヘテロ親和性を持つパターンを混合し、グラフやノード間で異なる非ホモ親和性を示す。
本稿では,非親和性グラフのための新しい事前学習および迅速な学習フレームワークProNoGを提案する。
まず、既存のグラフ事前学習手法を分析し、事前学習タスクの選択に関する理論的知見を提供する。
第2に,各ノードが特異な非ホモフィル性を示すことを認識し,下流タスクにおけるノード固有のパターンを特徴付ける条件付きネットワークを提案する。
最後に,10の公開データセットに関する広範な実験を通じて,ProNoGを徹底的に評価・解析する。
Graphs are ubiquitous for modeling complex relationships between objects across various fields. Graph neural networks (GNNs) have become a mainstream technique for graph-based applications, but their performance heavily relies on abundant labeled data. To reduce labeling requirement, pre-training and prompt learning has become a popular alternative. However, most existing prompt methods do not differentiate homophilic and heterophilic characteristics of real-world graphs. In particular, many real-world graphs are non-homophilic, not strictly or uniformly homophilic with mixing homophilic and heterophilic patterns, exhibiting varying non-homophilic characteristics across graphs and nodes. In this paper, we propose ProNoG, a novel pre-training and prompt learning framework for such non-homophilic graphs. First, we analyze existing graph pre-training methods, providing theoretical insights into the choice of pre-training tasks. Second, recognizing that each node exhibits unique non-homophilic characteristics, we propose a conditional network to characterize the node-specific patterns in downstream tasks. Finally, we thoroughly evaluate and analyze ProNoG through extensive experiments on ten public datasets. | 翻訳日:2024-09-02 17:38:32 公開日:2024-08-30 |
# 因果誘導型能動学習による大規模言語モデルの曖昧化
Causal-Guided Active Learning for Debiasing Large Language Models ( http://arxiv.org/abs/2408.12942v2 ) ライセンス: Link先を確認 | Li Du, Zhouhao Sun, Xiao Ding, Yixuan Ma, Yang Zhao, Kaitao Qiu, Ting Liu, Bing Qin, | (参考訳) 有望な性能を達成する一方で、最近の分析により、現在の生成型大規模言語モデル(LLM)は、まだデータセットバイアスを捕捉し、世代に利用し、LLMの一般化性や有害性を損なう可能性があることが示されている。
しかし、データセットバイアスの多様性と過最適化問題により、従来の知識に基づくデバイアス法や微調整に基づくデバイアス法は現在のLLMには適さない可能性がある。
この問題に対処するため,本研究では,情報バイアス標本の自動的・自律的同定とバイアスパターンの誘導を目的とした,カジュアル誘導型アクティブラーニング(CAL)フレームワークを提案する。
次に、LLMが生成時にデータセットバイアスを利用するのを防止するために、コスト効率が高く効率的な文脈内学習手法を用いる。
実験結果から,CALは典型的なバイアスパターンを効果的に認識し,様々なバイアスパターンを誘導できることが示唆された。
Although achieving promising performance, recent analyses show that current generative large language models (LLMs) may still capture dataset biases and utilize them for generation, leading to poor generalizability and harmfulness of LLMs. However, due to the diversity of dataset biases and the over-optimization problem, previous prior-knowledge-based debiasing methods and fine-tuning-based debiasing methods may not be suitable for current LLMs. To address this issue, we explore combining active learning with the causal mechanisms and propose a casual-guided active learning (CAL) framework, which utilizes LLMs itself to automatically and autonomously identify informative biased samples and induce the bias patterns. Then a cost-effective and efficient in-context learning based method is employed to prevent LLMs from utilizing dataset biases during generation. Experimental results show that CAL can effectively recognize typical biased instances and induce various bias patterns for debiasing LLMs. | 翻訳日:2024-09-02 17:28:49 公開日:2024-08-30 |
# CathAction: 血管インターベンション理解のためのベンチマーク
CathAction: A Benchmark for Endovascular Intervention Understanding ( http://arxiv.org/abs/2408.13126v2 ) ライセンス: Link先を確認 | Baoru Huang, Tuan Vo, Chayun Kongtongvattana, Giulio Dagnino, Dennis Kundrat, Wenqiang Chi, Mohamed Abdelaziz, Trevor Kwok, Tudor Jianu, Tuong Do, Hieu Le, Minh Nguyen, Hoan Nguyen, Erman Tjiputra, Quang Tran, Jianyang Xie, Yanda Meng, Binod Bhattarai, Zhaorui Tan, Hongbin Liu, Hong Seng Gan, Wei Wang, Xi Yang, Qiufeng Wang, Jionglong Su, Kaizhu Huang, Angelos Stefanidis, Min Guo, Bo Du, Rong Tao, Minh Vu, Guoyan Zheng, Yalin Zheng, Francisco Vasconcelos, Danail Stoyanov, Daniel Elson, Ferdinando Rodriguez y Baena, Anh Nguyen, | (参考訳) カテーテル化解析によるリアルタイム視覚フィードバックは,血管内手術における外科的安全性と効率の向上に不可欠である。
しかし、既存のデータセットは、しばしば特定のタスク、小さなスケールに制限され、より広範な血管内介入を理解するのに必要な包括的なアノテーションが欠如している。
これらの制約に対処するため,カテーテル化理解のための大規模データセットであるCathActionを導入する。
我々のCathActionデータセットは、カテーテルの動作理解と衝突検出のための約50,000の注釈付きフレームと、カテーテルとガイドワイヤのセグメンテーションのための25,000の真実マスクを含んでいる。
各タスクについて、この分野における最近の関連する研究をベンチマークする。
さらに,従来のコンピュータビジョンの課題と比較して,血管内意図の課題を議論し,オープンな研究課題を指摘する。
我々はCathActionが現実世界の応用に適用可能な血管内介入理解手法の開発を促進することを願っている。
データセットはhttps://airvlab.github.io/cathaction/で公開されている。
Real-time visual feedback from catheterization analysis is crucial for enhancing surgical safety and efficiency during endovascular interventions. However, existing datasets are often limited to specific tasks, small scale, and lack the comprehensive annotations necessary for broader endovascular intervention understanding. To tackle these limitations, we introduce CathAction, a large-scale dataset for catheterization understanding. Our CathAction dataset encompasses approximately 500,000 annotated frames for catheterization action understanding and collision detection, and 25,000 ground truth masks for catheter and guidewire segmentation. For each task, we benchmark recent related works in the field. We further discuss the challenges of endovascular intentions compared to traditional computer vision tasks and point out open research questions. We hope that CathAction will facilitate the development of endovascular intervention understanding methods that can be applied to real-world applications. The dataset is available at https://airvlab.github.io/cathaction/. | 翻訳日:2024-09-02 17:28:49 公開日:2024-08-30 |
# 対称局所ランダム回路のユニタリ設計
Unitary Designs of Symmetric Local Random Circuits ( http://arxiv.org/abs/2408.13472v2 ) ライセンス: Link先を確認 | Yosuke Mitsuhashi, Ryotaro Suzuki, Tomohiro Soejima, Nobuyuki Yoshioka, | (参考訳) 我々は、対称局所乱数回路によって生成されるユニタリ設計を特徴付ける方法を確立した。
具体的には、近似t-設計を形成する回路に必要な十分条件が、一般対称性と局所性に対する単純な整数最適化によって与えられることを示した。
この結果を用いて、一般局所性に対する$\mathbb{Z}_2$, U(1), SU(2)対称性の下で、ユニタリ設計の極大順序を明示的に与える。
この研究は、対称性の基本概念とランダム性の観点からの局所性の関係を明らかにする。
We have established the method of characterizing the unitary design generated by a symmetric local random circuit. Concretely, we have shown that the necessary and sufficient condition for the circuit forming an approximate t-design is given by simple integer optimization for general symmetry and locality. By using the result, we explicitly give the maximal order of unitary design under the $\mathbb{Z}_2$, U(1), and SU(2) symmetries for general locality. This work reveals the relation between the fundamental notions of symmetry and locality in terms of randomness. | 翻訳日:2024-09-02 17:28:49 公開日:2024-08-30 |
# 連続ゲート集合の量子回路におけるランダム性の評価
Characterization of Randomness in Quantum Circuits of Continuous Gate Sets ( http://arxiv.org/abs/2408.13475v2 ) ライセンス: Link先を確認 | Yosuke Mitsuhashi, Ryotaro Suzuki, Tomohiro Soejima, Nobuyuki Yoshioka, | (参考訳) arXiv:2408.13472の付録では、対称局所乱数回路によって生成される近似ユニタリな設計の極大順序を特徴付ける方法を確立し、$\mathbb{Z}_2$, U(1), SU(2)対称性の場合にその順序を明示的に指定した。
ここでは、一般対称性と具体的な対称性に対する主定理の導出についての詳細を述べる。
さらに、対称局所ユニタリゲート集合を含む連結コンパクトユニタリ部分群の有限集合にアクセス可能な一般フレームワークを考える。
In the accompanying paper of arXiv:2408.13472, we have established the method of characterizing the maximal order of approximate unitary designs generated by symmetric local random circuits, and have explicitly specified the order in the cases of $\mathbb{Z}_2$, U(1), and SU(2) symmetries. Here, we provide full details on the derivation of the main theorems for general symmetry and for concrete symmetries. Furthermore, we consider a general framework where we have access to a finite set of connected compact unitary subgroups, which includes symmetric local unitary gate sets. | 翻訳日:2024-09-02 17:28:49 公開日:2024-08-30 |
# ファジィクラスタリングによる発生過程監視のためのEDFAポンプ電流の時系列異常検出
Anomaly Detection in Time Series of EDFA Pump Currents to Monitor Degeneration Processes using Fuzzy Clustering ( http://arxiv.org/abs/2408.15268v2 ) ライセンス: Link先を確認 | Dominic Schneider, Lutz Rapp, Christoph Ament, | (参考訳) 本稿では,EDFAシステムのポンプ電流時系列に対するファジィクラスタリングに基づく異常検出手法を提案する。
提案する変更検出フレームワーク(CDF)は,エントロピー解析(EA)と原理成分分析(PCA)とファジィクラスタリングの利点を戦略的に組み合わせている。
本フレームワークでは,特徴空間の削減と計算性能の向上のために,特徴量の動的選択にEAを適用した。
さらに,PCAを用いて生の特徴空間から特徴を抽出し,ファジィクラスタリング手順の一般化を可能にする。
より正確にはファジィクラスタリングアルゴリズム,確率的クラスタリングアルゴリズム,確率的クラスタリングアルゴリズムの3つの異なるファジィクラスタリング手法を性能と一般化のために評価した。
したがって,提案フレームワークは,商業的に使用されているEDFAの最先端のアラームと比較して,任意の操作ポイントの初期段階でポンプ電流時系列の変化を検出する革新的な機能を備えている。
さらに、この手法は実験データを用いて実装およびテストされる。
さらに,光ファイバーネットワークに分散化された予測保守を適用可能なフレームワークを提案する。
This article proposes a novel fuzzy clustering based anomaly detection method for pump current time series of EDFA systems. The proposed change detection framework (CDF) strategically combines the advantages of entropy analysis (EA) and principle component analysis (PCA) with fuzzy clustering procedures. In the framework, EA is applied for dynamic selection of features for reduction of the feature space and increase of computational performance. Furthermore, PCA is utilized to extract features from the raw feature space to enable generalization capability of the subsequent fuzzy clustering procedures. Three different fuzzy clustering methods, more precisely the fuzzy clustering algorithm, a probabilistic clustering algorithm and a possibilistic clustering algorithm are evaluated for performance and generalization. Hence, the proposed framework has the innovative feature to detect changes in pump current time series at an early stage for arbitrary points of operation, compared to state-of-the-art predefined alarms in commercially used EDFAs. Moreover, the approach is implemented and tested using experimental data. In addition, the proposed framework enables further approaches of applying decentralized predictive maintenance for optical fiber networks. | 翻訳日:2024-09-02 17:28:49 公開日:2024-08-30 |
# 多世界逆レンダリング
Many-Worlds Inverse Rendering ( http://arxiv.org/abs/2408.16005v2 ) ライセンス: Link先を確認 | Ziyi Zhang, Nicolas Roussel, Wenzel Jakob, | (参考訳) 物理的にベースとした逆レンダラーの表面を最適化する場合、不連続な可視性の変化は依然として大きなボトルネックとなる。
これまでの多くの研究で、可視性シルエットをより効率的にサンプリングするための洗練されたアルゴリズムとデータ構造が提案されている。
我々の研究は別の解決策を提示している: 仮面を局所的に微分するのではなく、表面の体積摂動を区別する。
これは、入力データセットの矛盾する説明(世界)の相互作用しない重ね合わせをモデル化するためである。
それぞれの世界は光学的に他の世界から孤立しており、指数的ランダムメディアに基づく従来の手法との違いを区別する新たな輸送法則が導かれる。
モンテカルロアルゴリズムは従来の手法よりもシンプルで効率的である。
本稿では,本手法が反復数とイテレーション毎のコストの両面において,迅速な収束を促進することを実証する。
Discontinuous visibility changes remain a major bottleneck when optimizing surfaces within a physically-based inverse renderer. Many previous works have proposed sophisticated algorithms and data structures to sample visibility silhouettes more efficiently. Our work presents another solution: instead of differentiating a tentative surface locally, we differentiate a volumetric perturbation of a surface. We refer this as a many-worlds representation because it models a non-interacting superposition of conflicting explanations (worlds) of the input dataset. Each world is optically isolated from others, leading to a new transport law that distinguishes our method from prior work based on exponential random media. The resulting Monte Carlo algorithm is simpler and more efficient than prior methods. We demonstrate that our method promotes rapid convergence, both in terms of the total iteration count and the cost per iteration. | 翻訳日:2024-09-02 17:28:49 公開日:2024-08-30 |
# 深層学習による画像サイトメトリーにおける細胞間相互作用の新しい解析法:空間的相互作用ポテンシャルとコローカライゼーション指数
Novel Methods for Analyzing Cellular Interactions in Deep Learning-Based Image Cytometry: Spatial Interaction Potential and Co-Localization Index ( http://arxiv.org/abs/2408.16008v2 ) ライセンス: Link先を確認 | Toru Nagasaka, Kimihiro Yamashita, Mitsugu Fujita, | (参考訳) 本研究は,深層学習に基づく画像サイトメトリーを用いて,デジタル病理における細胞間相互作用を定量化する新しい手法を提案する。
従来の方法は組織内の細胞の多様性と不均一性に苦しむ。
これを解決するために、深層学習の分類能力を活用した空間的相互作用ポテンシャル(SIP)とコローカライズ指数(CLI)を導入する。
SIPは電場と同様の細胞間相互作用の可能性を評価し、CLIは細胞間の距離を取り入れ、動的細胞の動きを考慮に入れている。
我々のアプローチは従来の方法を強化し、細胞間相互作用のより洗練された分析を提供する。
我々は,SIPとCLIをシミュレーションにより検証し,大腸癌検体に適用し,実際の生物学的データと強い相関を示す。
この手法は細胞相互作用の理解を大幅に改善し、デジタル病理学の様々な分野に応用できる可能性がある。
The study presents a novel approach for quantifying cellular interactions in digital pathology using deep learning-based image cytometry. Traditional methods struggle with the diversity and heterogeneity of cells within tissues. To address this, we introduce the Spatial Interaction Potential (SIP) and the Co-Localization Index (CLI), leveraging deep learning classification probabilities. SIP assesses the potential for cell-to-cell interactions, similar to an electric field, while CLI incorporates distances between cells, accounting for dynamic cell movements. Our approach enhances traditional methods, providing a more sophisticated analysis of cellular interactions. We validate SIP and CLI through simulations and apply them to colorectal cancer specimens, demonstrating strong correlations with actual biological data. This innovative method offers significant improvements in understanding cellular interactions and has potential applications in various fields of digital pathology. | 翻訳日:2024-09-02 17:28:49 公開日:2024-08-30 |
# 移動のスケーリング法則に関する実証的研究
An Empirical Study of Scaling Laws for Transfer ( http://arxiv.org/abs/2408.16947v1 ) ライセンス: Link先を確認 | Matthew Barnett, | (参考訳) 変圧器モデルにおける伝達学習のスケーリング法則に関する限定的な実証的研究を示す。
具体的には、「転送ギャップ」という用語を取り入れたスケーリング法について検討し、他の分布の下流性能を最適化する際、ある分布に対する事前学習の有効性を示す。
転送ギャップが低い場合、事前学習は下流の性能を改善するためのコスト効率の良い戦略である。
逆に、ギャップが高い場合には、高品質な微調整データを収集する方が比較的コスト効率が良い。
多様なデータセットからの実験にスケーリング法則を適用すると、分散間の転送ギャップに大きなばらつきが見られる。
理論的には、スケーリング法則は最適なデータ割り当て戦略を通知し、下流データの不足がパフォーマンスをボトルネックにする方法を強調します。
我々の研究は、データ可用性が能力に与える影響を理解するために、転送学習効率を原則的に測定する方法に寄与する。
We present a limited empirical study of scaling laws for transfer learning in transformer models. More specifically, we examine a scaling law that incorporates a "transfer gap" term, indicating the effectiveness of pre-training on one distribution when optimizing for downstream performance on another distribution. When the transfer gap is low, pre-training is a cost-effective strategy for improving downstream performance. Conversely, when the gap is high, collecting high-quality fine-tuning data becomes relatively more cost effective. Fitting the scaling law to experiments from diverse datasets reveals significant variations in the transfer gap across distributions. In theory, the scaling law can inform optimal data allocation strategies and highlights how the scarcity of downstream data can bottleneck performance. Our findings contribute to a principled way to measure transfer learning efficiency and understand how data availability affects capabilities. | 翻訳日:2024-09-02 16:49:05 公開日:2024-08-30 |
# メイドイン」から「無量石」へ : ロボットにおける国民意識の視覚的認識を探る
From "Made In" to Mukokuseki: Exploring the Visual Perception of National Identity in Robots ( http://arxiv.org/abs/2408.16949v1 ) ライセンス: Link先を確認 | Katie Seaborn, Haruki Kotani, Peter Pennefather, | (参考訳) 人々は社会文化的意味を持つ視覚的プロセスである社会ロボットの設計に人間の特性を読み込む。
一つの要因は、民族性、文化、そしてロボットの視覚的デザインに埋め込まれるアイデンティティの他の要因と結びついている複雑な社会的特徴である、国籍である。
社会アイデンティティ理論(SIT)を参考に,日本文化輸出における国民的・民族的アイデンティティに対する視覚的手がかりが欠如していることから定義された視覚的デザイン特性である「無量石」の概念を探求した。
2段階分類研究(n=212)では、米国人(n=110)と日本人(n=92)が、アメリカと日本から9つのロボット刺激と多国籍ペッパーをランダムに選択した。
生成物と2種類の無刻石効果の証拠が発見された。
多様な背景を持つ人々と対話できる無量石ロボットの視覚設計について提案する。
本研究の成果は,ロボットと社会的アイデンティティ,ロボット輸出の実現可能性,国際的利用に影響を及ぼす。
People read human characteristics into the design of social robots, a visual process with socio-cultural implications. One factor may be nationality, a complex social characteristic that is linked to ethnicity, culture, and other factors of identity that can be embedded in the visual design of robots. Guided by social identity theory (SIT), we explored the notion of "mukokuseki," a visual design characteristic defined by the absence of visual cues to national and ethnic identity in Japanese cultural exports. In a two-phase categorization study (n=212), American (n=110) and Japanese (n=92) participants rated a random selection of nine robot stimuli from America and Japan, plus multinational Pepper. We found evidence of made-in and two kinds of mukokuseki effects. We offer suggestions for the visual design of mukokuseki robots that may interact with people from diverse backgrounds. Our findings have implications for robots and social identity, the viability of robotic exports, and the use of robots internationally. | 翻訳日:2024-09-02 16:49:05 公開日:2024-08-30 |
# ICの認証・追跡のための階層型ブルームフィルタベースフレームワーク
A Persistent Hierarchical Bloom Filter-based Framework for Authentication and Tracking of ICs ( http://arxiv.org/abs/2408.16950v1 ) ライセンス: Link先を確認 | Md Mashfiq Rizvee, Tanvir Hossain, Tamzidul Hoque, Domenic Forte, Sumaiya Shomaji, | (参考訳) 信頼できないサプライチェーンにおける偽ファイト集積回路(IC)の検出には、堅牢な追跡と認証が必要である。
Physical Unclonable Function (PUF) はユニークなIC識別子を提供するが、ノイズはそれらの実用性を損なう。
本研究では,PHBF(Persistent Hierarchical Bloom Filter)フレームワークを導入し,ノイズのあるPUF生成シグネチャであっても,サプライチェーン全体で100%の精度で高速かつ正確なIC認証を実現する。
Detecting counterfeit integrated circuits (ICs) in unreliable supply chains demands robust tracking and authentication. Physical Unclonable Functions (PUFs) offer unique IC identifiers, but noise undermines their utility. This study introduces the Persistent Hierarchical Bloom Filter (PHBF) framework, ensuring swift and accurate IC authentication with an accuracy rate of 100% across the supply chain even with noisy PUF-generated signatures. | 翻訳日:2024-09-02 16:49:05 公開日:2024-08-30 |
# 自律運転のための過渡的フォールトトレラントセマンティックセマンティックセグメンテーション
Transient Fault Tolerant Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2408.16952v1 ) ライセンス: Link先を確認 | Leonardo Iurada, Niccolò Cavagnero, Fernando Fernandes Dos Santos, Giuseppe Averta, Paolo Rech, Tatiana Tommasi, | (参考訳) ディープラーニングモデルは、自動運転車の認識にとって不可欠だが、その信頼性はアルゴリズムの制限とハードウェアの欠陥によって挑戦されている。
本稿では,意味的セグメンテーションモデルにおけるフォールトトレランスを検証することによって,後者に対処する。
確立されたハードウェア故障モデルを用いて、精度と不確実性の両方の観点から既存の硬化技術を評価し、過渡的故障に対するレジリエンスを高めるために設計された新しい単純なアクティベーション機能であるReLUMaxを導入する。
ReLUMaxは、時間的オーバーヘッドなしに既存のアーキテクチャにシームレスに統合する。
実験により、ReLUMaxはロバスト性を効果的に向上し、性能を保ち、予測信頼性を高め、信頼性の高い自律運転システムの開発に寄与することが示された。
Deep learning models are crucial for autonomous vehicle perception, but their reliability is challenged by algorithmic limitations and hardware faults. We address the latter by examining fault-tolerance in semantic segmentation models. Using established hardware fault models, we evaluate existing hardening techniques both in terms of accuracy and uncertainty and introduce ReLUMax, a novel simple activation function designed to enhance resilience against transient faults. ReLUMax integrates seamlessly into existing architectures without time overhead. Our experiments demonstrate that ReLUMax effectively improves robustness, preserving performance and boosting prediction confidence, thus contributing to the development of reliable autonomous driving systems. | 翻訳日:2024-09-02 16:49:05 公開日:2024-08-30 |
# 強化学習を用いた周波数制御器における偽データ注入方式の発見
Discovery of False Data Injection Schemes on Frequency Controllers with Reinforcement Learning ( http://arxiv.org/abs/2408.16958v1 ) ライセンス: Link先を確認 | Romesh Prasad, Malik Hassanaly, Xiangyu Zhang, Abhijeet Sahu, | (参考訳) インバータをベースとした分散型エネルギー資源(DER)は、再生可能エネルギーを電力システムに統合する上で重要な役割を担っているが、グリッドのシステムの慣性を同時に減少させ、周波数不安定のリスクを増大させる。
さらに、通信ネットワークを介してインターフェースされるスマートインバータは、厳格に管理されていなくても、サイバー脅威に潜在的な脆弱性をもたらす。
高度なサイバー攻撃に対して電力網を積極的に強化するために,脅威やシステム脆弱性の特定に強化学習(RL)を採用することを提案する。
本研究は, 一次周波数制御に関わるスマートインバータを対象とする, 偽データ注入の敵方策の分析に焦点をあてる。
以上の結果から,RLエージェントはインバータ設定の操作に最適な偽データ注入法を十分に識別でき,破滅的な結果をもたらす可能性が示唆された。
While inverter-based distributed energy resources (DERs) play a crucial role in integrating renewable energy into the power system, they concurrently diminish the grid's system inertia, elevating the risk of frequency instabilities. Furthermore, smart inverters, interfaced via communication networks, pose a potential vulnerability to cyber threats if not diligently managed. To proactively fortify the power grid against sophisticated cyber attacks, we propose to employ reinforcement learning (RL) to identify potential threats and system vulnerabilities. This study concentrates on analyzing adversarial strategies for false data injection, specifically targeting smart inverters involved in primary frequency control. Our findings demonstrate that an RL agent can adeptly discern optimal false data injection methods to manipulate inverter settings, potentially causing catastrophic consequences. | 翻訳日:2024-09-02 16:49:05 公開日:2024-08-30 |
# HiTSR: 参照型スーパーリゾリューションのための階層変換器
HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution ( http://arxiv.org/abs/2408.16959v1 ) ライセンス: Link先を確認 | Masoomeh Aslahishahri, Jordan Ubbens, Ian Stavness, | (参考訳) 本稿では,参照ベース画像の階層変換モデルであるHiTSRを提案する。
既存のマルチネットワーク、マルチステージアプローチから切り離して、GAN文献の二重注意ブロックを組み込むことで、アーキテクチャとトレーニングパイプラインを合理化します。
2つの視覚ストリームを個別に処理し、注視戦略を通じて自己注意ブロックと横断注意ブロックを融合する。
このモデルは、入力画像からグローバルなコンテキストをキャプチャし、ウィンドウベースのアテンションブロック内での長距離空間的相互作用を促進するために、シャープ・アンド・エキサイティング・モジュールを統合している。
浅い層と深い層の間の長いスキップ接続により、情報の流れがさらに向上する。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
具体的には、SUN80データセット上で、PSNR/SSIM値が30.24/0.821である。
これらの結果は、参照ベース画像の超解像におけるアテンションメカニズムの有効性を裏付けるものである。
トランスフォーマー・ベース・モデルは, 汎用サブネット, 知識蒸留, 多段階訓練を必要とせず, 参照ベース画像の超解像要求を満たす際の注意力を強調する。
In this paper, we propose HiTSR, a hierarchical transformer model for reference-based image super-resolution, which enhances low-resolution input images by learning matching correspondences from high-resolution reference images. Diverging from existing multi-network, multi-stage approaches, we streamline the architecture and training pipeline by incorporating the double attention block from GAN literature. Processing two visual streams independently, we fuse self-attention and cross-attention blocks through a gating attention strategy. The model integrates a squeeze-and-excitation module to capture global context from the input images, facilitating long-range spatial interactions within window-based attention blocks. Long skip connections between shallow and deep layers further enhance information flow. Our model demonstrates superior performance across three datasets including SUN80, Urban100, and Manga109. Specifically, on the SUN80 dataset, our model achieves PSNR/SSIM values of 30.24/0.821. These results underscore the effectiveness of attention mechanisms in reference-based image super-resolution. The transformer-based model attains state-of-the-art results without the need for purpose-built subnetworks, knowledge distillation, or multi-stage training, emphasizing the potency of attention in meeting reference-based image super-resolution requirements. | 翻訳日:2024-09-02 16:49:05 公開日:2024-08-30 |
# 迷路推定に基づく因果表現に基づく領域一般化
Causal Representation-Based Domain Generalization on Gaze Estimation ( http://arxiv.org/abs/2408.16964v1 ) ライセンス: Link先を確認 | Younghan Kim, Kangryun Moon, Yongjun Park, Yonggyu Kim, | (参考訳) 各被験者の視線情報を含む広範囲なデータセットが利用可能となり、視線推定精度が大幅に向上した。
しかし、ドメイン間の相違は、特定のドメインに対して明示的にトレーニングされたモデルの性能に大きく影響します。
本稿では,因果関係の一般的な原理に基づいて設計された迷路推定のための因果表現に基づくドメイン一般化(CauGE)フレームワークを提案する。
我々は、ドメイン不変の特徴を抽出するために、逆行訓練法と追加の罰則項を用いる。
特徴を抽出した後、実際の視線を推測するのに十分な特徴を注目層に配置する。
これらのモジュールを活用することで、CauGEはニューラルネットワークが因果メカニズムの一般的な原則を満たす表現から学ぶことを保証します。
これにより、CauGE は領域不変な特徴を抽出することによって領域をまたいで一般化し、素因果関係はモデルに影響を与えない。
本手法は,視線推定ベンチマークに基づく領域一般化における最先端性能を実現する。
The availability of extensive datasets containing gaze information for each subject has significantly enhanced gaze estimation accuracy. However, the discrepancy between domains severely affects a model's performance explicitly trained for a particular domain. In this paper, we propose the Causal Representation-Based Domain Generalization on Gaze Estimation (CauGE) framework designed based on the general principle of causal mechanisms, which is consistent with the domain difference. We employ an adversarial training manner and an additional penalizing term to extract domain-invariant features. After extracting features, we position the attention layer to make features sufficient for inferring the actual gaze. By leveraging these modules, CauGE ensures that the neural networks learn from representations that meet the causal mechanisms' general principles. By this, CauGE generalizes across domains by extracting domain-invariant features, and spurious correlations cannot influence the model. Our method achieves state-of-the-art performance in the domain generalization on gaze estimation benchmark. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# 合成陽性者によるコントラスト学習
Contrastive Learning with Synthetic Positives ( http://arxiv.org/abs/2408.16965v1 ) ライセンス: Link先を確認 | Dewen Zeng, Yawen Wu, Xinrong Hu, Xiaowei Xu, Yiyu Shi, | (参考訳) 近接する隣人との対比学習は、同一クラス内の複数のインスタンスの類似性を活用することにより、最も効率的な自己教師付き学習(SSL)手法の1つであることが証明されている。
しかし、その有効性は、最も近い隣のアルゴリズムが主に 'easy'' の正の対を識別するので制約される。
本稿では,無条件拡散モデルにより生成される合成画像を,モデルが多様な正から学習するための追加の正として活用する,Contrastive Learning with Synthetic Positives (CLSP) という新しいアプローチを提案する。
拡散モデルサンプリングプロセスにおける特徴補間により、異なる背景を持つ画像を生成するが、アンカー画像と類似のセマンティックコンテンツを生成する。
これらの画像は、アンカーイメージの ``hard'' 陽性と見なされ、コントラスト損失の補足的正として含めると、CIFAR10のような複数のベンチマークデータセットにおける以前のNNCLRやAll4Oneメソッドと比較して、線形評価において2\%と1\%以上のパフォーマンス改善に寄与する。
転送学習ベンチマークでは、CLSPは8つのダウンストリームデータセットのうち6つで既存のSSLフレームワークを上回っている。
我々は、CLSPが、トレーニングプロセスに合成データを組み込んだ将来のSSL研究の貴重なベースラインを確立すると信じている。
Contrastive learning with the nearest neighbor has proved to be one of the most efficient self-supervised learning (SSL) techniques by utilizing the similarity of multiple instances within the same class. However, its efficacy is constrained as the nearest neighbor algorithm primarily identifies ``easy'' positive pairs, where the representations are already closely located in the embedding space. In this paper, we introduce a novel approach called Contrastive Learning with Synthetic Positives (CLSP) that utilizes synthetic images, generated by an unconditional diffusion model, as the additional positives to help the model learn from diverse positives. Through feature interpolation in the diffusion model sampling process, we generate images with distinct backgrounds yet similar semantic content to the anchor image. These images are considered ``hard'' positives for the anchor image, and when included as supplementary positives in the contrastive loss, they contribute to a performance improvement of over 2\% and 1\% in linear evaluation compared to the previous NNCLR and All4One methods across multiple benchmark datasets such as CIFAR10, achieving state-of-the-art methods. On transfer learning benchmarks, CLSP outperforms existing SSL frameworks on 6 out of 8 downstream datasets. We believe CLSP establishes a valuable baseline for future SSL studies incorporating synthetic data in the training process. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# UserSumBench: ユーザ要約アプローチを評価するベンチマークフレームワーク
UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches ( http://arxiv.org/abs/2408.16966v1 ) ライセンス: Link先を確認 | Chao Wang, Neo Wu, Lin Ning, Luyang Liu, Jun Xie, Shawn O'Banion, Bradley Green, | (参考訳) 大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザ情報を取り込み、説明可能なレコメンデータシステムなど、LLMベースのパーソナライズアプリケーションには有用である。
しかし, 新たな要約手法の開発は, 地味ラベルの欠如, ユーザ要約の主観性, 費用と時間を要する人的評価などによって妨げられている。
これらの課題に対処するために, LLM に基づく要約手法の反復的開発を容易にするベンチマークフレームワークである \UserSumBench を紹介する。
このフレームワークは、(1)参照なし要約品質メトリクスの2つの重要なコンポーネントを提供する。
この指標は,3つの多様なデータセット(MovieLens,Yelp,Amazon Review)にまたがって,人間の好みに合わせて有効であることを示す。
2) 時間階層的要約と自己批判的検証を利用して, 幻覚を排除しつつ高品質な要約を生成する新しい頑健な要約手法を提案する。
この方法は、要約技術のさらなる革新のための強力なベースラインとして機能する。
Large language models (LLMs) have shown remarkable capabilities in generating user summaries from a long list of raw user activity data. These summaries capture essential user information such as preferences and interests, and therefore are invaluable for LLM-based personalization applications, such as explainable recommender systems. However, the development of new summarization techniques is hindered by the lack of ground-truth labels, the inherent subjectivity of user summaries, and human evaluation which is often costly and time-consuming. To address these challenges, we introduce \UserSumBench, a benchmark framework designed to facilitate iterative development of LLM-based summarization approaches. This framework offers two key components: (1) A reference-free summary quality metric. We show that this metric is effective and aligned with human preferences across three diverse datasets (MovieLens, Yelp and Amazon Review). (2) A novel robust summarization method that leverages time-hierarchical summarizer and self-critique verifier to produce high-quality summaries while eliminating hallucination. This method serves as a strong baseline for further innovation in summarization techniques. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# MemLong: 長期テキストモデリングのためのメモリ拡張検索
MemLong: Memory-Augmented Retrieval for Long Text Modeling ( http://arxiv.org/abs/2408.16967v1 ) ライセンス: Link先を確認 | Weijie Liu, Zecheng Tang, Juntao Li, Kehai Chen, Min Zhang, | (参考訳) 近年のLarge Language Models (LLM) の進歩は、様々な分野において顕著な成功を収めている。
しかし、注意機構の2次時間と空間の複雑さと、生成中のキー値キャッシュのメモリ消費の増加により、長いコンテキストを扱うことはLLMにとって重要な課題である。
本研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介した。
MemLongは、非微分可能な ``ret-mem'' モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせて、セマンティックレベルの関連チャンクを活用する、きめ細かい制御可能な検索アテンションメカニズムを導入している。
複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
さらに重要なのは、MemLongは1台の3090 GPUのコンテキスト長を4kから80kに拡張できることだ。
私たちのコードはhttps://github.com/Bui1dMySea/MemLongで利用可能です。
Recent advancements in Large Language Models (LLMs) have yielded remarkable success across diverse fields. However, handling long contexts remains a significant challenge for LLMs due to the quadratic time and space complexity of attention mechanisms and the growing memory consumption of the key-value cache during generation. This work introduces MemLong: Memory-Augmented Retrieval for Long Text Generation, a method designed to enhance the capabilities of long-context language modeling by utilizing an external retriever for historical information retrieval. MemLong combines a non-differentiable ``ret-mem'' module with a partially trainable decoder-only language model and introduces a fine-grained, controllable retrieval attention mechanism that leverages semantic-level relevant chunks. Comprehensive evaluations on multiple long-context language modeling benchmarks demonstrate that MemLong consistently outperforms other state-of-the-art LLMs. More importantly, MemLong can extend the context length on a single 3090 GPU from 4k up to 80k. Our code is available at https://github.com/Bui1dMySea/MemLong | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# ポイントニューロン学習:新しい物理インフォームドニューラルネットワークアーキテクチャ
Point Neuron Learning: A New Physics-Informed Neural Network Architecture ( http://arxiv.org/abs/2408.16969v1 ) ライセンス: Link先を確認 | Hanwen Bi, Thushara D. Abhayapala, | (参考訳) 機械学習とニューラルネットワークは多くの研究領域を進歩させてきたが、大規模なトレーニングデータ要求や一貫性のないモデルパフォーマンスといった課題は、特定の科学的問題への応用を妨げる。
これらの課題を克服するために、研究者は、主に次の方法で、物理原理を機械学習モデルに統合することを検討した。
(i)物理誘導損失関数、一般に物理インフォームドニューラルネットワークとよばれる
(二)物理誘導建築設計
どちらのアプローチも複数の科学的分野で成功を示しているが、それらは局所的な最小限に閉じ込められ、解釈可能性の低下、一般化可能性の制限を含む制限がある。
本稿では,波動方程式の基本解をネットワークアーキテクチャに埋め込むことにより,両手法の強みを組み合わせた新しい物理情報ニューラルネットワーク(PINN)アーキテクチャを提案する。
提案した点ニューロン学習法は,任意の音場を,データセットを使わずにマイクロホン観測に基づいてモデル化することができる。
他のPINN手法と比較して、我々の手法は複素数を直接処理し、より優れた解釈可能性と一般化性を提供する。
残響環境における音場再構成問題により提案手法の汎用性を評価する。
その結果、ポイントニューロン法は2つの競合する手法より優れており、疎マイク観察でノイズの多い環境を効率的に処理できることがわかった。
Machine learning and neural networks have advanced numerous research domains, but challenges such as large training data requirements and inconsistent model performance hinder their application in certain scientific problems. To overcome these challenges, researchers have investigated integrating physics principles into machine learning models, mainly through: (i) physics-guided loss functions, generally termed as physics-informed neural networks, and (ii) physics-guided architectural design. While both approaches have demonstrated success across multiple scientific disciplines, they have limitations including being trapped to a local minimum, poor interpretability, and restricted generalizability. This paper proposes a new physics-informed neural network (PINN) architecture that combines the strengths of both approaches by embedding the fundamental solution of the wave equation into the network architecture, enabling the learned model to strictly satisfy the wave equation. The proposed point neuron learning method can model an arbitrary sound field based on microphone observations without any dataset. Compared to other PINN methods, our approach directly processes complex numbers and offers better interpretability and generalizability. We evaluate the versatility of the proposed architecture by a sound field reconstruction problem in a reverberant environment. Results indicate that the point neuron method outperforms two competing methods and can efficiently handle noisy environments with sparse microphone observations. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# Synthetic Lunar Terrain:ニューロモルフィック視覚アルゴリズムの訓練と評価のためのマルチモーダルオープンデータセット
Synthetic Lunar Terrain: A Multimodal Open Dataset for Training and Evaluating Neuromorphic Vision Algorithms ( http://arxiv.org/abs/2408.16971v1 ) ライセンス: Link先を確認 | Marcus Märtens, Kevin Farries, John Culton, Tat-Jun Chin, | (参考訳) SLT(Synthetic Lunar Terrain)は、月探査のための類似の試験場から収集されたオープンデータセットで、合成クレーターを高コントラストの照明装置に収めている。
イベントベースおよび従来のRGBカメラからのサイドバイサイドキャプチャがいくつか含まれており、奥行き推定のために高解像度の3Dレーザースキャンが付属している。
イベントベースカメラのニューロモルフィック視覚センサから記録されたイベントストリームは、この新興技術が、高データレート、低エネルギー消費、高ダイナミックレンジのシーンに対するレジリエンスなど、いくつかのユニークな利点を提供するため、特に興味深い。
SLTは、RGBカメラの限界を分析し、ニューロモルフィックなビジョンを利用する際の潜在的な利点やシナジーを解析するための確かな基盤を提供する。
Synthetic Lunar Terrain (SLT) is an open dataset collected from an analogue test site for lunar missions, featuring synthetic craters in a high-contrast lighting setup. It includes several side-by-side captures from event-based and conventional RGB cameras, supplemented with a high-resolution 3D laser scan for depth estimation. The event-stream recorded from the neuromorphic vision sensor of the event-based camera is of particular interest as this emerging technology provides several unique advantages, such as high data rates, low energy consumption and resilience towards scenes of high dynamic range. SLT provides a solid foundation to analyse the limits of RGB-cameras and potential advantages or synergies in utilizing neuromorphic visions with the goal of enabling and improving lunar specific applications like rover navigation, landing in cratered environments or similar. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# 量子力学の普遍確率方程式
Universal Stochastic Equations of Monitored Quantum Dynamics ( http://arxiv.org/abs/2408.16974v1 ) ライセンス: Link先を確認 | Zhenyu Xiao, Tomi Ohtsuki, Kohei Kawabata, | (参考訳) ガウス混合状態の量子力学を観測し、密度行列スペクトル全体の確率時間進化を制御し、その正確な解を得る普遍的なフォッカー・プランク方程式を導出する。
エントロピーは偶数$N$の複素フェルミオンに対して指数関数的減衰を示すのに対し、発散した浄化時間を持つ代数的崩壊は、動的臨界性の顕在化として奇数$N$に対して発生する。
さらに, カオス状態におけるエントロピーの普遍的ゆらぎを同定し, メソスコピック電子輸送現象における普遍的コンダクタンスゆらぎの非一意的応答として機能する。
さらに、基本対称性に基づいて、非ユニタリ量子力学の普遍性クラスを解明し、分類する。
また,これらの解析結果の普遍性を,多種多様なモデルにまたがる広範な数値シミュレーションにより検証する。
We investigate the monitored quantum dynamics of Gaussian mixed states and derive the universal Fokker-Planck equations that govern the stochastic time evolution of entire density-matrix spectra, obtaining their exact solutions. From these equations, we reveal an even-odd effect in purification dynamics: whereas entropy exhibits exponential decay for an even number $N$ of complex fermions, algebraic decay with divergent purification time occurs for odd $N$ as a manifestation of dynamical criticality. Additionally, we identify the universal fluctuations of entropy in the chaotic regime, serving as a non-unitary counterpart of the universal conductance fluctuations in mesoscopic electronic transport phenomena. Furthermore, we elucidate and classify the universality classes of non-unitary quantum dynamics based on fundamental symmetry. We also validate the universality of these analytical results through extensive numerical simulations across different types of models. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# HelixFold3による生体分子構造予測技術
Technical Report of HelixFold3 for Biomolecular Structure Prediction ( http://arxiv.org/abs/2408.16975v1 ) ライセンス: Link先を確認 | Lihang Liu, Shanzhuo Zhang, Yang Xue, Xianbin Ye, Kunrui Zhu, Yuxin Li, Yang Liu, Xiaonan Zhang, Xiaomin Fang, | (参考訳) AlphaFoldシリーズはタンパク質構造予測を顕著な精度で変換し、しばしば実験手法と一致する。
AlphaFold2、AlphaFold-Multimer、そして最新のAlphaFold3は、単一のタンパク質鎖、タンパク質複合体、生体分子構造を予測する重要なステップである。
AlphaFold2とAlphaFold-Multimerはオープンソースであり、迅速で信頼性の高い予測を促進する。
これらの課題に対処するため、PaddleHelixチームは、AlphaFold3の機能の再現を目的としたHelixFold3を開発している。
HelixFold3は、以前のモデルと広範なデータセットからの洞察を用いて、従来のリガンド、核酸、タンパク質の構造を予測するためにAlphaFold3に匹敵する精度を達成する。
HelixFold3の最初のリリースは、学術研究のためのGitHub上のオープンソースとして利用可能であり、生体分子研究の進歩と発見の加速を約束している。
また、PaddleHelixのウェブサイトでhttps://paddlehelix.baidu.com/app/all/helixfold3/forecast.comでオンラインサービスを提供しています。
The AlphaFold series has transformed protein structure prediction with remarkable accuracy, often matching experimental methods. AlphaFold2, AlphaFold-Multimer, and the latest AlphaFold3 represent significant strides in predicting single protein chains, protein complexes, and biomolecular structures. While AlphaFold2 and AlphaFold-Multimer are open-sourced, facilitating rapid and reliable predictions, AlphaFold3 remains partially accessible through a limited online server and has not been open-sourced, restricting further development. To address these challenges, the PaddleHelix team is developing HelixFold3, aiming to replicate AlphaFold3's capabilities. Using insights from previous models and extensive datasets, HelixFold3 achieves an accuracy comparable to AlphaFold3 in predicting the structures of conventional ligands, nucleic acids, and proteins. The initial release of HelixFold3 is available as open source on GitHub for academic research, promising to advance biomolecular research and accelerate discoveries. We also provide online service at PaddleHelix website at https://paddlehelix.baidu.com/app/all/helixfold3/forecast. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# 完全パイプライン分散変換器を用いた超長期言語モデルの学習
Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer ( http://arxiv.org/abs/2408.16978v1 ) ライセンス: Link先を確認 | Jinghan Yao, Sam Ade Jacobs, Masahiro Tanaka, Olatunji Ruwase, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda, | (参考訳) 長い文脈能力を持つ大規模言語モデル(LLM)は、テキスト生成やタンパク質配列解析のような自然言語処理や計算生物学における複雑なタスクに不可欠なものである。
しかし、非常に長いコンテキストで直接LLMをトレーニングするには、相当なGPUリソースとメモリの増大が必要であり、それによってコストが上がり、複雑さが増す。
下流の微調整や適応によって長いコンテキスト機能を導入する別のアプローチは、重大な設計上の制限を課している。
本稿では,FPDT(Fully Pipelined Distributed Transformer)を提案する。
GPTモデルとLlamaモデルでは,現在の最先端ソリューションと比較して,同じハードウェア上でトレーニング可能なシーケンス長が16倍に向上する。
専用シーケンスチャンクパイプラインの設計により、MFUの55%以上を維持しながら、4GPUで200万シーケンス長の8B LLMをトレーニングできるようになりました。
提案するFPDTは,既存のトレーニング手法とは無関係であり,異なるLLMモデルに対して効率よく機能することが証明されている。
Large Language Models (LLMs) with long context capabilities are integral to complex tasks in natural language processing and computational biology, such as text generation and protein sequence analysis. However, training LLMs directly on extremely long contexts demands considerable GPU resources and increased memory, leading to higher costs and greater complexity. Alternative approaches that introduce long context capabilities via downstream finetuning or adaptations impose significant design limitations. In this paper, we propose Fully Pipelined Distributed Transformer (FPDT) for efficiently training long-context LLMs with extreme hardware efficiency. For GPT and Llama models, we achieve a 16x increase in sequence length that can be trained on the same hardware compared to current state-of-the-art solutions. With our dedicated sequence chunk pipeline design, we can now train 8B LLM with 2 million sequence length on only 4 GPUs, while also maintaining over 55% of MFU. Our proposed FPDT is agnostic to existing training techniques and is proven to work efficiently across different LLM models. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# 双方向適応器を用いたクロスフュージョンRGB-T追跡
Cross Fusion RGB-T Tracking with Bi-directional Adapter ( http://arxiv.org/abs/2408.16979v1 ) ライセンス: Link先を確認 | Zhirong Zeng, Xiaotao Liu, Meng Sun, Hongyu Wang, Jing Liu, | (参考訳) 最先端のRGB-Tトラッカーの多くは、モダリティ融合によって顕著な成果を上げている。
しかし、これらのトラッカーはしばしば時間的情報を見落としているか、完全に利用できないかのいずれかであり、結果としてマルチモーダル情報と時間的情報の非効率なバランスが生じる。
この問題に対処するために,時間的情報を動的に融合しながら,トラッキングにおける複数モードの完全参加を保証する,CFBT(Cross Fusion RGB-T Tracking Architecture)を提案する。
CSTAF(Cross Spatio-Temporal Augmentation Fusion)、Cross Spatio-Temporal Complementarity Fusion(CSTCF)、Dual-Stream Spatio-Temporal Adapter(DSTA)である。
CSTAFはテンプレートの特徴表現を包括的に強化するクロスアテンション機構を採用している。
CSTCFは、異なるブランチ間の補完情報を使用して、ターゲット機能を強化し、バックグラウンド機能を抑制する。
DSTAはアダプタの概念を採用し、RGBモダリティを媒体として、トランスフォーマー層内の複数のブランチからの補完情報を適応的にフューズする。
これらの多重視点の創発的な融合は、全モーダルパラメータの0.3 %未満しか導入しないが、実際にはマルチモーダル情報と時間情報の効率的なバランスを可能にする。
3つのRGB-T追跡ベンチマークの大規模実験により,本手法が新たな最先端性能を実現することを示す。
Many state-of-the-art RGB-T trackers have achieved remarkable results through modality fusion. However, these trackers often either overlook temporal information or fail to fully utilize it, resulting in an ineffective balance between multi-modal and temporal information. To address this issue, we propose a novel Cross Fusion RGB-T Tracking architecture (CFBT) that ensures the full participation of multiple modalities in tracking while dynamically fusing temporal information. The effectiveness of CFBT relies on three newly designed cross spatio-temporal information fusion modules: Cross Spatio-Temporal Augmentation Fusion (CSTAF), Cross Spatio-Temporal Complementarity Fusion (CSTCF), and Dual-Stream Spatio-Temporal Adapter (DSTA). CSTAF employs a cross-attention mechanism to enhance the feature representation of the template comprehensively. CSTCF utilizes complementary information between different branches to enhance target features and suppress background features. DSTA adopts the adapter concept to adaptively fuse complementary information from multiple branches within the transformer layer, using the RGB modality as a medium. These ingenious fusions of multiple perspectives introduce only less than 0.3\% of the total modal parameters, but they indeed enable an efficient balance between multi-modal and temporal information. Extensive experiments on three popular RGB-T tracking benchmarks demonstrate that our method achieves new state-of-the-art performance. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# フェデレートQ-Learningにおけるサンプル・コミュニケーション複合性トレードオフ
The Sample-Communication Complexity Trade-off in Federated Q-Learning ( http://arxiv.org/abs/2408.16981v1 ) ライセンス: Link先を確認 | Sudeep Salgia, Yuejie Chi, | (参考訳) 我々は、M$エージェントが未知の無限水平マルコフ決定過程の最適Q-関数を有限状態と作用空間で協調的に学習することを目的とした、連合Q-ラーニングの問題を考察する。
広範に使われている間欠的通信アルゴリズムにおけるサンプルと通信複雑性のトレードオフについて検討する。
まず, 対数係数が$\gamma$である場合, 対数係数が$\frac{1}{1-\gamma}$の少なくとも1桁の通信コストを発生させる必要があることを示す。
また,Fed-DVR-Qと呼ばれる新しいアルゴリズムを提案する。このアルゴリズムは,注文-最適サンプルと通信の複雑さを同時に達成する最初のフェデレーションQ-ラーニングアルゴリズムである。
このようにして、これらの結果は、連合Q-ラーニングにおけるサンプル通信複雑性のトレードオフの完全な特徴を与える。
We consider the problem of federated Q-learning, where $M$ agents aim to collaboratively learn the optimal Q-function of an unknown infinite-horizon Markov decision process with finite state and action spaces. We investigate the trade-off between sample and communication complexities for the widely used class of intermittent communication algorithms. We first establish the converse result, where it is shown that a federated Q-learning algorithm that offers any speedup with respect to the number of agents in the per-agent sample complexity needs to incur a communication cost of at least an order of $\frac{1}{1-\gamma}$ up to logarithmic factors, where $\gamma$ is the discount factor. We also propose a new algorithm, called Fed-DVR-Q, which is the first federated Q-learning algorithm to simultaneously achieve order-optimal sample and communication complexities. Thus, together these results provide a complete characterization of the sample-communication complexity trade-off in federated Q-learning. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# 2DGH:2次元ガウス・ハーマイト製高品位レンダリングと幾何再構成
2DGH: 2D Gaussian-Hermite Splatting for High-quality Rendering and Better Geometry Reconstruction ( http://arxiv.org/abs/2408.16982v1 ) ライセンス: Link先を確認 | Ruihan Yu, Tianyu Huang, Jingwang Ling, Feng Xu, | (参考訳) 2次元ガウススプラッティングは3次元再構成において重要な手法として最近登場し、新しいビュー合成と幾何再構成を同時に実現している。
良く知られたガウス核は広く使われているが、その異方性と変形能力の欠如は、オブジェクトシルエットにおける薄さと曖昧なエッジをもたらし、現在のガウススティング法の再構築品質を制限している。
表現力を高めるために、量子物理学からインスピレーションを得て、ガウス-ハーマイト核をガウススプラッティングにおける新しいプリミティブとして使うことを提案する。
新しいカーネルは統一的な数学的形式をとり、ガウス函数を拡張し、更新された定式化においてゼロランク項として機能する。
ガウス・ハーマイト核の幾何再構成と新規ビュー合成における異常な性能を示す実験を行った。
提案したカーネルは従来のガウススプラッティングカーネルよりも優れており、高品質な3D再構成とレンダリングの可能性を示している。
2D Gaussian Splatting has recently emerged as a significant method in 3D reconstruction, enabling novel view synthesis and geometry reconstruction simultaneously. While the well-known Gaussian kernel is broadly used, its lack of anisotropy and deformation ability leads to dim and vague edges at object silhouettes, limiting the reconstruction quality of current Gaussian splatting methods. To enhance the representation power, we draw inspiration from quantum physics and propose to use the Gaussian-Hermite kernel as the new primitive in Gaussian splatting. The new kernel takes a unified mathematical form and extends the Gaussian function, which serves as the zero-rank term in the updated formulation. Our experiments demonstrate the extraordinary performance of Gaussian-Hermite kernel in both geometry reconstruction and novel-view synthesis tasks. The proposed kernel outperforms traditional Gaussian Splatting kernels, showcasing its potential for high-quality 3D reconstruction and rendering. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# 凝縮物質物理学におけるディラック双線型:可観測体の相対論的補正と共役電磁場
Dirac bilinears in condensed matter physics: Relativistic correction for observables and conjugate electromagnetic fields ( http://arxiv.org/abs/2408.16983v1 ) ライセンス: Link先を確認 | Shintaro Hoshino, Tatsuya Miki, Michi-To Suzuki, Hiroaki Ikeda, | (参考訳) 電子キラリティの最近の発展に触発されて、相対論的量子論におけるディラック双線型の非相対論的極限に基づいて、凝縮物質物理学において見過ごされ、あるいはほとんど注目を集めていないいくつかの微視的な物理量を再考した。
四成分のディラック場によって定義される物理量の式を、2成分のシュリンガー場(通常は凝縮物質物理学で用いられる)を用いて同定し、その共役電磁場を明らかにする。
この考察は凝縮物質物理学、量子化学、粒子物理学の分野を橋渡しし、物質の電磁制御への道を開く。
本研究は,低対称性材料に特有のキラル性や軸性などの材料特性の定量化と,有用で新規な機能探索の体系的探索を刺激する手段を提供する。
Inspired by recent developments in electron chirality, we reconsider some microscopic physical quantities that have been overlooked or have received little attention in condensed matter physics, based on the non-relativistic limit of the Dirac bilinears in relativistic quantum theory. We identify the expression of physical quantities defined by the four-component Dirac field in terms of the two-component Schr\"odinger field, which is usually used in condensed matter physics, and clarify its conjugate electromagnetic field. This consideration bridges the fields of condensed matter physics, quantum chemistry, and particle physics, and paves the way to electromagnetic control of matter. Our findings provide a means of {\it ab initio} quantification of material characters such as chirality and axiality that are unique to low-symmetry materials, and stimulate the systematic search for useful, new functionalities. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# AIアライメントにおける嗜好を超えて
Beyond Preferences in AI Alignment ( http://arxiv.org/abs/2408.16984v1 ) ライセンス: Link先を確認 | Tan Zhi-Xuan, Micah Carroll, Matija Franklin, Hal Ashton, | (参考訳) AIアライメントの主流の実践は、(1)嗜好が人間の価値観の適切な表現であること、(2)人間の合理性は嗜好の満足度を最大化すること、(3)AIシステムは1人以上の人の嗜好と整合して、我々の価値観に従って安全に行動することを保証するべきであることを前提としている。
暗黙的に従うか、明示的に支持されるかにかかわらず、これらのコミットメントは、私たちがAIアライメントに対する優先的なアプローチと呼ぶものを構成する。
本稿では,さらなる研究に欠かせない概念的・技術的選択肢を記述し,優先主義的アプローチを特徴付け,挑戦する。
本稿はまず,有理選択理論の限界を記述的モデルとして調査し,人的価値の厚い意味的内容の獲得に優先権が如何に失敗するか,実用的表現がそれらの価値の不可避性を如何に無視するかを説明する。
次に、我々は、人間とAIに対する期待されたユーティリティ理論(EUT)の規範性を批判し、合理的エージェントがEUTに準拠すべきでないことの議論を引き合いに出し、EUTがどの規範的に受け入れられるかについて沈黙しているかを強調した。
最後に、これらの制限がAIアライメントの目標の再フレーミングを動機付けていると論じる: 人間のユーザ、開発者、あるいは人間性に富んだ大きな好みに合わせる代わりに、AIシステムは、汎用アシスタントの役割など、彼らの社会的役割に適する規範的な標準に適合すべきである。
さらに、これらの標準は、関連するすべてのステークホルダーによって交渉され、合意されるべきです。
この代替的なアライメントの概念では、AIシステムの多種多様さは、複数の値と分岐した値に関わらず、相互利益を促進し、害を制限する規範的な標準と整合して、多様な目的を達成することができる。
The dominant practice of AI alignment assumes (1) that preferences are an adequate representation of human values, (2) that human rationality can be understood in terms of maximizing the satisfaction of preferences, and (3) that AI systems should be aligned with the preferences of one or more humans to ensure that they behave safely and in accordance with our values. Whether implicitly followed or explicitly endorsed, these commitments constitute what we term a preferentist approach to AI alignment. In this paper, we characterize and challenge the preferentist approach, describing conceptual and technical alternatives that are ripe for further research. We first survey the limits of rational choice theory as a descriptive model, explaining how preferences fail to capture the thick semantic content of human values, and how utility representations neglect the possible incommensurability of those values. We then critique the normativity of expected utility theory (EUT) for humans and AI, drawing upon arguments showing how rational agents need not comply with EUT, while highlighting how EUT is silent on which preferences are normatively acceptable. Finally, we argue that these limitations motivate a reframing of the targets of AI alignment: Instead of alignment with the preferences of a human user, developer, or humanity-writ-large, AI systems should be aligned with normative standards appropriate to their social roles, such as the role of a general-purpose assistant. Furthermore, these standards should be negotiated and agreed upon by all relevant stakeholders. On this alternative conception of alignment, a multiplicity of AI systems will be able to serve diverse ends, aligned with normative standards that promote mutual benefit and limit harm despite our plural and divergent values. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# AdaptVision: 可変シーン理解のためのMLLMの動的入力スケーリング
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding ( http://arxiv.org/abs/2408.16986v1 ) ライセンス: Link先を確認 | Yonghui Wang, Wengang Zhou, Hao Feng, Houqiang Li, | (参考訳) 過去数年間、MLLM(Multimodal Large Language Models)の進歩は研究者の関心をひきつけ、MLLMの理解を深めるための多くの革新をもたらした。
本稿では,様々な解像度で入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
我々は、入力画像の解像度と内容の両方に基づいて、モデルに必要な視覚トークンの必要個数を仮定する。
一般に、情報密度の低い自然画像は、解像度の低い視覚トークンを用いて、モデルによって効果的に解釈できる。
対照的に、リッチテキストを含む文書などのテキストコンテンツを含む画像は、高い情報密度のために正確なテキスト解釈のために、より多くの視覚トークンを必要とする。
この知見に基づいて、画像のサイズとアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
画像の縮小から均一な解像度への歪み効果を軽減し、LLMに入力された視覚トークンを動的に最適化する。
私たちのモデルは、解像度1008\times 1008$までの画像を処理できます。
様々なデータセットにわたる大規模な実験により,本手法は自然場面とテキスト場面の両方で視覚言語タスクを処理できることが実証された。
ソースコードとデータセットは現在、 \url{https://github.com/harrytea/AdaptVision}で公開されている。
Over the past few years, the advancement of Multimodal Large Language Models (MLLMs) has captured the wide interest of researchers, leading to numerous innovations to enhance MLLMs' comprehension. In this paper, we present AdaptVision, a multimodal large language model specifically designed to dynamically process input images at varying resolutions. We hypothesize that the requisite number of visual tokens for the model is contingent upon both the resolution and content of the input image. Generally, natural images with a lower information density can be effectively interpreted by the model using fewer visual tokens at reduced resolutions. In contrast, images containing textual content, such as documents with rich text, necessitate a higher number of visual tokens for accurate text interpretation due to their higher information density. Building on this insight, we devise a dynamic image partitioning module that adjusts the number of visual tokens according to the size and aspect ratio of images. This method mitigates distortion effects that arise from resizing images to a uniform resolution and dynamically optimizing the visual tokens input to the LLMs. Our model is capable of processing images with resolutions up to $1008\times 1008$. Extensive experiments across various datasets demonstrate that our method achieves impressive performance in handling vision-language tasks in both natural and text-related scenes. The source code and dataset are now publicly available at \url{https://github.com/harrytea/AdaptVision}. | 翻訳日:2024-09-02 16:39:11 公開日:2024-08-30 |
# モデル説明からデータ解釈へ:ビジネス研究におけるポストホック説明者の落とし穴を明らかにする
From Model Explanation to Data Misinterpretation: Uncovering the Pitfalls of Post Hoc Explainers in Business Research ( http://arxiv.org/abs/2408.16987v1 ) ライセンス: Link先を確認 | Ronilo Ragodos, Tong Wang, Lu Feng, Yu, Hu, | (参考訳) 機械学習モデルは、ビジネス研究でますます使われている。
しかしながら、ディープニューラルネットワークやXGBoostのような最先端の機械学習モデルは、本質的にブラックボックスである。
そのため、例えば入力特徴の数値的重要性を推定するなど、機械学習モデルの説明を提供するポストホック説明器が広く使われている。
機械学習モデルの説明にポストホックの説明を意図した使用にもかかわらず、ビジネス研究では、ポストホックの説明がデータに関する推論に使用される傾向が増加している。
本研究では,そのような使用の有効性について検討する。
具体的には、データアライメント(データアライメント)と呼ばれるデータにおいて、最も人気のある2つのポストホック説明器(SHAP)とLIME(LIME)によって得られた説明が、X on Yの真の限界効果について正しい情報を提供するかどうかを広範囲にわたる実験で調査する。
次に、説明のアライメントに影響を与える要因を特定する。
最後に,説明文のデータアライメントを改善するための緩和策を提案する。
このような努力にもかかわらず、ポストホックな説明からデータインサイトを推測するのは適切ではないと結論付けています。
我々は適切な代替用途を明確化し、その中で最も重要なのは仮説の提案とその後の実証的研究を促進することである。
この論文の最終的な目標は、機械学習モデルのポストホックな説明を、潜在的に誤った洞察とデータの理解に翻訳しないように、ビジネス研究者に警告することである。
Machine learning models have been increasingly used in business research. However, most state-of-the-art machine learning models, such as deep neural networks and XGBoost, are black boxes in nature. Therefore, post hoc explainers that provide explanations for machine learning models by, for example, estimating numerical importance of the input features, have been gaining wide usage. Despite the intended use of post hoc explainers being explaining machine learning models, we found a growing trend in business research where post hoc explanations are used to draw inferences about the data. In this work, we investigate the validity of such use. Specifically, we investigate with extensive experiments whether the explanations obtained by the two most popular post hoc explainers, SHAP and LIME, provide correct information about the true marginal effects of X on Y in the data, which we call data-alignment. We then identify what factors influence the alignment of explanations. Finally, we propose a set of mitigation strategies to improve the data-alignment of explanations and demonstrate their effectiveness with real-world data in an econometric context. In spite of this effort, we nevertheless conclude that it is often not appropriate to infer data insights from post hoc explanations. We articulate appropriate alternative uses, the most important of which is to facilitate the proposition and subsequent empirical investigation of hypotheses. The ultimate goal of this paper is to caution business researchers against translating post hoc explanations of machine learning models into potentially false insights and understanding of data. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 実世界のシナリオにおけるSQLインスペクションとリファインメントのためのツール支援エージェント
Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios ( http://arxiv.org/abs/2408.16991v1 ) ライセンス: Link先を確認 | Zhongyuan Wang, Richong Zhang, Zhijie Nie, Jaein Kim, | (参考訳) 最近のText-to-SQLメソッドは,データベース管理システムからのフィードバックを取り入れることで,大規模言語モデル(LLM)を活用する。
これらのメソッドはSQLクエリの実行エラーを効果的に処理しますが、データベースミスマッチ -- 実行例外をトリガーしないエラー -- に苦労しています。
データベースのミスマッチには、条件ミスマッチやより厳密な制約ミスマッチといった問題が含まれており、どちらも現実のシナリオでより一般的である。
これらの課題に対処するために,データベースミスマッチによるSQLクエリの診断と修正を目的とした,レトリバーとディテクタという2つの特殊なツールを備えた,SQLインスペクションとリファインメントのためのツール支援エージェントフレームワークを提案する。
これらのツールは、LLMが現実世界のクエリをより効率的に処理する能力を高める。
また、現実世界のシナリオで発生する条件ミスマッチ問題を反映して構築された新しいデータセットであるSpider-Mismatchについても紹介する。
実験結果から,本手法はスパイダーとスパイダー・リアリスティックのデータセットの平均値に対して,数ショット設定で高い性能を達成し,より現実的なスパイダー・ミスマッチのベースライン手法よりも有意に優れていた。
Recent Text-to-SQL methods leverage large language models (LLMs) by incorporating feedback from the database management system. While these methods effectively address execution errors in SQL queries, they struggle with database mismatches -- errors that do not trigger execution exceptions. Database mismatches include issues such as condition mismatches and stricter constraint mismatches, both of which are more prevalent in real-world scenarios. To address these challenges, we propose a tool-assisted agent framework for SQL inspection and refinement, equipping the LLM-based agent with two specialized tools: a retriever and a detector, designed to diagnose and correct SQL queries with database mismatches. These tools enhance the capability of LLMs to handle real-world queries more effectively. We also introduce Spider-Mismatch, a new dataset specifically constructed to reflect the condition mismatch problems encountered in real-world scenarios. Experimental results demonstrate that our method achieves the highest performance on the averaged results of the Spider and Spider-Realistic datasets in few-shot settings, and it significantly outperforms baseline methods on the more realistic dataset, Spider-Mismatch. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 鯨最適化アルゴリズムによるスケーラブルk-メドイドクラスタリング
A Scalable k-Medoids Clustering via Whale Optimization Algorithm ( http://arxiv.org/abs/2408.16993v1 ) ライセンス: Link先を確認 | Huang Chenan, Narumasa Tsutsumida, | (参考訳) 教師なしクラスタリングは、巨大なラベルのないデータセットから隠れたパターンや洞察を明らかにするための重要なツールとして登場した。
しかしながら、PAM(Partitioning Around Medoids)のような従来の手法は、2次計算の複雑さのためにスケーラビリティに苦慮している。
WOA-kMedoids, Whale Optimization Algorithm (WOA)を組み込んだ非教師型クラスタリング手法を導入する。
セントロイド選択を最適化することにより、WOA-kMedoidsは観測数に関してk-メドロイドアルゴリズムの計算複雑性を2次からほぼ直線に減らす。
この効率の改善により、WOA-kMedoidsはクラスタリングの精度を高く保ちながら、大規模なデータセットにスケーラブルになる。
UCRアーカイブから25種類の時系列データセットを用いたWOA-kMedoidsの性能評価を行った。
実験の結果, WOA-kMedoids は PAM と同様のクラスタリング精度を維持していることがわかった。
WOA-kMedoids は小さなデータセットでは PAM よりも若干高いランタイムを示し(300観測未満)、より大きなデータセットでは計算効率で PAM を上回った。
WOA-kMedoidsのスケーラビリティは、その一貫した精度と相まって、ビッグデータアプリケーションにおける教師なしクラスタリングのための有望かつ実践的な選択肢として位置づけられている。
WOA-kMedoidsは、様々な領域にわたる大規模でラベル付けされていないデータセットにおいて、効率的な知識発見に影響を及ぼす。
Unsupervised clustering has emerged as a critical tool for uncovering hidden patterns and insights from vast, unlabeled datasets. However, traditional methods like Partitioning Around Medoids (PAM) struggle with scalability due to their quadratic computational complexity. To address this limitation, we introduce WOA-kMedoids, a novel unsupervised clustering method that incorporates the Whale Optimization Algorithm (WOA), a nature-inspired metaheuristic inspired by the hunting strategies of humpback whales. By optimizing centroid selection, WOA-kMedoids reduces computational complexity of the k-medoids algorithm from quadratic to near-linear with respect to the number of observations. This improvement in efficiency enables WOA-kMedoids to be scalable to large datasets while maintaining high clustering accuracy. We evaluated the performance of WOA-kMedoids on 25 diverse time series datasets from the UCR archive. Our empirical results demonstrate that WOA-kMedoids maintains clustering accuracy similar to PAM. While WOA-kMedoids exhibited slightly higher runtime than PAM on small datasets (less than 300 observations), it outperformed PAM in computational efficiency on larger datasets. The scalability of WOA-kMedoids, combined with its consistently high accuracy, positions it as a promising and practical choice for unsupervised clustering in big data applications. WOA-kMedoids has implications for efficient knowledge discovery in massive, unlabeled datasets across various domains. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# デモンを含むゆらぎ理論の実験的検証
Experimental Verification of Demon-Involved Fluctuation Theorems ( http://arxiv.org/abs/2408.16997v1 ) ライセンス: Link先を確認 | L. -L. Yan, J. -T. Bu, Q. Zeng, K. Zhang, K. -F. Cui, F. Zhou, S. -L. Su, L. Chen, J. Wang, Gang Chen, M. Feng, | (参考訳) 小型システムの制御における省エネの限界は、最近マックスウェル・デーモンの概念の洗練によって大きな関心を集めている。
新たに提案された揺らぎ定理にインスパイアされ、超低温の40Caイオン系におけるこれらの等式と不等式の最初の実験的検証を報告し、デーモンの関与による系の内在的非平衡を確認する。
Szilardエンジンプロトコルのような精巧に設計されたデーモン関連制御プロトコルに基づいて, 散逸情報の実験的証拠を提供し, 佐川-上田の定理によって予測される限界よりも抽出された作業とデーモンの有効性の厳密な境界を観察する。
本研究は,マイクロスケールにおける情報の物理的性質と非平衡過程の密接な関係を実証し,情報の熱力学特性とナノスケール・小型システムの最適設計のさらなる理解に役立てるものである。
The limit of energy saving in the control of small systems has recently attracted much interest due to the concept refinement of the Maxwell demon. Inspired by a newly proposed set of fluctuation theorems, we report the first experimental verification of these equalities and inequalities in a ultracold 40Ca ion system, confirming the intrinsic nonequilibrium in the system due to involvement of the demon. Based on elaborately designed demon-involved control protocols, such as the Szilard engine protocol, we provide experimentally quantitative evidence of the dissipative information, and observe tighter bounds of both the extracted work and the demon's efficacy than the limits predicted by the Sagawa-Ueda theorem. Our results substantiate a close connection between the physical nature of information and nonequilibrium processes at the microscale, which help further understanding the thermodynamic characteristics of information and the optimal design of nanoscale and smaller systems. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# リバース・エクスペリエンス・リプレイにおけるタイター・コンバージェンス証明
A Tighter Convergence Proof of Reverse Experience Replay ( http://arxiv.org/abs/2408.16999v1 ) ライセンス: Link先を確認 | Nan Jiang, Jinzhao Li, Yexiang Xue, | (参考訳) 強化学習において、Reverse Experience Replay (RER) は古典的経験リプレイ法よりも優れたサンプリング複雑性を実現するアルゴリズムである。
RERは、連続した状態-反応-逆タプルを通じてパラメータを逆順に更新する学習アルゴリズムを必要とする。
しかし、最近の理論分析では、最小の学習率と短い連続的なステップしか持たず、RERのない大規模学習率アルゴリズムよりも収束が遅い。
この理論的および経験的ギャップを考慮すると、学習速度と連続的なステップの長さの制限を緩和する、より厳密な分析を提供する。
さらに、RERは学習速度とより長いシーケンスで収束することが理論的に示される。
In reinforcement learning, Reverse Experience Replay (RER) is a recently proposed algorithm that attains better sample complexity than the classic experience replay method. RER requires the learning algorithm to update the parameters through consecutive state-action-reward tuples in reverse order. However, the most recent theoretical analysis only holds for a minimal learning rate and short consecutive steps, which converge slower than those large learning rate algorithms without RER. In view of this theoretical and empirical gap, we provide a tighter analysis that mitigates the limitation on the learning rate and the length of consecutive steps. Furthermore, we show theoretically that RER converges with a larger learning rate and a longer sequence. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 継続:これまで何をしてきたか?(実験報告)
Continuations: What Have They Ever Done for Us? (Experience Report) ( http://arxiv.org/abs/2408.17001v1 ) ライセンス: Link先を確認 | Marc Kaufmann, Bogdan Popa, | (参考訳) 参加者は、以前の回答、選択、パフォーマンスに基づいて異なるメッセージを受け取るか、他の参加者と多くのラウンドで取引する。
このような経済研究を行うためのプラットフォームであるCongameの設計において,参加者の共通フローを管理するために,限定的な継続を用いることを決定した。
ここでは、リクエスト間でデータを永続化すること、動的変数を扱うこと、メモリリークを避けること、継続をデバッグすることの難しさなど、継続を使用する際のこのアプローチの肯定的な側面といくつかの課題について報告する。
Surveys and experiments in economics involve stateful interactions: participants receive different messages based on earlier answers, choices, and performance, or trade across many rounds with other participants. In the design of Congame, a platform for running such economic studies, we decided to use delimited continuations to manage the common flow of participants through a study. Here we report on the positives of this approach, as well as some challenges of using continuations, such as persisting data across requests, working with dynamic variables, avoiding memory leaks, and the difficulty of debugging continuations. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 大規模言語モデルの安全性レイヤ - LLMセキュリティの鍵
Safety Layers of Aligned Large Language Models: The Key to LLM Security ( http://arxiv.org/abs/2408.17003v1 ) ライセンス: Link先を確認 | Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li, | (参考訳) LLMは高度に安全であり、悪意のある質問を認識し、拒否することができる。
しかし、このセキュリティ維持における内部パラメータの役割はよく理解されておらず、さらにこれらのモデルは、悪意のないバックドアデータや通常のデータで微調整された場合、セキュリティ劣化に対して脆弱である。
これらの課題に対処するため、我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、"セーフティ・レイヤ"と呼ばれる、悪意のあるクエリと通常のクエリを区別するために不可欠な、モデルの中央にある小さな連続した層を識別する。
まず、モデルの内部層内の入力ベクトルの変動を分析することにより、これらの安全層の存在を確かめる。
さらに、オーバーリジェクション現象とパラメータスケーリング分析を利用して、安全層を正確に特定する。
この理解に基づいて, 安全部分パラメータ細調整法 (SPPFT) を提案する。
実験により,本手法は性能を保ちながらモデルセキュリティを著しく保ち,完全微調整に比べて計算資源の削減を図っている。
Aligned LLMs are highly secure, capable of recognizing and refusing to answer malicious questions. However, the role of internal parameters in maintaining this security is not well understood, further these models are vulnerable to security degradation when fine-tuned with non-malicious backdoor data or normal data. To address these challenges, our work uncovers the mechanism behind security in aligned LLMs at the parameter level, identifying a small set of contiguous layers in the middle of the model that are crucial for distinguishing malicious queries from normal ones, referred to as "safety layers." We first confirm the existence of these safety layers by analyzing variations in input vectors within the model's internal layers. Additionally, we leverage the over-rejection phenomenon and parameters scaling analysis to precisely locate the safety layers. Building on this understanding, we propose a novel fine-tuning approach, Safely Partial-Parameter Fine-Tuning (SPPFT), that fixes the gradient of the safety layers during fine-tuning to address the security degradation. Our experiments demonstrate that this approach significantly preserves model security while maintaining performance and reducing computational resources compared to full fine-tuning. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 深部強化学習による視覚オドメトリーの効率的なカメラ露光制御
Efficient Camera Exposure Control for Visual Odometry via Deep Reinforcement Learning ( http://arxiv.org/abs/2408.17005v1 ) ライセンス: Link先を確認 | Shuyang Zhang, Jinhao He, Yilong Zhu, Jin Wu, Jie Yuan, | (参考訳) 視覚計測システム(VO)の安定性は画像品質の劣化によって損なわれ、特に照明が著しく変化する環境では顕著である。
本研究では、被曝制御のためのエージェントの訓練にDRL(Deep reinforcement Learning)フレームワークを使用し、課題のある条件下での撮像性能の向上を目的としている。
トレーニングプロセスを容易にし、画像露出とシーケンス軌跡の多様化を可能にする軽量な画像シミュレータを開発した。
このセットアップにより、完全にオフラインのトレーニングが可能になり、カメラハードウェアと実際の環境との直接的なインタラクションが不要になる。
報酬関数のレベルが異なるため、VOシステムを強化し、DRLエージェントに様々なインテリジェンスを持たせる。
広汎な実験により,我々の露光制御エージェントは,CPU上で1フレームあたり平均1.58msで効率が良く,従来のフィードバック制御方式よりも高速に応答できることがわかった。
適切な報酬関数を選択することで、エージェントは動きの傾向をインテリジェントに理解し、将来の照明変化を予測できる。
この予測能力により、VOシステムはより安定で正確なオドメトリー結果を提供できる。
コードとデータセットはhttps://github.com/ShuyangUni/drl_exposure_ctrlで公開されている。
The stability of visual odometry (VO) systems is undermined by degraded image quality, especially in environments with significant illumination changes. This study employs a deep reinforcement learning (DRL) framework to train agents for exposure control, aiming to enhance imaging performance in challenging conditions. A lightweight image simulator is developed to facilitate the training process, enabling the diversification of image exposure and sequence trajectory. This setup enables completely offline training, eliminating the need for direct interaction with camera hardware and the real environments. Different levels of reward functions are crafted to enhance the VO systems, equipping the DRL agents with varying intelligence. Extensive experiments have shown that our exposure control agents achieve superior efficiency-with an average inference duration of 1.58 ms per frame on a CPU-and respond more quickly than traditional feedback control schemes. By choosing an appropriate reward function, agents acquire an intelligent understanding of motion trends and anticipate future illumination changes. This predictive capability allows VO systems to deliver more stable and precise odometry results. The codes and datasets are available at https://github.com/ShuyangUni/drl_exposure_ctrl. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 説明可能な視覚質問応答のための検索型自然言語推論
Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering ( http://arxiv.org/abs/2408.17006v1 ) ライセンス: Link先を確認 | Su Hyeon Lim, Minkuk Kim, Hyeon Bae Kim, Seong Tae Kim, | (参考訳) VQA-NLE(Visual Question Answering with Natural Language Explanation)タスクは、推論に基づく推論の要求が高いため、難しい。
近年のVQA-NLE研究は、モデルの推論能力を増幅するモデルネットワークの強化に重点を置いているが、このアプローチはリソース消費と不安定である。
本稿では,メモリからの検索情報を利用して,複雑なネットワークや余分なデータセットに頼ることなく,正確な回答と説得力のある説明を生成する新しいVQA-NLEモデルReRe(Retrieval-augmented Natural Language Reasoning)を提案する。
ReReは、事前訓練されたクリップビジョンエンコーダと事前訓練されたGPT-2言語モデルをデコーダとして使用するエンコーダ/デコーダアーキテクチャモデルである。
GPT-2には、検索機能を処理するためのクロスアテンション層が追加されている。
ReReは、VQA精度と説明スコアにおいて従来の手法よりも優れており、より説得力があり信頼性の高いNLEの改善を示している。
Visual Question Answering with Natural Language Explanation (VQA-NLE) task is challenging due to its high demand for reasoning-based inference. Recent VQA-NLE studies focus on enhancing model networks to amplify the model's reasoning capability but this approach is resource-consuming and unstable. In this work, we introduce a new VQA-NLE model, ReRe (Retrieval-augmented natural language Reasoning), using leverage retrieval information from the memory to aid in generating accurate answers and persuasive explanations without relying on complex networks and extra datasets. ReRe is an encoder-decoder architecture model using a pre-trained clip vision encoder and a pre-trained GPT-2 language model as a decoder. Cross-attention layers are added in the GPT-2 for processing retrieval features. ReRe outperforms previous methods in VQA accuracy and explanation score and shows improvement in NLE with more persuasive, reliability. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 文書における表からの質問への回答のための表表現の評価 : 3GPP仕様を用いた事例研究
Evaluation of Table Representations to Answer Questions from Tables in Documents : A Case Study using 3GPP Specifications ( http://arxiv.org/abs/2408.17008v1 ) ライセンス: Link先を確認 | Sujoy Roychowdhury, Sumit Soman, HG Ranjani, Avantika Sharma, Neeraj Gunda, Sai Krishna Bala, | (参考訳) 質問応答に文書コーパスをユビキタスに使用することにより、特に技術文書に関係のある重要な側面は、テキストが散在するテーブルから情報を抽出する能力である。
この大きな課題は、自由フローテキストや孤立したテーブルの集合とは異なり、関連するチャンクの点でテーブルの表現が明確でないことである。
本研究では,テキストに散在する表型データの様々な表現を検証し,異なる表現の相対的利点を理解する。
3GPP(Generation Partnership Project)という3GPP(Generation Partnership Project)のドキュメントのコーパスを選択します。
我々のアプローチを評価するために、専門家による質問回答のデータセットを作成します。
各セルに対応するテーブルヘッダ情報を含む行レベルの表現は,検索性能を向上し,表データに表される構造情報を活用することができる。
With the ubiquitous use of document corpora for question answering, one important aspect which is especially relevant for technical documents is the ability to extract information from tables which are interspersed with text. The major challenge in this is that unlike free-flow text or isolated set of tables, the representation of a table in terms of what is a relevant chunk is not obvious. We conduct a series of experiments examining various representations of tabular data interspersed with text to understand the relative benefits of different representations. We choose a corpus of $3^{rd}$ Generation Partnership Project (3GPP) documents since they are heavily interspersed with tables. We create expert curated dataset of question answers to evaluate our approach. We conclude that row level representations with corresponding table header information being included in every cell improves the performance of the retrieval, thus leveraging the structural information present in the tabular data. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# Representation Soft Label Smoothingによる時系列分類の改善
Improving Time Series Classification with Representation Soft Label Smoothing ( http://arxiv.org/abs/2408.17010v1 ) ライセンス: Link先を確認 | Hengyi Ma, Weitong Chen, | (参考訳) これまでの研究では、時系列分類(TSC)タスクのためのディープニューラルネットワークベースのモデルが過度に適合する傾向があることが示されている。
この問題は、ラベルのスムーズ化や自信のペナルティなど、モデルが予測に過度に自信を持つようになるのを防ぐ戦略を採用することで緩和することができる。
ラベルスムーシングの概念に基づいて,より信頼性の高いソフトラベルを生成する新しい手法を提案し,これを表現型ソフトラベルスムーディングと呼ぶ。
ラベルの平滑化, 自信のペナルティ, およびいくつかのTSCモデルにソフトラベル平滑化を応用し, その性能をハードラベルのみを用いたベースライン法と比較した。
以上の結果から,これらの拡張技術を用いることで,ベースライン法と比較して競争結果が得られることが示された。
重要なことに,本手法は様々な構造と複雑さを持つモデルに対して強い性能を示す。
Previous research has indicated that deep neural network based models for time series classification (TSC) tasks are prone to overfitting. This issue can be mitigated by employing strategies that prevent the model from becoming overly confident in its predictions, such as label smoothing and confidence penalty. Building upon the concept of label smoothing, we propose a novel approach to generate more reliable soft labels, which we refer to as representation soft label smoothing. We apply label smoothing, confidence penalty, and our method representation soft label smoothing to several TSC models and compare their performance with baseline method which only uses hard labels for training. Our results demonstrate that the use of these enhancement techniques yields competitive results compared to the baseline method. Importantly, our method demonstrates strong performance across models with varying structures and complexities. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 深部畳み込みニューラルネットの疾患分類と画像モダリティにおける異種医療画像データセットへの影響
Disease Classification and Impact of Pretrained Deep Convolution Neural Networks on Diverse Medical Imaging Datasets across Imaging Modalities ( http://arxiv.org/abs/2408.17011v1 ) ライセンス: Link先を確認 | Jutika Borah, Kumaresh Sarmah, Hidam Kumarjit Singh, | (参考訳) 胸部X線、全スライド画像、光コヒーレンス断層撮影などのイメージング技術は、それぞれ様々な医学的肺および眼疾患のスクリーニングおよび検出に役立っている。
本稿では,2進分類と多進分類の異なる多種多様な医用画像データセット間での伝達学習を伴う,事前訓練された深部畳み込みニューラルネットワークの使用の複雑さについて検討する。
我々は10のネットワークアーキテクチャとモデルファミリーを用いて総合的な性能解析を行い、それぞれ事前学習とランダム初期化を行った。
その結果,固定特徴抽出器として事前訓練したモデルを用いることで,データセットに関係なく性能が低下することが判明した。
対照的に、病理組織学のスライド画像全体の顕微鏡観察により、より良い性能が得られる。
また、より深く複雑なアーキテクチャが必ずしも最高のパフォーマンスをもたらすとは限らないことも判明した。
この観察は、ImageNetの改善が医療画像タスクと平行ではないことを示唆している。
医療領域内では、ネットワークアーキテクチャのパフォーマンスは、データセットのシフトを伴うモデルファミリによって異なる。
これは、特定のモダリティ内のモデルのパフォーマンスが、同じ領域内の別のモダリティに対して決定的でないことを示している。
本研究は, 医用画像における深層学習技術の応用についてより深く理解し, 5つの異なる実験環境下での, 異なる医用画像データセットにおける事前学習ネットワークの影響を明らかにする。
Imaging techniques such as Chest X-rays, whole slide images, and optical coherence tomography serve as the initial screening and detection for a wide variety of medical pulmonary and ophthalmic conditions respectively. This paper investigates the intricacies of using pretrained deep convolutional neural networks with transfer learning across diverse medical imaging datasets with varying modalities for binary and multiclass classification. We conducted a comprehensive performance analysis with ten network architectures and model families each with pretraining and random initialization. Our finding showed that the use of pretrained models as fixed feature extractors yields poor performance irrespective of the datasets. Contrary, histopathology microscopy whole slide images have better performance. It is also found that deeper and more complex architectures did not necessarily result in the best performance. This observation implies that the improvements in ImageNet are not parallel to the medical imaging tasks. Within a medical domain, the performance of the network architectures varies within model families with shifts in datasets. This indicates that the performance of models within a specific modality may not be conclusive for another modality within the same domain. This study provides a deeper understanding of the applications of deep learning techniques in medical imaging and highlights the impact of pretrained networks across different medical imaging datasets under five different experimental settings. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 機械学習モデルにおける誤り制御非付加的相互作用発見
Error-controlled non-additive interaction discovery in machine learning models ( http://arxiv.org/abs/2408.17016v1 ) ライセンス: Link先を確認 | Winston Chen, Yifan Jiang, William Stafford Noble, Yang Young Lu, | (参考訳) 機械学習(ML)モデルは、データ内の複雑なパターンを検出する強力なツールだが、その"ブラックボックス"の性質は解釈可能性を制限するため、医療や金融といった重要な領域での使用を妨げる。
この課題に対処するため、モデル予測にどう影響するかを説明するために、解釈可能なML手法が開発されている。
しかしながら、これらの手法は、MLモデルがキャプチャできる機能間の複雑な相互作用を見越して、一変量の特徴に重点を置いていることが多い。
この制限を認識した最近の取り組みは、これらの手法を拡張して特徴的相互作用を発見することを目的としているが、既存のアプローチは、特にデータ摂動の下で、堅牢性とエラー制御に苦慮している。
本研究では,信頼性の高い特徴相互作用発見のための新しい手法であるダイアモンドについて紹介する。
ダイヤモンドは、偽発見率(FDR)を制御するためにモデル-Xノックオフフレームワークを独自に統合し、偽発見された相互作用の割合が低いことを保証している。
さらに、これらの対策を洗練して所望のFDRを維持するキャリブレーション手順を提案することで、市販の相互作用重要度尺度を使用する際の課題に対処する。
ダイアモンドの適用性は、ディープニューラルネットワーク、ツリーベースモデル、ファクタライゼーションベースモデルなど、幅広いMLモデルにまたがる。
生体医学研究におけるシミュレーションと実データの両方に関する実証的な評価は、ダイアモンドがより信頼性の高いデータ駆動科学的な発見を可能にしたことを示すものである。
この方法は、科学的革新と仮説生成のためのMLモデルの展開において、重要な一歩である。
Machine learning (ML) models are powerful tools for detecting complex patterns within data, yet their "black box" nature limits their interpretability, hindering their use in critical domains like healthcare and finance. To address this challenge, interpretable ML methods have been developed to explain how features influence model predictions. However, these methods often focus on univariate feature importance, overlooking the complex interactions between features that ML models are capable of capturing. Recognizing this limitation, recent efforts have aimed to extend these methods to discover feature interactions, but existing approaches struggle with robustness and error control, especially under data perturbations. In this study, we introduce Diamond, a novel method for trustworthy feature interaction discovery. Diamond uniquely integrates the model-X knockoffs framework to control the false discovery rate (FDR), ensuring that the proportion of falsely discovered interactions remains low. We further address the challenges of using off-the-shelf interaction importance measures by proposing a calibration procedure that refines these measures to maintain the desired FDR. Diamond's applicability spans a wide range of ML models, including deep neural networks, tree-based models, and factorization-based models. Our empirical evaluations on both simulated and real datasets across various biomedical studies demonstrate Diamond's utility in enabling more reliable data-driven scientific discoveries. This method represents a significant step forward in the deployment of ML models for scientific innovation and hypothesis generation. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 動的自己整合性:効率的なLDMサンプリングのための推論経路の活用
Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling ( http://arxiv.org/abs/2408.17017v1 ) ライセンス: Link先を確認 | Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li, | (参考訳) 自己整合性(英: Self-Consistency, SC)とは、LLMを複数回サンプリングし、最も頻繁な解を出力することによって、大規模言語モデル(LLM)における幻覚を緩和する手法である。
その利点にもかかわらず、SCは生成されたサンプルの数に比例して計算コストがかなり高い。
早期停止自己整合性や適応整合性(Adaptive Consistency)といった従来の早期停止アプローチは、出力の整合性を考慮してこれらのコストを削減することを目的としているが、それ自身は推論経路(RP)の品質を分析していない。
この問題に対処するために,提案するRASC(Reasoning-Aware Self-Consistency)は,CoT(Chain of Thought)プロンプトからの出力応答とRPの両方を考慮することで,サンプル生成数を動的に調整する,革新的な早期停止フレームワークである。
RASCは、生成したサンプルに逐次信頼スコアを割り当て、一定の基準が満たされたときに停止し、サンプル使用を最適化し、回答信頼性を高めるために重み付けされた多数決を採用する。
RASCを様々なQAデータセットにまたがって複数のLLMで包括的にテストする。
RASCは既存の手法より優れており、サンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持・改善した。
Self-Consistency (SC) is a widely used method to mitigate hallucinations in Large Language Models (LLMs) by sampling the LLM multiple times and outputting the most frequent solution. Despite its benefits, SC results in significant computational costs proportional to the number of samples generated. Previous early-stopping approaches, such as Early Stopping Self Consistency and Adaptive Consistency, have aimed to reduce these costs by considering output consistency, but they do not analyze the quality of the reasoning paths (RPs) themselves. To address this issue, we propose Reasoning-Aware Self-Consistency (RASC), an innovative early-stopping framework that dynamically adjusts the number of sample generations by considering both the output answer and the RPs from Chain of Thought (CoT) prompting. RASC assigns confidence scores sequentially to the generated samples, stops when certain criteria are met, and then employs weighted majority voting to optimize sample usage and enhance answer reliability. We comprehensively test RASC with multiple LLMs across varied QA datasets. RASC outperformed existing methods and significantly reduces sample usage by an average of 80% while maintaining or improving accuracy up to 5% compared to the original SC | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# InkubaLM:低リソースアフリカ言語のための小さな言語モデル
InkubaLM: A small language model for low-resource African languages ( http://arxiv.org/abs/2408.17024v1 ) ライセンス: Link先を確認 | Atnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman, | (参考訳) 高いリソースの言語モデルは、しばしばアフリカの文脈では不足しており、重要なコンピューティングやデータ制約の中でさえも、効率的でアクセスしやすく、局所的に関連するモデルに重要なニーズがある。
本稿では,0.4億のパラメータを持つ小型言語モデルであるInkubaLMを紹介し,機械翻訳や質問応答,AfriMMLU,AfriXnliタスクといったタスクにおける,より大きなパラメータ数を持つモデルに匹敵する性能を実現する。
特に、InkubaLMは感情分析において多くの大きなモデルより優れており、複数の言語にまたがる顕著な一貫性を示している。
この研究は、効果的な言語モデルは実質的なリソースに依存しなければならないという従来のパラダイムに挑戦する上で、重要な進歩を示している。
私たちのモデルとデータセットは、低リソース言語の研究と開発を促進するために、公開されています。
High-resource language models often fall short in the African context, where there is a critical need for models that are efficient, accessible, and locally relevant, even amidst significant computing and data constraints. This paper introduces InkubaLM, a small language model with 0.4 billion parameters, which achieves performance comparable to models with significantly larger parameter counts and more extensive training data on tasks such as machine translation, question-answering, AfriMMLU, and the AfriXnli task. Notably, InkubaLM outperforms many larger models in sentiment analysis and demonstrates remarkable consistency across multiple languages. This work represents a pivotal advancement in challenging the conventional paradigm that effective language models must rely on substantial resources. Our model and datasets are publicly available \footnote{\url{https://huggingface.co/lelapa}} to encourage research and development on low-resource languages. | 翻訳日:2024-09-02 16:29:13 公開日:2024-08-30 |
# 最適輸送と位相多様性を有する高忠実ホログラムビーム整形
High-fidelity holographic beam shaping with optimal transport and phase diversity ( http://arxiv.org/abs/2408.17025v1 ) ライセンス: Link先を確認 | Hunter Swan, Andrii Torchylo, Michael J. Van de Graaff, Jan Rudolph, Jason M. Hogan, | (参考訳) 位相のみの空間光変調器(SLM)は、レーザービームを任意の強度パターンに整形する強力な方法を提供するが、適切なSLM位相を決定するという難しい計算問題を犠牲にしている。
ここでは、反復位相探索アルゴリズムの優れた初期化に役立ち、精度と効率のよい渦フリー解が得られるような、最適輸送法がこの問題に対して近似的な解を生成することができることを示す。
さらに,SLMにおける入力ビームの入射強度と位相を位相多様性イメージングにより測定するために,類似アルゴリズムが利用できることを示す。
これらの技術は、SLMによるビームシェイピングの計算課題に対して、柔軟で便利な解決策を提供する。
A phase-only spatial light modulator (SLM) provides a powerful way to shape laser beams into arbitrary intensity patterns, but at the cost of a hard computational problem of determining an appropriate SLM phase. Here we show that optimal transport methods can generate approximate solutions to this problem that serve as excellent initializations for iterative phase retrieval algorithms, yielding vortex-free solutions with superior accuracy and efficiency. Additionally, we show that analogous algorithms can be used to measure the intensity and phase of the input beam incident upon the SLM via phase diversity imaging. These techniques furnish flexible and convenient solutions to the computational challenges of beam shaping with an SLM. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# テキストから感情へ:LLMの感情アノテーション機能を公開する
From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs ( http://arxiv.org/abs/2408.17026v1 ) ライセンス: Link先を確認 | Minxue Niu, Mimansa Jaiswal, Emily Mower Provost, | (参考訳) 感情認識モデルのトレーニングは、多様性、品質、コストの課題を示す人間の注釈付きデータに大きく依存している。
本稿では,大規模言語モデル(LLM),特にGPT4の感情アノテーションの自動化や支援の可能性について検討する。
我々は、GPT4と教師付きモデルと、人間のアノテーションとの一致、人間の知覚の一致、モデルトレーニングへの影響の3つの側面を比較した。
GPT-4と人体評価実験により、複数のデータセットや評価器にまたがる人体に対するGPT-4アノテーションに対する一貫した嗜好が明らかとなった。
さらに,GPT-4をアノテーションフィルタリングプロセスとして用いてモデルトレーニングを改善する効果について検討した。
本研究は,感情アノテーションタスクにおけるLLMの持つ大きな可能性を明らかにするとともに,改良された評価手法の必要性を明らかにするものである。
Training emotion recognition models has relied heavily on human annotated data, which present diversity, quality, and cost challenges. In this paper, we explore the potential of Large Language Models (LLMs), specifically GPT4, in automating or assisting emotion annotation. We compare GPT4 with supervised models and or humans in three aspects: agreement with human annotations, alignment with human perception, and impact on model training. We find that common metrics that use aggregated human annotations as ground truth can underestimate the performance, of GPT-4 and our human evaluation experiment reveals a consistent preference for GPT-4 annotations over humans across multiple datasets and evaluators. Further, we investigate the impact of using GPT-4 as an annotation filtering process to improve model training. Together, our findings highlight the great potential of LLMs in emotion annotation tasks and underscore the need for refined evaluation methodologies. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# ConDense: マルチビュー画像からのDense and Sparse機能のための一貫性のある2D/3D事前トレーニング
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images ( http://arxiv.org/abs/2408.17027v1 ) ライセンス: Link先を確認 | Xiaoshuai Zhang, Zhicheng Wang, Howard Zhou, Soham Ghosh, Danushen Gnanapragasam, Varun Jampani, Hao Su, Leonidas Guibas, | (参考訳) 本稿では,既存のトレーニング済み2Dネットワークと大規模マルチビューデータセットを利用した3D事前学習のためのConDenseフレームワークを提案する。
本研究では,NRFライクな光マーチングプロセスによって2D-3D特徴の整合性を実現するために,組込み型2Dおよび3D特徴量をエンドツーエンドパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
ピクセルあたりの高密度な機能を使って、私たちは
1) 2Dモデルから3Dモデルへ学習した先行情報を直接蒸留し、有用な3Dバックボーンを作成する。
2)より一貫性がありノイズが少ない2D特徴を抽出する。
3) 連続的な埋め込み空間を定式化し、2D、3D、その他のデータ(例えば自然言語のプロンプト)を共同でクエリできる。
さらに、密集した特徴に加えて、ConDenseはスパースな特徴(例えばキーポイント)を抽出し、2D-3D整合性(3D NeRF表現を装飾されたキーポイントのコンパクトな集合に凝縮する)を訓練することができる。
我々の事前学習モデルは,3次元分類やセグメンテーションを含む様々な3次元タスクに対して優れた初期化を提供し,他の3次元事前学習手法よりも有意なマージンを達成できることを実証した。
また、スパース機能を活用することで、3Dシーンと2Dイメージのマッチング、重複した3Dシーンの検出、自然言語による3Dシーンのレポジトリのクエリといった、シーンごとの微調整が不要な、より有用なダウンストリームタスクが可能になる。
To advance the state of the art in the creation of 3D foundation models, this paper introduces the ConDense framework for 3D pre-training utilizing existing pre-trained 2D networks and large-scale multi-view datasets. We propose a novel 2D-3D joint training scheme to extract co-embedded 2D and 3D features in an end-to-end pipeline, where 2D-3D feature consistency is enforced through a volume rendering NeRF-like ray marching process. Using dense per pixel features we are able to 1) directly distill the learned priors from 2D models to 3D models and create useful 3D backbones, 2) extract more consistent and less noisy 2D features, 3) formulate a consistent embedding space where 2D, 3D, and other modalities of data (e.g., natural language prompts) can be jointly queried. Furthermore, besides dense features, ConDense can be trained to extract sparse features (e.g., key points), also with 2D-3D consistency -- condensing 3D NeRF representations into compact sets of decorated key points. We demonstrate that our pre-trained model provides good initialization for various 3D tasks including 3D classification and segmentation, outperforming other 3D pre-training methods by a significant margin. It also enables, by exploiting our sparse features, additional useful downstream tasks, such as matching 2D images to 3D scenes, detecting duplicate 3D scenes, and querying a repository of 3D scenes through natural language -- all quite efficiently and without any per-scene fine-tuning. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# Meta-UAD: ユーザレベルのネットワークトラフィック異常検出のためのメタ学習方式
Meta-UAD: A Meta-Learning Scheme for User-level Network Traffic Anomaly Detection ( http://arxiv.org/abs/2408.17031v1 ) ライセンス: Link先を確認 | Tongtong Feng, Qi Qi, Lingqi Guo, Jingyu Wang, | (参考訳) ユーザレベルのネットワークトラフィックの精度異常検出は、ネットワークセキュリティにとって不可欠である。
大規模なラベル付きトレーニングサンプルを持つ特定の異常クラスを受動的に検出する既存のモデルと比較すると、ユーザレベルのネットワークトラフィックには、ラベル付きサンプルがほとんどなく、不均衡で自己相似でデータ・ハングリーな性質を持つ、大きな新しい異常クラスが含まれている。
本稿では,ユーザレベルのネットワークトラフィック異常検出のためのメタラーニング手法である「textit{Meta-UAD}」を提案する。
Meta-UADはCICFlowMeterを使用して、81のフローレベルの統計的特徴を抽出し、累積的な重要度ランキングを使用して無効なものを取り除く。
Meta-UADはメタラーニングトレーニング構造を採用し、K-way-M-shot分類タスクのコレクションから学習する。
提案手法を2つの公開データセットで評価する。
既存のモデルと比較すると、F1スコアでのMeta-UADの利得は15{\%} - 43{\%} である。
Accuracy anomaly detection in user-level network traffic is crucial for network security. Compared with existing models that passively detect specific anomaly classes with large labeled training samples, user-level network traffic contains sizeable new anomaly classes with few labeled samples and has an imbalance, self-similar, and data-hungry nature. Motivation on those limitations, in this paper, we propose \textit{Meta-UAD}, a Meta-learning scheme for User-level network traffic Anomaly Detection. Meta-UAD uses the CICFlowMeter to extract 81 flow-level statistical features and remove some invalid ones using cumulative importance ranking. Meta-UAD adopts a meta-learning training structure and learns from the collection of K-way-M-shot classification tasks, which can use a pre-trained model to adapt any new class with few samples by few iteration steps. We evaluate our scheme on two public datasets. Compared with existing models, the results further demonstrate the superiority of Meta-UAD with 15{\%} - 43{\%} gains in F1-score. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# シュロディンガーダイナミクスを用いた量子計算におけるユニタリゲートの研究と実装
Study And Implementation of Unitary Gates in Quantum Computation Using Schrodinger Dynamics ( http://arxiv.org/abs/2408.17035v1 ) ライセンス: Link先を確認 | Kumar Gautam, | (参考訳) この論文は、原子や振動子などの物理系を電場や磁場によってゆがめる量子ゲートを実現するという概念を探求している。
基本的な考え方は、時間非依存のハミルトニアン $H_0$ が、時変ハミルトニアン $f(t)V$, where $f(t)$ が時間のスカラー関数であり、$V$ が $H_0$ に可換でないエルミート作用素であれば、時変ハミルトニアン $H_0+f(t)V$ に対応するシュロディンガー進化によってユニタリ作用素の大きなクラスが実現できるということである。
これはリー群とリー代数におけるベーカー・カンベル・ハウスドルフの公式の結果である。
まず、調和振動子を時間に依存しない非調和項で摂動させ、次に$U_g=e^{-\iota T H_1}$を演算する。
そして、調和ハミルトニアンを線形時間依存項で摂動し、時間で$H(t)$に対応するユニタリ進化を計算する。
このゲートは$U(T)=U(T,\epsilon,f)=T\{e^{-\iota\int_0^TH(t)dt}\}$と表すことができる。
アンハーモニックゲート$U_g$は、制御されたユニタリゲートや量子フーリエ変換ゲートなどの量子計算においてよく使われるゲートのホストに置き換えられる。
制御電界を適切に選択する。
この論文はまた可制御性の問題にも対処し、時間 $f(t), 0\leq t\leq T$ のスカラー実値関数が存在する条件に基づいて、$|\psi_\iota\rangle$ が任意の初期波動関数であり、$|\psi_f\rangle$ が任意の最終波関数であれば、$U(T,f)|\psi_i\rangle=|\psi_f\rangle$ が成立する。
部分解は、ユニタリ進化核をダイソン級数 truncated バージョンで置き換えることで得られる。
すべての設計手順において、現れるゲートは無限次元であり、時間の制御可能な関数によって変調される原子と電磁場の間の相互作用を持つ。
This thesis explores the concept of realizing quantum gates using physical systems like atoms and oscillators perturbed by electric and magnetic fields. The basic idea is that if a time-independent Hamiltonian $H_0$ is perturbed by a time-varying Hamiltonian of the form $f(t)V$, where $f(t)$ is a scalar function of time and $V$ is a Hermitian operator that does not commute with $H_0$, then a large class of unitary operators can be realized via the Schrodinger evolution corresponding to the time-varying Hamiltonian $H_0+f(t)V$. This is a consequence of the Baker-Campbell-Hausdorff formula in Lie groups and Lie algebras. The thesis addresses two problems based on this idea: first, taking a Harmonic oscillator and perturbing it with a time-independent anharmonic term, and then computing $U_g=e^{-\iota T H_1}$. Then, perturbing the harmonic Hamiltonian with a linear time-dependent term, and calculating the unitary evolution corresponding to $H(t)$ at time $T$. This gate can be expressed as $U(T)=U(T,\epsilon,f)=T\{e^{-\iota\int_0^TH(t)dt}\}$. The anharmonic gate $U_g$ is replaced by a host of commonly used gates in quantum computation, such as controlled unitary gates and quantum Fourier transform gates. The control electric field is selected appropriately. The thesis also addresses the controllability issue, determining under what conditions there exists a scalar real valued function of time $f(t), 0\leq t\leq T$ such that if $|\psi_\iota\rangle$ is any initial wave function and $|\psi_f\rangle$ is any final wave function, then $U(T,f)|\psi_i\rangle=|\psi_f\rangle$. A partial solution was obtained by replacing the unitary evolution kernel by its Dyson series truncated version. In all design procedures, the gates that appear are infinite-dimensional, with an interaction between the atom and the electromagnetic field modulated by a controllable function of time. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# CP-VoteNet:Few-Shot Point Cloud Object Detectionのための対照的なプロトタイプVotetNet
CP-VoteNet: Contrastive Prototypical VoteNet for Few-Shot Point Cloud Object Detection ( http://arxiv.org/abs/2408.17036v1 ) ライセンス: Link先を確認 | Xuejing Li, Weijia Zhang, Chao Ma, | (参考訳) Few-shot Point Cloud 3D Object Detection (FS3D) は、アノテーションのないアノテーション付きベースクラスや新しいクラスから学んだ知識を利用して、ポイントクラウドから新しいクラスのオブジェクトを識別し、ローカライズすることを目的としている。
これまでのところ、この挑戦的なタスクはプロトタイプ学習を使ってアプローチされてきたが、パフォーマンスは十分ではない。
既存の手法では、プロトタイプはゆるやかに制約されているだけであり、点クラウド空間に埋め込まれた意味的および幾何学的相関に関する微妙な認識が欠如していることが分かる。
これらの問題を緩和するために、意味的および幾何学的部分空間内の固有のコントラスト関係を利用して、より洗練され一般化可能な原型表現を学ぶことを提案する。
これにより,学習バッチ内に正と負のペアを構築することにより,ネットワークが識別的カテゴリの特徴を抽出することができる。
一方,局所パターンを表す点特徴は幾何学的成分にクラスタリングできるため,原始レベルでは対照的な関係を課すことも提案する。
洗練された原始幾何学的構造を通して、基本クラスから新しいクラスへの特徴符号化の伝達性が著しく向上する。
上記の設計と洞察は、我々の小説Contrastive Prototypeal VoteNet (CP-VoteNet)に繋がる。
2つのFS3Dベンチマーク FS-ScanNet と FS-SUNRGBD の広範な実験は、CP-VoteNet が現在の最先端の手法を、異なるFS3D設定でかなりの差で上回っていることを示している。
さらなるアブレーション研究は、我々の設計の合理性と有効性を裏付けるものである。
Few-shot point cloud 3D object detection (FS3D) aims to identify and localise objects of novel classes from point clouds, using knowledge learnt from annotated base classes and novel classes with very few annotations. Thus far, this challenging task has been approached using prototype learning, but the performance remains far from satisfactory. We find that in existing methods, the prototypes are only loosely constrained and lack of fine-grained awareness of the semantic and geometrical correlation embedded within the point cloud space. To mitigate these issues, we propose to leverage the inherent contrastive relationship within the semantic and geometrical subspaces to learn more refined and generalisable prototypical representations. To this end, we first introduce contrastive semantics mining, which enables the network to extract discriminative categorical features by constructing positive and negative pairs within training batches. Meanwhile, since point features representing local patterns can be clustered into geometric components, we further propose to impose contrastive relationship at the primitive level. Through refined primitive geometric structures, the transferability of feature encoding from base to novel classes is significantly enhanced. The above designs and insights lead to our novel Contrastive Prototypical VoteNet (CP-VoteNet). Extensive experiments on two FS3D benchmarks FS-ScanNet and FS-SUNRGBD demonstrate that CP-VoteNet surpasses current state-of-the-art methods by considerable margins across different FS3D settings. Further ablation studies conducted corroborate the rationale and effectiveness of our designs. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# Colaboot:クラウドベースのディスクレスPCブート機構
Colaboot: A Cloud-based Diskless PC Booting Mechanism ( http://arxiv.org/abs/2408.17045v1 ) ライセンス: Link先を確認 | Aditya Mitra, Anisha Ghosh, Sibi Chakkaravarthy Sethuraman, Devi Priya V S, | (参考訳) エンドポイントベースのセキュリティイベントや脅威の増加により、エンタープライズオペレーションは仮想デスクトップインフラストラクチャやWebベースのアプリケーションに切り替えざるを得なくなった。
潜在的なハザードを減らすことに加えて、すべてのユーザに対して一貫したデスクトップ環境が保証されている。
一方、攻撃面は、すべてのエンドポイントが企業ネットワークに接続されており、マルウェアやその他の高度な脅威を封じ込めているため、大幅に増大している。
これにより、個々のエンドポイントでシステムリソースが著しく失われます。
そのため、当社はColabootという標準を提案しています。これは、企業全体のマシンが、これらの問題に対処し、すべてのワークステーションの最新のセキュリティパッチに容易に更新可能な一貫したオペレーティングシステム環境を保証するために、単一のオペレーティングシステムからブートできるようにするものです。
Recent increases in endpoint-based security events and threats compelled enterprise operations to switch to virtual desktop infrastructure and web-based applications. In addition to reducing potential hazards, this has guaranteed a consistent desktop environment for every user. On the other hand, the attack surface is greatly increased because all endpoints are connected to the company network, which could harbor malware and other advanced persistent threats. This results in a considerable loss of system resources on each individual endpoint. Hence our work proposes a standard called Colaboot that enables machines throughout a company to boot from a single operating system in order to address these problems and guarantee a consistent operating system environment that could be easily updated to the most recent security patches across all work stations. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# エネルギーベースCLIPを用いたテキスト・画像生成
Text-to-Image Generation Via Energy-Based CLIP ( http://arxiv.org/abs/2408.17046v1 ) ライセンス: Link先を確認 | Roy Ganz, Michael Elad, | (参考訳) ジョイント・エナジー・モデル(JEM)は、重要な研究の注目を集めているが、実世界の高解像度データセットへのスケールアップには成功していない。
本稿では,JEMをCLIPを用いてマルチモーダル視覚言語ドメインに拡張する新しいアプローチであるEB-CLIPについて述べる。
生成目的として,CLIP空間におけるコサイン類似性に基づく画像テキスト共同エネルギー関数を導入し,CLIPに低エネルギーを実際の画像カプセルとそれ以外は高エネルギーに割り当てるよう訓練する。
差別的目的のために、我々は対向的対向的損失を採用し、対向的訓練目標をマルチモーダル領域に拡張する。
EB-CLIPはテキストからリアルな画像を生成するだけでなく、構成性ベンチマークの競合的な結果も得る。
さらに、CLIPベースの生成フレームワークを強化し、非条件拡散モデルをテキストベースに変換することで、EB-CLIPの優れたガイダンス能力を示す。
最後に, EB-CLIPはCLIPよりも, テキストから画像への生成作業において, より堅牢な評価基準として機能することを示す。
Joint Energy Models (JEMs), while drawing significant research attention, have not been successfully scaled to real-world, high-resolution datasets. We present EB-CLIP, a novel approach extending JEMs to the multimodal vision-language domain using CLIP, integrating both generative and discriminative objectives. For the generative objective, we introduce an image-text joint-energy function based on Cosine similarity in the CLIP space, training CLIP to assign low energy to real image-caption pairs and high energy otherwise. For the discriminative objective, we employ contrastive adversarial loss, extending the adversarial training objective to the multimodal domain. EB-CLIP not only generates realistic images from text but also achieves competitive results on the compositionality benchmark, outperforming leading methods with fewer parameters. Additionally, we demonstrate the superior guidance capability of EB-CLIP by enhancing CLIP-based generative frameworks and converting unconditional diffusion models to text-based ones. Lastly, we show that EB-CLIP can serve as a more robust evaluation metric for text-to-image generative tasks than CLIP. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# 急速断熱流を用いたマルチビット絡み合い状態の効率的な生成
Efficient generation of multiqubit entanglement states using rapid adiabatic passage ( http://arxiv.org/abs/2408.17048v1 ) ライセンス: Link先を確認 | Shijie Xu, Xinwei Li, Xiangliang Li, Jinbin Li, Ming Xue, | (参考訳) 本稿では,Rydberg atom-array システムにおける絡み合いを生成するための高速断熱路 (RAP) 方式を提案する。
この方法は、多ビット系における積状態を、高い忠実性と堅牢性を有する絡み合った状態に変換する。
大域的および連続的な駆動レーザー場を用いることで、リドベルク封鎖状態内の逐次RAPパルスを介して、2量子ベル状態と3量子W状態を生成することを実証する。
この手法をアルカリ原子に適用した例では、2キュービットのベルと3キュービットのW状態に対して0.9995を超える忠実度と優れた強靭さを予測できる。
さらに, 弱結合原子間の絡み合いを発生させ, 空間的相関を通じて4ビットグリーンバーガー-ホーン-ゼリンガー状態を生成することが可能である。
提案手法は,中性原子系における高忠実な絡み合った状態を生成するための簡便かつ効率的な方法として,より大きな原子配列への拡張の可能性を持っている。
We propose the implementation of a rapid adiabatic passage (RAP) scheme to generate entanglement in Rydberg atom-array systems. This method transforms a product state in a multi-qubit system into an entangled state with high fidelity and robustness. By employing global and continuous driving laser fields, we demonstrate the generation of two-qubit Bell state and three-qubit W state, via sequential RAP pulses within the Rydberg blockade regime. As an illustrative example, applying this technique to alkali atoms, we predict fidelities exceeding 0.9995 for two-qubit Bell and three-qubit W state, along with excellent robustness. Furthermore, our scheme can be extended to generate entanglement between weakly coupled atoms and to create four-qubit Greenberger- Horne-Zeilinger states through spatial correlations. Our approach holds the potential for extension to larger atomic arrays, offering a straightforward and efficient method to generate high-fidelity entangled states in neutral atom systems. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# SPOQchain: セキュアでスケーラブルでプライバシ保護のプライチェーントレースと偽造防止のためのプラットフォーム
SPOQchain: Platform for Secure, Scalable, and Privacy-Preserving Supply Chain Tracing and Counterfeit Protection ( http://arxiv.org/abs/2408.17049v1 ) ライセンス: Link先を確認 | Moritz Finke, Alexandra Dmitrienko, Jasper Stang, | (参考訳) 製品ライフサイクルの追跡は、デジタル製品パスのイニシアチブで示されているように、規制当局と生産者の焦点となっている。
同様に、Physical Unclonable Function (PUF) に基づく偽造検出の新しい手法が開発されている。
プロダクトライフサイクルデータの信頼性と整合性を保証するため、ブロックチェーン技術上には、既存のサプライチェーントレースシステムがいくつも構築されている。
しかし、PUFのようなセキュアな識別子を使用するソリューションはごくわずかである。
さらに、個々の製品のデータを部分的に完全に透過的に公開する既存のシステムは、スケーラビリティとユーザのプライバシに有害な影響を与える。
この研究は、高度な効率性とユーザのプライバシを確保しつつ、包括的なライフサイクルトレーサビリティと独創性検証を提供する、ブロックチェーンベースの新しいプラットフォームであるSPOQchainを提案する。
改善された効率は、ライフサイクルの冗長性を取り除く洗練されたバッチ機構によって達成される。
SPOQchainのスケーラビリティの評価の成功に加えて、この研究はプライバシとセキュリティの側面を包括的に分析し、サプライチェーントレースの将来に対するSPOQchainの必要性と資格を実証する。
Product lifecycle tracing is increasingly in the focus of regulators and producers, as shown with the initiative of the Digital Product Pass. Likewise, new methods of counterfeit detection are developed that are, e.g., based on Physical Unclonable Functions (PUFs). In order to ensure trust and integrity of product lifecycle data, multiple existing supply chain tracing systems are built on blockchain technology. However, only few solutions employ secure identifiers such as PUFs. Furthermore, existing systems that publish the data of individual products, in part fully transparently, have a detrimental impact on scalability and the privacy of users. This work proposes SPOQchain, a novel blockchain-based platform that provides comprehensive lifecycle traceability and originality verification while ensuring high efficiency and user privacy. The improved efficiency is achieved by a sophisticated batching mechanism that removes lifecycle redundancies. In addition to the successful evaluation of SPOQchain's scalability, this work provides a comprehensive analysis of privacy and security aspects, demonstrating the need and qualification of SPOQchain for the future of supply chain tracing. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# レイリーファディングによる安全な統合センシングと通信
Secure Integrated Sensing and Communication Under Correlated Rayleigh Fading ( http://arxiv.org/abs/2408.17050v1 ) ライセンス: Link先を確認 | Martin Mittelbach, Rafael F. Schaefer, Matthieu Bloch, Aylin Yener, Onur Günlü, | (参考訳) 本稿では,送信側が通信する1つの正統な受信機と,送信側が認識したい1つの正直な目標を備えた状態依存型通信路を通じて信号が送信される,セキュアな統合型センシング通信(ISAC)シナリオについて考察する。
セキュアなISACチャネルは、レイリーフェーディング係数と独立付加型ガウス雑音成分の相関を持つ2つの状態依存型高速フェーディングチャネルとしてモデル化される。
遅延したチャネル出力を送信者にフィードバックし、通信性能を改善し、チャネル状態シーケンスを推定する。
レイリー・フェーディング(Rayleigh fading)の下で, 劣化したセキュアなISACチャネルに対して, 達成可能な秘密のゆがみ領域を確立し, 説明する。
また,ISAC法に対する実用的な設計思想を導出するために,パラメータの集合の内部境界についても検討した。
提案した結果は、古典的な盗聴チャンネルの設定の秘密容量を超過し、チャンネル容量に近づくパラメータ範囲を含む。
We consider a secure integrated sensing and communication (ISAC) scenario, in which a signal is transmitted through a state-dependent wiretap channel with one legitimate receiver with which the transmitter communicates and one honest-but-curious target that the transmitter wants to sense. The secure ISAC channel is modeled as two state-dependent fast-fading channels with correlated Rayleigh fading coefficients and independent additive Gaussian noise components. Delayed channel outputs are fed back to the transmitter to improve the communication performance and to estimate the channel state sequence. We establish and illustrate an achievable secrecy-distortion region for degraded secure ISAC channels under correlated Rayleigh fading. We also evaluate the inner bound for a large set of parameters to derive practical design insights for secure ISAC methods. The presented results include in particular parameter ranges for which the secrecy capacity of a classical wiretap channel setup is surpassed and for which the channel capacity is approached. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# ディープフェイク検出装置の裏側にあるディープフェイクデータを残せるか?
Can We Leave Deepfake Data Behind in Training Deepfake Detector? ( http://arxiv.org/abs/2408.17052v1 ) ライセンス: Link先を確認 | Jikang Cheng, Zhiyuan Yan, Ying Zhang, Yuhao Luo, Zhongyuan Wang, Chen Li, | (参考訳) ディープフェイク検出器の一般化能力は、実世界のシナリオにおけるそれらの応用に不可欠である。
この能力を強化する効果的な解決策の1つは、モデルを手動でブレンドフェイク(blendfake)と呼び、ブレンドバウンダリのような一般的な偽造品を学ぶことを奨励する手動のデータをトレーニングすることである。
興味深いことに、現在のSoTAメソッドは、トレーニングプロセスにディープフェイクデータを組み込むことなく、ブレンドフェイクを利用する。
これは, 深度とブレンドフェイクデータを組み合わせたバニラハイブリッドトレーニング (VHT) が, ブレンドフェイクデータのみを用いた手法 (いわゆる「1+1<2」) と比較すると, 性能が劣ると考えられるためと考えられる。
したがって、重要な疑問が生じる: ディープフェイクを置き去りにして、ブレンドフェイクデータに頼って効果的なディープフェイク検出器を訓練できるか?
直感的には、ディープフェイクには、ディープフェイク検出装置の訓練におけるすべてのディープフェイクデータを除いて、付加的な情報的偽造の手がかり(例えば、ディープフェイク生成アーティファクト)も含まれている。
本稿では,ブレンドフェイクの深部フェイク検出における役割を再考し,その過程を「リアルからブレンドフェイクから深部フェイクへ」から段階的な遷移へと定式化する。
具体的には、ブレンドフェイクとディープフェイクは「リアル・ツー・フェイク」遷移の間の方向のピボット・アンカーとして明確に定義することができる。
偽情報の蓄積は、この移行プロセスの間、方向付けされ、徐々に増加するはずである。
そこで本稿では,アンカーの分布を個別に配置する制約を確立するために,OPR(Oriented Progressive Regularizor)を提案する。
さらに,隣接するアンカー間のスムーズな遷移を容易にする機能ブリッジを導入する。
大規模な実験により、我々の設計はブレンドフェイクとディープフェイクの両方から偽情報を活用することができることが確認された。
The generalization ability of deepfake detectors is vital for their applications in real-world scenarios. One effective solution to enhance this ability is to train the models with manually-blended data, which we termed "blendfake", encouraging models to learn generic forgery artifacts like blending boundary. Interestingly, current SoTA methods utilize blendfake without incorporating any deepfake data in their training process. This is likely because previous empirical observations suggest that vanilla hybrid training (VHT), which combines deepfake and blendfake data, results in inferior performance to methods using only blendfake data (so-called "1+1<2"). Therefore, a critical question arises: Can we leave deepfake behind and rely solely on blendfake data to train an effective deepfake detector? Intuitively, as deepfakes also contain additional informative forgery clues (e.g., deep generative artifacts), excluding all deepfake data in training deepfake detectors seems counter-intuitive. In this paper, we rethink the role of blendfake in detecting deepfakes and formulate the process from "real to blendfake to deepfake" to be a progressive transition. Specifically, blendfake and deepfake can be explicitly delineated as the oriented pivot anchors between "real-to-fake" transitions. The accumulation of forgery information should be oriented and progressively increasing during this transition process. To this end, we propose an Oriented Progressive Regularizor (OPR) to establish the constraints that compel the distribution of anchors to be discretely arranged. Furthermore, we introduce feature bridging to facilitate the smooth transition between adjacent anchors. Extensive experiments confirm that our design allows leveraging forgery information from both blendfake and deepfake effectively and comprehensively. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# 十分表現学習による条件平均処理効果の推定
Estimating Conditional Average Treatment Effects via Sufficient Representation Learning ( http://arxiv.org/abs/2408.17053v1 ) ライセンス: Link先を確認 | Pengfei Shi, Wei Zhong, Xinyu Zhang, Ningtao Wang, Xing Fu, Weiqiang Wang, Yin Jin, | (参考訳) 条件平均治療効果(CATE)の推定は因果推論において非常に重要であり,様々な分野に適用できる。
CATEの推定プロセスでは、回帰問題の識別可能性を保証するために、非定性仮定が要求されるのが一般的である。
高次元データを用いてCATEを推定する場合、表現学習に基づく変数選択法やニューラルネットワークアプローチが数多く存在するが、これらの手法は、次元減少後の変数のサブセットや学習された表現が推定過程における未確定性の仮定をまだ満たしているかどうかを検証する手段を提供していないため、治療効果の非効率な推定に繋がる可能性がある。
さらに、これらの手法は、通常、各グループに対する回帰関数を推定する際に、処理または制御グループのみのデータを使用する。
本稿では,これらの特徴の十分な表現を学習するために,textbf{CrossNet} という新しいニューラルネットワークアプローチを提案する。
数値シミュレーションと実験により,本手法が競合手法より優れていることを示す。
Estimating the conditional average treatment effects (CATE) is very important in causal inference and has a wide range of applications across many fields. In the estimation process of CATE, the unconfoundedness assumption is typically required to ensure the identifiability of the regression problems. When estimating CATE using high-dimensional data, there have been many variable selection methods and neural network approaches based on representation learning, while these methods do not provide a way to verify whether the subset of variables after dimensionality reduction or the learned representations still satisfy the unconfoundedness assumption during the estimation process, which can lead to ineffective estimates of the treatment effects. Additionally, these methods typically use data from only the treatment or control group when estimating the regression functions for each group. This paper proposes a novel neural network approach named \textbf{CrossNet} to learn a sufficient representation for the features, based on which we then estimate the CATE, where cross indicates that in estimating the regression functions, we used data from their own group as well as cross-utilized data from another group. Numerical simulations and empirical results demonstrate that our method outperforms the competitive approaches. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# BTMuda:乳がん診断のための双方向マルチソース非教師付きドメイン適応フレームワーク
BTMuda: A Bi-level Multi-source unsupervised domain adaptation framework for breast cancer diagnosis ( http://arxiv.org/abs/2408.17054v1 ) ライセンス: Link先を確認 | Yuxiang Yang, Xinyi Zeng, Pinxian Zeng, Binyu Yan, Xi Wu, Jiliu Zhou, Yan Wang, | (参考訳) 深層学習は乳がんの早期発見に革命をもたらし、死亡率を大幅に低下させた。
しかし, アノテーション取得の困難さや, トレーニングセットと実シーン間の分布が大きく, 臨床応用が制限されている。
これらの制限に対処するために、ラベル付きソースドメインからラベル付きターゲットドメインに知識を伝達するために、教師なしドメイン適応(UDA)メソッドが使われてきたが、これらのアプローチは深刻なドメインシフトの問題に悩まされ、実用アプリケーションで複数の関連するソースを活用するという潜在的な利点を無視することが多い。
これらの制約に対処するため,本研究では,乳がん診断のための3分岐混合抽出器を構築し,BTMudaと呼ばれる2レベルマルチソース非教師付きドメイン適応法を提案する。
ドメインシフト問題をドメイン内とドメイン間という2つのレベルに分割することで、ドメインシフトの問題に対処する。
ドメイン内シフトを低減するため、ドメイン混合特徴抽出器の2つの経路としてCNNとTransformerを共同で訓練し、低レベル局所情報と高レベルグローバル情報の両方に富んだ堅牢な表現を得る。
ドメイン間のシフトに関しては、Transformerを、複数のドメインからドメイン不変表現を学習するクロスアテンションと蒸留を備えた3分岐アーキテクチャに微妙に再設計する。
さらに、アライメントプロセスを改善するために、2つのアライメントモジュール(機能アライメント用と分類器アライメント用)を導入します。
3つのパブリックマンモグラフィーデータセットで実施された大規模な実験により、我々のBTMudaは最先端の手法より優れていることが示された。
Deep learning has revolutionized the early detection of breast cancer, resulting in a significant decrease in mortality rates. However, difficulties in obtaining annotations and huge variations in distribution between training sets and real scenes have limited their clinical applications. To address these limitations, unsupervised domain adaptation (UDA) methods have been used to transfer knowledge from one labeled source domain to the unlabeled target domain, yet these approaches suffer from severe domain shift issues and often ignore the potential benefits of leveraging multiple relevant sources in practical applications. To address these limitations, in this work, we construct a Three-Branch Mixed extractor and propose a Bi-level Multi-source unsupervised domain adaptation method called BTMuda for breast cancer diagnosis. Our method addresses the problems of domain shift by dividing domain shift issues into two levels: intra-domain and inter-domain. To reduce the intra-domain shift, we jointly train a CNN and a Transformer as two paths of a domain mixed feature extractor to obtain robust representations rich in both low-level local and high-level global information. As for the inter-domain shift, we redesign the Transformer delicately to a three-branch architecture with cross-attention and distillation, which learns domain-invariant representations from multiple domains. Besides, we introduce two alignment modules - one for feature alignment and one for classifier alignment - to improve the alignment process. Extensive experiments conducted on three public mammographic datasets demonstrate that our BTMuda outperforms state-of-the-art methods. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# LAR-IQA:軽量・高精度・ロバストな非参照画像品質評価モデル
LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model ( http://arxiv.org/abs/2408.17057v1 ) ライセンス: Link先を確認 | Nasim Jamshidi Avanaki, Abhijay Ghildiyal, Nabajeet Barman, Saman Zadtootaghaj, | (参考訳) ディープラーニング技術を用いたNo-Reference Image Quality Assessment(NR-IQA)の分野での最近の進歩は、複数のオープンソースデータセット間で高いパフォーマンスを示す。
しかし、そのようなモデルは一般的に非常に大きく、複雑であるため、特にリソースやバッテリーに制約のあるモバイルデバイスにおいて、現実のデプロイメントには適さない。
この制限に対処するために,高速SOTAモデルよりも5.7倍近い速度で,ECCV AIM UHD-IQAチャレンジ検証およびテストデータセット上での最先端(SOTA)性能を実現する,コンパクトで軽量なNR-IQAモデルを提案する。
本モデルでは両分岐アーキテクチャを特徴とし,各分岐を合成的および音響的に歪んだ画像に別々に訓練することにより,歪みの異なるモデルの一般化性を向上する。
実世界の多様な視覚条件下でのロバスト性を改善するため、トレーニングプロセス中に複数の色空間を組み込む。
また,最近提案されたKAN(Kolmogorov-Arnold Networks)の,従来のMLP(Multi-Layer Perceptrons)と比較して,最終的な品質劣化に対する高い精度を示す。
各種オープンソースデータセットを考慮した評価では,提案した軽量モデルの実用的,高精度,堅牢な性能を強調した。
コード:https://github.com/nasimjamshidi/LAR-IQA。
Recent advancements in the field of No-Reference Image Quality Assessment (NR-IQA) using deep learning techniques demonstrate high performance across multiple open-source datasets. However, such models are typically very large and complex making them not so suitable for real-world deployment, especially on resource- and battery-constrained mobile devices. To address this limitation, we propose a compact, lightweight NR-IQA model that achieves state-of-the-art (SOTA) performance on ECCV AIM UHD-IQA challenge validation and test datasets while being also nearly 5.7 times faster than the fastest SOTA model. Our model features a dual-branch architecture, with each branch separately trained on synthetically and authentically distorted images which enhances the model's generalizability across different distortion types. To improve robustness under diverse real-world visual conditions, we additionally incorporate multiple color spaces during the training process. We also demonstrate the higher accuracy of recently proposed Kolmogorov-Arnold Networks (KANs) for final quality regression as compared to the conventional Multi-Layer Perceptrons (MLPs). Our evaluation considering various open-source datasets highlights the practical, high-accuracy, and robust performance of our proposed lightweight model. Code: https://github.com/nasimjamshidi/LAR-IQA. | 翻訳日:2024-09-02 16:19:14 公開日:2024-08-30 |
# 視覚変換器の自己監督学習メカニズムの検討
A Survey of the Self Supervised Learning Mechanisms for Vision Transformers ( http://arxiv.org/abs/2408.17059v1 ) ライセンス: Link先を確認 | Asifullah Khan, Anabia Sohail, Mustansar Fiaz, Mehdi Hassan, Tariq Habib Afridi, Sibghat Ullah Marwat, Farzeen Munir, Safdar Ali, Hannan Naseem, Muhammad Zaigham Zaheer, Kamran Ali, Tangina Sultana, Ziaurrehman Tanoli, Naeem Akhter, | (参考訳) 深い教師付き学習モデルは十分な良い結果を得るためにラベル付きデータの量を必要とする。
しかし、このようなビッグデータの収集と注釈付けの慣行は、費用も労力もかかる。
近年,視覚タスクにおける自己教師あり学習(SSL)の適用が注目されている。
SSLの背後にある直感は、データ内の同期関係を、汎用性のあるセルフスーパービジョンの形式として利用することである。
現在のビッグデータ時代では、ほとんどのデータがラベル付けされていないため、SSLの成功は、この膨大な量のラベル付けされていないデータを改善する方法を見つけることに依存している。
したがって、深層学習アルゴリズムは、人間の監督への依存を減らし、データ内の固有の関係に基づいて自己監督に焦点を当てる方がよい。
コンピュータビジョンにおいて顕著な成果を上げたViTの出現により、ラベルデータが少ないシナリオにおいて、これらのモデルのトレーニングに使用されるさまざまなSSLメカニズムを探求し、理解することが不可欠である。
そこで本研究では,SSL手法を体系的に分類する包括的分類法を開発し,その表現と事前学習タスクを適用した。
さらに、SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
さらに,異なるSSL手法の比較分析を行い,その強度と限界を評価し,今後の研究の道筋を明らかにする。
Deep supervised learning models require high volume of labeled data to attain sufficiently good results. Although, the practice of gathering and annotating such big data is costly and laborious. Recently, the application of self supervised learning (SSL) in vision tasks has gained significant attention. The intuition behind SSL is to exploit the synchronous relationships within the data as a form of self-supervision, which can be versatile. In the current big data era, most of the data is unlabeled, and the success of SSL thus relies in finding ways to improve this vast amount of unlabeled data available. Thus its better for deep learning algorithms to reduce reliance on human supervision and instead focus on self-supervision based on the inherent relationships within the data. With the advent of ViTs, which have achieved remarkable results in computer vision, it is crucial to explore and understand the various SSL mechanisms employed for training these models specifically in scenarios where there is less label data available. In this survey we thus develop a comprehensive taxonomy of systematically classifying the SSL techniques based upon their representations and pre-training tasks being applied. Additionally, we discuss the motivations behind SSL, review popular pre-training tasks, and highlight the challenges and advancements in this field. Furthermore, we present a comparative analysis of different SSL methods, evaluate their strengths and limitations, and identify potential avenues for future research. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# 低域適応と安定拡散XLによる効率的な画像復元
Efficient Image Restoration through Low-Rank Adaptation and Stable Diffusion XL ( http://arxiv.org/abs/2408.17060v1 ) ライセンス: Link先を確認 | Haiyang Zhao, | (参考訳) 本研究では,2つのローランク適応 (LoRA) モジュールとSDXL (Stable Diffusion XL) フレームワークを統合した画像復元モデル SUPIR を提案する。
本手法は, SDXLモデルにLoRAの利点を生かし, 画像復元の精度と効率を大幅に向上させる。
2600枚の高品質な実世界の画像を収集し、それぞれに詳細な記述文を添付し、モデルを訓練する。
提案手法は標準ベンチマークで評価され,高ピーク信号-雑音比 (PSNR) ,低学習知覚画像パッチ類似度 (LPIPS) ,高構造類似度指数測定 (SSIM) スコアにより,優れた性能を示す。
これらの結果は,高度な画像復元作業におけるLoRAとSDXLの併用の有効性を裏付けるものであり,高忠実性復元画像の生成におけるアプローチの可能性を強調している。
In this study, we propose an enhanced image restoration model, SUPIR, based on the integration of two low-rank adaptive (LoRA) modules with the Stable Diffusion XL (SDXL) framework. Our method leverages the advantages of LoRA to fine-tune SDXL models, thereby significantly improving image restoration quality and efficiency. We collect 2600 high-quality real-world images, each with detailed descriptive text, for training the model. The proposed method is evaluated on standard benchmarks and achieves excellent performance, demonstrated by higher peak signal-to-noise ratio (PSNR), lower learned perceptual image patch similarity (LPIPS), and higher structural similarity index measurement (SSIM) scores. These results underscore the effectiveness of combining LoRA with SDXL for advanced image restoration tasks, highlighting the potential of our approach in generating high-fidelity restored images. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# Vote&Mix:高能率ビジョン変換器のプラグアンドプレイトークン削減
Vote&Mix: Plug-and-Play Token Reduction for Efficient Vision Transformer ( http://arxiv.org/abs/2408.17062v1 ) ライセンス: Link先を確認 | Shuai Peng, Di Fu, Baole Wei, Yong Cao, Liangcai Gao, Zhi Tang, | (参考訳) ヴィジュアルトランスフォーマー(ViT)は様々な視覚的タスクで顕著に成功したが、しばしばかなりの計算コストによって妨げられる。
本稿では,Vote\&Mix (\textbf{VoMix}) を導入し,Vote\&Mix (Votextbf{VoMix}) は,既製のViTモデルに容易に適用可能な,プラグアンドプレイおよびパラメータフリーなトークン削減手法である。
VoMixは、層単位でのトークン類似性投票機構を通じて、高い均一性を持つトークンを識別することで、ViTの計算冗長性に取り組む。
その後、選択されたトークンを保持セットに混合し、視覚情報を保存する。
実験では、VoMixは画像とビデオの両方でViTの速度精度のトレードオフを大幅に改善することを示した。
トレーニングなしでは、ImageNet-1K上の既存のViT-Hのスループットが2$\times$上昇し、Kinetics-400ビデオデータセット上の既存のViT-Lのスループットが2.4$\times$上昇し、トップ1の精度が0.3%低下する。
Despite the remarkable success of Vision Transformers (ViTs) in various visual tasks, they are often hindered by substantial computational cost. In this work, we introduce Vote\&Mix (\textbf{VoMix}), a plug-and-play and parameter-free token reduction method, which can be readily applied to off-the-shelf ViT models \textit{without any training}. VoMix tackles the computational redundancy of ViTs by identifying tokens with high homogeneity through a layer-wise token similarity voting mechanism. Subsequently, the selected tokens are mixed into the retained set, thereby preserving visual information. Experiments demonstrate VoMix significantly improves the speed-accuracy tradeoff of ViTs on both images and videos. Without any training, VoMix achieves a 2$\times$ increase in throughput of existing ViT-H on ImageNet-1K and a 2.4$\times$ increase in throughput of existing ViT-L on Kinetics-400 video dataset, with a mere 0.3\% drop in top-1 accuracy. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# SIMD対応同型圧縮とPrivate Database Queryへの応用
SIMD-Aware Homomorphic Compression and Application to Private Database Query ( http://arxiv.org/abs/2408.17063v1 ) ライセンス: Link先を確認 | Jung Hee Cheon, Keewoo Lee, Jai Hyun Park, Yongdong Yeo, | (参考訳) プライベートデータベースクエリスキーム(PDQ)では、サーバがデータベースを保持し、ユーザはクエリを送信して、クエリをプライベートにしながら、サーバから関心のあるレコードを検索する。
PDQプロトコルにおけるホモモルフィック暗号化の重要なステップは、クエリ結果からなる暗号化スパースベクトルを圧縮するホモモルフィック圧縮である。
本研究では,PDQを主用途とする新しい同型圧縮方式を提案する。
既存のアプローチとは異なり、我々の計画
(i)は、同型SIMD技術を完全に活用し、効率的に実装することができる。
(II)漸近的に最適な圧縮速度と漸近的に良い減圧複雑性の両方を享受する。
実験結果から,本手法は従来よりも4.7倍から33.2倍高速であることがわかった。
In a private database query scheme (PDQ), a server maintains a database, and users send queries to retrieve records of interest from the server while keeping their queries private. A crucial step in PDQ protocols based on homomorphic encryption is homomorphic compression, which compresses encrypted sparse vectors consisting of query results. In this work, we propose a new homomorphic compression scheme with PDQ as its main application. Unlike existing approaches, our scheme (i) can be efficiently implemented by fully exploiting homomorphic SIMD technique and (ii) enjoys both asymptotically optimal compression rate and asymptotically good decompression complexity. Experimental results show that our approach is 4.7x to 33.2x faster than the previous best results. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳
Instant Adversarial Purification with Adversarial Consistency Distillation ( http://arxiv.org/abs/2408.17064v1 ) ライセンス: Link先を確認 | Chun Tong Lei, Hon Ming Yam, Zhongliang Guo, Chun Pong Lau, | (参考訳) ニューラルネットワークは、画像分類を含む広範囲の応用において顕著な性能にもかかわらず、微妙な対向ノイズに弱いことも知られている。
DiffPureのような拡散法に基づく浄化法が提案されているが、これらは時間を要する。
本稿では,拡散モデルにおける1つのニューラルファンクション評価(NFE)における逆画像の浄化が可能な拡散に基づく浄化モデルである1ステップ制御精製(OSCP)を提案する。
一段階の浄化にはLCM(Latent Consistency Model)とControlNetを使用します。
OSCPは,他の拡散型浄化法に比べて計算に親しみやすく,かつ時間効率がよい。
さらに, 恒常蒸留と対向摂動の間には, 基本的矛盾がある。
この存在論的不協和性に対処するため, 自然および逆多様体を効果的にブリッジし, 潜伏空間のより微妙な調整を容易にする新しい一貫した蒸留フレームワークであるガウス逆雑音蒸留(GAND)を提案する。
実験の結果, GAND はフルファインチューン (FFT) を必要とせず, PEFT, eg, LoRA が十分であることがわかった。
Neural networks, despite their remarkable performance in widespread applications, including image classification, are also known to be vulnerable to subtle adversarial noise. Although some diffusion-based purification methods have been proposed, for example, DiffPure, those methods are time-consuming. In this paper, we propose One Step Control Purification (OSCP), a diffusion-based purification model that can purify the adversarial image in one Neural Function Evaluation (NFE) in diffusion models. We use Latent Consistency Model (LCM) and ControlNet for our one-step purification. OSCP is computationally friendly and time efficient compared to other diffusion-based purification methods; we achieve defense success rate of 74.19\% on ImageNet, only requiring 0.1s for each purification. Moreover, there is a fundamental incongruence between consistency distillation and adversarial perturbation. To address this ontological dissonance, we propose Gaussian Adversarial Noise Distillation (GAND), a novel consistency distillation framework that facilitates a more nuanced reconciliation of the latent space dynamics, effectively bridging the natural and adversarial manifolds. Our experiments show that the GAND does not need a Full Fine Tune (FFT); PEFT, e.g., LoRA is sufficient. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# プラグイン・アンド・プレイによるディープフェイク映像検出の一般化:ビデオレベルブレンディングと時空間アダプタ調整
Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning ( http://arxiv.org/abs/2408.17065v1 ) ライセンス: Link先を確認 | Zhiyuan Yan, Yandan Zhao, Shen Chen, Xinghe Fu, Taiping Yao, Shouhong Ding, Li Yuan, | (参考訳) 1) 時間的特徴は複雑で多様なものになり得る: モデル一般化を強化するためにどのように一般的な時間的アーティファクトを特定できるか?
2)時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。
(3)動画は自然に資源集約的であり, 精度を損なうことなく, どうすれば効率に対処できるのか?
本稿では,3つの課題を共同で解決しようと試みる。
まず、画像偽造検出に画像レベルのブレンディングデータを使用することの顕著な一般化に着想を得て、ビデオレベルのブレンディングがビデオに有効であるかどうかを調査する。
そこで我々は,これまで未発見の時間的偽造品である顔面特徴ドリフト(FFD)を網羅的に分析し,同定した。
FFD を再生するために,VB はオリジナル画像とワープされたバージョンをフレーム単位でブレンドして実装され,より一般的なアーティファクトをマイニングするためのハードネガティブなサンプルとして機能するビデオレベルブレンディングデータ (VB) を提案する。
第2に、空間的特徴と時間的特徴を同時かつ効率的に捉える能力を備えた事前訓練画像モデル(ViTとCNNの両方)を装備するための軽量時空間適応器(StA)を慎重に設計する。
StAはカーネルサイズが異なる2ストリームの3D-Convで設計されており、空間的特徴と時間的特徴を別々に処理できる。
提案手法の有効性を検証し,2024年にリリースされたばかりのSOTAでさえも,これまで見つからなかった偽ビデオに対して,我々のアプローチをうまく一般化できることを示す。
コードと事前トレーニングされたウェイトは、 \url{https://github.com/YZY-stack/StA4Deepfake} でリリースしています。
Three key challenges hinder the development of current deepfake video detection: (1) Temporal features can be complex and diverse: how can we identify general temporal artifacts to enhance model generalization? (2) Spatiotemporal models often lean heavily on one type of artifact and ignore the other: how can we ensure balanced learning from both? (3) Videos are naturally resource-intensive: how can we tackle efficiency without compromising accuracy? This paper attempts to tackle the three challenges jointly. First, inspired by the notable generality of using image-level blending data for image forgery detection, we investigate whether and how video-level blending can be effective in video. We then perform a thorough analysis and identify a previously underexplored temporal forgery artifact: Facial Feature Drift (FFD), which commonly exists across different forgeries. To reproduce FFD, we then propose a novel Video-level Blending data (VB), where VB is implemented by blending the original image and its warped version frame-by-frame, serving as a hard negative sample to mine more general artifacts. Second, we carefully design a lightweight Spatiotemporal Adapter (StA) to equip a pretrained image model (both ViTs and CNNs) with the ability to capture both spatial and temporal features jointly and efficiently. StA is designed with two-stream 3D-Conv with varying kernel sizes, allowing it to process spatial and temporal features separately. Extensive experiments validate the effectiveness of the proposed methods; and show our approach can generalize well to previously unseen forgery videos, even the just-released (in 2024) SoTAs. We release our code and pretrained weights at \url{https://github.com/YZY-stack/StA4Deepfake}. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# novel-WD: Prefix-Tuning を用いた LLM における新しい世界知識の獲得を探る
Novel-WD: Exploring acquisition of Novel World Knowledge in LLMs Using Prefix-Tuning ( http://arxiv.org/abs/2408.17070v1 ) ライセンス: Link先を確認 | Maxime Méloux, Christophe Cerisara, | (参考訳) 事前訓練された大規模言語モデル(PLM)に新しい情報を教えることは、決定的だが難しい課題である。
微調整やパラメータ効率のトレーニングのようなモデル適応技術は、新しい事実を遅い速度で保存することを示した。
この研究は、PLMが事前学習されたコーパスで発生しない新しい世界知識事実を学習し、記憶する方法について研究し、定量化する。
そこで我々はまず,近年のウィキデータ更新から抽出された新しい事実を含む文と,因果的言語モデリングと複数選択質問(MCQ)という2つの評価課題からなる新しいデータセットであるNove-WDを提案する。
このデータセットをコミュニティに無償で提供し、その後、最新情報を備えた類似データセットの新バージョンを構築する手順をリリースします。
また、新しい情報学習におけるプレフィックスチューニングの利用について検討し、与えられたプレフィックスにどれだけの情報を保存することができるか分析する。
1つの事実を1つのプレフィックス内に確実にエンコードすることができ、プレフィックス容量はその長さとベースモデルサイズによって増加することを示す。
Teaching new information to pre-trained large language models (PLM) is a crucial but challenging task. Model adaptation techniques, such as fine-tuning and parameter-efficient training have been shown to store new facts at a slow rate; continual learning is an option but is costly and prone to catastrophic forgetting. This work studies and quantifies how PLM may learn and remember new world knowledge facts that do not occur in their pre-training corpus, which only contains world knowledge up to a certain date. To that purpose, we first propose Novel-WD, a new dataset consisting of sentences containing novel facts extracted from recent Wikidata updates, along with two evaluation tasks in the form of causal language modeling and multiple choice questions (MCQ). We make this dataset freely available to the community, and release a procedure to later build new versions of similar datasets with up-to-date information. We also explore the use of prefix-tuning for novel information learning, and analyze how much information can be stored within a given prefix. We show that a single fact can reliably be encoded within a single prefix, and that the prefix capacity increases with its length and with the base model size. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# MaFeRw: 検索可能な大規模言語モデルのためのマルチアスペクトフィードバックによるクエリ書き換え
MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2408.17072v1 ) ライセンス: Link先を確認 | Yujing Wang, Hainan Zhang, Liang Pang, Liang Pang, Hongwei Zheng, Zhiming Zheng, | (参考訳) 現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声エリプやあいまいな参照を伴い、ユーザーの情報要求をより正確に記述するためにクエリ書き換えが必要である。
しかし、従来のコンテキストベースの書き換えは、クエリ書き換えから応答生成までの長いプロセスのために、ダウンストリーム生成タスクを最小限に拡張する。
一部の研究者は、リライターを支援するために、世代フィードバックによる強化学習を活用しようとしているが、これらのまばらな報酬は殆どの場合ほとんどガイダンスを提供しておらず、不安定なトレーニングと生成結果をもたらす。
ユーザのニーズは,金の文書,回収された文書,地底の真実にも反映されていることがわかった。
したがって、これらの多アスペクト密度の報酬をクエリ書き換えにフィードバックすることで、より安定かつ満足な応答を達成することができる。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
具体的には、まず手動データを用いて、リライター初期化のためのT5モデルをトレーニングする。
次に、リライトクエリとゴールドドキュメントの類似性、ランキングメトリクスとROUGEと生成と基底真実の類似性という、強化学習フィードバックとして、3つの指標を設計する。
RLAIFにインスパイアされた私たちは、上記のメトリクスに対して3種類の報酬モデルをトレーニングし、より効率的なトレーニングを実現しました。
最後に、これらの報酬モデルのスコアをフィードバックとして組み合わせ、PPOアルゴリズムを用いて最適なクエリ書き換え戦略を探索する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
In a real-world RAG system, the current query often involves spoken ellipses and ambiguous references from dialogue contexts, necessitating query rewriting to better describe user's information needs. However, traditional context-based rewriting has minimal enhancement on downstream generation tasks due to the lengthy process from query rewriting to response generation. Some researchers try to utilize reinforcement learning with generation feedback to assist the rewriter, but these sparse rewards provide little guidance in most cases, leading to unstable training and generation results. We find that user's needs are also reflected in the gold document, retrieved documents and ground truth. Therefore, by feeding back these multi-aspect dense rewards to query rewriting, more stable and satisfactory responses can be achieved. In this paper, we propose a novel query rewriting method MaFeRw, which improves RAG performance by integrating multi-aspect feedback from both the retrieval process and generated results. Specifically, we first use manual data to train a T5 model for the rewriter initialization. Next, we design three metrics as reinforcement learning feedback: the similarity between the rewritten query and the gold document, the ranking metrics, and ROUGE between the generation and the ground truth. Inspired by RLAIF, we train three kinds of reward models for the above metrics to achieve more efficient training. Finally, we combine the scores of these reward models as feedback, and use PPO algorithm to explore the optimal query rewriting strategy. Experimental results on two conversational RAG datasets demonstrate that MaFeRw achieves superior generation metrics and more stable training compared to baselines. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# 学習画像圧縮のためのおよそ不可逆ニューラルネットワーク
Approximately Invertible Neural Network for Learned Image Compression ( http://arxiv.org/abs/2408.17073v1 ) ライセンス: Link先を確認 | Yanbo Gao, Meng Fu, Shuai Li, Chong Lv, Xun Cai, Hui Yuan, Mao Ye, | (参考訳) 学習された画像圧縮は近年、かなりの関心を集めている。
典型的には解析変換、合成変換、量子化、エントロピー符号化モデルを含む。
解析変換と合成変換は、画像から潜時特徴を符号化し、量子化された特徴を復号して画像を再構成し、結合変換とみなすことができる。
しかし、解析変換と合成変換は既存の方法で独立に設計されており、高品質な画像圧縮では信頼性が低い。
生成モデリングにおいて、可逆ニューラルネットワークにインスパイアされた可逆モジュールは、複合解析および合成変換を構築するために使用される。
本稿では,特徴量化で導入された雑音が可逆過程を無効化することを考慮し,学習画像圧縮のための近似可逆ニューラルネットワーク(A-INN)フレームワークを提案する。
INNと量子化を用いた場合の損失画像圧縮における速度歪みの最適化を定式化する。
一般に、A-INN は INN ベースの損失圧縮法の理論的基礎として利用できる。
この定式化に基づき、プログレッシブデノナイジングモジュール(PDM)を用いたA-INNを開発し、デコードにおける量子化ノイズを効果的に低減する。
さらに、カスケード型特徴回復モジュール(CFRM)は、低次元の特徴回復を学習し、特徴チャネル圧縮のノイズをさらに低減するために設計されている。
さらに、ニューラルネットワークベースの画像圧縮に固有の高周波情報の損失に対応するために、画像中の高周波成分を明示的に強調することにより、周波数強調分解合成モジュール(FDSM)を開発する。
大規模な実験により,提案したA-INNは既存の学習画像圧縮法よりも優れていた。
Learned image compression have attracted considerable interests in recent years. It typically comprises an analysis transform, a synthesis transform, quantization and an entropy coding model. The analysis transform and synthesis transform are used to encode an image to latent feature and decode the quantized feature to reconstruct the image, and can be regarded as coupled transforms. However, the analysis transform and synthesis transform are designed independently in the existing methods, making them unreliable in high-quality image compression. Inspired by the invertible neural networks in generative modeling, invertible modules are used to construct the coupled analysis and synthesis transforms. Considering the noise introduced in the feature quantization invalidates the invertible process, this paper proposes an Approximately Invertible Neural Network (A-INN) framework for learned image compression. It formulates the rate-distortion optimization in lossy image compression when using INN with quantization, which differentiates from using INN for generative modelling. Generally speaking, A-INN can be used as the theoretical foundation for any INN based lossy compression method. Based on this formulation, A-INN with a progressive denoising module (PDM) is developed to effectively reduce the quantization noise in the decoding. Moreover, a Cascaded Feature Recovery Module (CFRM) is designed to learn high-dimensional feature recovery from low-dimensional ones to further reduce the noise in feature channel compression. In addition, a Frequency-enhanced Decomposition and Synthesis Module (FDSM) is developed by explicitly enhancing the high-frequency components in an image to address the loss of high-frequency information inherent in neural network based image compression. Extensive experiments demonstrate that the proposed A-INN outperforms the existing learned image compression methods. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# サブラジアント原子アレイと空洞真空との強い結合の実証
Demonstration of strong coupling of a subradiant atom array to a cavity vacuum ( http://arxiv.org/abs/2408.17079v1 ) ライセンス: Link先を確認 | Bence Gábor, K. V. Adwaith, Dániel Varga, Bálint Sárközi, András Dombi, T. W. Clark, F. I. B. Williams, David Nagy, András Vukics, Peter Domokos, | (参考訳) 非駆動型高強度光共振器内での冷間原子の線形(レイリー)散乱を考慮し、強結合真空場に特有の効果を実験的に実証する。
共振器モードに関して、非共振格子に原子を配置すると、散乱は破壊的な干渉によって抑制される。
しかし, 強い結合が励起スペクトルの劇的な変化を招き, ゆらぎの強度で真空ラビが分裂することが証明された。
さらに、強く結合された真空モードは、等方性物体の線形偏光性モデルと相容れない線形散乱において偏光回転を誘導することを示した。
By considering linear (Rayleigh) scattering of cold atoms inside an undriven high-finesse optical resonator, we experimentally demonstrate effects unique to a strongly coupled vacuum field. Arranging the atoms in an incommensurate lattice, with respect to the resonator mode, the scattering can be suppressed by destructive interference: resulting in a subradiant atomic array. We show however, that strong coupling leads to a drastic modification of the excitation spectrum, as evidenced by well-resolved vacuum Rabi splitting in the intensity of the fluctuations. Furthermore, we demonstrate that the strongly coupled vacuum mode induces polarization rotation in the linear scattering, which is incompatible with a linear polarizability model of isotropic objects. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# 確率的レイヤワイズシャッフル:視覚マンバトレーニングを改善するための良い実践
Stochastic Layer-Wise Shuffle: A Good Practice to Improve Vision Mamba Training ( http://arxiv.org/abs/2408.17081v1 ) ライセンス: Link先を確認 | Zizheng Huang, Haoxing Chen, Jiaqi Li, Jun Lan, Huijia Zhu, Weiqiang Wang, Limin Wang, | (参考訳) 最近のVision Mambaモデルは、高解像度画像やより長いビデオを処理するのにはるかに少ない複雑さを持つだけでなく、ViT(Vision Transformers)との競合性能も持っている。
しかし、これらはオーバーフィッティングに悩まされており、ベースサイズ(約80M)までしか存在しない。
バニラ・ヴィジュアル・マンバ(Vim)が、どのようにしてより大きなサイズまで効率的にスケールできるのかは、いまだ不明である。
本稿では,非階層型視覚マンバの大規模化(約300M)を教師付き環境で実現する確率的階層型シャッフル正規化を提案する。
具体的には、我々のベースモデルと大規模モデルであるShuffleMambaは、補助データなしで、ImageNet1k上でそれぞれ0.8\%と1.0\%の分類精度で教師付きViTを上回ります。
ADE20KセマンティックセグメンテーションとCOCO検出タスクで評価すると、ShuffleMambaモデルも大幅に改善されている。
1) \textit{Plug and play:} モデルは変更されず、推論では省略される。
2) \textit{Simple but effective:} Vimトレーニングのオーバーフィッティングを改善し、ランダムトークン置換操作のみを導入することができる。
(3) \textit{Intuitive:} より深いレイヤのトークンシーケンスは、よりセマンティックでパッチ位置に対する感受性が低いと期待されるため、シャッフルされる可能性が高い。
コードとモデルはhttps://github.com/huangzizheng01/ShuffleMamba.comから入手できる。
Recent Vision Mamba models not only have much lower complexity for processing higher resolution images and longer videos but also the competitive performance with Vision Transformers (ViTs). However, they are stuck into overfitting and thus only present up to base size (about 80M). It is still unclear how vanilla Vision Mamba (Vim) can be efficiently scaled up to larger sizes, which is essentially for further exploitation. In this paper, we propose a stochastic layer-wise shuffle regularization, which empowers successfully scaling non-hierarchical Vision Mamba to a large size (about 300M) in a supervised setting. Specifically, our base and large-scale ShuffleMamba models can outperform the supervised ViTs of similar size by 0.8\% and 1.0\% classification accuracy on ImageNet1k, respectively, without auxiliary data. When evaluated on the ADE20K semantic segmentation and COCO detection tasks, our ShuffleMamba models also show significant improvements. Without bells and whistles, the stochastic layer-wise shuffle has the following highlights: (1) \textit{Plug and play:} it does not change model architectures and will be omitted in inference. (2) \textit{Simple but effective:} it can improve the overfitting in Vim training and only introduce random token permutation operations. (3) \textit{Intuitive:} the token sequences in deeper layers are more likely to be shuffled as they are expected to be more semantic and less sensitive to patch positions. Code and models will be available at https://github.com/huangzizheng01/ShuffleMamba. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# 合成ゼロショット学習のためのフォーカス一貫性のあるマルチレベルアグリゲーション
Focus-Consistent Multi-Level Aggregation for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2408.17083v1 ) ライセンス: Link先を確認 | Fengyuan Dai, Siteng Huang, Min Zhang, Biao Gong, Donglin Wang, | (参考訳) 近年の合成ゼロショット学習 (CZSL) 手法は, 属性オブジェクトから知識を伝達し, 特徴を識別するための最適分類法を主に議論している。
しかし、これらの手法は、一貫性と多様性の面において、枝の根底にある関係を混ぜ合わせている。
具体的には、3つのブランチすべてに最高レベルの機能を提供し続けることは、表面的に類似したクラスを区別することの難しさを増大させる。
さらに、単一のブランチは、パーソナライズされたブランチ間で空間メッセージが共有されない場合、最適領域にフォーカスすることができる。
これらの問題を認識し,対処するために,Focus-Consistent Multi-Level Aggregation (FOMA) と呼ばれる新しい手法を提案する。
本手法では,MFA(Multi-Level Feature Aggregation)モジュールを組み込んで,画像の内容に基づいて各ブランチのパーソナライズされた特徴を生成する。
さらに、Focus-Consistent Constraintは情報領域に一貫したフォーカスを奨励し、すべてのブランチ間で空間情報を暗黙的に交換する。
3つのベンチマークデータセット(UT-Zappos, C-GQA, Clothing16K)に対する大規模な実験は、私たちのFOMAがSOTAより優れていることを示している。
To transfer knowledge from seen attribute-object compositions to recognize unseen ones, recent compositional zero-shot learning (CZSL) methods mainly discuss the optimal classification branches to identify the elements, leading to the popularity of employing a three-branch architecture. However, these methods mix up the underlying relationship among the branches, in the aspect of consistency and diversity. Specifically, consistently providing the highest-level features for all three branches increases the difficulty in distinguishing classes that are superficially similar. Furthermore, a single branch may focus on suboptimal regions when spatial messages are not shared between the personalized branches. Recognizing these issues and endeavoring to address them, we propose a novel method called Focus-Consistent Multi-Level Aggregation (FOMA). Our method incorporates a Multi-Level Feature Aggregation (MFA) module to generate personalized features for each branch based on the image content. Additionally, a Focus-Consistent Constraint encourages a consistent focus on the informative regions, thereby implicitly exchanging spatial information between all branches. Extensive experiments on three benchmark datasets (UT-Zappos, C-GQA, and Clothing16K) demonstrate that our FOMA outperforms SOTA. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# カオス散乱における共鳴状態の半古典的極限
Semiclassical limit of resonance states in chaotic scattering ( http://arxiv.org/abs/2408.17088v1 ) ライセンス: Link先を確認 | Roland Ketzmerick, Florian Lorenz, Jan Robert Schmidt, | (参考訳) 量子カオス散乱系の共鳴状態は、その崩壊速度に依存する多フラクタル構造を持つ。
古典力学は、半古典的極限における全ての崩壊率の共鳴状態を記述する。
このカオス散乱系に対する結果は、閉じたカオス系に対する十分に確立された量子エルゴード性に対応する。
具体的には、パーロン・フロベニウス作用素のウラム行列近似を一般化し、様々な崩壊率の条件不変測度を生み出す。
同じ崩壊率につながる行列近似が多数存在し、共鳴状態に関連する行列を選択するための基準を推測する。
数値的に、半古典的極限における共鳴状態は、選択された測度に収束することを示す。
例としては誘電率空洞、3ディスク散乱系、オープン量子写像がある。
Resonance states in quantum chaotic scattering systems have a multifractal structure that depends on their decay rate. We show how classical dynamics describes resonance states of all decay rates in the semiclassical limit. This result for chaotic scattering systems corresponds to the well-established quantum ergodicity for closed chaotic systems. Specifically, we generalize Ulam's matrix approximation of the Perron-Frobenius operator, giving rise to conditionally invariant measures of various decay rates. There are many matrix approximations leading to the same decay rate and we conjecture a criterion for selecting the one relevant for resonance states. Numerically, we demonstrate that resonance states in the semiclassical limit converge to the selected measure. Example systems are a dielectric cavity, the three-disk scattering system, and open quantum maps. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# 量子分子動力学の制御ランドスケープマップ予測のための機械学習:非対称トップ分子のレーザー誘起3次元アライメント
Machine learning for predicting control landscape maps of quantum molecular dynamics: Laser-induced three-dimensional alignment of asymmetric top molecules ( http://arxiv.org/abs/2408.17089v1 ) ライセンス: Link先を確認 | Tomotaro Namba, Yukiyoshi Ohtsuki, | (参考訳) 非対称トップ分子のレーザー誘起3次元アライメントのケーススタディにより、フル量子分子動力学の制御ランドスケープマップを予測する機械学習について検討した。
非対称性パラメータ $-1 < \kappa < 0$ と低温制限の場合 C2v 対称性を持つ「プロラート型」非対称性トップ分子を直交線形偏光二重レーザーパルスを用いて整列する。
各分子のランドスケープマップは6000ピクセルで構成され、各ピクセルは各制御パラメータの集合によって達成されるアライメントの最大度を表す。
畳み込みニューラルネットワーク(CNN)モデルを適切に訓練するための統一的な方法で、顕著に異なる分子パラメータを扱う方法を検討した後、55個のサンプル分子を用いてCNNモデルを訓練し、35個のテストサンプル分子のランドスケープマップを合理的に高精度に予測する。
予測されたランドスケープマップはアライメント制御の全体像を提供するため、例えば、二重パルス制御方式は、他の2つの成分よりもはるかに大きい偏光性成分を持つ分子に対して特に有効であることを示す。
Machine learning for predicting control landscape maps of full quantum molecular dynamics is examined through a case study of the laser-induced three-dimensional (3D) alignment of asymmetric top molecules, an essential technique for observing and/or manipulating molecular dynamics in a molecule-fixed frame. We consider the "prolate-type" asymmetryic top molecules with the asymmetry parameters $-1 < \kappa < 0$ and the C2v symmetry in the low-temperature limiting case, which are aligned by using mutually orthogonal linearly polarized double laser pulses. The landscape map for each molecule consists of 6000 pixels, each pixel of which represents the maximum degree of alignment achieved by each set of control parameters. After examining ways to deal with the markedly different molecular parameters in a unified manner for suitably training a convolutional neural network (CNN) model, we train the CNN model by using 55 training sample molecules to predict the control landscape maps of 35 test sample molecules with reasonably high accuracy. As the predicted landscape maps provide a big picture of the alignment control, we show, for example, that the double pulse control scheme is especially effective for a molecule having a polarizability component that is much larger in value than the other two components. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# FissionVAE: 遅延空間とデコーダ分解による非IID画像のフェデレーション
FissionVAE: Federated Non-IID Image Generation with Latent Space and Decoder Decomposition ( http://arxiv.org/abs/2408.17090v1 ) ライセンス: Link先を確認 | Chen Hu, Jingjing Deng, Xianghua Xie, Xiaoke Ma, | (参考訳) フェデレーション学習(Federated Learning)は、分散化されたクライアントが、すべてのトレーニングデータをローカルに保ちながら、共有モデルを共同で学習することを可能にする機械学習パラダイムである。
多くの研究がフェデレーション画像生成、特にジェネレーティブ・アドバイサル・ネットワークに焦点を合わせてきたが、変分オートエンコーダはあまり注目されていない。
本稿では,非IID(独立に同一に分散した)データ環境の課題に対処する。
具体的には、不均一なデータ分布は、一貫した潜伏空間を維持することの難しさを招き、また、集合中に異なるテクスチャ特性がブレンドされるような局所的なジェネレータも生じる。
本稿では、潜在空間を分解し、個々のクライアントグループに適したデコーダブランチを構成する新しいアプローチFissionVAEを紹介する。
この方法は、各グループのユニークなデータ分布に合わせてカスタマイズされた学習を可能にする。
さらに,階層型VAEアーキテクチャの導入について検討し,本モデルにおける異種デコーダアーキテクチャの利用を実証する。
また, 分解過程を改善するために, 遅延前の分布を設定するための戦略についても検討する。
アプローチを評価するために,MNISTとFashionMNISTを組み合わせた2つの複合データセットを作成した。
実験により,FissionVAEはベースラインフェデレーションVAEモデルと比較して,これらのデータセットの生成品質を大幅に向上することが示された。
Federated learning is a machine learning paradigm that enables decentralized clients to collaboratively learn a shared model while keeping all the training data local. While considerable research has focused on federated image generation, particularly Generative Adversarial Networks, Variational Autoencoders have received less attention. In this paper, we address the challenges of non-IID (independently and identically distributed) data environments featuring multiple groups of images of different types. Specifically, heterogeneous data distributions can lead to difficulties in maintaining a consistent latent space and can also result in local generators with disparate texture features being blended during aggregation. We introduce a novel approach, FissionVAE, which decomposes the latent space and constructs decoder branches tailored to individual client groups. This method allows for customized learning that aligns with the unique data distributions of each group. Additionally, we investigate the incorporation of hierarchical VAE architectures and demonstrate the use of heterogeneous decoder architectures within our model. We also explore strategies for setting the latent prior distributions to enhance the decomposition process. To evaluate our approach, we assemble two composite datasets: the first combines MNIST and FashionMNIST; the second comprises RGB datasets of cartoon and human faces, wild animals, marine vessels, and remote sensing images of Earth. Our experiments demonstrate that FissionVAE greatly improves generation quality on these datasets compared to baseline federated VAE models. | 翻訳日:2024-09-02 16:09:30 公開日:2024-08-30 |
# 非コヒーレント量子混合系のフィードバック冷却シミュレーション
Simulating Feedback Cooling of Incoherent Quantum Mixtures ( http://arxiv.org/abs/2408.17092v1 ) ライセンス: Link先を確認 | Kaiwen, Zhu, Zain Mehdi, Joseph J. Hope, Simon A. Haine, | (参考訳) 我々は,既存の位相空間法,すなわちTrncated Wigner Approximation (TWA)に基づいて構築された量子系の測定と制御の効率的かつスケーラブルなシミュレーションのための新しい手法を開発した。
実測に基づく2モードシステムにおけるフィードバック冷却のシミュレーションにより, 従来の粒子フィルタ法と比較し, 低次元特性で正確な解の計算が可能となることを示す。
提案手法の利点はマルチモードスケーラビリティであり,非コヒーレントな準1次元熱アンサンブルの量子デジェネティクスに対する計測に基づくフィードバック冷却のシミュレーションを初めて成功させた。
提案手法の基本原理は,測定とコヒーレントフィードバックの一般対応を利用しており,他の様々な量子制御シナリオにも適用可能であることを予測している。
We develop a new approach for efficient and scalable simulations of measurement and control of quantum systems built upon existing phase-space methods, namely the Truncated Wigner Approximation (TWA). We benchmark against existing particle-filter methods by simulating measurement based feedback cooling in a two-mode system, whose low-dimensional nature permits a computation of an exact solution. The advantage of our method is multi-mode scalability, which we demonstrate through the first successful simulation of measurement-based feedback cooling of an incoherent quasi-1D thermal ensemble to quantum degeneracy. As the underlying principle of our approach exploits a general correspondence between measurement and coherent feedback, we anticipate it is also applicable across a broad range of other quantum control scenarios. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# RISSOLE:ブロックワイズ生成と検索誘導によるパラメータ効率拡散モデル
RISSOLE: Parameter-efficient Diffusion Models via Block-wise Generation and Retrieval-Guidance ( http://arxiv.org/abs/2408.17095v1 ) ライセンス: Link先を確認 | Avideep Mukherjee, Soumya Banerjee, Vinay P. Namboodiri, Piyush Rai, | (参考訳) 拡散ベースのモデルは素晴らしい生成能力を誇示している。
しかし、それらには膨大な数のパラメータがあり、結果としてモデルのサイズが膨大になるため、リソース制約のあるデバイスへのデプロイには適さない。
ブロックワイズ生成は、画像全体を一度に生成するのではなく、一度に1ブロックを生成できるため、コンパクトな(パラメータ効率のよい)深層生成モデルを設計する上で有望な代替となる。
しかし、生成したブロック間のコヒーレンスを確保することは簡単ではないため、ブロックワイズ生成もかなり難しい。
そこで我々は,RAGモジュールによって検索された画像の対応するブロックを利用して,ブロックワイズ拡散モデルのトレーニングおよび生成段階を条件に,検索拡張生成(RAG)アプローチを設計する。
我々の条件付きスキームは、訓練中に異なるブロックをまたがってコヒーレンスを保証し、その結果、世代間でコヒーレンスを保証します。
ベースモデルとして潜在拡散モデル(LDM)を用いて,本手法を実証するが,他のデノナイジング拡散モデルと併用することができる。
本稿では,提案手法によるコヒーレンス問題の解法を検証するために,モデルサイズがコンパクトで生成品質に優れたアプローチの有効性を実証するための実体実験を報告する。
Diffusion-based models demonstrate impressive generation capabilities. However, they also have a massive number of parameters, resulting in enormous model sizes, thus making them unsuitable for deployment on resource-constraint devices. Block-wise generation can be a promising alternative for designing compact-sized (parameter-efficient) deep generative models since the model can generate one block at a time instead of generating the whole image at once. However, block-wise generation is also considerably challenging because ensuring coherence across generated blocks can be non-trivial. To this end, we design a retrieval-augmented generation (RAG) approach and leverage the corresponding blocks of the images retrieved by the RAG module to condition the training and generation stages of a block-wise denoising diffusion model. Our conditioning schemes ensure coherence across the different blocks during training and, consequently, during generation. While we showcase our approach using the latent diffusion model (LDM) as the base model, it can be used with other variants of denoising diffusion models. We validate the solution of the coherence problem through the proposed approach by reporting substantive experiments to demonstrate our approach's effectiveness in compact model size and excellent generation quality. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# UTrack:不確かさ検出付きマルチオブジェクト追跡
UTrack: Multi-Object Tracking with Uncertain Detections ( http://arxiv.org/abs/2408.17098v1 ) ライセンス: Link先を確認 | Edgardo Solano-Carrillo, Felix Sattler, Antje Alex, Alexander Klein, Bruno Pereira Costa, Angel Bueno Rodriguez, Jannis Stoppe, | (参考訳) トラッキング・バイ・検出のパラダイムは、多目的追跡において主流であり、トラックを物体検出器の予測に関連付ける。
信頼スコアを通して不確実性を示すが、これらの予測は推論プロセス全体の変動を捉えない。
しかし、自動運転や監視など、安全とセキュリティの重要なアプリケーションにとって、この予測の不確実性を知ることが不可欠である。
そこで本研究では,物体検出時に経験的予測分布を高速に取得し,その知識を多目的追跡に取り入れる手法を初めて紹介する。
我々の機構は最先端のトラッカーに容易に統合でき、検出の不確実性を完全に活用できる。
また,提案手法を利用した新しいアソシエーション手法も提案されている。
我々は,MOT17,MOT20,DanceTrack,KITTIなど,さまざまなベンチマークに対するコントリビューションの有効性を実証する。
The tracking-by-detection paradigm is the mainstream in multi-object tracking, associating tracks to the predictions of an object detector. Although exhibiting uncertainty through a confidence score, these predictions do not capture the entire variability of the inference process. For safety and security critical applications like autonomous driving, surveillance, etc., knowing this predictive uncertainty is essential though. Therefore, we introduce, for the first time, a fast way to obtain the empirical predictive distribution during object detection and incorporate that knowledge in multi-object tracking. Our mechanism can easily be integrated into state-of-the-art trackers, enabling them to fully exploit the uncertainty in the detections. Additionally, novel association methods are introduced that leverage the proposed mechanism. We demonstrate the effectiveness of our contribution on a variety of benchmarks, such as MOT17, MOT20, DanceTrack, and KITTI. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 低レグリートMABアルゴリズムにおけるサイドコミュニケーションを用いたストラテジックアーム
Strategic Arms with Side Communication Prevail Over Low-Regret MAB Algorithms ( http://arxiv.org/abs/2408.17101v1 ) ライセンス: Link先を確認 | Ahmed Ben Yahmed, Clément Calauzènes, Vianney Perchet, | (参考訳) 戦略的なマルチアーム・バンディット・セッティングでは、腕がプレイヤーの行動についての完全な情報を持っている場合、彼らは次の均衡を確立することができる。
1 ほとんどすべての価値を 保持しています
2 実質的な(直線的な)後悔でプレイヤーを去る。
この研究は、完全な情報がすべての腕に公開されていないが、それらの間で共有されているとしても、同様の平衡を達成することが可能であることを示している。
主な課題は、真にコミュニケーションするための武器を動機付ける通信プロトコルを設計することである。
In the strategic multi-armed bandit setting, when arms possess perfect information about the player's behavior, they can establish an equilibrium where: 1. they retain almost all of their value, 2. they leave the player with a substantial (linear) regret. This study illustrates that, even if complete information is not publicly available to all arms but is shared among them, it is possible to achieve a similar equilibrium. The primary challenge lies in designing a communication protocol that incentivizes the arms to communicate truthfully. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# ユーザを理解する: インテントベースのランキングデータセット
Understanding the User: An Intent-Based Ranking Dataset ( http://arxiv.org/abs/2408.17103v1 ) ライセンス: Link先を確認 | Abhijit Anand, Jurek Leonhardt, V Venktesh, Avishek Anand, | (参考訳) 情報検索システムが進化を続けるにつれ、これらのシステムの正確な評価とベンチマークが重要となる。
MS MARCOのようなWeb検索データセットは、主に意図や記述を伴わずに短いキーワードクエリを提供しており、基盤となる情報要求を理解する上での課題である。
本稿では, TREC-DL-21 と TREC-DL-22 の2つの主要なベンチマークデータセットに着目し, 情報的クエリ記述に注釈を付けるためのデータセットの拡張手法を提案する。
我々の手法は、ベンチマークデータセットから個々のクエリ内の暗黙の意図を分析し、理解するために最先端のLCMを利用することである。
キーセマンティック要素を抽出することにより、これらのクエリについて詳細に、文脈的にリッチな記述を構築する。
生成したクエリ記述を検証するために,クラウドソーシングを,記述の正確性と情報性に関する多様な人間の視点を得るための信頼性の高い手段として採用する。
この情報は、ランキング、クエリ書き換えなどのタスクの評価セットとして使用できる。
As information retrieval systems continue to evolve, accurate evaluation and benchmarking of these systems become pivotal. Web search datasets, such as MS MARCO, primarily provide short keyword queries without accompanying intent or descriptions, posing a challenge in comprehending the underlying information need. This paper proposes an approach to augmenting such datasets to annotate informative query descriptions, with a focus on two prominent benchmark datasets: TREC-DL-21 and TREC-DL-22. Our methodology involves utilizing state-of-the-art LLMs to analyze and comprehend the implicit intent within individual queries from benchmark datasets. By extracting key semantic elements, we construct detailed and contextually rich descriptions for these queries. To validate the generated query descriptions, we employ crowdsourcing as a reliable means of obtaining diverse human perspectives on the accuracy and informativeness of the descriptions. This information can be used as an evaluation set for tasks such as ranking, query rewriting, or others. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# Dual JPEG Compatibility:画像鑑定のための信頼性と説明可能なツール
Dual JPEG Compatibility: a Reliable and Explainable Tool for Image Forensics ( http://arxiv.org/abs/2408.17106v1 ) ライセンス: Link先を確認 | Etienne Levecque, Jan Butora, Patrick Bas, | (参考訳) JPEGパイプライン(圧縮または非圧縮)が与えられると、この論文は8×8ブロックの先行要素を見つける方法を示す。
存在する場合、ブロックはパイプラインと互換性がある。
修正されていない画像の場合、すべてのブロックは元のパイプラインと常に互換性があるが、操作された画像の場合、常にそうであるとは限らない。
本稿ではJPEG画像法医学における互換性概念の可能性を示す。
これは、高次元空間において先行するブロックを見つけることの主な課題に対する解である。
この解は、探索空間に制限のある局所探索アルゴリズムに依存する。
JPEG圧縮後の塗布,複写,スプライシングを3種類のミスマッチ問題に変換し,検出可能であることを示す。
特に、修正後に画像が再圧縮されると、第2圧縮の品質係数が第1圧縮値よりも高い場合、その操作を検出することができる。
提案手法は,偽陽性を伴わず,高い検出力で偽造をJPEGブロックにピン留めすることができる。
本手法は, 単純あるいは二重圧縮後, 塗装された偽造物の局所化に関する2つの最先端モデルと比較する。
作業上の仮定では、ほとんどの実験において、これらのモデルよりも優れています。
Given a JPEG pipeline (compression or decompression), this paper shows how to find the antecedent of a 8 x 8 block. If it exists, the block is compatible with the pipeline. For unaltered images, all blocks are always compatible with the original pipeline; however, for manipulated images, this is not always the case. This article demonstrates the potential of compatibility concepts for JPEG image forensics. It presents a solution to the main challenge of finding a block antecedent in a high-dimensional space. This solution relies on a local search algorithm with restrictions on the search space. We show that inpainting, copy-move, or splicing applied after a JPEG compression can be turned into three different mismatch problems and be detected. In particular, when the image is re-compressed after the modification, we can detect the manipulation if the quality factor of the second compression is higher than the first one. Our method can pinpoint forgeries down to the JPEG block with great detection power and without False Positive. We compare our method with two state-of-the-art models on localizing inpainted forgeries after a simple or a double compression. We show that under our working assumptions, it outperforms those models for most experiments. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# フェデレートストリーミングデータからのスパース不確かさインフォームサンプリング
Sparse Uncertainty-Informed Sampling from Federated Streaming Data ( http://arxiv.org/abs/2408.17108v1 ) ライセンス: Link先を確認 | Manuel Röder, Frank-Michael Schleif, | (参考訳) 本稿では,非I.I.D.データストリームサンプリングのための数値的に堅牢で効率的な手法を提案する。
提案手法は,ローカルなラベル付け予算を与えられたクライアントモデルを最適化するための関連するストリーム観測を識別し,メモリバッファリング戦略に頼らずに即時ラベリング決定を行う。
本実験は,大規模データストリームに対する既存の戦略と比較して,学習バッチの多様性の向上と,提案手法の数値的堅牢性の向上を図っている。
We present a numerically robust, computationally efficient approach for non-I.I.D. data stream sampling in federated client systems, where resources are limited and labeled data for local model adaptation is sparse and expensive. The proposed method identifies relevant stream observations to optimize the underlying client model, given a local labeling budget, and performs instantaneous labeling decisions without relying on any memory buffering strategies. Our experiments show enhanced training batch diversity and an improved numerical robustness of the proposal compared to existing strategies over large-scale data streams, making our approach an effective and convenient solution in FL environments. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 無線統合認証通信システム(WIA-Comm)
Wireless Integrated Authenticated Communication System (WIA-Comm) ( http://arxiv.org/abs/2408.17112v1 ) ライセンス: Link先を確認 | Amith N Bharadwaj, G Adarsh, Gurusatwik Bhatta N, Karan K, Vijay B T, | (参考訳) インターネットに接続されるデバイスの数の増加により、データ完全性を維持するためのセキュリティ対策の改善が求められている。
安全上の脅威を克服し、アプリケーションシステム/データへの不正アクセスを克服するためには、無線で認証された通信システムの開発が必要である。
WIA-Comm Systemは、アプリケーション側でデバイスを制御するブリッジを提供するシステムである。
MACアドレスがすでに登録されているデバイスのみに制御権を与えることで、セキュリティを提供するように設計されているため、認証されたユーザだけがシステムを制御することができる。
LoRa WAN技術は無線通信やArduino IDEに使われ、必要な機能のためのコードの開発に使われている。
The exponential increase in the number of devices connected to the internet globally has led to the requirement for the introduction of better and improved security measures for maintaining data integrity. The development of a wireless and authenticated communication system is required to overcome the safety threats and illegal access to the application system/data. The WIA-Comm System is the one that provides a bridge to control the devices at the application side. It has been designed to provide security by giving control rights only to the device whose MAC (physical) address has already been registered, so only authorized users can control the system. LoRa WAN technology has been used for wireless communication and Arduino IDE to develop the code for the required functionality. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 3次元TOF-MRIにおける脳動脈瘤の破裂検出と体積分割のための多心AIモデル
Multi-centric AI Model for Unruptured Intracranial Aneurysm Detection and Volumetric Segmentation in 3D TOF-MRI ( http://arxiv.org/abs/2408.17115v1 ) ライセンス: Link先を確認 | Ashraya K. Indrakanti, Jakob Wasserthal, Martin Segeroth, Shan Yang, Victor Schulze-Zachau, Joshy Cyriac, Michael Bach, Marios Psychogios, Matthias A. Mutke, | (参考訳) 目的:3次元TOF-MRIで未破裂大動脈瘤(UICA)の検出と分節を併用したオープンソースのnnU-NetベースのAIモデルを開発し,大動脈瘤様の差分診断をデータセットでトレーニングしたモデルと比較すること。
方法: この振り返り調査(2020-2023)では364名の患者(平均59歳, 60%女性)の385名の匿名化3DTOF-MRI画像とADAMチャレンジの被験者113名を含む。
画像は未治療またはUICAと鑑別診断が特徴であった。
4つの異なるトレーニングデータセットが作成され、nnU-Netフレームワークがモデル開発に使用された。
感度と偽陽性(FP)/ケースレートとDICEスコアとNSD(Normalized Surface Distance)を0.5mmのセグメンテーション閾値で評価した。
統計分析では、Chi-square、Mann-Whitney-U、Kruskal-Wallis、p < 0.05。
結果: モデルでは, 総合感度は82%から85%, FP/ケースレート0.20から0.31であり, 有意差は認められなかった(p = 0.90, p = 0.16)。
一次モデルは85%の感度と0.23 FP/ケースレートを示し、ADAM-Challengeの勝者(61%)と、ADAMデータでトレーニングされたnnU-Netの感度(p < 0.05)を上回った。
平均DICEスコアは0.73、NSDは0.84、UICAは正しく検出された。
結論:我々のオープンソースnnU-NetベースのAIモデル(10.5281/zenodo.13386859で利用可能)は、3DTOF-MRIにおけるUICAの検出とセグメンテーションのための高い感度、低い偽陽性率、一貫したセグメンテーション精度を示し、臨床診断の改善とUICAモニタリングの可能性を示している。
Purpose: To develop an open-source nnU-Net-based AI model for combined detection and segmentation of unruptured intracranial aneurysms (UICA) in 3D TOF-MRI, and compare models trained on datasets with aneurysm-like differential diagnoses. Methods: This retrospective study (2020-2023) included 385 anonymized 3D TOF-MRI images from 364 patients (mean age 59 years, 60% female) at multiple centers plus 113 subjects from the ADAM challenge. Images featured untreated or possible UICAs and differential diagnoses. Four distinct training datasets were created, and the nnU-Net framework was used for model development. Performance was assessed on a separate test set using sensitivity and False Positive (FP)/case rate for detection, and DICE score and NSD (Normalized Surface Distance) with a 0.5mm threshold for segmentation. Statistical analysis included chi-square, Mann-Whitney-U, and Kruskal-Wallis tests, with significance set at p < 0.05. Results: Models achieved overall sensitivity between 82% and 85% and a FP/case rate of 0.20 to 0.31, with no significant differences (p = 0.90 and p = 0.16). The primary model showed 85% sensitivity and 0.23 FP/case rate, outperforming the ADAM-challenge winner (61%) and a nnU-Net trained on ADAM data (51%) in sensitivity (p < 0.05). It achieved a mean DICE score of 0.73 and an NSD of 0.84 for correctly detected UICA. Conclusions: Our open-source, nnU-Net-based AI model (available at 10.5281/zenodo.13386859) demonstrates high sensitivity, low false positive rates, and consistent segmentation accuracy for UICA detection and segmentation in 3D TOF-MRI, suggesting its potential to improve clinical diagnosis and for monitoring of UICA. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 行列積状態励起アンサッツに対する任意の可観測物の効率的かつ体系的な計算
Efficient and systematic calculation of arbitrary observables for the matrix product state excitation ansatz ( http://arxiv.org/abs/2408.17117v1 ) ライセンス: Link先を確認 | Jesse J. Osborne, Ian P. McCulloch, | (参考訳) 行列積状態(MPS)に基づく数値計算法は、現在、(準)1次元量子多体系の基底状態特性を計算するためのデファクト標準である。
このようなシステムにおける低レベルの励起の性質は、時間進化シミュレーションにより_dynamics_を用いて、このMPSフレームワークでしばしば研究されるが、これらの励起に対応する固有状態を直接計算することで、それらの_statics_を見ることもできる。
いわゆるMPS励起アンザッツは、熱力学限界における単一粒子特性を持つ固有状態を見つける強力な方法である。
この励起アンザッツはかなり広く使用されているが、これらの状態に対する期待値を計算する一般的な方法は文献に欠けており、行列積演算子として表される任意の可観測値を計算する再帰的アルゴリズムを提示することによって、このギャップを埋めることを目指している。
この方法は、より広い空間的支持と多粒子励起を持つ励起のような励起アンザッツの-および-拡張の-既存のメソッドを簡潔にカプセル化し、さらなる革新を扱うには堅牢である。
本研究では,スピン-1 ハイゼンベルク鎖と一次元ハバード模型の低層励起を解析し,前者での励起がどのように収束するかを考察し,後者ではエネルギーよりもエネルギー_分散_を最小化して連続体内部の単一粒子励起を標的とする新しい手法を提案する。
我々はこの技術が励起アンザッツによるさらなる進歩を促進することを願っている。
Numerical methods based on matrix product states (MPSs) are currently the de facto standard for calculating the ground state properties of (quasi-)one-dimensional quantum many-body systems. While the properties of the low-lying excitations in such systems are often studied in this MPS framework through _dynamics_ by means of time-evolution simulations, we can also look at their _statics_ by directly calculating eigenstates corresponding to these excitations. The so-called MPS excitation ansatz is a powerful method for finding such eigenstates with a single-particle character in the thermodynamic limit. Although this excitation ansatz has been used quite extensively, a general method for calculating expectation values for these states is lacking in the literature: we aim to fill this gap by presenting a recursive algorithm to calculate arbitrary observables expressed as matrix product operators. This method concisely encapsulates existing methods for -- as well as extensions to -- the excitation ansatz, such as excitations with a larger spatial support and multi-particle excitations, and is robust to handle further innovations. We demonstrate the versatility of our method by studying the low-lying excitations in the spin-1 Heisenberg chain and the one-dimensional Hubbard model, looking at how the excitations converge in the former, while in the latter, we present a novel method of targeting single-particle excitations inside of a continuum by minimizing the energy _variance_ rather than the energy itself. We hope that this technique will foster further advancements with the excitation ansatz. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 行列表現による独立成分分析における特異成分の効率的な推定
Efficient Estimation of Unique Components in Independent Component Analysis by Matrix Representation ( http://arxiv.org/abs/2408.17118v1 ) ライセンス: Link先を確認 | Yoshitatsu Matsuda, Kazunori Yamaguch, | (参考訳) 独立成分分析(ICA)は信号処理や特徴抽出の様々な応用において広く用いられている手法である。
主成分分析(PCA)を拡張し、小さな分散を持つ重要かつ複雑な成分を抽出することができる。
ICAの大きな問題の1つは、PCAとは異なり、ソリューションのユニークさが保証されないことである。
これはICAの目的関数の最適化に多くの局所最適化が存在するためである。
ICAの特異な大域的最適化は、手作りスレッド計算によって多くのランダム初期化から推定できる。
本稿では,行列表現におけるアルゴリズムの再構成と冗長計算の削減により,ICAのユニークな推定を高速化する。
人工データセットと脳波データを用いた実験により,提案手法の有効性が検証された。
Independent component analysis (ICA) is a widely used method in various applications of signal processing and feature extraction. It extends principal component analysis (PCA) and can extract important and complicated components with small variances. One of the major problems of ICA is that the uniqueness of the solution is not guaranteed, unlike PCA. That is because there are many local optima in optimizing the objective function of ICA. It has been shown previously that the unique global optimum of ICA can be estimated from many random initializations by handcrafted thread computation. In this paper, the unique estimation of ICA is highly accelerated by reformulating the algorithm in matrix representation and reducing redundant calculations. Experimental results on artificial datasets and EEG data verified the efficiency of the proposed method. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 携帯型インテリジェントパーソナルアシスタントのユーザアクセプタンスを探る:PLS-SEMとfsQCAを用いたハイブリッドアプローチ
Exploring User Acceptance Of Portable Intelligent Personal Assistants: A Hybrid Approach Using PLS-SEM And fsQCA ( http://arxiv.org/abs/2408.17119v1 ) ライセンス: Link先を確認 | Gustave Florentin Nkoulou Mvondo, Ben Niu, | (参考訳) 本研究では、ユーザインタラクションと制御を再定義することを目的とした、新しく開発されたポータブルインテリジェントパーソナルアシスタント(PIPA)であるRabbit R1のユーザ受け入れを促す要因について検討する。
この研究は、人工知能固有の要因(会話知能、タスクインテリジェンス、知覚自然性)、ユーザインターフェース設計要素(情報デザインと視覚美学の単純さ)、ユーザ受け入れと忠誠心を組み込むことで、技術受容モデル(TAM)を拡張した。
提案手法を用いて,米国824人のデータを収集し,最小二乗構造方程式モデル (PLS-SEM) とファジィ集合定性比較解析 (fsQCA) を用いて分析した。
この結果は、直接的および間接的効果を含む全ての仮説化された関係が支持されていることを示している。
さらに、fsQCAはPLS-SEMの発見をサポートし、高いユーザ受け入れにつながる3つの設定を識別する。
この研究は文献を豊かにし、PIPAのシステムデザイナーやマーケッターに貴重な洞察を与え、幅広い採用と長期的な関与を促進する戦略的決定を導く。
This research explores the factors driving user acceptance of Rabbit R1, a newly developed portable intelligent personal assistant (PIPA) that aims to redefine user interaction and control. The study extends the technology acceptance model (TAM) by incorporating artificial intelligence-specific factors (conversational intelligence, task intelligence, and perceived naturalness), user interface design factors (simplicity in information design and visual aesthetics), and user acceptance and loyalty. Using a purposive sampling method, we gathered data from 824 users in the US and analyzed the sample through partial least squares structural equation modeling (PLS-SEM) and fuzzy set qualitative comparative analysis (fsQCA). The findings reveal that all hypothesized relationships, including both direct and indirect effects, are supported. Additionally, fsQCA supports the PLS-SEM findings and identifies three configurations leading to high and low user acceptance. This research enriches the literature and provides valuable insights for system designers and marketers of PIPAs, guiding strategic decisions to foster widespread adoption and long-term engagement. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 物理世界とメタバースの多要素を用いたトレーサブルAI駆動アバター
Traceable AI-driven Avatars Using Multi-factors of Physical World and Metaverse ( http://arxiv.org/abs/2408.17121v1 ) ライセンス: Link先を確認 | Kedi Yang, Zhenyong Zhang, Youliang Tian, | (参考訳) Metaverseでは、AIモデルをAIエンジンに委譲し、対応するAI駆動アバターを構築して、他のユーザに没入的なエクスペリエンスを提供する。
現在の認証方法は、主に人間駆動アバターに焦点を当て、AI駆動アバターのトレーサビリティを無視しているため、攻撃者はターゲットユーザーのAIモデルをAIプロキシプログラムに委譲して、検出されることを心配せずに偽装攻撃を実行することができる。
本稿では,AI駆動アバターのトレーサビリティを保証するため,多要素認証を用いた認証手法を提案する。
まず,マニピュレータのアイリス機能とAIプロキシの公開キーを組み合わせたユーザのアイデンティティモデルを構築し,AI駆動アバターが元のマニピュレータに関連付けられていることを確認する。
次に、AIプロキシに署名能力を委譲するために、元のマニピュレータをサポートするカメレオンプロキシシグネチャスキームを提案する。
最後に、識別モデルとカメレオンプロキシシグネチャに基づくアバターの3つの認証プロトコルを設計し、人間駆動アバターとAI駆動アバターの両方を含む仮想的/物理的トレーサビリティを保証する。
セキュリティ分析により,提案したシグネチャスキームは偽造不可能であり,認証手法は偽の告発に対して防御可能であることが示された。
大規模な評価では、設計された認証プロトコルがユーザログイン、アバターデリゲート、相互認証、アバタートレースを約1秒で完了し、実際のアプリケーションニーズを満たし、AI駆動アバターによる偽造攻撃を軽減している。
Metaverse allows users to delegate their AI models to an AI engine, which builds corresponding AI-driven avatars to provide immersive experience for other users. Since current authentication methods mainly focus on human-driven avatars and ignore the traceability of AI-driven avatars, attackers may delegate the AI models of a target user to an AI proxy program to perform impersonation attacks without worrying about being detected. In this paper, we propose an authentication method using multi-factors to guarantee the traceability of AI-driven avatars. Firstly, we construct a user's identity model combining the manipulator's iris feature and the AI proxy's public key to ensure that an AI-driven avatar is associated with its original manipulator. Secondly, we propose a chameleon proxy signature scheme that supports the original manipulator to delegate his/her signing ability to an AI proxy. Finally, we design three authentication protocols for avatars based on the identity model and the chameleon proxy signature to guarantee the virtual-to-physical traceability including both the human-driven and AI-driven avatars. Security analysis shows that the proposed signature scheme is unforgeability and the authentication method is able to defend against false accusation. Extensive evaluations show that the designed authentication protocols complete user login, avatar delegation, mutual authentication, and avatar tracing in about 1s, meeting the actual application needs and helping to mitigate impersonation attacks by AI-driven avatars. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# 薬物反応予測のためのマルチリレーショナルグラフニューラルネットワークにおけるエッジ型特異的解釈
Controllable Edge-Type-Specific Interpretation in Multi-Relational Graph Neural Networks for Drug Response Prediction ( http://arxiv.org/abs/2408.17129v1 ) ライセンス: Link先を確認 | Xiaodi Li, Jianfeng Gui, Qian Gao, Haoyuan Shi, Zhenyu Yue, | (参考訳) グラフニューラルネットワークは、解釈可能な予測を要求する重要な意思決定領域に広く適用されており、解釈可能性アルゴリズムの発達に繋がる。
しかしながら、現在のグラフ解釈性アルゴリズムは、一般性を強調し、しばしば生物学的意義を見落とし、がん薬の反応を予測するための適用性を制限している。
本稿では,がん治療薬の反応予測のためのポストホック解釈性アルゴリズムであるCETExplainerを提案する。
サブグラフと予測の間の相互情報を考慮し、予測モデルに対して微細で生物学的に意味のある説明を提供する構造的スコアリング手法を提案する。
また,提案手法を定量的に評価するために,実世界のデータセットに基づく基底真理構築手法を提案する。
実世界のデータセットに関する実証分析は、CETExplainerが優れた安定性を達成し、主要なアルゴリズムと比較して説明品質を向上させることを示し、がん薬物予測のための堅牢で洞察に富んだツールを提供する。
Graph Neural Networks have been widely applied in critical decision-making areas that demand interpretable predictions, leading to the flourishing development of interpretability algorithms. However, current graph interpretability algorithms tend to emphasize generality and often overlook biological significance, thereby limiting their applicability in predicting cancer drug responses. In this paper, we propose a novel post-hoc interpretability algorithm for cancer drug response prediction, CETExplainer, which incorporates a controllable edge-type-specific weighting mechanism. It considers the mutual information between subgraphs and predictions, proposing a structural scoring approach to provide fine-grained, biologically meaningful explanations for predictive models. We also introduce a method for constructing ground truth based on real-world datasets to quantitatively evaluate the proposed interpretability algorithm. Empirical analysis on the real-world dataset demonstrates that CETExplainer achieves superior stability and improves explanation quality compared to leading algorithms, thereby offering a robust and insightful tool for cancer drug prediction. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# VQ4DiT:拡散変圧器の高速後ベクトル量子化
VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers ( http://arxiv.org/abs/2408.17131v1 ) ライセンス: Link先を確認 | Juncan Deng, Shuaiting Li, Zeyu Wang, Hong Gu, Kedong Xu, Kejie Huang, | (参考訳) Diffusion Transformers Models (DiTs) は、ネットワークアーキテクチャを従来のUNetsからTransformersに移行し、画像生成において例外的な能力を示した。
DiTは高精細ビデオ生成タスクに広く応用されているが、その大きなパラメータサイズはエッジデバイスでの推論を妨げている。
ベクトル量子化(VQ)は、モデルの重みをコードブックと代入に分解し、極端な重み量子化とメモリ使用量の大幅な削減を可能にする。
本稿では,DiTの高速後ベクトル量子化法であるVQ4DiTを提案する。
従来のVQメソッドは、割り当てを調整せずに、コードブックのみを校正することがわかった。
これにより、ウェイトなサブベクターが誤って同じ割り当てに割り当てられ、コードブックに一貫性のない勾配を与え、亜最適結果をもたらす。
この課題に対処するため、VQ4DiTはユークリッド距離に基づいて各重み付きベクトルの候補割り当てを算出し、重み付き平均に基づいてサブベクトルを再構成する。
そして、ゼロデータ及びブロックワイドキャリブレーション法を用いて、コードブックを校正しながら、セットからの最適な割り当てを効率的に選択する。
VQ4DiTは、異なる量子化設定に応じて、単一のNVIDIA A100 GPU上のDiT XL/2モデルを20分から5時間以内に量子化する。
実験により、VQ4DiTはモデルサイズと性能トレードオフの新たな最先端性を確立し、容認可能な画像生成品質を維持しながら、重みを2ビット精度に定量化することを示した。
The Diffusion Transformers Models (DiTs) have transitioned the network architecture from traditional UNets to transformers, demonstrating exceptional capabilities in image generation. Although DiTs have been widely applied to high-definition video generation tasks, their large parameter size hinders inference on edge devices. Vector quantization (VQ) can decompose model weight into a codebook and assignments, allowing extreme weight quantization and significantly reducing memory usage. In this paper, we propose VQ4DiT, a fast post-training vector quantization method for DiTs. We found that traditional VQ methods calibrate only the codebook without calibrating the assignments. This leads to weight sub-vectors being incorrectly assigned to the same assignment, providing inconsistent gradients to the codebook and resulting in a suboptimal result. To address this challenge, VQ4DiT calculates the candidate assignment set for each weight sub-vector based on Euclidean distance and reconstructs the sub-vector based on the weighted average. Then, using the zero-data and block-wise calibration method, the optimal assignment from the set is efficiently selected while calibrating the codebook. VQ4DiT quantizes a DiT XL/2 model on a single NVIDIA A100 GPU within 20 minutes to 5 hours depending on the different quantization settings. Experiments show that VQ4DiT establishes a new state-of-the-art in model size and performance trade-offs, quantizing weights to 2-bit precision while retaining acceptable image generation quality. | 翻訳日:2024-09-02 15:58:20 公開日:2024-08-30 |
# ヒューマン・ヒューマン・モーション・ジェネレーションのための時間的・インタラクティブなモデリング
Temporal and Interactive Modeling for Efficient Human-Human Motion Generation ( http://arxiv.org/abs/2408.17135v1 ) ライセンス: Link先を確認 | Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhengkai Jiang, Yong Liu, | (参考訳) 人間-人間の運動生成は、人間を社会的存在として理解するために不可欠である。
いくつかの変圧器に基づく手法が提案されているが、通常は個々のモデルを個別にモデル化し、時間運動列の因果関係を無視する。
さらに、変圧器の注意機構は2次計算複雑性を示し、長い列を処理する際の効率を著しく低下させる。
本稿では,RWKVを用いた人間-人間の動き生成モデルを提案する,TIM(Temporal and Interactive Modeling)を提案する。
具体的には、まず、動作シーケンスの時間的特性を活用し、非因果的・煩雑なモデリングを避けるために、因果的インタラクティブインジェクションを提案する。
次に、相互作用を通して進化し続ける役割を調整するために、ロール進化ミキシングを紹介します。
最後に、よりスムーズで合理的な動きを生成するために、短期的な動きパターンを捉えるために局所パターン増幅を設計する。
InterHumanに関する大規模な実験により,本手法が優れた性能を発揮することが示された。
特にTIMは、InterGenのトレーニング可能なパラメータのわずか32%を使用して、最先端の結果を達成した。
コードはまもなく利用可能になる。
ホームページ:https://aigc-explorer.github.io/TIM-page/
Human-human motion generation is essential for understanding humans as social beings. Although several transformer-based methods have been proposed, they typically model each individual separately and overlook the causal relationships in temporal motion sequences. Furthermore, the attention mechanism in transformers exhibits quadratic computational complexity, significantly reducing their efficiency when processing long sequences. In this paper, we introduce TIM (Temporal and Interactive Modeling), an efficient and effective approach that presents the pioneering human-human motion generation model utilizing RWKV. Specifically, we first propose Causal Interactive Injection to leverage the temporal properties of motion sequences and avoid non-causal and cumbersome modeling. Then we present Role-Evolving Mixing to adjust to the ever-evolving roles throughout the interaction. Finally, to generate smoother and more rational motion, we design Localized Pattern Amplification to capture short-term motion patterns. Extensive experiments on InterHuman demonstrate that our method achieves superior performance. Notably, TIM has achieved state-of-the-art results using only 32% of InterGen's trainable parameters. Code will be available soon. Homepage: https://aigc-explorer.github.io/TIM-page/ | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 公共空間の保護と脆弱性評価のためのディジタル双極子技術の活用
Leveraging Digital Twin Technologies for Public Space Protection and Vulnerability Assessment ( http://arxiv.org/abs/2408.17136v1 ) ライセンス: Link先を確認 | Artemis Stefanidou, Jorgen Cani, Thomas Papadopoulos, Panagiotis Radoglou-Grammatikis, Panagiotis Sarigiannidis, Iraklis Varlamis, Georgios Th. Papadopoulos, | (参考訳) 近年では、いわゆる「ソフトターゲット」の保護、すなわち一般市民が容易にアクセス可能な場所の保護が比較的低いが、セキュリティ対策は比較的困難であり、ますます重要になっている。
このセキュリティ脅威の複雑さと深刻さは、人工知能(AI)、自律走行車(AV)、3Dプリンティングなど、新しい先進技術(AI)の出現によって、近年指数関数的に成長している。
特に、大規模で人気があり、多様な公共空間に関しては。
本稿では、公共空間(例えば、地下鉄駅、レジャー場、都市広場など)の保護を大幅に強化するために、新しいDigital Twin-as-a-Security-Service(DTaaSS)アーキテクチャを導入した。
提案されたフレームワークは、Digital Twin(DT)の概念化と、IoT(Internet of Things)、クラウドコンピューティング、ビッグデータ分析、AIなどの最先端技術を組み合わせたものだ。
特にDTaaSSは、公共空間の効率的でロバストな保護のために、総合的で、リアルタイム、大規模、包括的で、データ駆動型のセキュリティソリューションで構成されています。
a) データ収集と分析
b) 地域監視・管理及び予防的脅威検出
c) インシデント/アタック予測、及び
d) 定量的かつデータ駆動型脆弱性評価
全体として、デザインされたアーキテクチャは、大規模で批判的で人気のあるソフトターゲットに対する複雑でハイブリッドで複合的な脅威を扱う可能性を高めている。
DTaaSSの適用性と堅牢性については、次のような複雑な攻撃を含む、代表的で多様な現実世界のアプリケーションシナリオに対して詳細に論じられている。
a)地下鉄の駅
b)レジャー場,及び
c) 大聖堂広場
Over the recent years, the protection of the so-called `soft-targets', i.e. locations easily accessible by the general public with relatively low, though, security measures, has emerged as a rather challenging and increasingly important issue. The complexity and seriousness of this security threat growths nowadays exponentially, due to the emergence of new advanced technologies (e.g. Artificial Intelligence (AI), Autonomous Vehicles (AVs), 3D printing, etc.); especially when it comes to large-scale, popular and diverse public spaces. In this paper, a novel Digital Twin-as-a-Security-Service (DTaaSS) architecture is introduced for holistically and significantly enhancing the protection of public spaces (e.g. metro stations, leisure sites, urban squares, etc.). The proposed framework combines a Digital Twin (DT) conceptualization with additional cutting-edge technologies, including Internet of Things (IoT), cloud computing, Big Data analytics and AI. In particular, DTaaSS comprises a holistic, real-time, large-scale, comprehensive and data-driven security solution for the efficient/robust protection of public spaces, supporting: a) data collection and analytics, b) area monitoring/control and proactive threat detection, c) incident/attack prediction, and d) quantitative and data-driven vulnerability assessment. Overall, the designed architecture exhibits increased potential in handling complex, hybrid and combined threats over large, critical and popular soft-targets. The applicability and robustness of DTaaSS is discussed in detail against representative and diverse real-world application scenarios, including complex attacks to: a) a metro station, b) a leisure site, and c) a cathedral square. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 生体分子系の最適反応座標に対するフローマッチング
Flow Matching for Optimal Reaction Coordinates of Biomolecular System ( http://arxiv.org/abs/2408.17139v1 ) ライセンス: Link先を確認 | Mingyuan Zhang, Zhicheng Zhang, Yong Wang, Hao Wu, | (参考訳) 生体分子可逆力学における最適反応座標 (RC) の同定を目的とした新しい深層学習アルゴリズムであるFMRC(Flow Matching for Reaction Coordinates)を提案する。
FMRCは、深い生成モデルを用いた効率的なデータ駆動最適化のための条件付き確率フレームワークに再構成した、疎結合性と分解性の数学的原理に基づいている。
FMRCは、十分に確立された転送演算子や固有関数を明示的に学習するわけではないが、システム転送演算子の先頭の固有関数のダイナミクスを低次元RC空間に効果的にエンコードすることができる。
さらに,各RC空間に構築されたマルコフ状態モデル(MSM)の品質を評価し,より複雑な3つの生体分子系におけるFMRCの優位性を示すことによって,その性能をいくつかの最先端アルゴリズムと定量的に比較する。
最後に,拡張サンプリング法やMSM構築など,下流アプリケーションにおけるその可能性について論じる。
We present Flow Matching for Reaction Coordinates (FMRC), a novel deep learning algorithm designed to identify optimal reaction coordinates (RC) in biomolecular reversible dynamics. FMRC is based on the mathematical principles of lumpability and decomposability, which we reformulate into a conditional probability framework for efficient data-driven optimization using deep generative models. While FMRC does not explicitly learn the well-established transfer operator or its eigenfunctions, it can effectively encode the dynamics of leading eigenfunctions of the system transfer operator into its low-dimensional RC space. We further quantitatively compare its performance with several state-of-the-art algorithms by evaluating the quality of Markov State Models (MSM) constructed in their respective RC spaces, demonstrating the superiority of FMRC in three increasingly complex biomolecular systems. Finally, we discuss its potential applications in downstream applications such as enhanced sampling methods and MSM construction. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# RenDetNet:シャドーキャスター検証による弱教師付きシャドー検出
RenDetNet: Weakly-supervised Shadow Detection with Shadow Caster Verification ( http://arxiv.org/abs/2408.17143v1 ) ライセンス: Link先を確認 | Nikolina Kubiak, Elliot Wortman, Armin Mustafa, Graeme Phillipson, Stephen Jolly, Simon Hadfield, | (参考訳) 既存の影検出モデルは、暗い画像領域と影を区別するのに苦労する。
本稿では,検出されたすべての影が本物であることを検証することによって,この問題に対処する。
このステップは、シーンの異なる再レンダリングと、推定シャドウキャスターの彫刻から生じる変化を観察することにより、物理的に正確な方法で実施する。
このアプローチにより、RenDetNetは、自己教師型で監視信号を計算可能な、学習に基づく最初のシャドウ検出モデルである。
開発システムは、我々のデータで訓練された最近のモデルと好意的に比較する。
この発表の一部として、私たちはgithub.comでコードを公開しています。
Existing shadow detection models struggle to differentiate dark image areas from shadows. In this paper, we tackle this issue by verifying that all detected shadows are real, i.e. they have paired shadow casters. We perform this step in a physically-accurate manner by differentiably re-rendering the scene and observing the changes stemming from carving out estimated shadow casters. Thanks to this approach, the RenDetNet proposed in this paper is the first learning-based shadow detection model whose supervisory signals can be computed in a self-supervised manner. The developed system compares favourably against recent models trained on our data. As part of this publication, we release our code on github. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# ハイパーパラメータフリーフェデレーションラーニングを目指して
Towards Hyper-parameter-free Federated Learning ( http://arxiv.org/abs/2408.17145v1 ) ライセンス: Link先を確認 | Geetika, Drishya Uniyal, Bapi Chatterjee, | (参考訳) 大規模グローバルモデル更新のためのフェデレート学習(FL)における適応同期技術は、バニラフェデレート平均化(FedAvg)方式よりも優れた性能を示す。
しかし、既存の手法では、スケーリング係数を決定するために、サーバに調整可能なハイパーパラメータを追加している。
対照的なアプローチは、競合収束率を提供し、優れた経験的性能を示す確率勾配勾配勾配(SGD)法において、チューニング不要なステップサイズスキームに類似した自動スケーリングである。
本研究では,グローバルモデル更新の自動スケーリングのための2つのアルゴリズムを紹介する。
第1のアルゴリズムでは、クライアントにおける降下検知ステップサイズ体制が、サーバの目的に対して降下を保証することが保証される。
このようなスキームは, 強凸フェデレーション対象に対する線形収束を可能にすることを示す。
第2のアルゴリズムは,スケーリング係数の計算に要するサーバの目的関数値に対して,サンプルクライアントの目的値の平均値が実用的で効果的な代用であることを示す。
提案手法は, 凸問題と非凸問題の両方に対して, 一般的なフェデレーション学習アルゴリズムよりも同等以上の性能を示すことを示す。
我々の研究は、ハイパーパラメータフリーなフェデレーションラーニングを設計するための一歩を踏み出した。
The adaptive synchronization techniques in federated learning (FL) for scaled global model updates show superior performance over the vanilla federated averaging (FedAvg) scheme. However, existing methods employ additional tunable hyperparameters on the server to determine the scaling factor. A contrasting approach is automated scaling analogous to tuning-free step-size schemes in stochastic gradient descent (SGD) methods, which offer competitive convergence rates and exhibit good empirical performance. In this work, we introduce two algorithms for automated scaling of global model updates. In our first algorithm, we establish that a descent-ensuring step-size regime at the clients ensures descent for the server objective. We show that such a scheme enables linear convergence for strongly convex federated objectives. Our second algorithm shows that the average of objective values of sampled clients is a practical and effective substitute for the objective function value at the server required for computing the scaling factor, whose computation is otherwise not permitted. Our extensive empirical results show that the proposed methods perform at par or better than the popular federated learning algorithms for both convex and non-convex problems. Our work takes a step towards designing hyper-parameter-free federated learning. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 最適Weak-to-Strong学習の多面性
The Many Faces of Optimal Weak-to-Strong Learning ( http://arxiv.org/abs/2408.17148v1 ) ライセンス: Link先を確認 | Mikael Møller Høgsgaard, Kasper Green Larsen, Markus Engelund Mathiasen, | (参考訳) ブースティングは極めて成功したアイデアであり、複数の低い精度の分類器をはるかに正確な投票分類器に組み合わせることができる。
そこで本研究では,サンプルの複雑性を最適に向上する,新しい,驚くほど単純なブースティングアルゴリズムを提案する。
サンプル最適ブースティングアルゴリズムは、最近開発されたばかりであり、我々の新しいアルゴリズムは、これらのアルゴリズムの中で最速のランタイムを持ち、最も簡単に説明できる: トレーニングデータを5つの不連続なサイズに分割し、それぞれのAdaBoostを実行し、その結果の分類器を多数決で組み合わせる。
この理論的な貢献に加えて、提案したサンプル最適ブースティングアルゴリズムの最初の実験的な比較を行う。
我々のパイロット実験研究は、我々の新しいアルゴリズムが大規模なデータセットで以前のアルゴリズムより優れていることを示唆している。
Boosting is an extremely successful idea, allowing one to combine multiple low accuracy classifiers into a much more accurate voting classifier. In this work, we present a new and surprisingly simple Boosting algorithm that obtains a provably optimal sample complexity. Sample optimal Boosting algorithms have only recently been developed, and our new algorithm has the fastest runtime among all such algorithms and is the simplest to describe: Partition your training data into 5 disjoint pieces of equal size, run AdaBoost on each, and combine the resulting classifiers via a majority vote. In addition to this theoretical contribution, we also perform the first empirical comparison of the proposed sample optimal Boosting algorithms. Our pilot empirical study suggests that our new algorithm might outperform previous algorithms on large data sets. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# GMM-IKRS:解釈可能なキーポイントリファインメントとスコーディングのためのガウス混合モデル
GMM-IKRS: Gaussian Mixture Models for Interpretable Keypoint Refinement and Scoring ( http://arxiv.org/abs/2408.17149v1 ) ライセンス: Link先を確認 | Emanuele Santellani, Martin Zach, Christian Sormann, Mattia Rossi, Andreas Kuhn, Friedrich Fraundorfer, | (参考訳) 画像中のキーポイントの抽出は、ローカライゼーションから3D再構成に至るまで、多くのコンピュータビジョンアプリケーションに基づいている。
キーポイントには、品質に応じてスコアをランク付けできるスコアが付属する。
学習されたキーポイントは手作りのものよりも優れた特性を示すことが多いが、それらのスコアは容易に解釈できないため、メソッド間で個々のキーポイントの品質を比較することは事実上不可能である。
本稿では,どの手法でも抽出したキーポイントを解釈可能なスコアで特徴付けることができるフレームワークを提案する。
提案手法では,非ロバストなキーポイントを拒否し,残りのキーポイントを改良するために,ロバストなガウス混合モデルを改良した。
我々のスコアは2つの要素から構成されている: 1つは別の視点から捉えた画像において同じキーポイントを抽出する確率、もう1つはキーポイントの局所化精度に関する。
これら2つの解釈可能なコンポーネントは、異なる方法で抽出された個々のキーポイントの比較を可能にする。
広範にわたる実験により、一般的なキーポイント検出器に適用すると、我々のフレームワークは、キーポイントの繰り返し可能性と、ホモグラフィーにおけるそれらの性能、および2/複数ビューのポーズ回復タスクを一貫して改善することを示した。
The extraction of keypoints in images is at the basis of many computer vision applications, from localization to 3D reconstruction. Keypoints come with a score permitting to rank them according to their quality. While learned keypoints often exhibit better properties than handcrafted ones, their scores are not easily interpretable, making it virtually impossible to compare the quality of individual keypoints across methods. We propose a framework that can refine, and at the same time characterize with an interpretable score, the keypoints extracted by any method. Our approach leverages a modified robust Gaussian Mixture Model fit designed to both reject non-robust keypoints and refine the remaining ones. Our score comprises two components: one relates to the probability of extracting the same keypoint in an image captured from another viewpoint, the other relates to the localization accuracy of the keypoint. These two interpretable components permit a comparison of individual keypoints extracted across different methods. Through extensive experiments we demonstrate that, when applied to popular keypoint detectors, our framework consistently improves the repeatability of keypoints as well as their performance in homography and two/multiple-view pose recovery tasks. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# Look, Compare, Decide: Multi-View Multi-Path Reasoning による大規模視覚言語モデルにおける幻覚の緩和
Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning ( http://arxiv.org/abs/2408.17150v1 ) ライセンス: Link先を確認 | Xiaoye Qu, Jiashuo Sun, Wei Wei, Yu Cheng, | (参考訳) 近年、LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示している。
しかし、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。
幻覚を緩和するため、従来の研究は主にカスタムデータセットによるLVLMの再訓練に重点を置いていた。
効果はあるものの、本質的には計算コストがかかる。
本稿では,LVLMの生来の能力を最大限に活用することで幻覚を減らすことを目的とした学習自由フレームワークである \textbf{MVP} を提案する。
具体的には、LVLMのオリジナルビジョンエンコーダが捉えた一般的なグローバルな情報を豊かにするために、画像内の包括的情報を徹底的に知覚する多視点情報探索戦略を考案する。
さらに,解答復号の際には,幻覚の発生が解答トークンの確実性と強い相関関係があることが観察された。
そこで我々は,各情報ビューに対する多経路推論を提案し,複数の復号経路間のポテンシャル解に対する確実性スコアの定量化と集約を行い,最終的に出力解を決定する。
画像中の情報を十分に把握し,復号時の潜在的な解答の確実性を慎重に検討することにより,LVLMにおける幻覚を効果的に低減することができる。
ソースコードは: \url{https://github.com/GasolSun36/MVP}で入手できる。
Recently, Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities in multi-modal context comprehension. However, they still suffer from hallucination problems referring to generating inconsistent outputs with the image content. To mitigate hallucinations, previous studies mainly focus on retraining LVLMs with custom datasets. Although effective, they inherently come with additional computational costs. In this paper, we propose a training-free framework, \textbf{MVP}, that aims to reduce hallucinations by making the most of the innate capabilities of the LVLMs via \textbf{M}ulti-\textbf{V}iew Multi-\textbf{P}ath Reasoning. Specifically, we first devise a multi-view information-seeking strategy to thoroughly perceive the comprehensive information in the image, which enriches the general global information captured by the original vision encoder in LVLMs. Furthermore, during the answer decoding, we observe that the occurrence of hallucinations has a strong correlation with the certainty of the answer tokens. Thus, we propose multi-path reasoning for each information view to quantify and aggregate the certainty scores for each potential answer among multiple decoding paths and finally decide the output answer. By fully grasping the information in the image and carefully considering the certainty of the potential answers when decoding, our MVP can effectively reduce hallucinations in LVLMs.The extensive experiments verify that our proposed MVP significantly mitigates the hallucination problem across four well-known LVLMs. The source code is available at: \url{https://github.com/GasolSun36/MVP}. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# レコンストラクションアタックによる次元性低減手法におけるプライバシリークの調査
Investigating Privacy Leakage in Dimensionality Reduction Methods via Reconstruction Attack ( http://arxiv.org/abs/2408.17151v1 ) ライセンス: Link先を確認 | Chayadon Lumbut, Donlapark Ponnoprat, | (参考訳) 本研究では,新しい機械学習による再構築攻撃による次元性低減手法のプライバシー漏洩について検討する。
低次元埋め込みから高次元データを再構成できるニューラルネットワークを開発した。
我々は,PCA,スパースランダムプロジェクション (SRP), 多次元スケーリング (MDS), Isomap, $t$-SNE, UMAPの6つの一般的な次元削減手法を評価する。
MNISTとNIH Chest X-rayの両方のデータセットを用いて,再構成品質に影響を及ぼす重要な要因を特定する定性解析を行った。
さらに,これらのリコンストラクション攻撃を緩和するための付加的なノイズ機構の有効性を評価する。
This study investigates privacy leakage in dimensionality reduction methods through a novel machine learning-based reconstruction attack. Employing an \emph{informed adversary} threat model, we develop a neural network capable of reconstructing high-dimensional data from low-dimensional embeddings. We evaluate six popular dimensionality reduction techniques: PCA, sparse random projection (SRP), multidimensional scaling (MDS), Isomap, $t$-SNE, and UMAP. Using both MNIST and NIH Chest X-ray datasets, we perform a qualitative analysis to identify key factors affecting reconstruction quality. Furthermore, we assess the effectiveness of an additive noise mechanism in mitigating these reconstruction attacks. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 長期心電図診断のための自己監督型異常検出
Self-supervised Anomaly Detection Pretraining Enhances Long-tail ECG Diagnosis ( http://arxiv.org/abs/2408.17154v1 ) ライセンス: Link先を確認 | Aofan Jiang, Chaoqin Huang, Qing Cao, Yuchen Xu, Zi Zeng, Kang Chen, Ya Zhang, Yanfeng Wang, | (参考訳) 現在のコンピュータ支援心電図診断システムは、心電図データセットの不均衡の性質により、まれながら重要な心電図異常の軽度検出に苦慮している。
本研究は、この制限に対処するために、自己教師付き異常検出プリトレーニングを用いた新しいアプローチを提案する。
異常検出モデルは、正常な心臓パターンからの微妙な偏差を検出し、局所化するように設計されており、正確な心電図解釈に必須のニュアンスドの詳細を捉えている。
116の異なるカテゴリにまたがる長い尾の分布を特徴とする、100万以上の心電図の広範なデータセットで検証された異常検出予測ECG診断モデルは、全体的な精度を著しく改善した。
特に,AUROCは94.7%,感度92.2%,特異度92.5\%であり,従来のECGよりも有意に優れ,ECGと性能ギャップは狭かった。
心電図解析に事前学習した異常検出の統合は、臨床診断における長期データ分布の長年の課題に対処するため、この分野に多大な貢献をする。
さらに、実世界の臨床環境での予測的検証により、私たちのAI駆動のアプローチは、標準的なプラクティスと比較して診断効率、精度、完全性を32%、6.7%、11.8%向上させることが明らかとなった。
この進歩は、急速かつ正確な心電図解釈が不可欠である緊急ケアに特に重要な意味を持つ、臨床心臓学におけるAIの統合における重要な一歩である。
本研究の貢献は、現在の心電図診断能力の境界を推し進めるだけでなく、より信頼性が高くアクセスしやすい心血管ケアの基盤となる。
Current computer-aided ECG diagnostic systems struggle with the underdetection of rare but critical cardiac anomalies due to the imbalanced nature of ECG datasets. This study introduces a novel approach using self-supervised anomaly detection pretraining to address this limitation. The anomaly detection model is specifically designed to detect and localize subtle deviations from normal cardiac patterns, capturing the nuanced details essential for accurate ECG interpretation. Validated on an extensive dataset of over one million ECG records from clinical practice, characterized by a long-tail distribution across 116 distinct categories, the anomaly detection-pretrained ECG diagnostic model has demonstrated a significant improvement in overall accuracy. Notably, our approach yielded a 94.7% AUROC, 92.2% sensitivity, and 92.5\% specificity for rare ECG types, significantly outperforming traditional methods and narrowing the performance gap with common ECG types. The integration of anomaly detection pretraining into ECG analysis represents a substantial contribution to the field, addressing the long-standing challenge of long-tail data distributions in clinical diagnostics. Furthermore, prospective validation in real-world clinical settings revealed that our AI-driven approach enhances diagnostic efficiency, precision, and completeness by 32%, 6.7%, and 11.8% respectively, when compared to standard practices. This advancement marks a pivotal step forward in the integration of AI within clinical cardiology, with particularly profound implications for emergency care, where rapid and accurate ECG interpretation is crucial. The contributions of this study not only push the boundaries of current ECG diagnostic capabilities but also lay the groundwork for more reliable and accessible cardiovascular care. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 相対論的交換境界
Relativistic Exchange Bounds ( http://arxiv.org/abs/2408.17158v1 ) ライセンス: Link先を確認 | Long Meng, Heinz Siedentop, Matthias Tiefenbeck, | (参考訳) 我々は、相対論的非線形フォックとM\"uller関数の交換エネルギーの推定値を収集し、それを用いて、自由図形における相対論的M\"uller関数の最小値の存在と物質安定性を示す。
We collect estimates of the exchange energy of the relativistic no-pair Hartree-Fock and M\"uller functional and use them to show the existence of a minimizer and stability of matter of the relativistic M\"uller functional in the free picture. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# タブラルデータのためのディープ・フィーチャー・埋め込み
Deep Feature Embedding for Tabular Data ( http://arxiv.org/abs/2408.17162v1 ) ライセンス: Link先を確認 | Yuqian Wu, Hengyi Luo, Raymond S. T. Lee, | (参考訳) タブラルデータ学習は、ディープラーニングに広く応用されているが、既存の埋め込み技術は、複雑な関係やエンジニアリングを捉えることができないなど、数値的および分類学的特徴に限られている。
本稿では、軽量なディープニューラルネットワークを活用して、機械学習研究における表層データに対する効果的な特徴埋め込みを生成する新しいディープ埋め込みフレームワークを提案する。
数値的特徴量には、2段階の特徴展開と深層変換法が用いられる。
分類的特徴に対して、各エンティティのユニークな識別ベクトルは、パラメータ化された深層埋め込み関数を備えたコンパクトなルックアップテーブルによって参照され、埋め込みサイズ寸法を均一化し、ディープニューラルネットワークを用いて埋め込みベクトルに変換する。
実世界のデータセットを用いて実験を行い、性能評価を行った。
Tabular data learning has extensive applications in deep learning but its existing embedding techniques are limited in numerical and categorical features such as the inability to capture complex relationships and engineering. This paper proposes a novel deep embedding framework with leverages lightweight deep neural networks to generate effective feature embeddings for tabular data in machine learning research. For numerical features, a two-step feature expansion and deep transformation technique is used to capture copious semantic information. For categorical features, a unique identification vector for each entity is referred by a compact lookup table with a parameterized deep embedding function to uniform the embedding size dimensions, and transformed into a embedding vector using deep neural network. Experiments are conducted on real-world datasets for performance evaluation. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 反復的最適脳サージオン:2次情報を利用したより高速なスパース回復
The Iterative Optimal Brain Surgeon: Faster Sparse Recovery by Leveraging Second-Order Information ( http://arxiv.org/abs/2408.17163v1 ) ライセンス: Link先を確認 | Diyuan Wu, Ionut-Vlad Modoranu, Mher Safaryan, Denis Kuznedelev, Dan Alistarh, | (参考訳) 機械学習のフットプリントの増大により、計算とメモリコストを削減する手段として、 \emph{model sparsity} を取り入れることに焦点が当てられている。
ディープニューラルネットワーク(DNN)では、最先端の精度-vs-スパーシリティは、古典的なオプティマル脳サージオン(OBS)フレームワーク~\citep{lecun90brain、hassibi 1992second、hassibi 1993optimal}にインスパイアされたヒューリスティックスによって達成される。
しかし,これらの結果には十分な理論的理解が欠如しており,疎い回復アルゴリズムに関する豊富な研究との結びつきを生かして改善できるかどうかは不明である。
本稿では,これら2つの領域間の新たな接続を図り,OBSフレームワークにヒントを得て,合理的な仮定の下で理論的保証を付与し,実用的な性能を有する新しいスパースリカバリアルゴリズムを提案する。
具体的には、IHTのような古典的反復スパース回復アルゴリズムの投影ステップに基づいて、OBSのような方法で曲率情報を活用できることから着目する。
このことが標準仮定の下での収束境界の改善に繋がることを示すのはこれが初めてである。
さらに,本手法の拡張を,正確なスパースDNNを得るための実践的タスクに適用し,視覚および言語タスクのトランスフォーマーモデルに対して,大規模に検証する。
The rising footprint of machine learning has led to a focus on imposing \emph{model sparsity} as a means of reducing computational and memory costs. For deep neural networks (DNNs), the state-of-the-art accuracy-vs-sparsity is achieved by heuristics inspired by the classical Optimal Brain Surgeon (OBS) framework~\citep{lecun90brain, hassibi1992second, hassibi1993optimal}, which leverages loss curvature information to make better pruning decisions. Yet, these results still lack a solid theoretical understanding, and it is unclear whether they can be improved by leveraging connections to the wealth of work on sparse recovery algorithms. In this paper, we draw new connections between these two areas and present new sparse recovery algorithms inspired by the OBS framework that comes with theoretical guarantees under reasonable assumptions and have strong practical performance. Specifically, our work starts from the observation that we can leverage curvature information in OBS-like fashion upon the projection step of classic iterative sparse recovery algorithms such as IHT. We show for the first time that this leads both to improved convergence bounds under standard assumptions. Furthermore, we present extensions of this approach to the practical task of obtaining accurate sparse DNNs, and validate it experimentally at scale for Transformer-based models on vision and language tasks. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 逆ラベル雑音を伴う一般半空間の効率的なテスト可能学習
Efficient Testable Learning of General Halfspaces with Adversarial Label Noise ( http://arxiv.org/abs/2408.17165v1 ) ライセンス: Link先を確認 | Ilias Diakonikolas, Daniel M. Kane, Sihan Liu, Nikos Zarifis, | (参考訳) ガウス分布に対する逆ラベルノイズを持つ一般(必ずしも同質ではない)半空間の検証可能な学習の課題について検討する。
テスト可能な学習フレームワークでは、データがテスタを通過すると、データ上で頑健な学習者の出力を信頼できるようなテスタ-ラーナーを開発することを目的としており、我々の主な成果は、次元に依存しない誤分類誤差を達成する一般的なハーフスペースに対する最初の多項式時間テスタ-ラーナーである。
我々のアプローチの核心は、一般的なハーフ空間の検証可能な学習を、より広い関心を持つであろうほぼ同質なハーフ空間の検証可能な学習に還元する新しい手法である。
We study the task of testable learning of general -- not necessarily homogeneous -- halfspaces with adversarial label noise with respect to the Gaussian distribution. In the testable learning framework, the goal is to develop a tester-learner such that if the data passes the tester, then one can trust the output of the robust learner on the data.Our main result is the first polynomial time tester-learner for general halfspaces that achieves dimension-independent misclassification error. At the heart of our approach is a new methodology to reduce testable learning of general halfspaces to testable learning of nearly homogeneous halfspaces that may be of broader interest. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# 音場定位・検出のためのマルチターゲットTDOA特徴の学習
Learning Multi-Target TDOA Features for Sound Event Localization and Detection ( http://arxiv.org/abs/2408.17166v1 ) ライセンス: Link先を確認 | Axel Berg, Johanna Engman, Jens Gulin, Karl Åström, Magnus Oskarsson, | (参考訳) マイクロホンアレイからの音声記録を用いた音事象の定位・検出(SELD)システムは、音事象の位置を決定するための空間的手がかりに依存している。
その結果、このようなシステムのローカライズ性能は、システムへの入力として使用される音声特徴の品質によって決定される。
本稿では,位相変換(NGCC-PHAT)を用いたニューラル一般化相互相関に基づく,局所化に適した音声表現を学習する新機能を提案する。
NGCC-PHATは,複数重重畳音事象に対するTDOA特徴を学習することができる。
これらの機能は、SELD-networkへのGCC-PHAT入力のドロップイン代替として使用することができる。
提案手法をSTARSS23データセット上でテストし,標準GCC-PHAT や SALSA-Lite の入力機能と比較して,ローカライズ性能の向上を実証した。
Sound event localization and detection (SELD) systems using audio recordings from a microphone array rely on spatial cues for determining the location of sound events. As a consequence, the localization performance of such systems is to a large extent determined by the quality of the audio features that are used as inputs to the system. We propose a new feature, based on neural generalized cross-correlations with phase-transform (NGCC-PHAT), that learns audio representations suitable for localization. Using permutation invariant training for the time-difference of arrival (TDOA) estimation problem enables NGCC-PHAT to learn TDOA features for multiple overlapping sound events. These features can be used as a drop-in replacement for GCC-PHAT inputs to a SELD-network. We test our method on the STARSS23 dataset and demonstrate improved localization performance compared to using standard GCC-PHAT or SALSA-Lite input features. | 翻訳日:2024-09-02 15:48:34 公開日:2024-08-30 |
# EMHI:HMDとBody-Worn IMUを用いたマルチモーダル人間中心型モーションデータセット
EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs ( http://arxiv.org/abs/2408.17168v1 ) ライセンス: Link先を確認 | Zhen Fan, Peng Dai, Zhuo Su, Xu Gao, Zheng Lv, Jiarui Zhang, Tianyuan Du, Guidong Wang, Yang Zhang, | (参考訳) ウェアラブルセンサを用いた人間中心のポーズ推定(HPE)はVR/ARアプリケーションに不可欠である。
ほとんどの方法は、遠心画像またはスパース慣性測定ユニット(IMU)信号にのみ依存しており、画像の自己閉塞や慣性センサーのスパースネスとドリフトによる不正確な結果をもたらす。
最も重要なことは、両方のモダリティを含む実世界のデータセットが欠如していることが、この分野の進歩の大きな障害であることだ。
この障壁を克服するため、本研究では、実VR製品スイートで収集された全データを用いて、マルチモーダルな \textbf{E}gocentric human \textbf{M}otion data with \textbf{H}ead-Mounted Display (HMD) とボディーウーンの \textbf{I}MUs を提案する。
特にEMHIは、ヘッドセット上の下向きのカメラからのステレオ画像と、ボディウーンのセンサーからのIMUデータと、SMPL形式のポーズアノテーションを提供する。
このデータセットは、58人の被験者が39のアクションを実行し、計28.5時間の録音を行う885のシーケンスで構成されている。
アノテーションを光学マーカーを用いたSMPLフィッティング結果と比較することにより,アノテーションの評価を行った。
本稿では,マルチモーダル融合エンコーダ,時間的特徴エンコーダ,MLPに基づく回帰ヘッドを用いたマルチモーダル自己中心型HPEの新たなベースライン手法であるMEPoserを紹介する。
EMHI実験により、MEPoserは既存の単一モーダル手法よりも優れており、エゴセントリックHPEの問題を解決する際のデータセットの価値を示している。
EMHIのリリースとその手法は,エゴセントリックなHPEの研究を推進し,VR/AR製品におけるこの技術の実践的実装を迅速化できると考えている。
Egocentric human pose estimation (HPE) using wearable sensors is essential for VR/AR applications. Most methods rely solely on either egocentric-view images or sparse Inertial Measurement Unit (IMU) signals, leading to inaccuracies due to self-occlusion in images or the sparseness and drift of inertial sensors. Most importantly, the lack of real-world datasets containing both modalities is a major obstacle to progress in this field. To overcome the barrier, we propose EMHI, a multimodal \textbf{E}gocentric human \textbf{M}otion dataset with \textbf{H}ead-Mounted Display (HMD) and body-worn \textbf{I}MUs, with all data collected under the real VR product suite. Specifically, EMHI provides synchronized stereo images from downward-sloping cameras on the headset and IMU data from body-worn sensors, along with pose annotations in SMPL format. This dataset consists of 885 sequences captured by 58 subjects performing 39 actions, totaling about 28.5 hours of recording. We evaluate the annotations by comparing them with optical marker-based SMPL fitting results. To substantiate the reliability of our dataset, we introduce MEPoser, a new baseline method for multimodal egocentric HPE, which employs a multimodal fusion encoder, temporal feature encoder, and MLP-based regression heads. The experiments on EMHI show that MEPoser outperforms existing single-modal methods and demonstrates the value of our dataset in solving the problem of egocentric HPE. We believe the release of EMHI and the method could advance the research of egocentric HPE and expedite the practical implementation of this technology in VR/AR products. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# SafeTail: 計算冗長性管理によるエッジサービススケジューリングにおける効率的な遅延最適化
SafeTail: Efficient Tail Latency Optimization in Edge Service Scheduling via Computational Redundancy Management ( http://arxiv.org/abs/2408.17171v1 ) ライセンス: Link先を確認 | Jyoti Shokhanda, Utkarsh Pal, Aman Kumar, Soumi Chattopadhyay, Arani Bhattacharya, | (参考訳) エッジコンピューティングで高性能でレイテンシに敏感なサービスを提供するためには,計算資源を効率的に管理しながらテールレイテンシを最適化することが重要である。
拡張現実のような新興アプリケーションは、しばしば計算能力に制限があるユーザデバイスに高い信頼性を持つ低レイテンシコンピューティングサービスを必要とする。
その結果、これらのデバイスは処理のために近くのエッジサーバに依存している。
しかし、無線ネットワークのばらつきやサーバ負荷の変動に起因するネットワークや計算待ち時間に固有の不確実性は、時間の経過とともにサービスのデリバリを困難にしている。
既存のアプローチでは、中央値レイテンシの最適化に重点を置いていることが多いが、特に不確実なネットワークや計算条件下では、エッジ環境におけるテールレイテンシの特定の課題に対処できない。
一部のメソッドはテールレイテンシに対処するが、通常は固定あるいは過剰な冗長性に依存し、動的ネットワーク条件への適応性に欠けており、エッジコンピューティングのユニークな要求ではなく、クラウド環境向けに設計されることが多い。
本稿では,中央値と末尾値の両方の応答時間目標を満たすフレームワークであるSafeTailについて紹介する。
SafeTailは、ターゲットのレイテンシを満たすために、複数のエッジサーバにサービスを選択的に複製することで、この問題に対処する。
SafeTailは報酬ベースのディープラーニングフレームワークを使用して、最適な配置戦略を学習し、新たなリソース使用量を最小限に抑えて、目標のレイテンシを達成する必要性のバランスを取る。
トレース駆動のシミュレーションを通じてSafeTailは、ほぼ最適なパフォーマンスを示し、3つの多様なサービスで、ほとんどのベースライン戦略を上回った。
Optimizing tail latency while efficiently managing computational resources is crucial for delivering high-performance, latency-sensitive services in edge computing. Emerging applications, such as augmented reality, require low-latency computing services with high reliability on user devices, which often have limited computational capabilities. Consequently, these devices depend on nearby edge servers for processing. However, inherent uncertainties in network and computation latencies stemming from variability in wireless networks and fluctuating server loads make service delivery on time challenging. Existing approaches often focus on optimizing median latency but fall short of addressing the specific challenges of tail latency in edge environments, particularly under uncertain network and computational conditions. Although some methods do address tail latency, they typically rely on fixed or excessive redundancy and lack adaptability to dynamic network conditions, often being designed for cloud environments rather than the unique demands of edge computing. In this paper, we introduce SafeTail, a framework that meets both median and tail response time targets, with tail latency defined as latency beyond the 90^th percentile threshold. SafeTail addresses this challenge by selectively replicating services across multiple edge servers to meet target latencies. SafeTail employs a reward-based deep learning framework to learn optimal placement strategies, balancing the need to achieve target latencies with minimizing additional resource usage. Through trace-driven simulations, SafeTail demonstrated near-optimal performance and outperformed most baseline strategies across three diverse services. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# Codecが重要: 音声言語モデルのためのCodecのセマンティックな欠点を探る
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model ( http://arxiv.org/abs/2408.17175v1 ) ライセンス: Link先を確認 | Zhen Ye, Peiwen Sun, Jiahe Lei, Hongzhan Lin, Xu Tan, Zheqi Dai, Qiuqiang Kong, Jianyi Chen, Jiahao Pan, Qifeng Liu, Yike Guo, Wei Xue, | (参考訳) 近年の音声生成の進歩は,Large Language Models (LLMs) の能力によって著しく促進されている。
オーディオLLMに関する既存の研究は、主にオーディオ言語モデルのアーキテクチャとスケールの向上、より大きなデータセットの活用に重点を置いており、一般にはEnCodecのような音響コーデックがオーディオトークン化に使用されている。
しかし、これらのコーデックはもともとオーディオ圧縮のために設計されており、オーディオLLMの文脈において、最適以下の性能をもたらす可能性がある。
本研究の目的は,現在のLLMコーデックの欠点,特に生成音声における意味的整合性を維持する上での課題に対処することである。
例えば、テキストの書き起こしに音響トークンを生成するVALL-Eのような既存の手法は、しばしば内容の不正確さと、音響トークンの意味的誤解釈による単語誤り率(WER)の上昇に悩まされ、単語のスキップやエラーが発生する。
これらの問題を克服するために、X-Codec と呼ばれる単純で効果的なアプローチを提案する。
X-Codecは、Residual Vector Quantization (RVQ)ステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を導入し、RVQ後のセマンティック再構築損失を導入する。
コーデックの意味的能力を高めることで、X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を音楽や音声生成を含む非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
私たちのコードとデモは利用可能です(Demo: https://x-codec-audio.github.io Code: https://github.com/zhenye234/xcodec)。
Recent advancements in audio generation have been significantly propelled by the capabilities of Large Language Models (LLMs). The existing research on audio LLM has primarily focused on enhancing the architecture and scale of audio language models, as well as leveraging larger datasets, and generally, acoustic codecs, such as EnCodec, are used for audio tokenization. However, these codecs were originally designed for audio compression, which may lead to suboptimal performance in the context of audio LLM. Our research aims to address the shortcomings of current audio LLM codecs, particularly their challenges in maintaining semantic integrity in generated audio. For instance, existing methods like VALL-E, which condition acoustic token generation on text transcriptions, often suffer from content inaccuracies and elevated word error rates (WER) due to semantic misinterpretations of acoustic tokens, resulting in word skipping and errors. To overcome these issues, we propose a straightforward yet effective approach called X-Codec. X-Codec incorporates semantic features from a pre-trained semantic encoder before the Residual Vector Quantization (RVQ) stage and introduces a semantic reconstruction loss after RVQ. By enhancing the semantic ability of the codec, X-Codec significantly reduces WER in speech synthesis tasks and extends these benefits to non-speech applications, including music and sound generation. Our experiments in text-to-speech, music continuation, and text-to-sound tasks demonstrate that integrating semantic information substantially improves the overall performance of language models in audio generation. Our code and demo are available (Demo: https://x-codec-audio.github.io Code: https://github.com/zhenye234/xcodec) | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# 効率的なバランス解析のためのPvPゲームにおけるチーム構成の同定とクラスタリングカウンタ関係
Identifying and Clustering Counter Relationships of Team Compositions in PvP Games for Efficient Balance Analysis ( http://arxiv.org/abs/2408.17180v1 ) ライセンス: Link先を確認 | Chiu-Chou Lin, Yu-Wei Shih, Kuei-Ting Kuo, Yu-Cheng Chen, Chien-Hua Chen, Wei-Chen Chiu, I-Chen Wu, | (参考訳) ゲーム設定でどのようにバランスを定量化できるか?
この問題はゲームデザイナ、特にPvPゲームにおいて、マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームにおけるヒーローの組み合わせやカードゲームにおけるデッキなど、事前に定義されたチーム構成間の強度関係を分析することが、ゲームプレイの強化とバランス達成に不可欠である。
我々は、ゼロサム競争シナリオにおけるバランスを定量化するために、単純勝率を超えて拡張する2つの先進的な尺度を開発した。
これらの測定は、Bradley-Terryモデルによる強度評価近似とベクトル量子化による相関関係近似を用いて、従来の勝利値推定に付随する計算複雑性を著しく低減した勝利値推定から導かれる。
これらのモデルの学習過程を通じて、構成の有用なカテゴリを特定し、特定のゲーム知識を必要とせず、人間のプレイヤの経験と整合して、それらの対向関係を見極める。
本手法は, 決定論的ベクトル量子化プロセスを用いて, 離散表現におけるコードブックの利用性を高めるための, 極めて小さな状態空間に対する簡単な手法に基づく。
私たちのフレームワークは、Eage of Empires II、Hearthstone、Brawl Stars、League of Legendsなど、人気のあるオンラインゲームで検証されています。
これらのゲームにおける観測された強度関係の精度は、従来の対の勝利値予測に匹敵するが、解析の複雑さもより管理しやすい。
最終的に,本研究はPvPゲーム力学の深い理解に寄与し,ゲームバランスの評価と設計を大幅に改善する方法論を提案する。
How can balance be quantified in game settings? This question is crucial for game designers, especially in player-versus-player (PvP) games, where analyzing the strength relations among predefined team compositions-such as hero combinations in multiplayer online battle arena (MOBA) games or decks in card games-is essential for enhancing gameplay and achieving balance. We have developed two advanced measures that extend beyond the simplistic win rate to quantify balance in zero-sum competitive scenarios. These measures are derived from win value estimations, which employ strength rating approximations via the Bradley-Terry model and counter relationship approximations via vector quantization, significantly reducing the computational complexity associated with traditional win value estimations. Throughout the learning process of these models, we identify useful categories of compositions and pinpoint their counter relationships, aligning with the experiences of human players without requiring specific game knowledge. Our methodology hinges on a simple technique to enhance codebook utilization in discrete representation with a deterministic vector quantization process for an extremely small state space. Our framework has been validated in popular online games, including Age of Empires II, Hearthstone, Brawl Stars, and League of Legends. The accuracy of the observed strength relations in these games is comparable to traditional pairwise win value predictions, while also offering a more manageable complexity for analysis. Ultimately, our findings contribute to a deeper understanding of PvP game dynamics and present a methodology that significantly improves game balance evaluation and design. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# 電子健康記録からの臨床的事象文脈特性の抽出の改善 : 比較研究
Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study ( http://arxiv.org/abs/2408.17181v1 ) ライセンス: Link先を確認 | Shubham Agarwal, Thomas Searle, Mart Ratas, Anthony Shek, James Teo, Richard Dobson, | (参考訳) 電子健康記録(Electronic Health Records)は貴重な臨床データの大規模なリポジトリであり、かなりの部分は構造化されていないテキスト形式で保存されている。
このテキストデータには、臨床イベント(例えば、障害、症状、発見、薬品、処置)が含まれており、スケールで正確に抽出すれば、病気の予測のような貴重な下流の応用を解き放つことができる。
既存の名前付きエンティティ認識とリンク手法であるMedCATを使用することで、これらの概念は、患者との関係性、例えば、時間的および否定的な状態が下流で有用であるために、さらに分類(コンテキスト化)する必要がある。
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
大規模な実験により、トランスフォーマーベースの言語モデル、特にBERTの有効性が明らかにされた。
クラス不均衡緩和技術と組み合わせると、BERTはBi-LSTMモデルを最大28%、ベースラインBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
このメソッドは、CogStack/MedCATフレームワークの一部として実装され、さらなる研究のためにコミュニティで利用できるようになった。
Electronic Health Records are large repositories of valuable clinical data, with a significant portion stored in unstructured text format. This textual data includes clinical events (e.g., disorders, symptoms, findings, medications and procedures) in context that if extracted accurately at scale can unlock valuable downstream applications such as disease prediction. Using an existing Named Entity Recognition and Linking methodology, MedCAT, these identified concepts need to be further classified (contextualised) for their relevance to the patient, and their temporal and negated status for example, to be useful downstream. This study performs a comparative analysis of various natural language models for medical text classification. Extensive experimentation reveals the effectiveness of transformer-based language models, particularly BERT. When combined with class imbalance mitigation techniques, BERT outperforms Bi-LSTM models by up to 28% and the baseline BERT model by up to 16% for recall of the minority classes. The method has been implemented as part of CogStack/MedCAT framework and made available to the community for further research. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# 重度物体検出のためのハイブリッド分類・回帰適応損失
Hybrid Classification-Regression Adaptive Loss for Dense Object Detection ( http://arxiv.org/abs/2408.17182v1 ) ライセンス: Link先を確認 | Yanquan Huang, Liu Wei Zhen, Yun Hao, Mengyuan Zhang, Qingyao Wu, Zikun Deng, Xueming Liu, Hong Deng, | (参考訳) 物体検出検出器の場合、モデル性能のヒンジはタスク間の矛盾を同時に考慮し、訓練が難しいサンプルに集中することができる。
これを達成するには、分類タスクと回帰タスクの両方から情報を取り入れる必要がある。
しかしながら、事前の作業では、各タスク内でのトレーニングが難しいサンプルを強調したり、IoUで分類スコアを単純に計算する傾向があり、しばしば準最適モデルの性能に繋がる。
本稿では,HCRALと呼ばれるハイブリッド分類適応損失を提案する。
具体的には、タスク間の監視、タスクの不整合に対処するためのResidual of Classification and IoU (RCI)モジュールと、各タスク内でのトレーニングが難しいサンプルに焦点を合わせるための Conditioning Factor (CF) を導入する。
さらに,ATSS(Expanded Adaptive Training Sample Selection)という新たな戦略を導入する。
提案手法の有効性を検証するため,COCOテストデブについて広範な実験を行った。
実験による評価は、我々のアプローチの優位性を示している。
さらに,一般的な1段モデルにおいて,分類と回帰損失を正規損失関数と独立に組み合わせて実験を行い,性能を向上した。
For object detection detectors, enhancing model performance hinges on the ability to simultaneously consider inconsistencies across tasks and focus on difficult-to-train samples. Achieving this necessitates incorporating information from both the classification and regression tasks. However, prior work tends to either emphasize difficult-to-train samples within their respective tasks or simply compute classification scores with IoU, often leading to suboptimal model performance. In this paper, we propose a Hybrid Classification-Regression Adaptive Loss, termed as HCRAL. Specifically, we introduce the Residual of Classification and IoU (RCI) module for cross-task supervision, addressing task inconsistencies, and the Conditioning Factor (CF) to focus on difficult-to-train samples within each task. Furthermore, we introduce a new strategy named Expanded Adaptive Training Sample Selection (EATSS) to provide additional samples that exhibit classification and regression inconsistencies. To validate the effectiveness of the proposed method, we conduct extensive experiments on COCO test-dev. Experimental evaluations demonstrate the superiority of our approachs. Additionally, we designed experiments by separately combining the classification and regression loss with regular loss functions in popular one-stage models, demonstrating improved performance. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# ソフトウェア品質保証の因果推論:システムレビュー
Causal Reasoning in Software Quality Assurance: A Systematic Review ( http://arxiv.org/abs/2408.17183v1 ) ライセンス: Link先を確認 | Luca Giamattei, Antonio Guerriero, Roberto Pietrantuono, Stefano Russo, | (参考訳) コンテキスト:ソフトウェア品質保証(Software Quality Assurance, SQA)は、ソフトウェア製品のリリース後の期待通りに動作することを保証するソフトウェアエンジニアリングの基本的な部分である。
機械学習(ML)は、SQA活動を強化し、高品質なソフトウェアシステムの開発に貢献できることが証明されている。
このような状況下では、現在のML制限のいくつかを解決する方法論として、Causal Reasoningが関心を集めている。
より効果的なSQA戦略に因果性を利用することによって、純粋にデータ駆動のアプローチを超えていくことを目指している。
目的:SQA活動における因果推論の利用について、研究者がこの研究分野にアクセスし、応用の場、主な課題、研究の機会を特定するために、広範かつ詳細な概要を提供する。
方法:SQA研究領域における因果推論の体系的文献レビュー
科学論文は、ソフトウェア工学二次研究の確立されたガイドラインに従って、検索、分類、分析されてきた。
結果: 因果推論が適用されたSQAの主要な領域, 使用方法, 提案手法の成熟度について検討した。
障害のローカライゼーションは、特にWebサービス/マイクロサービスドメインにおいて、因果推論をより活用するアクティビティですが、テストのような他のタスクが急速に人気を集めています。
因果推論と因果発見の両方が利用されており、パール図による因果関係の定式化が好まれている。
アプリケーションを好むツールは急速に現れており、そのほとんどが2021年以降である。
結論: 因果推論は、複数の品質特性、特にV&Vにおいて、信頼性を確保するための進化とメンテナンスにおいて、SQAタスクにとって価値のある手段であることを示している。
Context: Software Quality Assurance (SQA) is a fundamental part of software engineering to ensure stakeholders that software products work as expected after release in operation. Machine Learning (ML) has proven to be able to boost SQA activities and contribute to the development of quality software systems. In this context, Causal Reasoning is gaining increasing interest as a methodology to solve some of the current ML limitations. It aims to go beyond a purely data-driven approach by exploiting the use of causality for more effective SQA strategies. Objective: Provide a broad and detailed overview of the use of causal reasoning for SQA activities, in order to support researchers to access this research field, identifying room for application, main challenges and research opportunities. Methods: A systematic literature review of causal reasoning in the SQA research area. Scientific papers have been searched, classified, and analyzed according to established guidelines for software engineering secondary studies. Results: Results highlight the primary areas within SQA where causal reasoning has been applied, the predominant methodologies used, and the level of maturity of the proposed solutions. Fault localization is the activity where causal reasoning is more exploited, especially in the web services/microservices domain, but other tasks like testing are rapidly gaining popularity. Both causal inference and causal discovery are exploited, with the Pearl's graphical formulation of causality being preferred, likely due to its intuitiveness. Tools to favour their application are appearing at a fast pace - most of them after 2021. Conclusions: The findings show that causal reasoning is a valuable means for SQA tasks with respect to multiple quality attributes, especially during V&V, evolution and maintenance to ensure reliability, while it is not yet fully exploited for phases like ... | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# 自己主権を持つモノのインターネットの安全管理と移動
Secure Ownership Management and Transfer of Consumer Internet of Things Devices with Self-sovereign Identity ( http://arxiv.org/abs/2408.17184v1 ) ライセンス: Link先を確認 | Nazmus Sakib, Md Yeasin Ali, Nuran Mubashshira Momo, Marzia Islam Mumu, Masum Al Nahid, Fairuz Rahaman Chowdhury, Md Sadek Ferdous, | (参考訳) IoT(Internet of Things)の人気は、過去10~12年の間に、私たちの家や業界での利用を加速させてきました。
しかしながら、IoTデバイス、特にコンシューマIoTデバイスに関わるID管理とオーナシップの転送に関して、いくつかの大きな問題があった。
G
スマートテレビや スマート冷蔵庫などの スマートアプライアンスです
この問題に対処する試みはいくつかあるが、IoTデバイスのユーザ中心で効果的なオーナシップとID管理は、今のところあまり成功していない。
最近、ブロックチェーン技術は、これらの問題に限られた成功で対処するために使われてきた。
本稿では、コンシューマIoTデバイスのセキュアでユーザ中心のオーナシップ管理と転送を容易にする、SSI(Self-Sovereign Identity)ベースのシステムを提案する。
このシステムは、ブロックチェーンや分散識別子(DID)、検証認証資格(VC)など、SSIの傘下にある多くの新興技術を活用している。
本稿では,脅威モデルと要件分析に基づくシステムのアーキテクチャについて述べるとともに,提案システムに基づく概念実証の実装について論じ,その詳細なプロトコルフローを解説する。
さらに,最先端のプロトコル検証ツールであるProVerifを用いてセキュリティを分析し,その性能について検討する。
The popularity of the Internet of Things (IoT) has driven its usage in our homes and industries over the past 10-12 years. However, there have been some major issues related to identity management and ownership transfer involving IoT devices, particularly for consumer IoT devices, e. g. smart appliances such as smart TVs, smart refrigerators, and so on. There have been a few attempts to address this issue; however, user-centric and effective ownership and identity management of IoT devices have not been very successful so far. Recently, blockchain technology has been used to address these issues with limited success. This article presents a Self-sovereign Identity (SSI) based system that facilitates a secure and user-centric ownership management and transfer of consumer IoT devices. The system leverages a number of emerging technologies, such as blockchain and decentralized identifiers (DID), verifiable credentials (VC), under the umbrella of SSI. We present the architecture of the system based on a threat model and requirement analysis, discuss the implementation of a Proof-of-Concept based on the proposed system and illustrate a number of use-cases with their detailed protocol flows. Furthermore, we analyse its security using ProVerif, a state-of-the art protocol verification tool and examine its performance. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# ハイブリッドLSSVM-SVMD法を用いたスマートグリッドにおける電力統合のための短期風速予測
Short-term Wind Speed Forecasting for Power Integration in Smart Grids based on Hybrid LSSVM-SVMD Method ( http://arxiv.org/abs/2408.17185v1 ) ライセンス: Link先を確認 | Ephrem Admasu Yekun, Alem H. Fitwib, Selvi Karpaga Subramaniand, Anubhav Kumard, Teshome Goa Tella, | (参考訳) その最小限の汚染と効率的なエネルギー利用により、風力エネルギーは最も広く利用されている再生可能エネルギー資源の1つとなった。
グリッドシステムへの風力統合の成功は、正確な風速予測モデルに基づいている。
しかし,風速の固有断続特性のため,風速予測の課題は困難である。
本稿では,短期風速予測のためのハイブリッド機械学習手法を提案する。
まず,逐次変分モード分解(SVMD)を用いて風データをモーダル成分に分解した。
その後、各サブサインはLast Squares Support Vector Machines (LSSVM)モデルに組み込まれ、そのハイパーパラメーターは、QPSO(Quantum-behaved Particle Swarm Optimization)、QPSO(Elitist breeding)の新たな変種(EBQPSO)によって最適化された。
第2に、元の風速とSVMDモードのアグリゲーションの違いを補う残差を長寿命モデル(LSTM)を用いてモデル化した。
次に,LSVMモデルとLSTMモデルの集合を用いて,予測値全体の計算を行った。
最後に, 局所風力発電所から収集した2つの個別データセットを用いて, 風速予測のための最先端ベンチマークモデルと比較した。
実験の結果,提案手法では, 平均誤差が1.21%から32.76%減少し, 平均誤差が2.05%から40.75%減少した。
この作業のコード実装全体はGithubで無償公開されている。
Owing to its minimal pollution and efficient energy use, wind energy has become one of the most widely exploited renewable energy resources. The successful integration of wind power into the grid system is contingent upon accurate wind speed forecasting models. However, the task of wind speed forecasting is challenging due to the inherent intermittent characteristics of wind speed. In this paper, a hybrid machine learning approach is developed for predicting short-term wind speed. First, the wind data was decomposed into modal components using Successive Variational Mode Decomposition (SVMD). Then, each sub-signal was fitted into a Least Squares Support Vector Machines (LSSVM) model, with its hyperparameter optimized by a novel variant of Quantum-behaved Particle Swarm Optimization (QPSO), QPSO with elitist breeding (EBQPSO). Second, the residuals making up for the differences between the original wind series and the aggregate of the SVMD modes were modeled using long short-term model (LSTM). Then, the overall predicted values were computed using the aggregate of the LSSVM and the LSTM models. Finally, the performance of the proposed model was compared against state-of-the-art benchmark models for forecasting wind speed using two separate data sets collected from a local wind farm. Empirical results show significant improvement in performance by the proposed method, achieving a 1.21% to 32.76% reduction in root mean square error (RMSE) and a 2.05% to 40.75% reduction in mean average error (MAE) compared to the benchmark methods. The entire code implementation of this work is freely available in Github. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# Benefit Game: Alien Seaweed Swarms - デジタル海藻生態のリアルタイムゲーム化
"Benefit Game: Alien Seaweed Swarms" -- Real-time Gamification of Digital Seaweed Ecology ( http://arxiv.org/abs/2408.17186v1 ) ライセンス: Link先を確認 | Dan-Lu Fei, Zi-Wei Wu, Kang Zhang, | (参考訳) Benefit Game: Alien Seaweed Swarms』では、人工生命芸術とインタラクティブゲームを組み合わせて、人間の活動が脆弱な海藻生態系に与える影響を探求している。
このプロジェクトは、デジタル海藻生態学のバランスを作り、生態意識を高めることを目的としている。
ラミナリア・サッカリナ(Laminaria saccharina)に触発された著者は、仮想海藻と共生菌の多様性を生成するために、機械学習技術を介して手続き的コンテンツ生成(Procedural Content Generation)を採用している。
観衆はゲームプレイを通じて人間の活動の結果を探索し、海藻養殖の利益とリスクに対する生態系のフィードバックを観察することができる。
このベネフィットゲームは、動的かつリアルタイムに応答する人工海藻エコシステムを提供し、生態的意識を高めるインタラクティブな体験を提供する。
"Benefit Game: Alien Seaweed Swarms" combines artificial life art and interactive game with installation to explore the impact of human activity on fragile seaweed ecosystems. The project aims to promote ecological consciousness by creating a balance in digital seaweed ecologies. Inspired by the real species "Laminaria saccharina", the author employs Procedural Content Generation via Machine Learning technology to generate variations of virtual seaweeds and symbiotic fungi. The audience can explore the consequences of human activities through gameplay and observe the ecosystem's feedback on the benefits and risks of seaweed aquaculture. This Benefit Game offers dynamic and real-time responsive artificial seaweed ecosystems for an interactive experience that enhances ecological consciousness. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# 最大一貫したシグネチャによる推論
Reasoning with maximal consistent signatures ( http://arxiv.org/abs/2408.17190v1 ) ライセンス: Link先を確認 | Matthias Thimm, Jandson Santos Ribeiro Santos, | (参考訳) 我々は、ラングとマルキースの忘れ物に基づく推論の一般的なアプローチの特定の例を分析する。
より正確には、最大一貫したサブシグナチャを最大一貫したサブシグナチャを最大一貫した命題の集合とし、残余命題を忘れることが整合性を取り戻すという矛盾した情報を用いた推論のアプローチについて議論する。
最大整合部分符号とそれに対応する最小整合部分符号を詳細に解析し、ヒットセット双対性もそれらに適用可能であることを示す。
さらに、最大一貫した部分符号 wrt に基づいて推論関係を解析する。
合理性は非単調な推論と計算複雑性から仮定される。
また、我々のアプローチと不整合測定と矛盾推論との関係についても検討する。
We analyse a specific instance of the general approach of reasoning based on forgetting by Lang and Marquis. More precisely, we discuss an approach for reasoning with inconsistent information using maximal consistent subsignatures, where a maximal consistent subsignature is a maximal set of propositions such that forgetting the remaining propositions restores consistency. We analyse maximal consistent subsignatures and the corresponding minimal inconsistent subsignatures in-depth and show, among others, that the hitting set duality applies for them as well. We further analyse inference relations based on maximal consistent subsignatures wrt. rationality postulates from non-monotonic reasoning and computational complexity. We also consider the relationship of our approach with inconsistency measurement and paraconsistent reasoning. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# 共分散補正ホワイトニングは不均衡分類によるネットワークの劣化を緩和する
Covariance-corrected Whitening Alleviates Network Degeneration on Imbalanced Classification ( http://arxiv.org/abs/2408.17197v1 ) ライセンス: Link先を確認 | Zhiwei Zhang, | (参考訳) クラス不均衡は画像分類において重要な問題であり、深層認識モデルの性能に大きな影響を及ぼす。
本研究では,まず,分類器に入力された特徴間の高線形依存を導入することにより,モデル学習を妨げるネットワークデジェネレーションジレンマを同定する。
この課題を克服するために、線形分類器の前にZCA白化を統合してバッチサンプルの正規化とデコレーションを行う、Whitening-Netと呼ばれる新しいフレームワークを提案する。
しかし、極端なクラス不均衡のシナリオでは、バッチ共分散統計は大きな変動を示し、白化操作の収束を妨げる。
そこで我々は,より正確で安定したバッチ共分散を実現するために,グループベースの相対平衡バッチサンプリング(GRBS)とバッチ埋め込みトレーニング(BET)の2つの共分散補正モジュールを提案する。
私たちのモジュールは、相当な計算コストを発生させることなく、エンドツーエンドでトレーニングすることができます。
CIFAR-LT-10/100, ImageNet-LT, iNaturalist-LTなど, ベンチマークデータセットを用いた総合的な実証評価を行い, 提案手法の有効性を検証した。
Class imbalance is a critical issue in image classification that significantly affects the performance of deep recognition models. In this work, we first identify a network degeneration dilemma that hinders the model learning by introducing a high linear dependence among the features inputted into the classifier. To overcome this challenge, we propose a novel framework called Whitening-Net to mitigate the degenerate solutions, in which ZCA whitening is integrated before the linear classifier to normalize and decorrelate the batch samples. However, in scenarios with extreme class imbalance, the batch covariance statistic exhibits significant fluctuations, impeding the convergence of the whitening operation. Therefore, we propose two covariance-corrected modules, the Group-based Relatively Balanced Batch Sampler (GRBS) and the Batch Embedded Training (BET), to get more accurate and stable batch covariance, thereby reinforcing the capability of whitening. Our modules can be trained end-to-end without incurring substantial computational costs. Comprehensive empirical evaluations conducted on benchmark datasets, including CIFAR-LT-10/100, ImageNet-LT, and iNaturalist-LT, validate the effectiveness of our proposed approaches. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# シンボリックXAIに向けて - 特徴間の人間の理解可能な論理的関係を通しての解説-
Towards Symbolic XAI -- Explanation Through Human Understandable Logical Relationships Between Features ( http://arxiv.org/abs/2408.17198v1 ) ライセンス: Link先を確認 | Thomas Schnake, Farnoush Rezaei Jafaria, Jonas Lederer, Ping Xiong, Shinichi Nakajima, Stefan Gugler, Grégoire Montavon, Klaus-Robert Müller, | (参考訳) 説明可能な人工知能(XAI)は、AIシステムの透明性と信頼を促進する上で重要な役割を担います。
しかしながら、モデルの抽象的推論や問題解決戦略も、人間の問題へのアプローチ方法とより密接に一致しているため、関係しているかどうかを問う。
本稿では,入力特徴間の論理的関係を表現したシンボリッククエリに関連性を持つシンボリックXAIというフレームワークを提案し,モデルの予測の背後にある抽象的推論を抽出する。
この手法は、モデル予測の単純かつ一般的な多階分解に基づいて構築される。
この分解は、GNN-LRPのような高次伝播に基づく関連法や、XAIで一般的に用いられる摂動に基づく説明法を用いて特定することができる。
自然言語処理(NLP),ビジョン,量子化学(QC)の領域では,抽象的な記号的ドメイン知識が豊富であり,ユーザにとって重要な関心事である。
シンボリックXAIフレームワークは、ユーザーによるカスタマイズに柔軟であり、論理式を通じて人間が読めるモデルの決定プロセスを理解する。
Explainable Artificial Intelligence (XAI) plays a crucial role in fostering transparency and trust in AI systems, where traditional XAI approaches typically offer one level of abstraction for explanations, often in the form of heatmaps highlighting single or multiple input features. However, we ask whether abstract reasoning or problem-solving strategies of a model may also be relevant, as these align more closely with how humans approach solutions to problems. We propose a framework, called Symbolic XAI, that attributes relevance to symbolic queries expressing logical relationships between input features, thereby capturing the abstract reasoning behind a model's predictions. The methodology is built upon a simple yet general multi-order decomposition of model predictions. This decomposition can be specified using higher-order propagation-based relevance methods, such as GNN-LRP, or perturbation-based explanation methods commonly used in XAI. The effectiveness of our framework is demonstrated in the domains of natural language processing (NLP), vision, and quantum chemistry (QC), where abstract symbolic domain knowledge is abundant and of significant interest to users. The Symbolic XAI framework provides an understanding of the model's decision-making process that is both flexible for customization by the user and human-readable through logical formulas. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# NanoMVG: Prompt-Guided Camera と 4D mmWave Radar を用いたUSV中心低消費電力マルチタスク視覚グラウンド
NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar ( http://arxiv.org/abs/2408.17207v1 ) ライセンス: Link先を確認 | Runwei Guan, Jianan Liu, Liye Jia, Haocheng Zhao, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Eng Gee Lim, Jeremy Smith, Yutao Yue, | (参考訳) 近年、地上の自律走行システムや無人表面車両(USV)の認識システムに視覚接地とマルチセンサー設定が組み込まれているが、現代の学習ベース視覚接地モデルの複雑化により、実生活においてUSVにそのようなモデルが展開されるのを防いでいる。
この目的のために,NanoMVGという低消費電力マルチタスクモデルの設計を行った。
NanoMVGは、ボックスレベルとマスクレベルの両方の視覚的グラウンドを同時に実行することができる。
他のビジュアルグラウンドモデルと比較して、NanoMVGは、特に厳しい環境では、ウォーターVGデータセット上で非常に競争力のある性能を達成し、長期間にわたって超低消費電力の電力消費を誇っている。
Recently, visual grounding and multi-sensors setting have been incorporated into perception system for terrestrial autonomous driving systems and Unmanned Surface Vehicles (USVs), yet the high complexity of modern learning-based visual grounding model using multi-sensors prevents such model to be deployed on USVs in the real-life. To this end, we design a low-power multi-task model named NanoMVG for waterway embodied perception, guiding both camera and 4D millimeter-wave radar to locate specific object(s) through natural language. NanoMVG can perform both box-level and mask-level visual grounding tasks simultaneously. Compared to other visual grounding models, NanoMVG achieves highly competitive performance on the WaterVG dataset, particularly in harsh environments and boasts ultra-low power consumption for long endurance. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# アフリカにおけるAIの民主化 - 低リソースエッジデバイスのためのFL
Democratizing AI in Africa: FL for Low-Resource Edge Devices ( http://arxiv.org/abs/2408.17216v1 ) ライセンス: Link先を確認 | Jorge Fabila, Víctor M. Campello, Carlos Martín-Isla, Johnes Obungoloch, Kinyera Leo, Amodoi Ronald, Karim Lekadir, | (参考訳) アフリカは、限られたインフラと先進的な医療技術へのアクセスのために、医療提供において重大な課題に直面している。
本研究は、周産期健康に焦点をあて、これらの障壁を克服するための連合学習の利用について検討する。
アフリカ5カ国(アルジェリア、ガーナ、エジプト、マラウイ、ウガンダ)の周産期データとスペインの病院のデータを用いて胎児平面分類器を訓練した。
解析に計算資源の欠如を取り入れるため,Raspberry Piや複数のラップトップを含む異種デバイスをモデルトレーニングとして検討した。
計算限界にもかかわらず、集中型モデルと連合型モデルの比較性能を示し、局所的にのみ訓練されたモデルと比較してモデルの一般化可能性を大幅に改善した。
これらの結果は、アクセシビリティギャップを橋渡しし、非常に少ない要求でモデル一般化性を向上させるために、連合学習プラットフォームを大規模に実装する可能性を示している。
Africa faces significant challenges in healthcare delivery due to limited infrastructure and access to advanced medical technologies. This study explores the use of federated learning to overcome these barriers, focusing on perinatal health. We trained a fetal plane classifier using perinatal data from five African countries: Algeria, Ghana, Egypt, Malawi, and Uganda, along with data from Spanish hospitals. To incorporate the lack of computational resources in the analysis, we considered a heterogeneous set of devices, including a Raspberry Pi and several laptops, for model training. We demonstrate comparative performance between a centralized and a federated model, despite the compute limitations, and a significant improvement in model generalizability when compared to models trained only locally. These results show the potential for a future implementation at a large scale of a federated learning platform to bridge the accessibility gap and improve model generalizability with very little requirements. | 翻訳日:2024-09-02 15:38:25 公開日:2024-08-30 |
# 超伝導量子ビットにおける準粒子の非平衡状態
Nonequilibrium regimes for quasiparticles in superconducting qubits ( http://arxiv.org/abs/2408.17218v1 ) ライセンス: Link先を確認 | G. Marchegiani, G. Catelani, | (参考訳) 遷移エネルギーよりも大きなギャップ非対称性を持つ量子は、準粒子が接合の低ギャップ側にあるため、準粒子の脱コヒーレンスの影響を受けにくい。
このトラップにより、ギャップ非対称性は準粒子を平衡から切り離すのに寄与する。
ここでは、接合の両側における準粒子密度の温度変化について述べる。
温度の上昇とともに4つの定性的異なる状態が可能であることを示す。
i)非平衡
二 局所準均衡
三 グローバル準均衡及び
四 完全な均衡
実験データの解釈において,大域的準平衡を仮定する際の欠点を同定し,磁場存在下での測定がジャンクションパラメータの正確な決定にどう役立つかを強調し,非平衡状態の同定を行う。
Qubits with gap asymmetry larger than their transition energy are less susceptible to quasiparticle decoherence as the quasiparticles are mostly trapped in the low-gap side of the junction. Because of this trapping, the gap asymmetry can contribute to maintaining the quasiparticles out of equilibrium. Here we address the temperature evolution of the quasiparticle densities in the two sides of the junction. We show that four qualitatively different regimes are possible with increasing temperature: i) nonequilibrium, ii) local quasiequilibrium, iii) global quasiequilibrium, and iv) full equilibrium. We identify shortcomings in assuming global quasiequilibrium when interpreting experimental data, highlighting how measurements in the presence of magnetic field can aid the accurate determination of the junction parameters, and hence the identification of the nonequilibrium regimes. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# 照明自己注意の幾何学:識別可能性と次元
Geometry of Lightning Self-Attention: Identifiability and Dimension ( http://arxiv.org/abs/2408.17221v1 ) ライセンス: Link先を確認 | Nathan W. Henry, Giovanni Luca Marchetti, Kathlén Kohn, | (参考訳) 正規化のない自己アテンションネットワークで定義される関数空間を考察し,その幾何学的解析を行う。
これらのネットワークは多項式であるため、代数幾何学の道具に依存する。
特に,任意の数の層に対してパラメトリゼーションの一般繊維を記述し,結果として関数空間の次元を計算することにより,深い注意の識別可能性について検討する。
さらに、単層モデルでは特異点と境界点を特徴付ける。
最後に,本研究の結果を正規化された自己注意ネットワークに拡張し,単一層として証明し,深部ケースで数値的に検証する。
We consider function spaces defined by self-attention networks without normalization, and theoretically analyze their geometry. Since these networks are polynomial, we rely on tools from algebraic geometry. In particular, we study the identifiability of deep attention by providing a description of the generic fibers of the parametrization for an arbitrary number of layers and, as a consequence, compute the dimension of the function space. Additionally, for a single-layer model, we characterize the singular and boundary points. Finally, we formulate a conjectural extension of our results to normalized self-attention networks, prove it for a single layer, and numerically verify it in the deep case. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# 生成AIはEUのAI法に準拠するにはどうすればいいのか?
How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception ( http://arxiv.org/abs/2408.17222v1 ) ライセンス: Link先を確認 | Mert Keser, Youssef Shoeb, Alois Knoll, | (参考訳) ディープニューラルネットワーク(DNN)は、自動運転車の知覚機能の中心となり、環境を理解し解釈する能力を大幅に強化している。
しかし、これらのシステムは、流通外のシナリオにおいて、脆さ、不透明さ、予測不可能な振る舞いのような固有の制限を示す。
EU(EU)人工知能(AI)法は、先駆的な立法枠組みとして、リスクの高いAIに分類される自律運転(AD)など、AIシステムの厳格な規範と標準を確立することで、これらの課題に対処することを目指している。
本研究では、新たに利用可能な生成AIモデルが、AD知覚における今後の規制要件、特に安全性に対する対処を支援する方法について検討する。
本稿では、DNNに基づく知覚システムに関するEU AI法から生じる要件を要約し、ADにおける既存の生成AIアプリケーションを体系的に分類する。
生成型AIモデルは、透明性や堅牢性など、EU AI Actsの要件の一部に対処する上で、有望であることを示しているが、このレビューでは、潜在的なメリットを検証し、開発者がこれらの方法を利用して、同法への準拠を強化する方法について論じる。
この論文は、これらの技術の信頼性と安全な統合を保証するために、さらなる研究が必要である分野についても強調する。
Deep Neural Networks (DNNs) have become central for the perception functions of autonomous vehicles, substantially enhancing their ability to understand and interpret the environment. However, these systems exhibit inherent limitations such as brittleness, opacity, and unpredictable behavior in out-of-distribution scenarios. The European Union (EU) Artificial Intelligence (AI) Act, as a pioneering legislative framework, aims to address these challenges by establishing stringent norms and standards for AI systems, including those used in autonomous driving (AD), which are categorized as high-risk AI. In this work, we explore how the newly available generative AI models can potentially support addressing upcoming regulatory requirements in AD perception, particularly with respect to safety. This short review paper summarizes the requirements arising from the EU AI Act regarding DNN-based perception systems and systematically categorizes existing generative AI applications in AD. While generative AI models show promise in addressing some of the EU AI Acts requirements, such as transparency and robustness, this review examines their potential benefits and discusses how developers could leverage these methods to enhance compliance with the Act. The paper also highlights areas where further research is needed to ensure reliable and safe integration of these technologies. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# OG-Mapping:オンラインディエンスマッピングのためのOctoreeベースの構造化3Dガウス
OG-Mapping: Octree-based Structured 3D Gaussians for Online Dense Mapping ( http://arxiv.org/abs/2408.17223v1 ) ライセンス: Link先を確認 | Meng Wang, Junyi Wang, Changqun Xia, Chen Wang, Yue Qi, | (参考訳) 3D Gaussian splatting (3DGS)は、最近RGB-Dオンライン高密度マッピングの有望な進歩を実証した。
それでも、既存の手法では、マップの密度化を行うためにピクセルごとの奥行きを過度に頼っているため、冗長性が著しくなり、奥行きノイズに対する感度が向上する。
さらに、空間スケールシーンの3Dガウスパラメータを明示的に保存することは、重要なストレージ課題となる。
本稿では,3次元ガウス表現と組み合わさったスパースオクツリーの立体構造表現機能を利用したOG-Mappingを導入し,効率的でロバストなオンライン高密度マッピングを実現する。
さらに、OG-Mappingはアンカーベースのプログレッシブマップリファインメント戦略を用いて、複数の詳細レベルでシーン構造を復元する。
キーフレームウィンドウを固定した少数のアクティブなキーフレームを維持する代わりに、動的キーフレームウィンドウを使用して、OG-Mappingが偽のローカルミニマに対処し、問題を忘れるようにしている。
実験により,OG-Mappingは,既存のガウス型RGB-Dオンラインマッピング法よりも堅牢で優れたリアリズムマッピング結果を提供することを示した。
3D Gaussian splatting (3DGS) has recently demonstrated promising advancements in RGB-D online dense mapping. Nevertheless, existing methods excessively rely on per-pixel depth cues to perform map densification, which leads to significant redundancy and increased sensitivity to depth noise. Additionally, explicitly storing 3D Gaussian parameters of room-scale scene poses a significant storage challenge. In this paper, we introduce OG-Mapping, which leverages the robust scene structural representation capability of sparse octrees, combined with structured 3D Gaussian representations, to achieve efficient and robust online dense mapping. Moreover, OG-Mapping employs an anchor-based progressive map refinement strategy to recover the scene structures at multiple levels of detail. Instead of maintaining a small number of active keyframes with a fixed keyframe window as previous approaches do, a dynamic keyframe window is employed to allow OG-Mapping to better tackle false local minima and forgetting issues. Experimental results demonstrate that OG-Mapping delivers more robust and superior realism mapping results than existing Gaussian-based RGB-D online mapping methods with a compact model, and no additional post-processing is required. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# CondSeg:条件付きセグメンテーションによる瞳孔と虹彩の楕円推定
CondSeg: Ellipse Estimation of Pupil and Iris via Conditioned Segmentation ( http://arxiv.org/abs/2408.17231v1 ) ライセンス: Link先を確認 | Zhuang Jia, Jiangfan Deng, Liying Chi, Xiang Long, Daniel K. Du, | (参考訳) 眼球成分(瞳孔,虹彩,硬化など)のパーシングは,AR/VR製品に対する視線追跡および視線推定の基礎となる。
メインストリームアプローチは、この問題をマルチクラスセグメンテーションタスクとして取り組み、瞳孔の可視部分のみを提供する。
本稿では,全瞳孔円を楕円形(楕円形)にモデル化し,視線領域の開放性(条件前)によって瞳孔の視認性を制御し,全楕円形を明示的に注釈付けせず,視線領域の視認性を制御する新しい手法であるCondSegを設計する。
条件付きセグメンテーション損失は、パラメータ化された楕円を微分可能な方法で画素単位のソフトマスクに変換することでパラメータを最適化するために使用される。
提案手法は,公開データセット (OpenEDS-2019/-2020) 上でテストし, セグメンテーション指標の競争結果を示し, 視線追跡のさらなる適用のために正確な楕円パラメータを同時に提供する。
Parsing of eye components (i.e. pupil, iris and sclera) is fundamental for eye tracking and gaze estimation for AR/VR products. Mainstream approaches tackle this problem as a multi-class segmentation task, providing only visible part of pupil/iris, other methods regress elliptical parameters using human-annotated full pupil/iris parameters. In this paper, we consider two priors: projected full pupil/iris circle can be modelled with ellipses (ellipse prior), and the visibility of pupil/iris is controlled by openness of eye-region (condition prior), and design a novel method CondSeg to estimate elliptical parameters of pupil/iris directly from segmentation labels, without explicitly annotating full ellipses, and use eye-region mask to control the visibility of estimated pupil/iris ellipses. Conditioned segmentation loss is used to optimize the parameters by transforming parameterized ellipses into pixel-wise soft masks in a differentiable way. Our method is tested on public datasets (OpenEDS-2019/-2020) and shows competitive results on segmentation metrics, and provides accurate elliptical parameters for further applications of eye tracking simultaneously. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# マルチモーダル都市交通ネットワークにおけるレジリエンス・アズ・ア・サービス(RaaS)の方法論的枠組み
A methodological framework for Resilience as a Service (RaaS) in multimodal urban transportation networks ( http://arxiv.org/abs/2408.17233v1 ) ライセンス: Link先を確認 | Sara Jaber, Mostafa Ameli, S. M. Hassan Mahdavi, Neila Bhouri, | (参考訳) 公共交通機関は通勤交通の増加を経験している。
この増加は、予期せぬサービスの破壊を管理するレジリエンス戦略の必要性を強調し、利害関係者に対する悪影響を最小限に抑え、システムの本質的な機能を維持し、迅速に回復する能力を高める、迅速かつ効果的な応答を保証する。
本研究の目的は、レジリエンス・アズ・ア・サービス(RaaS)戦略を通じて公共交通の混乱を管理すること、資源を効果的に配分し、事業者や乗客のコストを最小化する最適化モデルを開発することである。
提案モデルには, バス, タクシー, 自動走行車などの交通手段が複数含まれており, 故障駅の可利用性, キャパシティ, 速度, 近接性などの要因を考慮し, 橋渡しの代替品として評価されている。
これにより、最も適切な車両がサービス継続性を維持するために配備されることが保証される。
パリと郊外のイル・ド・フランス地域のケーススタディに顕微鏡シミュレーションを応用し,バスブリッジやリザーブフリートといった既存のソリューションと比較した。
その結果、コストの最小化と利害関係者の満足度の向上、ディスラプション時の輸送管理の最適化におけるモデルの性能を強調した。
Public transportation systems are experiencing an increase in commuter traffic. This increase underscores the need for resilience strategies to manage unexpected service disruptions, ensuring rapid and effective responses that minimize adverse effects on stakeholders and enhance the system's ability to maintain essential functions and recover quickly. This study aims to explore the management of public transport disruptions through resilience as a service (RaaS) strategies, developing an optimization model to effectively allocate resources and minimize the cost for operators and passengers. The proposed model includes multiple transportation options, such as buses, taxis, and automated vans, and evaluates them as bridging alternatives to rail-disrupted services based on factors such as their availability, capacity, speed, and proximity to the disrupted station. This ensures that the most suitable vehicles are deployed to maintain service continuity. Applied to a case study in the Ile de France region, Paris and suburbs, complemented by a microscopic simulation, the model is compared to existing solutions such as bus bridging and reserve fleets. The results highlight the model's performance in minimizing costs and enhancing stakeholder satisfaction, optimizing transport management during disruptions. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# ROADデータセット上のAI駆動侵入検知システム(IDS):自動車制御領域ネットワーク(CAN)の比較分析
AI-Driven Intrusion Detection Systems (IDS) on the ROAD dataset: A Comparative Analysis for automotive Controller Area Network (CAN) ( http://arxiv.org/abs/2408.17235v1 ) ライセンス: Link先を確認 | Lorenzo Guerra, Linhan Xu, Pavlo Mozharovskyi, Paolo Bellavista, Thomas Chapuis, Guillaume Duc, Van-Tam Nguyen, | (参考訳) 現代の自動車へのデジタルデバイスの統合は、自動車技術に革命をもたらし、安全性と全体の運転体験を高めた。
コントロールエリアネットワーク(Controller Area Network, CAN)は、電子制御ユニット(ECU)間の車内通信を管理する中央システムである。
しかし、CANプロトコルは、固有の脆弱性、暗号化と認証の欠如、攻撃面の拡大、堅牢なセキュリティ対策を必要とするセキュリティ上の問題を引き起こす。
この課題に対して、多数の侵入検知システム(IDS)が開発され、デプロイされている。
それでも、そのようなIDSの有効性をテストするオープンで包括的で現実的なデータセットは、既存の文献には残っていない。
本稿では、ステルスと洗練された注入を含む最新のROADデータセットを考慮し、このギャップに対処する。
この手法はデータセットのラベル付けと、最先端のディープラーニングモデルと従来の機械学習モデルの両方の実装を含んでおり、文献で最も一般的に使用されるデータセットと、より現実的な代替手段であるROADデータセットとの間のパフォーマンスの相違を示す。
The integration of digital devices in modern vehicles has revolutionized automotive technology, enhancing safety and the overall driving experience. The Controller Area Network (CAN) bus is a central system for managing in-vehicle communication between the electronic control units (ECUs). However, the CAN protocol poses security challenges due to inherent vulnerabilities, lacking encryption and authentication, which, combined with an expanding attack surface, necessitates robust security measures. In response to this challenge, numerous Intrusion Detection Systems (IDS) have been developed and deployed. Nonetheless, an open, comprehensive, and realistic dataset to test the effectiveness of such IDSs remains absent in the existing literature. This paper addresses this gap by considering the latest ROAD dataset, containing stealthy and sophisticated injections. The methodology involves dataset labelling and the implementation of both state-of-the-art deep learning models and traditional machine learning models to show the discrepancy in performance between the datasets most commonly used in the literature and the ROAD dataset, a more realistic alternative. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# コンピュータビジョンにおける非線形弾性モデル
A nonlinear elasticity model in computer vision ( http://arxiv.org/abs/2408.17237v1 ) ライセンス: Link先を確認 | John M. Ball, Christopher L. Horner, | (参考訳) 本研究の目的は,2つの画像の有界開集合である$\R^n$と関連するベクトル値強度写像を比較するために,著者らが以前に導入した非線形弾性モデルを分析することである。
画像間の最適変換は、配向保存同型間の積分関数のミニミザーとして求められている。
ミニミザーの存在は自然の保磁力と多凸条件の下で証明され、強度関数が有界測定可能であることを仮定する。
存在定理の変数も証明され、まずは2つの画像のランドマーク点の有限集合が一方から他方に写像されるという制約の下で、そしてもう1つの画像が他方の未知の部分と比較されるときである。
線形写像によって関連付けられた画像について、その線形写像により一意最小化器が与えられるかどうかについて検討する。
函数積分の自然なクラスに対しては、この性質が2つ目が定数因子による第1のスケーリングであるような画像の対に対して成り立つことを保証する例が与えられる。
しかし、線形関連画像の任意の対を保持する性質については、積分は行列式のみの凸関数として変換の勾配に依存する必要があることが示されている。
このことは、積分が変換の第2微分にも依存する新しいモデルを示し、最小化子の存在が保証され、上記の性質がすべての線形関連画像に対して成立する例を示す。
The purpose of this paper is to analyze a nonlinear elasticity model previously introduced by the authors for comparing two images, regarded as bounded open subsets of $\R^n$ together with associated vector-valued intensity maps. Optimal transformations between the images are sought as minimisers of an integral functional among orientation-preserving homeomorphisms. The existence of minimisers is proved under natural coercivity and polyconvexity conditions, assuming only that the intensity functions are bounded measurable. Variants of the existence theorem are also proved, first under the constraint that finite sets of landmark points in the two images are mapped one to the other, and second when one image is to be compared to an unknown part of another. The question is studied as to whether for images related by a linear mapping the unique minimizer is given by that linear mapping. For a natural class of functional integrands an example is given guaranteeing that this property holds for pairs of images in which the second is a scaling of the first by a constant factor. However for the property to hold for arbitrary pairs of linearly related images it is shown that the integrand has to depend on the gradient of the transformation as a convex function of its determinant alone. This suggests a new model in which the integrand depends also on second derivatives of the transformation, and an example is given for which both existence of minimizers is assured and the above property holds for all pairs of linearly related images. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# 量子解法深部ボルツマンマシンを用いたRLエージェントのデータ効率向上
Using Quantum Solved Deep Boltzmann Machines to Increase the Data Efficiency of RL Agents ( http://arxiv.org/abs/2408.17240v1 ) ライセンス: Link先を確認 | Daniel Kent, Clement O'Rourke, Jake Southall, Kirsty Duncan, Adrian Bedford, | (参考訳) 強化学習で使用されるディープラーニングアルゴリズムは、効果的にトレーニングするために大量のデータを必要とすることが多い。
ほとんどの場合、データの可用性は大きな問題ではありません。
しかし、自律的なサイバー防衛のような状況では、データ効率のよい方法が必要である。
近年,この課題に対する解決策として,量子機械学習とボルツマンマシンが提案されている。
本研究は,Deep Boltzmann Machines の最先端アルゴリズムへの利用を強化学習型サイバー防御環境における近似ポリシー最適化に拡張するための,既存の作業に基づいて構築する。
D-WAVE量子アニールを用いて解くと、データの効率が2倍に向上することを示す。
したがって、データ効率のよい強化学習手法を活かしたいと願っている機械学習や量子コミュニティによって使用されるものと期待している。
Deep Learning algorithms, such as those used in Reinforcement Learning, often require large quantities of data to train effectively. In most cases, the availability of data is not a significant issue. However, for some contexts, such as in autonomous cyber defence, we require data efficient methods. Recently, Quantum Machine Learning and Boltzmann Machines have been proposed as solutions to this challenge. In this work we build upon the pre-existing work to extend the use of Deep Boltzmann Machines to the cutting edge algorithm Proximal Policy Optimisation in a Reinforcement Learning cyber defence environment. We show that this approach, when solved using a D-WAVE quantum annealer, can lead to a two-fold increase in data efficiency. We therefore expect it to be used by the machine learning and quantum communities who are hoping to capitalise on data-efficient Reinforcement Learning methods. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# カテゴリ的データクラスタリング:K-modesより25年
Categorical data clustering: 25 years beyond K-modes ( http://arxiv.org/abs/2408.17244v1 ) ライセンス: Link先を確認 | Tai Dinh, Wong Hauchi, Philippe Fournier-Viger, Daniil Lisik, Minh-Quyet Ha, Hieu-Chi Dam, Van-Nam Huynh, | (参考訳) 分類データのクラスタリングはコンピュータ科学において一般的で重要なタスクであり、様々なアプリケーションに深く影響する。
純粋に数値的なデータセットとは異なり、分類データは名目データのような固有の順序を欠いている場合や、順序データのような様々なレベルの順序を持つ場合が多いため、効率的な組織化と分析のために専門的な方法論が必要である。
このレビューは、K-modesの導入から始まる過去25年間のカテゴリデータクラスタリングを包括的に合成する。
これは、健康科学、自然科学、社会科学、教育、工学、経済学など様々な分野における分類学的データクラスタリングの重要な役割を解明するものである。
複数のベンチマーク分類データセット上で,クラスタリング手法を区別し,最新のアルゴリズムの性能を明らかにする。
最後に、この分野における課題と機会について論じる。
The clustering of categorical data is a common and important task in computer science, offering profound implications across a spectrum of applications. Unlike purely numerical datasets, categorical data often lack inherent ordering as in nominal data, or have varying levels of order as in ordinal data, thus requiring specialized methodologies for efficient organization and analysis. This review provides a comprehensive synthesis of categorical data clustering in the past twenty-five years, starting from the introduction of K-modes. It elucidates the pivotal role of categorical data clustering in diverse fields such as health sciences, natural sciences, social sciences, education, engineering and economics. Practical comparisons are conducted for algorithms having public implementations, highlighting distinguishing clustering methodologies and revealing the performance of recent algorithms on several benchmark categorical datasets. Finally, challenges and opportunities in the field are discussed. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# ディープスパイキングニューラルネットワークのためのステップワイズスパイク符号化
Stepwise Weighted Spike Coding for Deep Spiking Neural Networks ( http://arxiv.org/abs/2408.17245v1 ) ライセンス: Link先を確認 | Yiwen Gu, Junchuan Gu, Haibin Shen, Kejie Huang, | (参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンのスパイキング行動を模倣し、ニューラルコンピューティングと人工知能の進歩において重要な役割を果たすと期待されている。
SNNの効率は、しばしばニューラルコーディング方式によって決定される。
既存の符号化方式は、膨大な遅延とエネルギー消費を引き起こすか、複雑なニューロンモデルと訓練技術を必要とする。
これらの問題に対処するために、スパイクにおける情報のエンコーディングを強化するために、SWS(Stepwise Weighted Spike)符号化方式を提案する。
このアプローチは、ニューラルネットワークの各ステップにおけるスパイクの重要性を重み付け、高い性能と低エネルギー消費を達成することでスパイクを圧縮する。
ニューラルネットワークの段階重み付けによる残差を最小限に抑えることを目的とした,サイレント周期の3次自己増幅(TSA)ニューロンモデルを提案する。
実験の結果、SWS符号化方式は、非常に深いSNNにおいて既存のニューラルコーディング方式よりも優れており、操作やレイテンシを大幅に低減していることがわかった。
Spiking Neural Networks (SNNs) seek to mimic the spiking behavior of biological neurons and are expected to play a key role in the advancement of neural computing and artificial intelligence. The efficiency of SNNs is often determined by the neural coding schemes. Existing coding schemes either cause huge delays and energy consumption or necessitate intricate neuron models and training techniques. To address these issues, we propose a novel Stepwise Weighted Spike (SWS) coding scheme to enhance the encoding of information in spikes. This approach compresses the spikes by weighting the significance of the spike in each step of neural computation, achieving high performance and low energy consumption. A Ternary Self-Amplifying (TSA) neuron model with a silent period is proposed for supporting SWS-based computing, aimed at minimizing the residual error resulting from stepwise weighting in neural computation. Our experimental results show that the SWS coding scheme outperforms the existing neural coding schemes in very deep SNNs, and significantly reduces operations and latency. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# 最大テイラー・ニューラルリアプノフ関数の学習と検証
Learning and Verifying Maximal Taylor-Neural Lyapunov functions ( http://arxiv.org/abs/2408.17246v1 ) ライセンス: Link先を確認 | Matthieu Barreau, Nicola Bastianello, | (参考訳) 本稿では,テイラー・ニューラル・リャプノフ関数(Taylor-neural Lyapunov function)と呼ばれる新しいニューラルネットワークアーキテクチャを導入する。
このアーキテクチャは革新的に局所近似を符号化し、ニューラルネットワークを利用して残差を近似することで世界規模で拡張する。
提案手法は,アトラクションの最大領域(特に最大リアプノフ関数)を学習問題に推定する問題を再キャストし,ロバスト制御理論による原点の収束性を確保する。
物理インフォームド機械学習技術は、アトラクションの最大領域の推定をさらに洗練する。
注目すべきは、この方法は汎用的であり、シミュレーションされたデータポイントを使わずに効果的に動作することである。
複数の例にまたがって収束の数値証明を提供することにより,本手法の有効性を検証した。
提案手法は,最新手法であるsum-of-squaresやLyZNetと密接に競合するだけでなく,シミュレーションデータがない場合でも同等の結果が得られる。
この研究は制御理論の大幅な進歩を表しており、安定な制御系などの設計に幅広い応用が期待できる。
We introduce a novel neural network architecture, termed Taylor-neural Lyapunov functions, designed to approximate Lyapunov functions with formal certification. This architecture innovatively encodes local approximations and extends them globally by leveraging neural networks to approximate the residuals. Our method recasts the problem of estimating the largest region of attraction - specifically for maximal Lyapunov functions - into a learning problem, ensuring convergence around the origin through robust control theory. Physics-informed machine learning techniques further refine the estimation of the largest region of attraction. Remarkably, this method is versatile, operating effectively even without simulated data points. We validate the efficacy of our approach by providing numerical certificates of convergence across multiple examples. Our proposed methodology not only competes closely with state-of-the-art approaches, such as sum-of-squares and LyZNet, but also achieves comparable results even in the absence of simulated data. This work represents a significant advancement in control theory, with broad potential applications in the design of stable control systems and beyond. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# DeTRAP: デバッグトリガーによるRISC-V戻りアドレス保護
DeTRAP: RISC-V Return Address Protection With Debug Triggers ( http://arxiv.org/abs/2408.17248v1 ) ライセンス: Link先を確認 | Isaac Richter, Jie Zhou, John Criswell, | (参考訳) 現代のマイクロコントローラソフトウェアは、しばしばC/C++で書かれ、制御フローのハイジャックの脆弱性に悩まされている。
以前の軽減策は高い性能とメモリオーバーヘッドに悩まされ、メモリ保護ハードウェアの存在やコンパイラの洗練されたプログラム解析を必要とする。
本稿では,DeTRAP(Debug Trigger Return Address Protection)を提案する。
DeTRAPはRISC-Vデバッグハードウェア仕様の完全な実装を利用して、戻りアドレスに書き込み保護されたシャドウスタックを提供する。
以前の作業とは異なり、DeTRAPはメモリ保護ハードウェアを必要とせず、コンパイラツールチェーンに小さな変更しか必要としない。
32ビットのRISC-Vマイクロコントローラコアで動作するFPGA上でDeTRAPをテストしたところ、コードサイズオーバーヘッドが平均7.9%以下のベンチマークスイートでは、平均実行時間オーバーヘッドが0.5%から1.9%であることが判明した。
Modern microcontroller software is often written in C/C++ and suffers from control-flow hijacking vulnerabilities. Previous mitigations suffer from high performance and memory overheads and require either the presence of memory protection hardware or sophisticated program analysis in the compiler. This paper presents DeTRAP (Debug Trigger Return Address Protection). DeTRAP utilizes a full implementation of the RISC-V debug hardware specification to provide a write-protected shadow stack for return addresses. Unlike previous work, DeTRAP requires no memory protection hardware and only minor changes to the compiler toolchain. We tested DeTRAP on an FPGA running a 32-bit RISC-V microcontroller core and found average execution time overheads to be between 0.5% and 1.9% on evaluated benchmark suites with code size overheads averaging 7.9% or less. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# ワンショット概念学習のための抽象ガウスプロトタイプ
Abstracted Gaussian Prototypes for One-Shot Concept Learning ( http://arxiv.org/abs/2408.17251v1 ) ライセンス: Link先を確認 | Chelsea Zou, Kenneth J. Kurtz, | (参考訳) 我々は,Omniglot Challengeに触発されたワンショット学習に基づいて,視覚概念の高レベル表現を符号化するクラスタベース生成画像セグメンテーションフレームワークを提案する。
ガウス混合モデル(GMM)の各成分の推論パラメータは、視覚概念の異なる位相部分を表す。
これらのパラメータから新しいデータをサンプリングすると、拡張部分を生成して各概念、すなわち抽象ガウスプロトタイプ(AGP)のより堅牢なプロトタイプを構築する。
このフレームワークは、認知にインスパイアされた類似度測定を用いてワンショット分類タスクに対処し、新しいクラス変種を生成するために可変オートエンコーダ(VAE)を用いた新しいAGP-VAEパイプラインを介してワンショット生成タスクに対処する。
人間の判断の結果、生成パイプラインは人間によって作られたものとは大きく区別できない新しい視覚概念の例とクラスを生み出していることが明らかとなった。
提案したフレームワークは印象的だが最先端の分類精度には至らない。
1)システムは理論的・計算的複雑さにおいて一意に低く、既存のアプローチが事前学習や知識工学に大きく依存しているのに対して、完全に独立した方法で動作している。
2) 競合するニューラルネットワークモデルとは対照的に,AGPアプローチはOmniglotチャレンジで強調されたタスク能力の広さ(つまり,生成タスクのパフォーマンス向上)の重要性に対処する。
これら2つのポイントは、学習/推論システムが、文字通り1つの例に過ぎず、実行可能で堅牢で柔軟な概念をいかに生み出すかを理解するために重要である。
We introduce a cluster-based generative image segmentation framework to encode higher-level representations of visual concepts based on one-shot learning inspired by the Omniglot Challenge. The inferred parameters of each component of a Gaussian Mixture Model (GMM) represent a distinct topological subpart of a visual concept. Sampling new data from these parameters generates augmented subparts to build a more robust prototype for each concept, i.e., the Abstracted Gaussian Prototype (AGP). This framework addresses one-shot classification tasks using a cognitively-inspired similarity metric and addresses one-shot generative tasks through a novel AGP-VAE pipeline employing variational autoencoders (VAEs) to generate new class variants. Results from human judges reveal that the generative pipeline produces novel examples and classes of visual concepts that are broadly indistinguishable from those made by humans. The proposed framework leads to impressive but not state-of-the-art classification accuracy; thus, the contribution is two-fold: 1) the system is uniquely low in theoretical and computational complexity and operates in a completely standalone manner compared while existing approaches draw heavily on pre-training or knowledge engineering; and 2) in contrast with competing neural network models, the AGP approach addresses the importance of breadth of task capability emphasized in the Omniglot challenge (i.e., successful performance on generative tasks). These two points are critical as we advance toward an understanding of how learning/reasoning systems can produce viable, robust, and flexible concepts based on literally nothing more than a single example. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# VisionTS:ビジュアル・マズード・オートエンコーダーは無料のゼロショット・タイム・シリーズ
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters ( http://arxiv.org/abs/2408.17253v1 ) ライセンス: Link先を確認 | Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu, | (参考訳) ファウンデーションモデルは時系列予測(TSF)において有望なアプローチとして現れている。
既存のアプローチでは、微調整された大規模言語モデル(LLM)か、大規模な時系列データセットを構築して、TSF基盤モデルを開発する。
しかし、これらの手法はドメイン間ギャップやドメイン内不均一性のために困難に直面している。
本稿では,リッチで高品質な自然画像からTSFファンデーションモデルを構築するための新しい手法を,画像と時系列の固有の類似性に基づいて検討する。
この2つの領域間のギャップを埋めるために、画像再構成タスクとしてTSFタスクを再構成し、ImageNetデータセット上で事前訓練された視覚マスク付きオートエンコーダ(MAE)によってさらに処理する。
驚くべきことに、時系列領域にさらなる適応がなければ、提案されたVisionTSは既存のTSFファンデーションモデルよりも優れたゼロショット予測性能を達成できる。
最小限の微調整で、VisionTSは予測をさらに改善し、ほとんどのケースで最先端のパフォーマンスを達成することができる。
これらの結果は、視覚モデルがTSFの無料ランチになり、コンピュータビジョンとTSFの間のクロスドメイン研究の可能性を強調していることを示唆している。
私たちのコードはhttps://github.com/Keytoyze/VisionTS.comで公開されています。
Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either fine-tune large language models (LLMs) or build large-scale time-series datasets to develop TSF foundation models. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. In this paper, we explore a new road to building a TSF foundation model from rich and high-quality natural images, based on the intrinsic similarities between images and time series. To bridge the gap between the two domains, we reformulate the TSF task as an image reconstruction task, which is further processed by a visual masked autoencoder (MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With minimal fine-tuning, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. These findings suggest that visual models could be a free lunch for TSF and highlight the potential for future cross-domain research between computer vision and TSF. Our code is publicly available at https://github.com/Keytoyze/VisionTS. | 翻訳日:2024-09-02 15:28:41 公開日:2024-08-30 |
# 自己教師型学習によるデノナイジングによる結晶特性予測
Self-supervised learning for crystal property prediction via denoising ( http://arxiv.org/abs/2408.17255v1 ) ライセンス: Link先を確認 | Alexander New, Nam Q. Le, Michael J. Pekala, Christopher D. Stiles, | (参考訳) 結晶材料の特性の正確な予測は、ターゲットとなる発見に不可欠であり、この予測はデータ駆動モデルでますます行われている。
しかし、多くの利害関係において、特定の性質が決定された資料の数は、既知の資料の数よりもはるかに少ない。
この格差を克服するために,物質的特性予測のための新たな自己教師型学習(SSL)戦略を提案する。
本手法では, 自己教師付き学習(CDSSL)の結晶化, 予測モデル(グラフネットワークなど)の事前学習を行う。
CDSSLモデルがSSLなしでトレーニングされたモデル、素材タイプ、プロパティ、データセットサイズを上回るパフォーマンスを示す。
Accurate prediction of the properties of crystalline materials is crucial for targeted discovery, and this prediction is increasingly done with data-driven models. However, for many properties of interest, the number of materials for which a specific property has been determined is much smaller than the number of known materials. To overcome this disparity, we propose a novel self-supervised learning (SSL) strategy for material property prediction. Our approach, crystal denoising self-supervised learning (CDSSL), pretrains predictive models (e.g., graph networks) with a pretext task based on recovering valid material structures when given perturbed versions of these structures. We demonstrate that CDSSL models out-perform models trained without SSL, across material types, properties, and dataset sizes. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 大規模言語モデルを用いたグラフに基づく学習手法による都市規模の配送需要の同時予測と予測
Joint Estimation and Prediction of City-wide Delivery Demand: A Large Language Model Empowered Graph-based Learning Approach ( http://arxiv.org/abs/2408.17258v1 ) ライセンス: Link先を確認 | Tong Nie, Junlin He, Yuewen Mei, Guoyang Qin, Guilong Li, Jian Sun, Wei Ma, | (参考訳) 電子商取引と都市化の進展により、都市部における配送業務が大幅に強化され、配送需要の量と複雑さが増大した。
データ駆動予測手法、特に機械学習技術を利用した手法は、都市部における需要管理の問題においてこれらの複雑さに対処するために出現している。
特にまだ十分に研究されていない問題は、都市全体の配送需要の同時推計と予測である。
この目的のために、この問題をグラフベースの時空間学習タスクとして定式化する。
まず、メッセージパッシングニューラルネットワークモデルを定式化し、関連する領域の需要パターン間の相互作用をキャプチャする。
第二に、大規模言語モデルにおける最近の進歩を利用して、構造化されていない位置データから一般的な地理空間的知識エンコーディングを抽出し、それらを需要予測器に統合する。
最後に、モデルの都市間移動性を促進するため、エンド・ツー・エンドルーチンでインダクティブ・トレーニング・スキームを開発する。
中国と米国の8都市を含む2つの実世界のデリバリーデータセットに対する大規模な実験結果から、我々のモデルはこれらの困難なタスクにおいて最先端のベースラインを大幅に上回っていることが示されています。
The proliferation of e-commerce and urbanization has significantly intensified delivery operations in urban areas, boosting the volume and complexity of delivery demand. Data-driven predictive methods, especially those utilizing machine learning techniques, have emerged to handle these complexities in urban delivery demand management problems. One particularly pressing problem that has not yet been sufficiently studied is the joint estimation and prediction of city-wide delivery demand. To this end, we formulate this problem as a graph-based spatiotemporal learning task. First, a message-passing neural network model is formalized to capture the interaction between demand patterns of associated regions. Second, by exploiting recent advances in large language models, we extract general geospatial knowledge encodings from the unstructured locational data and integrate them into the demand predictor. Last, to encourage the cross-city transferability of the model, an inductive training scheme is developed in an end-to-end routine. Extensive empirical results on two real-world delivery datasets, including eight cities in China and the US, demonstrate that our model significantly outperforms state-of-the-art baselines in these challenging tasks. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 微分プライバシーとゾノトープを用いたプライバシ保護セットベース推定
Privacy-Preserving Set-Based Estimation Using Differential Privacy and Zonotopes ( http://arxiv.org/abs/2408.17263v1 ) ライセンス: Link先を確認 | Mohammed M. Dawoud, Changxin Liu, Karl H. Johansson, Amr Alanwar, | (参考訳) 大規模サイバー物理システムでは、状態推定を行うために空間分布センサの協調が必要であることが多い。
プライバシの懸念は、機密性の高い測定結果をクラウド推定器に開示することにある。
この問題を解決するために, 中央および局所の差分プライバシモデル内でのセットベース状態推定プロセスを通じて, 推定セットにおける真の状態保持と, 感度測定に対する差分プライバシを保証する, 差分プライベートな集合ベース推定プロトコルを提案する。
ゾノトープは、差分的にプライベートな集合ベースの推定器で使われ、集合演算における計算上の優位性を提供する。
本研究では,境界モデリング不確実性を備えた非線形離散時間力学系のプラント,境界計測不確実性を用いた感度測定を行うセンサ,システム状態を予測するクラウド推定器について考察する。
プライバシー保護ノイズは、測定されたゾノトープの中心を乱すため、これらのゾノトープの正確な位置、すなわち、感度測定を含む集合のプライバシー保護を隠蔽する。
提案手法は,従来の研究と比較して,数値的に最適化された雑音分布を利用して,集中型および局所型差分プライバシーモデルによるプライバシー損失とユーティリティ損失の低減を実現する。
提案した推定器は,同レベルのプライバシーを保証するため,文献における分析手法よりも弱い雑音により摂動され,推定ユーティリティが向上する。
提案手法を支持するために, トラッピングラプラス雑音を用いた数値解析および比較実験を行った。
For large-scale cyber-physical systems, the collaboration of spatially distributed sensors is often needed to perform the state estimation process. Privacy concerns arise from disclosing sensitive measurements to a cloud estimator. To solve this issue, we propose a differentially private set-based estimation protocol that guarantees true state containment in the estimated set and differential privacy for the sensitive measurements throughout the set-based state estimation process within the central and local differential privacy models. Zonotopes are employed in the proposed differentially private set-based estimator, offering computational advantages in set operations. We consider a plant of a non-linear discrete-time dynamical system with bounded modeling uncertainties, sensors that provide sensitive measurements with bounded measurement uncertainties, and a cloud estimator that predicts the system's state. The privacy-preserving noise perturbs the centers of measurement zonotopes, thereby concealing the precise position of these zonotopes, i.e., ensuring privacy preservation for the sets containing sensitive measurements. Compared to existing research, our approach achieves less privacy loss and utility loss through the central and local differential privacy models by leveraging a numerically optimized truncated noise distribution. The proposed estimator is perturbed by weaker noise than the analytical approaches in the literature to guarantee the same level of privacy, therefore improving the estimation utility. Numerical and comparison experiments with truncated Laplace noise are presented to support our approach. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 複合物質-光子量子情報プロセッサにおける資源状態生成
Resource state generation in a hybrid matter-photon quantum information processor ( http://arxiv.org/abs/2408.17265v1 ) ライセンス: Link先を確認 | Yu Liu, Martin B. Plenio, | (参考訳) 物質とフォトニック自由度を統合するハイブリッド量子アーキテクチャは、スケーラブルでフォールトトレラントな量子コンピューティングへの有望な経路を示す。
このアプローチは、光度自由度を用いた遠方レジスタ間の密接な操作と、固体レジスタ内の物質量子ビット間の直接相互作用を組み合わせる必要がある。
しかし、そのようなレジスタの高忠実度制御は、重大な課題を生じさせる。
本研究では、これらの課題に対して、スピン間相互作用をすべて変調して、不要な長距離相互作用を排除しつつ、最も近い隣り合う結合を保ちながら、パルス制御シーケンスを用いて対処する。
我々は、合成パルスと形状パルス技術と最適制御法を用いて、ブロードバンドと選択ゲートを含むパルスシーケンスを導出する。
これにより、スピン位置の不確実性、静的オフセットデチューニング、および制御場のラビ周波数変動に対するロバスト性を保証する。
ここで開発された制御技術は、様々な物理プラットフォームに応用できる。
窒素空洞中心の電子状態に符号化された4-および6-スピン系における核融合型量子コンピューティングのための資源状態生成法の有効性を実証する。
また,提案アーキテクチャの他の要素についても概説し,量子コンピューティング技術の進歩の可能性を強調した。
Hybrid quantum architectures that integrate matter and photonic degrees of freedom present a promising pathway toward scalable, fault-tolerant quantum computing. This approach needs to combine well-established entangling operations between distant registers using photonic degrees of freedom with direct interactions between matter qubits within a solid-state register. The high-fidelity control of such a register, however, poses significant challenges. In this work, we address these challenges with pulsed control sequences which modulate all inter-spin interactions to preserve the nearest-neighbor couplings while eliminating unwanted long-range interactions. We derive pulse sequences, including broadband and selective gates, using composite pulse and shaped pulse techniques as well as optimal control methods. This ensures robustness against uncertainties in spin positions, static offset detunings, and Rabi frequency fluctuations of the control fields. The control techniques developed here apply well beyond the present setting to a broad range of physical platforms. We demonstrate the efficacy of our methods for the resource state generation for fusion-based quantum computing in four- and six-spin systems encoded in the electronic ground states of nitrogen-vacancy centers. We also outline other elements of the proposed architecture, highlighting its potential for advancing quantum computing technology. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# UrBench: 多視点都市シナリオにおける大規模マルチモーダルモデル評価のための総合ベンチマーク
UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios ( http://arxiv.org/abs/2408.17267v1 ) ライセンス: Link先を確認 | Baichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li, | (参考訳) 近年のLMM(Large Multimodal Models)の評価では,都市環境に着目したベンチマークは少ないものの,様々な領域においてその能力について検討されている。
さらに, 都市環境におけるLMMの能力の評価は, 都市環境におけるLMMの能力について不完全な評価がなされている。
これらの問題に対処するために、複雑な多視点都市シナリオにおけるLMMを評価するために設計された総合的なベンチマークであるUrBenchを提案する。
UrBenchには、地理的ローカライゼーション、Scene Reasoning、Scene Understanding、Object Understandingの4つのタスクタイプをカバーする、リージョンレベルとロールレベルの両方で、11.6Kの厳密にキュレートされた質問が含まれている。
UrBenchの構築において、既存のデータセットからのデータを利用し、さらに11の都市からデータを収集し、クロスビュー検出マッチング法を用いた新しいアノテーションを作成する。
これらの画像とアノテーションにより、LMM、ルールベース、人間ベースの手法を統合して、大規模で高品質な質問を構築する。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
最も優れたGPT-4oのラグでも、カウント、位置化、オブジェクト属性認識といった複雑なタスクから、平均的なパフォーマンスギャップ17.4%まで、多くのタスクで人間に遅れを取っている。
筆者らのベンチマークでは,LMMは都市間関係の理解に関して,異なる視点で不整合な行動を示すことも明らかにした。
UrBenchのデータセットとベンチマーク結果はhttps://opendatalab.github.io/UrBench/で公開される。
Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# エージェントベースモデルによる生成AIの影響予測
Predicting the Impact of Generative AI Using an Agent-Based Model ( http://arxiv.org/abs/2408.17268v1 ) ライセンス: Link先を確認 | Joao Tiago Aparicio, Manuela Aparicio, Sofia Aparicio, Carlos J. Costa, | (参考訳) 生成人工知能(AI)システムは、人間の創造性を模倣するコンテンツを自律的に生成することで、様々な産業を変革してきた。
しかし、その社会的・経済的影響に対する懸念は広く普及する。
本稿ではエージェント・ベース・モデリング(ABM)を用いてこれらの意味を探索し、生成型AIが社会的枠組みに与える影響を予測する。
ABMは個人、ビジネス、政府エージェントを統合し、教育、スキル獲得、AIの採用、規制対応などのダイナミクスをシミュレートする。
この研究は、AIの複雑な相互作用の理解を高め、政策立案のための洞察を提供する。
文献レビューはAIの影響を予測し、AIの採用、雇用、規制の傾向を潜在的に政策に影響を及ぼす可能性があることを明らかにする。
将来の研究は、モデルを洗練し、長期的含意と倫理的考察を評価し、生成AIの社会的影響をより深く理解する。
Generative artificial intelligence (AI) systems have transformed various industries by autonomously generating content that mimics human creativity. However, concerns about their social and economic consequences arise with widespread adoption. This paper employs agent-based modeling (ABM) to explore these implications, predicting the impact of generative AI on societal frameworks. The ABM integrates individual, business, and governmental agents to simulate dynamics such as education, skills acquisition, AI adoption, and regulatory responses. This study enhances understanding of AI's complex interactions and provides insights for policymaking. The literature review underscores ABM's effectiveness in forecasting AI impacts, revealing AI adoption, employment, and regulation trends with potential policy implications. Future research will refine the model, assess long-term implications and ethical considerations, and deepen understanding of generative AI's societal effects. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 物理インフォームドニューラルネットワークによる流体流れの方程式同定
Equation identification for fluid flows via physics-informed neural networks ( http://arxiv.org/abs/2408.17271v1 ) ライセンス: Link先を確認 | Alexander New, Marisel Villafañe-Delgado, Charles Shugert, | (参考訳) 物理情報ニューラルネットワーク(PINN)のような科学機械学習(SciML)手法は、制御方程式や少量のデータから興味のパラメータを推定するために用いられる。
しかし、PINNが数学の分野にまたがる幅広い支配方程式の逆問題に対してどれだけうまく機能するかを評価する研究はほとんど行われていない。
回転流を伴う2次元バーガー方程式のパラメトリックスリープに基づいて,逆PINNに対する新しい,挑戦的なベンチマーク問題を提案する。
本稿では,一階最適化と二階最適化を交互に行う新しい戦略が,パラメータ推定の典型的な一階最適化よりも優れていることを示す。
さらに,逆設定におけるPINNの有効性を特徴付ける新しいデータ駆動手法を提案する。
PINNの物理情報正規化により、データ駆動ベースラインよりも少ない量のデータを効率的に利用することができる。
しかし、PINNとベースラインは、高度に不可解なフローのパラメータの回復に失敗し、PINN法のさらなる開発の必要性を動機付けている。
Scientific machine learning (SciML) methods such as physics-informed neural networks (PINNs) are used to estimate parameters of interest from governing equations and small quantities of data. However, there has been little work in assessing how well PINNs perform for inverse problems across wide ranges of governing equations across the mathematical sciences. We present a new and challenging benchmark problem for inverse PINNs based on a parametric sweep of the 2D Burgers' equation with rotational flow. We show that a novel strategy that alternates between first- and second-order optimization proves superior to typical first-order strategies for estimating parameters. In addition, we propose a novel data-driven method to characterize PINN effectiveness in the inverse setting. PINNs' physics-informed regularization enables them to leverage small quantities of data more efficiently than the data-driven baseline. However, both PINNs and the baseline can fail to recover parameters for highly inviscid flows, motivating the need for further development of PINN methods. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 一般化 Ness-Helleseth 関数の微分的性質に関するさらなる考察
Further Investigation on Differential Properties of the Generalized Ness-Helleseth Function ( http://arxiv.org/abs/2408.17272v1 ) ライセンス: Link先を確認 | Yongbo Xia, Chunlei Li, Furong Bao, Shaoping Chen, Tor Helleseth, | (参考訳) n$ を奇正整数とし、$p$ を $p\equiv3\pmod4$, $d_{1} = {{p^{n}-1}\over {2}} -1 $ と $d_{2} =p^{n}-2$ の素数とする。
f_u(x)=ux^{d_{1}}+x^{d_{2}}$ で定義される函数は、一般化されたネッス=ヘレセス函数を$\mathbb{F}_{p^n}$ で、$u\in\mathbb{F}_{p^n}$ で定義される。
最初はネッサスとヘルセスによって、第三次事件で研究された。
本稿では、$p^n \equiv 3 \pmod 4$および$p^n \ge7$に対して、$f_u(x)$がAPN関数となるために必要な条件を提供する。
さらに、$\chi(u+1) = \chi(u-1)$ を満たす各$u$について、$f_u(x)$ の微分スペクトルを調査し、$\chi(\cdot)$ が $\mathbb{F}_{p^n}$ の二次指標を表すような立方多項式の二次指標和の項で表される。
Let $n$ be an odd positive integer, $p$ be a prime with $p\equiv3\pmod4$, $d_{1} = {{p^{n}-1}\over {2}} -1 $ and $d_{2} =p^{n}-2$. The function defined by $f_u(x)=ux^{d_{1}}+x^{d_{2}}$ is called the generalized Ness-Helleseth function over $\mathbb{F}_{p^n}$, where $u\in\mathbb{F}_{p^n}$. It was initially studied by Ness and Helleseth in the ternary case. In this paper, for $p^n \equiv 3 \pmod 4$ and $p^n \ge7$, we provide the necessary and sufficient condition for $f_u(x)$ to be an APN function. In addition, for each $u$ satisfying $\chi(u+1) = \chi(u-1)$, the differential spectrum of $f_u(x)$ is investigated, and it is expressed in terms of some quadratic character sums of cubic polynomials, where $\chi(\cdot)$ denotes the quadratic character of $\mathbb{F}_{p^n}$. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# スパースグラフ畳み込みネットワークのダウンサンプリング可能性
The Transferability of Downsampling Sparse Graph Convolutional Networks ( http://arxiv.org/abs/2408.17274v1 ) ライセンス: Link先を確認 | Qinji Shu, Hang Sheng, Hui Feng, Bo Hu, | (参考訳) 本稿では,スパースグラフモデルに基づく大規模スパースグラフダウンサンプリング手法を提案する。
スパースグラフモデルでは,グラフサイズが大きくなるにつれてノード接続確率が減少し,ダウンサンプリング法では特定のトポロジカル接続パターンが維持される。
ダウンサンプリング法に基づいて、スパルスグラフ畳み込みネットワーク(GCN)のダウンサンプリングに関する理論的転送可能性(英語版)を導出し、より高いサンプリング率、平均次期待値、より小さい初期グラフサイズにより、ダウンサンプリングの転送性能が向上する。
In this paper, we propose a large-scale sparse graph downsampling method based on a sparse random graph model, which allows for the adjustment of different sparsity levels. We combine sparsity and topological similarity: the sparse graph model reduces the node connection probability as the graph size increases, while the downsampling method preserves a specific topological connection pattern during this change. Based on the downsampling method, we derive a theoretical transferability bound about downsampling sparse graph convolutional networks (GCNs), that higher sampling rates, greater average degree expectations, and smaller initial graph sizes lead to better downsampling transferability performance. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# Oracleプロパティによる最小限の分散ベストセット選択と通信効率のよい分散ベストセット選択
Minimax and Communication-Efficient Distributed Best Subset Selection with Oracle Property ( http://arxiv.org/abs/2408.17276v1 ) ライセンス: Link先を確認 | Jingguo Lan, Hongmei Lin, Xueqin Wang, | (参考訳) 金融、電子商取引、ソーシャルメディアなどの分野における大規模データの爆発は、単一機械システムの処理能力を上回っており、分散統計推論手法の必要性が高まっている。
分散推論への伝統的なアプローチは、しばしば高次元データセットにおいて真の疎性を達成することに苦慮し、高い計算コストを伴います。
そこで本稿では,これらの問題に対処する2段階分散ベストサブセット選択アルゴリズムを提案する。
我々のアプローチは、$\ell_0$ノルム制約されたサロゲート確率関数に固執しながら活性集合を効率的に推定し、次元性を効果的に減らし、キー変数を分離することから始まる。
活性集合内の洗練された推定は、スパース推定を確実にし、minimax $\ell_2$エラー境界に一致する。
適応パラメータ選択のための新しいスプライシング手法を導入し、$\ell_0$制約と一般化情報基準(GIC)に基づくサブプロブレムに取り組む。
理論的および数値的研究により,提案アルゴリズムは真の疎度パターンを正しく発見し,オラクル特性を有し,通信コストを大幅に低減することを示した。
これは分散スパース推定における大きな前進です。
The explosion of large-scale data in fields such as finance, e-commerce, and social media has outstripped the processing capabilities of single-machine systems, driving the need for distributed statistical inference methods. Traditional approaches to distributed inference often struggle with achieving true sparsity in high-dimensional datasets and involve high computational costs. We propose a novel, two-stage, distributed best subset selection algorithm to address these issues. Our approach starts by efficiently estimating the active set while adhering to the $\ell_0$ norm-constrained surrogate likelihood function, effectively reducing dimensionality and isolating key variables. A refined estimation within the active set follows, ensuring sparse estimates and matching the minimax $\ell_2$ error bound. We introduce a new splicing technique for adaptive parameter selection to tackle subproblems under $\ell_0$ constraints and a Generalized Information Criterion (GIC). Our theoretical and numerical studies show that the proposed algorithm correctly finds the true sparsity pattern, has the oracle property, and greatly lowers communication costs. This is a big step forward in distributed sparse estimation. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 大規模言語モデルのフレキシブルかつ効果的な混合をドメインエキスパートの混合に
Flexible and Effective Mixing of Large Language Models into a Mixture of Domain Experts ( http://arxiv.org/abs/2408.17280v1 ) ライセンス: Link先を確認 | Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, | (参考訳) 訓練されたモデルから低コストのMixture-of-Domain-Experts(MOE)を作成するためのツールキットを提案する。
ツールキットは、モデルまたはアダプタから混合物を作成するために使用することができる。
我々は広範囲なテストを行い、ツールキットを用いて結果のMOEのアーキテクチャを定義するためのガイダンスを提供する。
パブリックリポジトリが利用可能である。
We present a toolkit for creating low-cost Mixture-of-Domain-Experts (MOE) from trained models. The toolkit can be used for creating a mixture from models or from adapters. We perform extensive tests and offer guidance on defining the architecture of the resulting MOE using the toolkit. A public repository is available. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# DCUDF2: 符号なし距離場からのゼロレベル集合抽出の効率化と精度向上
DCUDF2: Improving Efficiency and Accuracy in Extracting Zero Level Sets from Unsigned Distance Fields ( http://arxiv.org/abs/2408.17284v1 ) ライセンス: Link先を確認 | Xuhui Chen, Fugang Yu, Fei Hou, Wencheng Wang, Zhebin Zhang, Ying He, | (参考訳) 符号なし距離場(UDF)は複雑な位相を持つモデルの表現を可能にするが、これらの場から正確なゼロレベル集合を抽出することは、特に位相的精度の保存と微妙な幾何学的詳細の取得において重要な課題となる。
これらの課題を克服するために、UDFからゼロレベルセットを抽出するDCUDF2(現在の最先端手法)をDCUDFに拡張するDCUDF2を導入する。
提案手法では,自己適応重みを付加した精度認識損失関数を用いて,幾何学的品質を著しく向上させる。
また,ハイパーパラメータへの依存性を低減し,手法の堅牢性を高めるトポロジ補正戦略を提案する。
さらに,実行効率を向上させるために自己適応重みを利用する新たな操作を開発する。
多様なデータセットにわたる表面抽出に関する大規模な実験により、DCUDF2は幾何学的忠実度と位相的精度の両方でDCUDFと既存の手法より優れていることが示された。
ソースコードを公開します。
Unsigned distance fields (UDFs) allow for the representation of models with complex topologies, but extracting accurate zero level sets from these fields poses significant challenges, particularly in preserving topological accuracy and capturing fine geometric details. To overcome these issues, we introduce DCUDF2, an enhancement over DCUDF--the current state-of-the-art method--for extracting zero level sets from UDFs. Our approach utilizes an accuracy-aware loss function, enhanced with self-adaptive weights, to improve geometric quality significantly. We also propose a topology correction strategy that reduces the dependence on hyper-parameter, increasing the robustness of our method. Furthermore, we develop new operations leveraging self-adaptive weights to boost runtime efficiency. Extensive experiments on surface extraction across diverse datasets demonstrate that DCUDF2 outperforms DCUDF and existing methods in both geometric fidelity and topological accuracy. We will make the source code publicly available. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 画像欠陥:テキストから画像へのモデル進化の影における安全性、バイアス、正当性
Image-Perfect Imperfections: Safety, Bias, and Authenticity in the Shadow of Text-To-Image Model Evolution ( http://arxiv.org/abs/2408.17285v1 ) ライセンス: Link先を確認 | Yixin Wu, Yun Shen, Michael Backes, Yang Zhang, | (参考訳) 安定拡散(SD)のようなテキスト・ツー・イメージのモデルでは、画像の品質向上と安全性などの問題への対処のために反復的な更新が行われている。
画質の改善は簡単に評価できる。
しかし、どのようにモデル更新が既存の懸念を解決し、新たな疑問を提起するかは未定のままである。
本研究は,安全性,バイアス,信頼性の観点から,テキスト・ツー・イメージ・モデルの進化を研究するための第一歩を踏み出した。
以上の結果から, モデル更新が混在していることが明らかとなった。
アップデートによって安全でない画像の生成が徐々に減少する一方で、特に性別におけるバイアスの問題が強まります。
また、負のステレオタイプが同じ非ホワイトレースグループ内に留まるか、SD更新によって他の非ホワイトレースグループに移行するか、ホワイトレースグループと最小限の関連性を持つことがわかった。
最先端の偽画像検出器は、初期のSDバージョンのために訓練され、更新されたバージョンによって生成された偽画像を特定するのに苦労しています。
これらの検出器を更新版によって生成された偽画像に微調整することで、様々なSDバージョンで少なくとも96.6\%の精度が得られ、この問題に対処できることが示されている。
私たちの洞察は、テキスト・ツー・イメージ・モデルの進化におけるバイアスと脆弱性を軽減するための継続的な努力の重要性を強調します。
Text-to-image models, such as Stable Diffusion (SD), undergo iterative updates to improve image quality and address concerns such as safety. Improvements in image quality are straightforward to assess. However, how model updates resolve existing concerns and whether they raise new questions remain unexplored. This study takes an initial step in investigating the evolution of text-to-image models from the perspectives of safety, bias, and authenticity. Our findings, centered on Stable Diffusion, indicate that model updates paint a mixed picture. While updates progressively reduce the generation of unsafe images, the bias issue, particularly in gender, intensifies. We also find that negative stereotypes either persist within the same Non-White race group or shift towards other Non-White race groups through SD updates, yet with minimal association of these traits with the White race group. Additionally, our evaluation reveals a new concern stemming from SD updates: State-of-the-art fake image detectors, initially trained for earlier SD versions, struggle to identify fake images generated by updated versions. We show that fine-tuning these detectors on fake images generated by updated versions achieves at least 96.6\% accuracy across various SD versions, addressing this issue. Our insights highlight the importance of continued efforts to mitigate biases and vulnerabilities in evolving text-to-image models. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# EVaRを用いたリスク逆トータルリワードMDPにおける定常政策の最適性
Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR ( http://arxiv.org/abs/2408.17286v1 ) ライセンス: Link先を確認 | Xihong Su, Marek Petrik, Julien Grand-Clément, | (参考訳) 多くのモデルは直接動的プログラミング方程式を認めず、複雑な履歴に依存したポリシーを必要とするため、割引されたMDPのリスク-逆目標の最適化は困難である。
本稿では,ERM(Entropic Risk Measure)とEVaR(Entropic Value at Risk)のリスク評価基準に基づくリスク回避基準が,定常的ポリシによって最適化され,分析,解釈,展開が容易であることを示す。
最適ポリシーを計算するために指数関数的値反復、ポリシー反復、線形プログラミングを提案する。
先行研究と比較して,本研究の結果は比較的軽度な過渡的MDPの条件に過ぎず,正と負の両方の報酬を許容する。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
Optimizing risk-averse objectives in discounted MDPs is challenging because most models do not admit direct dynamic programming equations and require complex history-dependent policies. In this paper, we show that the risk-averse {\em total reward criterion}, under the Entropic Risk Measure (ERM) and Entropic Value at Risk (EVaR) risk measures, can be optimized by a stationary policy, making it simple to analyze, interpret, and deploy. We propose exponential value iteration, policy iteration, and linear programming to compute optimal policies. In comparison with prior work, our results only require the relatively mild condition of transient MDPs and allow for {\em both} positive and negative rewards. Our results indicate that the total reward criterion may be preferable to the discounted criterion in a broad range of risk-averse reinforcement learning domains. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# 量子通信における絡み合い支援の限界
A Limit on the Power of Entanglement-Assistance in Quantum Communication ( http://arxiv.org/abs/2408.17290v1 ) ライセンス: Link先を確認 | Lasse H. Wolff, Paula Belzig, Matthias Christandl, Bergfinnur Durhuus, Marco Tomamichel, | (参考訳) 量子チャネル上での信頼性の高い通信の最適な速度は、事前に共有された絡み合いによって向上することができる。
入力電力が制約された場合でも、エンハンスメントは無限次元の設定では非有界となるが、長年の予想では、絡み合い支援された古典的容量と非補助的古典的容量の比は有限次元の設定[Bennett et al , Phys. Rev. 83, 3081 (2002)]で有界である。
この研究において、これらの比が$o(d^2)$で上界であることを示し、$d$がチャネルの入力次元であることを示す。
ノイズの多いエンコーダとデコーダによる量子通信への応用について述べる。
The optimal rate of reliable communication over a quantum channel can be enhanced by pre-shared entanglement. Whereas the enhancement may be unbounded in infinite-dimensional settings even when the input power is constrained, a long-standing conjecture asserts that the ratio between the entanglement-assisted and unassisted classical capacities is bounded in finite-dimensional settings [Bennett et al., Phys. Rev. Lett. 83, 3081 (2002)]. In this work, we prove this conjecture by showing that their ratio is upper bounded by $o(d^2)$, where $d$ is the input dimension of the channel. An application to quantum communication with noisy encoders and decoders is given. | 翻訳日:2024-09-02 15:18:38 公開日:2024-08-30 |
# オープンソースの周波数領域シミュレータを用いたジョセフソントラベリング波パラメトリック増幅器のフラックスチューナビリティのモデル化
Modeling flux tunability in Josephson Traveling Wave Parametric Amplifiers with an open-source frequency-domain simulator ( http://arxiv.org/abs/2408.17293v1 ) ライセンス: Link先を確認 | A. Levochkina, I. Chatterjee, P. Darvehi, H. G. Ahmad, P. Mastrovito, D. Massarotti, D. Montemurro, F. Tafuri, G. P. Pepe, Kevin P. O'Brien, M. Esposito, | (参考訳) Josephson Traveling Wave Parametric Amplifiers (JTWPAs) は量子技術における多くの実験の不可欠な部分である。
何百ものジョセフソン接合に基づく単位セルで構成されており、そのようなデバイスは単純な解析モデルでは説明できない複雑な非線形挙動を示すため、数値シミュレーターを使用する必要がある。
JTWPAの非常に有用な特徴は、外部磁束によってバイアスを受ける可能性があり、非線形性をその場で制御できることである。
したがって、数値シミュレーターがこの機能をサポートすることが非常に望ましい。
WRSPICEやPSCAN2のようなJTWPAフラックスバイアスをモデル化できるオープンソースの数値ツールは、時間領域のアプローチに基づいている。
本稿では、最近開発された周波数領域のオープンソース数値シミュレータであるJosephsonCircuits.jlを用いて、原型的なフラックス可変JTWPAのゲイン性能をモデル化する。
数値および実験結果を比較して,JTWPAのフラックス依存挙動をモデル化する手法を検証する。
Josephson Traveling Wave Parametric Amplifiers (JTWPAs) are integral parts of many experiments carried out in quantum technologies. Being composed of hundreds of Josephson junction-based unit cells, such devices exhibit complex nonlinear behavior that typically cannot be fully explained with simple analytical models, thus necessitating the use of numerical simulators. A very useful characteristic of JTWPAs is the possibility of being biased by an external magnetic flux, allowing insitu control of the nonlinearity. It is therefore very desirable for numerical simulators to support this feature. Open-source numerical tools that allow to model JTWPA flux biasing, such as WRSPICE or PSCAN2, are based on time-domain approaches,which typically require long simulation times to get accurate results. In this work, we model the gain performance in a prototypical flux-tunable JTWPA by using JosephsonCircuits.jl,a recently developed frequency-domain open-source numerical simulator, which has the benefit of simulation times about 10,000 faster than time-domain methods. By comparing the numerical and experimental results, we validate this approach for modeling the flux dependent behavior of JTWPAs. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 量子コンピュータにおける中性子-陽子対相関
Neutron-proton pairing correlations described on quantum computers ( http://arxiv.org/abs/2408.17294v1 ) ライセンス: Link先を確認 | Jing Zhang, Denis Lacroix, Yann Beaujeault-Taudiere, | (参考訳) ADAPT-VQE法は原子核における中性子-陽子対の問題を解くために用いられる。
この変分法は現在、多体問題の基底状態を反復的に見つける最も強力な方法の1つと考えられており、多体波動関数のヒルベルト空間を探索するために、演算子のプールと呼ばれる演算子の実行集合が用いられる。
中性子-陽子ペアリング問題のために、3つの異なる作用素のプールがテストされ、最終的にはハミルトニアンの1つまたは複数の対称性が崩壊する可能性がある。
実験波動関数の最適化におけるいくつかの対称性の破れは、一般に基底状態への収束を高速化するのに役立つかもしれない。
それでも、最適化プロセス中に制御不能になるため、粒子数を明示的に破壊する演算子のプールを拒絶した。
総じて, アンザッツを構成するパラメータの数が増加すると, 反復最適化プロセスは急速に微妙な問題となり, エネルギーは基底状態エネルギーよりも高いエネルギーで立ち往生する可能性がある。
この場合の収束を改善するために、エネルギー最小化時の対称性をよりよく制御するいくつかの手法が提案されている。
提案手法のうち, 組込み法と初期状態のランダムな準備法を併用した2つの方法が有効であることが証明された。
これらの技術によって補完されるADAPT-VQEは中性子-陽子対問題の非常に正確な記述を提供し、粒子数対称性を破り、その後回復する他の標準技術よりも優れていると結論付けている。
The ADAPT-VQE approach is used to solve the neutron-proton pairing problem in atomic nuclei. This variational approach is considered today as one of the most powerful methods to iteratively find the ground state of a many-body problem, provided a performing set of operators, called the pool of operators, is used to explore the Hilbert space of many-body wave-functions. Three different pools of operators, which might eventually break one or several symmetries of the Hamiltonian during the descent to the ground state, are tested for the neutron-proton pairing problem. We observe that the breaking of some symmetries during the optimization of the trial wave-function might, in general, help to speed up the convergence towards the ground state. Still, we rejected the pool of operators that might explicitly break the total particle number because they become uncontrollable during the optimization process. Overall, we observed that the iterative optimization process rapidly becomes a delicate problem when the number of parameters to build the ansatz increases, and the energy might get stuck at energies higher than the ground state energy. To improve the convergence in this case, several techniques have been proposed, with some better controlling the symmetries during the energy minimization. Among the proposed methods, two have proven effective: one based on an embedding technique and the other on a randomized preparation of the initial state. We conclude that the ADAPT-VQE, complemented by these techniques, can provide a very accurate description of the neutron-proton pairing problem, and can outperform other standardly used techniques that break the particle number symmetry and restore afterwards. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# BOP-D:視覚的曖昧さ下での評価を改善するための6次元視点推定ベンチマークの再検討
BOP-D: Revisiting 6D Pose Estimation Benchmark for Better Evaluation under Visual Ambiguities ( http://arxiv.org/abs/2408.17297v1 ) ライセンス: Link先を確認 | Boris Meden, Asma Brazi, Steve Bourgeois, Fabrice Mayran de Chamisso, Vincent Lepetit, | (参考訳) 現在、6次元ポーズ推定法は、その基礎となる真理アノテーションに対して、視覚的曖昧性は、グローバルなオブジェクト対称性にのみ関連していると考えるデータセット上でベンチマークされている。
しかし、前述した[26]と同様に、不明瞭な部分が隠される際には、視界や隠蔽物の存在によっても視覚的曖昧性が生じることがある。
したがって、視覚的あいまいさは実際には画像によって異なる。
そこで我々はまず,画像内の物体表面の視認性を考慮し,各画像に特有の6次元ポーズ分布でこれらのデータセットを再アノテートする自動手法を提案する。
この改良された基礎的事実から、最先端の手法を再評価し、これらの手法のランク付けを大幅に変更したことを示す。
我々のアノテーションは、実画像上のポーズ分布を初めて推定できる最近の手法のベンチマークを可能にします。
T-LESSデータセットのアノテーションとコードを公開します。
Currently, 6D pose estimation methods are benchmarked on datasets that consider, for their ground truth annotations, visual ambiguities as only related to global object symmetries. However, as previously observed [26], visual ambiguities can also happen depending on the viewpoint or the presence of occluding objects, when disambiguating parts become hidden. The visual ambiguities are therefore actually different across images. We thus first propose an automatic method to re-annotate those datasets with a 6D pose distribution specific to each image, taking into account the visibility of the object surface in the image to correctly determine the visual ambiguities. Given this improved ground truth, we re-evaluate the state-of-the-art methods and show this greatly modify the ranking of these methods. Our annotations also allow us to benchmark recent methods able to estimate a pose distribution on real images for the first time. We will make our annotations for the T-LESS dataset and our code publicly available. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 機械学習による惑星内部力学の定常状態の発見の加速
Accelerating the discovery of steady-states of planetary interior dynamics with machine learning ( http://arxiv.org/abs/2408.17298v1 ) ライセンス: Link先を確認 | Siddhant Agarwal, Nicola Tosi, Christian Hüttig, David S. Greenberg, Ali Can Bekar, | (参考訳) マントル対流をシミュレーションするには、しばしば計算に高価な定常状態に到達し、熱的および動的フロー特性のスケーリング法則を導出し、数値解のベンチマークを行うのに不可欠である。
マントル岩のレオロジーの強い温度依存性は、数桁の粘度変化を引き起こし、熱伝導が支配する緩やかに進行する停滞した蓋を生じさせ、急速に進化し、強く対流する領域を覆っている。
時間ステッピング法は、粘度が一定である流体に対して有効であるが、システムの最大速度とグリッドサイズに基づいて時間ステップを制限するCourant criterionによって妨げられる。
したがって、定常状態を達成するには、定常領域と対流領域を管理する異なる時間スケールのために、多くの時間ステップが必要となる。
機械学習を用いてマントル対流シミュレーションを高速化する概念を提案する。
基礎と内部の加熱を混合した128の二次元シミュレーションと,圧力および温度依存性の粘度のデータセットを生成した。
我々は97のシミュレーションに基づいてフィードフォワードニューラルネットワークをトレーニングし、定常的な温度分布を予測する。
これらは、異なるシミュレーションパラメータの数値時間ステップメソッドの初期化に使用できる。
典型的な初期化と比較すると、定常状態に達するために必要な時間ステップの数は3.75倍に減少する。
この手法の利点は、トレーニングするシミュレーションが極めて少なく、数値的な手法を初期化する際に予測誤差のないソリューションを提供し、推論時に計算オーバーヘッドを最小限に抑えることである。
提案手法の有効性を実証し,マントル対流促進研究における加速シミュレーションの可能性について考察する。
Simulating mantle convection often requires reaching a computationally expensive steady-state, crucial for deriving scaling laws for thermal and dynamical flow properties and benchmarking numerical solutions. The strong temperature dependence of the rheology of mantle rocks causes viscosity variations of several orders of magnitude, leading to a slow-evolving stagnant lid where heat conduction dominates, overlying a rapidly-evolving and strongly convecting region. Time-stepping methods, while effective for fluids with constant viscosity, are hindered by the Courant criterion, which restricts the time step based on the system's maximum velocity and grid size. Consequently, achieving steady-state requires a large number of time steps due to the disparate time scales governing the stagnant and convecting regions. We present a concept for accelerating mantle convection simulations using machine learning. We generate a dataset of 128 two-dimensional simulations with mixed basal and internal heating, and pressure- and temperature-dependent viscosity. We train a feedforward neural network on 97 simulations to predict steady-state temperature profiles. These can then be used to initialize numerical time stepping methods for different simulation parameters. Compared to typical initializations, the number of time steps required to reach steady-state is reduced by a median factor of 3.75. The benefit of this method lies in requiring very few simulations to train on, providing a solution with no prediction error as we initialize a numerical method, and posing minimal computational overhead at inference time. We demonstrate the effectiveness of our approach and discuss the potential implications for accelerated simulations for advancing mantle convection research. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 多目的最適化を用いた格子ゲージ理論のための基底状態と熱状態の変分量子シミュレーション
Variational quantum simulation of ground states and thermal states for lattice gauge theory with multi-objective optimization ( http://arxiv.org/abs/2408.17300v1 ) ライセンス: Link先を確認 | Lang-Xing Cheng, Dan-Bo Zhang, | (参考訳) 変分量子アルゴリズムは、量子システムをシミュレートするための実現可能なアプローチを提供し、広く応用されている。
しかし、格子ゲージ理論では、局所ゲージ不変性が物理的ヒルベルト空間に制約を課すため、変分量子シミュレーションは困難に直面する。
本稿では,0および有限温度における格子ゲージ理論の変分量子シミュレーションのための多目的最適化を取り入れた。
系のエネルギーや自由エネルギーを2つの目的として局所ゲージ不変性を強制するペナルティを設定することにより、多目的最適化は2つの目的に対して適切な重み付けを自己調整し、したがって物理的ヒルベルト空間におけるゲージ理論を忠実にシミュレートすることができる。
具体的には、格子ゲージ理論の基底状態と熱状態を作成するための変分量子固有解器と変分量子熱分解器を提案する。
一次元にスピンレスフェルミオンを持つZ_2$格子ゲージ理論の量子アルゴリズムを実証する。
数値シミュレーションでは、多目的最適化により、エネルギー~(自由エネルギー)を最小化し、局所ゲージの不変性をゼロ温度〜(有限温度)で同時に達成できることが示されている。
多目的最適化は、短期量子デバイス上の複雑な物理システムの量子シミュレーションに有効な要素を示唆している。
Variational quantum algorithms provide feasible approaches for simulating quantum systems and are applied widely. For lattice gauge theory, however, variational quantum simulation faces a challenge as local gauge invariance enforces a constraint on the physical Hilbert space. In this paper, we incorporate multi-objective optimization for variational quantum simulation of lattice gauge theory at zero and finite temperatures. By setting energy or free energy of the system and penalty for enforcing the local gauge invariance as two objectives, the multi-objective optimization can self-adjust the proper weighting for two objectives and thus faithfully simulate the gauge theory in the physical Hilbert space. Specifically, we propose variational quantum eigensolver and variational quantum thermalizer for preparing the ground states and thermal states of lattice gauge theory, respectively. We demonstrate the quantum algorithms for a $Z_2$ lattice gauge theory with spinless fermion in one dimension. With numeral simulations, the multi-objective optimization shows that minimizing energy~(free energy) and enforcing the local gauge invariance can be achieved simultaneously at zero temperature~(finite temperature). The multi-objective optimization suggests a feasible ingredient for quantum simulation of complicated physical systems on near-term quantum devices. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# デジタル時代の人権
Human Rights for the Digital Age ( http://arxiv.org/abs/2408.17302v1 ) ライセンス: Link先を確認 | Shaleeza Yaqoob Siddiqui, Sara Farooqi, Wajeeh ur Rehman, Laiba Zulfiqar, | (参考訳) デジタル技術の出現は、デジタルドメインにおける人権の保護と実施に関する重要な質問を呈し、人間の存在のすべての側面を根本的に変えてきた。
この研究は、プライバシー、言論の自由、情報アクセスといった重要なトピックに焦点を当てている。
この方法論には、既存の文献、法的枠組み、関連するケーススタディの広範なレビューが含まれており、技術と人権の交わりの包括的理解を提供する。
この論文は、監視、データ漏洩、およびデジタル分割によって引き起こされる課題を強調し、同時に、デジタル権利の保護における国際法と政策の役割を探求する。
このレビューは、デジタル時代の人権枠組みを変更することの重要性を強調し、既存の研究のギャップを指摘し、将来の調査に推奨する。
The emergence of digital technology has fundamentally transformed all facets of human existence, posing important queries about the safeguarding and implementation of human rights in the digital domain. The research focuses on important topics including privacy, freedom of speech, and information access. The methodology involves an extensive review of existing literature, legal frameworks, and relevant case studies to provide a comprehensive understanding of the intersection between technology and human rights. The paper highlights the challenges posed by surveillance, data breaches, and the digital divide while also exploring the role of international law and policy in safeguarding digital rights. The review highlights the significance of modifying human rights frameworks for the digital era, pointing out gaps in existing research and offering recommendations for future investigations. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 参照フレーム独立量子鍵分布のためのパッシブ・自己共振型クロスエンコード受信機
A Passive and Self-Characterizing Cross-Encoded Receiver for Reference-Frame-Independent Quantum Key Distribution ( http://arxiv.org/abs/2408.17304v1 ) ライセンス: Link先を確認 | Massimo Giacomin, Francesco B. L. Santagiustina, Giuseppe Vallone, Paolo Villoresi, Costantino Agnesi, | (参考訳) 量子鍵配信(QKD)は、国家機密から個人データに至るまで、通信におけるセキュリティ分野に革命をもたらすことを約束している。
Reference-Frame-Independent (RFI) QKDは、共有参照フレーム上のアライメントの要求を低減し、QKDの実装を簡素化することを目的としている。
これは、制御状態について相互に偏りのない2つの測定を行うことによって行われる。
本研究では、時間ビン符号化RFI-QKDのための新しい完全受動受信機を提案する。
時間ビンから分極への変換は、必要な量子測定を完全に受動的に行うために用いられる。
さらに, 実験誤差を克服するために, 最近導入された量子検出器自己評価技術を用いて, 検出段階のトモグラフィー研究を行うことなく, 測定装置の完全な記述を復元した。
実際、本研究で実施したセキュリティ分析では、実験的に回収された正の演算子値測定を用いて、受信側の欠陥を考慮し、理想的な期待演算子を置換し、全体の機密度を増大させる。
最後に,本手法の有効性とQKDへの適用性を検証する実証実験を行った。
Quantum Key Distribution (QKD) promises to revolutionize the field of security in communication, with applications ranging from state secrets to personal data, making it a key player in the ongoing battle against cyber threats. Reference-Frame-Independent (RFI) QKD aims to simplify QKD implementations by allowing to reduce the requirements of alignment on a shared reference frame. This is done by performing two mutually unbiased measurements on the control states. In this work, we present a novel fully passive receiver for time-bin encoded RFI-QKD. Conversion of time-bin to polarization is employed to perform the required quantum measurement in a fully passive manner. Furthermore, to overcome experimental errors, we retrieved a complete description of our measurement apparatus by employing a recently introduced Quantum Detector Self-Characterization technique, without performing tomographic studies on the detection stage. In fact, the security analysis carried out in this work uses experimentally retrieved Positive Operator Valued Measurements, which consider our receiver defects, substituting the ideal expected operators and thus increasing the overall level of secrecy. Lastly, we conducted a proof-of-principle experiment that validated the feasibility of our method and its applicability to QKD applications. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# キャットスワム最適化によるベースライン2D-CNNモデルのハイブリダイゼーション
Hybridizing Base-Line 2D-CNN Model with Cat Swarm Optimization for Enhanced Advanced Persistent Threat Detection ( http://arxiv.org/abs/2408.17307v1 ) ライセンス: Link先を確認 | Ali M. Bakhiet, Salah A. Aly, | (参考訳) サイバーセキュリティの世界では、高度な永続的脅威(APT)を検出することは、そのステルスで洗練された性質のため、依然として恐ろしい課題である。
本研究では,畳み込みニューラルネットワーク(CNN)を2次元ベースラインモデルで利用し,最先端のキャットスワーム最適化(CSO)アルゴリズムにより拡張し,APT検出精度を大幅に向上させる革新的なアプローチを提案する。
2D-CNNベースラインモデルとCSOをシームレスに統合することにより、APT検出における前例のない精度と効率の可能性を解き放つ。
その結果、9,8.4\%の精度で、様々な攻撃段階におけるAPT検出の大幅な向上が示され、これらの厳密で洗練された脅威と戦うための道のりが明らかにされた。
In the realm of cyber-security, detecting Advanced Persistent Threats (APTs) remains a formidable challenge due to their stealthy and sophisticated nature. This research paper presents an innovative approach that leverages Convolutional Neural Networks (CNNs) with a 2D baseline model, enhanced by the cutting-edge Cat Swarm Optimization (CSO) algorithm, to significantly improve APT detection accuracy. By seamlessly integrating the 2D-CNN baseline model with CSO, we unlock the potential for unprecedented accuracy and efficiency in APT detection. The results unveil an impressive accuracy score of $98.4\%$, marking a significant enhancement in APT detection across various attack stages, illuminating a path forward in combating these relentless and sophisticated threats. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 文学機械翻訳における語彙の多様性回復に向けて
Towards Tailored Recovery of Lexical Diversity in Literary Machine Translation ( http://arxiv.org/abs/2408.17308v1 ) ライセンス: Link先を確認 | Esther Ploeger, Huiyuan Lai, Rik van Noord, Antonio Toral, | (参考訳) 機械翻訳は人間翻訳よりも語彙的に劣っている。
MTによる語彙の多様性の喪失は、文学の自動翻訳において問題となる。
MTの語彙多様性を高めるための現在の手法は厳密である。
しかし、我々が示したように、語彙の多様性の程度は小説によって大きく異なる可能性がある。
したがって、語彙多様性の厳密な増加を目指すのではなく、機械翻訳プロセスで失ったものを復元するタスクを再構成する。
本稿では,原文と翻訳文を区別する分類器を用いて,翻訳候補を再ランク付けする手法を提案する。
我々は,31の英蘭本翻訳に対するアプローチを評価し,ある書籍について,人間の翻訳に近い語彙的多様性のスコアを抽出することを発見した。
Machine translations are found to be lexically poorer than human translations. The loss of lexical diversity through MT poses an issue in the automatic translation of literature, where it matters not only what is written, but also how it is written. Current methods for increasing lexical diversity in MT are rigid. Yet, as we demonstrate, the degree of lexical diversity can vary considerably across different novels. Thus, rather than aiming for the rigid increase of lexical diversity, we reframe the task as recovering what is lost in the machine translation process. We propose a novel approach that consists of reranking translation candidates with a classifier that distinguishes between original and translated text. We evaluate our approach on 31 English-to-Dutch book translations, and find that, for certain books, our approach retrieves lexical diversity scores that are close to human translation. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 実像拡張による知覚モデルのロバスト化のためのトレーニング戦略の構築
Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations ( http://arxiv.org/abs/2408.17311v1 ) ライセンス: Link先を確認 | Ahmed Hammam, Bharathwaj Krishnaswami Sreedhar, Nura Kawa, Tim Patzelt, Oliver De Candido, | (参考訳) 自律システムのための機械学習(ML)ベースの認識モデルの改善には、モデル内の弱点、特に運用設計ドメイン(ODD)に対処する必要がある。
これらは、夜間にレンズフレアや濡れた通りに反射された物体など、困難な状況を含むことができる自動運転車の環境条件である。
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
提案手法は、物理に基づく拡張関数を利用して、多様なODDシナリオをシミュレートする現実的なトレーニングデータを生成する。
本稿では、MLモデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
この手法は、ハイパーパラメータ最適化と遅延空間最適化を微調整拡張パラメータに統合し、MLモデルの性能を最大限に向上させる。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
私たちの研究は、最適なトレーニング戦略はモデルとデータ固有のものであり、トレーニングパイプラインに拡張を統合するメリットを強調します。
拡張を取り入れることで、MLベースの知覚モデルの強靭性を観察し、現実世界のODDで遭遇するエッジケースに対してより弾力性を持たせることができる。
この研究は、カスタマイズされた拡張の重要性を強調し、自律運転機能の安全性と信頼性を改善する効果的なソリューションを提供する。
Advancing Machine Learning (ML)-based perception models for autonomous systems necessitates addressing weak spots within the models, particularly in challenging Operational Design Domains (ODDs). These are environmental operating conditions of an autonomous vehicle which can contain difficult conditions, e.g., lens flare at night or objects reflected in a wet street. This report introduces a novel methodology for training with augmentations to enhance model robustness and performance in such conditions. The proposed approach leverages customized physics-based augmentation functions, to generate realistic training data that simulates diverse ODD scenarios. We present a comprehensive framework that includes identifying weak spots in ML models, selecting suitable augmentations, and devising effective training strategies. The methodology integrates hyperparameter optimization and latent space optimization to fine-tune augmentation parameters, ensuring they maximally improve the ML models' performance. Experimental results demonstrate improvements in model performance, as measured by commonly used metrics such as mean Average Precision (mAP) and mean Intersection over Union (mIoU) on open-source object detection and semantic segmentation models and datasets. Our findings emphasize that optimal training strategies are model- and data-specific and highlight the benefits of integrating augmentations into the training pipeline. By incorporating augmentations, we observe enhanced robustness of ML-based perception models, making them more resilient to edge cases encountered in real-world ODDs. This work underlines the importance of customized augmentations and offers an effective solution for improving the safety and reliability of autonomous driving functions. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 固定信頼度の高い腕の特定
Fair Best Arm Identification with Fixed Confidence ( http://arxiv.org/abs/2408.17313v1 ) ライセンス: Link先を確認 | Alessio Russo, Filippo Vannella, | (参考訳) 本研究では,フェアネス制約下でのベストアーム識別(BAI)の枠組みについて述べる。
従来のBAIとは違い、F-BAIは最小限のサンプルの複雑さで最適な腕を識別することだけに重点を置いているが、F-BAIにはフェアネスの制約も含まれている。
これらの制約は各アームの選択率に低い制限を課し、モデルに依存しないかモデルに依存しない。
この設定のために、インスタンス固有のサンプル複雑性を低いバウンドに設定し、サンプル複雑性にどのように公正さが影響するかを定量化するために、 \textit{price of Fairness} を解析する。
F-TaSというアルゴリズムは,サンプルの複雑性の低いバウンドに適合し,フェアネスの制約が満たされることを保証する。
合成モデルと実用的な無線スケジューリングアプリケーションの両方を用いて実施した数値計算結果から,F-TaSの有効性を示した。
In this work, we present a novel framework for Best Arm Identification (BAI) under fairness constraints, a setting that we refer to as \textit{F-BAI} (fair BAI). Unlike traditional BAI, which solely focuses on identifying the optimal arm with minimal sample complexity, F-BAI also includes a set of fairness constraints. These constraints impose a lower limit on the selection rate of each arm and can be either model-agnostic or model-dependent. For this setting, we establish an instance-specific sample complexity lower bound and analyze the \textit{price of fairness}, quantifying how fairness impacts sample complexity. Based on the sample complexity lower bound, we propose F-TaS, an algorithm provably matching the sample complexity lower bound, while ensuring that the fairness constraints are satisfied. Numerical results, conducted using both a synthetic model and a practical wireless scheduling application, show the efficiency of F-TaS in minimizing the sample complexity while achieving low fairness violations. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 大規模言語モデルを用いたドメイン知識のブリッジとプロセス発見
Bridging Domain Knowledge and Process Discovery Using Large Language Models ( http://arxiv.org/abs/2408.17316v1 ) ライセンス: Link先を確認 | Ali Norouzifar, Humam Kourani, Marcus Dees, Wil van der Aalst, | (参考訳) 適合性チェックやプロセス改善など、さまざまなプロセス分析タスクにおいて、優れたプロセスモデルを見つけることが不可欠です。
自動化されたプロセス発見方法は、しばしば貴重なドメイン知識を見落とします。
ドメインの専門家や詳細なプロセスドキュメンテーションからの洞察を含むこの知識は、プロセス発見中にほとんど失われる。
本稿では,Large Language Models (LLM) を利用して,そのような知識を直接プロセス発見に統合する。
LLMから派生したルールを使用して、モデル構築をガイドし、ドメイン知識と実際のプロセス実行の整合性を確保します。
LLMを統合することで、自然言語で表現されたプロセス知識とロバストなプロセスモデルの発見を橋渡しし、プロセス発見手法を大幅に前進させる。
本フレームワークのユーザビリティを実証するため,UWVの従業員保険会社とケーススタディを行い,その実用的メリットと有効性を実証した。
Discovering good process models is essential for different process analysis tasks such as conformance checking and process improvements. Automated process discovery methods often overlook valuable domain knowledge. This knowledge, including insights from domain experts and detailed process documentation, remains largely untapped during process discovery. This paper leverages Large Language Models (LLMs) to integrate such knowledge directly into process discovery. We use rules derived from LLMs to guide model construction, ensuring alignment with both domain knowledge and actual process executions. By integrating LLMs, we create a bridge between process knowledge expressed in natural language and the discovery of robust process models, advancing process discovery methodologies significantly. To showcase the usability of our framework, we conducted a case study with the UWV employee insurance agency, demonstrating its practical benefits and effectiveness. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 密度状態作用素のゼロエントロピー古典的影再構成
A zero-entropy classical shadow reconstruction of density state operators ( http://arxiv.org/abs/2408.17317v1 ) ライセンス: Link先を確認 | J. A. Montañez-Barrera, G. P. Beretta, Kristel Michielsen, Michael R. von Spakovsky, | (参考訳) 古典的影(CS)は、ごく少数の測定値を用いて量子系の特性を予測するための扉を開いた。
量子システムのサイズが大きくなるにつれて、量子ビットの質、ゲート、ノイズの影響を示す新しい方法が求められます。
本研究では,量子デバイス部分の密度状態演算子を再構成し,量子ビットの品質を診断するCSの機能について検討する。
ゼロエントロピー古典影(ZECS)は,CS情報を用いた正の半定値および単位トレース密度状態演算子の再構成に焦点を当てた手法である。
この手順は、限られたサンプリングと量子デバイスノイズに関連するエラーの一部を除去する密度状態演算子の信頼性の高い再構成を行う。
量子デバイス上の量子ビットが持つ最大コヒーレント情報のしきい値を与える。
ibm_lagos と ibm_brisbane の ZECS を最大10,000 ショットでテストする。
6000発の撮影で,127qubits ibm_brisbaneデバイス上で2,3,4qubitsの特性を診断できることがわかった。
ZECSの2つの応用として、ルーティング手法と非局所雑音相関検出器について述べる。
ルーティング手法では、ZECS手順に基づいて20ibm_brisbane量子ビットの最適セットを選択し、量子最適化アプリケーションに使用する。
この方法では、Qiskitの最良のトランスパイレーション手順によって選択されたキュービットと比較して、解の質を10%改善し、量子アルゴリズムの寿命を33%延長する。
さらに、非局所相関検出器を用いて、直接接続されていないが時間的に保たれる強い相関を持つibm\_brisbane領域を同定し、例えば多重化読み出し段階では、いくつかの非局所クロストークが現れることを示唆する。
Classical shadow (CS) has opened the door to predicting the characteristics of quantum systems using very few measurements. As quantum systems grow in size, new ways to characterize them are needed to show the quality of their qubits, gates, and how noise affects them. In this work, we explore the capabilities of CS for reconstructing density state operators of sections of quantum devices to make a diagnostic of their qubits quality. We introduce zero-entropy classical shadow (ZECS), a methodology that focuses on reconstructing a positive semidefinite and unit trace density state operator using the CS information. This procedure makes a reliable reconstruction of the density state operator removing partially the errors associated with a limited sampling and quantum device noise. It gives a threshold of the maximum coherent information that qubits on a quantum device have. We test ZECS on ibm_lagos and ibm_brisbane using up to 10,000 shots. We show that with only 6,000 shots, we can make a diagnostic of the properties of groups of 2, 3, and 4 qubits on the 127-qubits ibm_brisbane device. We show two applications of ZECS: as a routing technique and as a detector for non-local noisy correlations. In the routing technique, an optimal set of 20 ibm_brisbane qubits is selected based on the ZECS procedure and used for a quantum optimization application. This method improves the solution quality by 10% and extends the quantum algorithm's lifetime by 33% when compared to the qubits chosen by the best transpilation procedure in Qiskit. Additionally, with the detector of non-local correlations, we identify regions of ibm\_brisbane that are not directly connected but have a strong correlation that maintains in time, suggesting some non-local crosstalk that can come, for example, at the multiplexing readout stage. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 注意頭におけるニューロンのアブレーション : ピーク活性化センターを事例として
Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering ( http://arxiv.org/abs/2408.17322v1 ) ライセンス: Link先を確認 | Nicholas Pochinkov, Ben Pasero, Skylar Shibayama, | (参考訳) トランスフォーマーベースのモデルの使用は、社会全体で急速に増加している。
この成長では、それらがどのように機能するか、特に注意機構がいかに概念を表現するかを理解することが重要である。
多くの解釈可能性法があるが、多くの人はニューロンの活性化を通してモデルを見るが、それは理解されていない。
我々は、ニューロンの活性化を観察する様々なレンズについて記述し、ゼロアブレーション、平均アブレーション、アクティベーションリサンプリング、および「ピークアブレーション」と呼ばれる新しいアプローチにより、言語モデルと視覚トランスフォーマーの有効性について検討する。
実験結果から,各手法はモデル性能の劣化を他の手法と比較して低く抑えることができ,再サンプリングは最も顕著な性能劣化を引き起こすことが判明した。
コードをhttps://github.com/nickypro/investigating-ablation.comで公開しています。
The use of transformer-based models is growing rapidly throughout society. With this growth, it is important to understand how they work, and in particular, how the attention mechanisms represent concepts. Though there are many interpretability methods, many look at models through their neuronal activations, which are poorly understood. We describe different lenses through which to view neuron activations, and investigate the effectiveness in language models and vision transformers through various methods of neural ablation: zero ablation, mean ablation, activation resampling, and a novel approach we term 'peak ablation'. Through experimental analysis, we find that in different regimes and models, each method can offer the lowest degradation of model performance compared to other methods, with resampling usually causing the most significant performance deterioration. We make our code available at https://github.com/nickypro/investigating-ablation. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 変圧器のモジュール性 : ニューロン分離性と特殊性の検討
Modularity in Transformers: Investigating Neuron Separability & Specialization ( http://arxiv.org/abs/2408.17324v1 ) ライセンス: Link先を確認 | Nicholas Pochinkov, Thomas Jones, Mohammed Rashidur Rahman, | (参考訳) トランスフォーマーモデルは様々なアプリケーションでますます普及していますが、内部動作に対する我々の理解は限定的です。
本稿では、視覚(ViT)モデルと言語(Mistral 7B)モデルの両方に着目し、トランスフォーマーアーキテクチャ内のニューロンのモジュラリティとタスクの特殊化について検討する。
選択的プルーニングとMoEficationクラスタリングの組み合わせを用いて、異なるタスクやデータサブセットにわたるニューロンの重複と特殊化を分析する。
本研究は,タスク固有のニューロン群が,タスク間の重なり合いの程度が異なることを示すものである。
ランダムに初期化したモデルであっても、ニューロンの重要パターンがある程度持続していることが観察され、洗練を訓練する固有の構造が示唆された。
さらに、MoEficationによって同定されたニューロンクラスターは、モデルの初期層と後期層のタスク特異的ニューロンに強く対応していることが判明した。
この研究はトランスフォーマー内部のより微妙な理解に寄与し、モデルの解釈可能性と効率を改善するための潜在的な方法に関する洞察を提供する。
Transformer models are increasingly prevalent in various applications, yet our understanding of their internal workings remains limited. This paper investigates the modularity and task specialization of neurons within transformer architectures, focusing on both vision (ViT) and language (Mistral 7B) models. Using a combination of selective pruning and MoEfication clustering techniques, we analyze the overlap and specialization of neurons across different tasks and data subsets. Our findings reveal evidence of task-specific neuron clusters, with varying degrees of overlap between related tasks. We observe that neuron importance patterns persist to some extent even in randomly initialized models, suggesting an inherent structure that training refines. Additionally, we find that neuron clusters identified through MoEfication correspond more strongly to task-specific neurons in earlier and later layers of the models. This work contributes to a more nuanced understanding of transformer internals and offers insights into potential avenues for improving model interpretability and efficiency. | 翻訳日:2024-09-02 15:08:40 公開日:2024-08-30 |
# 凝縮物質物理学者の書記様式に及ぼすChatGPTの影響
Impact of ChatGPT on the writing style of condensed matter physicists ( http://arxiv.org/abs/2408.17325v1 ) ライセンス: Link先を確認 | Shaojun Xu, Xiaohui Ye, Mengqi Zhang, Pei Wang, | (参考訳) 本稿では,ChatGPT のリリースが arXiv 上の凝縮物紙の書き込みスタイルに与える影響を推定するために,最先端の差分差分法を適用した。
分析の結果,非母国英語話者による英語の要約の質が統計的に有意に向上したことが明らかとなった。
重要な点として、この改善は他の潜在的な要因を考慮した後でも堅牢であり続けており、ChatGPTのリリースによるものであることが確認されている。
これは、このツールが広く採用されていることを示している。
ChatGPTのリリース後、ユニークな単語の使用が著しく増加し、稀な単語の頻度は減少する。
言語家族全体では、ラテン系やウラル・アルタイ系の著作家にとって書体の変化は重要であるが、ゲルマン系や他のインド・ヨーロッパ系の著作家にとっては重要ではない。
We apply a state-of-the-art difference-in-differences approach to estimate the impact of ChatGPT's release on the writing style of condensed matter papers on arXiv. Our analysis reveals a statistically significant improvement in the English quality of abstracts written by non-native English speakers. Importantly, this improvement remains robust even after accounting for other potential factors, confirming that it can be attributed to the release of ChatGPT. This indicates widespread adoption of the tool. Following the release of ChatGPT, there is a significant increase in the use of unique words, while the frequency of rare words decreases. Across language families, the changes in writing style are significant for authors from the Latin and Ural-Altaic groups, but not for those from the Germanic or other Indo-European groups. | 翻訳日:2024-09-02 14:56:24 公開日:2024-08-30 |
# 心電図による心臓・非心臓診断の評価
Estimation of Cardiac and Non-cardiac Diagnosis from Electrocardiogram Features ( http://arxiv.org/abs/2408.17329v1 ) ライセンス: Link先を確認 | Juan Miguel Lopez Alcaraz, Nils Strodthoff, | (参考訳) 導入: 医療状況の時間的, 正確な診断は, 効果的な患者医療にとって最優先事項である。
心電図(ECG)信号は患者の心臓の健康を評価するための基礎であり、容易に利用できる。
それにもかかわらず、心電図データによる非心臓状態の検出の可能性にはほとんど注意が払われていない。
方法: 本研究では, 公開データセット(MIMIC-IV-ECG-ICDとECG-VIEW II)を用いて, ECGの特徴から一般的な診断条件を推定できる可能性を検討した。
そこで本研究では,心電図の特徴と基本的人口動態に基づくツリーベースモデル(XGBoost)を訓練し,心疾患と非心疾患の両方を含む幅広い診断範囲を推定した。
結果:AUROC0.7AUROC以上の21の非心疾患を,広範囲の生理的カテゴリーで統計的に有意な評価で評価した。
本研究は心電図データを用いた心疾患の診断における予測可能性について検討した。
しかし、この研究は心電図に基づく診断の範囲を、伝統的に心臓系と関係のない条件に体系的に拡張する先駆的な試みである。
Introduction: Ensuring timely and accurate diagnosis of medical conditions is paramount for effective patient care. Electrocardiogram (ECG) signals are fundamental for evaluating a patient's cardiac health and are readily available. Despite this, little attention has been given to the remarkable potential of ECG data in detecting non-cardiac conditions. Methods: In our study, we used publicly available datasets (MIMIC-IV-ECG-ICD and ECG-VIEW II) to investigate the feasibility of inferring general diagnostic conditions from ECG features. To this end, we trained a tree-based model (XGBoost) based on ECG features and basic demographic features to estimate a wide range of diagnoses, encompassing both cardiac and non-cardiac conditions. Results: Our results demonstrate the reliability of estimating 23 cardiac as well as 21 non-cardiac conditions above 0.7 AUROC in a statistically significant manner across a wide range of physiological categories. Our findings underscore the predictive potential of ECG data in identifying well-known cardiac conditions. However, even more striking, this research represents a pioneering effort in systematically expanding the scope of ECG-based diagnosis to conditions not traditionally associated with the cardiac system. | 翻訳日:2024-09-02 14:56:24 公開日:2024-08-30 |
# 医療用DNNにおける信頼性の評価 : 特徴と信頼性に基づくOOD検出の批判的分析
Evaluating Reliability in Medical DNNs: A Critical Analysis of Feature and Confidence-Based OOD Detection ( http://arxiv.org/abs/2408.17337v1 ) ライセンス: Link先を確認 | Harry Anthony, Konstantinos Kamnitsas, | (参考訳) 医用画像解析におけるディープニューラルネットワーク(DNN)の信頼性の高い使用には、誤った予測を防ぐために、トレーニングデータと大きく異なる入力を識別する手法、OOD(Out-of-distribution)が必要である。
OOD検出方法は、信頼性ベースの(OOD検出のためにモデルの出力層を使用する)または機能ベースの(出力層を使用しない)のいずれかに分類することができる。
我々は、D7P(皮膚科学)とBreastMNIST(超音波)のデータセットをアーティファクト(ルーラーまたはアノテーション)を含むか含まないサブセットに分割することで、2つの新しいOODベンチマークを作成しました。
モデルは人工物なしの画像で訓練され、人工物付き画像はOODテストセットとして使用された。
それぞれのOOD画像に対して,手動で画像処理によって人工物を取り除き,その人工物がモデルの予測に与える影響を評価することで,偽物を生成する。
OODアーティファクトは、トレーニングデータと他の要因との相関関係から、モデルの予測におけるソフトマックスの信頼性を高めることができることを示す。
これは、OOD人工物がより不確実な出力をもたらすという一般的な仮定と矛盾する。
本稿では,機能に基づく手法(例えばマハラノビススコア)が信頼性に基づく手法(例えばMCP)よりもOOD検出性能が高い理由を説明する。
しかし,機能に基づく手法は,OODデータとIDデータの両方において,正確かつ誤った予測につながる入力を区別する上で,一般的には悪い性能を示すことを示す。
これらの知見に従えば、機能ベースと信頼性ベースのメソッドの組み合わせは、それぞれの弱点を軽減するために、DNNパイプライン内で使用されるべきだ、と論じる。
これらのプロジェクトのコードとOODベンチマークは、https://github.com/HarryAnthony/Evaluating_OOD_detectionで公開されている。
Reliable use of deep neural networks (DNNs) for medical image analysis requires methods to identify inputs that differ significantly from the training data, called out-of-distribution (OOD), to prevent erroneous predictions. OOD detection methods can be categorised as either confidence-based (using the model's output layer for OOD detection) or feature-based (not using the output layer). We created two new OOD benchmarks by dividing the D7P (dermatology) and BreastMNIST (ultrasound) datasets into subsets which either contain or don't contain an artefact (rulers or annotations respectively). Models were trained with artefact-free images, and images with the artefacts were used as OOD test sets. For each OOD image, we created a counterfactual by manually removing the artefact via image processing, to assess the artefact's impact on the model's predictions. We show that OOD artefacts can boost a model's softmax confidence in its predictions, due to correlations in training data among other factors. This contradicts the common assumption that OOD artefacts should lead to more uncertain outputs, an assumption on which most confidence-based methods rely. We use this to explain why feature-based methods (e.g. Mahalanobis score) typically have greater OOD detection performance than confidence-based methods (e.g. MCP). However, we also show that feature-based methods typically perform worse at distinguishing between inputs that lead to correct and incorrect predictions (for both OOD and ID data). Following from these insights, we argue that a combination of feature-based and confidence-based methods should be used within DNN pipelines to mitigate their respective weaknesses. These project's code and OOD benchmarks are available at: https://github.com/HarryAnthony/Evaluating_OOD_detection. | 翻訳日:2024-09-02 14:56:24 公開日:2024-08-30 |
# 4次元光場による水中イメージングの強化:データセットと方法
Enhancing Underwater Imaging with 4-D Light Fields: Dataset and Method ( http://arxiv.org/abs/2408.17339v1 ) ライセンス: Link先を確認 | Yuji Lin, Xianqiang Lyu, Junhui Hou, Qian Zhao, Deyu Meng, | (参考訳) 本稿では,4次元光場(LF)の領域を探索し,光吸収,散乱,その他の課題に悩まされる水中イメージングの高度化を図る。
従来の2次元RGB画像とは対照的に、4次元LF画像は複数の視点からシーンを捉え、幾何学的情報を間接的に埋め込む。
この本質的な性質は、水中イメージングに関連する課題に効果的に対処することが期待されている。
4次元LF画像に現れる暗黙の深度と暗黙の深度を両立させることにより,水中4次元LF画像強調と深度推定のための漸進的相互強化フレームワークを提案する。
具体的には、暗黙的な深度関連動的畳み込みカーネルと並行して推定深度情報を明示的に利用して出力特性を変調する。
フレームワーク全体がこの複雑なタスクを分解し、拡張された画像と深度情報を反復的に最適化し、段階的に最適な拡張結果を達成する。
さらに,75の水中シーンと3675の高分解能2K対からなる学習手法の定量的評価と教師付きトレーニングのための,最初の4次元LFに基づく水中画像データセットを構築した。
鮮やかで多様な水中シーンを製作するために、さまざまな物体で水中環境を構築し、いくつかの種類の劣化を適用します。
広汎な実験を通じて,従来の2次元RGBを用いた4次元LFを用いた水中イメージングの可能性と優位性を示す。
さらに,色バイアスを効果的に補正し,最先端の性能を実現する。
データセットとコードはhttps://github.com/linlos1234/LFUIEで公開される。
In this paper, we delve into the realm of 4-D light fields (LFs) to enhance underwater imaging plagued by light absorption, scattering, and other challenges. Contrasting with conventional 2-D RGB imaging, 4-D LF imaging excels in capturing scenes from multiple perspectives, thereby indirectly embedding geometric information. This intrinsic property is anticipated to effectively address the challenges associated with underwater imaging. By leveraging both explicit and implicit depth cues present in 4-D LF images, we propose a progressive, mutually reinforcing framework for underwater 4-D LF image enhancement and depth estimation. Specifically, our framework explicitly utilizes estimated depth information alongside implicit depth-related dynamic convolutional kernels to modulate output features. The entire framework decomposes this complex task, iteratively optimizing the enhanced image and depth information to progressively achieve optimal enhancement results. More importantly, we construct the first 4-D LF-based underwater image dataset for quantitative evaluation and supervised training of learning-based methods, comprising 75 underwater scenes and 3675 high-resolution 2K pairs. To craft vibrant and varied underwater scenes, we build underwater environments with various objects and adopt several types of degradation. Through extensive experimentation, we showcase the potential and superiority of 4-D LF-based underwater imaging vis-a-vis traditional 2-D RGB-based approaches. Moreover, our method effectively corrects color bias and achieves state-of-the-art performance. The dataset and code will be publicly available at https://github.com/linlos1234/LFUIE. | 翻訳日:2024-09-02 14:56:24 公開日:2024-08-30 |
# 計算不可能性と論理的関係について
On Computational Indistinguishability and Logical Relations ( http://arxiv.org/abs/2408.17340v1 ) ライセンス: Link先を確認 | Ugo Dal Lago, Zeinab Galal, Giulia Giusti, | (参考訳) $\lambda$-calculus は、全てのプログラムを確率多項式時間で評価することができ、また、後者がオラクルベースである場合でも、シーケンシャルな暗号構造や逆数を表すのに十分な構造を持つ。
次に、計算の不明瞭さを捉える観測等価性の概念と近似論理関係のクラスを提示し、後者が前者の音響的証明手法であることを示す。
この研究は、疑似乱数関数によって誘導される暗号化スキームが、純粋に方程式的なスタイルでアクティブな敵に対して安全であることが証明されたセキュリティ証明の例で締めくくられる。
A $\lambda$-calculus is introduced in which all programs can be evaluated in probabilistic polynomial time and in which there is sufficient structure to represent sequential cryptographic constructions and adversaries for them, even when the latter are oracle-based. A notion of observational equivalence capturing computational indistinguishability and a class of approximate logical relations are then presented, showing that the latter represent a sound proof technique for the former. The work concludes with the presentation of an example of a security proof in which the encryption scheme induced by a pseudorandom function is proven secure against active adversaries in a purely equational style. | 翻訳日:2024-09-02 14:56:24 公開日:2024-08-30 |
# rerankers: ランク付けメソッドを統合する軽量Pythonライブラリ
rerankers: A Lightweight Python Library to Unify Ranking Methods ( http://arxiv.org/abs/2408.17344v1 ) ライセンス: Link先を確認 | Benjamin Clavié, | (参考訳) 本稿では,最も一般的に使用されているリグレードアプローチに対して,使いやすいインターフェースを提供するPythonライブラリであるrerankersを提案する。
再ランク付けは多くの検索パイプラインの不可欠なコンポーネントであるが、異なる実装手法に依存する多くのアプローチが存在する。
\texttt{rerankers} はこれらのメソッドを単一のユーザフレンドリーなインターフェースに統合し、実践者や研究者がPythonコードの1行だけを変更しながら、異なるメソッドを探索できるようにします。
さらに、リランカは実装が可能な限り最小限の依存関係で実行されることを保証し、可能な限り元の実装を再使用し、単純化されたインターフェースがより複雑なものよりもパフォーマンス上の劣化を生じさせないことを保証します。
サポートされているモデルの全ソースコードとリストは定期的に更新され、https://github.com/answerdotai/rerankers.comで入手できる。
This paper presents rerankers, a Python library which provides an easy-to-use interface to the most commonly used re-ranking approaches. Re-ranking is an integral component of many retrieval pipelines; however, there exist numerous approaches to it, relying on different implementation methods. \texttt{rerankers} unifies these methods into a single user-friendly interface, allowing practitioners and researchers alike to explore different methods while only changing a single line of Python code. Moreover ,rerankers ensures that its implementations are done with the fewest dependencies possible, and re-uses the original implementation whenever possible, guaranteeing that our simplified interface results in no performance degradation compared to more complex ones. The full source code and list of supported models are updated regularly and available at https://github.com/answerdotai/rerankers. | 翻訳日:2024-09-02 14:56:24 公開日:2024-08-30 |
# LSMS:医療画像参照セグメンテーションのための言語誘導型大規模メドセグメンタ
LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation ( http://arxiv.org/abs/2408.17347v1 ) ライセンス: Link先を確認 | Shuyi Ouyang, Jinyang Zhang, Xiangye Lin, Xilai Wang, Qingqing Chen, Yen-Wei Chen, Lanfen Lin, | (参考訳) 従来の医用画像分割法は、診断と治療のための特定の病変の特定を医師に促すのに不十分である。
テキストを指導形式として利用することにより、与えられた言語表現に基づいて画像中の特定の病変をセグメント化する必要があるMIRS(Medicical Image Referring Segmentation)と呼ばれる新しいタスクを導入する。
医用画像のさまざまな対象スケールのため、MIRSは、言語指導の下での正確な位置決めとセグメンテーションのために、堅牢な視覚言語モデリングと包括的マルチスケールインタラクションを要求する。
しかし、これらの要求を満たすために既存の医用画像分割法は不足しており、セグメント化の精度は不十分である。
言語誘導型スケール認識型MedSegmentor (LSMS) というアプローチを提案し,(1) 多様な畳み込みカーネルを利用して,豊富な視覚的知識を習得し,言語的特徴と密接な相互作用を行うことにより,病変の局所化能力を向上させる。(2) - 複数スケールのマルチモーダル特徴をグローバルにモデル化するフルスケールデコーダ。
MIRSに適したデータセットが欠如していることに対処し、RefHL-Seg(Reference Hepatic Lesion Segmentation)と呼ばれるビジョン言語医療データセットを構築した。
本データセットは,231例の腹部CTスライス2,283例からなる。
各種データセットにおけるMIRSと従来の医用画像分割作業における LSMS の性能を検証した。
LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
コードとデータセットがリリースされる。
Conventional medical image segmentation methods have been found inadequate in facilitating physicians with the identification of specific lesions for diagnosis and treatment. Given the utility of text as an instructional format, we introduce a novel task termed Medical Image Referring Segmentation (MIRS), which requires segmenting specified lesions in images based on the given language expressions. Due to the varying object scales in medical images, MIRS demands robust vision-language modeling and comprehensive multi-scale interaction for precise localization and segmentation under linguistic guidance. However, existing medical image segmentation methods fall short in meeting these demands, resulting in insufficient segmentation accuracy. In response, we propose an approach named Language-guided Scale-aware MedSegmentor (LSMS), incorporating two appealing designs: (1)~a Scale-aware Vision-Language Attention module that leverages diverse convolutional kernels to acquire rich visual knowledge and interact closely with linguistic features, thereby enhancing lesion localization capability; (2)~a Full-Scale Decoder that globally models multi-modal features across various scales, capturing complementary information between scales to accurately outline lesion boundaries. Addressing the lack of suitable datasets for MIRS, we constructed a vision-language medical dataset called Reference Hepatic Lesion Segmentation (RefHL-Seg). This dataset comprises 2,283 abdominal CT slices from 231 cases, with corresponding textual annotations and segmentation masks for various liver lesions in images. We validated the performance of LSMS for MIRS and conventional medical image segmentation tasks across various datasets. Our LSMS consistently outperforms on all datasets with lower computational costs. The code and datasets will be released. | 翻訳日:2024-09-02 14:56:24 公開日:2024-08-30 |
# デコイ状態BB84の基底効率ミスマッチによる位相誤差率推定
Phase error rate estimation with basis-efficiency mismatch for decoy-state BB84 ( http://arxiv.org/abs/2408.17349v1 ) ライセンス: Link先を確認 | Devashish Tupkary, Shlok Nahar, Pulkit Sinha, Norbert Lütkenhaus, | (参考訳) BB84 QKDプロトコルの有限サイズセキュリティ証明を,不完全な特徴を持つベース効率ミスマッチの存在下で,エントロピー不確実性関係を用いたコヒーレント攻撃に対して提案する。
我々の証明では、プロトコルステップやハードウェアに新たな変更を加える必要はなく、位相誤差率に適切なバウンドを得ることで機能する。
これは不完全な特徴を持つ検出器に適用可能であり、検出効率の最大相対差と、特徴付ける検出器の暗カウント率だけを必要とする。
さらに、Eveは各ラウンドの時空間自由度を利用して、許容範囲における検出器効率と暗カウントレートを選択できるので、検出器側チャネルの重要な問題に対処できる。
可変長フレームワークでは,ユーザが生成するキーの長さや誤り訂正に使用するビットの数を,プロトコル中の観察に基づいて適応的に決定することができる。
BB84プロトコルにこの結果を適用することで, 基礎効率のミスマッチの効果を定量的に示す。
We present a finite-size security proof of the BB84 QKD protocol against coherent attacks, using entropic uncertainty relations, in the presence of imperfectly characterized basis-efficiency mismatch. Our proof requires no new modifications to the protocol steps or hardware, and works by obtaining a suitable bound on the phase error rate. It is applicable to imperfectly characterized detectors, and only requires the maximum relative difference in detection efficiencies and dark count rates of the detectors to be characterized. Moreover, our proof allows Eve to use any spatio-temporal degree of freedom in each round to choose detector efficiencies and dark count rates in their allowed ranges, thereby addressing an important problem of detector side channels. We prove security in the variable-length framework, where users are allowed to adaptively determine the length of key to be produced, and number of bits to be used for error-correction, based on observations made during the protocol. We quantitatively demonstrate the effect of basis-efficiency mismatch by applying our results to the decoy-state BB84 protocol. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# AASIST3: SSL特徴を用いたkan-Enhanced AASIST音声ディープフェイク検出とASVspoof 2024チャレンジのための追加正規化
AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge ( http://arxiv.org/abs/2408.17352v1 ) ライセンス: Link先を確認 | Kirill Borodin, Vasiliy Kudryavtsev, Dmitrii Korzh, Alexey Efimenko, Grach Mkrtchian, Mikhail Gorodnichev, Oleg Y. Rogov, | (参考訳) 音声特性に基づいて話者を識別する自動話者認証(ASV)システムは、金融取引におけるユーザ認証、スマートデバイスにおける排他的アクセス制御、法医学的不正検出など、数多くの応用がある。
しかし、ディープラーニングアルゴリズムの進歩により、TTS(Text-to-Speech)システムとVoice Conversion(Voice Conversion)システムによる合成音声の生成が可能となり、潜在的な脆弱性にASVシステムを公開することができる。
これに対抗するために,AASIST3という新しいアーキテクチャを提案する。
既存の AASIST フレームワークを Kolmogorov-Arnold ネットワーク、レイヤ、エンコーダ、プレエンハンシス技術で拡張することにより、AASIST3 は2倍以上のパフォーマンス向上を実現している。
クローズド条件で0.5357、オープン条件で0.1414のminDCF結果を示し、合成音声の検出を著しく向上し、ASVセキュリティを改善した。
Automatic Speaker Verification (ASV) systems, which identify speakers based on their voice characteristics, have numerous applications, such as user authentication in financial transactions, exclusive access control in smart devices, and forensic fraud detection. However, the advancement of deep learning algorithms has enabled the generation of synthetic audio through Text-to-Speech (TTS) and Voice Conversion (VC) systems, exposing ASV systems to potential vulnerabilities. To counteract this, we propose a novel architecture named AASIST3. By enhancing the existing AASIST framework with Kolmogorov-Arnold networks, additional layers, encoders, and pre-emphasis techniques, AASIST3 achieves a more than twofold improvement in performance. It demonstrates minDCF results of 0.5357 in the closed condition and 0.1414 in the open condition, significantly enhancing the detection of synthetic voices and improving ASV security. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# Forget to Flourish: プライバシリークのための事前学習型言語モデルを活用した機械学習
Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage ( http://arxiv.org/abs/2408.17354v1 ) ライセンス: Link先を確認 | Md Rafi Ur Rashid, Jing Liu, Toshiaki Koike-Akino, Shagufta Mehnaz, Ye Wang, | (参考訳) ダウンストリームアプリケーション用のプライベートデータに微調整された大きな言語モデルは、潜在的に機密性の高い情報に対して重大なプライバシー上のリスクをもたらす。
いくつかの人気のあるコミュニティプラットフォームは、様々な事前訓練されたモデルの便利な配布を提供しており、厳密な検証なしに誰でも公開することができる。
このシナリオは、事前トレーニングされたモデルが、微調整データセットのプライバシを侵害するために意図的に作成されるため、プライバシの脅威を生じさせる。
本研究では,モデル・アンラーニングを攻撃ツールとして利用する新しい毒殺手法を提案する。
このアプローチは、訓練済みの言語モデルを操作して、微調整プロセス中にプライベートデータの漏洩を増大させる。
本手法は,モデルユーティリティを保ちながら,メンバシップ推論とデータ抽出攻撃を両立させる。
異なるモデル、データセット、微調整のセットアップにまたがる実験結果から、攻撃がベースラインのパフォーマンスを大幅に上回っていることが分かる。
この研究は、未検証のソースから事前訓練済みのモデルをダウンロードしたユーザに対して、潜在的なリスクを強調した注意書きとして役立ちます。
Fine-tuning large language models on private data for downstream applications poses significant privacy risks in potentially exposing sensitive information. Several popular community platforms now offer convenient distribution of a large variety of pre-trained models, allowing anyone to publish without rigorous verification. This scenario creates a privacy threat, as pre-trained models can be intentionally crafted to compromise the privacy of fine-tuning datasets. In this study, we introduce a novel poisoning technique that uses model-unlearning as an attack tool. This approach manipulates a pre-trained language model to increase the leakage of private data during the fine-tuning process. Our method enhances both membership inference and data extraction attacks while preserving model utility. Experimental results across different models, datasets, and fine-tuning setups demonstrate that our attacks significantly surpass baseline performance. This work serves as a cautionary note for users who download pre-trained models from unverified sources, highlighting the potential risks involved. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# 双方向デコーディング:クローズドループ再サンプリングによるアクションチャンキングの改善
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling ( http://arxiv.org/abs/2408.17355v1 ) ライセンス: Link先を確認 | Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Maximilian Du, Chelsea Finn, | (参考訳) アクションチャンキング(英: action chunking)は、人間のデモからロボット学習において、中間的な再計画なしに一連のアクションを予測および実行することである。
しかし、学習方針に対する影響はいまだに曖昧であり、強いパフォーマンスを達成することの重要性を強調する研究もある一方で、有害な効果を観察する研究もある。
本稿では,まず,学習者と実証者の間の差異を分析することによって,行動チャンキングの役割を解明する。
より長いアクションチャンクは、ポリシーが、チャンク内のより過去の状態やアクションを考慮して、時間的依存関係をよりよくキャプチャすることを可能にすることに気付きました。
しかし、この利点は、最近の状態の観測が少ないため、確率的環境においてエラーを悪化させるコストがかかる。
そこで本稿では,動作チャンキングをクローズドループ操作でブリッジするテスト時間推論アルゴリズムであるBidirectional Decoding (BID)を提案する。
BIDは、各ステップで複数の予測をサンプリングし、2つの基準に基づいて最適な予測を探索する。
(i) 以前の決定に沿うサンプルを好む下位の一貫性
(二)フォワードコントラストは、より強い政策の出力に近いサンプルを好んで、より弱い政策のものと遠ざかっている。
BIDは、アクションチャンク内と横断的な決定を結合することにより、確率的環境における適応的な再計画を可能にしながら、拡張シーケンスに対する時間的一貫性を高める。
実験の結果、BIDは7つのシミュレーションベンチマークと2つの実世界のタスクで、最先端の2つの生成ポリシーの従来のクローズドループ操作を大幅に上回っていることがわかった。
Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. However, its effects on learned policies remain puzzling: some studies highlight its importance for achieving strong performance, while others observe detrimental effects. In this paper, we first dissect the role of action chunking by analyzing the divergence between the learner and the demonstrator. We find that longer action chunks enable a policy to better capture temporal dependencies by taking into account more past states and actions within the chunk. However, this advantage comes at the cost of exacerbating errors in stochastic environments due to fewer observations of recent states. To address this, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples aligned with previous decisions, (ii) forward contrast, which favors samples close to outputs of a stronger policy and distant from those of a weaker policy. By coupling decisions within and across action chunks, BID enhances temporal consistency over extended sequences while enabling adaptive replanning in stochastic environments. Experimental results show that BID substantially outperforms conventional closed-loop operations of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# C-RADAR:ソフトウェア定義ネットワークにおける侵入検知のための集中型ディープラーニングシステム
C-RADAR: A Centralized Deep Learning System for Intrusion Detection in Software Defined Networks ( http://arxiv.org/abs/2408.17356v1 ) ライセンス: Link先を確認 | Osama Mustafa, Khizer Ali, Talha Naqash, | (参考訳) 近年、SDN(Software Defined Networks)の人気が高まっている。主な原因は、ネットワーク管理を簡素化し、ネットワークの柔軟性を向上させる能力である。
しかし、これはまた、様々な種類のサイバー攻撃に対して脆弱である。
SDNは中央集権的なコントロールプレーンで動作するため、ネットワークアタックがより容易になる。
ディープ・ラーニング(DL)手法は従来のネットワークの侵入を識別することに成功したが、SDNでの応用は依然としてオープンな研究分野である。
本研究では,SDNにおける侵入検知のためのDL手法を提案する。
ネットワークトラフィックのデータセットを実験し,既存の手法と比較することにより,本手法の有効性を計測する。
以上の結果から,DLに基づく手法は,検出精度と計算効率の点で従来の手法よりも優れていた。
この研究で使われているディープラーニングアーキテクチャは、Long Short Term Memory NetworkとSelf-Attention-based Architecture(LSTM-Attn)であり、Flスコア0.9721を達成する。
さらに、このテクニックは、新しい攻撃パターンを検出し、SDNの全体的なセキュリティを改善するためにトレーニングすることができる。
The popularity of Software Defined Networks (SDNs) has grown in recent years, mainly because of their ability to simplify network management and improve network flexibility. However, this also makes them vulnerable to various types of cyber attacks. SDNs work on a centralized control plane which makes them more prone to network attacks. Research has demonstrated that deep learning (DL) methods can be successful in identifying intrusions in conventional networks, but their application in SDNs is still an open research area. In this research, we propose the use of DL techniques for intrusion detection in SDNs. We measure the effectiveness of our method by experimentation on a dataset of network traffic and comparing it to existing techniques. Our results show that the DL-based approach outperforms traditional methods in terms of detection accuracy and computational efficiency. The deep learning architecture that has been used in this research is a Long Short Term Memory Network and Self-Attention based architecture i.e. LSTM-Attn which achieves an Fl-score of 0.9721. Furthermore, this technique can be trained to detect new attack patterns and improve the overall security of SDNs. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# Hold Me Tight: 音声強調のための安定エンコーダデコーダ設計
Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement ( http://arxiv.org/abs/2408.17358v1 ) ライセンス: Link先を確認 | Daniel Haider, Felix Perfler, Vincent Lostanlen, Martin Ehler, Peter Balazs, | (参考訳) 1次元フィルタによる畳み込み層は、しばしば音声信号を符号化するフロントエンドとして使用される。
固定時間周波数表現とは異なり、入力データの局所特性に適応することができる。
しかし、生オーディオ上の1次元フィルタは訓練が困難であり、しばしば不安定に悩まされる。
本稿では,これらの問題をハイブリッドソリューション,すなわち理論駆動とデータ駆動のアプローチを組み合わせることで解決する。
まず、聴覚フィルタバンクを介して音声信号を前処理し、学習エンコーダの周波数ローカライゼーションを保証する。
第二に、我々はフレーム理論の結果を用いて、エネルギー保存と完全な再構築を促進する教師なし学習目標を定義する。
第3に、混合圧縮スペクトルノルムを学習目的としてエンコーダ係数に適用する。
低複雑さエンコーダ・マスク・デコーダモデルにおけるこれらの解を用いることで、音声強調における音声品質(PESQ)の知覚的評価が大幅に向上する。
Convolutional layers with 1-D filters are often used as frontend to encode audio signals. Unlike fixed time-frequency representations, they can adapt to the local characteristics of input data. However, 1-D filters on raw audio are hard to train and often suffer from instabilities. In this paper, we address these problems with hybrid solutions, i.e., combining theory-driven and data-driven approaches. First, we preprocess the audio signals via a auditory filterbank, guaranteeing good frequency localization for the learned encoder. Second, we use results from frame theory to define an unsupervised learning objective that encourages energy conservation and perfect reconstruction. Third, we adapt mixed compressed spectral norms as learning objectives to the encoder coefficients. Using these solutions in a low-complexity encoder-mask-decoder model significantly improves the perceptual evaluation of speech quality (PESQ) in speech enhancement. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# 資源制約環境におけるGeoAI
GeoAI in resource-constrained environments ( http://arxiv.org/abs/2408.17361v1 ) ライセンス: Link先を確認 | Marc Böhlen, Gede Sughiarta, Atiek Kurnianingsih, Srikar Reddy Gopaladinne, Sujay Shrivastava, Hemanth Kumar Reddy Gorla, | (参考訳) 本稿では,大規模データセットへのアクセスや高価な計算インフラ,AIの専門知識の制限といった,リソース制約のあるコンテキストにおけるNGOなどの小規模組織に適した空間認識型人工知能であるGeoAIについて述べる。
さらに,資源集約型大規模地理空間モデルが複雑な景観の表現を均質化する将来のシナリオを考察し,この状況に備える戦略を提案する。
This paper describes spatially aware Artificial Intelligence, GeoAI, tailored for small organizations such as NGOs in resource constrained contexts where access to large datasets, expensive compute infrastructure and AI expertise may be restricted. We furthermore consider future scenarios in which resource-intensive, large geospatial models may homogenize the representation of complex landscapes, and suggest strategies to prepare for this condition. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# 分類課題における生成言語モデルの評価:環境・気候変動領域における性能と自己評価能力
Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain ( http://arxiv.org/abs/2408.17362v1 ) ライセンス: Link先を確認 | Francesca Grasso, Stefano Locci, | (参考訳) 本稿では,2つの大規模言語モデル (LLMs) , GPT3.5 と Llama2 と 1つの小言語モデル (SLM) Gemma を,気候変動 (CC) と環境領域の3つの異なる分類課題で比較した。
BERTベースのモデルをベースラインとして、これらのトランスフォーマーベースのモデルと比較する。
さらに、これらのテキスト分類タスクにおいて、言語化された信頼度スコアの校正を解析することにより、モデルの自己評価能力を評価する。
以上の結果から, BERT を用いたモデルは LLM と SLM のどちらよりも優れているが, 大規模な生成モデルの性能は注目に値する。
さらに,初期タスクではGemmaが良好に校正されているものの,Llamaは合理的に校正され,GPTは一貫して強い校正を行うことが明らかとなった。
本研究は、惑星の最も緊急な問題に対処する上で、生成的LMの有効性と有効性に関する議論の継続に寄与することを目的としており、生態学とCCの文脈におけるその強みと限界を強調している。
This paper examines the performance of two Large Language Models (LLMs), GPT3.5 and Llama2 and one Small Language Model (SLM) Gemma, across three different classification tasks within the climate change (CC) and environmental domain. Employing BERT-based models as a baseline, we compare their efficacy against these transformer-based models. Additionally, we assess the models' self-evaluation capabilities by analyzing the calibration of verbalized confidence scores in these text classification tasks. Our findings reveal that while BERT-based models generally outperform both the LLMs and SLM, the performance of the large generative models is still noteworthy. Furthermore, our calibration analysis reveals that although Gemma is well-calibrated in initial tasks, it thereafter produces inconsistent results; Llama is reasonably calibrated, and GPT consistently exhibits strong calibration. Through this research, we aim to contribute to the ongoing discussion on the utility and effectiveness of generative LMs in addressing some of the planet's most urgent issues, highlighting their strengths and limitations in the context of ecology and CC. | 翻訳日:2024-09-02 14:56:23 公開日:2024-08-30 |
# Look, Learn and Leverage (L$^3$): Mitigating Visual-Domain Shift and Discovering Intrinsic Relations via Symbolic Alignment (特集:情報・情報)
Look, Learn and Leverage (L$^3$): Mitigating Visual-Domain Shift and Discovering Intrinsic Relations via Symbolic Alignment ( http://arxiv.org/abs/2408.17363v1 ) ライセンス: Link先を確認 | Hanchen Xie, Jiageng Zhu, Mahyar Khayatkhoei, Jiazhi Li, Wael AbdAlmageed, | (参考訳) 現代のディープラーニングモデルは、視覚的外見と内在的関係(例えば、因果構造)のデータが十分である場合、例えば、不整合表現学習(DRL)、因果表現学習(CRL)、視覚質問回答(VQA)など、基礎的なメカニズムを発見する上で、優れた性能を示してきた。
しかし、これらのモデルの一般化能力は、視覚領域がシフトし、微調整中に関係データが欠落しているときに問題となる。
この課題に対処するために、学習プロセスを3つの異なるフェーズに分解し、視覚領域を整列する共通のシンボル空間としてクラス非依存のセグメンテーションマスクを体系的に利用する新しい学習フレームワーク、Look, Learn and Leverage (L$^3$)を提案する。
これにより、ソースドメイン上で関係発見モデルをトレーニングすることができ、視覚領域シフトや本質的な関係が欠如している場合には、事前学習された関係発見モデルを直接再利用し、良好な性能を維持することができる。
DRL, CRL, VQAの3つのタスクに対して総合的な性能評価を行い, L$3$の利点を明らかにした。
Modern deep learning models have demonstrated outstanding performance on discovering the underlying mechanisms when both visual appearance and intrinsic relations (e.g., causal structure) data are sufficient, such as Disentangled Representation Learning (DRL), Causal Representation Learning (CRL) and Visual Question Answering (VQA) methods. However, generalization ability of these models is challenged when the visual domain shifts and the relations data is absent during finetuning. To address this challenge, we propose a novel learning framework, Look, Learn and Leverage (L$^3$), which decomposes the learning process into three distinct phases and systematically utilize the class-agnostic segmentation masks as the common symbolic space to align visual domains. Thus, a relations discovery model can be trained on the source domain, and when the visual domain shifts and the intrinsic relations are absent, the pretrained relations discovery model can be directly reused and maintain a satisfactory performance. Extensive performance evaluations are conducted on three different tasks: DRL, CRL and VQA, and show outstanding results on all three tasks, which reveals the advantages of L$^3$. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# パラメトリック変調結合を有する導波路QEDにおける非線形動的カシミール効果とアンルーエンタングルメント
Nonlinear dynamical Casimir effect and Unruh entanglement in waveguide QED with parametrically modulated coupling ( http://arxiv.org/abs/2408.17365v1 ) ライセンス: Link先を確認 | Egor S. Vyatkin, Alexander V. Poshakinskiy, Alexander N. Poddubny, | (参考訳) 理論的には、1次元導波路に対して動く2レベル量子ビットの配列について検討する。
この運動は、量子ビットと導波路の間の結合の変調によって機械的にあるいはシミュレートすることができる。
この運動の周波数が2倍のクビット共鳴周波数に近づくと、光子のパラメトリック生成と量子ビットの励起を誘導する。
提案された量子光学系は、様々な量子電磁力学現象を探索する可能性の多さを提供する。
しかし、それらの理論解析は、量子非線形性、伝播するフォトニックモードの連続体、および多くの従来の分析ツールが適用できない強い非平衡量子ビット状態の励起のため、困難である。
これらの課題に対処するために、摂動図式技術と厳密なマスター方程式アプローチの両方を取り入れた総合的な理論フレームワークを開発する。
計算の結果,光子対のモーメントが相関する方向動的カシミール効果,光子対が絡み合うような非自明な定常状態に移動する導波路を介する集合的ウンルー効果など,いくつかの興味深い効果が示された。
さらに、クビットアレイのサブラジアントモードが励起されたときに特に顕著になるクビット運動に対する放射バックアクションについて検討する。
バックアクションはメカニカルスペクトルを著しく変化させ、ハイブリッドフォノン-双光子モードを形成する可能性がある。
We study theoretically an array of two-level qubits moving relative to a one-dimensional waveguide. This motion can be implemented mechanically or simulated via the modulation of the couplings between the qubits and the waveguide. When the frequency of this motion approaches twice the qubit resonance frequency, it induces parametric generation of photons and excitation of the qubits. The proposed quantum optomechanical system offers a plethora of possibilities for exploring various quantum electrodynamics phenomena. However, their theoretical analysis is challenging due to the presence of quantum nonlinearity, a continuum of propagating photonic modes, and the excitation of strongly nonequilibrium qubit states, which make many conventional analytical tools inapplicable. To address these challenges, we develop a comprehensive general theoretical framework that incorporates both perturbative diagrammatic techniques and a rigorous master-equation approach. Our calculations reveal several intriguing effects, including the directional dynamical Casimir effect, where momenta of emitted photon pairs are correlated, and the waveguide-mediated collective Unruh effect, where motion drives the qubits to a nontrivial steady state that can be entangled and exhibit phase transitions. Additionally, we examine the radiation back-action on the qubit motion, which becomes particularly pronounced when subradiant modes in the qubit array are excited. The back-action can significantly alter the mechanical spectra, potentially leading to the formation of hybrid phonon-biphoton modes. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 電力消費予測のためのグラフニューラルネットワークの活用
Leveraging Graph Neural Networks to Forecast Electricity Consumption ( http://arxiv.org/abs/2408.17366v1 ) ライセンス: Link先を確認 | Eloi Campagne, Yvenn Amara-Ouali, Yannig Goude, Argyris Kalogeratos, | (参考訳) 特に、再生可能エネルギー源の統合と分散ネットワークパラダイムへの移行により、より複雑で不確実性がもたらされるため、正確な電力需要予測が不可欠である。
提案手法は,この分散ネットワーク構造に固有の空間分布と関係の複雑さを効果的に捉えるために,グラフに基づく表現を利用する。
この研究は、グラフ畳み込みネットワークやグラフSAGEのようなモデルを検討することによって、従来の一般化された追加モデルフレームワークを超えて、新しいアプローチを提供する。
これらのグラフベースのモデルは、ノード間の相互接続性と情報共有の様々なレベルを組み込むことを可能にし、各ノードは、消費者のサブセット(例えば、国の地域)の結合負荷(すなわち消費)に対応する。
具体的には、消費予測に適したグラフを推定する手法と、性能と説明可能性の両方の観点から開発モデルを評価するためのフレームワークを紹介する。
本研究は,フランス本土の地域を考慮した総合的および実フレームワークによる電気予測実験を行い,本手法の性能とメリットについて論じる。
Accurate electricity demand forecasting is essential for several reasons, especially as the integration of renewable energy sources and the transition to a decentralized network paradigm introduce greater complexity and uncertainty. The proposed methodology leverages graph-based representations to effectively capture the spatial distribution and relational intricacies inherent in this decentralized network structure. This research work offers a novel approach that extends beyond the conventional Generalized Additive Model framework by considering models like Graph Convolutional Networks or Graph SAGE. These graph-based models enable the incorporation of various levels of interconnectedness and information sharing among nodes, where each node corresponds to the combined load (i.e. consumption) of a subset of consumers (e.g. the regions of a country). More specifically, we introduce a range of methods for inferring graphs tailored to consumption forecasting, along with a framework for evaluating the developed models in terms of both performance and explainability. We conduct experiments on electricity forecasting, in both a synthetic and a real framework considering the French mainland regions, and the performance and merits of our approach are discussed. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 構成モニタ合成
Configuration Monitor Synthesis ( http://arxiv.org/abs/2408.17368v1 ) ライセンス: Link先を確認 | Maximilian A. Köhl, Clemens Dubslaff, Holger Hermanns, | (参考訳) システムの観測可能な振る舞いは、通常、内部状態、特性、潜在的な将来の振る舞いに関する有用な情報を運ぶ。
本稿では,その動作の観測に基づいて,実行中のシステムの未知の構成を決定するための構成モニタリングを提案する。
我々は,監視対象システムの特徴的遷移システムモデルから自動理論構成モニタを合成するモジュールで汎用的なパイプラインを開発した。
パイプラインはさらに、部分的な可観測性とネットワークによる損失の下での合成と、システムの将来の振る舞いを考慮した予測構成モニターを可能にする。
構成監視の新たな適用以外にも,本手法は,それぞれが特性の満足度や違反や欠陥の発生を検出することを目的とした,ランタイム監視と障害診断に関する既存の作業の一般化と統合を図っている。
構成可能なシステムコミュニティベンチマークから合成した構成モニタのケーススタディにより,提案手法の有効性を実証的に実証した。
The observable behavior of a system usually carries useful information about its internal state, properties, and potential future behaviors. In this paper, we introduce configuration monitoring to determine an unknown configuration of a running system based on observations of its behavior. We develop a modular and generic pipeline to synthesize automata-theoretic configuration monitors from a featured transition system model of the configurable system to be monitored. The pipeline further allows synthesis under partial observability and network-induced losses as well as predictive configuration monitors taking the potential future behavior of a system into account. Beyond the novel application of configuration monitoring, we show that our approach also generalizes and unifies existing work on runtime monitoring and fault diagnosis, which aim at detecting the satisfaction or violation of properties and the occurrence of faults, respectively. We empirically demonstrate the efficacy of our approach with a case study on configuration monitors synthesized from configurable systems community benchmarks. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 環境汚染物質が多発性硬化症進行に及ぼす影響を探る
Exploring the Impact of Environmental Pollutants on Multiple Sclerosis Progression ( http://arxiv.org/abs/2408.17376v1 ) ライセンス: Link先を確認 | Elena Marinello, Erica Tavazzi, Enrico Longato, Pietro Bosoni, Arianna Dagliati, Mahin Vazifehdan, Riccardo Bellazzi, Isotta Trescato, Alessandro Guazzo, Martina Vettoretti, Eleonora Tavazzi, Lara Ahmad, Roberto Bergamaschi, Paola Cavalla, Umberto Manera, Adriano Chio, Barbara Di Camillo, | (参考訳) 多発性硬化症(Multiple Sclerosis、MS)は、慢性自己免疫性炎症性神経疾患であり、再発として知られる症状の悪化を特徴とする。
本研究では,H2020 BRAINTEASERプロジェクトのデータを用いて,MS患者の再発発生における環境要因の役割について検討した。
我々はランダムフォレスト(RF)やロジスティック回帰(LR)などの予測モデルを用いて,臨床および汚染物質データに基づいて1週間にわたって収集された再発の発生を予測する。
RFはAUC-ROCスコア0.713で最高の結果を得た。
また, 降水量, NO2, PM2.5, 湿度, 温度などの環境変数は, 予測に関連があることが判明した。
Multiple Sclerosis (MS) is a chronic autoimmune and inflammatory neurological disorder characterised by episodes of symptom exacerbation, known as relapses. In this study, we investigate the role of environmental factors in relapse occurrence among MS patients, using data from the H2020 BRAINTEASER project. We employed predictive models, including Random Forest (RF) and Logistic Regression (LR), with varying sets of input features to predict the occurrence of relapses based on clinical and pollutant data collected over a week. The RF yielded the best result, with an AUC-ROC score of 0.713. Environmental variables, such as precipitation, NO2, PM2.5, humidity, and temperature, were found to be relevant to the prediction. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# NDP:もっと広いターゲットとしての次の配電予測
NDP: Next Distribution Prediction as a More Broad Target ( http://arxiv.org/abs/2408.17377v1 ) ライセンス: Link先を確認 | Junhao Ruan, Abudukeyumu Abudula, Xinyu Liu, Bei Li, Yinqiao Li, Chenglong Wang, Yuchun Fan, Yuan Ge, Tong Xiao, Jingbo Zhu, | (参考訳) 次世代予測(NTP)パラダイムに基づいて訓練された大規模言語モデル(LLM)は、強力な能力を示している。
しかし、既存のNTPパラダイムにはいくつかの制限があり、特に推論中の計画されたタスクの複雑化やエラーの伝播に関連している。
本研究では, NTP の限界を狭義の訓練により強調し, 準最適一点分布の予測を行う。
この批判を支援するために、我々は強力なLCMからの出力分布を効率的な世界データ圧縮として扱う実験を行った。
LLMの出力分布とn$-gram分布との類似性を評価することにより, LLMの出力分布とn$-gram分布がより密接に一致することを示した。
この知見に基づいて、Next Distribution Prediction (NDP)を導入し、n$-gramの分布を用いて、ワンホットターゲットを置き換え、オンライントレーニング時間を余分に必要とせずに学習を向上させる。
本研究は,翻訳,一般課題,言語伝達,医療領域適応にまたがる実験を行った。
NTPと比較して、NDPは翻訳タスクにおける最大2.97 COMETの改善、一般タスクにおける+0.61平均改善、医療領域における驚くべき+10.75平均改善を達成できる。
このことは, NTPの改善に向けた新たな取り組みの方向性を示唆して, 目標絞り問題に対処する上での具体的なメリットを示している。
Large language models (LLMs) trained on next-token prediction (NTP) paradigm have demonstrated powerful capabilities. However, the existing NTP paradigm contains several limitations, particularly related to planned task complications and error propagation during inference. In our work, we extend the critique of NTP, highlighting its limitation also due to training with a narrow objective: the prediction of a sub-optimal one-hot distribution. To support this critique, we conducted a pre-experiment treating the output distribution from powerful LLMs as efficient world data compression. By evaluating the similarity between the $n$-gram distribution and the one-hot distribution with LLMs, we observed that the $n$-gram distributions align more closely with the output distribution of LLMs. Based on this insight, we introduce Next Distribution Prediction (NDP), which uses $n$-gram distributions to replace the one-hot targets, enhancing learning without extra online training time. We conducted experiments across translation, general task, language transfer, and medical domain adaptation. Compared to NTP, NDP can achieve up to +2.97 COMET improvement in translation tasks, +0.61 average improvement in general tasks, and incredible +10.75 average improvement in the medical domain. This demonstrates the concrete benefits of addressing the target narrowing problem, pointing to a new direction for future work on improving NTP. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# EMPOWER: オンライングラウンドと実行によるマルチロールオープン語彙プランニング
EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution ( http://arxiv.org/abs/2408.17379v1 ) ライセンス: Link先を確認 | Francesco Argenziano, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi, | (参考訳) 実生活環境におけるロボットのタスクプランニングは重要な課題である。
これらの課題は、目標を達成するためのステップの基底的なシーケンスを特定することの難しさ、高レベルのアクションと低レベルのコマンドの標準化されたマッピングの欠如、ロボットハードウェアの限られたリソースを考えると、計算オーバーヘッドを低く抑えることの3つの問題に起因している。
オープン・ボキャブラリ・オンライン・グラウンドディングのためのフレームワークであるEMPOWERを紹介し,これらの問題に対処するための具体的エージェントの計画について述べる。
効率的な事前学習基盤モデルとマルチロール機構を活用することで、EMPOWERは、基盤となる計画と実行の顕著な改善を示す。
TIAGoロボットを用いて,6つの実生活シナリオの平均成功率0.73を達成し,本手法の有効性を定量的に評価した。
Task planning for robots in real-life settings presents significant challenges. These challenges stem from three primary issues: the difficulty in identifying grounded sequences of steps to achieve a goal; the lack of a standardized mapping between high-level actions and low-level commands; and the challenge of maintaining low computational overhead given the limited resources of robotic hardware. We introduce EMPOWER, a framework designed for open-vocabulary online grounding and planning for embodied agents aimed at addressing these issues. By leveraging efficient pre-trained foundation models and a multi-role mechanism, EMPOWER demonstrates notable improvements in grounded planning and execution. Quantitative results highlight the effectiveness of our approach, achieving an average success rate of 0.73 across six different real-life scenarios using a TIAGo robot. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 交通専門知識と残差RL:CAV軌道制御のための知識インフォームドモデルに基づく残留強化学習
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control ( http://arxiv.org/abs/2408.17380v1 ) ライセンス: Link先を確認 | Zihao Sheng, Zilin Huang, Sikai Chen, | (参考訳) モデルベース強化学習 (RL) は, 仮想環境モデルを用いて, モデルフリーのRLに比べて高いサンプル効率を示すことが期待されている。
しかし,複雑なシステムや環境の不確実性から,環境力学の十分な正確な表現を得ることは困難である。
不正確な環境モデルは、モデルベースRLのサンプル効率と性能を劣化させる可能性がある。
さらに、モデルベースのRLはサンプル効率を改善することができるが、スクラッチから学ぶのに十分なトレーニング時間を必要とする場合も少なくない。
これらの課題に対処するために,既存の知識を学習プロセスに注入し,ゼロから始める問題を回避し,学習効率を向上させることを目的とした,知識インフォームドモデルに基づく強化学習フレームワークを提案する。
当社のアプローチでは,交通専門家の知識を仮想環境モデルに統合し,基本力学の知能ドライバモデル(IDM)と残留力学のニューラルネットワークを用い,複雑なシナリオへの適応性を確保する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
提案手法は,混合交通流中における停止・停止波の消散のためのCAV軌道制御タスクに適用される。
実験により,提案手法により, サンプル効率, 交通流の平滑性, 交通移動性の観点から, CAV エージェントは, ベースラインエージェントに比べ, トラジェクトリ制御の優れた性能が得られることが示された。
ソースコードと補助資料はhttps://github.com/zihaosheng/traffic-expertise-RL/で入手できる。
Model-based reinforcement learning (RL) is anticipated to exhibit higher sample efficiency compared to model-free RL by utilizing a virtual environment model. However, it is challenging to obtain sufficiently accurate representations of the environmental dynamics due to uncertainties in complex systems and environments. An inaccurate environment model may degrade the sample efficiency and performance of model-based RL. Furthermore, while model-based RL can improve sample efficiency, it often still requires substantial training time to learn from scratch, potentially limiting its advantages over model-free approaches. To address these challenges, this paper introduces a knowledge-informed model-based residual reinforcement learning framework aimed at enhancing learning efficiency by infusing established expert knowledge into the learning process and avoiding the issue of beginning from zero. Our approach integrates traffic expert knowledge into a virtual environment model, employing the Intelligent Driver Model (IDM) for basic dynamics and neural networks for residual dynamics, thus ensuring adaptability to complex scenarios. We propose a novel strategy that combines traditional control methods with residual RL, facilitating efficient learning and policy optimization without the need to learn from scratch. The proposed approach is applied to CAV trajectory control tasks for the dissipation of stop-and-go waves in mixed traffic flow. Experimental results demonstrate that our proposed approach enables the CAV agent to achieve superior performance in trajectory control compared to the baseline agents in terms of sample efficiency, traffic flow smoothness and traffic mobility. The source code and supplementary materials are available at https://github.com/zihaosheng/traffic-expertise-RL/. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 10倍のパラメータを持つMoRe微細チューニング
MoRe Fine-Tuning with 10x Fewer Parameters ( http://arxiv.org/abs/2408.17383v1 ) ライセンス: Link先を確認 | Wenxuan Tan, Nicholas Roberts, Tzu-Heng Huang, Jitian Zhao, John Cooper, Samuel Guo, Chengyu Duan, Frederic Sala, | (参考訳) パラメータ効率のよい微調整(PEFT)技術は、大規模な事前訓練モデルに安価で容易に特化できる可能性を解き放った。
しかし、ローランクアダプタ(LoRA)のような最も顕著なアプローチは、アーキテクチャ選択に対するヒューリスティックやルール・オブ・サンプに依存します。
この制限は、ニューラルネットワーク探索のテクニックが最適なアダプタアーキテクチャを得るために使用できることを示唆するが、これらは高価で実装が難しいことが多い。
この課題に対処するMonarch Rectangular Fine-tuning (MoRe)は、Monarch行列クラスに依存するアダプタアーキテクチャを検索するシンプルなフレームワークである。
理論的には、MoReはLoRAよりも表現力が高い。
経験的に、我々の手法は、様々なタスクやモデルにおける最先端のPEFTよりもパラメータ効率が高く、性能も優れており、LoRAのパラメータの5倍にも満たない。
Parameter-efficient fine-tuning (PEFT) techniques have unlocked the potential to cheaply and easily specialize large pretrained models. However, the most prominent approaches, like low-rank adapters (LoRA), depend on heuristics or rules-of-thumb for their architectural choices -- potentially limiting their performance for new models and architectures. This limitation suggests that techniques from neural architecture search could be used to obtain optimal adapter architectures, but these are often expensive and difficult to implement. We address this challenge with Monarch Rectangular Fine-tuning (MoRe), a simple framework to search over adapter architectures that relies on the Monarch matrix class. Theoretically, we show that MoRe is more expressive than LoRA. Empirically, our approach is more parameter-efficient and performant than state-of-the-art PEFTs on a range of tasks and models, with as few as 5\% of LoRA's parameters. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# LASSO-MOGAT : 癌分類のための多眼的グラフ注意フレームワーク
LASSO-MOGAT: A Multi-Omics Graph Attention Framework for Cancer Classification ( http://arxiv.org/abs/2408.17384v1 ) ライセンス: Link先を確認 | Fadi Alharbi, Aleksandar Vakanski, Murtada K. Elbashir, Mohanad Mohammed, | (参考訳) 近年, 癌研究における強力なアプローチとして, 遺伝子発現パターンの変化を解析するための機械学習手法が登場し, がんの発生と進展を支える分子機構の理解を深めている。
遺伝子発現データと他の種類のオミクスデータを組み合わせることは、がん分類結果を改善するために多くの研究によって報告されている。
これらの進歩にもかかわらず、高次元のマルチオミクスデータを効果的に統合し、異なる生物学的層をまたいだ複雑な関係を捉えることは依然として困難である。
本稿では,メッセンジャーRNA,マイクロRNA,DNAメチル化データを統合するグラフベースの新しいディープラーニングフレームワークLASSO-MOGAT(LASSO-Multi-Omics Gated Attention)を紹介する。
LIMMAとLASSOレグレッションによる差分式解析を特徴選択に利用し、グラフアテンションネットワーク(GAT)を利用してタンパク質-タンパク質相互作用(PPI)ネットワークを組み込むことにより、LASSO-MOGATはマルチオミクスデータ内の複雑な関係を効果的に捉える。
5倍のクロスバリデーションを用いた実験的検証は、がん分子機構に関する包括的な洞察を提供するための方法の精度、信頼性、能力を示す。
タンパク質-タンパク質相互作用に基づくグラフアテンションアーキテクチャによるグラフのエッジに対する注意係数の計算は、がん分類のためのマルチオミクスデータにおける相乗効果の同定に有用であることが証明された。
The application of machine learning methods to analyze changes in gene expression patterns has recently emerged as a powerful approach in cancer research, enhancing our understanding of the molecular mechanisms underpinning cancer development and progression. Combining gene expression data with other types of omics data has been reported by numerous works to improve cancer classification outcomes. Despite these advances, effectively integrating high-dimensional multi-omics data and capturing the complex relationships across different biological layers remains challenging. This paper introduces LASSO-MOGAT (LASSO-Multi-Omics Gated ATtention), a novel graph-based deep learning framework that integrates messenger RNA, microRNA, and DNA methylation data to classify 31 cancer types. Utilizing differential expression analysis with LIMMA and LASSO regression for feature selection, and leveraging Graph Attention Networks (GATs) to incorporate protein-protein interaction (PPI) networks, LASSO-MOGAT effectively captures intricate relationships within multi-omics data. Experimental validation using five-fold cross-validation demonstrates the method's precision, reliability, and capacity for providing comprehensive insights into cancer molecular mechanisms. The computation of attention coefficients for the edges in the graph by the proposed graph-attention architecture based on protein-protein interactions proved beneficial for identifying synergies in multi-omics data for cancer classification. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 非凸二段階確率最適化問題のベイズ最適化
Bayesian Optimization for Non-Convex Two-Stage Stochastic Optimization Problems ( http://arxiv.org/abs/2408.17387v1 ) ライセンス: Link先を確認 | Jack M. Buckingham, Ivo Couckuyt, Juergen Branke, | (参考訳) ベイズ最適化は、高価なブラックボックス最適化問題を解くためのサンプリング効率のよい方法である。
確率的プログラミングは、通常、平均的なパフォーマンスが関心の量である不確実性の下で最適化する。
2段階の問題の第一段階では、この不確実性に直面して、ここで、今、現在、決定をしなければならないが、第二段階では、不確実性が解決された後に、待ち、そして見る決定を行う。
確率的プログラミングにおける多くの手法は、目的が線形あるいは凸性の評価や評価に安価であると仮定する。
本研究では,非凸二段階確率計画の解法としてベイズ最適化を適用する。
知識勾配に基づく獲得関数を定式化し、第1段と第2段の変数を協調的に最適化し、漸近的一貫性の保証を確立し、計算効率の良い近似を提供する。
2つの変数タイプ間の焦点を交互に置き換える代替式と同等な経験結果を示し、標準の2段階ベンチマークよりも優れた経験結果を示す。
可変型間の寸法と長さの差が2段階のアルゴリズムの非効率性に繋がることを示す一方で,結合および交互獲得関数は試験された全ての問題において良好に機能することを示した。
実物と実物の両方で実験を行う。
Bayesian optimization is a sample-efficient method for solving expensive, black-box optimization problems. Stochastic programming concerns optimization under uncertainty where, typically, average performance is the quantity of interest. In the first stage of a two-stage problem, here-and-now decisions must be made in the face of this uncertainty, while in the second stage, wait-and-see decisions are made after the uncertainty has been resolved. Many methods in stochastic programming assume that the objective is cheap to evaluate and linear or convex. In this work, we apply Bayesian optimization to solve non-convex, two-stage stochastic programs which are expensive to evaluate. We formulate a knowledge-gradient-based acquisition function to jointly optimize the first- and second-stage variables, establish a guarantee of asymptotic consistency and provide a computationally efficient approximation. We demonstrate comparable empirical results to an alternative we formulate which alternates its focus between the two variable types, and superior empirical results over the standard, naive, two-step benchmark. We show that differences in the dimension and length scales between the variable types can lead to inefficiencies of the two-step algorithm, while the joint and alternating acquisition functions perform well in all problems tested. Experiments are conducted on both synthetic and real-world examples. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# ニューラル・タンジェント・アンサンブルによる連続学習
Continual learning with the neural tangent ensemble ( http://arxiv.org/abs/2408.17394v1 ) ライセンス: Link先を確認 | Ari S. Benjamin, Christian Pehle, Kyle Daruwalla, | (参考訳) 連続学習の自然な戦略は、固定関数のベイズアンサンブルを重み付けることである。
これは、(単一の)ニューラルネットワークをアンサンブルとして解釈できれば、忘れずに学習する効果的なアルゴリズムを設計できることを示している。
この可能性を実現するために、Nパラメータを持つニューラルネットワーク分類器をN分類器の重み付けアンサンブルとして解釈することができ、遅延状態においてこれらの分類器は学習を通して固定される。
これらの分類器をニューラルネットワークの専門家と呼び、ラベル上で有効な確率分布を出力することを示す。
次に、過去のデータに与えられた各専門家の確率と後続確率を導出する。
驚くべきことに、これらの専門家の後方更新は、ネットワーク上の確率勾配降下(SGD)のスケール化と投影化と等価であることがわかった。
怠け者の体制とは違い、ネットワークは時間とともに改善する適応的な専門家の集まりと見なすことができる。
これらの結果は、ニューラルネットワークを専門家のベイズアンサンブルとして解釈し、連続的な学習環境で破滅的な忘れを理解・緩和するための原則的な枠組みを提供する。
A natural strategy for continual learning is to weigh a Bayesian ensemble of fixed functions. This suggests that if a (single) neural network could be interpreted as an ensemble, one could design effective algorithms that learn without forgetting. To realize this possibility, we observe that a neural network classifier with N parameters can be interpreted as a weighted ensemble of N classifiers, and that in the lazy regime limit these classifiers are fixed throughout learning. We term these classifiers the neural tangent experts and show they output valid probability distributions over the labels. We then derive the likelihood and posterior probability of each expert given past data. Surprisingly, we learn that the posterior updates for these experts are equivalent to a scaled and projected form of stochastic gradient descent (SGD) over the network weights. Away from the lazy regime, networks can be seen as ensembles of adaptive experts which improve over time. These results offer a new interpretation of neural networks as Bayesian ensembles of experts, providing a principled framework for understanding and mitigating catastrophic forgetting in continual learning settings. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 図形モデルの公平性を考慮した評価
Fairness-Aware Estimation of Graphical Models ( http://arxiv.org/abs/2408.17396v1 ) ライセンス: Link先を確認 | Zhuoping Zhou, Davoud Ataee Tarzanagh, Bojian Hou, Qi Long, Li Shen, | (参考訳) 本稿では,グラフィカルモデル(GM)の推定における公平性,特にガウスモデル,共分散モデル,イジングモデルについて検討する。
これらのモデルは、高次元データにおける複雑な関係を理解する上で重要な役割を果たす。
しかし、標準的なGMは、特に基礎となるデータが繊細な特徴や保護されたグループを含む場合、バイアスのある結果をもたらす可能性がある。
これを解決するために、保護属性に関連するGMの推定におけるバイアスを低減するために設計された包括的フレームワークを導入する。
提案手法は,多目的最適化問題にグラフの対差誤差と調整された損失関数を組み込むことによって,GMの有効性を維持しつつ,異なる敏感なグループ間で公平性を実現する。
合成および実世界のデータセットに対する実験的評価は、GMの性能を損なうことなく、我々のフレームワークがバイアスを効果的に軽減することを示した。
This paper examines the issue of fairness in the estimation of graphical models (GMs), particularly Gaussian, Covariance, and Ising models. These models play a vital role in understanding complex relationships in high-dimensional data. However, standard GMs can result in biased outcomes, especially when the underlying data involves sensitive characteristics or protected groups. To address this, we introduce a comprehensive framework designed to reduce bias in the estimation of GMs related to protected attributes. Our approach involves the integration of the pairwise graph disparity error and a tailored loss function into a nonsmooth multi-objective optimization problem, striving to achieve fairness across different sensitive groups while maintaining the effectiveness of the GMs. Experimental evaluations on synthetic and real-world datasets demonstrate that our framework effectively mitigates bias without undermining GMs' performance. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 公正な顔認識における知識蒸留による合成ギャップの軽減
How Knowledge Distillation Mitigates the Synthetic Gap in Fair Face Recognition ( http://arxiv.org/abs/2408.17399v1 ) ライセンス: Link先を確認 | Pedro C. Neto, Ivona Colakovic, Sašo Karakatič, Ana F. Sequeira, | (参考訳) 知識蒸留(KD)戦略の活用により、顔認識データセットの最近の取り消しと戦うための戦略を考案する。
実際のデータセットに基づいてトレーニングされた教師モデルを考えると、注意深く合成データセットを利用するか、この教師から小さな学生への知識を消し去るために、実際のデータセットと合成データセットを混在させることが驚くべき結果をもたらすことが示される。
この意味で、KDなしで33の異なるモデルを、異なるアーキテクチャと損失で異なるデータセットでトレーニングしました。
KDを使用することで、すべての民族でパフォーマンスが向上し、バイアスが減少します。
さらに、実際のデータセットと合成データセットのパフォーマンスギャップを軽減するのにも役立ちます。
このアプローチは、合成データトレーニングの限界に対処し、顔認識モデルの正確性と公平性を改善する。
Leveraging the capabilities of Knowledge Distillation (KD) strategies, we devise a strategy to fight the recent retraction of face recognition datasets. Given a pretrained Teacher model trained on a real dataset, we show that carefully utilising synthetic datasets, or a mix between real and synthetic datasets to distil knowledge from this teacher to smaller students can yield surprising results. In this sense, we trained 33 different models with and without KD, on different datasets, with different architectures and losses. And our findings are consistent, using KD leads to performance gains across all ethnicities and decreased bias. In addition, it helps to mitigate the performance gap between real and synthetic datasets. This approach addresses the limitations of synthetic data training, improving both the accuracy and fairness of face recognition models. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 説明内容とフォーマットがユーザ理解と信頼に及ぼす影響を探る
Exploring the Effect of Explanation Content and Format on User Comprehension and Trust ( http://arxiv.org/abs/2408.17401v1 ) ライセンス: Link先を確認 | Antonio Rago, Bence Palfi, Purin Sukpanichnant, Hannibal Nabli, Kavyesh Vivek, Olga Kostopoulou, James Kinross, Francesca Toni, | (参考訳) 近年、"ブラックボックス"AIモデルの出力を説明する様々な方法が紹介されている。
しかし、ユーザが実際にこれらの説明を理解し、信頼しているかはよく分かっていない。
本稿では,がんリスクを評価するためのレグレッションツールの説明に焦点をあて,説明内容とフォーマットがユーザ中心の理解と信頼の指標に与える影響を検討する。
コンテンツに関しては,ゲーム理論的な概念をベースとした一般的なSHAPと,より理解しやすい特徴をベースとしたOcclusion-1という2つの説明方法を試行する。
フォーマットに関しては、従来のようにチャート(SC)としてSHAPの説明を、チャート(OC)とテキスト(OT)としてOcclusion-1の説明を提示する。
この実験は,2つの異なるレベルの専門知識(一般集団とある程度の医療訓練)を持つ参加者に対して,回帰ツールのアウトプットの説明に対する主観的および客観的理解と信頼について質問するユーザスタディにあてはまる。
両研究とも, 主観的理解と信頼の両面から, SHAPによる説明よりも, 内容に基づく比較において, 主観的理解と信頼の両面から明らかな優先性を見出した。
しかし、書式制御時の説明の直接比較は、ほとんどのケースにおいて SC の説明よりも OT の証拠しか示さず、SHAP の説明よりも occlusion-1 の優位性は、説明としてチャートよりもテキストの方が優先されることによって引き起こされる可能性があることを示唆している。
最後に、客観的理解の観点から、説明型の違いの証拠は見つからなかった。
このように、コンテンツや説明の形式の選択は、コンテンツよりもコンテキストによってはユーザーエクスペリエンスを改善する上で重要な役割を果たす可能性があるため、注意が必要である。
In recent years, various methods have been introduced for explaining the outputs of "black-box" AI models. However, it is not well understood whether users actually comprehend and trust these explanations. In this paper, we focus on explanations for a regression tool for assessing cancer risk and examine the effect of the explanations' content and format on the user-centric metrics of comprehension and trust. Regarding content, we experiment with two explanation methods: the popular SHAP, based on game-theoretic notions and thus potentially complex for everyday users to comprehend, and occlusion-1, based on feature occlusion which may be more comprehensible. Regarding format, we present SHAP explanations as charts (SC), as is conventional, and occlusion-1 explanations as charts (OC) as well as text (OT), to which their simpler nature also lends itself. The experiments amount to user studies questioning participants, with two different levels of expertise (the general population and those with some medical training), on their subjective and objective comprehension of and trust in explanations for the outputs of the regression tool. In both studies we found a clear preference in terms of subjective comprehension and trust for occlusion-1 over SHAP explanations in general, when comparing based on content. However, direct comparisons of explanations when controlling for format only revealed evidence for OT over SC explanations in most cases, suggesting that the dominance of occlusion-1 over SHAP explanations may be driven by a preference for text over charts as explanations. Finally, we found no evidence of a difference between the explanation types in terms of objective comprehension. Thus overall, the choice of the content and format of explanations needs careful attention, since in some contexts format, rather than content, may play the critical role in improving user experience. | 翻訳日:2024-09-02 14:46:39 公開日:2024-08-30 |
# 1.5フェムト秒の電荷移動遅延
1.5-Femtosecond Delay in Charge Transfer ( http://arxiv.org/abs/2408.17402v1 ) ライセンス: Link先を確認 | Danylo T. Matselyukh, Florian Rott, Thomas Schnappinger, Pengju Zhang, Zheng Li, Jeremy O. Richardson, Regina de Vivie-Riedle, Hans Jakob Wörner, | (参考訳) 2つの交差する量子状態の間の人口移動は、物理学、化学、生物学、物質科学の幅広いプロセスを管理する最も基本的な力学現象である。
二つの状態の記述は、ある状態が別の状態に瞬時に現れることを示唆するが、すべての実世界のシステムに存在する追加状態への結合は、人口移動の計測に遅れを引き起こす可能性があることを示す。
先進的な量子化学計算によって支えられたアト秒分光を用いて、CF$_3$I$^+$における電荷移動状態の交差における1.46$\pm$0.41 fsの遅延を測定する。
我々はまた、電荷移動反応に関わる他の基本的な量子力学過程、すなわち振動再配置時間9.38$\pm$0.21 fs(振動波パケットが状態交差に移動する期間)と人口移動時間2.3-2.4 fsを完全に解決した。
実験結果と理論シミュレーションにより, 集団移動の遅延は非断熱反応に容易に現れ, 典型的には分子価状態の交差に1 fsの順序で現れることが示された。
これらの結果は、原子物理学や分子物理学、電荷移動、光の収穫など、多くの研究領域に影響を及ぼす。
The transfer of population between two intersecting quantum states is the most fundamental dynamical event that governs a broad variety of processes in physics, chemistry, biology and material science. Whereas any two-state description implies that population leaving one state instantaneously appears in the other state, we show that coupling to additional states, present in all real-world systems, can cause a measurable delay in population transfer. Using attosecond spectroscopy supported by advanced quantum-chemical calculations, we measure a delay of 1.46$\pm$0.41 fs at a charge-transfer state crossing in CF$_3$I$^+$, where an electron hole moves from the fluorine atoms to iodine. Our measurements also fully resolve the other fundamental quantum-dynamical processes involved in the charge-transfer reaction: a vibrational rearrangement time of 9.38$\pm$0.21 fs (during which the vibrational wave packet travels to the state crossing) and a population-transfer time of 2.3-2.4 fs. Our experimental results and theoretical simulations show that delays in population transfer readily appear in otherwise-adiabatic reactions and are typically on the order of 1 fs for intersecting molecular valence states. These results have implications for many research areas, such as atomic and molecular physics, charge transfer or light harvesting. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# App Store vs. LLMベースのアプローチ
Getting Inspiration for Feature Elicitation: App Store- vs. LLM-based Approach ( http://arxiv.org/abs/2408.17404v1 ) ライセンス: Link先を確認 | Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, Gérard Dray, Walid Maalej, | (参考訳) 過去10年間、App Store(AppStore)にインスパイアされた要件適用は、非常に有益であることが証明された。
開発者はしばしば、新しい機能のインスピレーションを集めるために、競合他社のアプリを調べます。
ジェネレーティブAIの進歩により、近年の研究は、大規模言語モデル(LLM)にインスパイアされた要求誘発の可能性を示している。
LLMは、新しい機能のアイデアにインスピレーションを与えることで、このプロセスを支援することができる。
どちらのアプローチも実際には人気を集めていますが、その違いについての洞察が不足しています。
本稿では,AppStore と LLM による機能強化手法の比較研究について報告する。
両方のアプローチから推奨される1200のサブフィーチャーを手動で分析することで、それらのメリット、課題、重要な違いを特定しました。
どちらのアプローチも、明確に記述された非常に関連性の高いサブフィーチャを推奨しているが、LLMは、特に新しい未確認アプリスコープに関して、より強力に思える。
さらに, 推奨される特徴は, 実現可能性の不明な虚構であり, ユークリエーションループにおける人間分析の重要性が示唆されている。
Over the past decade, app store (AppStore)-inspired requirements elicitation has proven to be highly beneficial. Developers often explore competitors' apps to gather inspiration for new features. With the advance of Generative AI, recent studies have demonstrated the potential of large language model (LLM)-inspired requirements elicitation. LLMs can assist in this process by providing inspiration for new feature ideas. While both approaches are gaining popularity in practice, there is a lack of insight into their differences. We report on a comparative study between AppStore- and LLM-based approaches for refining features into sub-features. By manually analyzing 1,200 sub-features recommended from both approaches, we identified their benefits, challenges, and key differences. While both approaches recommend highly relevant sub-features with clear descriptions, LLMs seem more powerful particularly concerning novel unseen app scopes. Moreover, some recommended features are imaginary with unclear feasibility, which suggests the importance of a human-analyst in the elicitation loop. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# 離散型連続型QKD用ハイブリッドエンコーダ
Hybrid encoder for discrete and continuous variable QKD ( http://arxiv.org/abs/2408.17412v1 ) ライセンス: Link先を確認 | Mattia Sabatini, Tommaso Bertapelle, Paolo Villoresi, Giuseppe Vallone, Marco Avesani, | (参考訳) 量子鍵分布は、量子技術の最先端の応用として登場し、徐々に産業の風景に組み込まれていく。
離散変数や連続変数を用いた多くのプロトコルが時間をかけて開発されてきた。
ファーストは通常、長い距離をカバーするのに優れるが、秒は一般的に短い距離で高い秘密鍵レートを生み出すのに優れている。
現在の取り組みは、これらの長所の両方を活用できるシステムの構築を目標とし、複数ノードと異種接続ノードからなる量子ネットワークの実現に関する今後の課題を予見することを目的としている。
そのような状況下で、可能な解決策は、離散変数と連続変数の動作モードをハイブリッド量子状態エンコーダで効率的に切り替えることができるシステムである。
そこで本研究では,iPOGNAC変調器をベースとした新しいハイブリッドエンコーダを提案する。
提案手法はDV偏光プロトコルの最初のサポートであり、偏光ベースのプロトコルが空間リンクに適していることを考えると、将来の量子ネットワークの空間ノードにとって魅力的な候補となる。
Quantum key distribution is emerging as a cutting-edge application of quantum technology, gradually integrating into the industrial landscape. Many protocols employing discrete or continuous variables have been developed over time. Whereas the firsts usually excel in covering longer distances, the seconds are typically superior in producing higher secret key rates at short distances. Present efforts aim to create systems that can exploit both these strengths, foreseeing the future challenge regarding the realization of a quantum network consisting of multiple and heterogeneous interconnected nodes. Within such a context, a possible solution is systems able to efficiently toggle between discrete and continuous variable working modes with hybrid quantum state encoders. Therefore, this study presents a new hybrid encoder based on an iPOGNAC modulator, ensuring compatibility with DV and CV QKD systems that can be assembled entirely with commercial-off-the-shelf components. The proposed scheme is the first supporting DV polarization protocols, thus making it an appealing candidate for space nodes of a future quantum network, given that polarization-based protocols are well suited for space links. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# NV系ナノダイアモンドを用いた温度・磁場のリアルタイムデュアルセンシング
Real-time Simultaneous Dual Sensing of Temperature and Magnetic Field using NV-based Nano-diamonds ( http://arxiv.org/abs/2408.17418v1 ) ライセンス: Link先を確認 | Sonia Sarkar, Namita Agrawal, Dasika Shishir, Kasturi Saha, | (参考訳) ダイヤモンド中の窒素空洞(NV)中心に基づく量子センサーは、複数の物理量を検出する能力が高い。
本研究では、NVナノダイアモンド(NVND)の光磁気共鳴の振幅変調ロックイン検出を用いて、温度(T)とゼロフィールド分割パラメータ(D)の相関と、磁場値と共鳴周波数の差の関係を調べた。
また,NVNDの磁場と磁場を同時にリアルタイムに検出する能力を示す。
このデュアルセンシングアプローチは、特定の強磁性材料や強磁性材料のような、温度と応用磁場に依存する磁化の研究に有用である。
実時間熱・磁場計測を統合することは、集積回路(IC)産業における故障解析や、細胞生理学における熱力学過程の研究にユニークな機会を与える。
温度と磁場の変動を同時に監視する能力は、これらの分野での精度診断とモニタリングを前進させる強力なツールセットを提供する。
Quantum sensors based on Nitrogen Vacancy (NV) centers in diamond are highly capable of sensing multiple physical quantities. In this study, we use amplitude-modulated lock-in detection of optically detected magnetic resonance of NV nanodiamonds (NVND) to investigate the link between temperature (T) and the zero-field splitting parameter (D) and also the relationship between magnetic field values and the difference of resonance frequencies. We also present NVNDs' capacity to simultaneously sense both thermal and magnetic fields in real time. This dual-sensing approach is beneficial for studying magnetic materials whose magnetization depends on temperature and the applied magnetic field, such as certain ferromagnetic and ferrimagnetic materials. Integrating real-time thermal and magnetic field measurements provides unique opportunities for failure analysis in the integrated circuit (IC) industry and for studying thermodynamic processes in cell physiology. The ability to concurrently monitor temperature and magnetic field variations offers a powerful toolset for advancing precision diagnostics and monitoring in these fields. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# 超低データレジームで医療画像のセグメンテーションを可能にするジェネレーティブAI
Generative AI Enables Medical Image Segmentation in Ultra Low-Data Regimes ( http://arxiv.org/abs/2408.17421v1 ) ライセンス: Link先を確認 | Li Zhang, Basu Jindal, Ahmed Alaa, Robert Weinreb, David Wilson, Eran Segal, James Zou, Pengtao Xie, | (参考訳) 医用画像のセマンティックセグメンテーションは、疾患診断や治療計画などの応用において重要である。
ディープラーニングはこのタスクの自動化に優れているが、多くの注釈付きセグメンテーションマスクの必要性が大きなハードルとなっている。
このシナリオは、アノテートされた画像が極めて制限され、テスト画像上で従来のディープラーニング手法を一般化する上で重要な課題を提起する、超低データレギュレーションにつながることが多い。
そこで本研究では,高品質なセグメンテーションマスクと医用画像を一意に生成し,データ共有環境におけるロバストモデルトレーニングのための補助データとして機能する,生成型ディープラーニングフレームワークを提案する。
データ生成とセグメンテーションモデルのトレーニングを個別のプロセスとして扱う従来の生成モデルとは異なり、本手法ではエンドツーエンドのデータ生成にマルチレベル最適化を用いる。
このアプローチにより、セグメンテーション性能はデータ生成プロセスに直接影響を与え、生成したデータがセグメンテーションモデルの性能を高めるために特別に調整されていることを保証する。
提案手法は,9種類の医用画像セグメンテーションタスクおよび16のデータセットに対して,様々な疾患,臓器,画像モダリティにまたがる超低データレギュレーションにおいて,強力な一般化性能を示した。
さまざまなセグメンテーションモデルに適用すると、同一ドメインと外部ドメインの両方のシナリオにおいて、10~20\%(絶対)のパフォーマンス改善を実現した。
特に、同等の結果を得るためには、既存のメソッドの8倍から20倍のトレーニングデータが必要です。
この進歩は、特にデータ可用性に制限のあるシナリオにおいて、医用画像にディープラーニングを適用することの実現可能性とコスト効率を大幅に向上させる。
Semantic segmentation of medical images is pivotal in applications like disease diagnosis and treatment planning. While deep learning has excelled in automating this task, a major hurdle is the need for numerous annotated segmentation masks, which are resource-intensive to produce due to the required expertise and time. This scenario often leads to ultra low-data regimes, where annotated images are extremely limited, posing significant challenges for the generalization of conventional deep learning methods on test images. To address this, we introduce a generative deep learning framework, which uniquely generates high-quality paired segmentation masks and medical images, serving as auxiliary data for training robust models in data-scarce environments. Unlike traditional generative models that treat data generation and segmentation model training as separate processes, our method employs multi-level optimization for end-to-end data generation. This approach allows segmentation performance to directly influence the data generation process, ensuring that the generated data is specifically tailored to enhance the performance of the segmentation model. Our method demonstrated strong generalization performance across 9 diverse medical image segmentation tasks and on 16 datasets, in ultra-low data regimes, spanning various diseases, organs, and imaging modalities. When applied to various segmentation models, it achieved performance improvements of 10-20\% (absolute), in both same-domain and out-of-domain scenarios. Notably, it requires 8 to 20 times less training data than existing methods to achieve comparable results. This advancement significantly improves the feasibility and cost-effectiveness of applying deep learning in medical imaging, particularly in scenarios with limited data availability. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# VLMを用いたオープンボキャブラリ時間行動定位
Open-vocabulary Temporal Action Localization using VLMs ( http://arxiv.org/abs/2408.17422v1 ) ライセンス: Link先を確認 | Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi, | (参考訳) ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。
既存の学習ベースのアプローチは成功したが、相当なコストがかかるビデオに注釈をつける必要がある。
本稿では,新しい視覚言語モデル(VLM)に基づく学習自由でオープンな語彙アプローチを提案する。
この課題は、VLMが長いビデオを処理するように設計されていないことと、アクションを見つけるために調整されていることに起因している。
我々は、反復的な視覚的プロンプト技術を拡張することで、これらの問題を克服する。
具体的には、ビデオフレームをフレームインデックスラベル付き連結画像にサンプリングし、VLMがアクションの開始/終了に最も近いと考えられるフレームを推測する。
このプロセスをサンプリング時間ウィンドウを絞り込むことで反復することで、アクションの開始と終了の特定のフレームを見つけることができる。
このサンプリング手法は,ビデオ理解のためのVLMの実践的拡張を図り,妥当な結果をもたらすことを示す。
Video action localization aims to find timings of a specific action from a long video. Although existing learning-based approaches have been successful, those require annotating videos that come with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging vision-language models (VLM). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames into a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start/end of the action. Iterating this process by narrowing a sampling time window results in finding a specific frame of start and end of an action. We demonstrate that this sampling technique yields reasonable results, illustrating a practical extension of VLMs for understanding videos. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# CinePreGen: エンジン駆動拡散によるカメラ制御可能なビデオ前処理
CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion ( http://arxiv.org/abs/2408.17424v1 ) ライセンス: Link先を確認 | Yiran Chen, Anyi Rao, Xuekun Jiang, Shishi Xiao, Ruiqing Ma, Zeyu Wang, Hui Xiong, Bo Dai, | (参考訳) ビデオ生成AIモデル(例:SORA)の進歩に伴い、クリエーターはビデオの前向き化を強化するためにこれらの技術を活用している。
しかし、不完全でミスマッチしたAIワークフローでは課題に直面している。
既存の手法は主にテキスト記述に頼り、先入観化の重要な要素であるカメラ配置に苦労する。
これらの問題に対処するために,エンジン駆動拡散により拡張された視覚前処理システムであるCinePreGenを紹介する。
グローバルなカメラ調整からローカルなカメラ調整まで、ダイナミックなコントロールを提供する新しいカメラとストーリーボードインターフェースを備えている。
これは、マルチタスクIP-Adapterとエンジンシミュレーションガイドラインを通じて一貫した結果を達成することを目的とした、ユーザフレンドリなAIレンダリングワークフローと組み合わせられている。
総合的な評価研究において、我々のシステムは、開発粘度(開発プロセスにおける複雑さと課題)を低減し、設計プロセスにおける広範囲な制御とイテレーションに対するユーザの要求を満たすとともに、撮影カメラ運動における他のAIビデオ制作ワークフローよりも優れていることを示す。
直感的なカメラコントロールとリアルなカメラモーションのレンダリングによって、CinePreGenは、個々のクリエイターと業界の専門家の両方にとって、ビデオ制作を改善する大きな可能性を秘めている。
With advancements in video generative AI models (e.g., SORA), creators are increasingly using these techniques to enhance video previsualization. However, they face challenges with incomplete and mismatched AI workflows. Existing methods mainly rely on text descriptions and struggle with camera placement, a key component of previsualization. To address these issues, we introduce CinePreGen, a visual previsualization system enhanced with engine-powered diffusion. It features a novel camera and storyboard interface that offers dynamic control, from global to local camera adjustments. This is combined with a user-friendly AI rendering workflow, which aims to achieve consistent results through multi-masked IP-Adapter and engine simulation guidelines. In our comprehensive evaluation study, we demonstrate that our system reduces development viscosity (i.e., the complexity and challenges in the development process), meets users' needs for extensive control and iteration in the design process, and outperforms other AI video production workflows in cinematic camera movement, as shown by our experiments and a within-subjects user study. With its intuitive camera controls and realistic rendering of camera motion, CinePreGen shows great potential for improving video production for both individual creators and industry professionals. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# CLOCR-C: 事前学習言語モデルを用いたOCR補正のコンテキストレバレッジ
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models ( http://arxiv.org/abs/2408.17428v1 ) ライセンス: Link先を確認 | Jonathan Bourne, | (参考訳) 歴史的印刷メディアアーカイブのデジタル化は、現代記録へのアクセシビリティ向上に不可欠である。
しかし、物理レコードをデジタルテキストに変換するために用いられる光学文字認識(OCR)のプロセスは、特に新聞や定期刊行物の場合、特に複雑なレイアウトのためにエラーを起こしやすい。
本稿では、トランスフォーマーベース言語モデル(LM)の組み込みとコンテキスト適応能力を利用して、OCRの品質を向上させるコンテキストレバレッジOCR補正(CLOCR-C)を提案する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
実験は、19世紀シリアルズエディション(NCSE)とOverproofコレクションからの2つのデータセットの3つのデータセット上で7つのLMを使用して実施された。
その結果,いくつかのLMは誤り率を著しく低減し,NCSEデータセット上での文字誤り率の60%以上を達成できることがわかった。
OCRの改善により、名前付きエンティティ認識などの下流タスクにも拡張され、Cosine名前付きエンティティ類似性が向上した。
さらに、この研究は、社会文化的文脈を提供することによって、パフォーマンスが向上する一方で、誤解を招くことによってパフォーマンスが低下することを示している。
本研究は,本研究の成果に加えて,約4万語からなるNCSEの91項目のデータセットを公表し,さらなる研究を支援した。
その結果, CLOCR-Cは, LMに埋め込まれた社会文化的情報と, 修正を必要とするテキストを活用することで, 既存のデジタルアーカイブの品質向上に期待できるアプローチであることが示唆された。
The digitisation of historical print media archives is crucial for increasing accessibility to contemporary records. However, the process of Optical Character Recognition (OCR) used to convert physical records to digital text is prone to errors, particularly in the case of newspapers and periodicals due to their complex layouts. This paper introduces Context Leveraging OCR Correction (CLOCR-C), which utilises the infilling and context-adaptive abilities of transformer-based language models (LMs) to improve OCR quality. The study aims to determine if LMs can perform post-OCR correction, improve downstream NLP tasks, and the value of providing the socio-cultural context as part of the correction process. Experiments were conducted using seven LMs on three datasets: the 19th Century Serials Edition (NCSE) and two datasets from the Overproof collection. The results demonstrate that some LMs can significantly reduce error rates, with the top-performing model achieving over a 60% reduction in character error rate on the NCSE dataset. The OCR improvements extend to downstream tasks, such as Named Entity Recognition, with increased Cosine Named Entity Similarity. Furthermore, the study shows that providing socio-cultural context in the prompts improves performance, while misleading prompts lower performance. In addition to the findings, this study releases a dataset of 91 transcribed articles from the NCSE, containing a total of 40 thousand words, to support further research in this area. The findings suggest that CLOCR-C is a promising approach for enhancing the quality of existing digital archives by leveraging the socio-cultural information embedded in the LMs and the text requiring correction. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# 大規模言語モデルを用いたマルチストーカーASRの性能向上
Advancing Multi-talker ASR Performance with Large Language Models ( http://arxiv.org/abs/2408.17431v1 ) ライセンス: Link先を確認 | Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu, | (参考訳) 会話シナリオにおいて複数の話者から重なり合う音声を認識することは、自動音声認識(ASR)において最も難しい問題の一つである。
シリアライズド・アウトプット・トレーニング(SOT)は、音声の発声時間に応じて複数の話者からの書き起こしを連結する手法である。
しかし、会話の中で複数の関連する発話を連結することに由来するSOTスタイルの文字起こしは、長い文脈のモデリングに大きく依存する。
したがって、アテンションベースのエンコーダデコーダ(AED)アーキテクチャにおけるエンコーダ性能を主に重視する従来の手法と比較して、事前訓練されたデコーダの能力を活用した大規模言語モデル(LLM)を利用した新しいアプローチは、このような複雑で困難なシナリオに適している可能性がある。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOT手法を提案する。
実験結果から,本手法はシミュレーションデータセットLibriMixの従来のAED手法を超越し,実世界のデータセットAMIの評価セットにおける最先端性能を実現し,従来の1000倍の教師付きデータでトレーニングされたAEDモデルより優れていることが示された。
Recognizing overlapping speech from multiple speakers in conversational scenarios is one of the most challenging problem for automatic speech recognition (ASR). Serialized output training (SOT) is a classic method to address multi-talker ASR, with the idea of concatenating transcriptions from multiple speakers according to the emission times of their speech for training. However, SOT-style transcriptions, derived from concatenating multiple related utterances in a conversation, depend significantly on modeling long contexts. Therefore, compared to traditional methods that primarily emphasize encoder performance in attention-based encoder-decoder (AED) architectures, a novel approach utilizing large language models (LLMs) that leverages the capabilities of pre-trained decoders may be better suited for such complex and challenging scenarios. In this paper, we propose an LLM-based SOT approach for multi-talker ASR, leveraging pre-trained speech encoder and LLM, fine-tuning them on multi-talker dataset using appropriate strategies. Experimental results demonstrate that our approach surpasses traditional AED-based methods on the simulated dataset LibriMix and achieves state-of-the-art performance on the evaluation set of the real-world dataset AMI, outperforming the AED model trained with 1000 times more supervised data in previous works. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# SelectTTS: 離散単位フレーム選択による誰でも音声を合成する
SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection ( http://arxiv.org/abs/2408.17432v1 ) ライセンス: Link先を確認 | Ismail Rasim Ulgen, Shreeram Suresh Chandra, Junchen Lu, Berrak Sisman, | (参考訳) 未確認話者の声を合成することは、マルチ話者音声(TTS)において持続的な課題である。
ほとんどのマルチスピーカーTSモデルは、訓練中の話者条件付けによる話者特性のモデル化に依存している。
このアプローチによる未知の話者属性のモデリングは、モデル複雑さの増加を必要としており、結果の再現と改善が困難になっている。
私たちはこれに代わる単純な選択肢を設計します。
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,客観的・主観的両指標において,他のマルチ話者TSフレームワークに匹敵する結果が得られることを示す。
SelectTTSでは、対象話者の音声からのフレーム選択が、モデル複雑さの低い未確認話者の一般化を実現する直接的な方法であることを示す。
モデルパラメータの8倍、トレーニングデータの270倍、SOTAベースラインのXTTS-v2とVALL-Eよりも優れた話者類似性を実現する。
Synthesizing the voices of unseen speakers is a persisting challenge in multi-speaker text-to-speech (TTS). Most multi-speaker TTS models rely on modeling speaker characteristics through speaker conditioning during training. Modeling unseen speaker attributes through this approach has necessitated an increase in model complexity, which makes it challenging to reproduce results and improve upon them. We design a simple alternative to this. We propose SelectTTS, a novel method to select the appropriate frames from the target speaker and decode using frame-level self-supervised learning (SSL) features. We show that this approach can effectively capture speaker characteristics for unseen speakers, and achieves comparable results to other multi-speaker TTS frameworks in both objective and subjective metrics. With SelectTTS, we show that frame selection from the target speaker's speech is a direct way to achieve generalization in unseen speakers with low model complexity. We achieve better speaker similarity performance than SOTA baselines XTTS-v2 and VALL-E with over an 8x reduction in model parameters and a 270x reduction in training data | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# DARES:基礎モデルの自己監督型ベクトルロラを用いた内視鏡手術の深さ
DARES: Depth Anything in Robotic Endoscopic Surgery with Self-supervised Vector-LoRA of the Foundation Model ( http://arxiv.org/abs/2408.17433v1 ) ライセンス: Link先を確認 | Mona Sheikh Zeinoddin, Chiara Lena, Jiongqi Qu, Luca Carlini, Mattia Magro, Seunghoi Kim, Elena De Momi, Sophia Bano, Matthew Grech-Sollars, Evangelos Mazomenos, Daniel C. Alexander, Danail Stoyanov, Matthew J. Clarkson, Mobarakol Islam, | (参考訳) ロボット支援手術(RAS)は3次元再構成と可視化のための正確な深度推定に頼っている。
Depth Anything Models (DAM)のような基礎モデルは有望であるが、手術に直接適用することで、しばしば準最適結果が得られる。
限られた外科的データに対する完全な微調整は、過度な適合と破滅的な忘れ込み、モデルの堅牢性と一般化を引き起こす可能性がある。
Low-Rank Adaptation (LoRA)はいくつかの適応問題に対処するが、その一様パラメータ分布は固有の特徴階層を無視している。
そこで本研究では,DAM V2上のベクトルローランク適応(Vector-LoRA)を用いて,RASシーンにおける自己教師型単眼深度推定を行う新しいアプローチであるDepth Anything in Robotic Endoscopic Surgery (DARES)を紹介した。
学習効率を向上させるため,Vector-LoRAを導入した。
また,手術環境の具体的要件に合わせて基礎モデルを改善することにより,多スケールのSSIM誤差に基づく再投射損失を設計し,深度知覚を高める。
提案手法はSCAREDデータセット上で検証され,最近の最先端の自己教師型単分子深度推定技術よりも優れた性能を示し,絶対相対誤差測定で13.3%向上した。
コードとトレーニング済みのウェイトはhttps://github.com/mobarakol/DARESで公開されている。
Robotic-assisted surgery (RAS) relies on accurate depth estimation for 3D reconstruction and visualization. While foundation models like Depth Anything Models (DAM) show promise, directly applying them to surgery often yields suboptimal results. Fully fine-tuning on limited surgical data can cause overfitting and catastrophic forgetting, compromising model robustness and generalization. Although Low-Rank Adaptation (LoRA) addresses some adaptation issues, its uniform parameter distribution neglects the inherent feature hierarchy, where earlier layers, learning more general features, require more parameters than later ones. To tackle this issue, we introduce Depth Anything in Robotic Endoscopic Surgery (DARES), a novel approach that employs a new adaptation technique, Vector Low-Rank Adaptation (Vector-LoRA) on the DAM V2 to perform self-supervised monocular depth estimation in RAS scenes. To enhance learning efficiency, we introduce Vector-LoRA by integrating more parameters in earlier layers and gradually decreasing parameters in later layers. We also design a reprojection loss based on the multi-scale SSIM error to enhance depth perception by better tailoring the foundation model to the specific requirements of the surgical environment. The proposed method is validated on the SCARED dataset and demonstrates superior performance over recent state-of-the-art self-supervised monocular depth estimation techniques, achieving an improvement of 13.3% in the absolute relative error metric. The code and pre-trained weights are available at https://github.com/mobarakol/DARES. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# SyntheVAL: 合成チェックリストを用いたNLPモデルのハイブリッド動作試験
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists ( http://arxiv.org/abs/2408.17437v1 ) ライセンス: Link先を確認 | Raoyuan Zhao, Abdullatif Köksal, Yihong Liu, Leonie Weissweiler, Anna Korhonen, Hinrich Schütze, | (参考訳) NLPの従来のベンチマークは、通常静的なホールドアウトテストセットを使用する。
しかし、このアプローチはしばしば性能を過大評価し、NLPモデルの包括的、解釈可能、動的評価を提供する能力に欠ける。
近年、DynaBench(Kiela et al , 2021)やCheckList(Ribeiro et al , 2020)のような作業は、マルチステップの人間アノテーションパイプラインによって生成されたテストタイプを備えたNLPモデルの振る舞いテストを通じて、これらの制限に対処している。
残念ながら、さまざまなテストタイプを手動で作成するには多くの人的労力が必要で、しばしば禁止コストがかかる。
本研究では,大規模言語モデル(LLM)を活用するハイブリッドな振る舞いテストフレームワークであるSyntheVALを提案し,NLPモデルの包括的評価を行う。
SynTHEVAL はまず制御された生成法を用いて LLM を用いて文を生成し,次にタスク固有の NLP モデルと LLM による予測を比較して,難解な例を識別する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
コードをhttps://github.com/Loreley99/SynthEval_CheckListで共有しています。
Traditional benchmarking in NLP typically involves using static held-out test sets. However, this approach often results in an overestimation of performance and lacks the ability to offer comprehensive, interpretable, and dynamic assessments of NLP models. Recently, works like DynaBench (Kiela et al., 2021) and CheckList (Ribeiro et al., 2020) have addressed these limitations through behavioral testing of NLP models with test types generated by a multistep human-annotated pipeline. Unfortunately, manually creating a variety of test types requires much human labor, often at prohibitive cost. In this work, we propose SYNTHEVAL, a hybrid behavioral testing framework that leverages large language models (LLMs) to generate a wide range of test types for a comprehensive evaluation of NLP models. SYNTHEVAL first generates sentences via LLMs using controlled generation, and then identifies challenging examples by comparing the predictions made by LLMs with task-specific NLP models. In the last stage, human experts investigate the challenging examples, manually design templates, and identify the types of failures the taskspecific models consistently exhibit. We apply SYNTHEVAL to two classification tasks, sentiment analysis and toxic language detection, and show that our framework is effective in identifying weaknesses of strong models on these tasks. We share our code in https://github.com/Loreley99/SynthEval_CheckList. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# 制限測定による量子状態試験
Quantum state testing with restricted measurements ( http://arxiv.org/abs/2408.17439v1 ) ライセンス: Link先を確認 | Yuhan Liu, Jayadev Acharya, | (参考訳) 量子状態テストでは、$\rho=\rho_0\in\mathbb{C}^{d\times d}$か$\|\rho-\rho_0\|_1>\varepsilon$か、$\rho$の$n$コピーと既知の状態記述$\rho_0$かをテストする。
実際には、各コピーを別々に測定するアンタングル計測を用いても、すべての測定を簡単に適用できるわけではない。
我々は、新しい測定情報チャネルを通じて、非適応測定の制限されたファミリーに対して、複写複雑性を低く抑える情報理論フレームワークを開発する。
このフレームワークを用いて、固定およびランダム化スキームを用いた$k$-outcome測定の自然な族に対する最適境界を求める。
我々はこれらの2つのスキームの分離を実証し、固定されたスキームに対するランダム化測定スキームのパワーを示す。
以前は固定されたスキームはほとんど知られておらず、厳密な境界は$k\ge d$ と Pauli observables を持つランダム化されたスキームでしか知られていなかった。
私たちの仕事は文学のこのギャップを埋める。
We study quantum state testing where the goal is to test whether $\rho=\rho_0\in\mathbb{C}^{d\times d}$ or $\|\rho-\rho_0\|_1>\varepsilon$, given $n$ copies of $\rho$ and a known state description $\rho_0$. In practice, not all measurements can be easily applied, even using unentangled measurements where each copy is measured separately. We develop an information-theoretic framework that yields unified copy complexity lower bounds for restricted families of non-adaptive measurements through a novel measurement information channel. Using this framework, we obtain the optimal bounds for a natural family of $k$-outcome measurements with fixed and randomized schemes. We demonstrate a separation between these two schemes, showing the power of randomized measurement schemes over fixed ones. Previously, little was known for fixed schemes, and tight bounds were only known for randomized schemes with $k\ge d$ and Pauli observables, a special class of 2-outcome measurements. Our work bridges this gap in the literature. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# 測定に基づくフィードバック制御によるフォン・ノイマンエントロピーの解析
Analysis on the von Neumann entropy under the measurement-based feedback control ( http://arxiv.org/abs/2408.17442v1 ) ライセンス: Link先を確認 | Kohei Kobayashi, | (参考訳) 測定に基づくフィードバック(MBF)制御は、所望の量子状態を作成するためのいくつかの強力な手段を提供する。
したがって,MBFの基本特性について検討することが重要である。
特に、MBFの下で制御されたシステムのエントロピーがどのように振る舞うかは非常に興味深い。
本研究では,フォン・ノイマンエントロピーの時間微分がMBF制御の下で非負であるという十分条件を導出することにより,この問題を考察する。
この結果は、観測可能なシステムの分散と、与えられたデコヒーレンスの量子性によって厳密に特徴づけられる。
量子ビット安定化の例において、結果の有効性と物理的解釈を示す。
The measurement-based feedback (MBF) control offers several powerful means for preparing the desired target quantum state. Therefore, it is important to investigate fundamental properties of MBF. In particular, how the entropy of the controlled system under the MBF behaves is of great interest. In this study, we examine this problem by deriving a sufficient condition that the time derivative of the von Neumann entropy is nonnegative under the MBF control. This result is rigorously characterized by the variance of the system observable and the quantumness of a given decoherence. We show the validity of the result and physical interpretation in the example of qubit stabilizing. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# Bridging Episodes and Semantics: 長期ビデオ理解のための新しいフレームワーク
Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding ( http://arxiv.org/abs/2408.17443v1 ) ライセンス: Link先を確認 | Gueter Josmy Faure, Jia-Fong Yeh, Min-Hung Chen, Hung-Ting Su, Winston H. Hsu, Shang-Hong Lai, | (参考訳) 従来の研究では、長編動画を長編ビデオとして扱うことが多いが、人間の認知をより正確に反映する新しいアプローチを提案する。
本稿では,BREASE: BRidging Episodes and SEmantics for Long-Form Video Understandingを紹介する。
まず、ミクロからセミマクロまで重要な表現を効率的に集約するエピソディック・コムプレッサー(ECO)を開発した。
次に,Semantics reTRiever(セマンティックス・レトニバー)を提案する。セマンティックス・レトニバー(セマンティックス・レトニバー)は,セマンティックス・レトニバー(セマンティックス・レトニバー)とセマンティックス・レトニバー(セマンティックス・レトニバー)が関連したマクロレベルの情報を保存しながら,より広いコンテキストに焦点をあてることで,これらの集合表現を意味情報で強化する。
大規模な実験により、BREASEはゼロショットとフル教師付きの両方の設定において、複数の長いビデオ理解ベンチマークで最先端のパフォーマンスを達成することが示された。
プロジェクトページとコードは以下の通りである。
While existing research often treats long-form videos as extended short videos, we propose a novel approach that more accurately reflects human cognition. This paper introduces BREASE: BRidging Episodes And SEmantics for Long-Form Video Understanding, a model that simulates episodic memory accumulation to capture action sequences and reinforces them with semantic knowledge dispersed throughout the video. Our work makes two key contributions: First, we develop an Episodic COmpressor (ECO) that efficiently aggregates crucial representations from micro to semi-macro levels. Second, we propose a Semantics reTRiever (SeTR) that enhances these aggregated representations with semantic information by focusing on the broader context, dramatically reducing feature dimensionality while preserving relevant macro-level information. Extensive experiments demonstrate that BREASE achieves state-of-the-art performance across multiple long video understanding benchmarks in both zero-shot and fully-supervised settings. The project page and code are at: https://joslefaure.github.io/assets/html/hermes.html. | 翻訳日:2024-09-02 14:36:36 公開日:2024-08-30 |
# 量子ゲートにおける忠実度-散逸関係
Fidelity-dissipation relations in quantum gates ( http://arxiv.org/abs/2311.15762v3 ) ライセンス: Link先を確認 | Tan Van Vu, Tomotaka Kuwahara, Keiji Saito, | (参考訳) 正確な量子コンピューティングは、量子ゲートの精度に依存する。
しかし、実際の量子ゲートは一般的に散逸環境の影響を受け、その忠実度は著しく低下する。
本研究では,ジェネリック量子ゲートの平均忠実度と計算過程中に発生する散逸の基本的な関係を解明する。
量子ゲートがマルコフ環境に従属するシナリオを考えると、任意の操作時間を保持する忠実解離関係を厳格に導出する。
興味深いことに、量子ゲートが熱緩和を受けると、その結果は、散逸構造に関する詳細な知識を必要とせず、実験的に測定可能な忠実度を通じて散逸を推定するための貴重なツールとして用いられる。
任意の環境の場合、平均忠実度とエネルギー散逸のトレードオフ関係が明らかとなり、これらの量は同時に大きくならないことが示唆された。
その結果、熱力学と量子コンピューティングの深い関係に光を当て、熱力学によって課される計算上の制限を明らかにした。
Accurate quantum computing relies on the precision of quantum gates. However, quantum gates in practice are generally affected by dissipative environments, which can significantly reduce their fidelity. In this study, we elucidate fundamental relations between the average fidelity of generic quantum gates and the dissipation that occurs during the computing processes. Considering scenarios in which a quantum gate is subject to Markovian environments, we rigorously derive fidelity-dissipation relations that hold for arbitrary operational times. Intriguingly, when the quantum gate undergoes thermal relaxation, the result can be used as a valuable tool for estimating dissipation through experimentally measurable fidelity, without requiring detailed knowledge of the dissipative structure. For the case of arbitrary environments, we uncover a trade-off relation between the average fidelity and energy dissipation, implying that these quantities cannot be large simultaneously. Our results unveil the computational limitations imposed by thermodynamics, shedding light on the profound connection between thermodynamics and quantum computing. | 翻訳日:2024-09-02 10:56:31 公開日:2024-08-30 |
# OpticalRS-4M:大規模リモートセンシングデータセットを用いた効率的なマスク付きオートエンコーダ学習
OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset ( http://arxiv.org/abs/2406.11933v3 ) ライセンス: Link先を確認 | Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun, | (参考訳) Masked Image Modeling (MIM) は、リモートセンシング(RS)における基礎的な視覚モデル構築に欠かせない手法となっている。
しかし、既存のRSデータセットのサイズと多様性の制限は、MIM法が一般化可能な表現を学習する能力を制限する。
さらに、全てのトークンを再構築する必要がある従来のMIM技術は、不要な計算オーバーヘッドを導入している。
これらの問題に対処するため、我々は大規模なRSデータセットの作成と効率的なMIMアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、公開可能なRSデータセットを収集し、排除、スライシング、復号化によってそれらを処理することで、OptoRS-4Mという高品質なデータセットをキュレートした。
光RS-4Mは、オブジェクト検出やピクセルセグメンテーションなど、様々なRSタスクをカバーする400万の光学画像で構成されている。
効率を向上させるために,SelectiveMAEを提案する。SelectiveMAEは,意味的にリッチなパッチトークンを動的にエンコードし,再構成することで,RS画像の冗長な背景画素に起因する従来のMIMモデルの非効率性を低減できる。
広汎な実験により、光学RS-4Mは分類、検出、セグメンテーション性能を著しく改善し、セレクティブMAEは2倍のトレーニング効率を向上することが示された。
これは、RS基盤モデルの開発におけるパイプラインの有効性とスケーラビリティを強調します。
Masked Image Modeling (MIM) has become an essential method for building foundational visual models in remote sensing (RS). However, the limitations in size and diversity of existing RS datasets restrict the ability of MIM methods to learn generalizable representations. Additionally, conventional MIM techniques, which require reconstructing all tokens, introduce unnecessary computational overhead. To address these issues, we present a new pre-training pipeline for RS models, featuring the creation of a large-scale RS dataset and an efficient MIM approach. We curated a high-quality dataset named OpticalRS-4M by collecting publicly available RS datasets and processing them through exclusion, slicing, and deduplication. OpticalRS-4M comprises 4 million optical images covering various RS tasks, such as object detection and pixel segmentation. To enhance efficiency, we propose SelectiveMAE, a pre-training method that dynamically encodes and reconstructs semantically rich patch tokens, thereby reducing the inefficiencies of traditional MIM models caused by redundant background pixels in RS images. Extensive experiments demonstrate that OpticalRS-4M significantly improves classification, detection, and segmentation performance, while SelectiveMAE increases training efficiency over 2 times. This highlights the effectiveness and scalability of our pipeline in developing RS foundational models. | 翻訳日:2024-09-02 10:56:31 公開日:2024-08-30 |
# リーマン幾何学に基づく知性と意識の数学的枠組み
A mathematical framework of intelligence and consciousness based on Riemannian Geometry ( http://arxiv.org/abs/2407.11024v3 ) ライセンス: Link先を確認 | Meng Lu, | (参考訳) 知性を理解することは神経科学、認知科学、人工知能の中心的な研究である。
知性は学習、問題解決、創造性、さらには意識まで含んでいる。
幾何解析の最近の進歩は、高次元情報表現と組織に対する新たな洞察を明らかにし、ニューラルシステムと人工システムにおける本質的なデータ構造と動的プロセスを明らかにする。
しかし、インテリジェンスの静的および動的側面を統一する包括的なフレームワークはまだ欠けている。
この写本は、知性と意識の構造と力学を記述するためにリーマン幾何学に基づく数学的枠組みを提案する。
知能要素は高次元空間に埋め込まれたトークンとして概念化される。
学習されたトークン埋め込みは、さまざまなシナリオやタスクにわたるトークンの相互接続をキャプチャし、インテリジェンス空間で多様体を形成する。
思考フローは、これらの多様体内の測地線に沿ったトークンの逐次活性化として描かれる。
測地学のナビゲーションにおいて、自己参照過程としての意識は思考の流れを知覚し、予測に対して評価し、予測誤差を通じてフィードバックを提供し、ジオデシックを調整する。
この動的相互作用は、新しい情報を統合し、幾何学を進化させ、学習を促進する。
知能の幾何学は意識を導き、意識は知能の幾何学を構造化する。
幾何学的概念を統合することにより、この理論は知性と意識の構造と力学を記述するための統一された数学的枠組みを提供する。
生物学的および人工知能に適用できるこの枠組みは、将来の研究と実証的な検証の道を開くかもしれない。
Understanding intelligence is a central pursuit in neuroscience, cognitive science, and artificial intelligence. Intelligence encompasses learning, problem-solving, creativity, and even consciousness. Recent advancements in geometric analysis have revealed new insights into high-dimensional information representation and organisation, exposing intrinsic data structures and dynamic processes within neural and artificial systems. However, a comprehensive framework that unifies the static and dynamic aspects of intelligence is still lacking. This manuscript proposes a mathematical framework based on Riemannian geometry to describe the structure and dynamics of intelligence and consciousness. Intelligence elements are conceptualised as tokens embedded in a high-dimensional space. The learned token embeddings capture the interconnections of tokens across various scenarios and tasks, forming manifolds in the intelligence space. Thought flow is depicted as the sequential activation of tokens along geodesics within these manifolds. During the navigation of geodesics, consciousness, as a self-referential process, perceives the thought flow, evaluates it against predictions, and provides feedback through prediction errors, adjusting the geodesic: non-zero prediction errors, such as learning, lead to the restructuring of the curved manifolds, thus changing the geodesic of thought flow. This dynamic interaction integrates new information, evolves the geometry and facilitates learning. The geometry of intelligence guides consciousness, and consciousness structures the geometry of intelligence. By integrating geometric concepts, this proposed theory offers a unified, mathematically framework for describing the structure and dynamics of intelligence and consciousness. Applicable to biological and artificial intelligence, this framework may pave the way for future research and empirical validation. | 翻訳日:2024-09-02 10:56:31 公開日:2024-08-30 |
# Discount Fusion を用いた深層部分的多視点分類
Evidential Deep Partial Multi-View Classification With Discount Fusion ( http://arxiv.org/abs/2408.13123v3 ) ライセンス: Link先を確認 | Haojian Huang, Zhe Liu, Sukumar Letchmunan, Muhammet Deveci, Mingwei Lin, Weizhong Wang, | (参考訳) 不完全なマルチビューデータ分類は、現実のシナリオにおけるビューの欠如という共通の問題のために大きな課題を生んでいる。
進歩にも拘わらず、既存の手法では、欠落した見解の不確実性や不整合なデータの質が原因で、信頼できる予測が得られないことが多い。
これらの問題を解決するために,EDP-MVC (Evidential Deep partial Multi-View Classification) と呼ばれる新しいフレームワークを提案する。
最初は、K-means命令を使用して、行方不明のビューに対処し、完全なマルチビューデータのセットを作成します。
しかし、この暗示データ内の潜在的な衝突や不確実性は、下流の推論の信頼性に影響を与える可能性がある。
これを管理するために、証拠の信頼性に基づいて動的に調整し、信頼性の高い割引融合を保証し、信頼性の高い推測結果を生成する衝突認識証拠融合ネットワーク(CAEFN)を導入する。
様々なベンチマークデータセットの総合的な実験により、EDP-MVCは一致しただけでなく、最先端の手法の性能を上回ることが多い。
Incomplete multi-view data classification poses significant challenges due to the common issue of missing views in real-world scenarios. Despite advancements, existing methods often fail to provide reliable predictions, largely due to the uncertainty of missing views and the inconsistent quality of imputed data. To tackle these problems, we propose a novel framework called Evidential Deep Partial Multi-View Classification (EDP-MVC). Initially, we use K-means imputation to address missing views, creating a complete set of multi-view data. However, the potential conflicts and uncertainties within this imputed data can affect the reliability of downstream inferences. To manage this, we introduce a Conflict-Aware Evidential Fusion Network (CAEFN), which dynamically adjusts based on the reliability of the evidence, ensuring trustworthy discount fusion and producing reliable inference outcomes. Comprehensive experiments on various benchmark datasets reveal EDP-MVC not only matches but often surpasses the performance of state-of-the-art methods. | 翻訳日:2024-09-02 10:56:31 公開日:2024-08-30 |
# 時間的アンサンブル論理
Temporal Ensemble Logic ( http://arxiv.org/abs/2408.14443v2 ) ライセンス: Link先を確認 | Guo-Qiang Zhang, | (参考訳) 線形時間時間的推論のためのモナディックな1次モーダル論理であるテンポラル・アンサンブル論理(TEL)を導入する。
TELには、 ``always up to $t$ time later'(\Box_t$)、 ``sometimes before $t$ time in the future'(\Diamond_t$)、 ``$t$-time later''' $\varphi_t$などの原始的な時間構造が含まれている。
TELは、生物学的医学における時間的推論の形式化のギャップを埋めるために、臨床および人口健康研究におけるコホート仕様と発見の厳格化と再現性の必要性から動機付けられてきた。
線形時相論理のような既存の論理的枠組みは、生医学において時間的およびシーケンシャルな性質を表現するには制限的すぎる、あるいはハルパーン・ショハム論理のような意味的構造において寛容すぎるので、この目的を果たすことができない。
本稿では、まず、離散時間と高密度時間とを特別な場合として、TELを一般設定で導入する。
次に、正の整数の時間領域である $\mathbb{N}^+$, ${\rm TEL}_{\mathbb{N}^+}$ に対する離散 TEL の理論的発展に焦点を当てる。
${\rm TEL}_{\mathbb{N}^+}$ は標準的なモナディック二階述語論理よりも厳密に表現され、B\"{u}chi autoa で特徴づけられる。
本稿では,その形式的意味論,証明システム,および${\rm TEL}_{\mathbb{N}^+}$の満足度の未決定性の証明を提供する。
また、${\rm TEL}_{\mathbb{N}^+}$に対する表現性および決定可能性フラグメントの初期結果も含みます。
We introduce Temporal Ensemble Logic (TEL), a monadic, first-order modal logic for linear-time temporal reasoning. TEL includes primitive temporal constructs such as ``always up to $t$ time later'' ($\Box_t$), ``sometimes before $t$ time in the future'' ($\Diamond_t$), and ``$t$-time later'' $\varphi_t$. TEL has been motivated from the requirement for rigor and reproducibility for cohort specification and discovery in clinical and population health research, to fill a gap in formalizing temporal reasoning in biomedicine. Existing logical frameworks such as linear temporal logic are too restrictive to express temporal and sequential properties in biomedicine, or too permissive in semantic constructs, such as in Halpern-Shoham logic, to serve this purpose. In this paper, we first introduce TEL in a general set up, with discrete and dense time as special cases. We then focus on the theoretical development of discrete TEL on the temporal domain of positive integers $\mathbb{N}^+$, denoted as ${\rm TEL}_{\mathbb{N}^+}$. ${\rm TEL}_{\mathbb{N}^+}$ is strictly more expressive than the standard monadic second order logic, characterized by B\"{u}chi automata. We present its formal semantics, a proof system, and provide a proof for the undecidability of the satisfiability of ${\rm TEL}_{\mathbb{N}^+}$. We also include initial results on expressiveness and decidability fragments for ${\rm TEL}_{\mathbb{N}^+}$, followed by application outlook and discussions. | 翻訳日:2024-09-02 10:56:31 公開日:2024-08-30 |
# グラフのプロンプト学習に向けて - 調査とその先
Towards Graph Prompt Learning: A Survey and Beyond ( http://arxiv.org/abs/2408.14520v2 ) ライセンス: Link先を確認 | Qingqing Long, Yuchen Yan, Peiyan Zhang, Chen Fang, Wentao Cui, Zhiyuan Ning, Meng Xiao, Ning Cao, Xiao Luo, Lingjun Xu, Shiyue Jiang, Zheng Fang, Chong Chen, Xian-Sheng Hua, Yuanchun Zhou, | (参考訳) 大規模"事前訓練と迅速な学習"パラダイムは、質問応答、画像認識、マルチモーダル検索など、さまざまな領域にまたがる幅広い応用を可能にする、顕著な適応性を示している。
このアプローチは、大規模な事前訓練モデルの可能性を完全に活用し、ダウンストリームデータ要求と計算コストを削減し、様々なタスクにおけるモデル適用性を向上させる。
グラフは、エンティティ間の関係をキャプチャする汎用データ構造として、ソーシャルネットワーク分析、レコメンダシステム、生物学的グラフなどの分野で重要な役割を果たす。
自然言語処理(NLP)やコンピュータビジョン(CV)における事前学習および迅速な学習パラダイムの成功にもかかわらず、グラフ領域での応用はいまだに始まったばかりである。
グラフ構造データでは、ノードとエッジの特徴はしばしば異なる分布を持つだけでなく、位相構造も大きく異なる。
このグラフデータの多様性は、下流グラフの事前トレーニングと微調整の間に不整合パターンやギャップをもたらす可能性がある。
これらの格差を緩和する手法を要約することで、このギャップを埋めることを目指している。
これには、迅速な設計方法論、関連するテクニックの比較、アプリケーションシナリオとデータセットの評価、未解決の問題と課題の特定などが含まれる。
この調査は、この分野における100を超える関連する研究を分類し、一般的な設計原則と、テキスト対応グラフ、分子、タンパク質、レコメンデーションシステムを含む最新の応用を要約する。
この広範なレビューを通じて、グラフマイニングコミュニティだけでなく、より広範な人工知能(AGI)コミュニティにも影響を与えることを目的とした、グラフプロンプト学習の基本的な理解を提供する。
Large-scale "pre-train and prompt learning" paradigms have demonstrated remarkable adaptability, enabling broad applications across diverse domains such as question answering, image recognition, and multimodal retrieval. This approach fully leverages the potential of large-scale pre-trained models, reducing downstream data requirements and computational costs while enhancing model applicability across various tasks. Graphs, as versatile data structures that capture relationships between entities, play pivotal roles in fields such as social network analysis, recommender systems, and biological graphs. Despite the success of pre-train and prompt learning paradigms in Natural Language Processing (NLP) and Computer Vision (CV), their application in graph domains remains nascent. In graph-structured data, not only do the node and edge features often have disparate distributions, but the topological structures also differ significantly. This diversity in graph data can lead to incompatible patterns or gaps between pre-training and fine-tuning on downstream graphs. We aim to bridge this gap by summarizing methods for alleviating these disparities. This includes exploring prompt design methodologies, comparing related techniques, assessing application scenarios and datasets, and identifying unresolved problems and challenges. This survey categorizes over 100 relevant works in this field, summarizing general design principles and the latest applications, including text-attributed graphs, molecules, proteins, and recommendation systems. Through this extensive review, we provide a foundational understanding of graph prompt learning, aiming to impact not only the graph mining community but also the broader Artificial General Intelligence (AGI) community. | 翻訳日:2024-09-02 10:56:31 公開日:2024-08-30 |
# ウルドゥー語テキストにおける単語レベル認識に対する多変量自己回帰的アプローチ
A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text ( http://arxiv.org/abs/2408.15119v3 ) ライセンス: Link先を確認 | Ahmed Mustafa, Muhammad Tahir Rafique, Muhammad Ijlal Baig, Hasan Sajid, Muhammad Jawad Khan, Karam Dad Kallu, | (参考訳) 本稿では,デジタルウルドゥー文字に特化して設計された新しい単語レベル光学文字認識(OCR)モデルを紹介し,トランスフォーマーベースのアーキテクチャとアテンション機構を活用して,多種多様なテキストスタイル,フォント,バリエーションを含むウルドゥー文字認識の課題に対処する。
このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを用いており、複数のトークンの置換のトレーニングを通じてコンテキスト認識推論と反復的洗練を可能にすることで、その性能を向上させる。
この方法では、ウルドゥー文字でよく見られる文字の並べ替えと重なり合う文字を管理することができる。
約160,000のUrduテキスト画像からなるデータセットでトレーニングされたこのモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
特定のテキストのバリエーションを扱う上で進行中の課題にもかかわらず、このモデルは実用的な応用において優れた精度と有効性を示す。
今後の研究は、高度なデータ拡張技術と文脈認識言語モデルの統合により、Urduテキスト認識の性能と堅牢性をさらに向上することに焦点を当てる。
This research paper introduces a novel word-level Optical Character Recognition (OCR) model specifically designed for digital Urdu text, leveraging transformer-based architectures and attention mechanisms to address the distinct challenges of Urdu script recognition, including its diverse text styles, fonts, and variations. The model employs a permuted autoregressive sequence (PARSeq) architecture, which enhances its performance by enabling context-aware inference and iterative refinement through the training of multiple token permutations. This method allows the model to adeptly manage character reordering and overlapping characters, commonly encountered in Urdu script. Trained on a dataset comprising approximately 160,000 Urdu text images, the model demonstrates a high level of accuracy in capturing the intricacies of Urdu script, achieving a CER of 0.178. Despite ongoing challenges in handling certain text variations, the model exhibits superior accuracy and effectiveness in practical applications. Future work will focus on refining the model through advanced data augmentation techniques and the integration of context-aware language models to further enhance its performance and robustness in Urdu text recognition. | 翻訳日:2024-09-02 10:56:31 公開日:2024-08-30 |
# Dual KanbaFormer: Kolmogorov-Arnold Networks and State Space Model Transformer for Multimodal Aspect-based Sentiment Analysis
DualKanbaFormer: Kolmogorov-Arnold Networks and State Space Model Transformer for Multimodal Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2408.15379v2 ) ライセンス: Link先を確認 | Adamu Lawan, Juhua Pu, Haruna Yunusa, Muhammad Lawan, Aliyu Umar, Adamu Sani Yahya, | (参考訳) マルチモーダルアスペクトベースの感情分析(MABSA)は、テキストと画像のような他のデータ型を組み合わせることで感情検出を強化する。
しかし、重要なベンチマークの設定にもかかわらず、注意機構はテキスト内のアスペクトと意見対象間の長距離依存関係を効率的にモデル化する際の限界を示す。
また、ビジュアル表現のグローバルコンテキスト依存をキャプチャする上でも、課題に直面している。
そこで本稿では,KAN(Kolmogorov-Arnold Networks)とSelective State Space Model(Mamba) Transformer(DualKanbaFormer)を提案する。
我々はMambaの力を利用して、グローバルなコンテキスト依存をキャプチャし、MHA(Multi-head Attention)を使ってローカルなコンテキスト依存をキャプチャし、Kansはテキスト表現(textual KanbaFormer)とビジュアル表現(visual KanbaFormer)の両方の非線形モデリングパターンをキャプチャします。
さらに,テキスト形式のkanbaFormerとビジュアルなkanbaFomerをゲート融合層で融合させて,モーダリティ間のダイナミクスを捉える。
大規模な実験結果によると、我々のモデルは2つの公開データセットに関する最新技術(SOTA)研究より優れています。
Multimodal aspect-based sentiment analysis (MABSA) enhances sentiment detection by combining text with other data types like images. However, despite setting significant benchmarks, attention mechanisms exhibit limitations in efficiently modelling long-range dependencies between aspect and opinion targets within the text. They also face challenges in capturing global-context dependencies for visual representations. To this end, we propose Kolmogorov-Arnold Networks (KANs) and Selective State Space model (Mamba) transformer (DualKanbaFormer), a novel architecture to address the above issues. We leverage the power of Mamba to capture global context dependencies, Multi-head Attention (MHA) to capture local context dependencies, and KANs to capture non-linear modelling patterns for both textual representations (textual KanbaFormer) and visual representations (visual KanbaFormer). Furthermore, we fuse the textual KanbaFormer and visual KanbaFomer with a gated fusion layer to capture the inter-modality dynamics. According to extensive experimental results, our model outperforms some state-of-the-art (SOTA) studies on two public datasets. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# SciLitLLM:科学文献理解のためのLLMの適応方法
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding ( http://arxiv.org/abs/2408.15545v2 ) ライセンス: Link先を確認 | Sihang Li, Jin Huang, Jiaxi Zhuang, Yaorui Shi, Xiaochen Cai, Mingjun Xu, Xiang Wang, Linfeng Zhang, Guolin Ke, Hengxing Cai, | (参考訳) 科学的文献の理解は、対象とする情報を抽出し、洞察を得るために不可欠であり、科学的な発見を著しく前進させる。
LLM(Large Language Models)の顕著な成功にもかかわらず、第一に科学的知識の欠如と、第二に専門的な科学的タスクに精通していないことによる科学文献理解の課題に直面している。
本研究では,科学文献理解に特化したLLMを開発するために,CPT(Continuous Pre-Turning)とSFT(教師付き微調整)を統合したハイブリッド戦略を提案し,科学的ドメイン知識を同時に注入し,ドメイン固有のタスクの指示追従能力を高める。
我々は、PDFテキスト抽出、コンテンツエラー訂正のパース、品質フィルタリング、合成命令生成など、微妙なパイプラインを通じてこれらの課題に対処する。
この戦略を応用して、科学文献理解に特化したLLMのスイートSciLitLLMを提示する。
これらのモデルは科学文献理解ベンチマークにおいて有望な性能を示す。
1) CPT と SFT を統合し,科学文献理解に LLM を適用し,他の領域にも容易に適用可能な効果的なフレームワークを提案する。
2) LLMに基づく多種多様な科学的命令を生成するための合成法を提案し, より表現の少ない科学領域における微調整のための新しい命令セットであるSciLitInsを提案する。
(3)SciLitLLMは,学術文献理解ベンチマークにおいて有望な性能向上を実現している。
Scientific literature understanding is crucial for extracting targeted information and garnering insights, thereby significantly advancing scientific discovery. Despite the remarkable success of Large Language Models (LLMs), they face challenges in scientific literature understanding, primarily due to (1) a lack of scientific knowledge and (2) unfamiliarity with specialized scientific tasks. To develop an LLM specialized in scientific literature understanding, we propose a hybrid strategy that integrates continual pre-training (CPT) and supervised fine-tuning (SFT), to simultaneously infuse scientific domain knowledge and enhance instruction-following capabilities for domain-specific tasks.cIn this process, we identify two key challenges: (1) constructing high-quality CPT corpora, and (2) generating diverse SFT instructions. We address these challenges through a meticulous pipeline, including PDF text extraction, parsing content error correction, quality filtering, and synthetic instruction creation. Applying this strategy, we present a suite of LLMs: SciLitLLM, specialized in scientific literature understanding. These models demonstrate promising performance on scientific literature understanding benchmarks. Our contributions are threefold: (1) We present an effective framework that integrates CPT and SFT to adapt LLMs to scientific literature understanding, which can also be easily adapted to other domains. (2) We propose an LLM-based synthesis method to generate diverse and high-quality scientific instructions, resulting in a new instruction set -- SciLitIns -- for supervised fine-tuning in less-represented scientific domains. (3) SciLitLLM achieves promising performance improvements on scientific literature understanding benchmarks. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# クインテッセンス背景における量子トンネルとGUPの役割
Quantum tunneling in a quintessence background and the role of GUP ( http://arxiv.org/abs/2408.15711v2 ) ライセンス: Link先を確認 | Sauvik Sen, | (参考訳) 本稿では、シュワルツシルトブラックホールに関連する質量および質量の量子トンネルの研究を行い、一般化不確実性原理(GUP)から生じる結果について考察した。
クインテッセンスのシナリオでは、圧力とエネルギー密度の比である$w=-1/3$と$w=-2/3$の2つの特定のケースを検討した。
GUPでは、修正シュワルツシルト計量を用い、トンネル振幅を計算するために一意に輪郭積分を用いた。
それぞれの温度分布の解析および比較研究を行った。
In this paper we studied quantum tunneling of massless and massive particles pertaining to a Schwarzschild black hole in a quintessence background, and explored the consequences emerging from a generalized uncertainty principle (GUP). For the quintessence scenario, we considered two specific cases of $w$, which is the ratio of the pressure and energy density, namely $w=-1/3$ and $w=-2/3$. For the GUP, we used a modified Schwarzschild metric and employed a unique choice of contour integration to compute the tunneling amplitudes. An analysis and comparative study of the respective temperature profiles have been made. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# 農業環境におけるループ検出の課題
Addressing the challenges of loop detection in agricultural environments ( http://arxiv.org/abs/2408.15761v2 ) ライセンス: Link先を確認 | Nicolás Soncini, Javier Civera, Taihú Pire, | (参考訳) 視覚的SLAMシステムは屋内や都市環境においてよく研究されているが、自然、屋外、オープンフィールド環境は調査があまり行われておらず、研究上の課題がまだ残っている。
ビジュアルナビゲーションとローカルマッピングは、オープンフィールド環境では比較的良いパフォーマンスを示している。
しかし、グローバルな一貫したマッピングと長期のローカライゼーションは、ループ検出と閉包の堅牢性に依存しており、文献は乏しい。
本研究では, 局所的特徴探索と立体幾何学的改善に基づくオープンフィールド, 特に農業環境におけるロバストループ検出への道のりを, 相対的ポーズ推定の最終段階とともに舗装する手法を提案する。
提案手法は, 中央値15cmの誤差で, 常に良好なループ検出を実現する。
オープンフィールドをループ検出のための新しい環境として特徴付け,それを扱う際の限界や問題を理解することを目的としている。
While visual SLAM systems are well studied and achieve impressive results in indoor and urban settings, natural, outdoor and open-field environments are much less explored and still present relevant research challenges. Visual navigation and local mapping have shown a relatively good performance in open-field environments. However, globally consistent mapping and long-term localization still depend on the robustness of loop detection and closure, for which the literature is scarce. In this work we propose a novel method to pave the way towards robust loop detection in open fields, particularly in agricultural settings, based on local feature search and stereo geometric refinement, with a final stage of relative pose estimation. Our method consistently achieves good loop detections, with a median error of 15cm. We aim to characterize open fields as a novel environment for loop detection, understanding the limitations and problems that arise when dealing with them. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# 外乱スコアのロバストな統計的スケーリング:外乱確率の改善(拡張版)
Robust Statistical Scaling of Outlier Scores: Improving the Quality of Outlier Probabilities for Outliers (Extended Version) ( http://arxiv.org/abs/2408.15874v2 ) ライセンス: Link先を確認 | Philipp Röchner, Henrique O. Marques, Ricardo J. G. B. Campello, Arthur Zimek, Franz Rothlauf, | (参考訳) 外乱検出アルゴリズムは通常、データセット内の各観測値に外乱スコアを割り当て、観測値が外乱値である度合いを示す。
しかしながら、これらのスコアはアルゴリズム間で比較されないことが多く、人間が解釈するのは困難である。
統計的スケーリングは、外接点スコアを接地トラスラベルを使わずに外接点確率に変換することでこの問題に対処し、アルゴリズム間の解釈性とコンパビリティを向上させる。
しかし、この変換の質は、外れ値と入値に対して異なる可能性がある。
医療、金融、エンジニアリングなど、特に関心のあるシナリオでは、アウトリーチを欠くのは、コストがかかるか、危険な場合があります。
したがって、外れ値の良好な確率を確保することが不可欠である。
本論文は, 統計的スケーリングは, 文献でよく用いられるように, 外れ値に対して等しく良い確率を生じるものではないことを論じる。
そこで我々は, 頑健な統計的スケーリングを提案し, 頑健な推定器を用いて, 外れ値の確率を向上する。
実世界のデータセットと外乱検出アルゴリズムに対する他の外乱スコア変換に対して,本手法のいくつかの変種を評価し,外乱スコアの確率を向上する。
Outlier detection algorithms typically assign an outlier score to each observation in a dataset, indicating the degree to which an observation is an outlier. However, these scores are often not comparable across algorithms and can be difficult for humans to interpret. Statistical scaling addresses this problem by transforming outlier scores into outlier probabilities without using ground-truth labels, thereby improving interpretability and comparability across algorithms. However, the quality of this transformation can be different for outliers and inliers. Missing outliers in scenarios where they are of particular interest - such as healthcare, finance, or engineering - can be costly or dangerous. Thus, ensuring good probabilities for outliers is essential. This paper argues that statistical scaling, as commonly used in the literature, does not produce equally good probabilities for outliers as for inliers. Therefore, we propose robust statistical scaling, which uses robust estimators to improve the probabilities for outliers. We evaluate several variants of our method against other outlier score transformations for real-world datasets and outlier detection algorithms, where it can improve the probabilities for outliers. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# 量子エンタングルメントとココレート
Quantum Entanglement and Chocolates ( http://arxiv.org/abs/2408.16024v2 ) ライセンス: Link先を確認 | Biao Wu, | (参考訳) チョコレートの2つの統計的アンサンブルは、スピン一重項状態とGHZ状態の2つの量子絡み合い状態を模倣するために構成される。
確率分布と相関の点で最も近い類似性を達成するための大きな努力にもかかわらず、微妙な違いは残る。
この違いは、量子絡み合いと古典的相関を区別する基本的な特徴を明らかにし、示す。
Two statistical ensembles of chocolates are constructed to mimic two quantum entangled states, the spin singlet state and the GHZ state. Despite great efforts to achieve the closest possible resemblance in terms of probability distribution and correlation, subtle differences remain. The differences reveal and illustrate a fundamental characteristic that distinguishes quantum entanglement from classical correlation. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# 機械学習を用いた女性非喫煙者におけるステージIII非小細胞肺癌の予後マーカーの同定
Identification of Prognostic Biomarkers for Stage III Non-Small Cell Lung Carcinoma in Female Nonsmokers Using Machine Learning ( http://arxiv.org/abs/2408.16068v2 ) ライセンス: Link先を確認 | Huili Zheng, Qimin Zhang, Yiru Gong, Zheyan Liu, Shaohan Chen, | (参考訳) 非小細胞肺癌(NSCLC)は最も一般的な亜型である。
本研究は, GDS3837データセットからの遺伝子発現プロファイリングを用いて, 喫煙女性におけるステージIII NSCLCに関連する重要なバイオマーカーを同定することを目的とした。
機械学習アルゴリズムであるXGBoostを用いて、AUCスコア0.835で強力な予測性能を達成した。
CCAATエンハンサー結合タンパク質α(C/EBP-alpha)、乳酸脱水素酵素A4(LDHA)、UNC-45ミオシンシャペロンB(UNC-45B)、チェックポイントキナーゼ1(CHK1)、低酸素誘導因子1サブユニットα(HIF-1-alpha)が肺がんと深く関連していることが文献で確認されている。
これらの知見は、早期診断とパーソナライズされた治療のためのバイオマーカーの可能性を強調し、がん研究における機械学習と分子プロファイリングを統合することの価値を強調した。
Lung cancer remains a leading cause of cancer-related deaths globally, with non-small cell lung cancer (NSCLC) being the most common subtype. This study aimed to identify key biomarkers associated with stage III NSCLC in non-smoking females using gene expression profiling from the GDS3837 dataset. Utilizing XGBoost, a machine learning algorithm, the analysis achieved a strong predictive performance with an AUC score of 0.835. The top biomarkers identified - CCAAT enhancer binding protein alpha (C/EBP-alpha), lactate dehydrogenase A4 (LDHA), UNC-45 myosin chaperone B (UNC-45B), checkpoint kinase 1 (CHK1), and hypoxia-inducible factor 1 subunit alpha (HIF-1-alpha) - have been validated in the literature as being significantly linked to lung cancer. These findings highlight the potential of these biomarkers for early diagnosis and personalized therapy, emphasizing the value of integrating machine learning with molecular profiling in cancer research. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# 大規模言語モデルを用いた自動ライブラリマイグレーション:最初の結果
Automatic Library Migration Using Large Language Models: First Results ( http://arxiv.org/abs/2408.16151v2 ) ライセンス: Link先を確認 | Aylton Almeida, Laerte Xavier, Marco Tulio Valente, | (参考訳) わずか数年前に導入されたが、Large Language Models (LLMs) はすでに開発者がコード生成に広く使用している。
しかしながら、他のソフトウェアエンジニアリング活動の自動化における彼らの応用は、まだほとんど未検討である。
そこで本研究では,ChatGPTを用いたAPIマイグレーションタスクのサポートについて検討している研究の最初の成果を報告する。
具体的には、我々は、ChatGPTを使用してクライアントアプリケーションを移行して、Pythonで広く使われているORM(Object Relational Mapping)ライブラリであるSQLAlchemyの新バージョンを使用するという、最初の結果を共有します。
我々は,3種類のプロンプト(ゼロショット,ワンショット,チェーン・オブ・シント)の使用を評価し,最も優れた結果がワンショットプロンプトによって達成され,その後にチェーン・オブ・シント(Chain Of Thoughts)が続くことを示す。
特にOne-Shotプロンプトを使えば、元のコード動作を保ちながら、ターゲットアプリケーションのすべての列を移行して、SQLAlchemyの最新バージョンで有効になった新機能(Pythonのasyncioや型付けモジュールなど)を使用するようにコードをアップグレードすることができました。
Despite being introduced only a few years ago, Large Language Models (LLMs) are already widely used by developers for code generation. However, their application in automating other Software Engineering activities remains largely unexplored. Thus, in this paper, we report the first results of a study in which we are exploring the use of ChatGPT to support API migration tasks, an important problem that demands manual effort and attention from developers. Specifically, in the paper, we share our initial results involving the use of ChatGPT to migrate a client application to use a newer version of SQLAlchemy, an ORM (Object Relational Mapping) library widely used in Python. We evaluate the use of three types of prompts (Zero-Shot, One-Shot, and Chain Of Thoughts) and show that the best results are achieved by the One-Shot prompt, followed by the Chain Of Thoughts. Particularly, with the One-Shot prompt we were able to successfully migrate all columns of our target application and upgrade its code to use new functionalities enabled by SQLAlchemy's latest version, such as Python's asyncio and typing modules, while preserving the original code behavior. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# LLaVA-SG:視覚言語モデルにおける視覚意味表現としてのシーングラフの活用
LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models ( http://arxiv.org/abs/2408.16224v2 ) ライセンス: Link先を確認 | Jingyi Wang, Jianzhong Ju, Jian Luan, Zhidong Deng, | (参考訳) 大規模視覚言語モデル(VLM)の最近の進歩は、視覚変換器(ViT)アーキテクチャに基づく視覚エンコーダが一般的である。
ViTによる画像のパッチへの分割は、断片化された知覚をもたらすため、VLMの視覚的理解能力を妨げる。
本稿では,VLMにSGE(Scene Graph Expression)モジュールを導入することで,この制限に対処する革新的な拡張を提案する。
このモジュールは、画像内の複雑な意味情報を抽出し、構造的に表現することにより、VLMの基本認識と理解能力を向上させる。
我々のSGEモジュールの統合は、視覚言語タスクにおけるVLMの性能を大幅に向上させ、複雑なセマンティックな詳細を保存し、視覚的理解を促進する効果を示す。
Recent advances in large vision-language models (VLMs) typically employ vision encoders based on the Vision Transformer (ViT) architecture. The division of the images into patches by ViT results in a fragmented perception, thereby hindering the visual understanding capabilities of VLMs. In this paper, we propose an innovative enhancement to address this limitation by introducing a Scene Graph Expression (SGE) module in VLMs. This module extracts and structurally expresses the complex semantic information within images, thereby improving the foundational perception and understanding abilities of VLMs. Extensive experiments demonstrate that integrating our SGE module significantly enhances the VLM's performance in vision-language tasks, indicating its effectiveness in preserving intricate semantic details and facilitating better visual understanding. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# PanoGaborによる360度深度推定の再検討
Revisiting 360 Depth Estimation with PanoGabor: A New Fusion Perspective ( http://arxiv.org/abs/2408.16227v2 ) ライセンス: Link先を確認 | Zhijie Shen, Chunyu Lin, Lang Nie, Kang Liao, | (参考訳) 単眼360度画像からの深度推定は3次元環境全体の知覚に重要である。
しかし、360度画像の固有の歪みと視野(FoV)は、この課題に大きな課題をもたらす。
この目的のために、既存の主流のソリューションは通常、効果的な特徴抽出を達成するために、パースペクティブベースの360表現(\textit{e g }, Cubemap)を導入します。
それでも、導入された表現によらず、後続の深さ推定のために等方射影(ERP)形式に統一する必要があるため、必然的に厄介な歪みが再導入される。
本稿では,これらの課題に対処する指向性歪みを考慮したGabor Fusionフレームワーク(PGFuse)を提案する。
まず,周波数領域のテクスチャを分析するGaborフィルタを導入する。
再帰的歪みに対処するため、線形緯度対応の歪み表現法を設計し、カスタマイズされた歪み対応ガボルフィルタ(PanoGabor filters)を生成する。
さらに,提案したPanoGaborフィルタを統合して,他の表現をERPフォーマットに統合し,有効かつ歪みのない機能を実現する,チャネルワイドかつ空間ワイドな一方向融合モジュール(CS-UFM)を設計する。
ガボル変換の配向感度を考慮すると、この感度を安定させるために球面勾配制約を導入する。
3つの室内360度ベンチマーク実験の結果、提案したPGFuseが既存の最先端ソリューションよりも優れていることが示された。
コードは受理時に利用できる。
Depth estimation from a monocular 360 image is important to the perception of the entire 3D environment. However, the inherent distortion and large field of view (FoV) in 360 images pose great challenges for this task. To this end, existing mainstream solutions typically introduce additional perspective-based 360 representations (\textit{e.g.}, Cubemap) to achieve effective feature extraction. Nevertheless, regardless of the introduced representations, they eventually need to be unified into the equirectangular projection (ERP) format for the subsequent depth estimation, which inevitably reintroduces the troublesome distortions. In this work, we propose an oriented distortion-aware Gabor Fusion framework (PGFuse) to address the above challenges. First, we introduce Gabor filters that analyze texture in the frequency domain, thereby extending the receptive fields and enhancing depth cues. To address the reintroduced distortions, we design a linear latitude-aware distortion representation method to generate customized, distortion-aware Gabor filters (PanoGabor filters). Furthermore, we design a channel-wise and spatial-wise unidirectional fusion module (CS-UFM) that integrates the proposed PanoGabor filters to unify other representations into the ERP format, delivering effective and distortion-free features. Considering the orientation sensitivity of the Gabor transform, we introduce a spherical gradient constraint to stabilize this sensitivity. Experimental results on three popular indoor 360 benchmarks demonstrate the superiority of the proposed PGFuse to existing state-of-the-art solutions. Code can be available upon acceptance. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# 分子基底状態エネルギーに対するマルチ参照UCCSD変分量子アルゴリズム
Multi-Reference UCCSD Variational Quantum Algorithm for Molecular Ground State Energies ( http://arxiv.org/abs/2408.16523v2 ) ライセンス: Link先を確認 | Di Wu, C. L. Bai, H. Sagawa, H. Q. Zhang, | (参考訳) 我々は、LH、BeH$_2$、H$_6$の基底状態エネルギーを研究するために、粒子数を保存する量子回路を用いて、Multi-Reference Unitary Coupled Cluster Singles and Doubles(MR-UCCSD)モデルを実装した。
このアプローチは、量子コンピューティング技術を統合することでMR-UCCSD計算を単純化し、その複雑さを低減する。
MR-UCCSDアプローチは,より優れたMR状態の利益として,単一参照UCCSDアプローチの最大精度である10$^{-5}=Hartree以下の既定誤差を系統的に満たし,計算精度と量子リソース削減の要件を満たす。
We implement the Multi-Reference Unitary Coupled Cluster Singles and Doubles (MR-UCCSD) model with a quantum circuit that conserves the particle number to study the ground state energies of LiH, BeH$_2$, and H$_6$. This approach simplifies the MR-UCCSD computation by integrating quantum computing techniques, and reduces its complexity. As a profit of the better MR states, our MR-UCCSD approach satisfies systematically the predefined errors below 10$^{-5}$ Hartree,which is the highest precision of single reference UCCSD approach, along the whole bond length with only hundreds of CNOT gates, and meets satisfactory the requirements of both computational precision and quantum resource reduction. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# ARINC 429 ハードウェア・イン・ザ・ループシミュレータにおけるサイバー脆弱性と電圧データ
ARINC 429 Cyber-vulnerabilities and Voltage Data in a Hardware-in-the-Loop Simulator ( http://arxiv.org/abs/2408.16714v2 ) ライセンス: Link先を確認 | Connor Trask, Steve Movit, Justace Clutter, Rosene Clark, Mark Herrera, Kelly Tran, | (参考訳) ARINC 429は民間のアビオニクスのためのユビキタスデータバスであり、異なるメーカーからデバイス間の信頼性の高い通信を可能にする。
しかし、ARINC 429は暗号化や認証に欠けており、本質的に安全でない通信プロトコルであり、様々な攻撃に対して脆弱な接続されたアビオニクスをレンダリングする。
ARINC 429バスを用いたハードウェア・イン・ザ・ループシミュレータを構築し、これらの脆弱性を調査し、航空機の能力を否定し、劣化させ、破壊する可能性を特定した。
市販ツールを用いたARINC 429バスによる多機能ディスプレイに対するサービス拒否攻撃を行い,重要なナビゲーション支援を無効化できた。
物理的アビオニクスに対するこの証明された攻撃は、ARINC 429に固有のリスクと、これらの攻撃を検出する能力の必要性を示している。
潜在的な緩和の1つは、物理的バスの電気的特性から収集されたデータに基づいて訓練された侵入検知システム(IDS)である。
以前の研究では、ARINC 429バス上でのIDSの実現可能性を示しているが、アビオニクスハードウェアによって生成されたデータに基づいてIDSをトレーニングすることはない。
これを容易にするため、ARINC 429バス上でアビオニクスと対向装置によって発生する電圧トレースとメッセージ履歴を記録した。
我々の知る限りでは、これがハードウェアが生成したARINC 429信号データの最初の公開コレクションである。
ARINC 429 is a ubiquitous data bus for civil avionics, enabling reliable communication between devices from disparate manufacturers. However, ARINC 429 lacks any form of encryption or authentication, making it an inherently insecure communication protocol and rendering any connected avionics vulnerable to a range of attacks. We constructed a hardware-in-the-loop simulator with ARINC 429 buses, explored these vulnerabilities, and identified their potential to deny, degrade, or disrupt aircraft capabilities. We performed a denial-of-service attack against a multi-function display via a compromised ARINC 429 bus using commercially available tools, which succeeded in disabling important navigational aids. This proven attack on physical avionics illustrates the risk inherent in ARINC 429 and the need for the ability to detect these attacks. One potential mitigation is an intrusion detection system (IDS) trained on data collected from the electrical properties of the physical bus. Although previous research has demonstrated the feasibility of an IDS on an ARINC 429 bus, no IDS has been trained on data generated by avionics hardware. To facilitate this, we recorded voltage traces and message history generated by avionics and adversarial devices on the ARINC 429 bus. To the best of our knowledge, this is the first publicly available collection of hardware-generated ARINC 429 signal data. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# Mini-Omni: ストリーミングを考えている間、言語モデルに耳を傾ける
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming ( http://arxiv.org/abs/2408.16725v2 ) ライセンス: Link先を確認 | Zhifei Xie, Changqiao Wu, | (参考訳) 近年の言語モデルの発展は大きな進歩を遂げている。
GPT-4oは新しいマイルストーンとして、人間とリアルタイムに会話できるようにし、人間に近い自然流布を実証した。
このような人間とコンピュータの相互作用は、音響モダリティと直接推論を行い、ストリーミングで出力を生成する能力を持つモデルを必要とする。
しかし、これは現在の学術モデルの到達範囲を超えており、通常は音声合成のための追加のTSシステムに依存しており、望ましくないレイテンシをもたらす。
本稿では,リアルタイム音声対話が可能な音声対話モデルMini-Omniを紹介する。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能をさらに向上する手法を提案する。
また,本手法は,最小限の劣化を伴って元のモデルの言語能力を保ち,他の作業者がリアルタイムの対話能力を確立するのに役立つ。
我々はこの訓練方法を「Any Model Can Talk」と呼ぶ。
また、音声出力に最適化された微調整モデルにVoiceAssistant-400Kデータセットを導入する。
われわれの知る限り、Mini-Omniは、リアルタイム音声対話のための、エンドツーエンドでオープンソースの最初のモデルであり、将来の研究に価値ある可能性を秘めている。
Recent advances in language models have achieved significant progress. GPT-4o, as a new milestone, has enabled real-time conversations with humans, demonstrating near-human natural fluency. Such human-computer interaction necessitates models with the capability to perform reasoning directly with the audio modality and generate output in streaming. However, this remains beyond the reach of current academic models, as they typically depend on extra TTS systems for speech synthesis, resulting in undesirable latency. This paper introduces the Mini-Omni, an audio-based end-to-end conversational model, capable of real-time speech interaction. To achieve this capability, we propose a text-instructed speech generation method, along with batch-parallel strategies during inference to further boost the performance. Our method also helps to retain the original model's language capabilities with minimal degradation, enabling other works to establish real-time interaction capabilities. We call this training method "Any Model Can Talk". We also introduce the VoiceAssistant-400K dataset to fine-tune models optimized for speech output. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research. | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |
# アウト・オブ・ディストリビューション検出とオープンセット認識:方法とベンチマークの批判的分析
Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks ( http://arxiv.org/abs/2408.16757v2 ) ライセンス: Link先を確認 | Hongjun Wang, Sagar Vaze, Kai Han, | (参考訳) テスト時の分散シフトの検出は、安全にデプロイされた機械学習モデルにとって重要な機能として現れており、近年ではさまざまなガイダンスの下で問題に対処している。
本稿では,コミュニティ内における2つの大きなサブフィールド,アウト・オブ・ディストリビューション(OOD)検出とオープン・セット認識(OSR)の総合的なビューを提供することを目的とする。
特に,異なる手法の厳密な実験分析と,実践者や研究者に実用的なテイクアウトを提供することを目標にしている。
具体的には、以下の貢献をします。
i) OOD検出における最先端手法とOSR設定の厳密な相互評価を行い,その手法の性能の強い相関関係を同定する。
(II) OOD検出とOSRによる問題に対処し, 最先端のOOD検出とOSR手法を再評価する, より大規模なベンチマーク設定を提案する。
3) 標準ベンチマーク(アウトレーラ露光)における最高のパフォーマンス手法は、スケールでテストする場合に苦労する一方で、深い特徴量に敏感なルールのスコアリングは、常に有望である、という驚くべき結果が得られます。
(4)これらの現象を説明するための実証分析を行い、今後の研究の方向性を明らかにする。
コード:https://github.com/Visual-AI/Dissect-OOD-OSR
Detecting test-time distribution shift has emerged as a key capability for safely deployed machine learning models, with the question being tackled under various guises in recent years. In this paper, we aim to provide a consolidated view of the two largest sub-fields within the community: out-of-distribution (OOD) detection and open-set recognition (OSR). In particular, we aim to provide rigorous empirical analysis of different methods across settings and provide actionable takeaways for practitioners and researchers. Concretely, we make the following contributions: (i) We perform rigorous cross-evaluation between state-of-the-art methods in the OOD detection and OSR settings and identify a strong correlation between the performances of methods for them; (ii) We propose a new, large-scale benchmark setting which we suggest better disentangles the problem tackled by OOD detection and OSR, re-evaluating state-of-the-art OOD detection and OSR methods in this setting; (iii) We surprisingly find that the best performing method on standard benchmarks (Outlier Exposure) struggles when tested at scale, while scoring rules which are sensitive to the deep feature magnitude consistently show promise; and (iv) We conduct empirical analysis to explain these phenomena and highlight directions for future research. Code: https://github.com/Visual-AI/Dissect-OOD-OSR | 翻訳日:2024-09-02 10:49:44 公開日:2024-08-30 |