このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240625となっている論文です。

PDF登録状況(公開日: 20240625)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習に基づく学生の学業成績分析のための教育ビッグデータに関する研究

Research on Education Big Data for Students Academic Performance Analysis based on Machine Learning ( http://arxiv.org/abs/2407.16907v1 )

ライセンス: Link先を確認
Chun Wang, Jiexiao Chen, Ziyang Xie, Jianke Zou, (参考訳) 教育分野におけるインターネットの利用はますます普及し、その過程で大量の教育データが生成されるようになっている。 これらのデータを効果的に活用する方法は、教育データマイニングの分野で常に重要な問題となっている。 本研究では,Long Short-Term Memory Network(LSTM)に基づく機械学習モデルを用いて,教育用ビッグデータの詳細な分析を行い,学生のパフォーマンスを評価する。 LSTMモデルは時系列データを効率的に処理し、学生の学習活動における時間依存的・長期的傾向を捉えることができる。 このアプローチは、生徒の進歩、エンゲージメント、その他の行動パターンを分析してパーソナライズされた教育を支援するのに特に有用である。 実験により,異なるモデルの性能を比較することで,学生の成績を予測するためのディープラーニング手法の有効性を検証した。 厳密なクロスバリデーション技術は、実験結果の精度と一般化を保証するために用いられる。

The application of the Internet in the field of education is becoming more and more popular, and a large amount of educational data is generated in the process. How to effectively use these data has always been a key issue in the field of educational data mining. In this work, a machine learning model based on Long Short-Term Memory Network (LSTM) was used to conduct an in-depth analysis of educational big data to evaluate student performance. The LSTM model efficiently processes time series data, allowing us to capture time-dependent and long-term trends in students' learning activities. This approach is particularly useful for analyzing student progress, engagement, and other behavioral patterns to support personalized education. In an experimental analysis, we verified the effectiveness of the deep learning method in predicting student performance by comparing the performance of different models. Strict cross-validation techniques are used to ensure the accuracy and generalization of experimental results.
翻訳日:2024-07-28 18:19:29 公開日:2024-06-25
# LLMを用いたマルチパーソン・ヒューマン・アクティビティ認識に向けて

Towards LLM-Powered Ambient Sensor Based Multi-Person Human Activity Recognition ( http://arxiv.org/abs/2407.09529v1 )

ライセンス: Link先を確認
Xi Chen, Julien Cumin, Fano Ramparany, Dominique Vaufreydaz, (参考訳) HAR(Human Activity Recognition)は、在宅医療、高齢者介護、ホームセキュリティなどの分野における中心的な問題の一つである。 しかし、従来のHARアプローチでは、データの不足、モデルの一般化の困難、マルチパーソンシナリオにおけるアクティビティ認識の複雑さといった課題に直面している。 本稿では,大規模言語モデルに基づくLAHARというシステムフレームワークを提案する。 LAHARは、素早いエンジニアリング技術を活用することで、マルチパーソンシナリオにおけるHARに対処する。 我々はARASデータセットに対するアプローチを検証するとともに,LAHARが高解像度で最先端手法に匹敵する精度を達成し,マルチパーソンシナリオにおけるロバスト性を維持することを実証した。

Human Activity Recognition (HAR) is one of the central problems in fields such as healthcare, elderly care, and security at home. However, traditional HAR approaches face challenges including data scarcity, difficulties in model generalization, and the complexity of recognizing activities in multi-person scenarios. This paper proposes a system framework called LAHAR, based on large language models. Utilizing prompt engineering techniques, LAHAR addresses HAR in multi-person scenarios by enabling subject separation and action-level descriptions of events occurring in the environment. We validated our approach on the ARAS dataset, and the results demonstrate that LAHAR achieves comparable accuracy to the state-of-the-art method at higher resolutions and maintains robustness in multi-person scenarios.
翻訳日:2024-07-22 13:18:53 公開日:2024-06-25
# RFAConvとトリプルト注意に基づく自律走行画像検出の最適化

Optimization of Autonomous Driving Image Detection Based on RFAConv and Triplet Attention ( http://arxiv.org/abs/2407.09530v1 )

ライセンス: Link先を確認
Zhipeng Ling, Qi Xin, Yiyu Lin, Guangze Su, Zuwei Shui, (参考訳) YOLOv8は、高速な目標検出、正確な識別と位置決め、複数のプラットフォーム間の多目的互換性など、自動運転の領域において重要な役割を担っている。 YOLOv8は、ビデオストリームや画像をリアルタイムで処理することによって、道路上の車両や歩行者などの障害物を迅速かつ正確に識別し、自動運転システムに不可欠な視覚データを提供する。 さらに、YOLOv8は、インスタンスセグメンテーション、画像分類、姿勢推定などの様々なタスクをサポートし、これにより、自律運転のための包括的な視覚的認識を提供し、究極的には運転安全性と効率を向上させる。 本稿では, 自律走行シナリオにおける物体検出の重要性と既存手法が直面する課題を認識し, YOLOv8モデルを強化するための総合的アプローチを提案する。 この研究はC2f_RFAConvモジュールとTriplet Attentionメカニズムという2つの重要な修正点を紹介した。 まず,提案手法を方法論的セクションで詳述する。 C2f_RFAConvモジュールは機能の抽出効率を高めるために元のモジュールを置き換える。 その後、実験的な手順はトレーニングと評価のプロセスを明確にし、元のYOLOv8のトレーニング、修正モジュールの統合、メトリクスとPR曲線によるパフォーマンス改善の評価を含む。 その結果,改良型YOLOv8モデルではMAP値の増大やPR曲線の改善など,大幅な性能向上が見られた。 最後に、分析部は結果を解明し、導入したモジュールのパフォーマンス改善を属性とする。 C2f_RFAConvは特徴抽出効率を向上し、Triplet Attentionは目標検出の強化のために特徴焦点を改善した。

YOLOv8 plays a crucial role in the realm of autonomous driving, owing to its high-speed target detection, precise identification and positioning, and versatile compatibility across multiple platforms. By processing video streams or images in real-time, YOLOv8 rapidly and accurately identifies obstacles such as vehicles and pedestrians on roadways, offering essential visual data for autonomous driving systems. Moreover, YOLOv8 supports various tasks including instance segmentation, image classification, and attitude estimation, thereby providing comprehensive visual perception for autonomous driving, ultimately enhancing driving safety and efficiency. Recognizing the significance of object detection in autonomous driving scenarios and the challenges faced by existing methods, this paper proposes a holistic approach to enhance the YOLOv8 model. The study introduces two pivotal modifications: the C2f_RFAConv module and the Triplet Attention mechanism. Firstly, the proposed modifications are elaborated upon in the methodological section. The C2f_RFAConv module replaces the original module to enhance feature extraction efficiency, while the Triplet Attention mechanism enhances feature focus. Subsequently, the experimental procedure delineates the training and evaluation process, encompassing training the original YOLOv8, integrating modified modules, and assessing performance improvements using metrics and PR curves. The results demonstrate the efficacy of the modifications, with the improved YOLOv8 model exhibiting significant performance enhancements, including increased MAP values and improvements in PR curves. Lastly, the analysis section elucidates the results and attributes the performance improvements to the introduced modules. C2f_RFAConv enhances feature extraction efficiency, while Triplet Attention improves feature focus for enhanced target detection.
翻訳日:2024-07-22 13:18:53 公開日:2024-06-25
# 実効的負荷対応マルチパスルーティングプロトコル(ELAMRP)を実装するUAVネットワーク

UAV Networks Surveillance Implementing an Effective Load-Aware Multipath Routing Protocol (ELAMRP) ( http://arxiv.org/abs/2407.09531v1 )

ライセンス: Link先を確認
Raja Vavekanand, Kira Sam, Vijay Singh, (参考訳) この研究では、無人航空機(UAV)を監視のために展開するために、革新的なマルチチャネルロードセンシング技術を用いている。 本研究は,UAVのモビリティと適応性を利用して,データ伝送方式の品質向上と監視システムの信頼性向上を目的として,各チャネルの負荷を考慮したネットワークトラフィックをインテリジェントに分散するプロトコルを提案する。ロードバランシングなどの課題に対処しながら,本研究は,UAVベースの監視システムの改善,セキュリティ,緊急応答,監視の環境アライメントといったアプリケーションのための,よりフレキシブルで効率的なネットワーク,そして,より効率的な監視ソリューションに寄与するインフラストラクチャの確立,といった課題に対処する。

In this work uses innovative multi-channel load-sensing techniques to deploy unmanned aerial vehicles (UAVs) for surveillance. The research aims to improve the quality of data transmission methods and improve the efficiency and reliability of surveillance systems by exploiting the mobility and adaptability of UAVs does the proposed protocol intelligently distribute network traffic across multiple channels, considering the load of each channel, While addressing challenges such as load balancing, this study investigates the effectiveness of the protocol by simulations or practical tests on The expected results have improved UAV-based surveillance systems, more flexible and efficient networks for applications such as security, emergency response and the environment alignment of monitoring -Offering infrastructures, which contribute to efficient and reliable monitoring solutions.
翻訳日:2024-07-22 13:18:53 公開日:2024-06-25
# ビデオ業務モデル

Video Occupancy Models ( http://arxiv.org/abs/2407.09533v1 )

ライセンス: Link先を確認
Manan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine, (参考訳) 我々は、下流制御タスクをサポートするために設計された、新しいビデオ予測モデル群を紹介する。 これらのモデルを Video Occupancy Model (VOC) と呼ぶ。 VOCはコンパクトな潜在空間で動作するため、個々のピクセルについて予測する必要がない。 従来の潜在空間の世界モデルとは異なり、VOCは1ステップで将来の状態のディスカウントを直接予測するので、マルチステップのロールアウトは不要である。 下流制御に使用するビデオの予測モデルを構築する際には,両方の特性が有用であることを示す。 コードは \href{https://github.com/manantomar/video-occupancy-models}{\textt{github.com/manantomar/video-occupancy-models}} で公開されている。

We introduce a new family of video prediction models designed to support downstream control tasks. We call these models Video Occupancy models (VOCs). VOCs operate in a compact latent space, thus avoiding the need to make predictions about individual pixels. Unlike prior latent-space world models, VOCs directly predict the discounted distribution of future states in a single step, thus avoiding the need for multistep roll-outs. We show that both properties are beneficial when building predictive models of video for use in downstream control. Code is available at \href{https://github.com/manantomar/video-occupancy-models}{\texttt{github.com/manantomar/video-occupancy-models}}.
翻訳日:2024-07-22 13:18:53 公開日:2024-06-25
# 長文要約のための離散拡散言語モデル

Discrete Diffusion Language Model for Long Text Summarization ( http://arxiv.org/abs/2407.10998v1 )

ライセンス: Link先を確認
Do Huu Dat, Do Duc Anh, Anh Tuan Luu, Wray Buntine, (参考訳) 拡散モデルは高品質な画像を生成する条件下では優れるが、離散拡散モデルにおける先行的な研究は条件付き長文生成では評価されなかった。 本研究では、特に抽象的な要約のような長いシーケンス・ツー・シーケンスタスクにおいて、条件付き長文生成のための事前離散拡散モデルの限界に対処する。 自己回帰法と比較して高速な復号化速度にもかかわらず、バックボーンアーキテクチャとランダムなノイズ発生過程の不整合のため、従来の拡散モデルは抽象的な要約タスクでは失敗する。 これらの課題を克服するために、Transformerのバックボーンが長いシーケンスを効果的に処理できる新しい意味認識ノーミングプロセスを導入する。 さらに,Mambaモデルのエンコーダ・デコーダパラダイムへの適応であるCrossMambaを提案する。 提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセット上での最先端性能を実現し,ROUGEメトリクス上で既存の離散拡散モデルよりも優れており,自動回帰モデルに比べて推論速度がはるかに速い。

While diffusion models excel at conditional generating high-quality images, prior works in discrete diffusion models were not evaluated on conditional long-text generation. In this work, we address the limitations of prior discrete diffusion models for conditional long-text generation, particularly in long sequence-to-sequence tasks such as abstractive summarization. Despite fast decoding speeds compared to autoregressive methods, previous diffusion models failed on the abstractive summarization task due to the incompatibility between the backbone architectures and the random noising process. To overcome these challenges, we introduce a novel semantic-aware noising process that enables Transformer backbones to handle long sequences effectively. Additionally, we propose CrossMamba, an adaptation of the Mamba model to the encoder-decoder paradigm, which integrates seamlessly with the random absorbing noising process. Our approaches achieve state-of-the-art performance on three benchmark summarization datasets: Gigaword, CNN/DailyMail, and Arxiv, outperforming existing discrete diffusion models on ROUGE metrics as well as possessing much faster speed in inference compared to autoregressive models.
翻訳日:2024-07-22 12:39:32 公開日:2024-06-25
# talEC: 社内基準による特定のドメインの評価をLLMに教える

TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot ( http://arxiv.org/abs/2407.10999v1 )

ライセンス: Link先を確認
Kaiqi Zhang, Shuai Yuan, Honghan Zhao, (参考訳) 大規模言語モデル (LLM) の急速な発展に伴い, LLM の評価はますます重要になっている。 要約や記事作成といったテキスト生成タスクの計測は非常に困難である。 特に、特定のアプリケーションドメイン(例えば、to-businessやto-customerサービス)では、社内評価基準は一般的な基準(正確性、有用性、クリエイティビティなど)だけでなく、顧客のニーズとビジネスのセキュリティ要件を同時に満たさなければならないため、評価がより困難になる。 これまでのところ、ビジネスシナリオにおけるLLMの評価は主に手作業に依存しており、それは高価で時間を要する。 本稿では,ユーザが自身の評価基準を柔軟に設定できるモデルベース評価手法TALECを提案する。 さらに、ゼロショットと少数ショットを組み合わせることで、審査員モデルがより多くの情報に集中できるようにする。 また、複雑な基準をよりよく理解するために、ショットの調整と反復を行うためのプロンプトパラダイムとエンジニアリングアプローチを提案する。 次に、細調整をICLと比較し、細調整をICLに置き換えることが可能であることを確かめる。 TALECは、人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成し、いくつかのタスクにおいて人間間の相関よりも優れています。 コードはhttps://github.com/zlkqz/auto_evalでリリースされる

With the rapid development of large language models (LLM), the evaluation of LLM becomes increasingly important. Measuring text generation tasks such as summarization and article creation is very difficult. Especially in specific application domains (e.g., to-business or to-customer service), in-house evaluation criteria have to meet not only general standards (correctness, helpfulness and creativity, etc.) but also specific needs of customers and business security requirements at the same time, making the evaluation more difficult. So far, the evaluation of LLM in business scenarios has mainly relied on manual, which is expensive and time-consuming. In this paper, we propose a model-based evaluation method: TALEC, which allows users to flexibly set their own evaluation criteria, and uses in-context learning (ICL) to teach judge model these in-house criteria. In addition, we try combining zero-shot and few-shot to make the judge model focus on more information. We also propose a prompt paradigm and an engineering approach to adjust and iterate the shots ,helping judge model to better understand the complex criteria. We then compare fine-tuning with ICL, finding that fine-tuning can be replaced by ICL. TALEC demonstrates a strong capability to accurately reflect human preferences and achieves a correlation of over 80% with human judgments, outperforming even the inter-human correlation in some tasks. The code is released in https://github.com/zlkqz/auto_eval
翻訳日:2024-07-22 12:39:32 公開日:2024-06-25
# 大規模言語モデルにおける自律型プロンプトエンジニアリング

Autonomous Prompt Engineering in Large Language Models ( http://arxiv.org/abs/2407.11000v1 )

ライセンス: Link先を確認
Daan Kepel, Konstantina Valogianni, (参考訳) プロンプトエンジニアリングは、カスタマイズされたタスクで大規模言語モデル(LLM)のパフォーマンスを最適化する上で、非常に難しいタスクである。 この先駆的な研究はAutomatic Prompt Engineering Toolbox (APET)を導入した。 Expert Prompting、Chain of Thoughts、Tree of Thoughtsといった高度な戦略を活用することで、APETはGPT-4にプロンプトを動的に最適化する権限を与え、Word Sorting(4.4%)やGeometric Shapes(6.8%)といったタスクを大幅に改善した。 Checkmate in One (-14.8%)のような複雑なタスクの課題に遭遇したにもかかわらず、これらの発見は、外部データを使用しない複雑なプロンプト最適化プロセスの自動化におけるAPETの変換可能性を示している。 全体として、この研究はAI開発における大きな飛躍であり、自律型AIシステムにおける将来のイノベーションのための堅牢なフレームワークを示し、GPT-4による迅速なエンジニアリング理論を実践する能力を強調している。 複雑なタスクのパフォーマンスを向上させる基盤を確立し、現実のシナリオにおけるこれらのテクニックの実践的応用を拡大する。

Prompt engineering is a crucial yet challenging task for optimizing the performance of large language models (LLMs) on customized tasks. This pioneering research introduces the Automatic Prompt Engineering Toolbox (APET), which enables GPT-4 to autonomously apply prompt engineering techniques. By leveraging sophisticated strategies such as Expert Prompting, Chain of Thought, and Tree of Thoughts, APET empowers GPT-4 to dynamically optimize prompts, resulting in substantial improvements in tasks like Word Sorting (4.4% increase) and Geometric Shapes (6.8% increase). Despite encountering challenges in complex tasks such as Checkmate in One (-14.8%), these findings demonstrate the transformative potential of APET in automating complex prompt optimization processes without the use of external data. Overall, this research represents a significant leap in AI development, presenting a robust framework for future innovations in autonomous AI systems and highlighting the ability of GPT-4 to bring prompt engineering theory to practice. It establishes a foundation for enhancing performance in complex task performance and broadening the practical applications of these techniques in real-world scenarios.
翻訳日:2024-07-22 12:39:32 公開日:2024-06-25
# ジェネレーティブAIシステム:ジェネレーティブAIのシステムベース展望

Generative AI Systems: A Systems-based Perspective on Generative AI ( http://arxiv.org/abs/2407.11001v1 )

ライセンス: Link先を確認
Jakub M. Tomczak, (参考訳) 大規模言語モデル(LLM)は、自然言語を用いた機械との通信を可能にすることで、AIシステムに革命をもたらした。 ビジョンランゲージモデル(GPT-4V)やジェミニのようなジェネレーティブAI(GenAI)の最近の進歩は、LLMをマルチモーダルシステムとして使うことに大きな期待を示している。 この新しい研究の成果は、ジェネレーティブAIシステム(略してGenAISys)の構築であり、マルチモーダルな処理とコンテンツ作成、そして意思決定を可能にする。 GenAISysは自然言語を通信手段として使用し、様々なデータソースを処理するためのI/Oインタフェースとしてモダリティエンコーダを使用する。 データベースや外部ツールも備えており、情報検索とストレージのためのモジュールを通じてシステムと通信する。 本稿では、GenAISys(構成性、信頼性、妥当性)を設計し、構築し、訓練し、システムベースの観点から何が学べるかなど、ジェネレーティブAIシステムにおける新たな研究方向性を探求し、述べることを目的とする。 GenAIシステムの内部動作に関するオープンな質問に答えるためには、学際的なアプローチが必要である。

Large Language Models (LLMs) have revolutionized AI systems by enabling communication with machines using natural language. Recent developments in Generative AI (GenAI) like Vision-Language Models (GPT-4V) and Gemini have shown great promise in using LLMs as multimodal systems. This new research line results in building Generative AI systems, GenAISys for short, that are capable of multimodal processing and content creation, as well as decision-making. GenAISys use natural language as a communication means and modality encoders as I/O interfaces for processing various data sources. They are also equipped with databases and external specialized tools, communicating with the system through a module for information retrieval and storage. This paper aims to explore and state new research directions in Generative AI Systems, including how to design GenAISys (compositionality, reliability, verifiability), build and train them, and what can be learned from the system-based perspective. Cross-disciplinary approaches are needed to answer open questions about the inner workings of GenAI systems.
翻訳日:2024-07-22 12:39:32 公開日:2024-06-25
# MoESD:ジェンダーバイアスを緩和する専門家の拡散を安定させる

MoESD: Mixture of Experts Stable Diffusion to Mitigate Gender Bias ( http://arxiv.org/abs/2407.11002v1 )

ライセンス: Link先を確認
Guorun Wang, Lucia Specia, (参考訳) テキスト・ツー・イメージのモデルは、社会的偏見を伝播させることで知られている。 例えば、特定の職業の人々のイメージを生成するように促された場合、これらのモデルは、特定の性別や民族を体系的に生成する傾向がある。 本稿では,このバイアスがモデルのテキストエンコーダに存在することを示し,テキストエンコーダの潜在空間におけるバイアスを特定し,バイアス識別ゲートを作成することで,Mixture-of-Expertsアプローチを導入する。 具体的には,BiAs (Bias Adapters) を用いたMoESD (Mixture of Experts Stable Diffusion) を提案する。 また、緩和プロセスにおいて特別なトークンが不可欠であることを示す。 性別バイアスに着目した実験により, 画像品質を維持しながら, 性別バイアスを緩和できることが実証された。

Text-to-image models are known to propagate social biases. For example when prompted to generate images of people in certain professions, these models tend to systematically generate specific genders or ethnicity. In this paper, we show that this bias is already present in the text encoder of the model and introduce a Mixture-of-Experts approach by identifying text-encoded bias in the latent space and then creating a bias-identification gate. More specifically, we propose MoESD (Mixture of Experts Stable Diffusion) with BiAs (Bias Adapters) to mitigate gender bias. We also demonstrate that a special token is essential during the mitigation process. With experiments focusing on gender bias, we demonstrate that our approach successfully mitigates gender bias while maintaining image quality.
翻訳日:2024-07-22 12:39:32 公開日:2024-06-25
# 公共交通システムにおける大規模言語モデルの利用 : サンアントニオを事例として

Using Large Language Models in Public Transit Systems, San Antonio as a case study ( http://arxiv.org/abs/2407.11003v1 )

ライセンス: Link先を確認
Ramya Jonnala, Gongbo Liang, Jeong Yang, Izzat Alsmadi, (参考訳) 大規模言語モデルの公共交通システムへの統合は、都市交通管理と乗客体験の大幅な進歩を示している。 本研究では,サンアントニオの公共交通システムにおけるLLMの影響について検討し,自然言語処理,データ解析,リアルタイム通信の能力を活用して検討した。 GTFSやその他の公共交通機関の情報を活用することにより、ルート計画の強化、待ち時間短縮、パーソナライズされた旅行支援の提供におけるLLMの変革の可能性を強調した。 ケーススタディは, LLMが資源配分を最適化し, 乗客満足度を高め, 交通管理における意思決定プロセスを支援することを目的としたプロジェクトの一環として, サンアントニオ市を対象としている。 情報検索と理解に関する質問に対するLSM応答の評価を行った。 最終的に、公共交通機関におけるLCMの採用は、より効率的で、応答性があり、ユーザフレンドリーな交通ネットワークへとつながり、他の都市が従うためのモデルとなると信じています。

The integration of large language models into public transit systems represents a significant advancement in urban transportation management and passenger experience. This study examines the impact of LLMs within San Antonio's public transit system, leveraging their capabilities in natural language processing, data analysis, and real time communication. By utilizing GTFS and other public transportation information, the research highlights the transformative potential of LLMs in enhancing route planning, reducing wait times, and providing personalized travel assistance. Our case study is the city of San Antonio as part of a project aiming to demonstrate how LLMs can optimize resource allocation, improve passenger satisfaction, and support decision making processes in transit management. We evaluated LLM responses to questions related to both information retrieval and also understanding. Ultimately, we believe that the adoption of LLMs in public transit systems can lead to more efficient, responsive, and user-friendly transportation networks, providing a model for other cities to follow.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-25
# ALCHEmist: LLMデータアノテーションより500倍CHEaperの自動ラベル

The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators ( http://arxiv.org/abs/2407.11004v1 )

ライセンス: Link先を確認
Tzu-Heng Huang, Catherine Cao, Vaishnavi Bhargava, Frederic Sala, (参考訳) 大きな事前訓練されたモデルは、アノテータとして使用することができ、クラウドワーカーを置き換えたり拡張したりし、より小さなスペシャリストモデルにジェネラリストモデルを蒸留することができる。 最上位モデルを採用する場合、APIコールに数千ドルを支払わなければならない場合が多いが、結果として得られたデータセットは静的で、監査が難しい。 これらの課題に対処するために、我々は、事前訓練されたモデルからラベルを直接クエリする代わりに、ラベルを生成可能なプログラムを生成するようにモデルをタスクする、簡単な方法を提案する。 これらのプログラムは、ローカルに保存、適用、再使用、拡張、コストの桁違いの削減が可能である。 我々のシステムであるAlchemistは、コストのごく一部のタスクにおいて、大きな言語モデルベースのアノテーションに匹敵するパフォーマンスを得る。平均すると、改善は12.9%向上し、全データセットのラベリングコストはおよそ500倍削減される。

Large pretrained models can be used as annotators, helping replace or augment crowdworkers and enabling distilling generalist models into smaller specialist models. Unfortunately, this comes at a cost: employing top-of-the-line models often requires paying thousands of dollars for API calls, while the resulting datasets are static and challenging to audit. To address these challenges, we propose a simple alternative: rather than directly querying labels from pretrained models, we task models to generate programs that can produce labels. These programs can be stored and applied locally, re-used and extended, and cost orders of magnitude less. Our system, Alchemist, obtains comparable to or better performance than large language model-based annotation in a range of tasks for a fraction of the cost: on average, improvements amount to a 12.9% enhancement while the total labeling costs across all datasets are reduced by a factor of approximately 500x.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-25
# RAGBench: 検索拡張システムのための説明可能なベンチマーク

RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems ( http://arxiv.org/abs/2407.11005v1 )

ライセンス: Link先を確認
Robert Friel, Masha Belyi, Atindriyo Sanyal, (参考訳) Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) を利用したユーザ向けチャットアプリケーションにドメイン固有の知識を組み込むための標準アーキテクチャパターンとなっている。 RAGシステムは,(1)入力クエリに関連するコンテキスト情報に対してドメイン固有のコーパスを問合せする文書検索器と,(2)提供されたクエリとコンテキストに基づいて応答を生成するLCMとを特徴とする。 しかし、統一評価基準と注釈付きデータセットが欠如しているため、RAGシステムの総合評価は依然として課題である。 RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。 業界固有の5つのドメインと様々なRAGタスクタイプをカバーしている。 RAGBenchの例は、ユーザマニュアルのような業界のコーパスから派生したもので、特に業界アプリケーションに関係している。 さらに、TRACe評価フレームワークを、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットとして定式化する。 ラベル付きデータセットはhttps://huggingface.co/datasets/rungalileo/ragbench.orgで公開しています。 RAGBenchの説明可能なラベルは、RAGシステムの全体的な評価を促進し、プロダクションアプリケーションの継続的な改善のために実行可能なフィードバックを可能にする。 徹底的なベンチマークにより, LLMに基づくRAG評価手法は, RAG評価タスクにおいて, 微調整されたRoBERTaモデルとの競合に苦慮していることがわかった。 我々は既存のアプローチが不足している地域を特定し、RAG評価システムの進歩に向けたTRACeによるRAGBenchの導入を提案する。

Retrieval-Augmented Generation (RAG) has become a standard architectural pattern for incorporating domain-specific knowledge into user-facing chat applications powered by Large Language Models (LLMs). RAG systems are characterized by (1) a document retriever that queries a domain-specific corpus for context information relevant to an input query, and (2) an LLM that generates a response based on the provided query and context. However, comprehensive evaluation of RAG systems remains a challenge due to the lack of unified evaluation criteria and annotated datasets. In response, we introduce RAGBench: the first comprehensive, large-scale RAG benchmark dataset of 100k examples. It covers five unique industry-specific domains and various RAG task types. RAGBench examples are sourced from industry corpora such as user manuals, making it particularly relevant for industry applications. Further, we formalize the TRACe evaluation framework: a set of explainable and actionable RAG evaluation metrics applicable across all RAG domains. We release the labeled dataset at https://huggingface.co/datasets/rungalileo/ragbench. RAGBench explainable labels facilitate holistic evaluation of RAG systems, enabling actionable feedback for continuous improvement of production applications. Thorough extensive benchmarking, we find that LLM-based RAG evaluation methods struggle to compete with a finetuned RoBERTa model on the RAG evaluation task. We identify areas where existing approaches fall short and propose the adoption of RAGBench with TRACe towards advancing the state of RAG evaluation systems.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-25
# どのくらい良いのか?基礎的大規模言語モデルにおける共通対ドメイン特化プロンプトの有効性の評価

How Good Is It? Evaluating the Efficacy of Common versus Domain-Specific Prompts on Foundational Large Language Models ( http://arxiv.org/abs/2407.11006v1 )

ライセンス: Link先を確認
Oluyemi Enoch Amujo, Shanchieh Jay Yang, (参考訳) 近年,大規模言語モデル (LLM) は様々な領域に拡張されている。 しかし、ドメイン固有のクエリと比較して、これらのモデルがコモンプレースクエリでトリガーされたときにどのように機能するかを評価する必要がある。 本研究では,LLM(特にGemma-2BとGemma-7B)を,一般的な知識クエリと比較して,サイバーセキュリティ,医療,ファイナンスなどさまざまな領域にわたって評価する。 本研究では, 基礎モデルの評価, 問題定式化, データ解析, 新規な外乱検出技術の開発を包含する包括的方法論を用いた。 本手法は,提案した評価フレームワークの信頼性を高める。 本研究は, 推定時間, 応答長, スループット, 品質, 資源利用量について検討し, これらの要因間の相関について検討した。 その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。 さらに、様々な種類のクエリを含む一般的なプロンプトは、不規則な間隔で多種多様な一貫性のない応答を生成する。 対照的に、ドメイン固有のプロンプトは、合理的な時間内に簡潔な応答を一貫して生成する。 本研究は、マルチドメインAI研究におけるベンチマーク手順の信頼性を高めるための総合的な評価フレームワークの必要性を強調した。

Recently, large language models (LLMs) have expanded into various domains. However, there remains a need to evaluate how these models perform when prompted with commonplace queries compared to domain-specific queries, which may be useful for benchmarking prior to fine-tuning domain-specific downstream tasks. This study evaluates LLMs, specifically Gemma-2B and Gemma-7B, across diverse domains, including cybersecurity, medicine, and finance, compared to common knowledge queries. This study employs a comprehensive methodology to evaluate foundational models, encompassing problem formulation, data analysis, and the development of novel outlier detection techniques. This methodological rigor enhances the credibility of the presented evaluation frameworks. This study focused on assessing inference time, response length, throughput, quality, and resource utilization and investigated the correlations between these factors. The results indicate that model size and types of prompts used for inference significantly influenced response length and quality. In addition, common prompts, which include various types of queries, generate diverse and inconsistent responses at irregular intervals. In contrast, domain-specific prompts consistently generate concise responses within a reasonable time. Overall, this study underscores the need for comprehensive evaluation frameworks to enhance the reliability of benchmarking procedures in multidomain AI research.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-25
# Panacea:臨床治験検索、要約、設計、採用のための基礎モデル

Panacea: A foundation model for clinical trial search, summarization, design, and recruitment ( http://arxiv.org/abs/2407.11007v1 )

ライセンス: Link先を確認
Jiacheng Lin, Hanwen Xu, Zifeng Wang, Sheng Wang, Jimeng Sun, (参考訳) 臨床試験は、新しい薬物、医療機器、治療の開発において基礎となる。 しかし、しばしば時間がかかり、成功率も低い。 臨床試験設計と患者と臨床の整合性のための大規模言語モデル(LLM)の初期の試みはあったが、これらのモデルはタスク固有であり、多様な臨床試験タスクには適応できない。 この課題に対処するため,Panaceaという名前の臨床試験基礎モデルを提案する。 793,279のトライアル文書と1,113,207のトライアル関連科学論文からなる大規模データセットTrialAlignを収集し,臨床知識を事前学習によりモデルに注入した。 さらに、微調整のための200,866個の命令データを持つTrialInstructをキュレートする。 これらのリソースにより、パナセアは、ユーザ要求に基づいた様々な臨床試験タスクに広く適用できる。 パナセアをTrialPanoramaという,8つの臨床試験タスクをカバーする新しいベンチマークで評価した。 提案手法は, 最先端のジェネリックLLMと医用LLMの7つと比較して, 8つのタスクのうち7つで最善を尽くした。 特に、パナセアは、多面的な会話において、適格基準の設計、武器の研究、結果測定を行う際に、人間の専門家と協力する大きな可能性を示した。 さらに、パナセアは14.42%の改善、41.78%から52.02%の改善を達成し、裁判要約の5つの面で一貫してトップにランクインした。 本研究は, 臨床治験におけるパナセアの有効性を実証し, 臨床基礎モデル開発のためのトレーニングデータ, モデル, ベンチマークなどの総合的な資源を確立し, 臨床治験への道を開く。

Clinical trials are fundamental in developing new drugs, medical devices, and treatments. However, they are often time-consuming and have low success rates. Although there have been initial attempts to create large language models (LLMs) for clinical trial design and patient-trial matching, these models remain task-specific and not adaptable to diverse clinical trial tasks. To address this challenge, we propose a clinical trial foundation model named Panacea, designed to handle multiple tasks, including trial search, trial summarization, trial design, and patient-trial matching. We also assemble a large-scale dataset, named TrialAlign, of 793,279 trial documents and 1,113,207 trial-related scientific papers, to infuse clinical knowledge into the model by pre-training. We further curate TrialInstruct, which has 200,866 of instruction data for fine-tuning. These resources enable Panacea to be widely applicable for a range of clinical trial tasks based on user requirements. We evaluated Panacea on a new benchmark, named TrialPanorama, which covers eight clinical trial tasks. Our method performed the best on seven of the eight tasks compared to six cutting-edge generic or medicine-specific LLMs. Specifically, Panacea showed great potential to collaborate with human experts in crafting the design of eligibility criteria, study arms, and outcome measures, in multi-round conversations. In addition, Panacea achieved 14.42% improvement in patient-trial matching, 41.78% to 52.02% improvement in trial search, and consistently ranked at the top for five aspects of trial summarization. Our approach demonstrates the effectiveness of Panacea in clinical trials and establishes a comprehensive resource, including training data, model, and benchmark, for developing clinical trial foundation models, paving the path for AI-based clinical trial development.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-25
# 図の解法--字幕科学図へのテキスト参照を用いた

Figuring out Figures: Using Textual References to Caption Scientific Figures ( http://arxiv.org/abs/2407.11008v1 )

ライセンス: Link先を確認
Stanley Cao, Kevin Liu, (参考訳) 図は、科学論文の中で複雑なアイデアを密に伝達するのに必須のチャネルである。 フィギュアキャプションを自動生成する以前の作業は、ほとんど失敗し、既定では、最先端のパフォーマンスを達成できない単一層LSTMを使用するようになった。 我々の研究では、Hsuらによって計算されたSciCapデータセットを使用し、CLIP+GPT-2エンコーダデコーダモデルの変種を用いて、画像上に条件付きキャプションを生成する。 さらに、タイトル、抽象、テキスト内参照など、図に関連する元の論文のテキストメタデータを組み込んだ、新しいデータセットのMetaSciCapを作成することで、トレーニングパイプラインを強化しています。 我々は、SciBERTを使ってテキストメタデータをエンコードし、フィギュア埋め込みと一緒にこのエンコーディングを使用する。 異なるモデルを用いて実験したところ,CLIP+GPT-2モデルでは,図形に加えてSciBERTエンコーダからすべてのテキストメタデータを受信するのに対して,テキストメタデータのみを使用するSciBERT+GPT2モデルを用いることで最適な性能が得られることがわかった。

Figures are essential channels for densely communicating complex ideas in scientific papers. Previous work in automatically generating figure captions has been largely unsuccessful and has defaulted to using single-layer LSTMs, which no longer achieve state-of-the-art performance. In our work, we use the SciCap datasets curated by Hsu et al. and use a variant of a CLIP+GPT-2 encoder-decoder model with cross-attention to generate captions conditioned on the image. Furthermore, we augment our training pipeline by creating a new dataset MetaSciCap that incorporates textual metadata from the original paper relevant to the figure, such as the title, abstract, and in-text references. We use SciBERT to encode the textual metadata and use this encoding alongside the figure embedding. In our experimentation with different models, we found that the CLIP+GPT-2 model performs better when it receives all textual metadata from the SciBERT encoder in addition to the figure, but employing a SciBERT+GPT2 model that uses only the textual metadata achieved optimal performance.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-25
# Chared: 大規模言語モデルのための文字単位のアンサンブルデコーディング

CharED: Character-wise Ensemble Decoding for Large Language Models ( http://arxiv.org/abs/2407.11009v1 )

ライセンス: Link先を確認
Kevin Gu, Eva Tuecke, Dmitriy Katz, Raya Horesh, David Alvarez-Melis, Mikhail Yurochkin, (参考訳) 大規模言語モデル(LLM)は、論理的推論から数学的能力まで、領域を計測するベンチマークにおいて、ますます印象的なパフォーマンスを達成している。 モデルを組み立てることによって、さまざまなドメインの能力がさらに向上する。 しかし、浅い融合のような推論時にモデルを組み合わせる従来の手法では、共有語彙やトークン化が必要であり、ドメイン固有のパフォーマンスのための微調整のような代替手段は、時間的・計算的に高価である。 そこで本研究では,複数の LLM から出力を「出力する」ことを目的とした推論時アンサンブルアルゴリズムを提案する。 文字ワイドアンサンブル復号法であるCharedは、個々のモデルに対して各文字の限界分布を見つけ、重み付き平均を行い、文字単位で出力を生成する。 コーディング, 数学, 毒性のベンチマークでは, 語彙, トークン化, モデルサイズに関わらず, 複数のLLMの補足的強度を組み合わせられるモデルが提案されている。

Large language models (LLMs) have shown remarkable potential for problem solving, with open source models achieving increasingly impressive performance on benchmarks measuring areas from logical reasoning to mathematical ability. Ensembling models can further improve capabilities across a variety of domains. However, conventional methods of combining models at inference time such as shallow fusion necessitate a shared vocabulary and tokenization, and alternatives like fine-tuning for domain-specific performance are both time consuming and computationally expensive. We therefore present an inference-time ensembling algorithm aimed at "averaging" outputs from multiple LLMs and illustrate its improved performance across multiple domains compared to its constituent models alone. Character-wise ensemble decoding, CharED, finds the marginal distribution of each character for an individual model and performs a weighted average to generate an output, character by character. In coding, math, and toxicity benchmarks, we find our proposed model able to combine complimentary strengths of multiple LLMs, regardless of vocabulary, tokenization, or model size.
翻訳日:2024-07-22 12:29:47 公開日:2024-06-25
# 自然発生物語の転写から特定言語障害(SLI)検出パイプライン

Specific language impairment (SLI) detection pipeline from transcriptions of spontaneous narratives ( http://arxiv.org/abs/2407.12012v1 )

ライセンス: Link先を確認
Santiago Arena, Antonio Quintero-Rincón, (参考訳) 特定の言語障害(SLI)はコミュニケーションに影響を及ぼし、理解と表現の両方に影響を及ぼす疾患である。 本研究は,1063回のインタビューから得られた自発物語の書き起こしを用いて,子どものSLIを効果的に検出することに焦点を当てた。 3段階のカスケードパイプラインが提案された。 第1段階では、ランダムフォレスト(RF)とスピアマン相関法を用いて特徴抽出とデータ次元の縮小を行う。 第2段階では、第1段階から最も予測可能な変数をロジスティック回帰を用いて推定し、最終段階において、近隣の分類器を用いて自然発生物語の書き起こしから子どものSLIを検出する。 その結果、SLIの同定において97.13%の精度が示され、応答の長さ、発話の質、言語の複雑さといった側面が強調された。 自然言語処理を基盤としたこの新しいアプローチは、複雑な主観的変数を回避し、子どものパフォーマンスに直接関連する定量的指標に焦点を当てることで、SLI検出の分野に大きなメリットをもたらす。

Specific Language Impairment (SLI) is a disorder that affects communication and can affect both comprehension and expression. This study focuses on effectively detecting SLI in children using transcripts of spontaneous narratives from 1063 interviews. A three-stage cascading pipeline was proposed f. In the first stage, feature extraction and dimensionality reduction of the data are performed using the Random Forest (RF) and Spearman correlation methods. In the second stage, the most predictive variables from the first stage are estimated using logistic regression, which is used in the last stage to detect SLI in children from transcripts of spontaneous narratives using a nearest neighbor classifier. The results revealed an accuracy of 97.13% in identifying SLI, highlighting aspects such as the length of the responses, the quality of their utterances, and the complexity of the language. This new approach, framed in natural language processing, offers significant benefits to the field of SLI detection by avoiding complex subjective variables and focusing on quantitative metrics directly related to the child's performance.
翻訳日:2024-07-22 11:30:12 公開日:2024-06-25
# Dark Transformer: 暗黒でのアクション認識のためのビデオトランス

Dark Transformer: A Video Transformer for Action Recognition in the Dark ( http://arxiv.org/abs/2407.12805v1 )

ライセンス: Link先を確認
Anwaar Ulhaq, (参考訳) 悪照明条件下での人間の行動を認識することは、コンピュータビジョンにおいて重要な課題であり、視覚監視や夜間運転に広く応用されている。 既存の手法は、アクション認識とダークエンハンスメントに別々に取り組み、ビデオアクション分類のための時空間表現のエンドツーエンド学習の可能性を制限する。 本稿では,低照度環境下での行動認識のためのビデオトランスを用いた新しいアプローチであるDark Transformerを紹介する。 Dark Transformerは、クロスドメイン設定における時空間自己アテンション機構を活用して、クロスドメインアクション認識を強化する。 ビデオトランスフォーマーを拡張してクロスドメイン知識を学習することで、Dark Transformerは、InFAR、XD145、ARIDを含む、ベンチマークアクション認識データセット上で最先端のパフォーマンスを達成する。 提案手法は, 悪条件下での行動認識の課題に対処し, 現実の応用に現実的な意味を持つことを示す。

Recognizing human actions in adverse lighting conditions presents significant challenges in computer vision, with wide-ranging applications in visual surveillance and nighttime driving. Existing methods tackle action recognition and dark enhancement separately, limiting the potential for end-to-end learning of spatiotemporal representations for video action classification. This paper introduces Dark Transformer, a novel video transformer-based approach for action recognition in low-light environments. Dark Transformer leverages spatiotemporal self-attention mechanisms in cross-domain settings to enhance cross-domain action recognition. By extending video transformers to learn cross-domain knowledge, Dark Transformer achieves state-of-the-art performance on benchmark action recognition datasets, including InFAR, XD145, and ARID. The proposed approach demonstrates significant promise in addressing the challenges of action recognition in adverse lighting conditions, offering practical implications for real-world applications.
翻訳日:2024-07-22 08:47:38 公開日:2024-06-25
# 視覚制御型義手

Vision Controlled Sensorized Prosthetic Hand ( http://arxiv.org/abs/2407.12807v1 )

ライセンス: Link先を確認
Md Abdul Baset Sarker, Juan Pablo S. Sola, Aaron Jones, Evan Laing, Ernesto Sola-Thomas, Masudul H. Imtiaz, (参考訳) 本稿では, 自然手の性能, 機能, 外観, 快適性を再現することを目的とした, 視覚対応義手について述べる。 設計目標は、ほとんどトレーニングを必要とせず、ユーザフレンドリーなインターフェースを備えた、アクセス可能な代替手段を作ることだった。 メカニカルハンドはカメラと組み込みプロセッサを使って、これらのタスクの多くを実行します。 インターフェースされた圧力センサは、圧力フィードバックを取得し、オブジェクトを安全に把握するために使用され、加速度計はジェスチャーを検出してオブジェクトを解放するために使用される。 現在のEMGベースの設計とは異なり、プロトタイプの手はパーソナライズされたトレーニングを必要としない。 本論文では,設計の詳細,トレードオフ,結果,および次のイテレーションについて述べる。

This paper presents a sensorized vision-enabled prosthetic hand aimed at replicating a natural hand's performance, functionality, appearance, and comfort. The design goal was to create an accessible substitution with a user-friendly interface requiring little to no training. Our mechanical hand uses a camera and embedded processors to perform most of these tasks. The interfaced pressure sensor is used to get pressure feedback and ensure a safe grasp of the object; an accelerometer is used to detect gestures and release the object. Unlike current EMG-based designs, the prototyped hand does not require personalized training. The details of the design, trade-offs, results, and informing the next iteration are presented in this paper.
翻訳日:2024-07-22 08:47:38 公開日:2024-06-25
# エッジにおけるCNNと視覚変換器の知識蒸留における最適トレードオフに向けて

Towards Optimal Trade-offs in Knowledge Distillation for CNNs and Vision Transformers at the Edge ( http://arxiv.org/abs/2407.12808v1 )

ライセンス: Link先を確認
John Violos, Symeon Papadopoulos, Ioannis Kompatsiaris, (参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)アーキテクチャのための知識蒸留(KD)プロセスの4つの側面について論じる。 まず,CNN と ViT アーキテクチャ間の KD プロセスの比較分析を行い,その性能と効率性を評価しつつ,教師と生徒に異なるアーキテクチャ構成を用いることの有効性と有効性を明らかにする。 第2に,一定のKD持続時間を維持しながら,学生モデルのサイズが精度と推論速度に与える影響について検討する。 第3に,高解像度画像の精度,メモリフットプリント,計算負荷に対する効果を検討する。 最後に、KD後の学生モデルを特定の下流タスクに微調整することで得られる性能改善について検討する。 実験的な評価と分析を通じて、この研究はAI実践者に、エッジデバイス上でのKDプロセスの有効性を最大化するための最適な戦略に関する洞察を提供する。

This paper discusses four facets of the Knowledge Distillation (KD) process for Convolutional Neural Networks (CNNs) and Vision Transformer (ViT) architectures, particularly when executed on edge devices with constrained processing capabilities. First, we conduct a comparative analysis of the KD process between CNNs and ViT architectures, aiming to elucidate the feasibility and efficacy of employing different architectural configurations for the teacher and student, while assessing their performance and efficiency. Second, we explore the impact of varying the size of the student model on accuracy and inference speed, while maintaining a constant KD duration. Third, we examine the effects of employing higher resolution images on the accuracy, memory footprint and computational workload. Last, we examine the performance improvements obtained by fine-tuning the student model after KD to specific downstream tasks. Through empirical evaluations and analyses, this research provides AI practitioners with insights into optimal strategies for maximizing the effectiveness of the KD process on edge devices.
翻訳日:2024-07-22 08:47:38 公開日:2024-06-25
# ARES: 異種AIフィードバックによる強化されたマルチモーダル連鎖推論のための強化強化学習と改良されたファインチューニング

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback ( http://arxiv.org/abs/2407.00087v1 )

ライセンス: Link先を確認
Ju-Seung Byun, Jiyun Chun, Jihyung Kil, Andrew Perrault, (参考訳) 大規模マルチモーダルモデル(LMM)は、人間の指示を理解するのに優れ、幅広いタスクにまたがる顕著な結果を示す。 Reinforcement Learning from Human Feedback (RLHF) と AI Feedback (RLAIF) はLLMをさらに洗練し、特定の好みに合わせる。 これらの方法は、主に世代ごとのランキングベースのフィードバックを使用する。 GPT-4やClaude 3 Opusといった高度なAIモデル(Teacher)によって、私たちは、人間が提供するのに高価なさまざまな種類の詳細なフィードバックを要求することができます。 本稿では,Reinforcement Learning (RL) と Supervised Fine-Tuning (SFT) を代替する2段階アルゴリズム ARES を提案する。 第一に,我々は教師に,各文が問題の解決にどの程度貢献するかを,CoT(Chain-of-Thought)で評価するよう依頼する。 この文レベルのフィードバックにより、個々の価値セグメントを考慮し、RLプロシージャに対してより詳細な報酬を与えることができる。 第2に、RL後の誤った推論を正すよう教師に依頼する。 RLプロシージャはハイパーパラメータチューニングに多大な努力を必要とし、繰り返し単語や不完全文のようなエラーをしばしば発生させる。 補正フィードバックにより、SFTによるRL微調整モデルを安定化する。 提案手法の有効性を実証するため,マルチモデルデータセットScienceQAとA-OKVQAの実験を行った。 GPT-4oで判定されたベースラインモデルに対して、ARES理性推論は70%の勝利率を達成する。 さらに,改良された理性推論により,マルチモーダルデータセットの平均推定解の精度が2.5%向上することを示した。

Large Multimodal Models (LMMs) excel at comprehending human instructions and demonstrate remarkable results across a broad spectrum of tasks. Reinforcement Learning from Human Feedback (RLHF) and AI Feedback (RLAIF) further refine LLMs by aligning them with specific preferences. These methods primarily use ranking-based feedback for entire generations. With advanced AI models (Teacher), such as GPT-4 and Claude 3 Opus, we can request various types of detailed feedback that are expensive for humans to provide. We propose a two-stage algorithm ARES that Alternates REinforcement Learning (RL) and Supervised Fine-Tuning (SFT). First, we request the Teacher to score how much each sentence contributes to solving the problem in a Chain-of-Thought (CoT). This sentence-level feedback allows us to consider individual valuable segments, providing more granular rewards for the RL procedure. Second, we ask the Teacher to correct the wrong reasoning after the RL stage. The RL procedure requires massive efforts for hyperparameter tuning and often generates errors like repetitive words and incomplete sentences. With the correction feedback, we stabilize the RL fine-tuned model through SFT. We conduct experiments on multi-model dataset ScienceQA and A-OKVQA to demonstrate the effectiveness of our proposal. ARES rationale reasoning achieves around 70% win rate against baseline models judged by GPT-4o. Additionally, we observe that the improved rationale reasoning leads to a 2.5% increase in inference answer accuracy on average for the multi-modal datasets.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-25
# T-MAC: Edge上の低ビットLLMデプロイメントのためのテーブルルックアップによるCPUルネサンス

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge ( http://arxiv.org/abs/2407.00088v1 )

ライセンス: Link先を確認
Jianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang, (参考訳) エッジデバイスへのLLM(Large Language Models)の展開は、デバイス上のインテリジェンスを強化する上でますます重要になっている。 軽量量子化は、デバイス上のLCMのメモリフットプリントを削減するために重要である。 しかし、低ビットLLMは、低精度重みの混合精度行列乗法(mpGEMM)と推論時の高精度アクティベーションを必要とする。 mpGEMMをネイティブにサポートしていない既存のシステムは、高精度な計算のために重みを定量化する。 このような間接的な方法は、大きな推論オーバーヘッドにつながる可能性がある。 本稿では,CPU上での低ビットLSM(すなわち重み量子化LSM)の推論を効率的に行うために設計した,革新的なルックアップテーブル(LUT)であるT-MACを紹介する。 T-MACは不等化せずにmpGEMMを直接サポートし、同時に乗算を排除し、必要な加算を減らす。 具体的には、T-MACは従来のデータ型中心乗算をビットワイズテーブルルックアップに変換し、統一的でスケーラブルなmpGEMMソリューションを可能にする。 LUTベースのカーネルは、ウェイトビット幅に線形にスケールする。 低ビットのLlamaとBitNetモデルで評価されたT-MACは、llama.cppに比べてスループットが最大4倍に向上し、エネルギー消費が70%減少することを示した。 BitNet-b1.58-3Bでは、T-MACはシングルコアで30トークン/秒、M2-Ultraで71トークン/秒、Raspberry Pi 5のようなローエンドデバイスで11トークン/秒のトークン生成スループットを提供する。 LUTベースの計算パラダイムを持つT-MACは、計算効率を損なうことなく、リソース制約のあるエッジデバイスに低ビットのLLMを実用的に展開する道を開く。 このシステムはhttps://github.com/microsoft/T-MACで公開されている。

The deployment of Large Language Models (LLMs) on edge devices is increasingly important to enhance on-device intelligence. Weight quantization is crucial for reducing the memory footprint of LLMs on devices. However, low-bit LLMs necessitate mixed precision matrix multiplication (mpGEMM) of low precision weights and high precision activations during inference. Existing systems, lacking native support for mpGEMM, resort to dequantize weights for high precision computation. Such an indirect way can lead to a significant inference overhead. In this paper, we introduce T-MAC, an innovative lookup table(LUT)-based method designed for efficient low-bit LLM (i.e., weight-quantized LLM) inference on CPUs. T-MAC directly supports mpGEMM without dequantization, while simultaneously eliminating multiplications and reducing additions required. Specifically, T-MAC transforms the traditional data-type-centric multiplication to bit-wise table lookup, and enables a unified and scalable mpGEMM solution. Our LUT-based kernels scale linearly to the weight bit-width. Evaluated on low-bit Llama and BitNet models, T-MAC demonstrates up to 4x increase in throughput and 70% reduction in energy consumption compared to llama.cpp. For BitNet-b1.58-3B, T-MAC delivers a token generation throughput of 30 tokens/s with a single core and 71 tokens/s with eight cores on M2-Ultra, and 11 tokens/s on lower-end devices like Raspberry Pi 5, which significantly exceeds the adult average reading speed. T-MAC with LUT-based computing paradigm, paves the way for the practical deployment of low-bit LLMs on resource-constrained edge devices without compromising computational efficiency. The system is open-sourced at https://github.com/microsoft/T-MAC.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-25
# Airbnbでマップのランク付けを学ぶ

Learning to Rank for Maps at Airbnb ( http://arxiv.org/abs/2407.00091v1 )

ライセンス: Link先を確認
Malay Haldar, Hongwei Zhang, Kedar Bellare, Sherry Chen, Soumyadip Banerjee, Xiaotang Wang, Mustafa Abdool, Huiji Gao, Pavan Tapadia, Liwei He, Sanjeev Katariya, (参考訳) 両面のマーケットプレースとして、Airbnbは、世界中の見込み客とレンタルのリスティングを所有するホストを集めている。 1)一覧画像、価格、レーティング、その他の詳細を含む長方形のカードのリストとして、リスト-results(リスト-results)、(2)マップ-results(地図-results)と呼ばれる、リストの価格を示す地図上の楕円形のピンとして表示される。 これら2つのインターフェースは、開始以来、予約確率でリストを注文し、表示のための上位リストを選択するのと同じランキングアルゴリズムを使用してきた。 しかし、検索結果がリストとして表示される世界のために構築された、ランキングの基礎となるいくつかの前提は、単に地図を分解するだけである。 本稿では,ユーザが検索結果とどのように相互作用するかの数学的基礎を改訂することにより,地図のランキングを再構築する方法について述べる。 反復的で実験駆動のアプローチは、ねじれと曲がりくねった経路に導いてくれました。 私たちの旅は、機械学習アルゴリズムを設計する際の当然の仮定が、すべてのユーザインターフェースに等しく適用されないこと、そしてそれらをどのように適応できるかを示しています。 この影響は、実験的な検証のシリーズとして議論したAirbnbのユーザエクスペリエンスにおける最大の改善のひとつでした。

As a two-sided marketplace, Airbnb brings together hosts who own listings for rent with prospective guests from around the globe. Results from a guest's search for listings are displayed primarily through two interfaces: (1) as a list of rectangular cards that contain on them the listing image, price, rating, and other details, referred to as list-results (2) as oval pins on a map showing the listing price, called map-results. Both these interfaces, since their inception, have used the same ranking algorithm that orders listings by their booking probabilities and selects the top listings for display. But some of the basic assumptions underlying ranking, built for a world where search results are presented as lists, simply break down for maps. This paper describes how we rebuilt ranking for maps by revising the mathematical foundations of how users interact with search results. Our iterative and experiment-driven approach led us through a path full of twists and turns, ending in a unified theory for the two interfaces. Our journey shows how assumptions taken for granted when designing machine learning algorithms may not apply equally across all user interfaces, and how they can be adapted. The net impact was one of the largest improvements in user experience for Airbnb which we discuss as a series of experimental validations.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-25
# MoE-CT:大規模言語モデルのための新しいアプローチ

MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting ( http://arxiv.org/abs/2407.00875v1 )

ライセンス: Link先を確認
Tianhao Li, Shangjie Li, Binbin Xie, Deyi Xiong, Baosong Yang, (参考訳) 大規模言語モデル(LLM)の出現は、主に高リソース言語に影響を及ぼし、低リソース言語のパフォーマンスの相違を残している。 従来型継続訓練(CT)は、このギャップを埋めるために、モデルが多言語的文脈に拡張する際の本来の言語能力を損なうことが多い。 この問題に対処するために,多言語拡張プロセスからベースモデルの学習を革新的に分離するパラダイムである,新しいMoE-CTアーキテクチャを導入する。 我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。 提案手法は従来のCT法よりも優れており,本実験で実証されたように,モデルの本来の言語性能を犠牲にすることなく,多言語ベンチマークの改善が顕著に示された。 さらに, このMoE-CTフレームワークは, 忘れることに対する耐性が向上し, 伝達学習能力に優れることを示した。 本手法は,基本モデルの整合性を保ち,戦略的パラメータ拡張に注力することにより,多言語言語モデリングを推進し,LLMに低リソース言語を組み込むための重要な一歩であり,将来の言語技術研究の方向性を示すものである。

The advent of large language models (LLMs) has predominantly catered to high-resource languages, leaving a disparity in performance for low-resource languages. Conventional Continual Training (CT) approaches to bridge this gap often undermine a model's original linguistic proficiency when expanding to multilingual contexts. Addressing this issue, we introduce a novel MoE-CT architecture, a paradigm that innovatively separates the base model's learning from the multilingual expansion process. Our design freezes the original LLM parameters, thus safeguarding its performance in high-resource languages, while an appended MoE module, trained on diverse language datasets, augments low-resource language proficiency. Our approach significantly outperforms conventional CT methods, as evidenced by our experiments, which show marked improvements in multilingual benchmarks without sacrificing the model's original language performance. Moreover, our MoE-CT framework demonstrates enhanced resistance to forgetting and superior transfer learning capabilities. By preserving the base model's integrity and focusing on strategic parameter expansion, our methodology advances multilingual language modeling and represents a significant step forward for low-resource language inclusion in LLMs, indicating a fruitful direction for future research in language technologies.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-25
# バランス-ペア-アフィニティ特徴変換

The Balanced-Pairwise-Affinities Feature Transform ( http://arxiv.org/abs/2407.01467v1 )

ライセンス: Link先を確認
Daniel Shalam, Simon Korman, (参考訳) Balanced-Pairwise-Affinities (BPA) 機能変換は、入力項目のセットの機能をアップグレードして、下流のマッチングや関連するタスクのグループ化を容易にするように設計されている。 変換された集合は、入力特徴間の高次関係のリッチな表現を符号化する。 エントロピー正則化バージョンを最適輸送(OT)最適化によって近似できる特定のミンコスト-マックス-フロー分数マッチング問題(英語版)は、効率的、微分可能、同変、パラメータレス、確率論的に解釈可能な変換をもたらす。 Sinkhorn OTソルバは、多くの文脈で広く適用されていますが、機能セットから$itself$までのコストを最小化し、トランスポートプランの$rows$を新しい表現として使用することで、異なる方法で使用しています。 経験的には、この変換はその使用において非常に効果的で柔軟性があり、様々なタスクやトレーニングスキームにおいて挿入されるネットワークを継続的に改善する。 画像クラスタリングや人物の再識別などにおいて,最先端の成果を実演する。 コードは \url{github.com/DanielShalam/BPA} で入手できる。

The Balanced-Pairwise-Affinities (BPA) feature transform is designed to upgrade the features of a set of input items to facilitate downstream matching or grouping related tasks. The transformed set encodes a rich representation of high order relations between the input features. A particular min-cost-max-flow fractional matching problem, whose entropy regularized version can be approximated by an optimal transport (OT) optimization, leads to a transform which is efficient, differentiable, equivariant, parameterless and probabilistically interpretable. While the Sinkhorn OT solver has been adapted extensively in many contexts, we use it differently by minimizing the cost between a set of features to $itself$ and using the transport plan's $rows$ as the new representation. Empirically, the transform is highly effective and flexible in its use and consistently improves networks it is inserted into, in a variety of tasks and training schemes. We demonstrate state-of-the-art results in few-shot classification, unsupervised image clustering and person re-identification. Code is available at \url{github.com/DanielShalam/BPA}.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-25
# Fairpriori: ディープニューラルネットワークフェアネスのためのバイアス付きサブグループディスカバリの改善

Fairpriori: Improving Biased Subgroup Discovery for Deep Neural Network Fairness ( http://arxiv.org/abs/2407.01595v1 )

ライセンス: Link先を確認
Kacy Zhou, Jiawen Wen, Nan Yang, Dong Yuan, Qinghua Lu, Huaming Chen, (参考訳) ディープラーニングは、ほとんどのソフトウェアシステムの中核機能モジュールとなっているが、ML予測の公平性に関する懸念が、差別による予測結果に影響を与える重要な問題として浮上している。 部分群のメンバーに不均等に影響を及ぼす断面積バイアスは、この主要な例である。 例えば、機械学習モデルでは、より浅黒い肌の女性に対するバイアスを示すが、より暗い肌や女性に対するバイアスは示さない。 この問題は、現実世界のシナリオでこのようなディープラーニングモデルをデプロイする前に、効果的な公平性テストを要求する。 しかしながら、そのようなバイアスを検出する研究は、現在、個人やグループフェアネスの研究と比較して限られている。 交差バイアスを調査する既存のツールには、複数の公正度メトリクスのサポート、高速で効率的な計算、ユーザフレンドリな解釈など、重要な機能が欠けている。 本稿では,これらの制約に対処する新しいバイアス付きサブグループ探索法であるFairprioriを紹介する。 Fairprioriは、データセットのサブグループ上で高速公正度メートル法計算を作成することにより、交差点バイアスの効率的かつ効率的な調査を容易にするために、頻繁なアイテムセット生成アルゴリズムを組み込んでいる。 同様の条件下での最先端の手法(例えば、Themis、FairFictPlay、TestSGD)と比較して、Fairprioriは交差バイアスを識別する際の優れた効率と効率を示す。 具体的には、Fairprioriは使いやすく、解釈しやすく、複数のフェアネスメトリクスを収容することで幅広いユースケースをサポートし、コンピューティングフェアネスメトリクスの効率を高める。 これらの結果は、Fairprioriが交差点バイアスの影響を効果的に発見する可能性を示し、https://anonymous.4open.science/r/Fairpriori-0320のオープンソースツールが支持している。

While deep learning has become a core functional module of most software systems, concerns regarding the fairness of ML predictions have emerged as a significant issue that affects prediction results due to discrimination. Intersectional bias, which disproportionately affects members of subgroups, is a prime example of this. For instance, a machine learning model might exhibit bias against darker-skinned women, while not showing bias against individuals with darker skin or women. This problem calls for effective fairness testing before the deployment of such deep learning models in real-world scenarios. However, research into detecting such bias is currently limited compared to research on individual and group fairness. Existing tools to investigate intersectional bias lack important features such as support for multiple fairness metrics, fast and efficient computation, and user-friendly interpretation. This paper introduces Fairpriori, a novel biased subgroup discovery method, which aims to address these limitations. Fairpriori incorporates the frequent itemset generation algorithm to facilitate effective and efficient investigation of intersectional bias by producing fast fairness metric calculations on subgroups of a dataset. Through comparison with the state-of-the-art methods (e.g., Themis, FairFictPlay, and TestSGD) under similar conditions, Fairpriori demonstrates superior effectiveness and efficiency when identifying intersectional bias. Specifically, Fairpriori is easier to use and interpret, supports a wider range of use cases by accommodating multiple fairness metrics, and exhibits higher efficiency in computing fairness metrics. These findings showcase Fairpriori's potential for effectively uncovering subgroups affected by intersectional bias, supported by its open-source tooling at https://anonymous.4open.science/r/Fairpriori-0320.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-25
# フェデレーションラーニングによる複数ロボットによる迷路発見

Maze Discovery using Multiple Robots via Federated Learning ( http://arxiv.org/abs/2407.01596v1 )

ライセンス: Link先を確認
Kalpana Ranasinghe, H. P. Madushanka, Rafaela Scaciota, Sumudu Samarakoon, Mehdi Bennis, (参考訳) 本研究は,LiDARセンサ搭載ロボットを用いた迷路発見に応用したフェデレートラーニング(FL)のユースケースを提案する。 ここでのゴールは、不規則な形をした壁で作られた2つの異なる正方形の迷路内の格子領域の形状を正確に識別するための分類モデルを訓練することである。 壁の形状が異なるため、その構造を捉えた1つの迷路で訓練された分類モデルは、他方では一般化しない。 この問題は、1つの迷路のみを探索するロボット間でFLフレームワークを採用することで解決される。 このことは、迷路発見タスクにおける分類精度とロバスト性の向上の観点から、実世界の応用におけるFLの有効性を示す。

This work presents a use case of federated learning (FL) applied to discovering a maze with LiDAR sensors-equipped robots. Goal here is to train classification models to accurately identify the shapes of grid areas within two different square mazes made up with irregular shaped walls. Due to the use of different shapes for the walls, a classification model trained in one maze that captures its structure does not generalize for the other. This issue is resolved by adopting FL framework between the robots that explore only one maze so that the collective knowledge allows them to operate accurately in the unseen maze. This illustrates the effectiveness of FL in real-world applications in terms of enhancing classification accuracy and robustness in maze discovery tasks.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-25
# 混合交通協調車線切替における深部RLアルゴリズムの性能比較

Performance Comparison of Deep RL Algorithms for Mixed Traffic Cooperative Lane-Changing ( http://arxiv.org/abs/2407.02521v1 )

ライセンス: Link先を確認
Xue Yao, Shengren Hou, Serge P. Hoogendoorn, Simeon C. Calvert, (参考訳) 交通環境の複雑なダイナミクスと高い不確実性のため、車線変更(LC)はコネクテッドおよび自動走行車(CAV)にとって困難なシナリオである。 この課題は、深層強化学習(DRL)アプローチによって処理され、データ駆動型でモデルフリーな性質を活用することができる。 筆者らは,TD3に基づく混合交通(CLCMT)機構の協調車線切替を提案し,最適車線切替戦略を提案した。 本研究では,HV(Human-driven Vehicle)の不確かさと,HVとCAVの微視的相互作用を両立させることにより,現在のCLCMT機構を向上する。 DDPG、TD3、SAC、PPOを含む最先端(SOTA)DRLアルゴリズムを用いて、定式化されたMDPを連続的な動作で処理する。 4つのDRLアルゴリズムの性能比較により,DDPG,TD3,PPOアルゴリズムは交通環境の不確実性に対処し,安全性,効率,快適性,エコロジーの観点から優れたLC戦略を学習できることが示された。 PPOアルゴリズムは、より高い報酬、少ない探索ミスとクラッシュ、より快適でエコロジーなLC戦略に関する他の3つのアルゴリズムよりも優れている。 改良によりCLCMT機構はCAVのLC動作計画においてより有利となる。

Lane-changing (LC) is a challenging scenario for connected and automated vehicles (CAVs) because of the complex dynamics and high uncertainty of the traffic environment. This challenge can be handled by deep reinforcement learning (DRL) approaches, leveraging their data-driven and model-free nature. Our previous work proposed a cooperative lane-changing in mixed traffic (CLCMT) mechanism based on TD3 to facilitate an optimal lane-changing strategy. This study enhances the current CLCMT mechanism by considering both the uncertainty of the human-driven vehicles (HVs) and the microscopic interactions between HVs and CAVs. The state-of-the-art (SOTA) DRL algorithms including DDPG, TD3, SAC, and PPO are utilized to deal with the formulated MDP with continuous actions. Performance comparison among the four DRL algorithms demonstrates that DDPG, TD3, and PPO algorithms can deal with uncertainty in traffic environments and learn well-performed LC strategies in terms of safety, efficiency, comfort, and ecology. The PPO algorithm outperforms the other three algorithms, regarding a higher reward, fewer exploration mistakes and crashes, and a more comfortable and ecology LC strategy. The improvements promise CLCMT mechanism greater advantages in the LC motion planning of CAVs.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-25
# Vox-UDA:Voxel-wise Unsupervised Domain Adaptation for Cryo-Electron Subtomogram Segmentation with Denoized Pseudo Labeling (特集:バイオサイバネティックスとバイオサイバネティックス)

Vox-UDA: Voxel-wise Unsupervised Domain Adaptation for Cryo-Electron Subtomogram Segmentation with Denoised Pseudo Labeling ( http://arxiv.org/abs/2406.18610v1 )

ライセンス: Link先を確認
Haoran Li, Xingjian Li, Jiahua Shi, Huaming Chen, Bo Du, Daisuke Kihara, Johan Barthelemy, Jun Shen, Min Xu, (参考訳) クライオ・エレクトロン・トモグラフィー(Cryo-Electron Tomography, Cryo-ET)は、分子構造の研究を容易にする3次元イメージング技術である。 近年のCryo-ET画像におけるボリュームセグメンテーションのアプローチは,生物分野に広く関心を寄せている。 しかし、既存の手法は手動でラベル付けされたデータに大きく依存しており、非常に専門的なスキルを必要とするため、Cryo-ETイメージに完全に教師付きアプローチを採用するのを妨げている。 非教師なし領域適応(UDA)アプローチは、ラベルなしデータを用いてセグメンテーションネットワークの性能を向上させるように設計されている。 しかし、これらの手法をCryo-ET画像のセグメント化タスクに直接適用することは、主な2つの問題により、依然として困難である。 1) 実世界のシナリオから直接収集した対象データには予測不可能なノイズレベルがあるのに対し, シミュレーションにより得られる音源データは, 一定のノイズレベルを含む。 2) トレーニングに使用されるソースデータは一般に既知のマクロ分子から構成されるが,対象のドメインデータはよく分かっていないため,モデルのセグメンタが既知のマクロ分子に偏っているため,ドメインシフト問題が発生する。 これらの課題に対処するため、本研究では、Vox-UDAと呼ばれる、Voxel-wise unsupervised domain adapt approachを導入し、特にCreo-ETサブトモグラムのセグメンテーションについて述べる。 Vox-UDAは、ノイズ生成モジュールを組み込んで、ソースデータセットのターゲットのようなノイズをシミュレートし、クロスノイズレベルを適応させる。 さらに、ドメインシフト問題を軽減するために、改良されたバイラテラルフィルタに基づく擬似ラベル方式を提案する。 シミュレーションおよび実Creo-ETサブトモグラムデータセットによる実験結果から,提案手法が最先端UDA法よりも優れていることを示す。

Cryo-Electron Tomography (cryo-ET) is a 3D imaging technology facilitating the study of macromolecular structures at near-atomic resolution. Recent volumetric segmentation approaches on cryo-ET images have drawn widespread interest in biological sector. However, existing methods heavily rely on manually labeled data, which requires highly professional skills, thereby hindering the adoption of fully-supervised approaches for cryo-ET images. Some unsupervised domain adaptation (UDA) approaches have been designed to enhance the segmentation network performance using unlabeled data. However, applying these methods directly to cryo-ET images segmentation tasks remains challenging due to two main issues: 1) the source data, usually obtained through simulation, contain a certain level of noise, while the target data, directly collected from raw-data from real-world scenario, have unpredictable noise levels. 2) the source data used for training typically consists of known macromoleculars, while the target domain data are often unknown, causing the model's segmenter to be biased towards these known macromolecules, leading to a domain shift problem. To address these challenges, in this work, we introduce the first voxel-wise unsupervised domain adaptation approach, termed Vox-UDA, specifically for cryo-ET subtomogram segmentation. Vox-UDA incorporates a noise generation module to simulate target-like noises in the source dataset for cross-noise level adaptation. Additionally, we propose a denoised pseudo-labeling strategy based on improved Bilateral Filter to alleviate the domain shift problem. Experimental results on both simulated and real cryo-ET subtomogram datasets demonstrate the superiority of our proposed approach compared to state-of-the-art UDA methods.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-25
# シンボリックレグレッションにおける最適スパンニングツリー再構成

Optimal spanning tree reconstruction in symbolic regression ( http://arxiv.org/abs/2406.18612v1 )

ライセンス: Link先を確認
Radoslav G. Neychev, Innokentiy A. Shibaev, Vadim V. Strijov, (参考訳) 本稿では回帰モデル生成の問題について考察する。 モデルは原始関数の重ね合わせである。 モデル構造は、重み付き色グラフによって記述される。 各グラフ頂点は、いくつかの原始関数に対応する。 エッジは2つの関数の重ね合わせを割り当てる。 エッジの重みは重ね合わせの確率と等しい。 最適モデルを生成するには、そのグラフ隣接行列から構造を再構築する必要がある。 提案アルゴリズムは、-重み付き色グラフから-最小スパンニングツリーを再構成する。 本稿では,Steiner 木木アルゴリズムを応用した新しい手法を提案する。 このアルゴリズムは代替のアルゴリズムと比較される。

This paper investigates the problem of regression model generation. A model is a superposition of primitive functions. The model structure is described by a weighted colored graph. Each graph vertex corresponds to some primitive function. An edge assigns a superposition of two functions. The weight of an edge equals the probability of superposition. To generate an optimal model one has to reconstruct its structure from its graph adjacency matrix. The proposed algorithm reconstructs the~minimum spanning tree from the~weighted colored graph. This paper presents a novel solution based on the prize-collecting Steiner tree algorithm. This algorithm is compared with its alternatives.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-25
# 合成作用素による$L^2$におけるリースと正規直交基底の誘導

Inducing Riesz and orthonormal bases in $L^2$ via composition operators ( http://arxiv.org/abs/2406.18613v1 )

ライセンス: Link先を確認
Yahya Saleh, Armin Iske, (参考訳) L^2$ の正規直交基底の摂動を、写像 $h$ によって誘導される合成作用素 $C_h$ を介して調べる。 直交正規あるいはリース基底を形成するために摂動列に必要な写像 $h$ を包括的に特徴づける。 解析を微分可能写像に制限すると、与えられた形式のすべてのリース基底はバイ・リプシッツ写像によって誘導される。 さらに,これらの結果が近似理論にもたらす意味を論じ,より良好な近似特性を持つ完全系列を構成するために,単射ニューラルネットワークを用いることの可能性を強調した。

We investigate perturbations of orthonormal bases of $L^2$ via a composition operator $C_h$ induced by a mapping $h$. We provide a comprehensive characterization of the mapping $h$ required for the perturbed sequence to form an orthonormal or Riesz basis. Restricting our analysis to differentiable mappings, we reveal that all Riesz bases of the given form are induced by bi-Lipschitz mappings. In addition, we discuss implications of these results for approximation theory, highlighting the potential of using bijective neural networks to construct complete sequences with favorable approximation properties.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-25
# ブロック置換による部分順序計画の実行並行性の改善

Improving Execution Concurrency in Partial-Order Plans via Block-Substitution ( http://arxiv.org/abs/2406.18615v1 )

ライセンス: Link先を確認
Sabah Binte Noor, Fazlul Hasan Siddiqui, (参考訳) AI計画における部分順序プランは、実行の柔軟性と、計画の再利用、修正、分解といったいくつかのタスクを促進する。 部分順序計画 (Partial-Order Plan, POP) は2つのアクションを相互に順序付けせずに実現し、異なるシーケンスでのアクション実行の柔軟性を提供する。 この柔軟性は、POP内のアクションの並列実行を可能にして、全体の実行時間を短縮することで、さらに拡張することができる。 計画のデオーダとリオーダによって行動順序を最適化することで、POPの柔軟性を改善するための広範な研究があるが、計画において同時に行動を実行する柔軟性に限定的な焦点が当てられている。 POPにおける実行同時実行は、並列に実行できないアクションを指定するために、アクション非並行性制約を組み込むことによって達成できる。 この研究は、POPを並列計画に変換する非並行制約の条件を定式化する。 また,対応する計画課題に対するサブプランの置換によって資源利用を最適化し,計画の並行性を高めるアルゴリズムも導入する。 本アルゴリズムでは,ブロック内のコヒーレントな動作をカプセル化することにより,POPの順序付けを排除し,置換の候補部分計画としてブロックを利用する。 国際計画コンペティション(IPC)のベンチマーク問題に対する実験では、特に計画の25%が改善され、全体の並行性は2.1%向上した。

Partial-order plans in AI planning facilitate execution flexibility and several other tasks, such as plan reuse, modification, and decomposition, due to their less constrained nature. A Partial-Order Plan (POP) allows two actions with no ordering between them, thus providing the flexibility of executing actions in different sequences. This flexibility can be further extended by enabling parallel execution of actions in a POP to reduce its overall execution time. While extensive studies exist on improving the flexibility of a POP by optimizing its action orderings through plan deordering and reordering, there has been limited focus on the flexibility of executing actions concurrently in a plan. Execution concurrency in a POP can be achieved by incorporating action non-concurrency constraints, specifying which actions can not be executed in parallel. This work formalizes the conditions for non-concurrency constraints to transform a POP into a parallel plan. We also introduce an algorithm to enhance the plan's concurrency by optimizing resource utilization through substitutions of its subplans with respect to the corresponding planning task. Our algorithm employs block deordering that eliminates orderings in a POP by encapsulating coherent actions in blocks, and then exploits blocks as candidate subplans for substitutions. Experiments over the benchmark problems from International Planning Competitions (IPC) exhibit significant improvement in plan concurrency, specifically, with improvement in 25% of the plans, and an overall increase of 2.1% in concurrency.
翻訳日:2024-06-28 18:27:13 公開日:2024-06-25
# 2つの同期リードからの12左心電図の合成に向けて

Towards Synthesizing Twelve-Lead Electrocardiograms from Two Asynchronous Leads ( http://arxiv.org/abs/2103.00006v4 )

ライセンス: Link先を確認
Yong-Yeon Jo, Young Sang Choi, Jong-Hwan Jang, Joon-Myoung Kwon, (参考訳) 心電図(ECG)は、心臓の状態を観察する非侵襲的な方法で電気信号を記録し、通常は12方向から心臓を観察する。 心疾患の診断には12個の心電図を用いて行った。近年,各種のウェアラブルデバイスが,軽快な装置を使わずにECGへの即時アクセスを可能にしている。 ただし、ECGにはいくつかのリードしかありません。 その結果,心疾患の診断に必要となる鉛の不足が原因で不正確な診断がなされた。 本稿では,2つの非同期リードから10リードへのECG合成の深部生成モデルを提案する。 最初は2つのリードを参照する心臓状態を表し、その後、代表される心臓状態に基づいて10個のリードを生成する。 リードのリズムと振幅は、元のリードと似ているが、そのテクニックはノイズを取り除き、ベースラインが元のリードに現れる。 データ拡張手法として,本モデルでは,ECGを用いたモデルと比較して,1つないし2つのリードしか持たないモデルに比べて,分類性能が向上する。

The electrocardiogram (ECG) records electrical signals in a non-invasive way to observe the condition of the heart, typically looking at the heart from 12 different directions. Several types of the cardiac disease are diagnosed by using 12-lead ECGs Recently, various wearable devices have enabled immediate access to the ECG without the use of wieldy equipment. However, they only provide ECGs with a couple of leads. This results in an inaccurate diagnosis of cardiac disease due to lacking of required leads. We propose a deep generative model for ECG synthesis from two asynchronous leads to ten leads. It first represents a heart condition referring to two leads, and then generates ten leads based on the represented heart condition. Both the rhythm and amplitude of leads generated resemble those of the original ones, while the technique removes noise and the baseline wander appearing in the original leads. As a data augmentation method, our model improves the classification performance of models compared with models using ECGs with only one or two leads.
翻訳日:2024-06-27 20:13:23 公開日:2024-06-25
# オンラインキャリブレーションとコンフォーマル予測はベイズ最適化を改善する

Online Calibrated and Conformal Prediction Improves Bayesian Optimization ( http://arxiv.org/abs/2112.04620v5 )

ライセンス: Link先を確認
Shachi Deshpande, Charles Marx, Volodymyr Kuleshov, (参考訳) ベイズ最適化のような逐次モデルに基づく意思決定タスクでは、正確な不確実性推定が重要である。 しかし、これらの推定は、データがモデル(例えばガウス性)の仮定に違反している場合、不完全である。 モデルに基づく意思決定やベイズ最適化において不確実性が必要な研究を行い、不確実性はキャリブレーションの恩恵を受けることができる、すなわち80%の予測区間は真の結果の80%を含むべきであると論じる。 しかし、キャリブレーションの維持は、データが定常的ではなく、我々の行動に依存する場合、困難である。 我々は、オンライン学習に基づく単純なアルゴリズムを用いて、非I.D.データのキャリブレーションを確実に維持することを提案し、これらのアルゴリズムをベイズ最適化に最小限のオーバーヘッドで組み込む方法を示す。 実験により, ベイズ最適化の最適化精度が向上し, 標準ベンチマーク関数やハイパーパラメータ最適化タスクの性能が向上することが実証された。

Accurate uncertainty estimates are important in sequential model-based decision-making tasks such as Bayesian optimization. However, these estimates can be imperfect if the data violates assumptions made by the model (e.g., Gaussianity). This paper studies which uncertainties are needed in model-based decision-making and in Bayesian optimization, and argues that uncertainties can benefit from calibration -- i.e., an 80% predictive interval should contain the true outcome 80% of the time. Maintaining calibration, however, can be challenging when the data is non-stationary and depends on our actions. We propose using simple algorithms based on online learning to provably maintain calibration on non-i.i.d. data, and we show how to integrate these algorithms in Bayesian optimization with minimal overhead. Empirically, we find that calibrated Bayesian optimization converges to better optima in fewer steps, and we demonstrate improved performance on standard benchmark functions and hyperparameter optimization tasks.
翻訳日:2024-06-27 20:13:23 公開日:2024-06-25
# 科学技術におけるジェンダーギャップへの貢献としての書体調査

Investigating writing style as a contributor to gender gaps in science and technology ( http://arxiv.org/abs/2204.13805v3 )

ライセンス: Link先を確認
Kara Kedrick, Ekaterina Levitskaya, Russell J. Funk, (参考訳) 研究の流れの高まりは、科学的貢献が著者の性別によって異なる評価を受けていることを示している。 本稿では, 書記スタイルにおける男女差, 男性と女性のコミュニケーションの仕方, が, 観察された男女差に寄与するかどうかを検討する。 我々は,文章の言語的スタイルを特徴付ける枠組みとして,情報的特徴(事実を強調する特徴)と関係を強調する特徴(関係を強調する特徴)の2つの特徴からなる。 学術論文や特許の多種多様なサンプルを用いて, 性別による書式の違いがみられた。 より関連性の高い論文や特許も女性によって引用される傾向にある。 本研究は, 科学的テキストは人格を欠くものではなく, 評価のバイアスに寄与し, 科学の基本原理としての普遍主義の規範を妥協させることを示唆している。

A growing stream of research finds that scientific contributions are evaluated differently depending on the gender of the author. In this article, we consider whether gender differences in writing styles - how men and women communicate their work - may contribute to these observed gender gaps. We ground our investigation in a framework for characterizing the linguistic style of written text, with two sets of features - informational (i.e., features that emphasize facts) and involved (i.e., features that emphasize relationships). Using a large sample of academic papers and patents, we find significant differences in writing style by gender, with women using more involved features in their writing. Papers and patents with more involved features also tend to be cited more by women. Our findings suggest that scientific text is not devoid of personal character, which could contribute to bias in evaluation, thereby compromising the norm of universalism as a foundational principle of science.
翻訳日:2024-06-27 20:13:23 公開日:2024-06-25
# ウッドベリー恒等式に基づく方程式の線形系解法に関する短期量子アルゴリズム

A near-term quantum algorithm for solving linear systems of equations based on the Woodbury identity ( http://arxiv.org/abs/2205.00645v2 )

ライセンス: Link先を確認
Daniel O'Malley, Jessie M. Henderson, Elijah Pelofske, Sarah Greer, Yigit Subasi, John K. Golden, Robert Lowrie, Stephan Eidenbenz, (参考訳) 方程式の線形系を解くための量子アルゴリズムは、潜在的なスピードアップと多くの応用において線形方程式を解くことの重要性から興奮を引き起こしている。 しかし、これらのアルゴリズムを適用することは困難である。 Harrow-Hassidim-Lloydアルゴリズムとその改良は、ハミルトニアンシミュレーションのようなフォールトトレラントなハードウェアに適した複雑なサブルーチンを必要とするため、現在のハードウェアには不適である。 一方、変分アルゴリズムは高価な最適化ループを伴い、不規則な高原や局所的なオプティマの傾向が強い。 これらの問題を回避する線形方程式系を解くための量子アルゴリズムについて述べる。 このアルゴリズムは、他の(容易に可逆な)行列の低ランクな修正である行列の逆を解析的に記述するウッドベリー恒等式に基づいている。 このアプローチは、Hadamardテストやスワップテストのような基本的な量子サブルーチンのみを使用するため、現在のハードウェアに適している。 最適化ループがないため、バレンプラトーと局所オプティマは問題を示しない。 アイデンティティの低ランクな側面により、量子コンピュータへの情報転送を効率的に行うことができる。 このアプローチは、現在のハードウェア上で正確な結果をもたらすことができる。 このことの証拠として、IBMのオークランド量子コンピュータを用いて、2%の誤差で1600万以上の方程式の系を解いた内部積を推定する。 我々の知る限り、この大きさの方程式の体系は、これまで量子コンピュータ上のこのレベルの精度で解決されてこなかった。

Quantum algorithms for solving linear systems of equations have generated excitement because of the potential speed-ups involved and the importance of solving linear equations in many applications. However, applying these algorithms can be challenging. The Harrow-Hassidim-Lloyd algorithm and improvements thereof require complex subroutines suitable for fault-tolerant hardware such as Hamiltonian simulation, making it ill-suited to current hardware. Variational algorithms, on the other hand, involve expensive optimization loops, which can be prone to barren plateaus and local optima. We describe a quantum algorithm for solving linear systems of equations that avoids these problems. Our algorithm is based on the Woodbury identity, which analytically describes the inverse of a matrix that is a low-rank modification of another (easily-invertible) matrix. This approach only utilizes basic quantum subroutines like the Hadamard test or the swap test, so it is well-suited to current hardware. There is no optimization loop, so barren plateaus and local optima do not present a problem. The low-rank aspect of the identity enables us to efficiently transfer information to and from the quantum computer. This approach can produce accurate results on current hardware. As evidence of this, we estimate an inner product involving the solution of a system of more than 16 million equations with 2% error using IBM's Auckland quantum computer. To our knowledge, no system of equations this large has previously been solved to this level of accuracy on a quantum computer.
翻訳日:2024-06-27 20:13:23 公開日:2024-06-25
# 複雑度ジオメトリーの多項式等価性

Polynomial Equivalence of Complexity Geometries ( http://arxiv.org/abs/2205.04485v3 )

ライセンス: Link先を確認
Adam R. Brown, (参考訳) 本稿では、量子計算複雑性の幅広い定義の多項式同値性を証明する。 我々は Nielsen が提唱した量子複雑性の定義に従って、ユニタリ群上の右不変測度(しばしば 'complexity geometries' と呼ばれる)を研究し、量子回路と同じ計算能力を持つ計量の同値類を列挙する。 この普遍性クラスの中で、1つの計量で到達できる任意のユニタリは、クラス内の任意の他の計量において、許容される誤差におけるクォービットの長さと個数における弱多項式と逆ポリノミカルのスローダウンで近似することができる。 我々は、許容される可能性のある2つの異なる種類のエラーに対する等価クラス、すなわちキルイング距離誤差と演算子ノルム誤差について述べる。 両方の同値類におけるすべての測度は指数的直径を持つことが示され、作用素-ノルム同値類におけるすべての測度もまた、量子複雑性類 BQP の代替的な定義を与える。 私の結果は、2006年にある特定の計量が量子回路と多項式的に等価であることを証明したNielsen et al の拡張である。 Nielsen et al の計量は驚くほど高い曲線である。 この論文で確立された大きく拡大した同値類は、控えめな曲率を持つ指標も含んでいることを示す。 控えめな曲率により、これらの測度は微分幾何学の道具により適しており、したがって、複雑性の低い境界を証明するために微分幾何学を使用するニールセンのプログラムにおいて、より有望な出発点となると私は論じる。

This paper proves the polynomial equivalence of a broad class of definitions of quantum computational complexity. We study right-invariant metrics on the unitary group -- often called `complexity geometries' following the definition of quantum complexity proposed by Nielsen -- and delineate the equivalence class of metrics that have the same computational power as quantum circuits. Within this universality class, any unitary that can be reached in one metric can be approximated in any other metric in the class with a slowdown that is at-worst polynomial in the length and number of qubits and inverse-polynomial in the permitted error. We describe the equivalence classes for two different kinds of error we might tolerate: Killing-distance error, and operator-norm error. All metrics in both equivalence classes are shown to have exponential diameter; all metrics in the operator-norm equivalence class are also shown to give an alternative definition of the quantum complexity class BQP. My results extend those of Nielsen et al., who in 2006 proved that one particular metric is polynomially equivalent to quantum circuits. The Nielsen et al. metric is incredibly highly curved. I show that the greatly enlarged equivalence class established in this paper also includes metrics that have modest curvature. I argue that the modest curvature makes these metrics more amenable to the tools of differential geometry, and therefore makes them more promising starting points for Nielsen's program of using differential geometry to prove complexity lowerbounds.
翻訳日:2024-06-27 20:13:23 公開日:2024-06-25
# CUTS:マルチグラニュラー非教師型医用画像分割のための深層学習とトポロジ的フレームワーク

CUTS: A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation ( http://arxiv.org/abs/2209.11359v7 )

ライセンス: Link先を確認
Chen Liu, Matthew Amodio, Liangbo L. Shen, Feng Gao, Arman Avesta, Sanjay Aneja, Jay C. Wang, Lucian V. Del Priore, Smita Krishnaswamy, (参考訳) 医用画像の分離は、患者の診断と定量的研究を促進するために重要である。 主な制限要因はラベル付きデータの欠如であり、新しい画像データとタスクのセットごとに専門家アノテーションを取得することは、アノテータの間で労働集約的で矛盾する可能性がある。 医用画像セグメンテーションのための教師なしディープラーニングフレームワークCUTSを提案する。 CUTSは2つの段階に分かれている。 各画像に対して、画像内コントラスト学習と局所パッチ再構成による埋め込みマップを生成する。 次に、これらの埋め込みは、データトポロジに対応する動的粒度レベルで分割される。 CUTSは、様々な粒度の特徴をハイライトする粗い粒度のセグメンテーションを連続的に生成する。 我々はCUTSを網膜基底画像と2種類の脳MRI画像に適用し、異なるスケールで構造とパターンを記述した。 事前定義された解剖学的マスクに対して評価すると、CUTSは既存の教師なし手法と比較して、サイス係数とハウスドルフ距離を少なくとも10%改善した。 最後に、CUTSは巨大なラベル付きデータセットで事前トレーニングされたSegment Anything Models(SAM, MedSAM, SAM-Med2D)と同等のパフォーマンスを示した。

Segmenting medical images is critical to facilitating both patient diagnoses and quantitative research. A major limiting factor is the lack of labeled data, as obtaining expert annotations for each new set of imaging data and task can be labor intensive and inconsistent among annotators. We present CUTS, an unsupervised deep learning framework for medical image segmentation. CUTS operates in two stages. For each image, it produces an embedding map via intra-image contrastive learning and local patch reconstruction. Then, these embeddings are partitioned at dynamic granularity levels that correspond to the data topology. CUTS yields a series of coarse-to-fine-grained segmentations that highlight features at various granularities. We applied CUTS to retinal fundus images and two types of brain MRI images to delineate structures and patterns at different scales. When evaluated against predefined anatomical masks, CUTS improved the dice coefficient and Hausdorff distance by at least 10% compared to existing unsupervised methods. Finally, CUTS showed performance on par with Segment Anything Models (SAM, MedSAM, SAM-Med2D) pre-trained on gigantic labeled datasets.
翻訳日:2024-06-27 20:13:23 公開日:2024-06-25
# 組込みシリコン有機系集積型ニューロモルフィックシステム

Embedded Silicon-Organic Integrated Neuromorphic System ( http://arxiv.org/abs/2210.12064v2 )

ライセンス: Link先を確認
Shengjie Zheng, Ling Liu, Junjie Yang, Jianwei Zhang, Tao Su, Bin Yue, Xiaojian Li, (参考訳) 人工知能(AI)とロボティクスの開発はどちらも「科学とテクノロジーは人間指向」の信条に基づいており、どちらも人間の脳との効率的なコミュニケーションを実現する必要がある。 システム神経科学, コンピュータアーキテクチャ, 機能有機材料における多分野の研究に基づいて, ハードウェアにおける脳の動作原理と材料をシミュレートし, 脳にインスパイアされたインテリジェンス技術を開発し, ニューロモルフィックコンピューティング装置と基本材料の作成を実現した。 我々は, 神経回路, 有機神経回路, シリコン神経計算モジュールを構築するために, 神経電子デバイスの基礎材料として, 様々な有機高分子を用いて, 材料と形態の観点でニューロンとニューラルネットワークをシミュレーションした。 シリコンをベースとしたフィールドプログラマブルゲートアレイ(FPGA)のシミュレーションニューロンを,ニューラルネットワークの基本コンポーネントである有機人工ニューロンに集積し,その後,解釈されたニューラルネットワークに基づく生体ニューラルネットワークモデルを構築した。 最後に、これらの有機人工ニューロンに基づいて、神経組織と親和性があり、実際の生物学的ニューラルネットワークの情報と相互作用する神経形デバイスをさらに構築する方法についても論じる。

The development of artificial intelligence (AI) and robotics are both based on the tenet of "science and technology are people-oriented", and both need to achieve efficient communication with the human brain. Based on multi-disciplinary research in systems neuroscience, computer architecture, and functional organic materials, we proposed the concept of using AI to simulate the operating principles and materials of the brain in hardware to develop brain-inspired intelligence technology, and realized the preparation of neuromorphic computing devices and basic materials. We simulated neurons and neural networks in terms of material and morphology, using a variety of organic polymers as the base materials for neuroelectronic devices, for building neural interfaces as well as organic neural devices and silicon neural computational modules. We assemble organic artificial synapses with simulated neurons from silicon-based Field-Programmable Gate Array (FPGA) into organic artificial neurons, the basic components of neural networks, and later construct biological neural network models based on the interpreted neural circuits. Finally, we also discuss how to further build neuromorphic devices based on these organic artificial neurons, which have both a neural interface friendly to nervous tissue and interact with information from real biological neural networks.
翻訳日:2024-06-27 20:13:23 公開日:2024-06-25
# 確率分布の近接性と$k$-wise一様性に対する付帯量子テスター

Succinct quantum testers for closeness and $k$-wise uniformity of probability distributions ( http://arxiv.org/abs/2304.12916v4 )

ライセンス: Link先を確認
Jingquan Luo, Qisheng Wang, Lvzhou Li, (参考訳) 確率分布の近さ特性と$k$-wise均一性をテストする基本的な問題に対する潜在的な量子スピードアップについて検討する。 クローズネステストは、2つの$n$次元分布が同一であるか、少なくとも$\varepsilon$-far in $\ell^1$-または$\ell^2$-distanceのどちらかを区別する問題である。 我々は、$\ell^1$-と$\ell^2$-クロースネステストの量子クエリ複雑性が、それぞれ$O(\sqrt{n}/\varepsilon)$と$O(1/\varepsilon)$であり、どちらも$\varepsilon$への最適依存を達成し、 Gily\en と Li (2020) の以前の最良の結果を改善することを示す。 $k$-wise uniformity testing は、${0, 1\}^n$ 上の分布が任意の$k$座標に制限された場合、またはそのような分布から$\varepsilon$-far を区別する問題である。 質問複雑性$O(\sqrt{n^k}/\varepsilon)$, サンプル複雑性$O(n^k/\varepsilon^2)$, O'Donnell and Zhao (2018) による最先端の古典的アルゴリズムの2次高速化を実現する。 さらに、$k = 2$のとき、量子アルゴリズムは古典的下界の$\Omega(n/\varepsilon^2)$のために古典的よりも優れる。 我々の量子アルゴリズムは、振幅推定のような基本的な量子サブルーチンのみを用いて、かなり単純で時間効率が高い。

We explore potential quantum speedups for the fundamental problem of testing the properties of closeness and $k$-wise uniformity of probability distributions. Closeness testing is the problem of distinguishing whether two $n$-dimensional distributions are identical or at least $\varepsilon$-far in $\ell^1$- or $\ell^2$-distance. We show that the quantum query complexities for $\ell^1$- and $\ell^2$-closeness testing are $O(\sqrt{n}/\varepsilon)$ and $O(1/\varepsilon)$, respectively, both of which achieve optimal dependence on $\varepsilon$, improving the prior best results of Gily\'en and Li (2020). $k$-wise uniformity testing is the problem of distinguishing whether a distribution over $\{0, 1\}^n$ is uniform when restricted to any $k$ coordinates or $\varepsilon$-far from any such distributions. We propose the first quantum algorithm for this problem with query complexity $O(\sqrt{n^k}/\varepsilon)$, achieving a quadratic speedup over the state-of-the-art classical algorithm with sample complexity $O(n^k/\varepsilon^2)$ by O'Donnell and Zhao (2018). Moreover, when $k = 2$ our quantum algorithm outperforms any classical one because of the classical lower bound $\Omega(n/\varepsilon^2)$. All our quantum algorithms are fairly simple and time-efficient, using only basic quantum subroutines such as amplitude estimation.
翻訳日:2024-06-27 20:03:37 公開日:2024-06-25
# 再帰フーリエ変換を用いた時間依存シュレーディンガー方程式からの2次時間依存の除去

Eliminating the Second-Order Time Dependence from the Time Dependent Schrödinger Equation Using Recursive Fourier Transforms ( http://arxiv.org/abs/2306.03107v5 )

ライセンス: Link先を確認
Sky Nelson-Isaacs, (参考訳) 時間依存型Schr\"{o}dinger Equation (TDSE) や、より一般的にはダイソン級数(英語版)を再帰フーリエ変換を用いた畳み込み方程式として記述し、時間順序演算子を使わずに第二階積分を第一階から切り離す戦略を開発する。 エネルギー分布は、1階と2階の標準摂動理論の例で計算される。 ボソニックサンプリングのためのフォトニックスペクトルのキャラクタリゼーションや、量子計算における4波混合、量子力学におけるバーディーントンネル振幅などの応用も考えられる。

A strategy is developed for writing the time-dependent Schr\"{o}dinger Equation (TDSE), and more generally the Dyson Series, as a convolution equation using recursive Fourier transforms, thereby decoupling the second-order integral from the first without using the time ordering operator. The energy distribution is calculated for a number of standard perturbation theory examples at first- and second-order. Possible applications include characterization of photonic spectra for bosonic sampling and four-wave mixing in quantum computation and Bardeen tunneling amplitude in quantum mechanics.
翻訳日:2024-06-27 20:03:37 公開日:2024-06-25
# 戦略的買い手によるコンテキスト動的価格設定

Contextual Dynamic Pricing with Strategic Buyers ( http://arxiv.org/abs/2307.04055v2 )

ライセンス: Link先を確認
Pangpang Liu, Zhuoran Yang, Zhaoran Wang, Will Wei Sun, (参考訳) 個々の特性に基づいて価格を調整するパーソナライズド価格(Personalized pricing)は、企業によって消費者固有の価格ポリシーを実装するために一般的に使用される。 このプロセスでは、購入者が戦略的に特徴データを操作して価格を下げ、特定の操作コストを発生させることができる。 このような戦略的行動は、企業が利益を最大化するのを妨げる。 本稿では,戦略的買い手によるコンテキスト動的価格問題について検討する。 売り手は買い手の真の特徴を観察せず、買い手の戦略行動に応じて操作された特徴を観察する。 さらに、販売者は商品の購入者の評価を観察せず、販売が行われるか否かを示すバイナリ応答のみを表示する。 これらの課題を認識し,販売者の累積収益を最大化するために,購入者の戦略的行動をオンライン学習に取り入れた戦略的動的価格政策を提案する。 まず、購入者の戦略的行動を無視した既存の非戦略的な価格政策が、合計時間枠で$T$でリニアな$\Omega(T)$後悔をもたらすことを証明し、これらのポリシーがランダムな価格政策より優れていることを示す。 すると、提案したポリシーは、$O(\sqrt{T})$のサブ線形後悔上限を達成する。 重要なことは、我々のポリシーは、既存の動的価格ポリシーと戦略的行動処理アルゴリズムの合併ではない。 我々の政策は、操作の限界コストが事前に不明な場合にも適用できる。 そこで我々は,オンライン価格政策における評価パラメータとコストパラメータを同時に推定し,そのパラメータを$O(\sqrt{T})$ regret bound とすることを示した。 大規模な実験は、戦略的な行動に気付かない他の価格政策と比較して、我々の理論的発展を支援し、我々の政策の優れた性能を実証する。

Personalized pricing, which involves tailoring prices based on individual characteristics, is commonly used by firms to implement a consumer-specific pricing policy. In this process, buyers can also strategically manipulate their feature data to obtain a lower price, incurring certain manipulation costs. Such strategic behavior can hinder firms from maximizing their profits. In this paper, we study the contextual dynamic pricing problem with strategic buyers. The seller does not observe the buyer's true feature, but a manipulated feature according to buyers' strategic behavior. In addition, the seller does not observe the buyers' valuation of the product, but only a binary response indicating whether a sale happens or not. Recognizing these challenges, we propose a strategic dynamic pricing policy that incorporates the buyers' strategic behavior into the online learning to maximize the seller's cumulative revenue. We first prove that existing non-strategic pricing policies that neglect the buyers' strategic behavior result in a linear $\Omega(T)$ regret with $T$ the total time horizon, indicating that these policies are not better than a random pricing policy. We then establish that our proposed policy achieves a sublinear regret upper bound of $O(\sqrt{T})$. Importantly, our policy is not a mere amalgamation of existing dynamic pricing policies and strategic behavior handling algorithms. Our policy can also accommodate the scenario when the marginal cost of manipulation is unknown in advance. To account for it, we simultaneously estimate the valuation parameter and the cost parameter in the online pricing policy, which is shown to also achieve an $O(\sqrt{T})$ regret bound. Extensive experiments support our theoretical developments and demonstrate the superior performance of our policy compared to other pricing policies that are unaware of the strategic behaviors.
翻訳日:2024-06-27 19:53:52 公開日:2024-06-25
# 繰り返しブロックレバレッジスコアサンプリングによるグラディエント符号化

Gradient Coding with Iterative Block Leverage Score Sampling ( http://arxiv.org/abs/2308.03096v2 )

ライセンス: Link先を確認
Neophytos Charalambides, Mert Pilanci, Alfred Hero, (参考訳) 我々は、$\ell_2$-subspace埋め込みのためのレバレッジスコアサンプリングスケッチを一般化し、変換されたデータのサンプリングサブセットを適合させる。 この手法は、分散計算ネットワークにおける障害の存在下で線形回帰を加速するために、勾配符号化と呼ばれる一階法のための近似符号付き計算手法を導出するために用いられる。 我々は、分散ネットワーク上でデータを複製し、誘導サンプリング分布を通して近似を保証する。 この研究の意義と主な貢献は、一様サンプリングを通して誘導された$\ell_2$-subspace埋め込みを達成しながら、近似符号付き計算でランダム化された数値線型代数を統一することである。 均一サンプリングへの移行は、サブサンプルランダム化アダマール変換の場合のように、ランダムプロジェクションを適用することなく行われる。 さらに,この手法を符号化コンピューティングに取り入れることで,線形回帰を近似的に解くための反復的スケッチ手法を提案する。 また、さらなる圧縮のために、置換したサンプリングによってスケッチを行う際の重み付けも提案する。

We generalize the leverage score sampling sketch for $\ell_2$-subspace embeddings, to accommodate sampling subsets of the transformed data, so that the sketching approach is appropriate for distributed settings. This is then used to derive an approximate coded computing approach for first-order methods; known as gradient coding, to accelerate linear regression in the presence of failures in distributed computational networks, \textit{i.e.} stragglers. We replicate the data across the distributed network, to attain the approximation guarantees through the induced sampling distribution. The significance and main contribution of this work, is that it unifies randomized numerical linear algebra with approximate coded computing, while attaining an induced $\ell_2$-subspace embedding through uniform sampling. The transition to uniform sampling is done without applying a random projection, as in the case of the subsampled randomized Hadamard transform. Furthermore, by incorporating this technique to coded computing, our scheme is an iterative sketching approach to approximately solving linear regression. We also propose weighting when sketching takes place through sampling with replacement, for further compression.
翻訳日:2024-06-27 19:53:52 公開日:2024-06-25
# SpeechX: 音声変換器としてのニューラルコーデック言語モデル

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer ( http://arxiv.org/abs/2308.06873v2 )

ライセンス: Link先を確認
Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka, (参考訳) 音声テキストプロンプトに基づく生成音声モデルの最近の進歩は、高品質なゼロショット音声合成のような驚くべき革新を可能にしている。 しかし、既存のモデルでは、入力音声の変換や、有害な音響条件下での音声の処理を含む多様な音声テキスト音声生成タスクの処理に制限が課されている。 本稿では,音声生成モデルであるSpeechXについて紹介する。 SpeechXは、ニューラルコーデック言語モデリングとタスク依存プロンプトを用いたマルチタスク学習を組み合わせることで、統一的で拡張可能なモデリングを可能にし、音声強調および変換タスクにおけるテキスト入力を活用する一貫した方法を提供する。 実験結果は、ゼロショットTS、ノイズ抑制、ターゲット話者抽出、音声除去、バックグラウンドノイズの有無にかかわらず音声編集など、様々なタスクにおけるSpeechXの有効性を示し、タスク間の特化モデルと同等または優れたパフォーマンスを達成する。 デモサンプルについてはhttps://aka.ms/speechxを参照。

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.
翻訳日:2024-06-27 19:53:52 公開日:2024-06-25
# IoTサイバーセキュリティガイドラインの内容と実用性について

On the Contents and Utility of IoT Cybersecurity Guidelines ( http://arxiv.org/abs/2310.01653v3 )

ライセンス: Link先を確認
Jesse Chen, Dharun Anandayuvaraj, James C Davis, Sazzadur Rahaman, (参考訳) モノのインターネット(IoT)デバイスとインフラストラクチャのサイバーセキュリティに関する懸念は毎年増えている。 それに対して、世界中の組織は、IoTシステムの開発と運用に関する推奨を提供することで、市民と顧客を保護するためのIoTセキュリティガイドラインを公開した。 これらのガイドラインは、例えば米国の連邦請負業者によって採用されているが、それらの内容とメリットは批判的に検討されていない。 具体的には、それらがカバーするトピックやレコメンデーションや、実際のIoT障害を防止するための有効性について分かりません。 本稿では,ガイドラインの質的研究を通じて,これらのギャップに対処する。 私たちは142のIoTサイバーセキュリティガイドラインを収集し、25のガイドラインで飽和するまでレコメンデーションのためにそれらをサンプルします。 結果として得られた958の独特なレコメンデーションから、基礎となる理論のコーディング原則に従って、階層的な分類を反復的に開発し、ガイドラインの包括性について研究する。 さらに、各レコメンデーションの動作性と特異性を評価し、CVEに対するレコメンデーションと、それらが防止できるニュースにおけるセキュリティ障害とを一致させる。 1) それぞれのガイドラインは話題の包括性と包括性にギャップがあり, (2) 87.2% の勧告は行動可能であり, 38.7% の勧告は特定の脅威を防ぎ,(3) ガイドラインの統一は我々のニュース記事コーパスから17件の障害を緩和するが, CVE の21% はガイドラインを回避している。 まとめると、各ガイドラインの深さと幅の欠点を報告しますが、全体としては大きなセキュリティ問題に対処しています。

Cybersecurity concerns of Internet of Things (IoT) devices and infrastructure are growing each year. In response, organizations worldwide have published IoT security guidelines to protect their citizens and customers by providing recommendations on the development and operation of IoT systems. While these guidelines are being adopted, e.g. by US federal contractors, their content and merits have not been critically examined. Specifically, we do not know what topics and recommendations they cover and their effectiveness at preventing real-world IoT failures. In this paper, we address these gaps through a qualitative study of guidelines. We collect 142 IoT cybersecurity guidelines and sample them for recommendations until reaching saturation at 25 guidelines. From the resulting 958 unique recommendations, we iteratively develop a hierarchical taxonomy following grounded theory coding principles and study the guidelines' comprehensiveness. In addition, we evaluate the actionability and specificity of each recommendation and match recommendations to CVEs and security failures in the news they can prevent. We report that: (1) Each guideline has gaps in its topic coverage and comprehensiveness; (2) 87.2% recommendations are actionable and 38.7% recommendations can prevent specific threats; and (3) although the union of the guidelines mitigates all 17 of the failures from our news stories corpus, 21% of the CVEs evade the guidelines. In summary, we report shortcomings in each guideline's depth and breadth, but as a whole they address major security issues.
翻訳日:2024-06-27 19:44:08 公開日:2024-06-25
# 循環力の融合:参照情報の統合による影響の促進

Fusion of the Power from Citations: Enhance your Influence by Integrating Information from References ( http://arxiv.org/abs/2310.18451v2 )

ライセンス: Link先を確認
Cong Qi, Qin Liu, Kan Liu, (参考訳) 影響予測は学術社会において重要な役割を担っている。 学者の影響力の量は、自分の作品が他人によって受け入れられるかどうかを判断する。 既存の研究は、論文の引用回数を一定期間後に予測することや、著者に対する個々の論文の否定的あるいは肯定的な影響を集中することなく、大量の候補者の中で最も影響力のある論文を特定することに焦点を当てている。 そこで本研究では,著者が論文を出版する前に,著者にフィードバックを提供することで,ある論文が学者の影響力を高めることができるかどうかを判断するために,予測問題を定式化することを目的とする。 まず,年次論文,論文引用数,各論文へのコントリビューションに基づいて,著者の年次影響を測定するために,自己適応ACC(Average Annual Citation Counts)尺度を提示した。 そこで我々は,RD-GAT(Reference-Depth Graph Attention Network)モデルを提案した。 AMinerデータセットの実験では、提案したACCメトリクスが著者に効果的に影響を与え、RD-GATモデルは学術的引用ネットワーク上でより効率的であり、ベースラインモデルと比較して過度に適合する問題に対して強い堅牢性を有することを示した。 この研究にこの枠組みを適用することで、研究者は自分の論文が将来の影響力を高めることができるかどうかを特定できる。

Influence prediction plays a crucial role in the academic community. The amount of scholars' influence determines whether their work will be accepted by others. Most existing research focuses on predicting one paper's citation count after a period or identifying the most influential papers among the massive candidates, without concentrating on an individual paper's negative or positive impact on its authors. Thus, this study aims to formulate the prediction problem to identify whether one paper can increase scholars' influence or not, which can provide feedback to the authors before they publish their papers. First, we presented the self-adapted ACC (Average Annual Citation Counts) metric to measure authors' impact yearly based on their annual published papers, paper citation counts, and contributions in each paper. Then, we proposed the RD-GAT (Reference-Depth Graph Attention Network) model to integrate heterogeneous graph information from different depth of references by assigning attention coefficients on them. Experiments on AMiner dataset demonstrated that the proposed ACC metrics could represent the authors influence effectively, and the RD-GAT model is more efficiently on the academic citation network, and have stronger robustness against the overfitting problem compared with the baseline models. By applying the framework in this work, scholars can identify whether their papers can improve their influence in the future.
翻訳日:2024-06-27 19:34:10 公開日:2024-06-25
# InterVLS:ビジョンランゲージサロゲートによる対話型モデル理解と改善

InterVLS: Interactive Model Understanding and Improvement with Vision-Language Surrogates ( http://arxiv.org/abs/2311.03547v2 )

ライセンス: Link先を確認
Jinbin Huang, Wenbin He, Liang Gou, Liu Ren, Chris Bryan, (参考訳) ディープラーニングモデルは重要なアプリケーションで広く使われており、事前デプロイモデルの理解と改善の必要性を強調している。 視覚的概念に基づく手法は、この目的のためにますます使われてきているが、(1)ほとんどの概念は解釈可能性に欠けており、(2)既存の手法はモデル知識を必要とし、しばしば実行時に利用できない。 さらに (3) では、後述のモデル改善のためのノーコードメソッドが欠如している。 これらの問題に対処するため、InterVLSを提示する。 本システムは,テキストに整合した概念を発見し,モデルに依存しない線形サロゲートによる影響を測定することによって,モデル理解を容易にする。 ビジュアル分析を利用することで、InterVLSは概念ベースの説明とパフォーマンスの洞察を提供する。 これにより、ユーザーは概念の影響を調整してモデルを更新でき、コードなしモデルの改善が容易になる。 ユーザスタディにおいて,InterVLSを評価し,その機能を2つのシナリオで評価した。 その結果、InterVLSは、モデルに対する影響力ある概念を特定し、洞察を得て、モデルを改善するために概念の影響を調整するのに役立つことが示唆された。 我々は研究結果に基づいて議論を締めくくった。

Deep learning models are widely used in critical applications, highlighting the need for pre-deployment model understanding and improvement. Visual concept-based methods, while increasingly used for this purpose, face challenges: (1) most concepts lack interpretability, (2) existing methods require model knowledge, often unavailable at run time. Additionally, (3) there lacks a no-code method for post-understanding model improvement. Addressing these, we present InterVLS. The system facilitates model understanding by discovering text-aligned concepts, measuring their influence with model-agnostic linear surrogates. Employing visual analytics, InterVLS offers concept-based explanations and performance insights. It enables users to adjust concept influences to update a model, facilitating no-code model improvement. We evaluate InterVLS in a user study, illustrating its functionality with two scenarios. Results indicates that InterVLS is effective to help users identify influential concepts to a model, gain insights and adjust concept influence to improve the model. We conclude with a discussion based on our study results.
翻訳日:2024-06-27 19:34:10 公開日:2024-06-25
# LEDITS++: テキスト・ツー・イメージモデルを用いた制限なし画像編集

LEDITS++: Limitless Image Editing using Text-to-Image Models ( http://arxiv.org/abs/2311.16711v2 )

ライセンス: Link先を確認
Manuel Brack, Felix Friedrich, Katharina Kornmeier, Linoy Tsaban, Patrick Schramowski, Kristian Kersting, Apolinário Passos, (参考訳) 近年,テキストから画像への拡散モデルへの関心が高まっている。 その後の研究は、実際の画像編集にその能力を活用、応用することを目的としている。 しかし、既存のイメージ・ツー・イメージの手法は、しばしば非効率で不正確であり、汎用性は限られている。 それらは、時間を要する微調整、不要に入力画像から切り離すこと、および/または複数同時編集のサポートの欠如を必要とする。 これらの問題に対処するため,LEDITS++を導入する。 LEDITS++の新たな反転アプローチはチューニングや最適化を必要とせず、いくつかの拡散ステップで高忠実度な結果を生成する。 第二に、我々の方法論は複数の同時編集をサポートし、アーキテクチャに依存しない。 第3に、画像領域の変更を制限する新しい暗黙マスキング手法を用いる。 本稿では,TEdBench++ベンチマークを提案する。 本結果は,LEDITS++ の機能と,従来の方法よりも改善されていることを示す。

Text-to-image diffusion models have recently received increasing interest for their astonishing ability to produce high-fidelity images from solely text inputs. Subsequent research efforts aim to exploit and apply their capabilities to real image editing. However, existing image-to-image methods are often inefficient, imprecise, and of limited versatility. They either require time-consuming finetuning, deviate unnecessarily strongly from the input image, and/or lack support for multiple, simultaneous edits. To address these issues, we introduce LEDITS++, an efficient yet versatile and precise textual image manipulation technique. LEDITS++'s novel inversion approach requires no tuning nor optimization and produces high-fidelity results with a few diffusion steps. Second, our methodology supports multiple simultaneous edits and is architecture-agnostic. Third, we use a novel implicit masking technique that limits changes to relevant image regions. We propose the novel TEdBench++ benchmark as part of our exhaustive evaluation. Our results demonstrate the capabilities of LEDITS++ and its improvements over previous methods.
翻訳日:2024-06-27 19:34:10 公開日:2024-06-25
# アンロック予測テキスト生成:大規模言語モデルデコードのための制約付きアプローチ

Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding ( http://arxiv.org/abs/2312.06149v3 )

ライセンス: Link先を確認
Lifu Tu, Semih Yavuz, Jin Qu, Jiacheng Xu, Rui Meng, Caiming Xiong, Yingbo Zhou, (参考訳) 大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。 しかしながら、与えられたプロンプトや命令で最適な結果を達成することは、特に数十億規模のモデルでは困難である。 さらに、毒性や幻覚などの望ましくない行動が現れることがある。 より大きなモデル(例えばChatGPT)はこれらの問題を緩和する上での強みを示すかもしれないが、完全な予防は保証されていない。 本研究では,テキスト生成を将来制約のある生成問題として形式化し,望ましくない振る舞いを最小化し,命令に忠実さを強制することを提案する。 LLMを用いた将来の制約満足度の推定は、テキスト生成プロセスのガイドとなる。 我々は,キーワード制約付き生成(Lin et al , 2020),毒性低下(Gehman et al , 2020),質問応答における事実的正当性(Gao et al , 2023)の3つの異なるテキスト生成タスクにおいて提案手法の有効性を実証した。

Large Language Models (LLMs) have demonstrated a powerful ability for text generation. However, achieving optimal results with a given prompt or instruction can be challenging, especially for billion-sized models. Additionally, undesired behaviors such as toxicity or hallucinations can manifest. While much larger models (e.g., ChatGPT) may demonstrate strength in mitigating these issues, there is still no guarantee of complete prevention. In this work, we propose formalizing text generation as a future-constrained generation problem to minimize undesirable behaviors and enforce faithfulness to instructions. The estimation of future constraint satisfaction, accomplished using LLMs, guides the text generation process. Our extensive experiments demonstrate the effectiveness of the proposed approach across three distinct text generation tasks: keyword-constrained generation (Lin et al., 2020), toxicity reduction (Gehman et al., 2020), and factual correctness in question-answering (Gao et al., 2023).
翻訳日:2024-06-27 19:24:20 公開日:2024-06-25
# 非同期認証

Asynchronous Authentication ( http://arxiv.org/abs/2312.13967v2 )

ライセンス: Link先を確認
Marwa Mouallem, Ittay Eyal, (参考訳) 無数の認証機構は、古代の口頭パスワードから現代の多要素認証への継続的な進化を具現化している。 それでも、デジタル資産盗難と多数の個人情報盗難事件は、ユーザー認証の基礎を再考する緊急の必要性を示している。 クレデンシャルの詳細を抽象化し、非同期認証の一般的なケースを非有界メッセージ伝搬時間で形式化する。 我々のモデルは、独立した関心を持つかもしれないが、最終的なメッセージ配信を可能にし、暗号保証を維持するために実行時間を制限している。 資格情報の欠陥確率(損失やリークなど)を考慮すれば、最も成功する確率の高いメカニズムを探します。 すべてのメカニズムがBooleanのメカニズムによって支配されていることを示します。 本稿では,ほぼ最適なメカニズムを探索するアルゴリズムを提案する。 以前の研究はブール機構を特に分析したが、ブルート力を使用し、それは急速に複雑化していった。 問題構造を利用して、複雑さを桁違いに減らします。 このアルゴリズムは、実用的な設定に容易に適用できる。 例えば、いくつかの高品質な認証情報を使用する暗号通貨ウォレットの一般的なアプローチを再考する。 低品質な認証を追加することで,セキュリティが桁違いに向上することを示す。

A myriad of authentication mechanisms embody a continuous evolution from verbal passwords in ancient times to contemporary multi-factor authentication. Nevertheless, digital asset heists and numerous identity theft cases illustrate the urgent need to revisit the fundamentals of user authentication. We abstract away credential details and formalize the general, common case of asynchronous authentication, with unbounded message propagation time. Our model, which might be of independent interest, allows for eventual message delivery, while bounding execution time to maintain cryptographic guarantees. Given credentials' fault probabilities (e.g., loss or leak), we seek mechanisms with the highest success probability. We show that every mechanism is dominated by some Boolean mechanism -- defined by a monotonic Boolean function on presented credentials. We present an algorithm for finding approximately optimal mechanisms. Previous work analyzed Boolean mechanisms specifically, but used brute force, which quickly becomes prohibitively complex. We leverage the problem structure to reduce complexity by orders of magnitude. The algorithm is readily applicable to practical settings. For example, we revisit the common approach in cryptocurrency wallets that use a handful of high-quality credentials. We show that adding low-quality credentials improves security by orders of magnitude.
翻訳日:2024-06-27 19:24:20 公開日:2024-06-25
# ODIN: 2Dと3Dセグメンテーションのための単一モデル

ODIN: A Single Model for 2D and 3D Segmentation ( http://arxiv.org/abs/2401.02416v3 )

ライセンス: Link先を確認
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki, (参考訳) ScanNetのような現代の3Dセグメンテーションベンチマークの最先端モデルは、センシングされたマルチビューRGB-D画像のポスト処理によって得られたデータセットが提供する3Dポイントクラウドを消費し、ラベル付けする。 それらは通常、ドメイン内でトレーニングされ、大規模な2D事前トレーニングを前もって行われ、代わりに提案されたRGB-Dマルチビューイメージを出力する代替手段よりも優れています。 ポーズ画像の消費方法と後処理の3Dポイントクラウドのパフォーマンスの差は、2Dと3Dの知覚に異なるモデルアーキテクチャが必要であるという信念を後押ししている。 本稿では,この視点に挑戦し,2次元のRGB画像と3次元の点雲のセグメンテーションとラベル付けが可能なODIN(Omni-dimensional Instance segmentation)を提案する。 本モデルは,2次元パッチトークンの画素座標と3次元特徴トークンの3次元座標をキャプチャする,関連するトークンの位置エンコーディングによる2次元特徴演算と3次元特徴演算を区別する。 ODINは、ScanNet200、Matterport3D、AI2THORのインスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成し、ScanNet、S3DIS、COCO上での競合性能を達成している。 3Dメッシュからサンプリングされた点クラウドの代わりに、知覚された3Dポイントクラウドを使用する場合、これまでのすべての作業よりも大きなマージンでパフォーマンスが向上する。 インストラクタブルなエンボディードエージェントアーキテクチャで3D認識エンジンとして使用されると、TEAChアクション・トゥ・ダイアログ・ベンチマークに新たな最先端のテクノロジーが設定される。 私たちのコードとチェックポイントはプロジェクトのWebサイト(https://odin-seg.github.io.)にあります。

State-of-the-art models on contemporary 3D segmentation benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website (https://odin-seg.github.io).
翻訳日:2024-06-27 19:24:20 公開日:2024-06-25
# プラズマ乱流シミュレーションのための科学機械学習に基づく低次モデル

Scientific Machine Learning Based Reduced-Order Models for Plasma Turbulence Simulations ( http://arxiv.org/abs/2401.05972v2 )

ライセンス: Link先を確認
Constantin Gahr, Ionut-Gabriel Farcas, Frank Jenko, (参考訳) 本稿では, プラズマ乱流シミュレーションのための非侵入型科学機械学習 (SciML) 削減次数モデル (ROM) の構築に焦点をあてる。 特に,演算子推論(OpInf)を用いて,そのようなシミュレーションデータから低コストな物理ベースのROMを構築することを提案する。 代表的な例として,2次元静電ドリフト波乱流のモデル化に用いる長谷川-若谷方程式(HW)に着目した。 正確なROMを構築するためのOpInfのポテンシャルを包括的に見ていくためには、鍵モデルパラメータ、すなわち断熱係数を変化させることで、HW方程式の3つの設定を考える。 これらのセットアップは、複雑で非線形なダイナミクスの形成につながるため、いかなる種類の正確なROMの構築も困難である。 我々は,HW方程式の直接数値シミュレーションを行い,計算した状態データを記録し,乱流相における100時間単位の時間的地平線を出力することにより,トレーニングデータセットを生成する。 次に、これらのデータセットを使用して、400以上の追加時間単位の予測を行うOpsInf ROMを構築します。 以上の結果から,OpInf ROMは乱流力学の重要な特徴を捉え,トレーニング時間地平線を超えて一般化し,高忠実度シミュレーションの計算労力を最大5桁まで削減した。 核融合研究のより広い文脈において、これは非侵入型SciML ROMが数値研究を劇的に加速する可能性を示し、最終的には最適化された核融合装置の設計のようなタスクを可能にする。

This paper focuses on the construction of non-intrusive Scientific Machine Learning (SciML) Reduced-Order Models (ROMs) for plasma turbulence simulations. In particular, we propose using Operator Inference (OpInf) to build low-cost physics-based ROMs from data for such simulations. As a representative example, we focus on the Hasegawa-Wakatani (HW) equations used for modeling two-dimensional electrostatic drift-wave turbulence. For a comprehensive perspective of the potential of OpInf to construct accurate ROMs, we consider three setups for the HW equations by varying a key model parameter, namely the adiabaticity coefficient. These setups lead to the formation of complex and nonlinear dynamics, which makes the construction of accurate ROMs of any kind challenging. We generate the training datasets by performing direct numerical simulations of the HW equations and recording the computed state data and outputs the over a time horizon of 100 time units in the turbulent phase. We then use these datasets to construct OpInf ROMs for predictions over 400 additional time units. Our results show that the OpInf ROMs capture the important features of the turbulent dynamics and generalize beyond the training time horizon while reducing the computational effort of the high-fidelity simulation by up to five orders of magnitude. In the broader context of fusion research, this shows that non-intrusive SciML ROMs have the potential to drastically accelerate numerical studies, which can ultimately enable tasks such as the design of optimized fusion devices.
翻訳日:2024-06-27 19:24:20 公開日:2024-06-25
# アレルギー性鼻炎に対する皮下免疫療法の適応予測モデル

Sequential Model for Predicting Patient Adherence in Subcutaneous Immunotherapy for Allergic Rhinitis ( http://arxiv.org/abs/2401.11447v3 )

ライセンス: Link先を確認
Yin Li, Yu Xiong, Wenxin Fan, Kai Wang, Qingqing Yu, Liping Si, Patrick van der Smagt, Jun Tang, Nutan Chen, (参考訳) 目的: 皮下免疫療法 (SCIT) はアレルギー性鼻炎(AR)の長期因果治療である。 アレルゲン免疫療法(AIT)の利益を最大化するために患者の定着をいかに高めるかは、AITの管理において重要な役割を担っている。 本研究は,新しい機械学習モデルを用いて,AR患者とその関連症状スコアを3年間のSCITで正確に予測することを目的とする。 方法: 本研究は, 逐次潜時アクタークリティカル(SLAC)の逐次潜時変量モデル(SLVM)と, スコアリングとアテンジェンス予測機能に基づく長短期記憶(LSTM)の2つのモデルを開発し, 解析する。 結果: 第一段階のバイアスサンプルを除くと, SLACモデルの予測付着精度は60\%から72\%であり, LSTMモデルでは66\%から84\%であり, 時間ステップによって異なる。 SLACモデルのRoot Mean Square Error(RMSE)の範囲は0.93から2.22であり、LSTMモデルでは1.09から1.77である。 特に、これらのRMSEは4.55のランダムな予測誤差よりもかなり低い。 結論: SCIT の長期管理において, SCIT の非整合性の予測に有望な精度で逐次モデルを創造的に適用した。 LSTMは順応予測においてSLACより優れているが、SLACはSCIT for ARの患者に対してスコア予測に優れる。 状態アクションベースのSLACは柔軟性を追加し、長期AITを管理するための新しく効果的なアプローチを提供する。

Objective: Subcutaneous Immunotherapy (SCIT) is the long-lasting causal treatment of allergic rhinitis (AR). How to enhance the adherence of patients to maximize the benefit of allergen immunotherapy (AIT) plays a crucial role in the management of AIT. This study aims to leverage novel machine learning models to precisely predict the risk of non-adherence of AR patients and related local symptom scores in three years SCIT. Methods: The research develops and analyzes two models, sequential latent-variable model (SLVM) of Sequential Latent Actor-Critic (SLAC) and Long Short-Term Memory (LSTM) evaluating them based on scoring and adherence prediction capabilities. Results: Excluding the biased samples at the first time step, the predictive adherence accuracy of the SLAC models is from 60\% to 72\%, and for LSTM models, it is 66\% to 84\%, varying according to the time steps. The range of Root Mean Square Error (RMSE) for SLAC models is between 0.93 and 2.22, while for LSTM models it is between 1.09 and 1.77. Notably, these RMSEs are significantly lower than the random prediction error of 4.55. Conclusion: We creatively apply sequential models in the long-term management of SCIT with promising accuracy in the prediction of SCIT nonadherence in AR patients. While LSTM outperforms SLAC in adherence prediction, SLAC excels in score prediction for patients undergoing SCIT for AR. The state-action-based SLAC adds flexibility, presenting a novel and effective approach for managing long-term AIT.
翻訳日:2024-06-27 19:14:34 公開日:2024-06-25
# デルタ関数障壁を持つ無限平方井に対するグロス・ピタエフスキー方程式

The Gross-Pitaevskii equation for a infinite square-well with a delta-function barrier ( http://arxiv.org/abs/2401.13833v2 )

ライセンス: Link先を確認
Robert J. Ragan, Asaad R. Sakhel, William J. Mullin, (参考訳) グロス=ピタエフスキー方程式は、無限平方井戸と$\delta$-function 中心障壁を持つ外部二重井戸ポテンシャルの解析法によって解決される。 非相互作用ハミルトニアンの対称性を持つ解や、魅力的な相互作用のための対称解と反発的相互作用のための反対称解から分岐する非対称解を見つける。 非対称状態に対する変分近似と近似的な数値的アプローチを提案する。 州の安定性は概ね考慮されている。

The Gross-Pitaevskii equation is solved by analytic methods for an external double-well potential that is an infinite square well plus a $\delta$-function central barrier. We find solutions that have the symmetry of the non-interacting Hamiltonian as well as asymmetric solutions that bifurcate from the symmetric solutions for attractive interactions and from the antisymmetric solutions for repulsive interactions. We present a variational approximation to the asymmetric state as well as an approximate numerical approach. Stability of the states is briefly considered.
翻訳日:2024-06-27 19:14:34 公開日:2024-06-25
# マルチラベル学習のためのディープラーニング: 総合的な調査

Deep Learning for Multi-Label Learning: A Comprehensive Survey ( http://arxiv.org/abs/2401.16549v3 )

ライセンス: Link先を確認
Adane Nega Tarekegn, Mohib Ullah, Faouzi Alaya Cheikh, (参考訳) マルチラベル学習は、単一の入力データポイントから複数のラベルを予測することを目的とした、急速に成長する研究分野である。 ビッグデータの時代において、マルチラベル分類(MLC)やランク付けを含むタスクは重要かつ複雑な課題を呈し、多様な領域でかなりの注目を集めている。 MLCでは、高次元データを扱うこと、ラベル相関に対処すること、そして従来の手法では効果が低い部分ラベルを扱うことが困難である。 近年,MDCにおけるこれらの課題をより効果的に解決するために,ディープラーニング(DL)技術の採用が顕著に増加していることが報告されている。 特に、DLの堅牢な学習能力を活用してラベル依存のモデリングやMLCにおけるその他の課題を改善する努力が盛んである。 しかし、多言語学習のためのDLに特化した総合的な研究は限られている点が注目に値する。 そこで本調査は,MLCにおけるオープンな研究課題の要約とともに,多言語学習におけるDLの最近の進歩を徹底的にレビューすることを目的としている。 このレビューは、深層ニューラルネットワーク、トランスフォーマー、オートエンコーダ、畳み込みおよび繰り返しアーキテクチャを含む、MDCのためのDLの既存の研究活動を統合する。 最後に、この領域における洞察力のある観察と今後の研究方向性を刺激するために、既存の手法の比較分析を行った。

Multi-label learning is a rapidly growing research area that aims to predict multiple labels from a single input data point. In the era of big data, tasks involving multi-label classification (MLC) or ranking present significant and intricate challenges, capturing considerable attention in diverse domains. Inherent difficulties in MLC include dealing with high-dimensional data, addressing label correlations, and handling partial labels, for which conventional methods prove ineffective. Recent years have witnessed a notable increase in adopting deep learning (DL) techniques to address these challenges more effectively in MLC. Notably, there is a burgeoning effort to harness the robust learning capabilities of DL for improved modelling of label dependencies and other challenges in MLC. However, it is noteworthy that comprehensive studies specifically dedicated to DL for multi-label learning are limited. Thus, this survey aims to thoroughly review recent progress in DL for multi-label learning, along with a summary of open research problems in MLC. The review consolidates existing research efforts in DL for MLC,including deep neural networks, transformers, autoencoders, and convolutional and recurrent architectures. Finally, the study presents a comparative analysis of the existing methods to provide insightful observations and stimulate future research directions in this domain.
翻訳日:2024-06-27 19:14:34 公開日:2024-06-25
# 医学的質問への回答と説明に関する大規模言語モデルのベンチマーク

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions ( http://arxiv.org/abs/2402.18060v4 )

ライセンス: Link先を確認
Hanjie Chen, Zhouxiang Fang, Yash Singla, Mark Dredze, (参考訳) LLMは、医療免許試験の合格点数などの医学的問題に答える上で、顕著なパフォーマンスを示してきた。 しかし、医療委員会試験や一般的な臨床質問は、現実的な臨床症例の複雑さを捉えていない。 さらに、参照説明の欠如は、複雑な医学的意思決定を行う上で、医師を支援する重要な要素であるモデル決定の理由付けを容易に評価できないことを意味している。 これらの課題に対処するため、JAMA Clinical ChallengeとMedbulletsという2つの新しいデータセットを構築した。 JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問からなる。 どちらのデータセットも、専門家による説明を伴う複数の質問回答タスクとして構成されている。 各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。 実験では、私たちのデータセットは以前のベンチマークよりも難しいことが示されています。 モデル生成説明の人的および自動評価は、説明可能な医学的QAのためのLCMの約束と不足についての洞察を提供する。

LLMs have demonstrated impressive performance in answering medical questions, such as achieving passing scores on medical licensing examinations. However, medical board exam or general clinical questions do not capture the complexity of realistic clinical cases. Moreover, the lack of reference explanations means we cannot easily evaluate the reasoning of model decisions, a crucial component of supporting doctors in making complex medical decisions. To address these challenges, we construct two new datasets: JAMA Clinical Challenge and Medbullets. JAMA Clinical Challenge consists of questions based on challenging clinical cases, while Medbullets comprises simulated clinical questions. Both datasets are structured as multiple-choice question-answering tasks, accompanied by expert-written explanations. We evaluate seven LLMs on the two datasets using various prompts. Experiments demonstrate that our datasets are harder than previous benchmarks. Human and automatic evaluations of model-generated explanations provide insights into the promise and deficiency of LLMs for explainable medical QA.
翻訳日:2024-06-27 18:55:03 公開日:2024-06-25
# MambaMIR: 関節画像再構成と不確かさ推定のための任意マスクマンバ

MambaMIR: An Arbitrary-Masked Mamba for Joint Medical Image Reconstruction and Uncertainty Estimation ( http://arxiv.org/abs/2402.18451v3 )

ライセンス: Link先を確認
Jiahao Huang, Liutao Yang, Fanwen Wang, Yang Nan, Angelica I. Aviles-Rivero, Carola-Bibiane Schönlieb, Daoqiang Zhang, Guang Yang, (参考訳) 最近のMambaモデルでは、医用画像タスクを含む視覚表現学習に顕著な適応性を示している。 本研究では,マンバをベースとした医用画像再構成モデルであるMambaMIRと,そのジェネレーティブ・アドバーサリアル・ネットワーク・モデルであるMambaMIR-GANを紹介する。 提案したMambaMIRは,線形複雑性,大域受容場,動的重み付けなどの利点を元のMambaモデルから継承する。 革新的任意マスク機構は,マンバを画像再構成作業に効果的に適用し,その後のモンテカルロによる不確実性推定にランダム性を与える。 膝, 胸, 腹部などの解剖学的領域をカバーする高速MRI, SVCT などの医療画像再構成作業において, MambaMIR と MambaMIR-GAN が, 最先端の方法と比較して, 同等あるいは優れた再建成績を示した。 さらに、推定された不確実性マップは、復元品質の信頼性に関するさらなる洞察を提供する。 コードはhttps://github.com/ayanglab/MambaMIR.comで公開されている。

The recent Mamba model has shown remarkable adaptability for visual representation learning, including in medical imaging tasks. This study introduces MambaMIR, a Mamba-based model for medical image reconstruction, as well as its Generative Adversarial Network-based variant, MambaMIR-GAN. Our proposed MambaMIR inherits several advantages, such as linear complexity, global receptive fields, and dynamic weights, from the original Mamba model. The innovated arbitrary-mask mechanism effectively adapt Mamba to our image reconstruction task, providing randomness for subsequent Monte Carlo-based uncertainty estimation. Experiments conducted on various medical image reconstruction tasks, including fast MRI and SVCT, which cover anatomical regions such as the knee, chest, and abdomen, have demonstrated that MambaMIR and MambaMIR-GAN achieve comparable or superior reconstruction results relative to state-of-the-art methods. Additionally, the estimated uncertainty maps offer further insights into the reliability of the reconstruction quality. The code is publicly available at https://github.com/ayanglab/MambaMIR.
翻訳日:2024-06-27 18:55:03 公開日:2024-06-25
# 騒音に耳を傾ける:ギブズ拡散によるブラインドデノイング

Listening to the Noise: Blind Denoising with Gibbs Diffusion ( http://arxiv.org/abs/2402.19455v2 )

ライセンス: Link先を確認
David Heurtel-Depeiges, Charles C. Margossian, Ruben Ohana, Bruno Régaldo-Saint Blancard, (参考訳) 近年, 深層生成モデルの開発に問題視が絡み合っている。 特に拡散モデルはデノイザーのように訓練され、それらがモデル化する分布はベイズ図におけるデノイジング先行と一致する。 しかし、拡散に基づく後部サンプリングではノイズレベルと共分散が知られなければならず、ブラインド・デノナイジングが防止される。 本稿では,Gibs Diffusion(GDiff)という,信号と雑音パラメータの両方の後方サンプリングに対処する一般的な手法を導入することで,この制限を克服する。 任意のパラメトリックガウス雑音を仮定し、雑音分布の族に先立って信号のマッピングを訓練した条件拡散モデルからサンプリングステップを交互に行うギブスアルゴリズムと、ノイズパラメータを推測するモンテカルロサンプリング器を開発する。 我々の理論的解析は潜在的な落とし穴を強調し、診断用法をガイドし、拡散モデルによるギブス定常分布の誤差を定量化する。 私たちは私たちの方法を紹介します 1)未知の振幅とスペクトル指数を有する色付き雑音を含む自然画像のブラインドノイズ化 2)宇宙論の問題、すなわち宇宙マイクロ波背景データの解析では、ベイジアンが「ノイズ」パラメータを推定することは宇宙の進化の制約モデルを意味する。

In recent years, denoising problems have become intertwined with the development of deep generative models. In particular, diffusion models are trained like denoisers, and the distribution they model coincide with denoising priors in the Bayesian picture. However, denoising through diffusion-based posterior sampling requires the noise level and covariance to be known, preventing blind denoising. We overcome this limitation by introducing Gibbs Diffusion (GDiff), a general methodology addressing posterior sampling of both the signal and the noise parameters. Assuming arbitrary parametric Gaussian noise, we develop a Gibbs algorithm that alternates sampling steps from a conditional diffusion model trained to map the signal prior to the family of noise distributions, and a Monte Carlo sampler to infer the noise parameters. Our theoretical analysis highlights potential pitfalls, guides diagnostic usage, and quantifies errors in the Gibbs stationary distribution caused by the diffusion model. We showcase our method for 1) blind denoising of natural images involving colored noises with unknown amplitude and spectral index, and 2) a cosmology problem, namely the analysis of cosmic microwave background data, where Bayesian inference of "noise" parameters means constraining models of the evolution of the Universe.
翻訳日:2024-06-27 18:55:03 公開日:2024-06-25
# 線形関数近似を用いたTD学習の簡易有限時間解析

A Simple Finite-Time Analysis of TD Learning with Linear Function Approximation ( http://arxiv.org/abs/2403.02476v2 )

ライセンス: Link先を確認
Aritra Mitra, (参考訳) マルコフサンプリングの下で線形関数近似を用いたTD学習の有限時間収束について検討する。 この設定の既存の証明は、解析を単純化するためにアルゴリズムの射影ステップを仮定するか、繰り返しの安定性を確保するためにかなり複雑な議論を必要とする。 実際にプロジェクションステップを実行することなく、プロジェクションベースの分析の単純さを維持することは可能ですか? } 私たちの主な貢献は、新しい2段階の議論を通じて、これが可能であることを示すことです。 最初のステップでは、帰納法を用いて、一定のステップサイズ$\alpha$の標準的な選択の下で、TD学習によって生成される反復が期待通りに一様に有界であることを証明する。 2番目のステップでは、マルコフサンプリングの効果を捉えた$O(\alpha^2)$の順序で有界摂動まで TD 学習の定常力学を模倣する再帰を確立する。 これらの要素を組み合わせることで、既存の証明を大幅に単純化する全体的なアプローチにつながります。 我々の帰納的証明手法はより複雑な確率近似アルゴリズムの解析に応用が見出され、そのような応用のいくつかの例を提示して結論付ける。

We study the finite-time convergence of TD learning with linear function approximation under Markovian sampling. Existing proofs for this setting either assume a projection step in the algorithm to simplify the analysis, or require a fairly intricate argument to ensure stability of the iterates. We ask: \textit{Is it possible to retain the simplicity of a projection-based analysis without actually performing a projection step in the algorithm?} Our main contribution is to show this is possible via a novel two-step argument. In the first step, we use induction to prove that under a standard choice of a constant step-size $\alpha$, the iterates generated by TD learning remain uniformly bounded in expectation. In the second step, we establish a recursion that mimics the steady-state dynamics of TD learning up to a bounded perturbation on the order of $O(\alpha^2)$ that captures the effect of Markovian sampling. Combining these pieces leads to an overall approach that considerably simplifies existing proofs. We conjecture that our inductive proof technique will find applications in the analyses of more complex stochastic approximation algorithms, and conclude by providing some examples of such applications.
翻訳日:2024-06-27 18:55:03 公開日:2024-06-25
# 羅生門分割を用いた因子データのロバストな不均一性推定

Robustly estimating heterogeneity in factorial data using Rashomon Partitions ( http://arxiv.org/abs/2404.02141v2 )

ライセンス: Link先を確認
Aparajithan Venkateswaran, Anirudh Sankar, Arun G. Chandrasekhar, Tyler H. McCormick, (参考訳) 多くの統計分析では、観測データとランダム化制御試験の両方において、関心の結果は観測可能な共変量の組み合わせとどのように異なるのか? 様々な薬物の組み合わせが健康にどのような影響を及ぼすのか、テクノロジーの採用はインセンティブや人口統計にどのように依存するのか? 私たちのゴールは、この因子空間を、(プール内ではなく)プール間で結果が異なる共変量の組み合わせの「プール」に分割することです。 既存のアプローチ 一 共変量体又は共変量体間の関連を前提とした一の「最適」分割の探索 (ii) 可能なパーティションの集合全体のサンプル。 これらのアプローチは、特に共変量空間の相関構造において、多くの方法で共変量空間を分割することは、政策や科学に全く異なる意味を持つにもかかわらず統計的に区別できないという現実を無視している。 我々は、羅生門分割セット(RPS)と呼ばれる別の視点を開発する。 RPSの各項目は木のような幾何学を用いて共変量の空間を分割する。 RPSは、たとえ実質的に異なる説明を提供するとしても、最大 A 後方分割の近傍で後続値を持つすべての分割を包含し、前者は共変量間の関係について仮定しない。 これは$\ell_0$ pre で、minimax が最適であることを示す。 RPS が与えられたとき、特徴効果ベクトルの任意の測定可能な関数の後部、つまり RPS に含まれる条件を計算します。 また, 後方に対する近似誤差を特徴付けるとともに, RPSの大きさに限界を与える。 シミュレーションは、このフレームワークが従来の正規化手法と比較して堅牢な結論を導くことを実証している。 提案手法は,チャリタブルギフトの価格効果,染色体構造(テロメア長),マイクロファイナンスの導入の3つの経験的設定に適用した。

Many statistical analyses, in both observational data and randomized control trials, ask: how does the outcome of interest vary with combinations of observable covariates? How do various drug combinations affect health outcomes, or how does technology adoption depend on incentives and demographics? Our goal is to partition this factorial space into "pools" of covariate combinations where the outcome differs across the pools (but not within a pool). Existing approaches (i) search for a single "optimal" partition under assumptions about the association between covariates or (ii) sample from the entire set of possible partitions. Both these approaches ignore the reality that, especially with correlation structure in covariates, many ways to partition the covariate space may be statistically indistinguishable, despite very different implications for policy or science. We develop an alternative perspective, called Rashomon Partition Sets (RPSs). Each item in the RPS partitions the space of covariates using a tree-like geometry. RPSs incorporate all partitions that have posterior values near the maximum a posteriori partition, even if they offer substantively different explanations, and do so using a prior that makes no assumptions about associations between covariates. This prior is the $\ell_0$ prior, which we show is minimax optimal. Given the RPS we calculate the posterior of any measurable function of the feature effects vector on outcomes, conditional on being in the RPS. We also characterize approximation error relative to the entire posterior and provide bounds on the size of the RPS. Simulations demonstrate this framework allows for robust conclusions relative to conventional regularization techniques. We apply our method to three empirical settings: price effects on charitable giving, chromosomal structure (telomere length), and the introduction of microfinance.
翻訳日:2024-06-27 18:45:18 公開日:2024-06-25
# 大規模言語モデルは公平にランク付けされるか? LLM の公平性に関する実証的研究

Do Large Language Models Rank Fairly? An Empirical Study on the Fairness of LLMs as Rankers ( http://arxiv.org/abs/2404.03192v2 )

ライセンス: Link先を確認
Yuan Wang, Xuyang Wu, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang, (参考訳) 情報検索におけるLarge Language Models(LLM)の統合は、テキストグレードモデルにおける公平性に対する批判的な再評価を引き起こしている。 GPTモデルやLlama2のようなLLMは、自然言語理解タスクにおいて有効性を示しており、先行研究(例えば RankGPT)も、ランキングタスクにおける従来のランキングモデルよりも優れた性能を示すことを示した。 しかし、その公平性はほとんど解明されていない。 本稿では,これらのLCMをTREC Fair Ranking データセットを用いて評価する実験的検討を行い,歴史的に検索結果に乏しい,性別や地理的位置などの二項保護属性の表現に着目した。 我々の分析は、これらのLCMがこれらの属性に関連するクエリやドキュメントをどのように扱うのかを考察し、ランキングアルゴリズムのバイアスを明らかにすることを目的としている。 ユーザとコンテンツの両方の観点から公平性を評価し,LLMを公正なランク付け者として評価するための実証的なベンチマークに寄与する。

The integration of Large Language Models (LLMs) in information retrieval has raised a critical reevaluation of fairness in the text-ranking models. LLMs, such as GPT models and Llama2, have shown effectiveness in natural language understanding tasks, and prior works (e.g., RankGPT) have also demonstrated that the LLMs exhibit better performance than the traditional ranking models in the ranking task. However, their fairness remains largely unexplored. This paper presents an empirical study evaluating these LLMs using the TREC Fair Ranking dataset, focusing on the representation of binary protected attributes such as gender and geographic location, which are historically underrepresented in search outcomes. Our analysis delves into how these LLMs handle queries and documents related to these attributes, aiming to uncover biases in their ranking algorithms. We assess fairness from both user and content perspectives, contributing an empirical benchmark for evaluating LLMs as the fair ranker.
翻訳日:2024-06-27 18:45:18 公開日:2024-06-25
# Norm Constrained, Over-parameterized, Two-layer Neural Networks を用いた学習

Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks ( http://arxiv.org/abs/2404.18769v2 )

ライセンス: Link先を確認
Fanghui Liu, Leello Dadi, Volkan Cevher, (参考訳) 近年の研究では、再生カーネルヒルベルト空間(RKHS)は、次元性の呪い(CoD)が単一のReLUニューロンでさえも回避できないため、ニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている(Bach, 2017)。 本稿では,サンプル複雑性と一般化特性の観点から,境界ノルム(パスノルム,バロンノルム)を持つ過パラメータ化された2層ニューラルネットワークに適した関数空間について検討する。 まず、経路ノルム(およびバロンノルム)が、一様収束を保証するために、幅独立なサンプル複雑性境界を得ることができることを示す。 この結果に基づき、$\epsilon$-covering to $O(\epsilon^{-\frac{2d}{d+2}})$$$d$は入力次元であり、依存定数は凸船体技術により最も直線的な$d$である。 第二に、この計量エントロピーの結果は、一般的なモーメント仮説設定の下でよりシャープな一般化を構築することができ、$O(n^{-\frac{d+2}{2d+2}})$でその速度を達成できる。 試料誤差と出力誤差の推定において, 線形次元依存性と非有界サンプリングを有する計量エントロピーを, より鋭く, より精密に推定する手法が提案されている。

Recent studies show that a reproducing kernel Hilbert space (RKHS) is not a suitable space to model functions by neural networks as the curse of dimensionality (CoD) cannot be evaded when trying to approximate even a single ReLU neuron (Bach, 2017). In this paper, we study a suitable function space for over-parameterized two-layer neural networks with bounded norms (e.g., the path norm, the Barron norm) in the perspective of sample complexity and generalization properties. First, we show that the path norm (as well as the Barron norm) is able to obtain width-independence sample complexity bounds, which allows for uniform convergence guarantees. Based on this result, we derive the improved result of metric entropy for $\epsilon$-covering up to $O(\epsilon^{-\frac{2d}{d+2}})$ ($d$ is the input dimension and the depending constant is at most linear order of $d$) via the convex hull technique, which demonstrates the separation with kernel methods with $\Omega(\epsilon^{-d})$ to learn the target function in a Barron space. Second, this metric entropy result allows for building a sharper generalization bound under a general moment hypothesis setting, achieving the rate at $O(n^{-\frac{d+2}{2d+2}})$. Our analysis is novel in that it offers a sharper and refined estimation for metric entropy with a linear dimension dependence and unbounded sampling in the estimation of the sample error and the output error.
翻訳日:2024-06-27 18:35:32 公開日:2024-06-25
# 高次元観測から低次元潜在ダイナミクスを学習する:非漸近と下界

Learning Low-dimensional Latent Dynamics from High-dimensional Observations: Non-asymptotics and Lower Bounds ( http://arxiv.org/abs/2405.06089v3 )

ライセンス: Link先を確認
Yuyang Zhang, Shahriar Talebi, Na Li, (参考訳) 本稿では,低次元潜在変数を持つ線形時間不変モデル(LTI)の学習に焦点をあてる。 我々は,観測者の列空間のような高次元の特徴を復元し,データを低次元に埋め込み,低次元モデルパラメータを学習するアルゴリズムを提案する。 我々のアルゴリズムは、次数$\tilde{\mathcal{O}}(n/\epsilon^2)$のサンプル複雑性を保証する。 さらに、この複雑性境界が対数係数と次元非依存定数に最適であることを示す基本的な下界を確立する。 この避けられない$n$の線形係数は、高次元ノイズの存在下で観測者の列空間の学習誤差に起因する。 結果を拡張して,複数のLTIシステムのデータセットからオブザーバ列空間を総合的に学習する,様々な実世界のアプリケーションから着想を得たメタラーニング問題を考える。 その後、サンプルの複雑性を低下させるメタデータセットからLTIシステムの学習を容易にするエンド・ツー・エンドのアルゴリズムが提案される。

In this paper, we focus on learning a linear time-invariant (LTI) model with low-dimensional latent variables but high-dimensional observations. We provide an algorithm that recovers the high-dimensional features, i.e. column space of the observer, embeds the data into low dimensions and learns the low-dimensional model parameters. Our algorithm enjoys a sample complexity guarantee of order $\tilde{\mathcal{O}}(n/\epsilon^2)$, where $n$ is the observation dimension. We further establish a fundamental lower bound indicating this complexity bound is optimal up to logarithmic factors and dimension-independent constants. We show that this inevitable linear factor of $n$ is due to the learning error of the observer's column space in the presence of high-dimensional noises. Extending our results, we consider a meta-learning problem inspired by various real-world applications, where the observer column space can be collectively learned from datasets of multiple LTI systems. An end-to-end algorithm is then proposed, facilitating learning LTI systems from a meta-dataset which breaks the sample complexity lower bound in certain scenarios.
翻訳日:2024-06-27 18:35:32 公開日:2024-06-25
# タスク対応型圧縮性表現に向けて

Towards Task-Compatible Compressible Representations ( http://arxiv.org/abs/2405.10244v2 )

ライセンス: Link先を確認
Anderson de Andrade, Ivan Bajić, (参考訳) 本研究では,学習可能なマルチタスク圧縮において,あるタスクで学習した表現が,期待したほど異なるタスクの速度歪み性能に寄与しないという問題を特定する。 我々はこの問題を予測的な$\mathcal{V}$-informationフレームワークを使って解釈する。 学習可能なスケーラブルコーディングでは、この共有表現を学習する際に入力再構成にも報いることで、入力再構成のためのサイド情報の利用が増加した。 我々は、入力再構成の文脈におけるこのアイデアの影響をより厳密に評価し、他のコンピュータビジョンタスクに拡張した。 我々はCOCO 2017のオブジェクト検出とCityscapesデータセットの深さ推定のために訓練された表現を用いて実験を行い、画像再構成とセマンティックセグメンテーションタスクを支援する。 その結果, 補足作業の速度歪み性能は有意に向上した。 さらに,提案した表現を用いて,基本タスクの性能も向上する。 提案手法は,下流プロセスとより互換性のあるより単純な表現を導出することを示す。

We identify an issue in multi-task learnable compression, in which a representation learned for one task does not positively contribute to the rate-distortion performance of a different task as much as expected, given the estimated amount of information available in it. We interpret this issue using the predictive $\mathcal{V}$-information framework. In learnable scalable coding, previous work increased the utilization of side-information for input reconstruction by also rewarding input reconstruction when learning this shared representation. We evaluate the impact of this idea in the context of input reconstruction more rigorously and extended it to other computer vision tasks. We perform experiments using representations trained for object detection on COCO 2017 and depth estimation on the Cityscapes dataset, and use them to assist in image reconstruction and semantic segmentation tasks. The results show considerable improvements in the rate-distortion performance of the assisted tasks. Moreover, using the proposed representations, the performance of the base tasks are also improved. Results suggest that the proposed method induces simpler representations that are more compatible with downstream processes.
翻訳日:2024-06-27 18:35:32 公開日:2024-06-25
# インテリジェントマーケティングシステムのための適応的ヒューリスティックスを用いたニューラル最適化

Neural Optimization with Adaptive Heuristics for Intelligent Marketing System ( http://arxiv.org/abs/2405.10490v3 )

ライセンス: Link先を確認
Changshuai Wei, Benjamin Zelditch, Joyce Chen, Andre Assuncao Silva T Ribeiro, Jingyi Kenneth Tay, Borja Ocejo Elizondo, Keerthi Selvaraj, Aman Gupta, Licurgo Benemann De Almeida, (参考訳) 計算マーケティングは今日のデジタル世界でますます重要になってきており、膨大な異種データ、マルチチャネル顧客旅行、限られたマーケティング予算といった課題に直面している。 本稿では,AIシステムのマーケティングのための一般的なフレームワークである,適応ヒューリスティックス(NOAH)フレームワークを提案する。 NOAHは2B(to-business)と2C(to-consumer)の両方の製品と、所有チャネルと有償チャネルを考慮に入れた、マーケティング最適化のための最初の一般的なフレームワークである。 本稿では,NOAHフレームワークの重要なモジュールとして,予測,最適化,適応的ヒューリスティックスを挙げ,入札やコンテンツ最適化の例を示す。 その後、LinkedInのEメールマーケティングシステムへのNOAHの適用の成功について詳述し、レガシーランキングシステムに対する大きな勝利を示している。 さらに私たちは,特にその上で,広く有用な詳細と洞察を共有しています。 (i) ライフタイム値で遅延フィードバックに対処すること。 (II)ランダム化による大規模線形プログラミング 三 オーディエンス拡大による検索の改善 四 目標試験における信号希釈の低減及び (v)統計検査におけるゼロインフレートヘビーテールメトリクスの扱い。

Computational marketing has become increasingly important in today's digital world, facing challenges such as massive heterogeneous data, multi-channel customer journeys, and limited marketing budgets. In this paper, we propose a general framework for marketing AI systems, the Neural Optimization with Adaptive Heuristics (NOAH) framework. NOAH is the first general framework for marketing optimization that considers both to-business (2B) and to-consumer (2C) products, as well as both owned and paid channels. We describe key modules of the NOAH framework, including prediction, optimization, and adaptive heuristics, providing examples for bidding and content optimization. We then detail the successful application of NOAH to LinkedIn's email marketing system, showcasing significant wins over the legacy ranking system. Additionally, we share details and insights that are broadly useful, particularly on: (i) addressing delayed feedback with lifetime value, (ii) performing large-scale linear programming with randomization, (iii) improving retrieval with audience expansion, (iv) reducing signal dilution in targeting tests, and (v) handling zero-inflated heavy-tail metrics in statistical testing.
翻訳日:2024-06-27 18:35:32 公開日:2024-06-25
# 1+1)d量子スピン系における格子ねじれゲージリングによる試行性と$p$-alityの実現

Realizing triality and $p$-ality by lattice twisted gauging in (1+1)d quantum spin systems ( http://arxiv.org/abs/2405.14939v2 )

ライセンス: Link先を確認
Da-Chuan Lu, Zhengdi Sun, Yi-Zhuang You, (参考訳) 本論文では, (1+1)d格子上のねじれガウイングについて検討し, 格子作用素上の様々な非局所写像を構成する。 具体的には、ねじれたガウス法則作用素を定義し、ゲージ群の第二コホモロジー群における非自明な要素のデータを含む共形場理論において、オービフォールディング法則によって動機付けられた格子上の有限群のねじれたガウイングを実装する。 SPTアンタングルを最初に適用し,その後に未操作のガウイングを行う2段階の手順と等価であることを示す。 ねじれたガウイングを用いて、$p$が素数であるような$\mathbb{Z}_p\times \mathbb{Z}_p$対称ハミルトニアンの公理性(位数3)と$p$-ality(位数$p$)の写像を構築する。 そのような新しい非局所写像は、クラマース=ワニエ双対性を一般化し、対称作用素の局所性を保存するが、荷電作用素を非局所作用素に写像する。 さらに、これらの非局所写像を実現するために量子過程を構築し、位相図上の誘導写像を解析する。 これらの非局所写像の下で不変な理論に対しては、対応する非可逆対称性が認められる。 非可逆対称性は、ギャップ付き位相の間の多臨界点において理論を制約する。 さらに、非可逆対称性が一意な基底状態を持つ対称的ギャップ位相を持つことができる状態を与える。

In this paper, we study the twisted gauging on the (1+1)d lattice and construct various non-local mappings on the lattice operators. To be specific, we define the twisted Gauss law operator and implement the twisted gauging of the finite group on the lattice motivated by the orbifolding procedure in the conformal field theory, which involves the data of non-trivial element in the second cohomology group of the gauge group. We show the twisted gauging is equivalent to the two-step procedure of first applying the SPT entangler and then untwisted gauging. We use the twisted gauging to construct the triality (order 3) and $p$-ality (order $p$) mapping on the $\mathbb{Z}_p\times \mathbb{Z}_p$ symmetric Hamiltonians, where $p$ is a prime. Such novel non-local mappings generalize Kramers-Wannier duality and they preserve the locality of symmetric operators but map charged operators to non-local ones. We further construct quantum process to realize these non-local mappings and analyze the induced mappings on the phase diagrams. For theories that are invariant under these non-local mappings, they admit the corresponding non-invertible symmetries. The non-invertible symmetry will constrain the theory at the multicritical point between the gapped phases. We further give the condition when the non-invertible symmetry can have symmetric gapped phase with a unique ground state.
翻訳日:2024-06-27 18:25:45 公開日:2024-06-25
# GANアクティベーションの可視化とペイント

Visualize and Paint GAN Activations ( http://arxiv.org/abs/2405.15636v2 )

ライセンス: Link先を確認
Rudolf Herdt, Peter Maass, (参考訳) これらのモデルの内部動作をよりよく理解し、無条件で訓練されたGANで構造を描くことを目的として、GANの生成した構造と、それらが隠れた層内での活性化とどのように相関するかを考察する。 これにより、生成された画像をより制御し、トレーニングデータにそのようなセグメンテーションを必要としないセグメンテーションマップからセグメンテーションを生成することができます。 この目的のために、タイル可能な特徴の概念を導入し、絵を描くのにうまく機能するアクティベーションを識別できるようにします。

We investigate how generated structures of GANs correlate with their activations in hidden layers, with the purpose of better understanding the inner workings of those models and being able to paint structures with unconditionally trained GANs. This gives us more control over the generated images, allowing to generate them from a semantic segmentation map while not requiring such a segmentation in the training data. To this end we introduce the concept of tileable features, allowing us to identify activations that work well for painting.
翻訳日:2024-06-27 18:25:45 公開日:2024-06-25
# 画像デコンボリューションのための学習点スプレッド関数の可逆性評価

Learning Point Spread Function Invertibility Assessment for Image Deconvolution ( http://arxiv.org/abs/2405.16343v2 )

ライセンス: Link先を確認
Romario Gualdrón-Hurtado, Roman Jacome, Sergio Urrea, Henry Arguello, Luis Gonzalez, (参考訳) ディープラーニング(DL)に基づく画像デコンボリューション(ID)は,従来の線形手法を超越した,顕著な回復性能を示した。 しかし、ポイントスプレッド関数(PSF)の分析的性質に依存する従来のIDアプローチとは異なり、畳み込み行列における特定のスペクトル特性や小さな条件数など、高い回復性能を実現するために、DL技術は、DL支援回復のためのPSF適合性を評価するための定量的な指標を欠いている。 畳み込み品質を向上させるために,ニューラルネットワークを用いて任意のPSFの可逆性を学ぶために非線形アプローチを用いたメトリクスを提案する。 マッピングされたPSFとユニットインパルスとの差は、DLネットワークによるインバージョンの成功率が高いことを示している。 以上の結果から,本尺度はDL法および従来の手法の回復性能と相関し,デコンボリューションタスクにおいて有効な正規化器として機能することが判明した。 このアプローチは、従来の条件数評価よりも計算の複雑さを減らし、微分可能なプロセスである。 これらの有用な性質は、エンド・ツー・エンド(E2E)最適化による回折光学素子の設計、可逆PSFの実現、E2Eベースラインフレームワークの性能向上に有効である。

Deep-learning (DL)-based image deconvolution (ID) has exhibited remarkable recovery performance, surpassing traditional linear methods. However, unlike traditional ID approaches that rely on analytical properties of the point spread function (PSF) to achieve high recovery performance - such as specific spectrum properties or small conditional numbers in the convolution matrix - DL techniques lack quantifiable metrics for evaluating PSF suitability for DL-assisted recovery. Aiming to enhance deconvolution quality, we propose a metric that employs a non-linear approach to learn the invertibility of an arbitrary PSF using a neural network by mapping it to a unit impulse. A lower discrepancy between the mapped PSF and a unit impulse indicates a higher likelihood of successful inversion by a DL network. Our findings reveal that this metric correlates with high recovery performance in DL and traditional methods, thereby serving as an effective regularizer in deconvolution tasks. This approach reduces the computational complexity over conventional condition number assessments and is a differentiable process. These useful properties allow its application in designing diffractive optical elements through end-to-end (E2E) optimization, achieving invertible PSFs, and outperforming the E2E baseline framework.
翻訳日:2024-06-27 18:25:45 公開日:2024-06-25
# Monte Carlo Arbitrary-Masked Mambaを用いた医用画像再構成におけるグローバル感度と不確実性定量化の促進

Enhancing Global Sensitivity and Uncertainty Quantification in Medical Image Reconstruction with Monte Carlo Arbitrary-Masked Mamba ( http://arxiv.org/abs/2405.17659v2 )

ライセンス: Link先を確認
Jiahao Huang, Liutao Yang, Fanwen Wang, Yang Nan, Weiwen Wu, Chengyan Wang, Kuangyu Shi, Angelica I. Aviles-Rivero, Carola-Bibiane Schönlieb, Daoqiang Zhang, Guang Yang, (参考訳) 深層学習は医用画像再構成において広く適用されており、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は主要なパラダイムであり、それぞれに異なる利点と固有の制限がある。 新興のMambaは、線形スケーラビリティとグローバル感度の利点を組み合わせた視覚表現の学習において優位性を示している。 本研究では,関節画像再構成と不確実性推定のためのウェーブレット分解を用いたArbitrary-Masked MambaモデルであるMambaMIRを紹介する。 新しいArbitrary Scan Masking (ASM) 機構は冗長な情報を「マスクアウト」し、さらなる不確実性推定のためにランダム性を導入する。 モンテカルロ(MC)のドロップアウトと比較して,提案するMC-ASMは,高パラメータチューニングを必要とせずに不確実性マップを提供し,低レベルタスクにドロップアウトを適用する際に一般的に見られる性能低下を緩和する。 テクスチャのさらなる保存と知覚品質の向上のために,我々はMambaMIRへのウェーブレット変換を採用し,その変形を生成的逆数ネットワーク(MambaMIR-GAN)に基づいて探索する。 複数の代表的な医用画像再構成タスクに対して総合的な実験が行われ、提案されたMambaMIRとMambaMIR-GANは異なる再現タスクにおいて他のベースラインおよび最先端の手法よりも優れており、MambaMIRは最高の再構築忠実さを達成し、MambaMIR-GANは最高の知覚品質を有することを示した。 さらに, MC-ASMは, 一般的に使用されるドロップアウトによる典型的な成績低下を軽減しつつ, 臨床医に新たなツールとして不確実性マップを提供する。

Deep learning has been extensively applied in medical image reconstruction, where Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) represent the predominant paradigms, each possessing distinct advantages and inherent limitations: CNNs exhibit linear complexity with local sensitivity, whereas ViTs demonstrate quadratic complexity with global sensitivity. The emerging Mamba has shown superiority in learning visual representation, which combines the advantages of linear scalability and global sensitivity. In this study, we introduce MambaMIR, an Arbitrary-Masked Mamba-based model with wavelet decomposition for joint medical image reconstruction and uncertainty estimation. A novel Arbitrary Scan Masking (ASM) mechanism "masks out" redundant information to introduce randomness for further uncertainty estimation. Compared to the commonly used Monte Carlo (MC) dropout, our proposed MC-ASM provides an uncertainty map without the need for hyperparameter tuning and mitigates the performance drop typically observed when applying dropout to low-level tasks. For further texture preservation and better perceptual quality, we employ the wavelet transformation into MambaMIR and explore its variant based on the Generative Adversarial Network, namely MambaMIR-GAN. Comprehensive experiments have been conducted for multiple representative medical image reconstruction tasks, demonstrating that the proposed MambaMIR and MambaMIR-GAN outperform other baseline and state-of-the-art methods in different reconstruction tasks, where MambaMIR achieves the best reconstruction fidelity and MambaMIR-GAN has the best perceptual quality. In addition, our MC-ASM provides uncertainty maps as an additional tool for clinicians, while mitigating the typical performance drop caused by the commonly used dropout.
翻訳日:2024-06-27 18:25:45 公開日:2024-06-25
# グラッドCAM期待:勾配忠実化に向けて

Expected Grad-CAM: Towards gradient faithfulness ( http://arxiv.org/abs/2406.01274v2 )

ライセンス: Link先を確認
Vincenzo Buono, Peyman Sheikholharam Mashhadi, Mahmoud Rahat, Prayag Tiwari, Stefan Byttner, (参考訳) インプット・グラディエント・テクニックは勾配に関する課題を緩和し対処するために進化してきたが、現代の勾配重み付けCAMアプローチは、飽和現象に本質的に影響を受けやすいバニラ勾配に依存している。 近年の強化は、緩和策として反ファクト的勾配戦略を取り入れているが、これらの局所的な説明手法は、その基準パラメータに対する感度の欠如をまだ示している。 本研究は,勾配計算を再構成することで,飽和度と感度の両問題に対処する勾配重み付きCAM拡張法を提案する。 元の定式化を摂動積分勾配の滑らかな期待として再考することにより、不完全性を最小化するより忠実で局所的で堅牢な説明を同時に構築することができる。 摂動分布の微調整により、説明の複雑さ特性を制御し、安定な特徴を選択的に識別することができる。 近年のGrad-CAMとは違って,本手法は,基礎的なGrad-CAMアルゴリズムの代替として設計された勾配計算を最適化する。 本手法の有効性を評価するため, 定量的, 質的な評価を行った。

Although input-gradients techniques have evolved to mitigate and tackle the challenges associated with gradients, modern gradient-weighted CAM approaches still rely on vanilla gradients, which are inherently susceptible to the saturation phenomena. Despite recent enhancements have incorporated counterfactual gradient strategies as a mitigating measure, these local explanation techniques still exhibit a lack of sensitivity to their baseline parameter. Our work proposes a gradient-weighted CAM augmentation that tackles both the saturation and sensitivity problem by reshaping the gradient computation, incorporating two well-established and provably approaches: Expected Gradients and kernel smoothing. By revisiting the original formulation as the smoothed expectation of the perturbed integrated gradients, one can concurrently construct more faithful, localized and robust explanations which minimize infidelity. Through fine modulation of the perturbation distribution it is possible to regulate the complexity characteristic of the explanation, selectively discriminating stable features. Our technique, Expected Grad-CAM, differently from recent works, exclusively optimizes the gradient computation, purposefully designed as an enhanced substitute of the foundational Grad-CAM algorithm and any method built therefrom. Quantitative and qualitative evaluations have been conducted to assess the effectiveness of our method.
翻訳日:2024-06-27 18:16:00 公開日:2024-06-25
# SpecExec: コンシューマデバイス上での対話型LLM推論のための大規模並列投機デコーディング

SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices ( http://arxiv.org/abs/2406.02532v2 )

ライセンス: Link先を確認
Ruslan Svirschevski, Avner May, Zhuoming Chen, Beidi Chen, Zhihao Jia, Max Ryabinin, (参考訳) 大きな言語モデルが広く採用されるにつれて、それらを効率的に実行することが重要になります。 LLM推論における最近の研究は、極端なスピードアップを達成するために投機的復号法を用いている。 しかし、これらの作業のほとんどは、ハイエンドのデータセンターハードウェア向けにアルゴリズムを暗黙的に設計している。 この作業で、私たちは逆の質問をする: コンシューママシン上で、どのくらいの速度でLSMを実行できますか? コンシューマGPUは、利用可能な最大のモデル(50B以上のパラメータ)にもはや適合せず、RAMやSSDにオフロードしなければならない。 オフロードされたパラメータで実行する場合、推論エンジンは1つのトークンと同時に数百から数千のトークンのバッチを処理することができるため、投機的復号化には自然に適合する。 提案するSpecExec(Speculative Execution)は,LLMファミリのターゲットモデルイテレーション毎に最大20個のトークンを生成可能な,単純な並列復号法である。 現代のLLMにおけるトークン確率分布の高スパイキネスと、モデル出力確率間の高次アライメントを利用する。 SpecExecは、最も可能性の高いトークンをドラフトモデルから継承して、ターゲットモデル用の"キャッシュ"ツリーを構築し、単一のパスで検証する。 SpecExecを用いて,RAMオフロードが4~6トークン/秒,量子化が4ビット,あるいは16ビット重みが2~3トークン/秒の一般GPU上で50B以上のパラメータLLMを推定した。

As large language models gain widespread adoption, running them efficiently becomes crucial. Recent works on LLM inference use speculative decoding to achieve extreme speedups. However, most of these works implicitly design their algorithms for high-end datacenter hardware. In this work, we ask the opposite question: how fast can we run LLMs on consumer machines? Consumer GPUs can no longer fit the largest available models (50B+ parameters) and must offload them to RAM or SSD. When running with offloaded parameters, the inference engine can process batches of hundreds or thousands of tokens at the same time as just one token, making it a natural fit for speculative decoding. We propose SpecExec (Speculative Execution), a simple parallel decoding method that can generate up to 20 tokens per target model iteration for popular LLM families. It utilizes the high spikiness of the token probabilities distribution in modern LLMs and a high degree of alignment between model output probabilities. SpecExec takes the most probable tokens continuation from the draft model to build a "cache" tree for the target model, which then gets validated in a single pass. Using SpecExec, we demonstrate inference of 50B+ parameter LLMs on consumer GPUs with RAM offloading at 4-6 tokens per second with 4-bit quantization or 2-3 tokens per second with 16-bit weights.
翻訳日:2024-06-27 18:16:00 公開日:2024-06-25
# 衝突: 大規模言語モデル幻覚の意外な価値

Confabulation: The Surprising Value of Large Language Model Hallucinations ( http://arxiv.org/abs/2406.04175v2 )

ライセンス: Link先を確認
Peiqi Sui, Eamon Duede, Sophie Wu, Richard Jean So, (参考訳) 本稿では,大言語モデル (LLM) の幻覚や「対話」を,分類的に否定的な落とし穴ではなく潜在的資源として体系的に防御する。 標準的な見解では、コミュニケーションは本質的に問題であり、AI研究はこの欠陥を排除すべきである。 本稿では,LLMのコミュニケーションの認知的資源としてナラティビティの増大を活用すべく,LLMの可測な意味的特性が人間の正当性を反映している,と論じ,実証的な実証を行った。 言い換えれば、潜在的な価値がある。 具体的には、一般的な幻覚ベンチマークを分析し、幻覚出力は、検証結果と比較して、ナラティリティとセマンティックコヒーレンス(意味的コヒーレンス)のレベルが増大していることを明らかにする。 この発見は、通常、非難の否定的な理解の中で緊張を浮き彫りにしている。 反故意に、LCMが相反する傾向は、コヒーレントな物語文生成の正の能力と密接に関連している可能性があることを示唆している。

This paper presents a systematic defense of large language model (LLM) hallucinations or 'confabulations' as a potential resource instead of a categorically negative pitfall. The standard view is that confabulations are inherently problematic and AI research should eliminate this flaw. In this paper, we argue and empirically demonstrate that measurable semantic characteristics of LLM confabulations mirror a human propensity to utilize increased narrativity as a cognitive resource for sense-making and communication. In other words, it has potential value. Specifically, we analyze popular hallucination benchmarks and reveal that hallucinated outputs display increased levels of narrativity and semantic coherence relative to veridical outputs. This finding reveals a tension in our usually dismissive understandings of confabulation. It suggests, counter-intuitively, that the tendency for LLMs to confabulate may be intimately associated with a positive capacity for coherent narrative-text generation.
翻訳日:2024-06-27 18:16:00 公開日:2024-06-25
# LLMベースのマルチスレッド計画とソクラティックコードデバッグのための階層的質問

Instruct, Not Assist: LLM-based Multi-Turn Planning and Hierarchical Questioning for Socratic Code Debugging ( http://arxiv.org/abs/2406.11709v2 )

ライセンス: Link先を確認
Priyanka Kargupta, Ishika Agarwal, Dilek Hakkani-Tur, Jiawei Han, (参考訳) ソクラテス質問は効果的な教育戦略であり、批判的思考と問題解決を奨励する。 大規模言語モデル(LLM)の会話能力は、スケーラブルでリアルタイムな学生指導を提供する大きな可能性を示している。 しかし、現在のLLMは直接的に解を与えることが多く、非効率なインストラクターとなる。 我々は、新しい状態空間ベースの計画アルゴリズムによって誘導されるインストラクタエージェントであるTreeInstructを用いて、コードデバッグ領域におけるこの問題に対処する。 TreeInstructは、学生が個別にエラーを特定し、解決するのを助けるために、探索的な質問をする。 学生の概念的および構文的知識を推定し、その反応と現在の知識状態に基づいて質問ツリーを動的に構築し、マルチターンインタラクション設定において、独立的および依存的誤りを同時に解決する。 既存の単一バグデバッグベンチマークの使用に加えて、150のコーディング問題、不正なソリューション、バグ修正といった、専門家によって慎重に構築され、注釈付けされた、より困難なマルチバグデータセットを構築しています。 大規模な評価は、両方のデータセットでTreeInstructの最先端のパフォーマンスを示し、ベースラインよりも効果的なインストラクターであることを証明している。 さらに、様々なスキルレベルを持つ5人の学生による実世界のケーススタディでは、TreeInstructが生徒に最小限のターンと高いソクラテス的質問でコードを効率的にデバッグできるように指導する能力を示している。

Socratic questioning is an effective teaching strategy, encouraging critical thinking and problem-solving. The conversational capabilities of large language models (LLMs) show great potential for providing scalable, real-time student guidance. However, current LLMs often give away solutions directly, making them ineffective instructors. We tackle this issue in the code debugging domain with TreeInstruct, an Instructor agent guided by a novel state space-based planning algorithm. TreeInstruct asks probing questions to help students independently identify and resolve errors. It estimates a student's conceptual and syntactical knowledge to dynamically construct a question tree based on their responses and current knowledge state, effectively addressing both independent and dependent mistakes concurrently in a multi-turn interaction setting. In addition to using an existing single-bug debugging benchmark, we construct a more challenging multi-bug dataset of 150 coding problems, incorrect solutions, and bug fixes -- all carefully constructed and annotated by experts. Extensive evaluation shows TreeInstruct's state-of-the-art performance on both datasets, proving it to be a more effective instructor than baselines. Furthermore, a real-world case study with five students of varying skill levels further demonstrates TreeInstruct's ability to guide students to debug their code efficiently with minimal turns and highly Socratic questioning.
翻訳日:2024-06-27 18:06:11 公開日:2024-06-25
# グッドプットを用いた大規模言語モデル実行のための投機的デコーディングの最適化

Optimizing Speculative Decoding for Serving Large Language Models Using Goodput ( http://arxiv.org/abs/2406.14066v2 )

ライセンス: Link先を確認
Xiaoxuan Liu, Cade Daniel, Langxiang Hu, Woosuk Kwon, Zhuohan Li, Xiangxi Mo, Alvin Cheung, Zhijie Deng, Ion Stoica, Hao Zhang, (参考訳) 大規模言語モデル(LLM)の推論遅延の低減は重要であり、投機的復号化(SD)は最も効果的な手法の1つである。 LLMが全てのトークンを直接生成させる代わりに、投機的復号法は潜在的な出力を予測するために有効なプロキシを使用し、生成品質を損なうことなくLSMによって検証される。 しかし、実際のオンライン LLM サービスシステムに SD をデプロイすることは、常に改善をもたらすとは限らない -- より高い要求率や低い投機精度の下では、パラドックス的にレイテンシを向上する。さらに、異なるシステム負荷下でのすべてのワークロードに対して、最高の投機期間の作業はない。観察に基づいて、SmartSpec を開発した。SmartSpec は、各要求に対して最適な投機期間を動的に決定する(つまり、多くのトークンに対する投機がない)。従って、関連する投機実行コストは、システム全体の現在の監視負荷と投機精度を特徴付ける新しい指標である goodput に基づく。 SmartSpecは、ターゲットモデル、ドラフトモデル、要求レート、データセットの異なるサイズの非投機的デコードベースラインと比較して、平均要求遅延を最大3.2倍まで減少させる。 さらにSmartSpecは、従来のモデルベースのアプローチや、プロンプトルックアップやツリースタイルのデコーディングといったモデルフリーメソッドなど、投機的デコーディングの異なるスタイルにも適用することができる。

Reducing the inference latency of large language models (LLMs) is crucial, and speculative decoding (SD) stands out as one of the most effective techniques. Rather than letting the LLM generate all tokens directly, speculative decoding employs effective proxies to predict potential outputs, which are then verified by the LLM without compromising the generation quality. Yet, deploying SD in real online LLM serving systems (with continuous batching) does not always yield improvement -- under higher request rates or low speculation accuracy, it paradoxically increases latency. Furthermore, there is no best speculation length work for all workloads under different system loads. Based on the observations, we develop a dynamic framework SmartSpec. SmartSpec dynamically determines the best speculation length for each request (from 0, i.e., no speculation, to many tokens) -- hence the associated speculative execution costs -- based on a new metric called goodput, which characterizes the current observed load of the entire system and the speculation accuracy. We show that SmartSpec consistently reduces average request latency by up to 3.2x compared to non-speculative decoding baselines across different sizes of target models, draft models, request rates, and datasets. Moreover, SmartSpec can be applied to different styles of speculative decoding, including traditional, model-based approaches as well as model-free methods like prompt lookup and tree-style decoding.
翻訳日:2024-06-27 18:06:11 公開日:2024-06-25
# ポストホックOOD検出器の逆ロバスト性定義の解読

Deciphering the Definition of Adversarial Robustness for post-hoc OOD Detectors ( http://arxiv.org/abs/2406.15104v2 )

ライセンス: Link先を確認
Peter Lorenz, Mario Fernandez, Jens Müller, Ullrich Köthe, (参考訳) 現実世界のシナリオでディープラーニングモデルを安全にデプロイするには、アウト・オブ・ディストリビューション(OOD)インプットを検出することが重要です。 近年、多くのOOD検出器が開発され、ベンチマークさえ標準化されている。 ポストホック検出器の数は急速に増加しており、訓練済みの分類器を自然分布シフトから保護するオプションも示している。 しかし、敵の例を扱う効果は、ほとんどの研究で無視されている。 本稿では,16個のポストホック検出器のいくつかの回避攻撃に対する対角的堅牢性について検討し,OOD検出器の対角的防御に向けたロードマップについて議論する。

Detecting out-of-distribution (OOD) inputs is critical for safely deploying deep learning models in real-world scenarios. In recent years, many OOD detectors have been developed, and even the benchmarking has been standardized, i.e. OpenOOD. The number of post-hoc detectors is growing fast and showing an option to protect a pre-trained classifier against natural distribution shifts, claiming to be ready for real-world scenarios. However, its efficacy in handling adversarial examples has been neglected in the majority of studies. This paper investigates the adversarial robustness of the 16 post-hoc detectors on several evasion attacks and discuss a roadmap towards adversarial defense in OOD detectors.
翻訳日:2024-06-27 17:56:11 公開日:2024-06-25
# 自己相似性に着目した構造による音楽生成

Generating Music with Structure Using Self-Similarity as Attention ( http://arxiv.org/abs/2406.15647v2 )

ライセンス: Link先を確認
Sophia Hager, Kathleen Hablutzel, Katherine M. Kinnaird, (参考訳) 深層学習と生成AIの革新にもかかわらず、音楽作品に共通する構造と長期構造を作り出すことは、音楽生成においてオープンな課題である。 本稿では,ユーザが提供する自己相似行列を従来の時間ステップに適用した新しいアプローチを用いた注目層を提案し,これを2つの階層を持つディープラーニング自律音楽生成システムである類似性インセンティブニューラルジェネレータ(SING)システムで実証する。 1つはバニラのLong Short Term Memory層で、2つ目は提案されたアテンション層である。 生成中、このアテンション機構は、生成された音楽のテンプレートピースから提案される構造を強制する。 我々は,MAESTROデータセット上で新しい変数バッチ法を用いてSINGを訓練し,その性能を注意機構を使わずに同じモデルと比較する。 提案するアテンション機構の追加により、特定の構造を複製するネットワークの能力が大幅に向上し、アテンション機構のないモデルよりも、目に見えないテストセットの性能が向上する。

Despite the innovations in deep learning and generative AI, creating long term structure as well as the layers of repeated structure common in musical works remains an open challenge in music generation. We propose an attention layer that uses a novel approach applying user-supplied self-similarity matrices to previous time steps, and demonstrate it in our Similarity Incentivized Neural Generator (SING) system, a deep learning autonomous music generation system with two layers. The first is a vanilla Long Short Term Memory layer, and the second is the proposed attention layer. During generation, this attention mechanism imposes a suggested structure from a template piece on the generated music. We train SING on the MAESTRO dataset using a novel variable batching method, and compare its performance to the same model without the attention mechanism. The addition of our proposed attention mechanism significantly improves the network's ability to replicate specific structures, and it performs better on an unseen test set than a model without the attention mechanism.
翻訳日:2024-06-27 17:56:11 公開日:2024-06-25
# LLMs Assist NLP researchers: Critique Paper (Meta-) Reviewing

LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing ( http://arxiv.org/abs/2406.16253v2 )

ライセンス: Link先を確認
Jiangshu Du, Yibo Wang, Wenting Zhao, Zhongfen Deng, Shuaiqi Liu, Renze Lou, Henry Peng Zou, Pranav Narayanan Venkit, Nan Zhang, Mukund Srinath, Haoran Ranran Zhang, Vipul Gupta, Yinghui Li, Tao Li, Fei Wang, Qin Liu, Tianlin Liu, Pengzhi Gao, Congying Xia, Chen Xing, Jiayang Cheng, Zhaowei Wang, Ying Su, Raj Sanjay Shah, Ruohao Guo, Jing Gu, Haoran Li, Kangda Wei, Zihao Wang, Lu Cheng, Surangika Ranathunga, Meng Fang, Jie Fu, Fei Liu, Ruihong Huang, Eduardo Blanco, Yixin Cao, Rui Zhang, Philip S. Yu, Wenpeng Yin, (参考訳) この作品は2つの重要なトレンドによって動機付けられている。 一方、大規模言語モデル(LLM)は、書込み、描画、質問応答といった様々な生成タスクにおいて顕著な汎用性を示し、多くのルーチンタスクに要する時間を大幅に削減している。 一方で、研究に時間を要するだけでなく、高度な専門知識を必要とする研究者は、論文の読解、執筆、レビューにより多くの時間を費やす必要があるため、ますます課題に直面している。 LLMは、研究者が重い作業負荷を軽減するのにどのように役立つのか? 本研究は, LLMがNLP研究者を支援すること, 特に, LLMが紙(メタ)をレビューする際の有効性および認識可能性について考察する。 これを解決するために,2種類の情報を含むReviewCritiqueデータセットを構築した。 一 人書き書面及びLLM作成書面によるNLP書類(カメラ可読書面より初期提出書面)及び (ii)各レビューには「欠陥」ラベルと、専門家が注釈を付けた個々のセグメントの対応説明が添付されている。 ReviewCritiqueを用いて、本研究では2つの研究課題を探求する。 (i)「レビュアーとしてのLLM」では、LLMが生成したレビューは、品質と差別性の観点から人間によって書かれたレビューとどのように比較されるか。 (二)「メタリビューアとしてのLLM」は、個々の論文レビューにおいて、欠陥や非専門レビューセグメントなどの潜在的な問題をLLMがいかに効果的に特定できるか。 私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。

This work is motivated by two key trends. On one hand, large language models (LLMs) have shown remarkable versatility in various generative tasks such as writing, drawing, and question answering, significantly reducing the time required for many routine tasks. On the other hand, researchers, whose work is not only time-consuming but also highly expertise-demanding, face increasing challenges as they have to spend more time reading, writing, and reviewing papers. This raises the question: how can LLMs potentially assist researchers in alleviating their heavy workload? This study focuses on the topic of LLMs assist NLP Researchers, particularly examining the effectiveness of LLM in assisting paper (meta-)reviewing and its recognizability. To address this, we constructed the ReviewCritique dataset, which includes two types of information: (i) NLP papers (initial submissions rather than camera-ready) with both human-written and LLM-generated reviews, and (ii) each review comes with "deficiency" labels and corresponding explanations for individual segments, annotated by experts. Using ReviewCritique, this study explores two threads of research questions: (i) "LLMs as Reviewers", how do reviews generated by LLMs compare with those written by humans in terms of quality and distinguishability? (ii) "LLMs as Metareviewers", how effectively can LLMs identify potential issues, such as Deficient or unprofessional review segments, within individual paper reviews? To our knowledge, this is the first work to provide such a comprehensive analysis.
翻訳日:2024-06-27 17:56:11 公開日:2024-06-25
# RES-Q: リポジトリスケールでのコード編集大規模言語モデルシステムの評価

RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale ( http://arxiv.org/abs/2406.16801v2 )

ライセンス: Link先を確認
Beck LaBash, August Rosedale, Alex Reents, Lucas Negritto, Colin Wiel, (参考訳) LLM(Large Language Models)の命令追従能力は、大規模なコードリポジトリへの編集などの複雑なタスクにアプローチ可能なLLMベースのシステムのクラスを育んでいる。 LLMの動作の高感度と予測不可能さにより,これらのシステムの今後のイテレーションを推し進めるためには,ロバストな評価ツールが必要である。 実際のGitHubコミットから派生した100個の手作りリポジトリ編集タスクからなる,自然言語命令ベースのベンチマークであるRES-Qを提案する。 RES-Qは、編集命令とコードレポジトリが与えられた後、LLMシステムの命令を解釈し、リポジトリをナビゲートして関連する情報を収集し、指定された基準を満たす適切な編集を構築する能力を評価する。 この方法でLLMを評価することは、従来のベンチマークの問題に対処し、モデルの能力をより包括的に評価するものである、と我々は主張する。 我々は,言語エージェント開発ソフトウェアであるQurrent OS上に構築されたリポジトリ編集システムにおいて,言語エージェントとして,最先端のLLMを評価した。 HumanEvalでの1%のパス@1パフォーマンスの違いにもかかわらず、Claude Sonnet 3.5は、RES-QでGPT-4oを12%のパス@1で上回り、従来のベンチマークが飽和に近づくにつれて、RES-Qのモデル能力を区別する能力を示している。 さらに、トークン効率、既存のベンチマークとの性能関係、およびクローズドおよびオープンソースLLM間の興味深い相違について検討する。 コードとデータセットはhttps://github.com/Qurrent-AI/RES-Qで公開されている。

The instruction-following ability of Large Language Models (LLMs) has cultivated a class of LLM-based systems capable of approaching complex tasks such as making edits to large code repositories. Due to the high sensitivity and unpredictability of LLM behavior in response to changes in prompting, robust evaluation tools are needed to drive future iteration of these systems. We propose RES-Q, a natural language instruction-based benchmark for evaluating $\textbf{R}$epository $\textbf{E}$diting $\textbf{S}$ystems, which consists of 100 handcrafted repository editing tasks derived from real GitHub commits. Given an edit instruction and a code repository, RES-Q evaluates an LLM system's ability to interpret the instruction, navigate the repository to gather relevant information, and construct an appropriate edit that satisfies the specified criteria. We argue that evaluating LLMs in this way addresses issues with traditional benchmarks and provides a more holistic assessment of a model's abilities. We evaluate various state-of-the-art LLMs as language agents in a repository-editing system built on Qurrent OS, our language agent development software. Despite their 1% pass@1 performance difference on HumanEval, we find Claude Sonnet 3.5 outperforms GPT-4o by 12% pass@1 on RES-Q, indicating RES-Q's capacity to differentiate model capability as traditional benchmarks approach saturation. We further investigate token efficiency, performance relationships with existing benchmarks, and interesting disparities between closed and open-source LLMs. Code and dataset are available at https://github.com/Qurrent-AI/RES-Q.
翻訳日:2024-06-27 17:56:11 公開日:2024-06-25
# J_1$-$J_2$ Square Lattice Heisenberg Model Plaquette あるいは Columnar におけるバレンスボンドソリッド状態は存在するか?

Is the Valence Bond Solid state in $J_1$-$J_2$ Square Lattice Heisenberg Model Plaquette or Columnar? ( http://arxiv.org/abs/2406.17417v1 )

ライセンス: Link先を確認
Jiale Huang, Xiangjian Qian, Mingpu Qin, (参考訳) 密度行列再正規化群 (DMRG) とフル拡張行列積状態 (FAMPS) 法を用いて, J_1$-$J_2$2乗格子ハイゼンベルクモデルにおけるバレンスボンド固相 (VBS) を解析した。 CVBSとPVBSの相を区別するため,VBS相における自発的回転対称性の破れを検出することを目的とした,$y$方向の近傍結合における異方性$\Delta_y$を導入する。 計算では、結合次元をFAMPSの$D = 25,000$まで押し上げ、最大14ドル14セントでシステムをシミュレートする。 VBS二量体秩序パラメータの有限$\Delta_y$スケール解析により、VBS相をPVBS型と同定し、VBS相に自発的な回転対称性が欠落しないことを示す。 本研究は, J_1$-$J_2$2乗格子ハイゼンベルクモデルにおけるVBS次数評価の長年の問題を解決するだけでなく, 2次元量子多体系の研究におけるFAMPSの能力も強調する。

We utilize Density Matrix Renormalization Group (DMRG) and Fully Augmented Matrix Product States (FAMPS) methods to investigate the Valence Bond Solid (VBS) phase in the $J_1$-$J_2$ square lattice Heisenberg model. To differentiate between the Columnar Valence Bond Solid (CVBS) and Plaquette Valence Bond Solid (PVBS) phases, we introduce an anisotropy $\Delta_y$ in the nearest neighboring coupling in the $y$-direction, aiming at detecting the possible spontaneous rotational symmetry breaking in the VBS phase. In the calculations, we push the bond dimension to as large as $D = 25000$ in FAMPS, simulating systems at a maximum size of $14 \times 14$. With a careful extrapolation of the truncation errors and appropriate finite-size scaling, followed by finite $\Delta_y$ scaling analysis of the VBS dimer order parameters, we identify the VBS phase as a PVBS type, meaning there is no spontaneous rotational symmetry breaking in the VBS phase. This study not only resolves the long-standing issue of the characterization of the VBS order in the $J_1$-$J_2$ square lattice Heisenberg model but also highlights the capabilities of FAMPS in the study of two-dimensional quantum many-body systems.
翻訳日:2024-06-27 17:46:26 公開日:2024-06-25
# 分布学習性とロバスト性

Distribution Learnability and Robustness ( http://arxiv.org/abs/2406.17814v1 )

ライセンス: Link先を確認
Shai Ben-David, Alex Bie, Gautam Kamath, Tosca Lechner, (参考訳) 本研究では,分散学習問題における学習可能性と頑健(あるいは不可知)学習性との関係について検討する。 我々は,他の学習環境(例えば,関数クラスのPAC学習)とは対照的に,確率分布のクラスを実現可能な学習性は,その非依存的な学習性を意味するものではないことを示す。 続いて、分散クラスの学習性を阻害するデータ破損の種類と、そのような学習可能性に対する堅牢性について検討する。 分布のクラスを再現可能な学習性は、加法的汚職だけでなく、減算的汚職に対しても頑健な学習性を意味することを示す。 また、圧縮スキームと微分プライベート学習可能性の文脈における関連性についても検討する。

We examine the relationship between learnability and robust (or agnostic) learnability for the problem of distribution learning. We show that, contrary to other learning settings (e.g., PAC learning of function classes), realizable learnability of a class of probability distributions does not imply its agnostic learnability. We go on to examine what type of data corruption can disrupt the learnability of a distribution class and what is such learnability robust against. We show that realizable learnability of a class of distributions implies its robust learnability with respect to only additive corruption, but not against subtractive corruption. We also explore related implications in the context of compression schemes and differentially private learnability.
翻訳日:2024-06-27 17:46:26 公開日:2024-06-25
# SUM: 視覚アテンションモデリングのためのMambaによるSaliency Unification

SUM: Saliency Unification through Mamba for Visual Attention Modeling ( http://arxiv.org/abs/2406.17815v1 )

ライセンス: Link先を確認
Alireza Hosseini, Amirhossein Kazerouni, Saeed Akhavan, Michael Brudno, Babak Taati, (参考訳) 視覚刺激の解釈と優先順位付けに重要な視覚アテンションモデリングは、マーケティング、マルチメディア、ロボット工学などの応用において重要な役割を果たす。 従来のサリエンシ予測モデル、特に畳み込みニューラルネットワーク(CNN)やトランスフォーマーに基づくモデルは、大規模な注釈付きデータセットを活用することで顕著な成功を収めている。 しかし、トランスフォーマーを用いた現在の最先端(SOTA)モデルは計算コストが高い。 さらに、イメージタイプごとに別々のモデルが必要であることが多く、統一されたアプローチが欠如している。 本稿では,Mamba と U-Net の効率的な長距離依存性モデリングを統合し,多様な画像型に対する統一モデルを提供する新しいアプローチである,Mamba (SUM) によるSaliency Unificationを提案する。 新たなConditional Visual State Space (C-VSS)ブロックを使用することで、SUMは自然のシーン、Webページ、商用画像など、さまざまなイメージタイプに動的に対応し、さまざまなデータタイプにわたって普遍的な適用性を確保する。 5つのベンチマークの総合的な評価は、SUMが異なる視覚特性にシームレスに適応し、既存のモデルより一貫して優れていることを示している。 これらの結果から、SUMは視覚的アテンションモデリングを推進するための汎用的で強力なツールであり、様々な種類の視覚コンテンツに適用可能な堅牢なソリューションを提供する。

Visual attention modeling, important for interpreting and prioritizing visual stimuli, plays a significant role in applications such as marketing, multimedia, and robotics. Traditional saliency prediction models, especially those based on Convolutional Neural Networks (CNNs) or Transformers, achieve notable success by leveraging large-scale annotated datasets. However, the current state-of-the-art (SOTA) models that use Transformers are computationally expensive. Additionally, separate models are often required for each image type, lacking a unified approach. In this paper, we propose Saliency Unification through Mamba (SUM), a novel approach that integrates the efficient long-range dependency modeling of Mamba with U-Net to provide a unified model for diverse image types. Using a novel Conditional Visual State Space (C-VSS) block, SUM dynamically adapts to various image types, including natural scenes, web pages, and commercial imagery, ensuring universal applicability across different data types. Our comprehensive evaluations across five benchmarks demonstrate that SUM seamlessly adapts to different visual characteristics and consistently outperforms existing models. These results position SUM as a versatile and powerful tool for advancing visual attention modeling, offering a robust solution universally applicable across different types of visual content.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 産業自動化における適応コーディネートのためのハイパーメディア環境を目指して

Towards Hypermedia Environments for Adaptive Coordination in Industrial Automation ( http://arxiv.org/abs/2406.17816v1 )

ライセンス: Link先を確認
Ganesh Ramanathan, Simon Mayer, Andrei Ciortea, (参考訳) 電気機械システムは、相互接続されたコンポーネントのネットワークを介して物理的プロセスを管理する。 現在、これらのコンポーネントをコーディネートするのに必要なインタラクションをプログラミングすることは、主に手動のプロセスである。 このプロセスは時間がかかり、システム機能の変更に手動で適応する必要がある。 この問題を解決するために、私たちは、システムのセマンティック記述を処理して調整要件と制約を判断する自律ソフトウェアエージェントを使用します。このベースから、各コンポーネント間の調整要件は、究極的には、自動化プロジェクトで意味論的にモデル化された(多くの場合、すでに存在する)コンポーネント間の基盤となる物理的相互依存性のためである、ということを理解しています。 エージェントはハイパーメディアを使用して、実行時に調整を実行するのに必要なプランとプロトコルを発見する。 このアプローチの目新しいところは、ハイパーメディア駆動インタラクションの使用です。システム内の結合を減らし、機能変更に伴うランタイム適応を可能にします。

Electromechanical systems manage physical processes through a network of inter-connected components. Today, programming the interactions required for coordinating these components is largely a manual process. This process is time-consuming and requires manual adaptation when system features change. To overcome this issue, we use autonomous software agents that process semantic descriptions of the system to determine coordination requirements and constraints; on this basis, they then interact with one another to control the system in a decentralized and coordinated manner.Our core insight is that coordination requirements between individual components are, ultimately, largely due to underlying physical interdependencies between the components, which can be (and, in many cases, already are) semantically modeled in automation projects. Agents then use hypermedia to discover, at run time, the plans and protocols required for enacting the coordination. A key novelty of our approach is the use of hypermedia-driven interaction: it reduces coupling in the system and enables its run-time adaptation as features change.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 電子フォノン結合駆動二バンドモデルにおけるバンド間およびバンド内遷移と電荷移動

Interband and intraband transitions, as well as charge mobility in driven two-band model with electron phonon coupling ( http://arxiv.org/abs/2406.17817v1 )

ライセンス: Link先を確認
Yu Wang, Wenjie Dou, (参考訳) バンド間遷移とバンド内遷移は、材料、特に半導体およびナノマテリアルの電子的性質の研究における基本的な概念である。 これらの遷移は、物質内の異なるエネルギー状態またはバンド間の電子の移動を含む。 また、電荷移動は材料科学や電子工学においても重要なパラメータである。 これらの遷移と移動性に関する深い理解は、先進電子・光電子デバイスの開発と最適化に不可欠である。 本研究では、電子-フォノン結合を含む駆動二バンドモデルにおいて、外部周期駆動がバンド間およびバンド間遷移および電荷移動に与える影響について検討する。 これらの外部周期駆動は、周期レーザーフィールド、時変磁場または電界、交流電圧源を含むことができる。 我々はFloquet surface hopping (FSH) およびFloquet mean field (FMF) 法を開発した。 その結果,周期駆動はバンド間遷移を抑えつつバンド間遷移を促進できることがわかった。 さらに、電荷移動は、駆動された2バンドモデルにおけるこれらの外部周期駆動によって抑制される。

Interband and intraband transitions are fundamental concepts in the study of electronic properties of materials, particularly semiconductors and nanomaterials. These transitions involve the movement of electrons between distinct energy states or bands within a material. Besides, charge mobility is also a critical parameter in materials science and electronics. A thorough understanding of these transitions and mobility is critical for the development and optimization of advanced electronic and optoelectronic devices. In this study, we investigate the influence of external periodic drivings on interband and intraband transitions, as well as charge mobility, within a driven two-band model that includes electron-phonon coupling. These external periodic drivings can include a periodic laser field, a time-varying magnetic or electric field, or an alternating current (AC) voltage source. We have developed the Floquet surface hopping (FSH) and Floquet mean field (FMF) methods to simulate electronic dynamics under various drivings in both real and reciprocal spaces. Our findings demonstrate that periodic drivings can enhance interband transitions while suppressing intraband transitions. Additionally, charge mobility is restrained by these external periodic drivings in the driven two-band model.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 配電系統におけるアクティブ電圧制御のための時間的プロトタイプ認識学習

Temporal Prototype-Aware Learning for Active Voltage Control on Power Distribution Networks ( http://arxiv.org/abs/2406.17818v1 )

ライセンス: Link先を確認
Feiyang Xu, Shunyu Liu, Yunpeng Qing, Yihe Zhou, Yuwen Wang, Mingli Song, (参考訳) 電力配電ネットワーク(PDN)のアクティブ電圧制御(AVC)は、電力系統の効率と信頼性を確保するために電圧レベルを安定化することを目的としている。 近年,分散エネルギー資源の統合が進み,効率的なAVCを実現するためにマルチエージェント強化学習(MARL)技術の導入が検討されている。 既存の方法は、主に短期的なAVC戦略の獲得に焦点を当てている。 しかし、負荷要求と再生可能エネルギーの動的な性質により、実世界のPDNの運転状態は、様々な時間スケール(例えば、日と季節の変化)で顕著な分布変化を示す可能性がある。 これにより、これらの短期戦略が、長期にわたって連続的なAVCを実行する際に、最適でないか、あるいは時代遅れになる可能性がある。 本稿では,時間適応型AVCを短期訓練軌道下で学習するための,時間適応型TPA学習法を提案する。 TPAの中心には、2つの補完的なコンポーネント、すなわちマルチスケールの動的エンコーダと、様々なMARLメソッドに容易に組み込むことができる時間的プロトタイプアウェアポリシーがある。 前者のコンポーネントは、PDNの異なる時間スケールで下位の時間的依存関係を学習するためにスタック化されたトランスフォーマーネットワークを統合し、後者は学習可能なプロトタイプマッチング機構を実装し、進化する操作状態に動的に適応可能な専用のAVCポリシーを構築する。 PDNサイズが異なるAVCベンチマーク実験の結果,提案したTPAは制御性能だけでなく,モデル転送性も実現している。 私たちのコードはhttps://github.com/Canyizl/TPA-for-AVC.comで利用可能です。

Active Voltage Control (AVC) on the Power Distribution Networks (PDNs) aims to stabilize the voltage levels to ensure efficient and reliable operation of power systems. With the increasing integration of distributed energy resources, recent efforts have explored employing multi-agent reinforcement learning (MARL) techniques to realize effective AVC. Existing methods mainly focus on the acquisition of short-term AVC strategies, i.e., only learning AVC within the short-term training trajectories of a singular diurnal cycle. However, due to the dynamic nature of load demands and renewable energy, the operation states of real-world PDNs may exhibit significant distribution shifts across varying timescales (e.g., daily and seasonal changes). This can render those short-term strategies suboptimal or even obsolete when performing continuous AVC over extended periods. In this paper, we propose a novel temporal prototype-aware learning method, abbreviated as TPA, to learn time-adaptive AVC under short-term training trajectories. At the heart of TPA are two complementary components, namely multi-scale dynamic encoder and temporal prototype-aware policy, that can be readily incorporated into various MARL methods. The former component integrates a stacked transformer network to learn underlying temporal dependencies at different timescales of the PDNs, while the latter implements a learnable prototype matching mechanism to construct a dedicated AVC policy that can dynamically adapt to the evolving operation states. Experimental results on the AVC benchmark with different PDN sizes demonstrate that the proposed TPA surpasses the state-of-the-art counterparts not only in terms of control performance but also by offering model transferability. Our code is available at https://github.com/Canyizl/TPA-for-AVC.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 自動適応型コンフォーマルリスク制御

Automatically Adaptive Conformal Risk Control ( http://arxiv.org/abs/2406.17819v1 )

ライセンス: Link先を確認
Vincent Blot, Anastasios N Angelopoulos, Michael I Jordan, Nicolas J-B Brunel, (参考訳) 科学とテクノロジーは、ブラックボックス機械学習アルゴリズムの信頼性と制御されたパフォーマンスを保証する効果的なメカニズムの必要性が高まっている。 これらの性能保証は、理想的には入力に条件付きで保持すべきであり、つまり、パフォーマンス保証は、入力が何であれ、少なくともほぼ保持されるべきである。 しかし、民族や性別といった形式化された離散的なグループ化を超えて、条件付けの正しい概念を定義することは困難である。 例えば、画像のセグメンテーションのような問題では、テストサンプルの本質的な難しさを反映する不確かさが望まれるが、条件付けイベントによるキャプチャは困難である。 本稿では,Gibs et al [2023] の最近の研究に基づいて,テストサンプルの難易度に適応して,損失関数の期待値である統計的リスクの近似条件制御を実現する手法を提案する。 我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。 この枠組みを様々な回帰・セグメント化タスクに適用し、モデル性能のきめ細かい制御を可能にし、これらのパラメータを継続的に監視・調整することにより、従来のリスク制御手法と比較して精度が良いことを示す。

Science and technology have a growing need for effective mechanisms that ensure reliable, controlled performance from black-box machine learning algorithms. These performance guarantees should ideally hold conditionally on the input-that is the performance guarantees should hold, at least approximately, no matter what the input. However, beyond stylized discrete groupings such as ethnicity and gender, the right notion of conditioning can be difficult to define. For example, in problems such as image segmentation, we want the uncertainty to reflect the intrinsic difficulty of the test sample, but this may be difficult to capture via a conditioning event. Building on the recent work of Gibbs et al. [2023], we propose a methodology for achieving approximate conditional control of statistical risks-the expected value of loss functions-by adapting to the difficulty of test samples. Our framework goes beyond traditional conditional risk control based on user-provided conditioning events to the algorithmic, data-driven determination of appropriate function classes for conditioning. We apply this framework to various regression and segmentation tasks, enabling finer-grained control over model performance and demonstrating that by continuously monitoring and adjusting these parameters, we can achieve superior precision compared to conventional risk-control methods.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# トポロジカルに荷電したEddington-Infeld重力時空とWu-Yang磁極における高調波振動子系

Harmonic oscillator system in topologically charged Eddington-inspired Born-Infeld gravity space-time and Wu-Yang magnetic monopole ( http://arxiv.org/abs/2406.17821v1 )

ライセンス: Link先を確認
Faizuddin Ahmed, Abdelmalek Bouzenada, (参考訳) トポロジカルに荷電したEddington-inspired Born-Infeld (EiBI)重力時空の枠組みにおける高調波発振器(HO)系の量子力学について検討する。 さらに、Wu-Yang磁気モノポール(WYMM)を量子系に組み込んで、修正重力、トポロジカル電荷、WYMMがHO量子力学系に与える影響を分析する。 解析的手法を用いて、HOのエネルギー固有値と対応する固有関数を導出する。 さらに,EiBI重力パラメータが欠落しているシナリオを考察し,WYMMを含む逆2乗ポテンシャルをHOシステムに導入する。 本研究は,境界状態スペクトルと固有関数の変化を含む,従来の量子力学的HOモデルと比較して,HO系の挙動に有意な差が認められた。 これらの結果は、量子力学問題と代替重力理論の間の相互作用に関する貴重な洞察を与える。

We investigate the quantum dynamics of a harmonic oscillator (HO) system within the framework of topologically charged Eddington-inspired Born-Infeld (EiBI) gravity space-time. Additionally, we incorporate the Wu-Yang magnetic monopole (WYMM) into the quantum system and analyze the influences of modified gravity, the topological charge, and WYMM on this HO quantum mechanical system. Using analytical methods, we derive the energy eigenvalues and the corresponding eigenfunctions of the HO. Moreover, we consider a scenario where the EiBI-gravity parameter is absent and introduce an inverse square potential, including the WYMM, into the HO system. Our findings show significant deviations in the behavior of the HO system compared to the traditional quantum mechanical HO model, including alterations in the bound-state spectra and eigenfunctions. These results provide valuable insights into the interplay between quantum mechanical problems and alternative gravitational theories.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 神経イメージングバイオマーカーによるアルツハイマー病早期の予測のためのAI -- 成長する分野の物語的レビュー

AI for the prediction of early stages of Alzheimer's disease from neuroimaging biomarkers -- A narrative review of a growing field ( http://arxiv.org/abs/2406.17822v1 )

ライセンス: Link先を確認
Thorsten Rudroff, Oona Rainio, Riku Klén, (参考訳) 目的: この物語レビューの目的は、早期アルツハイマー病(AD)予測のための神経イメージングにおけるAI応用の現状を要約し、早期AD診断、予後、管理を改善するAI技術の可能性を強調することである。 方法:我々は早期AD予測のための神経画像データに適用したAI技術を用いた研究の物語レビューを行った。 我々は、構造MRIとPET画像を用いた単一モダリティ研究と、複数のニューロイメージング技術とバイオマーカーを統合したマルチモダリティ研究について検討した。 さらに、彼らはADの進行をモデル化し、急速に減少するリスクのある個人を特定するという縦断的研究をレビューした。 結果: 構造MRIおよびPET画像を用いた単一モダリティ研究は,ADの分類と軽度認知障害(MCI)からADへの進行の予測において高い精度を示した。 複数のニューロイメージング技術とバイオマーカーを統合するマルチモダリティ研究は、単一モダリティアプローチと比較して、パフォーマンスと堅牢性が改善されている。 縦断的研究は、AIのモデリングにおける価値を強調し、急激な減少のリスクがある個人を特定する。 しかし、データ標準化、モデル解釈可能性、一般化可能性、臨床統合、倫理的考察に課題が残っている。 結論: 神経画像データに適用されたAI技術は、早期AD診断、予後、管理を改善する可能性がある。 データ標準化、モデル解釈可能性、一般化可能性、臨床統合、倫理的考察に関連する課題に対処することは、AD研究と臨床実践におけるAIの潜在能力を実現するために不可欠である。 AD患者や社会に利益をもたらす信頼できる、堅牢で倫理的なAIツールを開発するためには、研究者、臨床医、規制機関の協力的な努力が必要である。

Objectives: The objectives of this narrative review are to summarize the current state of AI applications in neuroimaging for early Alzheimer's disease (AD) prediction and to highlight the potential of AI techniques in improving early AD diagnosis, prognosis, and management. Methods: We conducted a narrative review of studies using AI techniques applied to neuroimaging data for early AD prediction. We examined single-modality studies using structural MRI and PET imaging, as well as multi-modality studies integrating multiple neuroimaging techniques and biomarkers. Furthermore, they reviewed longitudinal studies that model AD progression and identify individuals at risk of rapid decline. Results: Single-modality studies using structural MRI and PET imaging have demonstrated high accuracy in classifying AD and predicting progression from mild cognitive impairment (MCI) to AD. Multi-modality studies, integrating multiple neuroimaging techniques and biomarkers, have shown improved performance and robustness compared to single-modality approaches. Longitudinal studies have highlighted the value of AI in modeling AD progression and identifying individuals at risk of rapid decline. However, challenges remain in data standardization, model interpretability, generalizability, clinical integration, and ethical considerations. Conclusion: AI techniques applied to neuroimaging data have the potential to improve early AD diagnosis, prognosis, and management. Addressing challenges related to data standardization, model interpretability, generalizability, clinical integration, and ethical considerations is crucial for realizing the full potential of AI in AD research and clinical practice. Collaborative efforts among researchers, clinicians, and regulatory agencies are needed to develop reliable, robust, and ethical AI tools that can benefit AD patients and society.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# GPU加速による2次元乱流の量子インスピレーション流体シミュレーション

Quantum-Inspired Fluid Simulation of 2D Turbulence with GPU Acceleration ( http://arxiv.org/abs/2406.17823v1 )

ライセンス: Link先を確認
Leonhard Hölscher, Pooja Rao, Lukas Müller, Johannes Klepsch, Andre Luckow, Tobias Stollenwerk, Frank K. Wilhelm, (参考訳) テンソルネットワークアルゴリズムは、その構造と絡み合いの知識を利用することで、複雑な量子多体系を効率的にシミュレートすることができる。 これらの手法は最近、車両の空気力学から気象パターンまで、流体現象のスペクトルを記述するナビエ・ストークス方程式の解法に応用されている。 この量子に着想を得たパラダイムの中で、速度は行列積状態(MPS)として符号化され、量子多体物理学における流体力学のスケール間相関と絡み合いの類似を効果的に活用する。 このテンソル構造は量子テンソルトレイン(QTT)とも呼ばれる。 NVIDIAのcuQuantumライブラリを使用してGPU上で並列テンソル計算を行うことで、シミュレーションを最大12.1倍高速化する。 これにより、適用性、スケーラビリティ、パフォーマンスの観点からアルゴリズムを研究できます。 高レイノルズ数での定性的に異なる2つの2次元フロー問題を4次時間ステップスキームを用いて最大1\times10^7$までシミュレーションすることにより、格子解像度の要求が大幅に増大するにつれて、乱流系における直接数値シミュレーションよりも潜在的に有利であることが判明した。 さらに、乱流場を表す最大結合次元$\chi$のMPSに対して、スケール$\chi=\mathcal{O}(\text{poly}(1/\epsilon)$を、乱流エネルギーのスペクトル分布に基づいて誤差$\epsilon$とする。 我々の発見は、関連する量子アルゴリズムや他のテンソルネットワーク手法のさらなる探索を動機付けている。

Tensor network algorithms can efficiently simulate complex quantum many-body systems by utilizing knowledge of their structure and entanglement. These methodologies have been adapted recently for solving the Navier-Stokes equations, which describe a spectrum of fluid phenomena, from the aerodynamics of vehicles to weather patterns. Within this quantum-inspired paradigm, velocity is encoded as matrix product states (MPS), effectively harnessing the analogy between interscale correlations of fluid dynamics and entanglement in quantum many-body physics. This particular tensor structure is also called quantics tensor train (QTT). By utilizing NVIDIA's cuQuantum library to perform parallel tensor computations on GPUs, our adaptation speeds up simulations by up to 12.1 times. This allows us to study the algorithm in terms of its applicability, scalability, and performance. By simulating two qualitatively different but commonly encountered 2D flow problems at high Reynolds numbers up to $1\times10^7$ using a fourth-order time stepping scheme, we find that the algorithm has a potential advantage over direct numerical simulations in the turbulent regime as the requirements for grid resolution increase drastically. In addition, we derive the scaling $\chi=\mathcal{O}(\text{poly}(1/\epsilon))$ for the maximum bond dimension $\chi$ of MPS representing turbulent flow fields, with an error $\epsilon$, based on the spectral distribution of turbulent kinetic energy. Our findings motivate further exploration of related quantum algorithms and other tensor network methods.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# CNN, 双方向LSTM, ResNetを用いたネパール語の自動音声認識

Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet ( http://arxiv.org/abs/2406.17825v1 )

ライセンス: Link先を確認
Manish Dhakal, Arman Chhetri, Aman Kumar Gupta, Prabin Lamichhane, Suraj Pandey, Subarna Shakya, (参考訳) 本稿ではネパール語音声をテキストに書き起こす自動音声認識(ASR)のためのエンドツーエンドディープラーニングモデルを提案する。 モデルはOpenSLR(audio, text)データセットでトレーニングされ、テストされた。 オーディオデータセットの大部分は、データセット前処理中にクリップされ、より均一なオーディオフレームと対応するテキストのマッピングを行う。 MFCC(Mel Frequency Cepstral Coefficients)は、モデルに入力するためのオーディオ機能として使用される。 ResNetと1次元CNNと組み合わせた双方向LSTMを持つモデルは、これまでにトレーニングされた全てのモデル(LSTM、GRU、CNN、ResNetのバリエーションを持つニューラルネットワーク)の中で、このデータセットの最良の結果を生成する。 この新モデルは、トレーニング中の損失計算とCTCビーム探索デコードにコネクティニスト時間分類(CTC)関数を使用し、ネパール語のテキストの最も可能性の高いシーケンスとして文字を予測する。 テストデータセットでは17.06パーセントの文字エラー率(CER)が達成されている。 ソースコードはhttps://github.com/manishdhakal/ASR-Nepali-using-CNN-BiLSTM-ResNetで公開されている。

This paper presents an end-to-end deep learning model for Automatic Speech Recognition (ASR) that transcribes Nepali speech to text. The model was trained and tested on the OpenSLR (audio, text) dataset. The majority of the audio dataset have silent gaps at both ends which are clipped during dataset preprocessing for a more uniform mapping of audio frames and their corresponding texts. Mel Frequency Cepstral Coefficients (MFCCs) are used as audio features to feed into the model. The model having Bidirectional LSTM paired with ResNet and one-dimensional CNN produces the best results for this dataset out of all the models (neural networks with variations of LSTM, GRU, CNN, and ResNet) that have been trained so far. This novel model uses Connectionist Temporal Classification (CTC) function for loss calculation during training and CTC beam search decoding for predicting characters as the most likely sequence of Nepali text. On the test dataset, the character error rate (CER) of 17.06 percent has been achieved. The source code is available at: https://github.com/manishdhakal/ASR-Nepali-using-CNN-BiLSTM-ResNet.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 欧州宇宙機関による衛星テレメトリの異常検出基準

European Space Agency Benchmark for Anomaly Detection in Satellite Telemetry ( http://arxiv.org/abs/2406.17826v1 )

ライセンス: Link先を確認
Krzysztof Kotowski, Christoph Haskamp, Jacek Andrzejewski, Bogdan Ruszczak, Jakub Nalepa, Daniel Lakey, Peter Collins, Aybike Kolmas, Mauro Bartesaghi, Jose Martinez-Heras, Gabriele De Canio, (参考訳) 機械学習は、宇宙船の運用において重要なタスクである衛星テレメトリーにおける異常検出を改善する大きな可能性を秘めている。 このポテンシャルは、特に衛星テレメトリの難易度において、多変量時系列異常検出のための理解可能なベンチマークの欠如によって、現在妨げられている。 欧州宇宙機関の衛星テレメトリにおける異常検出ベンチマーク(ESA-ADB)は、この課題に対処し、領域に新しい標準を確立することを目的としている。 これは欧州宇宙機関(ESA)の宇宙船操作技術者と機械学習の専門家の緊密な協力の結果である。 新たに導入されたESA異常データセットには、ESA-ADBに含まれる3つのESAミッションからの注釈付き実生活テレメトリが含まれている。 新しい階層的評価パイプラインで評価された典型的な異常検出アルゴリズムの結果は、演算子のニーズに対処するために新しいアプローチが必要であることを示している。 ESA-ADBのすべての要素は、その完全な再現性を保証するために公開されている。

Machine learning has vast potential to improve anomaly detection in satellite telemetry which is a crucial task for spacecraft operations. This potential is currently hampered by a lack of comprehensible benchmarks for multivariate time series anomaly detection, especially for the challenging case of satellite telemetry. The European Space Agency Benchmark for Anomaly Detection in Satellite Telemetry (ESA-ADB) aims to address this challenge and establish a new standard in the domain. It is a result of close cooperation between spacecraft operations engineers from the European Space Agency (ESA) and machine learning experts. The newly introduced ESA Anomalies Dataset contains annotated real-life telemetry from three different ESA missions, out of which two are included in ESA-ADB. Results of typical anomaly detection algorithms assessed in our novel hierarchical evaluation pipeline show that new approaches are necessary to address operators' needs. All elements of ESA-ADB are publicly available to ensure its full reproducibility.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# クリックスルーレート予測モデルの高速学習のための極端学習機械

Extreme Learning Machines for Fast Training of Click-Through Rate Prediction Models ( http://arxiv.org/abs/2406.17828v1 )

ライセンス: Link先を確認
Ergun Biçici, (参考訳) Extreme Learning Machines (ELM)は、ニューラルネットワークにおける従来の勾配に基づく学習の高速な代替手段を提供し、迅速なトレーニングと堅牢な一般化機能を提供する。 その理論的基礎は普遍近似能力を示している。 本報告では,高次元性のため,EMMがほとんど探索していないClick-Through Rate (CTR) 予測のタスクに対するEMMの適用について検討する。 本稿では,CTRタスクの性能向上のために,埋め込み層を付加したEMMモデルを提案する。 Avazu や Criteo などのベンチマークデータセットを用いた実験結果から,提案する ELM は,Masknet などの最先端モデルと比較して,トレーニング時間を大幅に短縮しつつ,競争力のある F1 結果が得られることが示された。 以上の結果から,EMMはCTR予測に有用であることが示唆された。

Extreme Learning Machines (ELM) provide a fast alternative to traditional gradient-based learning in neural networks, offering rapid training and robust generalization capabilities. Its theoretical basis shows its universal approximation capability. We explore the application of ELMs for the task of Click-Through Rate (CTR) prediction, which is largely unexplored by ELMs due to the high dimensionality of the problem. We introduce an ELM-based model enhanced with embedding layers to improve the performance on CTR tasks, which is a novel addition to the field. Experimental results on benchmark datasets, including Avazu and Criteo, demonstrate that our proposed ELM with embeddings achieves competitive F1 results while significantly reducing training time compared to state-of-the-art models such as Masknet. Our findings show that ELMs can be useful for CTR prediction, especially when fast training is needed.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 対向ロバスト性を考慮したランダム化平滑化における統計的推定問題の処理

Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness ( http://arxiv.org/abs/2406.17830v1 )

ライセンス: Link先を確認
Vaclav Voracek, (参考訳) ランダムな平滑化は敵の攻撃に対する認証された防御である。 本質的に、認定されるすべての点に対して、分類器の多くの(通常10^5$)前方通過を実行する必要があるため、通常は非常に時間を要する統計的推定の問題を解決する必要がある。 本稿では,ランダムな平滑化のための統計的推定問題について概説し,計算負荷が必要かどうかを確かめる。 特に、ある点が一定の半径で頑健かどうかを統計的保証を維持しながらできるだけ少ないサンプルを用いて決定する必要がある(標準的)逆強靭性(英語版)のタスクを考える。 提案手法は,提案手法と同一の統計的保証を享受する信頼度系列を用いた推定手順であり,その推定タスクに最適なサンプル複雑度を持ち,その性能を実証的に示すものである。 さらに,Cropper-Pearson信頼区間のランダム化版を提供し,厳密な認証を行う。

Randomized smoothing is a popular certified defense against adversarial attacks. In its essence, we need to solve a problem of statistical estimation which is usually very time-consuming since we need to perform numerous (usually $10^5$) forward passes of the classifier for every point to be certified. In this paper, we review the statistical estimation problems for randomized smoothing to find out if the computational burden is necessary. In particular, we consider the (standard) task of adversarial robustness where we need to decide if a point is robust at a certain radius or not using as few samples as possible while maintaining statistical guarantees. We present estimation procedures employing confidence sequences enjoying the same statistical guarantees as the standard methods, with the optimal sample complexities for the estimation task and empirically demonstrate their good performance. Additionally, we provide a randomized version of Clopper-Pearson confidence intervals resulting in strictly stronger certificates.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 一般化変分推論を用いた動的ベイズネットワークの実証ベイズ

Empirical Bayes for Dynamic Bayesian Networks Using Generalized Variational Inference ( http://arxiv.org/abs/2406.17831v1 )

ライセンス: Link先を確認
Vyacheslav Kungurtsev, Apaar Garg, Aarya Khandelwal, Parth Sandeep Ratogi, Bapi Chatterjee, Jakub Marecek, (参考訳) 本研究では,動的ベイズネットワークを学習するための経験的ベイズアプローチを実演する。 構造と重みのいくつかの点推定から始めることで、データ駆動モデルを使用して不確実性を定量化することができる。 このアプローチは最近の一般化変分推論の展開を利用しており、DAG構造の混合の不確かさとパラメータ後部をサンプリングする可能性を示している。

In this work, we demonstrate the Empirical Bayes approach to learning a Dynamic Bayesian Network. By starting with several point estimates of structure and weights, we can use a data-driven prior to subsequently obtain a model to quantify uncertainty. This approach uses a recent development of Generalized Variational Inference, and indicates the potential of sampling the uncertainty of a mixture of DAG structures as well as a parameter posterior.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 変圧器を用いた多変量系の一様骨格予測

Univariate Skeleton Prediction in Multivariate Systems Using Transformers ( http://arxiv.org/abs/2406.17834v1 )

ライセンス: Link先を確認
Giorgio Morales, John W. Sheppard, (参考訳) シンボリック回帰(SR)法は、観測されたシステムの振舞いを近似する数学的表現を学習しようとする。 しかし、多変量系を扱う場合、各変数とシステムの応答の関係を説明する機能形式を識別できないことが多い。 この問題に対処するために、各変数がシステムの応答にどのように影響するかを説明することを目的とした、一変量シンボリックスケルトンを生成する説明可能なニューラルSR法を提案する。 1つの入力変数が変化し、他の入力変数が固定された複数のデータ集合を人工的に解析することにより、各入力変数に対する関係を別々にモデル化する。 このような人工データセットの応答を回帰ニューラルネットワーク(NN)を用いて推定する。 最後に、入力-応答対の複数セットを事前学習したマルチセット変換器で処理し、マルチセットスケルトン予測(Multi-Set Skeleton Prediction)と呼ばれる問題を解き、一変量シンボリックスケルトンを出力する。 したがって、そのようなスケルトンは回帰NNによって近似された関数の説明を表す。 実験により,本手法は基礎となる機能に適合する骨格表現を学習し,GPベースと2つのニューラルSR法より優れていることが示された。

Symbolic regression (SR) methods attempt to learn mathematical expressions that approximate the behavior of an observed system. However, when dealing with multivariate systems, they often fail to identify the functional form that explains the relationship between each variable and the system's response. To begin to address this, we propose an explainable neural SR method that generates univariate symbolic skeletons that aim to explain how each variable influences the system's response. By analyzing multiple sets of data generated artificially, where one input variable varies while others are fixed, relationships are modeled separately for each input variable. The response of such artificial data sets is estimated using a regression neural network (NN). Finally, the multiple sets of input-response pairs are processed by a pre-trained Multi-Set Transformer that solves a problem we termed Multi-Set Skeleton Prediction and outputs a univariate symbolic skeleton. Thus, such skeletons represent explanations of the function approximated by the regression NN. Experimental results demonstrate that this method learns skeleton expressions matching the underlying functions and outperforms two GP-based and two neural SR methods.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 科学発見のためのAIロボットシステムの利用

The Use of AI-Robotic Systems for Scientific Discovery ( http://arxiv.org/abs/2406.17835v1 )

ライセンス: Link先を確認
Alexander H. Gower, Konstantin Korovin, Daniel Brunnsåker, Filip Kronström, Gabriel K. Reder, Ievgeniia A. Tiukova, Ronald S. Reiserer, John P. Wikswo, Ross D. King, (参考訳) 理論やモデルを開発し、実験でテストする過程は、科学的な方法の基本である。 科学的手法全体を自動化するには、データから理論を誘導する自動化だけでなく、設計から実装までの実験が必要である。 これは、ロボット科学者のアイデアだ。AIと実験ロボットの複合システムで、現実世界の実験で仮説をテストするための機関を持っている。 この章では、科学哲学におけるロボット科学者の基礎をいくつか探求する。 また、ロボット科学者の活動を機械学習パラダイムにマッピングし、科学的手法はアクティブな学習と類似していると主張している。 システム生物学の研究用に設計された次世代ロボット科学者であるGenesisは、コンピュータ制御された1000個のマイクロバイオリアクターと、制御された語彙と論理に基づく解釈可能なモデルを備えたマイクロ流体システムを含む。

The process of developing theories and models and testing them with experiments is fundamental to the scientific method. Automating the entire scientific method then requires not only automation of the induction of theories from data, but also experimentation from design to implementation. This is the idea behind a robot scientist -- a coupled system of AI and laboratory robotics that has agency to test hypotheses with real-world experiments. In this chapter we explore some of the fundamentals of robot scientists in the philosophy of science. We also map the activities of a robot scientist to machine learning paradigms, and argue that the scientific method shares an analogy with active learning. We demonstrate these concepts using examples from previous robot scientists, and also from Genesis: a next generation robot scientist designed for research in systems biology, comprising a micro-fluidic system with 1000 computer-controlled micro-bioreactors and interpretable models based in controlled vocabularies and logic.
翻訳日:2024-06-27 17:36:24 公開日:2024-06-25
# 科学におけるAIオラクルのムーンショット

A Moonshot for AI Oracles in the Sciences ( http://arxiv.org/abs/2406.17836v1 )

ライセンス: Link先を確認
Bryan Kaiser, Tailin Wu, Maike Sonnewald, Colin Thackray, Skylar Callis, (参考訳) ノーベル賞受賞者のフィリップ・アンダーソンとエリフ・エイブラハムスはかつて、「たとえ機械が通常の科学に寄与したとしても、彼らはクーン革命を起こして新しい物理法則を確立できるメカニズムは見つからない」と述べた。 本稿では、科学と人工知能(AI)の哲学から洞察を得て、革命的な数学的理論を生成するためのメカニズムを正確に構築するために必要な条件を提案する。 近年のAIの進歩は,提案する必要な条件を機械で満たすことが可能であることを示唆している。 また,機械理論の発展を促進するために,数学的理論の知性に関するヒューリスティックな定義を提案する。

Nobel laureate Philip Anderson and Elihu Abrahams once stated that, "even if machines did contribute to normal science, we see no mechanism by which they could create a Kuhnian revolution and thereby establish a new physical law." In this Perspective, we draw upon insights from the philosophies of science and artificial intelligence (AI) to propose necessary conditions of precisely such a mechanism for generating revolutionary mathematical theories. Recent advancements in AI suggest that satisfying the proposed necessary conditions by machines may be plausible; thus, our proposed necessary conditions also define a moonshot challenge. We also propose a heuristic definition of the intelligibility of mathematical theories to accelerate the development of machine theorists.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# 変圧器正規化層と意味空間の独立性

Transformer Normalisation Layers and the Independence of Semantic Subspaces ( http://arxiv.org/abs/2406.17837v1 )

ライセンス: Link先を確認
Stephen Menary, Samuel Kaski, Andre Freitas, (参考訳) 近年の研究では、変換器は回路と呼ばれる計算グラフを内部的に実行することで、文脈推論のタスクを解くことができることが示されている。 回路はしばしば、表現のサブスペースからの情報に論理的に一致するために注意を払っている。 本研究では、意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。 本研究では, モデルが直交球面の厳密な表現構造を学習しない限り, 最先端の変圧器が使用する正規化層の配置であるPre-Normが, この能力に反することを示す。 これは線型部分空間がそれらの共通正規化因子を介して干渉するからである。 理論的には、この干渉をクエリ/キー/値ベクトルの$L_2$-normsのランダムノイズとしてモデル化し、スパースアテンションが異なるトークンに移行すると回路崩壊現象を予測する。 実験により,標準値が$\lesssim$10%で人工摂動された場合,回路崩壊の1%の速度を観察し,実世界のモデルが数学的付加のために訓練された場合の感度について検討した。 我々は、注目ヘッドの線形作用素の後に正規化を行うQKV-NormとPre-Normを対比する。 理論的には、これは表現的制約を緩和する。 経験的に比較すると、分配性能は同等だが、分配性能は悪くなる。

Recent works have shown that transformers can solve contextual reasoning tasks by internally executing computational graphs called circuits. Circuits often use attention to logically match information from subspaces of the representation, e.g. using position-in-sequence to identify the previous token. In this work, we consider a semantic subspace to be any independent subspace of the latent representation that can fully determine an attention distribution. We show that Pre-Norm, the placement of normalisation layer used by state-of-the-art transformers, violates this ability unless the model learns a strict representation structure of orthogonal spheres. This is because it causes linear subspaces to interfere through their common normalisation factor. Theoretically, we analyse circuit stability by modelling this interference as random noise on the $L_2$-norms of the query/key/value vectors, predicting a phenomenon of circuit collapse when sparse-attention shifts to a different token. Empirically, we investigate the sensitivity of real-world models trained for mathematical addition, observing a 1% rate of circuit collapse when the norms are artificially perturbed by $\lesssim$10%. We contrast Pre-Norm with QKV-Norm, which places normalisation after the attention head's linear operators. Theoretically this relaxes the representational constraints. Empirically we observe comparable in-distribution but worse out-of-distribution performance.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# InFiConD:概念に基づく知識蒸留による対話型ノーコードファインタニング

InFiConD: Interactive No-code Fine-tuning with Concept-based Knowledge Distillation ( http://arxiv.org/abs/2406.17838v1 )

ライセンス: Link先を確認
Jinbin Huang, Wenbin He, Liang Gou, Liu Ren, Chris Bryan, (参考訳) 大規模事前学習モデルの出現により、様々な下流タスクにおける応用が高まったが、計算資源が限られている環境での展開は困難である。 このようなシナリオでは知識蒸留が解法として現れており、大きな教師モデルからの知識はより小さな生徒のモデルに移されるが、これは従来AI/MLの技術的専門知識を必要とする非自明なプロセスである。 これらの課題に対処するため,本研究では,知識蒸留プロセスの実装に視覚的概念を活用する新しいフレームワークであるInFiConDを提案する。 マルチモーダルモデルを用いた概念コーパスからテキスト整列型視覚概念を抽出し,教師モデルに類似した視覚概念に基づく高度に解釈可能な線形学習者モデルを構築した。 InFiConDのインタフェースは、ユーザインタフェース内で概念の影響を直接操作することで、対話的に学生モデルを微調整することができる。 InFiConDは,ロバストな利用シナリオとユーザスタディを通じて検証する。 InFiConDのヒューマン・イン・ザ・ループ(Human-in-the-loop)とビジュアライゼーション(ビジュアライゼーション(ビジュアライゼーション)によるアプローチにより,学生モデルの効率的な作成と分析,知識の伝達方法の理解,微調整操作の効率化が実現された。 本研究は,知識蒸留における対話的および視覚的手法の可能性を強調し,その後,ドメイン固有の要求を持つ幅広いユーザに対して,よりアクセシブルで適応可能なノーコードファインタニングについて論じる。

The emergence of large-scale pre-trained models has heightened their application in various downstream tasks, yet deployment is a challenge in environments with limited computational resources. Knowledge distillation has emerged as a solution in such scenarios, whereby knowledge from large teacher models is transferred into smaller student' models, but this is a non-trivial process that traditionally requires technical expertise in AI/ML. To address these challenges, this paper presents InFiConD, a novel framework that leverages visual concepts to implement the knowledge distillation process and enable subsequent no-code fine-tuning of student models. We develop a novel knowledge distillation pipeline based on extracting text-aligned visual concepts from a concept corpus using multimodal models, and construct highly interpretable linear student models based on visual concepts that mimic a teacher model in a response-based manner. InFiConD's interface allows users to interactively fine-tune the student model by manipulating concept influences directly in the user interface. We validate InFiConD via a robust usage scenario and user study. Our findings indicate that InFiConD's human-in-the-loop and visualization-driven approach enables users to effectively create and analyze student models, understand how knowledge is transferred, and efficiently perform fine-tuning operations. We discuss how this work highlights the potential of interactive and visual methods in making knowledge distillation and subsequent no-code fine-tuning more accessible and adaptable to a wider range of users with domain-specific demands.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# ヒューマン・レベル・インストラクションからのヒューマン・オブジェクトのインタラクション

Human-Object Interaction from Human-Level Instructions ( http://arxiv.org/abs/2406.17840v1 )

ライセンス: Link先を確認
Zhen Wu, Jiaman Li, C. Karen Liu, (参考訳) インテリジェントエージェントは、人間レベルの指示に基づいて、幅広い日々のタスクを実行するために、コンテキスト環境内で自律的にナビゲートし、対話する必要がある。 これらのエージェントは、そのような指示を解釈するために、常識と知識を取り入れた世界の基本的理解を必要とする。 さらに、これらの指示から派生した詳細なタスクプランを実行するためには、動きと相互作用の正確な低レベルなスキルを持つ必要がある。 本研究では,人間レベルの指示によって導かれるコンテキスト環境下での大規模物体の操作において,連続的な人間と物体の相互作用を合成する課題に対処する。 私たちのゴールは、現実的な相互作用に不可欠な、同期された物体の動き、全身の人間の動き、詳細な指の動きを生成することです。 本フレームワークは,大規模言語モデル(LLM)計画モジュールと低レベルモーションジェネレータから構成される。 LLMを用いて空間的オブジェクト関係を推定し、ターゲットシーンレイアウトにおける位置と方向を正確に決定する方法を考案する。 さらに、LLMプランナーは、サブタスクのシーケンスを指定する詳細なタスクプランを概説する。 このタスクプランとターゲットオブジェクトのポーズは、ナビゲーションとインタラクションモジュールをシームレスに切り替える低レベルのモーションジェネレータの入力として機能します。 対象動作,全体動作,指動作を人体レベルで同時に合成できる最初の完全システムを提案する。 実験では,高レベルプランナが多目的物体の現実的相互作用を合成する上で,高レベルな目標レイアウトの生成に有効であることを実証した。 より詳細な結果については、プロジェクトページを参照してください。

Intelligent agents need to autonomously navigate and interact within contextual environments to perform a wide range of daily tasks based on human-level instructions. These agents require a foundational understanding of the world, incorporating common sense and knowledge, to interpret such instructions. Moreover, they must possess precise low-level skills for movement and interaction to execute the detailed task plans derived from these instructions. In this work, we address the task of synthesizing continuous human-object interactions for manipulating large objects within contextual environments, guided by human-level instructions. Our goal is to generate synchronized object motion, full-body human motion, and detailed finger motion, all essential for realistic interactions. Our framework consists of a large language model (LLM) planning module and a low-level motion generator. We use LLMs to deduce spatial object relationships and devise a method for accurately determining their positions and orientations in target scene layouts. Additionally, the LLM planner outlines a detailed task plan specifying a sequence of sub-tasks. This task plan, along with the target object poses, serves as input for our low-level motion generator, which seamlessly alternates between navigation and interaction modules. We present the first complete system that can synthesize object motion, full-body motion, and finger motion simultaneously from human-level instructions. Our experiments demonstrate the effectiveness of our high-level planner in generating plausible target layouts and our low-level motion generator in synthesizing realistic interactions for diverse objects. Please refer to our project page for more results: https://hoifhli.github.io/.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# 超伝導量子ビットを用いた多体ベル相関深さの提案

Probing many-body Bell correlation depth with superconducting qubits ( http://arxiv.org/abs/2406.17841v1 )

ライセンス: Link先を確認
Ke Wang, Weikang Li, Shibo Xu, Mengyao Hu, Jiachen Chen, Yaozu Wu, Chuanyu Zhang, Feitong Jin, Xuhao Zhu, Yu Gao, Ziqi Tan, Aosai Zhang, Ning Wang, Yiren Zou, Tingting Li, Fanhao Shen, Jiarun Zhong, Zehang Bao, Zitian Zhu, Zixuan Song, Jinfeng Deng, Hang Dong, Xu Zhang, Pengfei Zhang, Wenjie Jiang, Zhide Lu, Zheng-Zhi Sun, Hekang Li, Qiujiang Guo, Zhen Wang, Patrick Emonts, Jordi Tura, Chao Song, H. Wang, Dong-Ling Deng, (参考訳) 量子非局所性(quantum nonlocality)は、エンタングルメントよりも強い量子相関の形式を記述する。 これはアインシュタインの局所現実主義の信念を否定し、量子力学の最も独特でエニグマティックな特徴の1つである。 暗号や証明済みのランダム数生成から、セルフテストから機械学習まで、さまざまな実用アプリケーションにおいて、量子アドバンテージを達成するための重要なリソースである。 しかし、特に量子多体系における非局所性の検出は、非常に難しい。 本稿では,量子多体系における非局在性を,完全プログラム可能な超伝導量子プロセッサで最大24量子ビットまで示す,真のマルチパーティタイトベル相関の実験的な証明について報告する。 特に,ベル相関の証としてエネルギーを用い,実験データからベル相関深度が増大する閾値の階層にまたがって多体系のエネルギーを変動的に減少させる。 一例として、73量子ビットの2次元ハニカムモデルの低エネルギー状態を作成し、対応する古典的境界を超えるエネルギーを最大48個の標準偏差で測定することでベル相関を証明した。 さらに,低エネルギー状態の列を変動的に作成し,パリティ振動と多重量子コヒーレンス法により効率よく測定された24キュービットまでの実効多部ベル相関を証明した。 提案手法は, 量子デバイスとの絡み合いを超えて, より詳細なベンチマークを提供するだけでなく, 幅広い応用分野において, マルチパーティイトベル相関を活用するための貴重な指針となる。

Quantum nonlocality describes a stronger form of quantum correlation than that of entanglement. It refutes Einstein's belief of local realism and is among the most distinctive and enigmatic features of quantum mechanics. It is a crucial resource for achieving quantum advantages in a variety of practical applications, ranging from cryptography and certified random number generation via self-testing to machine learning. Nevertheless, the detection of nonlocality, especially in quantum many-body systems, is notoriously challenging. Here, we report an experimental certification of genuine multipartite Bell correlations, which signal nonlocality in quantum many-body systems, up to 24 qubits with a fully programmable superconducting quantum processor. In particular, we employ energy as a Bell correlation witness and variationally decrease the energy of a many-body system across a hierarchy of thresholds, below which an increasing Bell correlation depth can be certified from experimental data. As an illustrating example, we variationally prepare the low-energy state of a two-dimensional honeycomb model with 73 qubits and certify its Bell correlations by measuring an energy that surpasses the corresponding classical bound with up to 48 standard deviations. In addition, we variationally prepare a sequence of low-energy states and certify their genuine multipartite Bell correlations up to 24 qubits via energies measured efficiently by parity oscillation and multiple quantum coherence techniques. Our results establish a viable approach for preparing and certifying multipartite Bell correlations, which provide not only a finer benchmark beyond entanglement for quantum devices, but also a valuable guide towards exploiting multipartite Bell correlation in a wide spectrum of practical applications.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# 絡み合った単一電子トラップに対する相対論的効果

Relativistic Effects on Entangled Single-Electron Traps ( http://arxiv.org/abs/2406.17848v1 )

ライセンス: Link先を確認
Marko Toroš, Patrick Andriolo, Martine Schut, Sougato Bose, Anupam Mazumdar, (参考訳) 個々の荷電粒子の操作は、過去数十年間、物理学の理論的および実験的領域で深く研究されてきた。 これは、気象学やセンシングに使われるいくつかの既存の装置の柱であり、量子コンピュータのような将来の技術を実現するための有望なプラットフォームである。 相対論的状態においては、荷電粒子間の相互作用は、ダーウィン・ハミルトンで符号化された支配的な結合によって、ポストクーロン補正によって影響を受けることが知られている。 ダーウィン項は原子物理学において広く研究されており、相互作用範囲は準アングストロムスケールに限られている。 それでも、ダーウィンの貢献が大規模に関係しているかどうか(そしていつ)の理解の欠如がある。 本稿では、2つの調和に閉じ込められた電子系におけるこれらの補正の効果について検討し、静的および動的状態に存在する量子エンタングルメントの挙動を考察する。 本研究では,発達モデルのパラメータ空間を探索し,相対論的効果が絡み合いの発生に関係する周波数,距離,およびスクイージングパラメータを求める。

The manipulation of individual charged particles has been deeply explored in physics's theoretical and experimental domains during the past decades. It is the pillar of several existing devices used for metrology and sensing and is a promising platform for realizing future technologies, such as quantum computers. It is also known that in the relativistic regime, interactions between charged particles become affected by post-Coulombian corrections, with the dominant couplings encoded in the Darwin Hamiltonian. The Darwin term has been extensively studied in atomic physics, where the interaction range is confined to the sub-angstrom scale. Still, there is a lack of understanding about whether (and when) Darwin's contributions are relevant at larger scales. In this paper, we explore the effects of these corrections in a system of two harmonically trapped electrons, where we look into the behaviour of quantum entanglement present in the static and dynamical regimes. We explore the parameter space of the developed model and seek frequencies, distances, and squeezing parameters for which relativistic effects become relevant for the generation of entanglement.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# 腹腔鏡下肝ランドマーク検出のための深さ駆動型幾何学的プロンプト学習

Depth-Driven Geometric Prompt Learning for Laparoscopic Liver Landmark Detection ( http://arxiv.org/abs/2406.17858v1 )

ライセンス: Link先を確認
Jialun Pei, Ruize Cui, Yaoqian Li, Weixin Si, Jing Qin, Pheng-Ann Heng, (参考訳) 腹腔鏡下肝手術は、外科医にとって複雑な術中動的環境を呈し、肝内の重要な構造や隠れた構造を区別する上で重要な課題である。 肝解剖学的所見(eg, 隆起, 靭帯)は2D-3Dアライメントの重要なマーカーであり, 外科手術の空間的知覚を著しく向上させる。 腹腔鏡下肝所見の検出を容易にするため, 2つの医療施設にわたる39例の手術ビデオから, 1,152 フレームからなる L3D という新しいデータセットを収集した。 ベンチマークのために、12の主流検出方法が選択され、L3Dで包括的に評価される。 さらに,D2GPLandという深度駆動型幾何学的プロンプト学習ネットワークを提案する。 具体的には,DPE(Depth-aware Prompt Embedding)モジュールを設計し,SAMをベースとした特徴から抽出した大域深度キューの利点を活かして,自己教師付きプロンプトで案内し,意味的に関連する幾何学的情報を生成する。 さらに、逆解剖学的知覚を通じてRGB-D空間情報と幾何情報を効率的に統合するために、セマンティック固有幾何拡張(SGA)方式が導入された。 実験結果は、D2GPLandが63.52%のDICEと48.68%のIoUスコアを持つL3Dの最先端のパフォーマンスを得ることを示している。 本手法は2D-3D融合技術と組み合わせて,腹腔鏡下手術例の直感的な指導情報を外科医に直接提供することができる。

Laparoscopic liver surgery poses a complex intraoperative dynamic environment for surgeons, where remains a significant challenge to distinguish critical or even hidden structures inside the liver. Liver anatomical landmarks, e.g., ridge and ligament, serve as important markers for 2D-3D alignment, which can significantly enhance the spatial perception of surgeons for precise surgery. To facilitate the detection of laparoscopic liver landmarks, we collect a novel dataset called L3D, which comprises 1,152 frames with elaborated landmark annotations from surgical videos of 39 patients across two medical sites. For benchmarking purposes, 12 mainstream detection methods are selected and comprehensively evaluated on L3D. Further, we propose a depth-driven geometric prompt learning network, namely D2GPLand. Specifically, we design a Depth-aware Prompt Embedding (DPE) module that is guided by self-supervised prompts and generates semantically relevant geometric information with the benefit of global depth cues extracted from SAM-based features. Additionally, a Semantic-specific Geometric Augmentation (SGA) scheme is introduced to efficiently merge RGB-D spatial and geometric information through reverse anatomic perception. The experimental results indicate that D2GPLand obtains state-of-the-art performance on L3D, with 63.52% DICE and 48.68% IoU scores. Together with 2D-3D fusion technology, our method can directly provide the surgeon with intuitive guidance information in laparoscopic scenarios.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# どのような推論が計画されているのか?

What type of inference is planning? ( http://arxiv.org/abs/2406.17863v1 )

ライセンス: Link先を確認
Miguel Lázaro-Gredilla, Li Yang Ku, Kevin P. Murphy, Dileep George, (参考訳) 複数のタイプの推論が確率的グラフィカルモデル(例えば、縁的、最大的、最大的、最大的、最大的、最小的といった)で利用可能である。 推論としての計画"について語るとき、研究者は何を意味するのだろうか? 文献には一貫性がなく、異なる型が使用され、計画を行う能力は特定の近似や追加の制約にさらに絡まっています。 この研究では、すべての一般的な推論の型が変分問題におけるエントロピー項の異なる重み付けに対応し、計画が _exactly_ と _different_ の重み集合に対応することを示す。 これは、変分推論のすべてのトリックが計画に容易に適用できることを意味する。 指数関数的に大きな状態空間によって引き起こされる誘引性を伴わずに、マルコフ決定過程において近似的な計画を実行することができるループ的信念伝播の類推を開発する。 変動的な視点から,従来の計画の推論は,確率性の低い環境においてのみ適切であることが示され,各型をそれぞれのメリットによって特徴付けることができ,その実用性が要求される追加の近似から推論の型を遠ざけることができる。 本研究は,国際計画コンペティションにおける総合MDPと課題を実証的に検証する。

Multiple types of inference are available for probabilistic graphical models, e.g., marginal, maximum-a-posteriori, and even marginal maximum-a-posteriori. Which one do researchers mean when they talk about "planning as inference"? There is no consistency in the literature, different types are used, and their ability to do planning is further entangled with specific approximations or additional constraints. In this work we use the variational framework to show that all commonly used types of inference correspond to different weightings of the entropy terms in the variational problem, and that planning corresponds _exactly_ to a _different_ set of weights. This means that all the tricks of variational inference are readily applicable to planning. We develop an analogue of loopy belief propagation that allows us to perform approximate planning in factored state Markov decisions processes without incurring intractability due to the exponentially large state space. The variational perspective shows that the previous types of inference for planning are only adequate in environments with low stochasticity, and allows us to characterize each type by its own merits, disentangling the type of inference from the additional approximations that its practical use requires. We validate these results empirically on synthetic MDPs and tasks posed in the International Planning Competition.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# AIリスク分類をデコード(AIR 2024) - 政府の規制から企業政策へ

AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies ( http://arxiv.org/abs/2406.17864v1 )

ライセンス: Link先を確認
Yi Zeng, Kevin Klyman, Andy Zhou, Yu Yang, Minzhou Pan, Ruoxi Jia, Dawn Song, Percy Liang, Bo Li, (参考訳) 我々は、欧州連合、米国、中国から8つの政府方針から派生した包括的なAIリスク分類と、世界16の企業方針を提示し、生成型AI安全性評価のための統一言語を確立するための大きな一歩を踏み出した。 我々は4階層の分類に分類された314のユニークなリスクカテゴリを特定した。 最高レベルでは、この分類はシステム・アンド・オペレーショナル・リスク、コンテンツ・セーフティ・リスク、社会的なリスク、法と権利のリスクを含む。 分類学は、様々な説明とリスクへのアプローチの関連を確立し、公共部門と民間セクターのリスク概念の重複と相違を強調している。 この統合されたフレームワークを提供することにより、私たちは、セクター間での情報共有を通じてAIの安全性を向上し、生成型AIモデルやシステムに対するリスク軽減におけるベストプラクティスの推進を目指しています。

We present a comprehensive AI risk taxonomy derived from eight government policies from the European Union, United States, and China and 16 company policies worldwide, making a significant step towards establishing a unified language for generative AI safety evaluation. We identify 314 unique risk categories organized into a four-tiered taxonomy. At the highest level, this taxonomy encompasses System & Operational Risks, Content Safety Risks, Societal Risks, and Legal & Rights Risks. The taxonomy establishes connections between various descriptions and approaches to risk, highlighting the overlaps and discrepancies between public and private sector conceptions of risk. By providing this unified framework, we aim to advance AI safety through information sharing across sectors and the promotion of best practices in risk mitigation for generative AI models and systems.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# 乱量子アンサンブルと半無限格子のダイナミクスの等価性

Equivalence of dynamics of disordered quantum ensembles and semi-infinite lattices ( http://arxiv.org/abs/2406.17865v1 )

ライセンス: Link先を確認
Hallmann Óskar Gestsson, Charlie Nation, Alexandra Olaya-Castro, (参考訳) 我々は、乱れた量子系のアンサンブルの正確なダイナミクスを半無限格子に沿って伝播する単一粒子のダイナミックスにマッピングするためのフォーマリズムを開発し、元の不均一な量子アンサンブルの障害実現の確率分布によってパラメータが決定される。 この写像は、アンサンブルを平均化する際のコヒーレンスの損失に関する幾何学的解釈を提供し、単一のシミュレーションで混乱したアンサンブル全体の正確なダイナミクスの計算を可能にする。 あるいは、逆写像を利用することで、障害の実現を平均化することで格子動力学を得ることができる。 この同値性のポテンシャルは、格子モデルへの写像による量子ビットの退化と、単位セルの障害を平均的に過度に実現することで単純な格子モデルを解くという、両方の方向の写像の例で示される。

We develop a formalism for mapping the exact dynamics of an ensemble of disordered quantum systems onto the dynamics of a single particle propagating along a semi-infinite lattice, with parameters determined by the probability distribution of disorder realizations of the original heterogeneous quantum ensemble. This mapping provides a geometric interpretation on the loss of coherence when averaging over the ensemble and allows computation of the exact dynamics of the entire disordered ensemble in a single simulation. Alternatively, by exploiting the reverse map, one can obtain lattice dynamics by averaging over realisations of disorder. The potential of this equivalence is showcased with examples of the map in both directions: obtaining dephasing of a qubit via mapping to a lattice model, and solving a simple lattice model via taking an average over realizations of disorder of a unit cell.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# ベースフレーム選択によるバースト画像の高分解能化

Burst Image Super-Resolution with Base Frame Selection ( http://arxiv.org/abs/2406.17869v1 )

ライセンス: Link先を確認
Sanghyun Kim, Min Jung Lee, Woohyeok Kim, Deunsol Jung, Jaesung Rim, Sunghyun Cho, Minsu Cho, (参考訳) バースト画像超解像は、バースト内の複数のフレーム間の相補的な情報を用いて高解像度画像を得る能力により、近年活発に研究されている。 本研究では,非一様露光によるバーストショットを用いて現実の現実の現実のシナリオに対抗し,非一様露光バースト画像 (NEBI) と呼ばれる新しいベンチマークデータセットを導入する。 非均一露光のバーストショットは様々な劣化レベルを示すため、バーストショットの情報をベースフレームとして第1フレームに融合しても最適な画質にはならない。 この制限に対処するため、一様でないシナリオに対するフレーム選択ネットワーク(FSN)を提案する。 このネットワークは、計算コストの低いプラグイン・アンド・プレイ方式で既存の超解像法にシームレスに統合される。 比較分析により,実シナリオにおける非一様設定の有効性が明らかとなり,FSNが合成・実データNEBIデータセットに与える影響が明らかになった。

Burst image super-resolution has been a topic of active research in recent years due to its ability to obtain a high-resolution image by using complementary information between multiple frames in the burst. In this work, we explore using burst shots with non-uniform exposures to confront real-world practical scenarios by introducing a new benchmark dataset, dubbed Non-uniformly Exposed Burst Image (NEBI), that includes the burst frames at varying exposure times to obtain a broader range of irradiance and motion characteristics within a scene. As burst shots with non-uniform exposures exhibit varying levels of degradation, fusing information of the burst shots into the first frame as a base frame may not result in optimal image quality. To address this limitation, we propose a Frame Selection Network (FSN) for non-uniform scenarios. This network seamlessly integrates into existing super-resolution methods in a plug-and-play manner with low computational costs. The comparative analysis reveals the effectiveness of the nonuniform setting for the practical scenario and our FSN on synthetic-/real- NEBI datasets.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# 関係タプル,検証,動的フィードバックによる大規模言語モデルの算術的推論能力の向上

Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback ( http://arxiv.org/abs/2406.17873v1 )

ライセンス: Link先を確認
Zhongtao Miao, Kaiyan Zhao, Yoshimasa Tsuruoka, (参考訳) 大規模言語モデルの推論ステップで使用される現在の表現は、(1)検証が難しい自然言語、(2)非自然言語、通常プログラミングコード、という2つの主な型に分類される。 本稿では,大規模言語モデルの推論ステップを表現するために,半構造化形式を提案する。 具体的には、人間可読性だけでなく、マシンフレンドリで、自然言語よりも検証が容易な関係タプルを使用する。 1)大規模言語モデルの推論ステップに関係タプルを導入すること,(2)関係タプルに基づくローカルコードインタプリタによる推論ステップの自動検証プロセスを実装すること,(3)大規模言語モデルの自己改善に役立つシンプルで効果的な動的フィードバック機構を統合すること,の3つの主要なコンポーネントを含むフレームワークを実装した。 各種演算データセットに対する実験結果から,大規模言語モデルの算術的推論能力の向上に本手法の有効性が示された。 ソースコードはhttps://github.com/gpgg/art.comで入手できる。

Current representations used in reasoning steps of large language models can mostly be categorized into two main types: (1) natural language, which is difficult to verify; and (2) non-natural language, usually programming code, which is difficult for people who are unfamiliar with coding to read. In this paper, we propose to use a semi-structured form to represent reasoning steps of large language models. Specifically, we use relation tuples, which are not only human-readable but also machine-friendly and easier to verify than natural language. We implement a framework that includes three main components: (1) introducing relation tuples into the reasoning steps of large language models; (2) implementing an automatic verification process of reasoning steps with a local code interpreter based on relation tuples; and (3) integrating a simple and effective dynamic feedback mechanism, which we found helpful for self-improvement of large language models. The experimental results on various arithmetic datasets demonstrate the effectiveness of our method in improving the arithmetic reasoning ability of large language models. The source code is available at https://github.com/gpgg/art.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# 閉鎖型分類器:感性分類課題における擬似化戦略

Cloaked Classifiers: Pseudonymization Strategies on Sensitive Classification Tasks ( http://arxiv.org/abs/2406.17875v1 )

ライセンス: Link先を確認
Arij Riabi, Menel Mahamdi, Virginie Mouilleron, Djamé Seddah, (参考訳) プライバシー保護は、特に個人情報を含むオンラインの過激化データセットの場合、データの共有には不可欠である。 本稿では、欧州GDPRなどの規制が個人情報をどのように扱うべきかを形作るため、データの有用性と堅牢なプライバシー保護のバランスについて検討する。 我々は,多言語急進化データセットを手動で偽名化する手法を共有し,元のデータに匹敵する性能を確保する。 さらに、我々の完全偽名化プロセス、ガイドライン、遭遇した課題と得られたデータセットを共有することで、機密性の高いNLPデータを処理するための包括的なガイドラインを確立することの重要性を強調した。

Protecting privacy is essential when sharing data, particularly in the case of an online radicalization dataset that may contain personal information. In this paper, we explore the balance between preserving data usefulness and ensuring robust privacy safeguards, since regulations like the European GDPR shape how personal information must be handled. We share our method for manually pseudonymizing a multilingual radicalization dataset, ensuring performance comparable to the original data. Furthermore, we highlight the importance of establishing comprehensive guidelines for processing sensitive NLP data by sharing our complete pseudonymization process, our guidelines, the challenges we encountered as well as the resulting dataset.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# ET tu, CLIP? 見えない環境における共通オブジェクトエラーに対処する

ET tu, CLIP? Addressing Common Object Errors for Unseen Environments ( http://arxiv.org/abs/2406.17876v1 )

ライセンス: Link先を確認
Ye Won Byun, Cathy Jiao, Shahriar Noroozizadeh, Jimin Sun, Rosa Vitiello, (参考訳) ALFREDタスクにおけるモデル一般化を強化するために、事前訓練されたCLIPエンコーダを使用する簡単な方法を提案する。 CLIPがビジュアルエンコーダを置き換える以前の文献とは対照的に、補助オブジェクト検出の目的を通じて追加モジュールとしてCLIPを使用することを提案する。 提案手法を最近提案したEpsodic Transformerアーキテクチャ上で検証し、CLIPを組み込むことで、未確認の検証セット上でのタスク性能が向上することを示す。 さらに,この分析結果は,CLIPが特にオブジェクト記述の活用,小さなオブジェクトの検出,稀な単語の解釈に有効であることを示す。

We introduce a simple method that employs pre-trained CLIP encoders to enhance model generalization in the ALFRED task. In contrast to previous literature where CLIP replaces the visual encoder, we suggest using CLIP as an additional module through an auxiliary object detection objective. We validate our method on the recently proposed Episodic Transformer architecture and demonstrate that incorporating CLIP improves task performance on the unseen validation set. Additionally, our analysis results support that CLIP especially helps with leveraging object descriptions, detecting small objects, and interpreting rare words.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# ビデオナレーターとしてのMLLM:ビデオモーメント検索におけるモダリティの不均衡の軽減

MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval ( http://arxiv.org/abs/2406.17880v1 )

ライセンス: Link先を確認
Weitong Cai, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu, (参考訳) Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。 既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。 この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。 限定されたテキストコーパスの範囲内で、モーダルなアライメントの知識を限定し、その結果、準最適視覚テキストモデリングと一般化性の低下につながる。 本研究では,マルチモーダル大言語モデル(MLLM)の視覚的・テキスト的理解機能を活用することで,MLLMをビデオナレーターとして利用し,ビデオの可視的テキスト的記述を生成することにより,モダリティの不均衡を軽減し,時間的局所化を促進する。 局所化のための時間的感受性を効果的に維持するため、特定のビデオタイムスタンプごとにテキストの物語を取得し、時間情報と時間的整合性のある構造化されたテキスト段落を構築することを設計する。 そして、時間的認識された物語と対応するビデオ時間的特徴とを融合して、クエリローカライゼーションのためのセマンティック・エンハンスド・ビデオ表現シーケンスを生成する。 その後,一様の物語クエリマッチング機構を導入し,文脈的結束記述から相補的な情報を抽出し,検索を改善する。 2つのベンチマークにおいて,提案手法の有効性と一般化性を示す実験を行った。

Video Moment Retrieval (VMR) aims to localize a specific temporal segment within an untrimmed long video given a natural language query. Existing methods often suffer from inadequate training annotations, i.e., the sentence typically matches with a fraction of the prominent video content in the foreground with limited wording diversity. This intrinsic modality imbalance leaves a considerable portion of visual information remaining unaligned with text. It confines the cross-modal alignment knowledge within the scope of a limited text corpus, thereby leading to sub-optimal visual-textual modeling and poor generalizability. By leveraging the visual-textual understanding capability of multi-modal large language models (MLLM), in this work, we take an MLLM as a video narrator to generate plausible textual descriptions of the video, thereby mitigating the modality imbalance and boosting the temporal localization. To effectively maintain temporal sensibility for localization, we design to get text narratives for each certain video timestamp and construct a structured text paragraph with time information, which is temporally aligned with the visual content. Then we perform cross-modal feature merging between the temporal-aware narratives and corresponding video temporal features to produce semantic-enhanced video representation sequences for query localization. Subsequently, we introduce a uni-modal narrative-query matching mechanism, which encourages the model to extract complementary information from contextual cohesive descriptions for improved retrieval. Extensive experiments on two benchmarks show the effectiveness and generalizability of our proposed method.
翻訳日:2024-06-27 15:37:10 公開日:2024-06-25
# サイバーセキュリティ運用の教育ゲーム化アプリケーションリスティング

Cyber Security Operations Educational Gamification Application Listing ( http://arxiv.org/abs/2406.17882v1 )

ライセンス: Link先を確認
Sherri Weitl-Harms, Adam Spanier, John D. Hastings, (参考訳) このリストには、2007年から2022年6月までに発行された74の出版物から、サイバーセキュリティオペレーション(CSO)の学部教育で使用される合計80のゲーミフィケーションアプリケーション(GA)が含まれている。 リストには、特定された各GAの概要と、各GAの概要が記載されている。 このリストは、サイバーセキュリティ学部教育における既存のGAの包括的なリポジトリであり、新しいCSO GAをリストに追加するための出発点である。 リストの次のバージョンにCSO GAを追加する最初の著者に連絡してください。

This listing contains a total of 80 gamification applications (GA)s used in cyber security operations (CSO) undergraduate education, from 74 publications, published between 2007 and June 2022. The listing outlines each GA identified and provides a short overview of each. This listing serves as both a comprehensive repository of existing GAs in cybersecurity undergraduate education, and as a starting point for adding new CSO GAs to the list. Contact the first author to add a CSO GA to the next version of the list.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 自動およびモデルに依存しないルール抽出による地域説明可能性の実現

Enabling Regional Explainability by Automatic and Model-agnostic Rule Extraction ( http://arxiv.org/abs/2406.17885v1 )

ライセンス: Link先を確認
Yu Chen, Tianyu Cui, Alexander Capstick, Nan Fletcher-Loyd, Payam Barnaghi, (参考訳) 説明可能なAIでは、ルール抽出はモデル知識をIF-THEN文のような論理ルールに変換する。 これは、疾患の診断、疾患の進行予測、薬物発見などの分野に大きく貢献する可能性がある。 しかしながら、そのようなアプリケーションドメインは、しばしば不均衡なデータを含み、関心のクラスが不足している。 既存のメソッドは、パフォーマンスを最大化するために、必然的にマイナークラスのルールのパフォーマンスを損なう。 この分野での最初の試みとして、数値特徴量の自動ルール生成を特徴とする、特定のサブグループからルールを抽出するモデルに依存しない手法を提案する。 本手法は,機械学習モデルの局所的説明可能性を高め,既存手法と比較して広い適用性を提供する。 また,高次元空間における計算コストを削減し,規則を構成する特徴を選択する新しい手法を提案する。 各種データセットおよびモデルを用いた実験により,本手法の有効性が示された。

In Explainable AI, rule extraction translates model knowledge into logical rules, such as IF-THEN statements, crucial for understanding patterns learned by black-box models. This could significantly aid in fields like disease diagnosis, disease progression estimation, or drug discovery. However, such application domains often contain imbalanced data, with the class of interest underrepresented. Existing methods inevitably compromise the performance of rules for the minor class to maximise the overall performance. As the first attempt in this field, we propose a model-agnostic approach for extracting rules from specific subgroups of data, featuring automatic rule generation for numerical features. This method enhances the regional explainability of machine learning models and offers wider applicability compared to existing methods. We additionally introduce a new method for selecting features to compose rules, reducing computational costs in high-dimensional spaces. Experiments across various datasets and models demonstrate the effectiveness of our methods.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# グローバルロス収束保証を用いたフェデレーション型低ランクトレーニング

Federated Dynamical Low-Rank Training with Global Loss Convergence Guarantees ( http://arxiv.org/abs/2406.17887v1 )

ライセンス: Link先を確認
Steffen Schotthöfer, M. Paul Laiu, (参考訳) 本研究では,クライアントの計算コストと通信コストを削減するためのFeDLRT(Feerated Dynamical Low-rank Training)方式を提案する。 本手法は,ネットワーク重みのグローバルな低ランクベースを作成するために,多様体制約付き最適化のための動的低ランク分割スキームを基盤として,小さな係数行列を用いたクライアントトレーニングを実現する。 一貫した大域的低ランク基底は、分散補正スキームを導入し、大域的損失降下と定常点への収束を証明できる。 低ランク基盤の動的拡張と切り離しは、自動的に計算と通信資源の利用を最適化する。 コンピュータビジョンベンチマークにおけるFeDLRTの効率を実証し、クライアントの計算コストと通信コストを最大で1桁削減し、世界的精度に最小限の影響を及ぼすことを示した。

In this work, we propose a federated dynamical low-rank training (FeDLRT) scheme to reduce client compute and communication costs - two significant performance bottlenecks in horizontal federated learning. Our method builds upon dynamical low-rank splitting schemes for manifold-constrained optimization to create a global low-rank basis of network weights, which enables client training on a small coefficient matrix. A consistent global low-rank basis allows us to incorporate a variance correction scheme and prove global loss descent and convergence to a stationary point. Dynamic augmentation and truncation of the low-rank bases automatically optimizes computing and communication resource utilization. We demonstrate the efficiency of FeDLRT in an array of computer vision benchmarks and show a reduction of client compute and communication costs by up to an order of magnitude with minimal impacts on global accuracy.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# CTBench: 臨床試験設計における言語モデル機能評価のための総合ベンチマーク

CTBench: A Comprehensive Benchmark for Evaluating Language Model Capabilities in Clinical Trial Design ( http://arxiv.org/abs/2406.17888v1 )

ライセンス: Link先を確認
Nafis Neehal, Bowen Wang, Shayom Debopadhaya, Soham Dan, Keerthiram Murugesan, Vibha Anand, Kristin P. Bennett, (参考訳) CTBenchは、臨床研究設計を支援するために言語モデル(LM)を評価するベンチマークとして導入された。 研究固有のメタデータを前提として、CTBenchは、臨床試験(CT)のベースラインの特徴を決定するAIモデルの能力を評価する。 これらの基本的特徴は、典型的にはCT出版物(しばしば表1)に示され、研究コホートを特徴づけ、結果を検証するために不可欠である。 共同創設者や共変数を含むベースライン機能は、観測データを含む研究において、正確な治療効果の推定にも必要である。 CTBenchは「CT-Repo」と「CT-Pub」の2つのデータセットから構成されており、関連する出版物から集められたより包括的なベースラインの特徴を持つ100の試験のサブセットである。 2つのLMに基づく評価手法を開発し、実際のベースライン特徴リストとLM生成応答を比較した。 ListMatch-LM" と "ListMatch-BERT" はそれぞれ GPT-4o と BERT のスコア(しきい値)を用いて評価を行う。 LLaMa3-70B-Instruct と GPT-4o を用いたゼロショットおよび3ショットの学習環境における高度なプロンプトエンジニアリング技術を適用して,潜在的なベースライン特徴を生成する。 評価装置としてのGPT-4oの性能はCT-Pubデータセット上でのヒト-イン-ループ評価により検証され,臨床専門家が実際の特徴とLM生成の特徴の一致を確認した。 この結果は、CTBenchをCT設計におけるAI研究の進歩と、CTの有効性と堅牢性を高めるための有用なツールとして位置づけ、改善の有望な方向性を強調している。

CTBench is introduced as a benchmark to assess language models (LMs) in aiding clinical study design. Given study-specific metadata, CTBench evaluates AI models' ability to determine the baseline features of a clinical trial (CT), which include demographic and relevant features collected at the trial's start from all participants. These baseline features, typically presented in CT publications (often as Table 1), are crucial for characterizing study cohorts and validating results. Baseline features, including confounders and covariates, are also necessary for accurate treatment effect estimation in studies involving observational data. CTBench consists of two datasets: "CT-Repo," containing baseline features from 1,690 clinical trials sourced from clinicaltrials.gov, and "CT-Pub," a subset of 100 trials with more comprehensive baseline features gathered from relevant publications. Two LM-based evaluation methods are developed to compare the actual baseline feature lists against LM-generated responses. "ListMatch-LM" and "ListMatch-BERT" use GPT-4o and BERT scores (at various thresholds), respectively, for evaluation. To establish baseline results, advanced prompt engineering techniques using LLaMa3-70B-Instruct and GPT-4o in zero-shot and three-shot learning settings are applied to generate potential baseline features. The performance of GPT-4o as an evaluator is validated through human-in-the-loop evaluations on the CT-Pub dataset, where clinical experts confirm matches between actual and LM-generated features. The results highlight a promising direction with significant potential for improvement, positioning CTBench as a useful tool for advancing research on AI in CT design and potentially enhancing the efficacy and robustness of CTs.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# SigKAN: 時系列用シグナチャ重み付きコルモゴロフ・アルノルドネットワーク

SigKAN: Signature-Weighted Kolmogorov-Arnold Networks for Time Series ( http://arxiv.org/abs/2406.17890v1 )

ライセンス: Link先を確認
Hugo Inzirillo, Remi Genet, (参考訳) 本稿では,学習可能な経路シグネチャとコルモゴロフ・アルノルドネットワーク(KAN)を用いた多変量関数近似法を提案する。 学習可能な経路シグネチャを用いて、kansが取得した値を重み付けすることで、これらのネットワークの学習能力を向上し、パスの重要な幾何学的特徴を捉える。 この組み合わせにより、シーケンシャルデータと時間データのより包括的で柔軟な表現が可能になる。 我々は,学習可能な経路シグネチャを持つSigKANが,様々な関数近似課題にまたがる従来の手法よりも優れた性能を発揮することを示す。 ニューラルネットワークにおける経路シグネチャを活用することにより、時系列解析や時系列予測などの分野での性能向上をめざす機会を提供する。

We propose a novel approach that enhances multivariate function approximation using learnable path signatures and Kolmogorov-Arnold networks (KANs). We enhance the learning capabilities of these networks by weighting the values obtained by KANs using learnable path signatures, which capture important geometric features of paths. This combination allows for a more comprehensive and flexible representation of sequential and temporal data. We demonstrate through studies that our SigKANs with learnable path signatures perform better than conventional methods across a range of function approximation challenges. By leveraging path signatures in neural networks, this method offers intriguing opportunities to enhance performance in time series analysis and time series forecasting, among other fields.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 効率的かつ効果的な動的グラフニューラルネットワーク

Efficient and Effective Implicit Dynamic Graph Neural Network ( http://arxiv.org/abs/2406.17894v1 )

ライセンス: Link先を確認
Yongjian Zhong, Hieu Vu, Tianbao Yang, Bijaya Adhikari, (参考訳) 暗黙グラフニューラルネットワークは、静的グラフの予測性能を改善しながら、長距離依存を捉えることで近年人気を集めている。 学習した埋め込みの過度な平滑化による性能劣化と、近辺と時間の両方で特徴が集約されるため、長距離依存が動的グラフでより顕著であるにもかかわらず、従来の研究では、動的環境において暗黙的なグラフニューラルモデルが提案されていない。 本稿では,動的グラフのための新しい暗黙的ニューラルネットワークImplicit Dynamic Graph Neural Network (IDGNN)を提案する。 IDGNNの鍵となる特徴は、それが実証的に良好である、すなわち、固定点表現を持つことが理論的に保証されていることである。 次に、暗黙的なモデルを訓練するのによく使われる標準的な反復アルゴリズムは、計算的にコストがかかることを実証する。 これを解決するために, 2レベル最適化に等価な問題を提起し, 勾配の鍵成分の移動平均を一定に保ち, 反復計算を回避し, 効率的な単ループ学習アルゴリズムを提案する。 我々は、分類タスクと回帰タスクの両方に関する実世界のデータセットに関する広範な実験を行い、最先端のベースラインに対するアプローチの優位性を実証した。 また,我々の二段階最適化フレームワークは,高コストな反復アルゴリズムの性能を維持しつつ,最大速度のtextbf{1600x} を得ることを示す。

Implicit graph neural networks have gained popularity in recent years as they capture long-range dependencies while improving predictive performance in static graphs. Despite the tussle between performance degradation due to the oversmoothing of learned embeddings and long-range dependency being more pronounced in dynamic graphs, as features are aggregated both across neighborhood and time, no prior work has proposed an implicit graph neural model in a dynamic setting. In this paper, we present Implicit Dynamic Graph Neural Network (IDGNN) a novel implicit neural network for dynamic graphs which is the first of its kind. A key characteristic of IDGNN is that it demonstrably is well-posed, i.e., it is theoretically guaranteed to have a fixed-point representation. We then demonstrate that the standard iterative algorithm often used to train implicit models is computationally expensive in our dynamic setting as it involves computing gradients, which themselves have to be estimated in an iterative manner. To overcome this, we pose an equivalent bilevel optimization problem and propose an efficient single-loop training algorithm that avoids iterative computation by maintaining moving averages of key components of the gradients. We conduct extensive experiments on real-world datasets on both classification and regression tasks to demonstrate the superiority of our approach over the state-of-the-art baselines. We also demonstrate that our bi-level optimization framework maintains the performance of the expensive iterative algorithm while obtaining up to \textbf{1600x} speed-up.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 人中心型In-build Embodied Deliveryベンチマーク

Human-centered In-building Embodied Delivery Benchmark ( http://arxiv.org/abs/2406.17898v1 )

ライセンス: Link先を確認
Zhuoqun Xu, Yang Liu, Xiaoqi Li, Jiyao Zhang, Hao Dong, (参考訳) 近年,インボディード・インテリジェンスの概念が広く受け入れられ普及し,この分野での商業化の可能性が自然に考慮されるようになった。 本研究では,人間中心のインビルディング・インボディード・デリバリーという,特定の商業シナリオシミュレーションを提案する。 さらに, このシナリオでは, 極地研究ステーションをモデルとした多層連結建築空間を構築し, スクラッチから新たな仮想環境システムを構築した。 この環境には、自律的な人間キャラクターや、把握能力と移動能力を備えたロボット、そして多数の対話的なアイテムが含まれる。 この環境に基づいて、サービス提供においてロボットを指導するための13k言語命令を含むデリバリデータセットを構築しました。 人間の行動は人的キャラクタを通してシミュレートし、日常生活における様々なニーズをサンプリングする。 最後に,このデータセットのベースラインシステムとして機能する大規模マルチモーダルモデルを中心にした手法を提案する。 過去の具体的データ処理と比較して、我々の研究は、商用シナリオのための人間とロボットのインタラクションを中心とした仮想環境に焦点を当てている。 これによって、エンボディドコミュニティに新たな視点と探究の角度がもたらされることを私たちは信じています。

Recently, the concept of embodied intelligence has been widely accepted and popularized, leading people to naturally consider the potential for commercialization in this field. In this work, we propose a specific commercial scenario simulation, human-centered in-building embodied delivery. Furthermore, for this scenario, we have developed a brand-new virtual environment system from scratch, constructing a multi-level connected building space modeled after a polar research station. This environment also includes autonomous human characters and robots with grasping and mobility capabilities, as well as a large number of interactive items. Based on this environment, we have built a delivery dataset containing 13k language instructions to guide robots in providing services. We simulate human behavior through human characters and sample their various needs in daily life. Finally, we proposed a method centered around a large multimodal model to serve as the baseline system for this dataset. Compared to past embodied data work, our work focuses on a virtual environment centered around human-robot interaction for commercial scenarios. We believe this will bring new perspectives and exploration angles to the embodied community.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 有限オーバーラップによる垂直分割データの効率的な分類のためのエンティティ拡張

Entity Augmentation for Efficient Classification of Vertically Partitioned Data with Limited Overlap ( http://arxiv.org/abs/2406.17899v1 )

ライセンス: Link先を確認
Avi Amalanshu, Viswesh Nagaswamy, G. V. S. S. Prudhvi, Yash Sirvi, Debashish Chakravarty, (参考訳) 垂直フェデレートラーニング(英: Vertical Federated Learning、VFL)とは、垂直に分割されたデータから学習するための機械学習パラダイムである。 伝統的に、VFLはホストがすべてのゲストに知られているユニークなエンティティを識別しシリアライズする「エンティ解決」フェーズを伴っている。 これに続いて、共通のエンティティを見つけるためのプライベートセットの交差点と、すべてのゲストが常に同じエンティティのデータを処理することを確実にするための"エンティティアライメント"ステップが続く。 しかし、交差点からのエンティティのデータのみを使用することで、ゲストは潜在的に有用なデータを捨てる。 さらに、プライバシーへの影響は疑わしいものであり、これらの操作は計算に費用がかかる。 本稿では,カテゴリー的タスクにおける整合性や整合性の必要性を解消する新しい手法を提案する。 我々のEntity Augmentation技術は、元のエンティティに関係なく、ホストに送信されるアクティベーションに意味のあるラベルを生成し、明示的なエンティティアライメントなしに効率的なVFLを可能にする。 トレーニングデータ間の重複が限定されているため、このアプローチは大幅に改善されている(例えば、5%オーバーラップ、48.1%対CIFAR-10のテスト精度69.48%)。 実際、正規化効果のおかげで、100%オーバーラップしても、我々のモデルは極端に良くなっています。

Vertical Federated Learning (VFL) is a machine learning paradigm for learning from vertically partitioned data (i.e. features for each input are distributed across multiple "guest" clients and an aggregating "host" server owns labels) without communicating raw data. Traditionally, VFL involves an "entity resolution" phase where the host identifies and serializes the unique entities known to all guests. This is followed by private set intersection to find common entities, and an "entity alignment" step to ensure all guests are always processing the same entity's data. However, using only data of entities from the intersection means guests discard potentially useful data. Besides, the effect on privacy is dubious and these operations are computationally expensive. We propose a novel approach that eliminates the need for set intersection and entity alignment in categorical tasks. Our Entity Augmentation technique generates meaningful labels for activations sent to the host, regardless of their originating entity, enabling efficient VFL without explicit entity alignment. With limited overlap between training data, this approach performs substantially better (e.g. with 5% overlap, 48.1% vs 69.48% test accuracy on CIFAR-10). In fact, thanks to the regularizing effect, our model performs marginally better even with 100% overlap.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# スクリプトに依存しない言語識別

Script-Agnostic Language Identification ( http://arxiv.org/abs/2406.17901v1 )

ライセンス: Link先を確認
Milind Agarwal, Joshua Otten, Antonios Anastasopoulos, (参考訳) 言語識別は、オンラインテキストを言語固有のバケットにソートできるため、多くのデータ収集とクローリングの取り組みの第一歩として使用されます。 しかし、金仮名、カシミリ、パンジャービなどの現代語は、複数の文字で同期的に書かれている。 さらに、異なる記述系を持つ言語は、ニューラル表現空間において重要な語彙的、意味的、構文的特性を共有していない。 これに対応するために,タミル語,テルグ語,カンナダ語,マラヤラム語の4つの主要なドラヴィダ語(タミル語,テルグ語,カンナダ語,マラヤラム語)に着目した,いくつかの異なる実験戦略(アップスケーリング,フラット化,スクリプト混合)を用いたスクリプト非依存表現の学習を提案する。 複数のスクリプトで書かれた言語への単語レベルのスクリプトのランダム化と露出は、下流のスクリプトに依存しない言語識別には極めて有用であると同時に、自然に発生するテキスト上での競合性能も維持できる。

Language identification is used as the first step in many data collection and crawling efforts because it allows us to sort online text into language-specific buckets. However, many modern languages, such as Konkani, Kashmiri, Punjabi etc., are synchronically written in several scripts. Moreover, languages with different writing systems do not share significant lexical, semantic, and syntactic properties in neural representation spaces, which is a disadvantage for closely related languages and low-resource languages, especially those from the Indian Subcontinent. To counter this, we propose learning script-agnostic representations using several different experimental strategies (upscaling, flattening, and script mixing) focusing on four major Dravidian languages (Tamil, Telugu, Kannada, and Malayalam). We find that word-level script randomization and exposure to a language written in multiple scripts is extremely valuable for downstream script-agnostic language identification, while also maintaining competitive performance on naturally occurring text.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 心エコー図の領域適応 : 強化学習による検討

Domain Adaptation of Echocardiography Segmentation Via Reinforcement Learning ( http://arxiv.org/abs/2406.17902v1 )

ライセンス: Link先を確認
Arnaud Judge, Thierry Judge, Nicolas Duchateau, Roman A. Sandler, Joseph Z. Sokol, Olivier Bernard, Pierre-Marc Jodoin, (参考訳) 深層学習セグメンテーションモデルの性能は、異なる医用画像領域間での転送性において、特に効果的な微調整のために注釈付きデータが不十分なターゲット領域にこれらのモデルを適応させようとする場合には、大きな課題となる。 既存のドメイン適応(DA)手法ではこの問題を緩和する戦略が提案されているが、これらの手法は人間の検証されたセグメンテーションを明示的に組み込んでおらず、解剖学的に妥当なセグメンテーションを生成するモデルの可能性について論じている。 我々は、RL4Segという革新的な強化学習フレームワークを導入し、ターゲットドメインに専門的な注釈付きデータセットを組み込む必要を減らし、長い手作業によるレビューの必要性を排除した。 1万枚の未注釈2D心エコー画像のターゲットデータセットを用いて、RL4Segは既存の最先端DA法を精度良く上回るだけでなく、ターゲットドメインから220名の専門家検証対象のサブセットに対して99%の解剖学的妥当性を達成する。 さらに、我々のフレームワークの報奨ネットワークは、医療画像セグメンテーションにおける領域適応課題の克服におけるRL4Segの有用性と有効性を実証し、最先端の不確実性手法に匹敵する不確実性推定を提供する。

Performance of deep learning segmentation models is significantly challenged in its transferability across different medical imaging domains, particularly when aiming to adapt these models to a target domain with insufficient annotated data for effective fine-tuning. While existing domain adaptation (DA) methods propose strategies to alleviate this problem, these methods do not explicitly incorporate human-verified segmentation priors, compromising the potential of a model to produce anatomically plausible segmentations. We introduce RL4Seg, an innovative reinforcement learning framework that reduces the need to otherwise incorporate large expertly annotated datasets in the target domain, and eliminates the need for lengthy manual human review. Using a target dataset of 10,000 unannotated 2D echocardiographic images, RL4Seg not only outperforms existing state-of-the-art DA methods in accuracy but also achieves 99% anatomical validity on a subset of 220 expert-validated subjects from the target domain. Furthermore, our framework's reward network offers uncertainty estimates comparable with dedicated state-of-the-art uncertainty methods, demonstrating the utility and effectiveness of RL4Seg in overcoming domain adaptation challenges in medical image segmentation.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 20世紀前半のスウェーデンの百科事典とウィキデータ

Mapping the Past: Geographically Linking an Early 20th Century Swedish Encyclopedia with Wikidata ( http://arxiv.org/abs/2406.17903v1 )

ライセンス: Link先を確認
Axel Ahlin, Alfred Myrne, Pierre Nugues, (参考訳) 本稿では,20世紀初頭のスウェーデンの著名な百科事典である『textit{Nordisk Familjebok} `Nordic Family Book'』から,すべての項目の抽出について述べる。 「第2版「textit{Uggleupplagan"」は38巻18万2000点以上を収録。 これはスウェーデンで最も広い百科事典の1つである。 まず,分類器を用いて項目のカテゴリを決定する。 うち約22%が場所であることがわかった。 これらのエントリに名前付きエンティティ認識を適用し、Wikidataにリンクした。 Wikidataを使えば、正確な地理的位置を抽出でき、その結果、およそ18,000の有効な座標が得られる。 次に、これらの位置の分布とエントリ選択過程を分析した。 スウェーデン、ドイツ、イギリスでは人口密度が高かった。 この論文は、歴史的・社会的視点に関する洞察を提供する『textit{Nordisk Familjebok}』において、地理的情報の選択と表現について光を当てている。 また、異なる期間におけるエントリー選択の今後の調査方法や、様々な百科事典の比較分析の道を開く。

In this paper, we describe the extraction of all the location entries from a prominent Swedish encyclopedia from the early 20th century, the \textit{Nordisk Familjebok} `Nordic Family Book.' We focused on the second edition called \textit{Uggleupplagan}, which comprises 38 volumes and over 182,000 articles. This makes it one of the most extensive Swedish encyclopedias. Using a classifier, we first determined the category of the entries. We found that approximately 22 percent of them were locations. We applied a named entity recognition to these entries and we linked them to Wikidata. Wikidata enabled us to extract their precise geographic locations resulting in almost 18,000 valid coordinates. We then analyzed the distribution of these locations and the entry selection process. It showed a higher density within Sweden, Germany, and the United Kingdom. The paper sheds light on the selection and representation of geographic information in the \textit{Nordisk Familjebok}, providing insights into historical and societal perspectives. It also paves the way for future investigations into entry selection in different time periods and comparative analyses among various encyclopedias.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# ビットコインのTwitterトレンド分析における液位評価システムの適用

Application of Liquid Rank Reputation System for Twitter Trend Analysis on Bitcoin ( http://arxiv.org/abs/2406.17904v1 )

ライセンス: Link先を確認
Abhishek Saxena, Anton Kolonin, (参考訳) ソーシャルメディアのトレンドを分析することは、クリエイターと消費者の両方にとって勝利の状況を生み出すことができる。 クリエイターは公正な報酬を受けることができ、消費者はエンゲージメント、関連性、パーソナライズされたコンテンツにアクセスすることができる。 本稿では,ユーザ評価に基づく「流動的民主主義」アプローチを取り入れた,Twitter上のBitcoinトレンドの分析モデルを提案する。 このシステムは、最も影響力のあるトレンドと、Bitcoinの価格と取引量への影響を特定することを目的としている。 評価システムに基づくTwitterの感情分析モデルを使用して、Bitcoinの価格変更と取引量への影響を判断する。 さらに、評価モデルでは、ソーシャルネットワーク上の高階友人(当社のケーススタディにおける最初のTwitter入力チャンネル)が評価結果の正確性や多様性を向上させるために考慮されている。 私たちはTwitterでBitcoin関連のニュースを分析し、私たちのLiquid Rank Reputation Systemを通じて測定されたトレンドとユーザーの感情が、調査期間内のBitcoin価格の変動と取引活動にどのように影響するかを理解する。 この評価モデルは、他のトレンドや感情分析モデルに追加のレイヤとしても使用できる。 本稿では,液位評価モデルの実装,課題,今後の適用範囲について述べる。

Analyzing social media trends can create a win-win situation for both creators and consumers. Creators can receive fair compensation, while consumers gain access to engaging, relevant, and personalized content. This paper proposes a new model for analyzing Bitcoin trends on Twitter by incorporating a 'liquid democracy' approach based on user reputation. This system aims to identify the most impactful trends and their influence on Bitcoin prices and trading volume. It uses a Twitter sentiment analysis model based on a reputation rating system to determine the impact on Bitcoin price change and traded volume. In addition, the reputation model considers the users' higher-order friends on the social network (the initial Twitter input channels in our case study) to improve the accuracy and diversity of the reputation results. We analyze Bitcoin-related news on Twitter to understand how trends and user sentiment, measured through our Liquid Rank Reputation System, affect Bitcoin price fluctuations and trading activity within the studied time frame. This reputation model can also be used as an additional layer in other trend and sentiment analysis models. The paper proposes the implementation, challenges, and future scope of the liquid rank reputation model.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 飛行中の不偏性: 機械学習システム決定における説明誘導型人間監督

Unbiasing on the Fly: Explanation-Guided Human Oversight of Machine Learning System Decisions ( http://arxiv.org/abs/2406.17906v1 )

ライセンス: Link先を確認
Hussaini Mamman, Shuib Basri, Abdullateef Balogun, Abubakar Abdullahi Imam, Ganesh Kumar, Luiz Fernando Capretz, (参考訳) 雇用、金融、医療といった重要な領域にまたがるMLシステムの普及は、保護された属性に基づいた差別的意思決定の可能性に対する懸念を高めている。 開発中の公正性を保証する努力は不可欠だが、運用中に差別を示す可能性のある脆弱性を持つデプロイされたMLシステムを残している。 このギャップに対処するために,デプロイされたMLシステムにおいて,オンザフライトラッキングと識別の補正を行う新しいフレームワークを提案する。 このフレームワークは、カウンターファクトの説明を活用することで、MLシステムによる予測を継続的に監視し、差別的な結果をフラグ付けする。 フラグを付けると、オリジナルの予測と反現実的な代替案に関するポストホックな説明が、リアルタイムの介入のために人間レビュアーに提示される。 このHuman-in-the-loopアプローチにより、レビュアーはMLシステム決定を受理または無効にすることができ、動的設定の下で公正で責任あるML操作を可能にする。 検証と改善にはさらなる作業が必要だが、このフレームワークは差別を緩和し、幅広いドメインにデプロイされたMLシステムに対する信頼を構築するための有望な道を提供する。

The widespread adoption of ML systems across critical domains like hiring, finance, and healthcare raises growing concerns about their potential for discriminatory decision-making based on protected attributes. While efforts to ensure fairness during development are crucial, they leave deployed ML systems vulnerable to potentially exhibiting discrimination during their operations. To address this gap, we propose a novel framework for on-the-fly tracking and correction of discrimination in deployed ML systems. Leveraging counterfactual explanations, the framework continuously monitors the predictions made by an ML system and flags discriminatory outcomes. When flagged, post-hoc explanations related to the original prediction and the counterfactual alternatives are presented to a human reviewer for real-time intervention. This human-in-the-loop approach empowers reviewers to accept or override the ML system decision, enabling fair and responsible ML operation under dynamic settings. While further work is needed for validation and refinement, this framework offers a promising avenue for mitigating discrimination and building trust in ML systems deployed in a wide range of domains.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# DeepSense-V2V:車間マルチモーダルセンシング、ローカライゼーション、通信データセット

DeepSense-V2V: A Vehicle-to-Vehicle Multi-Modal Sensing, Localization, and Communications Dataset ( http://arxiv.org/abs/2406.17908v1 )

ライセンス: Link先を確認
Joao Morais, Gouranga Charan, Nikhil Srinivas, Ahmed Alkhateeb, (参考訳) 高データレートと低遅延車両間通信は、分散コンピューティングとインテリジェンス要件の調整、安全性の向上、およびサポートを実現するために、将来のインテリジェントトランスポートシステムにとって不可欠である。 しかし、効果的なコミュニケーション戦略を開発するには、現実的なテストシナリオとデータセットが必要である。 これは、より多くのスペクトルが利用できる高周波帯域において重要であるが、この帯域幅の取得は、方向伝達の必要性と、遮断に対する信号伝搬の感度によって困難である。 本研究は、mmWave車両間通信を研究するための、最初の大規模マルチモーダルデータセットを示す。 これは、360度カメラ、4つのレーダー、4つの60GHz位相アレイ、3Dライダー、2つの正確なGPSからのデータを含む2台のテストベッドを提供する。 このデータセットには、日夜120kmの都市間および農村部で運転する車両が含まれており、最高速度は時速100kmである。 トラックから自転車まで、あらゆる画像から100万件以上の物体が検出されました。 この研究には、さまざまな状況のカバレッジを証明する詳細なデータセット統計が含まれており、このデータセットが新しい機械学習アプリケーションを実現する方法を強調している。

High data rate and low-latency vehicle-to-vehicle (V2V) communication are essential for future intelligent transport systems to enable coordination, enhance safety, and support distributed computing and intelligence requirements. Developing effective communication strategies, however, demands realistic test scenarios and datasets. This is important at the high-frequency bands where more spectrum is available, yet harvesting this bandwidth is challenged by the need for direction transmission and the sensitivity of signal propagation to blockages. This work presents the first large-scale multi-modal dataset for studying mmWave vehicle-to-vehicle communications. It presents a two-vehicle testbed that comprises data from a 360-degree camera, four radars, four 60 GHz phased arrays, a 3D lidar, and two precise GPSs. The dataset contains vehicles driving during the day and night for 120 km in intercity and rural settings, with speeds up to 100 km per hour. More than one million objects were detected across all images, from trucks to bicycles. This work further includes detailed dataset statistics that prove the coverage of various situations and highlights how this dataset can enable novel machine-learning applications.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# ソフトウェア開発の変革 - 実世界のプロジェクトにおけるGitHubコパイロットの効率性と課題の評価

Transforming Software Development: Evaluating the Efficiency and Challenges of GitHub Copilot in Real-World Projects ( http://arxiv.org/abs/2406.17910v1 )

ライセンス: Link先を確認
Ruchika Pandey, Prabhat Singh, Raymond Wei, Shaila Shankar, (参考訳) 生成AI技術は、製品開発ライフサイクルを変革することを約束します。 この研究は、AIを使ったコーディングアシスタントであるGitHub Copilotを使用する際の効率向上、改善の領域、新たな課題を評価する。 15のソフトウェア開発タスクを特定し、大規模なプロプライエタリなコードベース上の実際のプロジェクトを通じて、Copilotのメリットを評価しました。 コードドキュメンテーションとオートコンプリートに最大50%の時間、反復的なコーディングタスク、ユニットテスト生成、デバッグ、ペアプログラミングに30~40%の時間がかかりました。 しかし、Copilotは複雑なタスク、大きな関数、複数のファイル、プロプライエタリなコンテキスト、特にC/C++コードに悩まされている。 クラウドファーストのソフトウェア開発ライフサイクルにおいて、コーディング関連のタスクを33~36%削減する計画を立てています。 本研究の目的は,生産性向上の定量化,未達成シナリオの特定,実践的なメリットと課題の検証,プログラム言語間のパフォーマンス変化の調査,コード品質,セキュリティ,開発者エクスペリエンスに関する新たな問題について議論することにある。

Generative AI technologies promise to transform the product development lifecycle. This study evaluates the efficiency gains, areas for improvement, and emerging challenges of using GitHub Copilot, an AI-powered coding assistant. We identified 15 software development tasks and assessed Copilot's benefits through real-world projects on large proprietary code bases. Our findings indicate significant reductions in developer toil, with up to 50% time saved in code documentation and autocompletion, and 30-40% in repetitive coding tasks, unit test generation, debugging, and pair programming. However, Copilot struggles with complex tasks, large functions, multiple files, and proprietary contexts, particularly with C/C++ code. We project a 33-36% time reduction for coding-related tasks in a cloud-first software development lifecycle. This study aims to quantify productivity improvements, identify underperforming scenarios, examine practical benefits and challenges, investigate performance variations across programming languages, and discuss emerging issues related to code quality, security, and developer experience.
翻訳日:2024-06-27 15:27:11 公開日:2024-06-25
# 単純X線撮影:レイマン用語を用いた放射線診断レポートの作成と評価

X-ray Made Simple: Radiology Report Generation and Evaluation with Layman's Terms ( http://arxiv.org/abs/2406.17911v1 )

ライセンス: Link先を確認
Kun Zhao, Chenghao Xiao, Chen Tang, Bohao Yang, Kai Ye, Noura Al Moubayed, Liang Zhan, Chenghua Lin, (参考訳) ラジオロジーレポート生成(RRG)は多モード生成モデルの進歩によって大きな進歩を遂げた。 しかし、ドメインの評価は公平で堅牢なメトリクスの欠如に悩まされている。 既存の語彙ベースのメトリクス(例えばBLEU)を使用したRRGのハイパフォーマンスは、単なるミラージュ(mirage)である可能性がある。 これらの報告が高度にパターン化されているため、RRGにとってこれは緊急の問題となっている。 本研究では,日常言語でRRGを体系的に改善するレイマンの用語ベースのデータセット,評価およびトレーニングフレームワークであるRRGフレームワークを提案することによって,この問題に非意図的にアプローチする。 まず最初に、翻訳されたレイマンの用語データセットをコントリビュートする。 このデータセットをベースとしたセマンティックスに基づく評価手法を提案し,BLEUの膨らみを緩和し,より公平な評価を行う。 最後に、レイマン用語データセットのトレーニングは、レポートテンプレートの学習に過度に適合するのではなく、レポートのセマンティクスに集中するようモデルに促すことを示す。 トレーニングサンプルの数とデータセットが提供するセマンティックスの間の有望なスケーリング法則を、元のフォーマットがもたらす逆パターンと比較して明らかにする。 私たちのコードは \url{https://github.com/hegehongcha/LaymanRRG} で利用可能です。

Radiology Report Generation (RRG) has achieved significant progress with the advancements of multimodal generative models. However, the evaluation in the domain suffers from a lack of fair and robust metrics. We reveal that, high performance on RRG with existing lexical-based metrics (e.g. BLEU) might be more of a mirage - a model can get a high BLEU only by learning the template of reports. This has become an urgent problem for RRG due to the highly patternized nature of these reports. In this work, we un-intuitively approach this problem by proposing the Layman's RRG framework, a layman's terms-based dataset, evaluation and training framework that systematically improves RRG with day-to-day language. We first contribute the translated Layman's terms dataset. Building upon the dataset, we then propose a semantics-based evaluation method, which is proved to mitigate the inflated numbers of BLEU and provides fairer evaluation. Last, we show that training on the layman's terms dataset encourages models to focus on the semantics of the reports, as opposed to overfitting to learning the report templates. We reveal a promising scaling law between the number of training examples and semantics gain provided by our dataset, compared to the inverse pattern brought by the original formats. Our code is available at \url{https://github.com/hegehongcha/LaymanRRG}.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# 大規模言語モデルと事例分割を用いたパノラマX線写真における歯科条件の半教師付き分類:実世界のデータセット評価

Semi-supervised classification of dental conditions in panoramic radiographs using large language model and instance segmentation: A real-world dataset evaluation ( http://arxiv.org/abs/2406.17915v1 )

ライセンス: Link先を確認
Bernardo Silva, Jefferson Fontinele, Carolina Letícia Zilli Vieira, João Manuel R. S. Tavares, Patricia Ramos Cury, Luciano Oliveira, (参考訳) 歯科用パノラマX線写真は診断の機会が大きいが、これらの画像の自動解析のための教師付き深層学習ネットワークはラベル付きデータの不足によって妨げられている。 ここでは、この問題に対する見方が異なる。 半教師付き学習フレームワークは、パノラマX線写真上の13の歯の条件を分類するために提案され、特に歯に焦点を当てている。 大規模言語モデルは, 歯科報告に基づいて, 最も一般的な歯科疾患に注釈を付けるために検討された。 さらに、分類ニューラルネットワークの事前トレーニングにはマスク付きオートエンコーダが使用され、ラベルなしデータの活用にはビジョントランスフォーマーが使用された。 この分析は、パノラマ写真8,795点と8,029対のレポートと画像を含む、文献で最も広範な2つのデータセットを用いて検証された。 結果は一貫してマシューズ相関係数の基準値を満たしたり超えたりした。 統計的分析によって支持された人的実践者との比較では、その効果と性能の限界が強調され、専門家間の合意の度合いに基づいて、ジュニアスペシャリストに匹敵する精度のレベルが示された。

Dental panoramic radiographs offer vast diagnostic opportunities, but training supervised deep learning networks for automatic analysis of those radiology images is hampered by a shortage of labeled data. Here, a different perspective on this problem is introduced. A semi-supervised learning framework is proposed to classify thirteen dental conditions on panoramic radiographs, with a particular emphasis on teeth. Large language models were explored to annotate the most common dental conditions based on dental reports. Additionally, a masked autoencoder was employed to pre-train the classification neural network, and a Vision Transformer was used to leverage the unlabeled data. The analyses were validated using two of the most extensive datasets in the literature, comprising 8,795 panoramic radiographs and 8,029 paired reports and images. Encouragingly, the results consistently met or surpassed the baseline metrics for the Matthews correlation coefficient. A comparison of the proposed solution with human practitioners, supported by statistical analysis, highlighted its effectiveness and performance limitations; based on the degree of agreement among specialists, the solution demonstrated an accuracy level comparable to that of a junior specialist.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# 映像からの音声・映像コンテンツを用いたカメラモデル同定

Camera Model Identification Using Audio and Visual Content from Videos ( http://arxiv.org/abs/2406.17916v1 )

ライセンス: Link先を確認
Ioannis Tsingalis, Christos Korgialas, Constantine Kotropoulos, (参考訳) デバイスブランドとモデルの識別は、マルチメディア法医学的応用の領域において重要な役割を果たす。 本稿では,音声,視覚的コンテンツ,あるいはそれらの融合を用いてデバイスを識別できるフレームワークを提案する。 視覚的内容と音声的内容の融合は、後に製品と和の2つの基本的な融合規則を適用することによって起こる。 デバイス識別問題は、畳み込みニューラルネットワークを利用した分類問題として取り組まれる。 実験により,提案フレームワークは,音声や視覚的コンテンツを独立して使用する場合に,有望な分類性能を示すことを示す。 さらに, 融合の結果は両者を常に上回るものではないが, 分類性能の向上に有望な可能性を示唆している。 将来の研究は、融合プロセスを改善し、両モードの分類性能を継続的に改善する可能性がある。 最後に, 分類結果の詳細な研究のために, 統計的意義試験を行う。

The identification of device brands and models plays a pivotal role in the realm of multimedia forensic applications. This paper presents a framework capable of identifying devices using audio, visual content, or a fusion of them. The fusion of visual and audio content occurs later by applying two fundamental fusion rules: the product and the sum. The device identification problem is tackled as a classification one by leveraging Convolutional Neural Networks. Experimental evaluation illustrates that the proposed framework exhibits promising classification performance when independently using audio or visual content. Furthermore, although the fusion results don't consistently surpass both individual modalities, they demonstrate promising potential for enhancing classification performance. Future research could refine the fusion process to improve classification performance in both modalities consistently. Finally, a statistical significance test is performed for a more in-depth study of the classification results.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# GraphSnapShot: 高速ストレージと検索を備えたグラフ機械学習の高速化

GraphSnapShot: Graph Machine Learning Acceleration with Fast Storage and Retrieval ( http://arxiv.org/abs/2406.17918v1 )

ライセンス: Link先を確認
Dong Liu, Roger Waleffe, Meng Jiang, Shivaram Venkataraman, (参考訳) 最近の研究では、グラフ学習加速に有用なツールであることが証明されたGraphSnapShotというフレームワークを開発した。 GraphSnapShotは、グラフ学習のための高速キャッシュ、ストレージ、検索、計算のためのフレームワークである。 グラフ構造の局所的なトポロジを素早く保存して更新することができ、グラフのスナップショットを取るように、グラフネットワークの構造内のパターンを追跡することができます。 実験では、GraphSnapShotは効率性を示し、dglのような現在のベースラインと比較して、最大30%のトレーニングアクセラレーションと73%のメモリ削減を実現している。この技術は、ソーシャルメディア分析やリコメンデーションシステムといった大規模動的グラフ学習タスクにおいて、エンティティ間の複雑な関係を処理するのに特に有用である。

In our recent research, we have developed a framework called GraphSnapShot, which has been proven an useful tool for graph learning acceleration. GraphSnapShot is a framework for fast cache, storage, retrieval and computation for graph learning. It can quickly store and update the local topology of graph structure and allows us to track patterns in the structure of graph networks, just like take snapshots of the graphs. In experiments, GraphSnapShot shows efficiency, it can achieve up to 30% training acceleration and 73% memory reduction for lossless graph ML training compared to current baselines such as dgl.This technique is particular useful for large dynamic graph learning tasks such as social media analysis and recommendation systems to process complex relationships between entities.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# PAFT: LLMファインチューニングのための並列トレーニングパラダイム

PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning ( http://arxiv.org/abs/2406.17923v1 )

ライセンス: Link先を確認
Shiva Kumar Pentyala, Zhichao Wang, Bin Bi, Kiran Ramnath, Xiang-Bo Mao, Regunathan Radhakrishnan, Sitaram Asur, Na, Cheng, (参考訳) 大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。 LLMは一般に、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように設定アライメントを施している。 しかし、このシーケンシャルなトレーニングパイプラインは、LCMのパフォーマンスを低下させるアライメント税につながる。 本稿では,SFT と選好アライメント(例えば DPO や ORPO など)を各データセット上で同一の事前学習モデルで独立に行う,実効 LLM ファインチューニングのための新しい PArallel トレーニングパラダイムである PAFT を紹介する。 SFTが生成したモデルと選好アライメントからのモデルは、下流アプリケーションでの使用のためにパラメータ拡散によって最終モデルにマージされる。 本研究は、DPOのような嗜好アライメントが自然にスパースモデルをもたらすのに対して、SFTは効果的なモデルマージのためにスパース化する必要がある自然な密集モデルをもたらすという重要な知見を明らかにする。 本稿では,デルタパラメータをスペーシングすることで冗長性を低減できる効果的な干渉分解法を提案する。 LLMはHuggingFace Open LLM Leaderboardで1位を獲得した。 総合的な評価は、並列トレーニングパラダイムの有効性を示す。

Large language models (LLMs) have shown remarkable abilities in diverse natural language processing (NLP) tasks. The LLMs generally undergo supervised fine-tuning (SFT) followed by preference alignment to be usable in downstream applications. However, this sequential training pipeline leads to alignment tax that degrades the LLM performance. This paper introduces PAFT, a new PArallel training paradigm for effective LLM Fine-Tuning, which independently performs SFT and preference alignment (e.g., DPO and ORPO, etc.) with the same pre-trained model on respective datasets. The model produced by SFT and the model from preference alignment are then merged into a final model by parameter fusing for use in downstream applications. This work reveals important findings that preference alignment like DPO naturally results in a sparse model while SFT leads to a natural dense model which needs to be sparsified for effective model merging. This paper introduces an effective interference resolution which reduces the redundancy by sparsifying the delta parameters. The LLM resulted from the new training paradigm achieved Rank #1 on the HuggingFace Open LLM Leaderboard. Comprehensive evaluation shows the effectiveness of the parallel training paradigm.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# FASA:高品質な子ども向け音声データ抽出のためのフレキシブル・自動音声アシスタント

FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data ( http://arxiv.org/abs/2406.17926v1 )

ライセンス: Link先を確認
Dancheng Liu, Jinjun Xiong, (参考訳) 近年,成人音声の自動音声認識(ASR)は,ディープニューラルネットワーク(DNN)モデルを用いて大きな進歩を遂げている。 成人データに基づいて事前訓練されたDNNモデルは、高品質な子どものスピーチが欠如していることから、子供のスピーチを微調整で一般化するのに苦慮することが多い。 データセットを生成する際には、人間のアノテーションはスケーラブルではなく、既存の強制調整ツールは、入力文字の品質に関する非現実的な仮定を行うため、使用できない。 これらの課題に対処するため,既存の騒々しい子どもの音声データから高品質な子どもの音声データを抽出する,フレキシブルで自動的な音声整合器として,新しい強制調整ツールFASAを提案する。 CHILDESデータセットでの使用例を示し、FASAが人間のアノテーションよりも13.6$\times$でデータ品質を改善することを示す。

Automatic Speech Recognition (ASR) for adults' speeches has made significant progress by employing deep neural network (DNN) models recently, but improvement in children's speech is still unsatisfactory due to children's speech's distinct characteristics. DNN models pre-trained on adult data often struggle in generalizing children's speeches with fine tuning because of the lack of high-quality aligned children's speeches. When generating datasets, human annotations are not scalable, and existing forced-alignment tools are not usable as they make impractical assumptions about the quality of the input transcriptions. To address these challenges, we propose a new forced-alignment tool, FASA, as a flexible and automatic speech aligner to extract high-quality aligned children's speech data from many of the existing noisy children's speech data. We demonstrate its usage on the CHILDES dataset and show that FASA can improve data quality by 13.6$\times$ over human annotations.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# CAT:解釈可能な概念ベーステイラー付加モデル

CAT: Interpretable Concept-based Taylor Additive Models ( http://arxiv.org/abs/2406.17931v1 )

ライセンス: Link先を確認
Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao, (参考訳) 一般化付加モデル(GAM)は、新しい解釈可能な手法として、ニューラルネットワークを用いて各特徴の非線形関数を個別に学習し、最終的な予測のために線形モデルを介して結合する。 GAMは、機能レベルではディープニューラルネットワーク(DNN)を説明することができるが、大量のモデルパラメータを必要とし、オーバーフィットする傾向があり、トレーニングとスケールが困難である。 さらに、多くの特徴を持つ現実世界のデータセットでは、特徴に基づく説明の解釈可能性が人間にとって低下する。 これらの課題に対処するため、近年の研究は概念に基づく解釈方法へと移行している。 これらのアプローチは、予測を行う前に概念学習を中間段階として統合し、人間の理解可能な概念の観点から予測を説明する。 しかし、これらの手法はドメインの専門家に対して、関連する名前とその基礎的真理値で広く概念をラベル付けする必要がある。 そこで本研究では,このプロセスに対して,新しい解釈可能な概念bAsed Taylor加法モデルであるCATを提案する。 CATは、ドメインの専門家が概念とその基盤となる真理値に注釈を付ける必要はない。 代わりに、ユーザーは入力機能をより広いグループに分類するだけでよい。 特に、CATはまず入力特徴群を1次元の高次概念表現に埋め込み、その概念表現を新しいホワイトボックスTaylorNet(TaylorNet)に供給する。 TaylorNetは、入力と出力の間の非線形関係を多項式を用いて学習することを目的としている。 複数のベンチマークによる評価結果は、CATが広範なモデルパラメータの必要性を減らしながら、ベースラインを上回り、競争することができることを示している。 重要なのは、人間が理解できる高レベルの概念を通じて、モデル予測を説明することができることだ。

As an emerging interpretable technique, Generalized Additive Models (GAMs) adopt neural networks to individually learn non-linear functions for each feature, which are then combined through a linear model for final predictions. Although GAMs can explain deep neural networks (DNNs) at the feature level, they require large numbers of model parameters and are prone to overfitting, making them hard to train and scale. Additionally, in real-world datasets with many features, the interpretability of feature-based explanations diminishes for humans. To tackle these issues, recent research has shifted towards concept-based interpretable methods. These approaches try to integrate concept learning as an intermediate step before making predictions, explaining the predictions in terms of human-understandable concepts. However, these methods require domain experts to extensively label concepts with relevant names and their ground-truth values. In response, we propose CAT, a novel interpretable Concept-bAsed Taylor additive model to simply this process. CAT does not have to require domain experts to annotate concepts and their ground-truth values. Instead, it only requires users to simply categorize input features into broad groups, which can be easily accomplished through a quick metadata review. Specifically, CAT first embeds each group of input features into one-dimensional high-level concept representation, and then feeds the concept representations into a new white-box Taylor Neural Network (TaylorNet). The TaylorNet aims to learn the non-linear relationship between the inputs and outputs using polynomials. Evaluation results across multiple benchmarks demonstrate that CAT can outperform or compete with the baselines while reducing the need of extensive model parameters. Importantly, it can explain model predictions through high-level concepts that human can understand.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# 音声認識モデルの生涯学習のための逐次編集

Sequential Editing for Lifelong Training of Speech Recognition Models ( http://arxiv.org/abs/2406.17935v1 )

ライセンス: Link先を確認
Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Nikolaos Pappas, Srikanth Ronanki, (参考訳) 音声認識(ASR)は従来、既知のドメインを前提としていたが、新しいドメインからのデータを追加することで、既存のドメインと新しいドメインの両方で再トレーニングモデルに関連する計算の非効率性に関する懸念が高まる。 新しいドメインにのみ焦点を合わせると、破滅的投機(CF)のリスクが生じる。 これを解決するために、生涯学習(LLL)アルゴリズムがASR向けに提案されている。 従来の研究では、Elastic Weight Consolidation、Knowledge Distillation、Replayといったテクニックが検討されている。 ASRシステムにおける新しい領域を継続的に学習するための新しい手法としてシーケンスモデル編集を提案する。 従来の手法と異なり,従来のデータセットへのアクセスや余分なパラメータの導入は不要である。 本研究は,最大15%の単語誤り率削減(WERR)を微調整ベースライン上で実現し,CommonVoice English Multi-accent データセット上での他のLLL手法よりも優れた効率性を示した。

Automatic Speech Recognition (ASR) traditionally assumes known domains, but adding data from a new domain raises concerns about computational inefficiencies linked to retraining models on both existing and new domains. Fine-tuning solely on new domain risks Catastrophic Forgetting (CF). To address this, Lifelong Learning (LLL) algorithms have been proposed for ASR. Prior research has explored techniques such as Elastic Weight Consolidation, Knowledge Distillation, and Replay, all of which necessitate either additional parameters or access to prior domain data. We propose Sequential Model Editing as a novel method to continually learn new domains in ASR systems. Different than previous methods, our approach does not necessitate access to prior datasets or the introduction of extra parameters. Our study demonstrates up to 15% Word Error Rate Reduction (WERR) over fine-tuning baseline, and superior efficiency over other LLL techniques on CommonVoice English multi-accent dataset.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# ホットディスタンス:セグメンテーションのためのワンホットとサイン付き距離埋め込みを組み合わせる

Hot-Distance: Combining One-Hot and Signed Distance Embeddings for Segmentation ( http://arxiv.org/abs/2406.17936v1 )

ライセンス: Link先を確認
Marwan Zouinkhi, Jeff L. Rhoades, Aubrey V. Weigel, (参考訳) 機械学習モデルは、それらが適合するデータに匹敵するだけである。 そのため、トレーニングモデルで可能な限り多くのデータを使用するのが望ましい。 モデルの適合に利用可能なデータは、タスクの定式化に大きく依存する。 集束イオンビーム走査電子顕微鏡(FIB-SEM)における細胞内構造セグメンテーションのためのトレーニングデータの量を増やすために,符号付き境界距離予測の強度とワンホット符号化の柔軟性を取り入れた新しいセグメンテーションターゲットであるHot-Distanceを導入する。

Machine learning models are only as good as the data to which they are fit. As such, it is always preferable to use as much data as possible in training models. What data can be used for fitting a model depends a lot on the formulation of the task. We introduce Hot-Distance, a novel segmentation target that incorporates the strength of signed boundary distance prediction with the flexibility of one-hot encoding, to increase the amount of usable training data for segmentation of subcellular structures in focused ion beam scanning electron microscopy (FIB-SEM).
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# フィードバックに基づく量子アルゴリズムを用いた古典最適化のないANNNIモデルの臨界特性の解析

Using a Feedback-Based Quantum Algorithm to Analyze the Critical Properties of the ANNNI Model Without Classical Optimization ( http://arxiv.org/abs/2406.17937v1 )

ライセンス: Link先を確認
G. E. L. Pexe, L. A. M. Rattighieri, A. L. Malvezzi, F. F. Fanchini, (参考訳) 本稿では、フィードバックベース量子アルゴリズム(FALQON)を用いて、異方性Next-Nearest-Neighbor Ising(ANNNI)モデルの臨界特性について検討する。 このアプローチにより、古典的な最適化手法に頼ることなく、基底状態と励起状態の両方を計算することができる。 有限サイズスケーリング法を用いて量子相転移を解析し、基底状態におけるスピン相関による相関関数を解析し、離散フーリエ変換による構造因子の計算により磁気構造を考察する。 以上の結果から,量子相転移を同定し,ANNNIモデルの磁気相を効率的にマッピングするアルゴリズムの能力を実証し,FALQONを複雑な磁気系を研究する強力なツールとして確立した。

We investigate the critical properties of the Anisotropic Next-Nearest-Neighbor Ising (ANNNI) model using a feedback-based quantum algorithm (FALQON). This approach allows us to compute both ground and excited states without relying on classical optimization methods. We study the quantum phase transitions using the Finite Size Scaling method, analyze correlation functions through spin correlations in the ground state, and examine magnetic structure by calculating structure factors via the Discrete Fourier Transform. Our results demonstrate the algorithm's capability to identify quantum phase transitions and efficiently map the ANNNI model's magnetic phases, establishing FALQON as a powerful tool to study complex magnetic systems.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# us」の意か? : グループ間バイアスにおける参照表現の解釈

Do they mean 'us'? Interpreting Referring Expressions in Intergroup Bias ( http://arxiv.org/abs/2406.17947v1 )

ライセンス: Link先を確認
Venkata S Govindarajan, Matianyu Zang, Kyle Mahowald, David Beaver, Junyi Jessy Li, (参考訳) グループ内スピーチとグループ外スピーチ(グループ間バイアス)の違いは微妙であり、ステレオタイプパーペチュエーションや暗黙のバイアスといった多くの社会的現象を損なう可能性がある。 本稿では,NFLチームのファンダム専門フォーラムの英語スポーツコメントに対するタグ付けタスクとしてグループ間バイアスをモデル化する。 私たちは、対立する視点(ゲームのチーム)から600万以上のゲームタイムコメントのユニークなデータセットをキュレートします。 専門家や群衆のアノテーションは、暗黙的かつ明示的な参照表現のタグ付けを通じてバイアスをモデル化し、このタスクに必要な言語と世界に対するリッチで文脈的な理解を明らかにする。 グループ間変異を大規模に解析するために、自動タグ付けにLLMを使用し、数値的な確率ではなく、コメントの時点での勝利確率の言語的記述により、いくつかのLLMが最適であることを示す。 さらに、LLMを用いたコメントの大規模タグ付けにより、グループ内発話とグループ外発話を区別する勝利確率間の参照形態の線形変動が明らかになった。 コードとデータはhttps://github.com/venkatasg/intergroup-nfl で公開されている。

The variations between in-group and out-group speech (intergroup bias) are subtle and could underlie many social phenomena like stereotype perpetuation and implicit bias. In this paper, we model the intergroup bias as a tagging task on English sports comments from forums dedicated to fandom for NFL teams. We curate a unique dataset of over 6 million game-time comments from opposing perspectives (the teams in the game), each comment grounded in a non-linguistic description of the events that precipitated these comments (live win probabilities for each team). Expert and crowd annotations justify modeling the bias through tagging of implicit and explicit referring expressions and reveal the rich, contextual understanding of language and the world required for this task. For large-scale analysis of intergroup variation, we use LLMs for automated tagging, and discover that some LLMs perform best when prompted with linguistic descriptions of the win probability at the time of the comment, rather than numerical probability. Further, large-scale tagging of comments using LLMs uncovers linear variations in the form of referent across win probabilities that distinguish in-group and out-group utterances. Code and data are available at https://github.com/venkatasg/intergroup-nfl .
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# オーバークッキングされた一般化の挑戦

The Overcooked Generalisation Challenge ( http://arxiv.org/abs/2406.17949v1 )

ライセンス: Link先を確認
Constantin Ruhdorfer, Matteo Bortoletto, Anna Penzkofer, Andreas Bulling, (参考訳) 我々は,OGC(Overcooked Generalisation Challenge)について紹介する。OGC(Overcooked Generalisation Challenge)は,OGC(Overcooked-AI)環境において,新規パートナーと対面したエージェントのゼロショット協調能力を研究する最初のベンチマークである。 この視点は、現実の人間とAIの協力に必要な一般化能力の獲得に失敗し、同じレベルでのみ協調エージェントを訓練し、評価してきた以前の多くの研究とは対照的である。 我々は,Overcookedにおける汎用エージェントを訓練するための自動カリキュラムを生成するために,最先端のデュアルカリキュラム設計(DCD)手法を併用したインタフェースを提案する。 これはDCD法用に特別に設計された最初の協調型マルチエージェント環境であり、その結果、最先端の手法でベンチマークされた最初のものである。 完全なGPUアクセラレーションを備え、DCDベンチマークスイートのminimax上に構築されており、オープンソースライセンスで無償で利用可能である。 現在のDCDアルゴリズムは、スケーラビリティと汎用性のために設計された最近のネットワークアーキテクチャと組み合わせても、この新たな課題において有用なポリシーを作成するのに苦労していることを示す。 OGCは、研究コミュニティが協力エージェントに対する一般化の影響を研究することを可能にすることで、現実世界の人間とAIの協力の境界を推し進めている。

We introduce the Overcooked Generalisation Challenge (OGC) - the first benchmark to study agents' zero-shot cooperation abilities when faced with novel partners and levels in the Overcooked-AI environment. This perspective starkly contrasts a large body of previous work that has trained and evaluated cooperating agents only on the same level, failing to capture generalisation abilities required for real-world human-AI cooperation. Our challenge interfaces with state-of-the-art dual curriculum design (DCD) methods to generate auto-curricula for training general agents in Overcooked. It is the first cooperative multi-agent environment specially designed for DCD methods and, consequently, the first benchmarked with state-of-the-art methods. It is fully GPU-accelerated, built on the DCD benchmark suite minimax, and freely available under an open-source license: https://git.hcics.simtech.uni-stuttgart.de/public-projects/OGC. We show that current DCD algorithms struggle to produce useful policies in this novel challenge, even if combined with recent network architectures that were designed for scalability and generalisability. The OGC pushes the boundaries of real-world human-AI cooperation by enabling the research community to study the impact of generalisation on cooperating agents.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# 高次不均質をナビゲートする - 航空・宇宙ネットワークにおけるフェデレーションラーニング

Navigating High-Degree Heterogeneity: Federated Learning in Aerial and Space Networks ( http://arxiv.org/abs/2406.17951v1 )

ライセンス: Link先を確認
Fan Dong, Henry Leung, Steve Drew, (参考訳) フェデレーション学習は、ドローン、気球、衛星を介してアクセス可能な巨大なプライベートエッジデータとコンピューティング能力を活用することで、空と宇宙ネットワーク内のネットワークとデータプライバシの課題に対する魅力的な解決策を提供する。 現在の研究では、学習過程の最適化、計算効率の向上、通信オーバーヘッドの最小化に焦点が当てられているが、不均一性やクラス不均衡の問題は、迅速なモデル収束にとって重要な障壁である。 本研究では,ASNに基づくフェデレーション学習のパフォーマンスを低下させるクラス不均衡に対する不均一性の影響について検討した。 本稿では,グループ化データにおける不均一性とクラス不均衡の相関について述べるとともに,電池寿命などの制約がクラス不均衡をいかに悪化させるかを示す。 以上の結果から, ASNをベースとしたFLは, 異種性のレベルが他のシナリオと同等であっても, クラス不均衡の問題に直面することが示唆された。 最後に,様々な異種度がFLトレーニングに与える影響を分析し,これらの条件下での現在の最先端アルゴリズムの有効性を評価する。 この結果から,ASNに基づくフェデレーション学習では不均一性の課題が顕著であり,アルゴリズムが高レベルの不均一性に効果的に対処できないことが判明した。

Federated learning offers a compelling solution to the challenges of networking and data privacy within aerial and space networks by utilizing vast private edge data and computing capabilities accessible through drones, balloons, and satellites. While current research has focused on optimizing the learning process, computing efficiency, and minimizing communication overhead, the issue of heterogeneity and class imbalance remains a significant barrier to rapid model convergence. In our study, we explore the influence of heterogeneity on class imbalance, which diminishes performance in ASN-based federated learning. We illustrate the correlation between heterogeneity and class imbalance within grouped data and show how constraints such as battery life exacerbate the class imbalance challenge. Our findings indicate that ASN-based FL faces heightened class imbalance issues even with similar levels of heterogeneity compared to other scenarios. Finally, we analyze the impact of varying degrees of heterogeneity on FL training and evaluate the efficacy of current state-of-the-art algorithms under these conditions. Our results reveal that the heterogeneity challenge is more pronounced in ASN-based federated learning and that prevailing algorithms often fail to effectively address high levels of heterogeneity.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# LINSCAN -- 線形性に基づくクラスタリングアルゴリズム

LINSCAN -- A Linearity Based Clustering Algorithm ( http://arxiv.org/abs/2406.17952v1 )

ライセンス: Link先を確認
Andrew Dennehy, Xiaoyu Zou, Shabnam J. Semnani, Yuri Fialko, Alexander Cloninger, (参考訳) DBSCANとOPTICSは、データ構造に関する仮定がほとんどない領域内の点のクラスタを識別する強力なアルゴリズムである。 本稿では,これらの長所を活用し,既存の手法の発見と分離が困難である線形クラスタの探索を目的とした新しいアルゴリズム LINSCAN を導入する。 特に、局所的近傍を近似する正規分布として点を埋め込むことで、クルバック・リーブラ・ディバージェンスから導かれる距離関数を活用することにより、LINSCANは空間的に近接しているが直交共分散を持つ有界クラスタを検出し、識別することができる。 我々は,LINSCANを地震データに適用して,交差する断層を含む活断層を識別し,その方向を決定する方法を示す。 最後に、これらのアルゴリズムの安定性の利点を維持するために、DBSCANとOPTICSの一般化を議論する。

DBSCAN and OPTICS are powerful algorithms for identifying clusters of points in domains where few assumptions can be made about the structure of the data. In this paper, we leverage these strengths and introduce a new algorithm, LINSCAN, designed to seek lineated clusters that are difficult to find and isolate with existing methods. In particular, by embedding points as normal distributions approximating their local neighborhoods and leveraging a distance function derived from the Kullback Leibler Divergence, LINSCAN can detect and distinguish lineated clusters that are spatially close but have orthogonal covariances. We demonstrate how LINSCAN can be applied to seismic data to identify active faults, including intersecting faults, and determine their orientation. Finally, we discuss the properties a generalization of DBSCAN and OPTICS must have in order to retain the stability benefits of these algorithms.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# SO-Friendly Neural Networks(SO-Friendly Neural Networks)は、各層に対する学習率とモメンタム率のIteration最適化を可能にする

Why Line Search when you can Plane Search? SO-Friendly Neural Networks allow Per-Iteration Optimization of Learning and Momentum Rates for Every Layer ( http://arxiv.org/abs/2406.17954v1 )

ライセンス: Link先を確認
Betty Shea, Mark Schmidt, (参考訳) 我々はSOフレンドリなニューラルネットワークのクラスを紹介し、実際に使用されるモデルには、2層に隠された重みを持つネットワークが含まれており、入力の数は出力の数よりも大きい。 SOフレンドリーなネットワークは、各イテレーションのステップサイズを設定するための正確な行探索を実行するという特性を持ち、固定学習を用いたフルバッチトレーニングにおいて同じ漸近的なコストがかかる。 さらに、同じコストで、各ステップにおける学習率と運動量率の両方を設定するために、平面探索が使用できる。 さらに、SOフレンドリーなネットワークは、サブスペース最適化を使用して、各イテレーションにおいて各レイヤの学習率と運動量率を設定することもできます。 線形最適化と部分空間最適化を併用した準ニュートン法とアダム法に加えて,勾配勾配勾配勾配の増大について検討し,この実験により,過度パラメータに敏感なネットワークを高速かつ信頼性に訓練する方法が示唆された。

We introduce the class of SO-friendly neural networks, which include several models used in practice including networks with 2 layers of hidden weights where the number of inputs is larger than the number of outputs. SO-friendly networks have the property that performing a precise line search to set the step size on each iteration has the same asymptotic cost during full-batch training as using a fixed learning. Further, for the same cost a planesearch can be used to set both the learning and momentum rate on each step. Even further, SO-friendly networks also allow us to use subspace optimization to set a learning rate and momentum rate for each layer on each iteration. We explore augmenting gradient descent as well as quasi-Newton methods and Adam with line optimization and subspace optimization, and our experiments indicate that this gives fast and reliable ways to train these networks that are insensitive to hyper-parameters.
翻訳日:2024-06-27 15:17:27 公開日:2024-06-25
# 単調アライメント学習によるLLM音声合成のロバスト性向上

Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment ( http://arxiv.org/abs/2406.17957v1 )

ライセンス: Link先を確認
Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Rafael Valle, Rohan Badlani, Boris Ginsburg, (参考訳) 大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。 しかし、LLMベースのTSモデルは、特にテキストが同じトークンの複数の発生を含む場合、生成した出力が繰り返し単語、欠落した単語、不一致したスピーチ(幻覚や注意の誤りとして参照される)を含むため、堅牢ではない。 エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。 このアライメントをより堅牢にするために,テキストトークンに対するモノトニックなクロスアテンションを促進するCTC損失とアテンション前処理を利用する手法を提案する。 本手法は学習可能な新しいパラメータを導入せず,LSMに基づくTSモデルのロバスト性を大幅に向上させる。

Large Language Model (LLM) based text-to-speech (TTS) systems have demonstrated remarkable capabilities in handling large speech datasets and generating natural speech for new speakers. However, LLM-based TTS models are not robust as the generated output can contain repeating words, missing words and mis-aligned speech (referred to as hallucinations or attention errors), especially when the text contains multiple occurrences of the same token. We examine these challenges in an encoder-decoder transformer model and find that certain cross-attention heads in such models implicitly learn the text and speech alignment when trained for predicting speech tokens for a given text. To make the alignment more robust, we propose techniques utilizing CTC loss and attention priors that encourage monotonic cross-attention over the text tokens. Our guided attention training technique does not introduce any new learnable parameters and significantly improves robustness of LLM-based TTS models.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# MAGIC: 効果的かつ効率的な視覚・言語ナビゲーションのための対話型チェイン・オブ・ディバイスレーション

MAGIC: Meta-Ability Guided Interactive Chain-of-Distillation for Effective-and-Efficient Vision-and-Language Navigation ( http://arxiv.org/abs/2406.17960v1 )

ライセンス: Link先を確認
Liuyi Wang, Zongtao He, Mengjiao Shen, Jingwei Yang, Chengju Liu, Qijun Chen, (参考訳) 近年のEmbodied Artificial Intelligence(E-AI)における大規模なモデルの発展にもかかわらず、ロボット工学への統合は、過度のパラメータサイズと計算要求によって妨げられている。 本稿では,E-AIの中核課題であるVLN(Vision-and-Language Navigation)タスクに向けて,Meta-Ability Guided Interactive Chain-of-distillation(MAGIC)手法を提案することにより,軽量な学生モデルを得るための知識蒸留の可能性を明らかにする。 具体的には, VLNエージェントのメタ能力を疎結合し, 精製するために, メタ能力知識蒸留(MAKD)フレームワークを提案する。 MKRW(Meta-Knowledge Randomization Weighting)とMeta-Knowledge Transferable determined(Meta-Knowledge Transferable determined)モジュールをそれぞれ組み込んで,メタビリティと試料レベルの凝集重量を動的に調整する。 従来の一方向蒸留を超越して、ICoD(Interactive Chain-of-Distillation)学習戦略が提案されている。 興味深いことに、R2Rテストでは、私たちの最小のモデルであるMAGIC-Sは、教師のサイズがわずか5%(11M)しかなく、同じトレーニングデータの下で過去の方法よりも優れています。 さらに、われわれの最大のモデルであるMAGIC-Lは、以前の最先端モデルを上回る5.84%のSPL、3.18%のSRである。 さらに,私たちの生活環境から新たなデータセットを収集し,アノテートし,MAGIC-Sが優れた性能とリアルタイム効率を示した。 私たちのコードはhttps://github.com/CrystalSixone/VLN-MAGICで公開されています。

Despite the remarkable developments of recent large models in Embodied Artificial Intelligence (E-AI), their integration into robotics is hampered by their excessive parameter sizes and computational demands. Towards the Vision-and-Language Navigation (VLN) task, a core task in E-AI, this paper reveals the great potential of using knowledge distillation for obtaining lightweight student models by proposing a Meta-Ability Guided Interactive Chain-of-distillation (MAGIC) method. Specifically, a Meta-Ability Knowledge Distillation (MAKD) framework is proposed for decoupling and refining the necessary meta-abilities of VLN agents. A Meta-Knowledge Randomization Weighting (MKRW) and a Meta-Knowledge Transferable Determination (MKTD) module are incorporated to dynamically adjust aggregation weights at the meta-ability and sample levels, respectively. Move beyond the traditional one-step unidirectional distillation, an Interactive Chain-of-Distillation (ICoD) learning strategy is proposed to allow students to give feedback to teachers, forming a new multi-step teacher-student co-evolution pipeline. Remarkably, on the R2R test unseen public leaderboard, our smallest model, MAGIC-S, with only 5% (11M) of the teacher's size, outperforms all previous methods under the same training data. Additionally, our largest model, MAGIC-L, surpasses the previous state-of-the-art by 5.84% in SPL and 3.18% in SR. Furthermore, a new dataset was collected and annotated from our living environments, where MAGIC-S demonstrated superior performance and real-time efficiency. Our code is publicly available on https://github.com/CrystalSixone/VLN-MAGIC.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# NormTab: 語彙データ正規化によるLLMのシンボリック推論の改善

NormTab: Improving Symbolic Reasoning in LLMs Through Tabular Data Normalization ( http://arxiv.org/abs/2406.17961v1 )

ライセンス: Link先を確認
Md Mahadi Hasan Nahid, Davood Rafiei, (参考訳) 近年,Large Language Models (LLMs) はテキストデータの解析やコード生成において顕著な能力を発揮している。 しかし、表表データ、特に記号的推論を必要とするタスクにおけるそれらのパフォーマンスは、Webテーブルでよく見られる表セル値の構造的ばらつきと矛盾のため、課題に直面している。 本稿では,Web テーブルの正規化による LLM のシンボリック推論性能の向上を目的とした,新しいフレームワークである NormTab を紹介する。 表データのシンボリック推論を支援するために,LCMを用いてテーブル正規化を1回1回1回前処理ステップとして検討する。 WikiTableQuestion や TabFact などの Web テーブルデータセットを用いた実験により,NormTab の活用はシンボル推論性能を大幅に向上し,LLM に基づく記号推論タスクの強化に Web テーブル正規化の重要性と有効性を示した。

In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in parsing textual data and generating code. However, their performance in tasks involving tabular data, especially those requiring symbolic reasoning, faces challenges due to the structural variance and inconsistency in table cell values often found in web tables. In this paper, we introduce NormTab, a novel framework aimed at enhancing the symbolic reasoning performance of LLMs by normalizing web tables. We study table normalization as a stand-alone, one-time preprocessing step using LLMs to support symbolic reasoning on tabular data. Our experimental evaluation, conducted on challenging web table datasets such as WikiTableQuestion and TabFact, demonstrates that leveraging NormTab significantly improves symbolic reasoning performance, showcasing the importance and effectiveness of web table normalization for enhancing LLM-based symbolic reasoning tasks.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# SimsChat: カスタマイズ可能なペルソナ駆動ロールプレイングエージェント

SimsChat: A Customisable Persona-Driven Role-Playing Agent ( http://arxiv.org/abs/2406.17962v1 )

ライセンス: Link先を確認
Bohao Yang, Dong Liu, Chen Tang, Chenghao Xiao, Kun Zhao, Chao Li, Lin Yuan, Guang Yang, Lanxiao Huang, Chenghua Lin, (参考訳) 大きな言語モデル(LLM)は、人間の指示を理解し、高品質なテキストを生成する優れた能力を持ち、人間の振る舞いをシミュレートするエージェントとして機能する。 この能力により、LSMは単純な人間の行動を複製するだけでなく、より高度な方法で人間をエミュレートすることができる。 しかし、いくつかの側面から文字を作るのにLLMを活用することを検討することの欠如がある。 本研究では, LLMを用いて, ユーザの好みに応じて自由にカスタマイズできる実世界の文字をシミュレートする Customisable Conversation Agent Framework を紹介する。 カスタマイズ可能なフレームワークは、人間の好みに応じてカスタマイズ可能なキャラクタとロールプレイングエージェントを設計するのに役立ちます。 まず68種類のカスタマイズ文字と1,360個のマルチターンロールプレイングダイアログからなるSimsConvデータセットを提案し,合計13,971個の対話対話を包含する。 キャラクターは、キャリア、願望、特性、スキルなど、いくつかの現実世界の要素から作られる。 これらの基盤の上に構築されたSimsChatは、自由にカスタマイズ可能なロールプレイングエージェントである。 異なる現実世界のシーンとトピック固有のキャラクターの対話、様々なシナリオにおけるキャラクターの生活経験のシミュレート、特定の感情とのトピック固有の相互作用を取り入れている。 実験の結果,提案するフレームワークは望ましい性能を達成し,将来人体のより優れたシミュラクラを構築する上で有用なガイドラインを提供することがわかった。 私たちのデータとコードはhttps://github.com/Bernard-Yang/SimsChat.comで公開されています。

Large Language Models (LLMs) possess the remarkable capability to understand human instructions and generate high-quality text, enabling them to act as agents that simulate human behaviours. This capability allows LLMs to emulate human beings in a more advanced manner, beyond merely replicating simple human behaviours. However, there is a lack of exploring into leveraging LLMs to craft characters from several aspects. In this work, we introduce the Customisable Conversation Agent Framework, which employs LLMs to simulate real-world characters that can be freely customised according to different user preferences. The customisable framework is helpful for designing customisable characters and role-playing agents according to human's preferences. We first propose the SimsConv dataset, which comprises 68 different customised characters, 1,360 multi-turn role-playing dialogues, and encompasses 13,971 interaction dialogues in total. The characters are created from several real-world elements, such as career, aspiration, trait, and skill. Building on these foundations, we present SimsChat, a freely customisable role-playing agent. It incorporates different real-world scenes and topic-specific character interaction dialogues, simulating characters' life experiences in various scenarios and topic-specific interactions with specific emotions. Experimental results show that our proposed framework achieves desirable performance and provides helpful guideline for building better simulacra of human beings in the future. Our data and code are available at https://github.com/Bernard-Yang/SimsChat.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# 動的グラフ埋め込み軌道による学際的洞察の強化

Empowering Interdisciplinary Insights with Dynamic Graph Embedding Trajectories ( http://arxiv.org/abs/2406.17963v1 )

ライセンス: Link先を確認
Yiqiao Jin, Andrew Zhao, Yeon-Chang Lee, Meng Ye, Ajay Divakaran, Srijan Kumar, (参考訳) 我々は動的グラフ(DG)を効果的に視覚化する新しいフレームワークであるDyGETVizを開発した。 このフレームワークは、離散時間動的グラフ(DTDG)モデルの最近の進歩を利用して、動的グラフに固有の時間的ダイナミクスを順応的に扱う。 DyGETVizは、これらのグラフ内のマイクロレベルとマクロレベルの構造シフトを効果的にキャプチャし、複雑で大規模な動的グラフを表現する堅牢な方法を提供する。 DyGETVizの適用範囲は、民族学、疫学、金融学、遺伝学、言語学、コミュニケーション研究、社会学、国際関係など、多岐にわたる。 実装を通じて、DyGETVizは様々な重要な洞察を明らかにし、確認した。 これには、コンテンツ共有パターンの多様性とオンラインコミュニティ内の特殊化の度合い、数十年にわたるレキシコンの時系列的進化、老化に関連する遺伝子や非関連遺伝子によって示される異なる軌跡が含まれる。 重要なことは、DyGETVizは動的グラフの複雑さを単純化することによって、非ドメインの専門家への科学的発見のアクセシビリティを高めることである。 私たちのフレームワークは、さまざまな分野にまたがって使用するためのオープンソースのPythonパッケージとしてリリースされています。 本研究は,DTDGモデルの可視化と解析における現在進行中の課題に対処するだけでなく,様々な分野にわたる動的グラフ表現と解析に関する今後の研究の基盤となる枠組みを確立する。

We developed DyGETViz, a novel framework for effectively visualizing dynamic graphs (DGs) that are ubiquitous across diverse real-world systems. This framework leverages recent advancements in discrete-time dynamic graph (DTDG) models to adeptly handle the temporal dynamics inherent in dynamic graphs. DyGETViz effectively captures both micro- and macro-level structural shifts within these graphs, offering a robust method for representing complex and massive dynamic graphs. The application of DyGETViz extends to a diverse array of domains, including ethology, epidemiology, finance, genetics, linguistics, communication studies, social studies, and international relations. Through its implementation, DyGETViz has revealed or confirmed various critical insights. These include the diversity of content sharing patterns and the degree of specialization within online communities, the chronological evolution of lexicons across decades, and the distinct trajectories exhibited by aging-related and non-related genes. Importantly, DyGETViz enhances the accessibility of scientific findings to non-domain experts by simplifying the complexities of dynamic graphs. Our framework is released as an open-source Python package for use across diverse disciplines. Our work not only addresses the ongoing challenges in visualizing and analyzing DTDG models but also establishes a foundational framework for future investigations into dynamic graph representation and analysis across various disciplines.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# インポスタをアンマキングする:人間対機械生成ツイートのドメイン内検出

Unmasking the Imposters: In-Domain Detection of Human vs. Machine-Generated Tweets ( http://arxiv.org/abs/2406.17967v1 )

ライセンス: Link先を確認
Bryan E. Tuck, Rakesh M. Verma, (参考訳) 大規模言語モデル(LLM)の急速な開発により、流動的で説得力のあるテキストの生成が大幅に向上し、ソーシャルメディアプラットフォームでの誤用に対する懸念が高まった。 Llama 3, Mistral, Qwen2, GPT4o の4つの LLM の生成能力を調べるために, Twitter データセットを用いた手法を提案する。 3つのオープンソースLCMの7Bおよび8Bパラメータベースインストラクションモデルを評価し、さらなる微調整および「アンセンサード」バージョンの影響を検証した。 その結果,ドメイン内微調整を付加した「アンセンソルド」モデルでは,自動検出法の有効性が劇的に低下することがわかった。 本研究では、より小さなオープンソースモデルと「アンセンサリング」の効果を探求し、微調整とコンテンツモデレーションが機械生成テキストの検出にどのように影響するかを考察する。

The rapid development of large language models (LLMs) has significantly improved the generation of fluent and convincing text, raising concerns about their misuse on social media platforms. We present a methodology using Twitter datasets to examine the generative capabilities of four LLMs: Llama 3, Mistral, Qwen2, and GPT4o. We evaluate 7B and 8B parameter base-instruction models of the three open-source LLMs and validate the impact of further fine-tuning and "uncensored" versions. Our findings show that "uncensored" models with additional in-domain fine-tuning dramatically reduce the effectiveness of automated detection methods. This study addresses a gap by exploring smaller open-source models and the effects of "uncensoring," providing insights into how fine-tuning and content moderation influence machine-generated text detection.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# 学習可能な遅延インタラクションを用いた効率的な文書ランク付け

Efficient Document Ranking with Learnable Late Interactions ( http://arxiv.org/abs/2406.17968v1 )

ライセンス: Link先を確認
Ziwei Ji, Himanshu Jain, Andreas Veit, Sashank J. Reddi, Sadeep Jayasumana, Ankit Singh Rawat, Aditya Krishna Menon, Felix Yu, Sanjiv Kumar, (参考訳) クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。 関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。 近年,DEM構造とクエリと文書トークンの埋め込みに基づく軽量スコアラを用いて,より優れたレイテンシ品質のトレードオフを実現するために遅延相互作用モデルが提案されている。 しかし、これらの軽量スコアラーはしばしば手作りであり、それらの近似能力は理解されていない。さらに、これらのスコアラーは個々の文書トークンの埋め込みにアクセスする必要があり、遅延とストレージの負担が増大する。 本稿では,これらの問題を解決する新しい学習可能な遅延相互作用モデル(LITE)を提案する。 理論的には、LITEは比較的小さな埋め込み次元であっても連続的なスコアリング関数の普遍近似であることが証明される。 LITEは、ドメイン内およびゼロショットのリグレードタスクにおいて、ColBERTのような従来の遅延処理モデルよりも優れている。 例えば、MS MARCOのパスの再評価実験では、LITEはより一般化されたモデルを生成するだけでなく、レイテンシを低くし、ColBERTと比較して0.25倍のストレージを必要とすることが示されている。

Cross-Encoder (CE) and Dual-Encoder (DE) models are two fundamental approaches for query-document relevance in information retrieval. To predict relevance, CE models use joint query-document embeddings, while DE models maintain factorized query and document embeddings; usually, the former has higher quality while the latter benefits from lower latency. Recently, late-interaction models have been proposed to realize more favorable latency-quality tradeoffs, by using a DE structure followed by a lightweight scorer based on query and document token embeddings. However, these lightweight scorers are often hand-crafted, and there is no understanding of their approximation power; further, such scorers require access to individual document token embeddings, which imposes an increased latency and storage burden. In this paper, we propose novel learnable late-interaction models (LITE) that resolve these issues. Theoretically, we prove that LITE is a universal approximator of continuous scoring functions, even for relatively small embedding dimension. Empirically, LITE outperforms previous late-interaction models such as ColBERT on both in-domain and zero-shot re-ranking tasks. For instance, experiments on MS MARCO passage re-ranking show that LITE not only yields a model with better generalization, but also lowers latency and requires 0.25x storage compared to ColBERT.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# モノセマンティズムの促進か抑制か : 特徴的デコレーションの観点からのモノセマンティリティを再考する

Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective ( http://arxiv.org/abs/2406.17969v1 )

ライセンス: Link先を確認
Hanqi Yan, Yanzheng Xiang, Guangyi Chen, Yifei Wang, Lin Gui, Yulan He, (参考訳) 大規模言語モデル(LLM)の本質的なメカニズムをよりよく理解するために,近年の研究では,その基本単位に対する単意味性に着目している。 単意味ニューロンは単一の概念と特定の概念に特化しており、ニューロンと概念の間に1対1の相関関係を形成する。 単調性探索の広範な研究にもかかわらず、単調性がモデル能力に有益か有害かは定かではない。 この問題を探求するため,特徴デコレーションの観点から一律性を再考し,その奨励を提唱する。 モノセマンティリティの低下がモデル性能を向上させることを示唆するwang2024ラーニングによる現在の結論は、モデルが変化しても維持されないことを実験的に観察した。 その代わりに、選好アライメントプロセスにおいて、単意味性はモデルキャパシティと正の相関を示すことを示す。 したがって,特徴相関を単意味性のプロキシとして適用し,特徴デコリレーション正規化器を動的選好最適化プロセスに組み込む。 実験の結果,提案手法は表現の多様性やアクティベーションの幅を増大させるだけでなく,好みのアライメント性能も向上することがわかった。

To better interpret the intrinsic mechanism of large language models (LLMs), recent studies focus on monosemanticity on its basic units. A monosemantic neuron is dedicated to a single and specific concept, which forms a one-to-one correlation between neurons and concepts. Despite extensive research in monosemanticity probing, it remains unclear whether monosemanticity is beneficial or harmful to model capacity. To explore this question, we revisit monosemanticity from the feature decorrelation perspective and advocate for its encouragement. We experimentally observe that the current conclusion by wang2024learning, which suggests that decreasing monosemanticity enhances model performance, does not hold when the model changes. Instead, we demonstrate that monosemanticity consistently exhibits a positive correlation with model capacity, in the preference alignment process. Consequently, we apply feature correlation as a proxy for monosemanticity and incorporate a feature decorrelation regularizer into the dynamic preference optimization process. The experiments show that our method not only enhances representation diversity and activation sparsity but also improves preference alignment performance.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# 知識蒸留による高制約符号化開口イメージングシステムの設計

Highly Constrained Coded Aperture Imaging Systems Design Via a Knowledge Distillation Approach ( http://arxiv.org/abs/2406.17970v1 )

ライセンス: Link先を確認
Leon Suarez-Rodriguez, Roman Jacome, Henry Arguello, (参考訳) 計算光学イメージング(COI)システムにより、光学符号化素子(OCE)による高次元信号の取得が可能となった。 OCEは1つ以上のスナップショットで高次元信号を符号化し、後に計算アルゴリズムを用いて復号する。 現在、COIシステムはエンドツーエンド(E2E)アプローチによって最適化されており、OCEはニューラルネットワークの層としてモデル化され、残りの層は特定のイメージングタスクを実行する。 しかしながら、E2Eによって最適化されたCOIシステムの性能は、これらのシステムによって課される物理的制約によって制限される。 本稿では,高度に物理的に制約されたCOIシステムの設計のための知識蒸留(KD)フレームワークを提案する。 このアプローチは、教師と学生の関係から成り、高性能で制約のないCOIシステム(教師)が、限られた数のスナップショットによって特徴づけられる物理的制約のあるシステム(学生)の最適化を導くKD手法を用いる。 単色・マルチスペクトル画像再構成のためのバイナリ符号化開口単画素カメラを用いて,提案手法の有効性を検証した。 シミュレーションの結果, 物理的に制約されたCOI系の設計において, 従来のE2E最適化よりもKD方式の方が優れていることが示された。

Computational optical imaging (COI) systems have enabled the acquisition of high-dimensional signals through optical coding elements (OCEs). OCEs encode the high-dimensional signal in one or more snapshots, which are subsequently decoded using computational algorithms. Currently, COI systems are optimized through an end-to-end (E2E) approach, where the OCEs are modeled as a layer of a neural network and the remaining layers perform a specific imaging task. However, the performance of COI systems optimized through E2E is limited by the physical constraints imposed by these systems. This paper proposes a knowledge distillation (KD) framework for the design of highly physically constrained COI systems. This approach employs the KD methodology, which consists of a teacher-student relationship, where a high-performance, unconstrained COI system (the teacher), guides the optimization of a physically constrained system (the student) characterized by a limited number of snapshots. We validate the proposed approach, using a binary coded apertures single pixel camera for monochromatic and multispectral image reconstruction. Simulation results demonstrate the superiority of the KD scheme over traditional E2E optimization for the designing of highly physically constrained COI systems.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# LABOR-LLM:大規模言語モデルを用いた言語ベース作業表現

LABOR-LLM: Language-Based Occupational Representations with Large Language Models ( http://arxiv.org/abs/2406.17972v1 )

ライセンス: Link先を確認
Tianyu Du, Ayush Kanodia, Herman Brunborg, Keyon Vafa, Susan Athey, (参考訳) 労働市場問題に関する実証的研究の多くは、手作業による特徴に基づく小さな、慎重に構築された縦断調査データセットを用いて、比較的単純な予測モデルを推定することに依存している。 大規模言語モデル(LLM)は、大量のデータセットに基づいて訓練され、膨大な量の世界の知識を符号化し、次のジョブ予測問題に使用することができる。 しかし、既成のLLMは、刺激を受けると可塑性なキャリア軌跡を生成するが、LLMがキャリア履歴に基づいて特定のジョブ遷移条件を予測する確率は、一般に、与えられた人口の真の条件付き確率と一致しない。 最近、Vafa et al (2024) は、大規模な非表現的履歴データセットを使用してトレーニングされたトランスフォーマーベースの「基礎モデル」、CAREERを導入し、ジョブ間の遷移を予測する。さらに、トランスフォーメーション学習技術を使用して、基礎モデルを利用して、全国的に代表される調査データセットに見られる条件付き遷移確率を反映した、移行と賃金の予測モデルを構築する方法をさらに実証した。 本稿では,CAREER ファンデーションモデルの微調整を微調整 LLM に置き換える方法を検討する。 今後のジョブ予測の課題として,従来のエコノメトリモデル,CAREER,LLMなど,調査データでは認められない職種を原則として予測できるにも関わらず,本手法でトレーニングしたモデルは,従来型のコンテキスト内学習による予測性能において,いくつかの選択肢よりも優れていることを示す。 さらに,我々の微調整 LLM モデルによる予測は,既成の LLM モデルや CAREER よりも,様々なサブ集団のキャリアトラジェクトリを反映していることを示す。 代表予測のためのモデルの性能向上の源泉を明らかにする実験と分析を行う。

Many empirical studies of labor market questions rely on estimating relatively simple predictive models using small, carefully constructed longitudinal survey datasets based on hand-engineered features. Large Language Models (LLMs), trained on massive datasets, encode vast quantities of world knowledge and can be used for the next job prediction problem. However, while an off-the-shelf LLM produces plausible career trajectories when prompted, the probability with which an LLM predicts a particular job transition conditional on career history will not, in general, align with the true conditional probability in a given population. Recently, Vafa et al. (2024) introduced a transformer-based "foundation model", CAREER, trained using a large, unrepresentative resume dataset, that predicts transitions between jobs; it further demonstrated how transfer learning techniques can be used to leverage the foundation model to build better predictive models of both transitions and wages that reflect conditional transition probabilities found in nationally representative survey datasets. This paper considers an alternative where the fine-tuning of the CAREER foundation model is replaced by fine-tuning LLMs. For the task of next job prediction, we demonstrate that models trained with our approach outperform several alternatives in terms of predictive performance on the survey data, including traditional econometric models, CAREER, and LLMs with in-context learning, even though the LLM can in principle predict job titles that are not allowed in the survey data. Further, we show that our fine-tuned LLM-based models' predictions are more representative of the career trajectories of various workforce subpopulations than off-the-shelf LLM models and CAREER. We conduct experiments and analyses that highlight the sources of the gains in the performance of our models for representative predictions.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# 異種デモグラフィック属性とプロンプト間の大視領域モデルにおける公正性の評価

Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts ( http://arxiv.org/abs/2406.17974v1 )

ライセンス: Link先を確認
Xuyang Wu, Yuan Wang, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang, (参考訳) 大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げ、オープンワールドの視覚的理解において強力な能力を発揮している。 しかし、LVLMが実際の生活における人口動態の偏り、特に性別、肌の色調、年齢などの属性の相違にどう対処するかは明らかになっていない。 本稿では,いくつかの主要LVLMにおける「emph{visual fairness}」を実証的に検討し,その性能格差を,公共公正性ベンチマークデータセット(例えばFACET)に基づいて評価する。 LVLMの視覚的バイアスを明らかにするために,視覚的質問回答/分類タスクにおいて,直接質問と単選択質問指示によるプロンプトを用いた公平性評価フレームワークを設計する。 ゼロショットプロンプトの結果は、視覚的理解の強化にもかかわらず、オープンソースとクローズドソースの両方のLVLMは、異なるインストラクションプロンプトと人口統計特性にまたがるフェアネスの問題を示すことを示している。

Large vision-language models (LVLMs) have recently achieved significant progress, demonstrating strong capabilities in open-world visual understanding. However, it is not yet clear how LVLMs address demographic biases in real life, especially the disparities across attributes such as gender, skin tone, and age. In this paper, we empirically investigate \emph{visual fairness} in several mainstream LVLMs and audit their performance disparities across sensitive demographic attributes, based on public fairness benchmark datasets (e.g., FACET). To disclose the visual bias in LVLMs, we design a fairness evaluation framework with direct questions and single-choice question-instructed prompts on visual question-answering/classification tasks. The zero-shot prompting results indicate that, despite enhancements in visual understanding, both open-source and closed-source LVLMs exhibit prevalent fairness issues across different instruct prompts and demographic attributes.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# 大規模言語モデルにおけるポストホックメンバーシップ推論の創発的課題

Inherent Challenges of Post-Hoc Membership Inference for Large Language Models ( http://arxiv.org/abs/2406.17975v1 )

ライセンス: Link先を確認
Matthieu Meeus, Shubham Jain, Marek Rei, Yves-Alexandre de Montjoye, (参考訳) 大規模言語モデル(LLM)は、膨大な量の未公開データに基づいてトレーニングされることが多く、そのトレーニングデータ構成に関する洞察を得るために、ポストホックなメンバーシップ推論攻撃(MIA)の開発を動機付けている。 しかし,本論文では,収集したメンバーと非メンバーのデータセット間の潜在的分布変化によるポストホックMIA評価における固有の課題を同定する。 単純なbaba-of-words分類器を用いて、最近のポストホックMIAで使用されるデータセットが大きな分散シフトに悩まされていることを示し、多くの場合、メンバーと非メンバーをほぼ完全に区別する。 これは、以前報告された高いMIA性能は、モデル記憶よりもこれらのシフトに起因する可能性があることを意味している。 ランダム化された制御されたセットアップがこのようなシフトを排除し、新しいMIAの開発と公正な評価を可能にすることを確認します。 しかし、このようなランダム化セットアップは最新のLLMではめったに利用できないため、実世界のLLMのメンバシップを推測するためには、ポストホックデータ収集が依然として必要である。 潜在的な解決策として,ポストホックデータ収集のための回帰不連続設計(RDD)アプローチを提案する。 各種MIA法の評価は, 従来報告した結果と対照的に, ランダムな推定以上の性能が得られる。 総じて, LLM記憶の精度測定の課題と, (ポストホック) メンバーシップ推論タスクにおける注意深い実験設計の必要性を強調した。

Large Language Models (LLMs) are often trained on vast amounts of undisclosed data, motivating the development of post-hoc Membership Inference Attacks (MIAs) to gain insight into their training data composition. However, in this paper, we identify inherent challenges in post-hoc MIA evaluation due to potential distribution shifts between collected member and non-member datasets. Using a simple bag-of-words classifier, we demonstrate that datasets used in recent post-hoc MIAs suffer from significant distribution shifts, in some cases achieving near-perfect distinction between members and non-members. This implies that previously reported high MIA performance may be largely attributable to these shifts rather than model memorization. We confirm that randomized, controlled setups eliminate such shifts and thus enable the development and fair evaluation of new MIAs. However, we note that such randomized setups are rarely available for the latest LLMs, making post-hoc data collection still required to infer membership for real-world LLMs. As a potential solution, we propose a Regression Discontinuity Design (RDD) approach for post-hoc data collection, which substantially mitigates distribution shifts. Evaluating various MIA methods on this RDD setup yields performance barely above random guessing, in stark contrast to previously reported results. Overall, our findings highlight the challenges in accurately measuring LLM memorization and the need for careful experimental design in (post-hoc) membership inference tasks.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# EDEN:英語学習のための共感対話

EDEN: Empathetic Dialogues for English learning ( http://arxiv.org/abs/2406.17982v1 )

ライセンス: Link先を確認
Li Siyan, Teresa Shao, Zhou Yu, Julia Hirschberg, (参考訳) 対話システムは英語学習における会話パートナーとして使われてきたが、これらのシステムが学習結果を改善するかどうかを研究する研究は少ない。 学生の情熱と忍耐は、言語学習の成功に結びついている。 最近の研究は、学生が英語の教師をより支援的だと認識するにつれて、彼らの満足度が向上していることを証明している。 同じパターンが英語教育のチャットボットにも当てはまると仮定し、共感的なフィードバックを提供する会話実践のための堅牢なオープンドメインチャットボットであるEDENを作成します。 EDENを構築するために,まず,特殊な発話文法補正モデルと高品質なソーシャルチャット会話モデルを訓練する。 次に、共感的フィードバックのための様々な戦略を用いて、予備的なユーザスタディを実施します。 本実験は,適応的共感フィードバックを用いることで,学生の満足度の増加を予測できる感情支援が向上することが示唆された。

Dialogue systems have been used as conversation partners in English learning, but few have studied whether these systems improve learning outcomes. Student passion and perseverance, or grit, has been associated with language learning success. Recent work establishes that as students perceive their English teachers to be more supportive, their grit improves. Hypothesizing that the same pattern applies to English-teaching chatbots, we create EDEN, a robust open-domain chatbot for spoken conversation practice that provides empathetic feedback. To construct EDEN, we first train a specialized spoken utterance grammar correction model and a high-quality social chit-chat conversation model. We then conduct a preliminary user study with a variety of strategies for empathetic feedback. Our experiment suggests that using adaptive empathetic feedback leads to higher perceived affective support, which, in turn, predicts increased student grit.
翻訳日:2024-06-27 15:07:42 公開日:2024-06-25
# 局所性と完全相関は決定論を意味するか?

Does locality plus perfect correlation imply determinism? ( http://arxiv.org/abs/2009.14223v2 )

ライセンス: Link先を確認
Michael J. W. Hall, (参考訳) 1964年にジョン・ベルが発表した論文は、量子力学が局所的に隠された変数と相容れないという最初の実証を行った。 彼が決定論の仮定に頼っていたのか、それとも、彼が後に主張したように、局所性の仮定と完全な相関から決定論を導いたのかについては、現在も活発な議論が続いている。 本稿では, 簡単な例と厳密な結果を通じて, 議論に明瞭さをもたらすことを目的とする。 ベルの1964年の論文(パラメータ独立)で用いられる局所性の弱い形式は、そのような導出には不十分である一方、結果独立と呼ばれる独立した形式は、弱い局所性が持たない場合でも十分である。 さらに、結果の独立性は、それ自体は標準量子力学が不完全であることを意味する。 また、ベルがアインシュタイン=ローゼン=ポドルスキーの主張を支持するために訴えたことは、この議論の論理的ギャップを露呈する例を通して失敗することも示されている。 しかし、議論の根底にある現実的基準をより強い基準に置き換えることで、ベルの1964年の論文で必要とされるような、弱い局所性と決定性の両方の厳密な導出が可能になる。 量子解釈、局所性、古典的共通原因の関連については、局所的古典的非決定論の例に言及して、簡潔に論じる。

A 1964 paper by John Bell gave the first demonstration that quantum mechanics is incompatible with local hidden variables. There is an ongoing and vigorous debate on whether he relied on an assumption of determinism, or instead, as he later claimed, derived determinism from assumptions of locality and perfect correlation. This paper aims to bring clarity to the debate via simple examples and rigorous results. It is shown that the weak form of locality used in Bell's 1964 paper (parameter independence) is insufficient for such a derivation, whereas an independent form called outcome independence is sufficient even when weak locality does not hold. It further follows that outcome independence, by itself, implies that standard quantum mechanics is incomplete. It is also shown that an appeal by Bell to the Einstein-Rosen-Podolsky argument to support his claim fails, via examples that expose logical gaps in this argument. However, replacing the reality criterion underpinning the argument by a stronger criterion enables a rigorous derivation of both weak locality and determinism, as required for Bell's 1964 paper. Consequences for quantum interpretations, locality, and classical common causes are briefly discussed, with reference to an example of local classical indeterminism.
翻訳日:2024-06-26 23:34:57 公開日:2024-06-25
# 木テンソルネットワークの近似理論:テンソル化多変量関数

Approximation Theory of Tree Tensor Networks: Tensorized Multivariate Functions ( http://arxiv.org/abs/2101.11932v5 )

ライセンス: Link先を確認
Mazen Ali, Anthony Nouy, (参考訳) テンソルネットワーク(TN)を用いた多変量関数の近似について検討する。 この研究の主な結論は、以下の2つの質問に対する答えである: 「TNs の近似能力は何か?」「TNs と近似できる関数の適切なモデルクラスは何なのか?」 前者への答えとして、ターゲット関数の滑らか度順序に対して、TNs が $h$-uniform と $h$-adaptive の近似を最適に再現できる(その近く)ことを示す。 これによりテンソルネットワークは、深い整流線形ユニット(ReLU)ネットワークのようなより一般的なニューラルネットワークファミリに匹敵する、普遍的表現性 w.r.t.等方性、異方性、混合滑らか性空間を示す。 異なることに、TNは、問題のある特定のクラスに適応することなく、多くの関数クラスを最適に近似する能力を持っている。 後者に答えるために、候補モデルクラスとして、TN の近似クラスを検討し、これらが(準)バナッハ空間であることを示し、古典的滑らか性空間の多くの型がこれらの近似クラスに連続的に埋め込まれ、TN 近似クラスは古典的滑らか性空間に自身は埋め込まれていないことを示す。

We study the approximation of multivariate functions with tensor networks (TNs). The main conclusion of this work is an answer to the following two questions: ``What are the approximation capabilities of TNs?" and "What is an appropriate model class of functions that can be approximated with TNs?" To answer the former, we show that TNs can (near to) optimally replicate $h$-uniform and $h$-adaptive approximation, for any smoothness order of the target function. Tensor networks thus exhibit universal expressivity w.r.t. isotropic, anisotropic and mixed smoothness spaces that is comparable with more general neural networks families such as deep rectified linear unit (ReLU) networks. Put differently, TNs have the capacity to (near to) optimally approximate many function classes -- without being adapted to the particular class in question. To answer the latter, as a candidate model class we consider approximation classes of TNs and show that these are (quasi-)Banach spaces, that many types of classical smoothness spaces are continuously embedded into said approximation classes and that TN approximation classes are themselves not embedded in any classical smoothness space.
翻訳日:2024-06-26 23:34:57 公開日:2024-06-25
# 量子相転移におけるコヒーレントおよび散逸ダイナミクス

Coherent and dissipative dynamics at quantum phase transitions ( http://arxiv.org/abs/2103.02626v4 )

ライセンス: Link先を確認
Davide Rossini, Ettore Vicari, (参考訳) 量子相転移における多体物理学は、低温の極限で現れる量子と熱のゆらぎの間の微妙な相互作用を示す。 本稿では、まず、連続相転移における臨界現象の量子-古典的マッピングと再正規化-グループ理論を利用して、そのスケーリングフレームワークを本質的に開発する、その文脈における系の平衡挙動について、系統的な紹介を行う。 次に、量子遷移における瞬時クエンチや遅い通過といった、平衡外量子力学を含むプロトコルを専門とする。 これらは、平衡スケーリング法則を適切に拡張することによって得られる動的スケーリングフレームワークの中で主に議論される。 我々は一階量子遷移の現象もレビューし、その特異なスケーリング挙動は境界条件に対する極度な感度によって特徴づけられ、同じバルク系に対する指数律や電力法則がもたらされる。 最後に、量子遷移における動的スケーリングの適切な一般化を通して、環境との散逸的相互作用の効果に関する側面について述べる。 プレゼンテーションは閉多体系によって発達した量子遷移に関する問題や制御に限られており、温度ゼロの量子遷移における温度と同様に、散逸を臨界状態の摂動として扱う。 我々は、臨界モードと様々な散逸機構の非自明な相互作用を引き起こす物理的条件に焦点を当て、関連するメカニズムが量子遷移の低エネルギーモードのみを励起すると一般的に実現される。

The many-body physics at quantum phase transitions shows a subtle interplay between quantum and thermal fluctuations, emerging in the low-temperature limit. In this review, we first give a pedagogical introduction to the equilibrium behavior of systems in that context, whose scaling framework is essentially developed by exploiting the quantum-to-classical mapping and the renormalization-group theory of critical phenomena at continuous phase transitions. Then we specialize to protocols entailing the out-of-equilibrium quantum dynamics, such as instantaneous quenches and slow passages across quantum transitions. These are mostly discussed within dynamic scaling frameworks, obtained by appropriately extending the equilibrium scaling laws. We review phenomena at first-order quantum transitions as well, whose peculiar scaling behaviors are characterized by an extreme sensitivity to the boundary conditions, giving rise to exponentials or power laws for the same bulk system. In the last part, we cover aspects related to the effects of dissipative interactions with an environment, through suitable generalizations of the dynamic scaling at quantum transitions. The presentation is limited to issues related to, and controlled by, the quantum transition developed by closed many-body systems, treating the dissipation as a perturbation of the critical regimes, as for the temperature at the zero-temperature quantum transition. We focus on the physical conditions giving rise to a nontrivial interplay between critical modes and various dissipative mechanisms, generally realized when the involved mechanism excites only the low-energy modes of the quantum transitions.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# AAformer: 人物再識別のための自動アライン変換器

AAformer: Auto-Aligned Transformer for Person Re-Identification ( http://arxiv.org/abs/2104.00921v3 )

ライセンス: Link先を確認
Kuan Zhu, Haiyun Guo, Shiliang Zhang, Yaowei Wang, Jing Liu, Jinqiao Wang, Ming Tang, (参考訳) 人物再識別(re-ID)では、人物画像から部分レベルの特徴を抽出することが重要視されている。 既存のCNNベースの手法のほとんどは、人間の部分のみを粗く見つけるか、事前訓練された人間の解析モデルに依存し、特定可能な非人間の部分(例えば、knapsack)を見つけるのに失敗する。 本稿では, トランスアーキテクチャにおけるアライメント方式を初めて導入し, 自動アライメントトランス (AAformer) を提案する。 本稿では,学習可能なベクトルである"Part tokens ([PART]s)"を導入し,変換器の部分特徴を抽出する。 PARTは、自己アテンションにおいてパッチの局所的なサブセットとのみ相互作用し、部分表現であることを学ぶ。 画像パッチを異なるサブセットに適応的に分類するために、自動アライメントを設計する。 自動アライメントは、(PART)をプロトタイプとして複数のグループに埋め込んだパッチをオンラインクラスタ化するために、高速な最適なトランスポート(OT)アルゴリズムを採用している。 AAformerは、部分アライメントを自己アテンションに統合し、出力[PART]を直接検索する機能として使用することができる。 広範囲な実験により, AAformer の[PART] の有効性と, 各種最先端手法に対する優位性が検証された。

In person re-identification (re-ID), extracting part-level features from person images has been verified to be crucial to offer fine-grained information. Most of the existing CNN-based methods only locate the human parts coarsely, or rely on pretrained human parsing models and fail in locating the identifiable nonhuman parts (e.g., knapsack). In this article, we introduce an alignment scheme in transformer architecture for the first time and propose the auto-aligned transformer (AAformer) to automatically locate both the human parts and nonhuman ones at patch level. We introduce the "Part tokens ([PART]s)", which are learnable vectors, to extract part features in the transformer. A [PART] only interacts with a local subset of patches in self-attention and learns to be the part representation. To adaptively group the image patches into different subsets, we design the auto-alignment. Auto-alignment employs a fast variant of optimal transport (OT) algorithm to online cluster the patch embeddings into several groups with the [PART]s as their prototypes. AAformer integrates the part alignment into the self-attention and the output [PART]s can be directly used as part features for retrieval. Extensive experiments validate the effectiveness of [PART]s and the superiority of AAformer over various state-of-the-art methods.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# エキスパートQ-ラーニング - オフライン専門家の例から得られた粗い状態値による深層強化学習

Expert Q-learning: Deep Reinforcement Learning with Coarse State Values from Offline Expert Examples ( http://arxiv.org/abs/2106.14642v5 )

ライセンス: Link先を確認
Li Meng, Anis Yazidi, Morten Goodwin, Paal Engelstad, (参考訳) 本稿では,エキスパートQ-ラーニングという,深層強化学習のための新しいアルゴリズムを提案する。 エキスパートQラーニングは、Dueling Q-learningにインスパイアされ、Q値を状態値と行動アドバンテージに分割することで、半教師付き学習を強化学習に組み込むことを目的としている。 オフラインの専門家は、3つの離散値を使用して、粗い方法で状態の価値を評価する必要がある。 エキスパートネットワークはQ-networkに加えて設計されており、エキスパートのサンプルバッファが空でない場合、通常のオフラインのミニバッチ更新の後に毎回更新される。 ボードゲームOthelloを用いて,Double QラーニングとDueling Qラーニングを組み合わせたベースラインQラーニングアルゴリズムと比較した。 以上の結果から,エキスパートQ-ラーニングは本当に有用であり,過大評価バイアスに耐性があることが示唆された。 ベースラインQ学習アルゴリズムは、非決定論的条件下で不安定かつ準最適動作を示す一方、エキスパートQ学習はより高いスコアでより堅牢な性能を示す。

In this article, we propose a novel algorithm for deep reinforcement learning named Expert Q-learning. Expert Q-learning is inspired by Dueling Q-learning and aims at incorporating semi-supervised learning into reinforcement learning through splitting Q-values into state values and action advantages. We require that an offline expert assesses the value of a state in a coarse manner using three discrete values. An expert network is designed in addition to the Q-network, which updates each time following the regular offline minibatch update whenever the expert example buffer is not empty. Using the board game Othello, we compare our algorithm with the baseline Q-learning algorithm, which is a combination of Double Q-learning and Dueling Q-learning. Our results show that Expert Q-learning is indeed useful and more resistant to the overestimation bias. The baseline Q-learning algorithm exhibits unstable and suboptimal behavior in non-deterministic settings, whereas Expert Q-learning demonstrates more robust performance with higher scores, illustrating that our algorithm is indeed suitable to integrate state values from expert examples into Q-learning.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# 量子エミッタを介する動的光子-光子相互作用

Dynamical photon-photon interaction mediated by a quantum emitter ( http://arxiv.org/abs/2112.06820v2 )

ライセンス: Link先を確認
Hanna Le Jeannic, Alexey Tiranov, Jacques Carolan, Tomás Ramos, Ying Wang, Martin H. Appel, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Nir Rotenberg, Leonardo Midolo, Juan José García-Ripoll, Anders S. Sørensen, Peter Lodahl, (参考訳) 単一の光子は量子科学と技術の主要なプラットフォームであり、将来の量子インターネットにおいて、拡張された距離にわたって量子情報を運び、スケーラブルなフォトニック量子コンピューティングを可能にする高度なフォトニック回路で操作することができる。 量子フォトニクスにおける主な課題は、どのように高度な絡み合った資源状態と効率的な光物質界面を生成するかである。 ここでは、単一光子波束間の量子非線形相互作用を実現するために、単一量子エミッタとナノフォトニック導波路との効率的でコヒーレントな結合を利用する。 この本質的にマルチモード量子システムは、量子光学の新しい研究フロンティアを構成する。 我々は、別の光子による光子の制御を実証し、量子エミッターによって媒介される2光子の相互作用の動的応答を実験的に解き明かし、誘導された量子相関がパルス長によって制御されることを示す。 この研究は、複雑なフォトニック量子資源状態の調整のための新しい道を開く。

Single photons constitute a main platform in quantum science and technology: they carry quantum information over extended distances in the future quantum internet and can be manipulated in advanced photonic circuits enabling scalable photonic quantum computing. The main challenge in quantum photonics is how to generate advanced entangled resource states and efficient light-matter interfaces. Here we utilize the efficient and coherent coupling of a single quantum emitter to a nanophotonic waveguide for realizing quantum nonlinear interaction between single-photon wavepackets. This inherently multimode quantum system constitutes a new research frontier in quantum optics. We demonstrate control of a photon with another photon and experimentally unravel the dynamical response of two-photon interactions mediated by a quantum emitter, and show that the induced quantum correlations are controlled by the pulse duration. The work will open new avenues for tailoring complex photonic quantum resource states.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# Soundify:ビデオとサウンドエフェクトのマッチング

Soundify: Matching Sound Effects to Video ( http://arxiv.org/abs/2112.09726v4 )

ライセンス: Link先を確認
David Chuan-En Lin, Anastasis Germanidis, Cristóbal Valenzuela, Yining Shi, Nikolas Martelaro, (参考訳) ビデオ編集の分野では、音はオブジェクトにキャラクタを追加し、空間内に視聴者を没入させるのに役立つ。 プロの編集者との形式的なインタビュー(N=10)により,ビデオに音声を追加する作業は困難であることが判明した。 本稿では,映像と音声のマッチングを支援するシステムSoundifyについて述べる。 ビデオが与えられたら、Soundifyは一致した音を特定し、ビデオに音を同期させ、パンニングとボリュームを動的に調整して空間オーディオを作成する。 人間の評価研究 (N=889) において,Soundify は様々なジャンルの音声に対して,音声と映像の一致が可能であることを示す。 映像編集者の作業負荷の軽減,タスク完了時間の短縮,ユーザビリティの向上にSoundifyが有効であることを示す。

In the art of video editing, sound helps add character to an object and immerse the viewer within a space. Through formative interviews with professional editors (N=10), we found that the task of adding sounds to video can be challenging. This paper presents Soundify, a system that assists editors in matching sounds to video. Given a video, Soundify identifies matching sounds, synchronizes the sounds to the video, and dynamically adjusts panning and volume to create spatial audio. In a human evaluation study (N=889), we show that Soundify is capable of matching sounds to video out-of-the-box for a diverse range of audio categories. In a within-subjects expert study (N=12), we demonstrate the usefulness of Soundify in helping video editors match sounds to video with lighter workload, reduced task completion time, and improved usability.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# 雑音量子コンピュータの性能向上

Efficiently improving the performance of noisy quantum computers ( http://arxiv.org/abs/2201.10672v3 )

ライセンス: Link先を確認
Samuele Ferracin, Akel Hashim, Jean-Loup Ville, Ravi Naik, Arnaud Carignan-Dugas, Hammam Qassim, Alexis Morvan, David I. Santiago, Irfan Siddiqi, Joel J. Wallman, (参考訳) 量子優位性を達成するために短期量子コンピュータを使用するには、現在利用可能なノイズの多い量子デバイスの性能を改善するための効率的な戦略が必要である。 我々は、ゲートのノイズサイクルからなる量子回路の性能を大幅に向上させる「ノイズレス出力補間」と「パウリエラーキャンセラ」という2つの効率的なエラー軽減プロトコルを開発し、実験的に検証する。 確率的誤差キャンセルや雑音増幅などの一般的な緩和手法と効率的なノイズ再構成手法を組み合わせることで,非局所的およびゲート依存プロセスを含む既存の緩和プロトコルの前提を満たさない幅広いノイズ処理を緩和することができる。 我々は、Advanced Quantum Testbedの4ビット超伝導プロセッサ上で、我々のプロトコルをテストする。 構成回路とランダム回路の両方の性能が大幅に改善され、未緩和出力よりも最大8,6\%の変動距離が向上する。 本実験は,現行ハードウェアプラットフォームにおけるプロトコルの有効性と実用性を実証するものである。

Using near-term quantum computers to achieve a quantum advantage requires efficient strategies to improve the performance of the noisy quantum devices presently available. We develop and experimentally validate two efficient error mitigation protocols named "Noiseless Output Extrapolation" and "Pauli Error Cancellation" that can drastically enhance the performance of quantum circuits composed of noisy cycles of gates. By combining popular mitigation strategies such as probabilistic error cancellation and noise amplification with efficient noise reconstruction methods, our protocols can mitigate a wide range of noise processes that do not satisfy the assumptions underlying existing mitigation protocols, including non-local and gate-dependent processes. We test our protocols on a four-qubit superconducting processor at the Advanced Quantum Testbed. We observe significant improvements in the performance of both structured and random circuits, with up to $86\%$ improvement in variation distance over the unmitigated outputs. Our experiments demonstrate the effectiveness of our protocols, as well as their practicality for current hardware platforms.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# シェルモデル乱流閉鎖の数値証明

A Numerical Proof of Shell Model Turbulence Closure ( http://arxiv.org/abs/2202.09289v2 )

ライセンス: Link先を確認
Giulio Ortali, Alessandro Corbetta, Gianluigi Rozza, Federico Toschi, (参考訳) 乱流閉包モデルの開発は、小さな非解決スケールが大きな解決スケールの力学に与える影響をパラメタライズするものであり、大きな適用性を持つ理論上の課題である。 本稿では, 統計誤差, ユーレリアおよびラグランジアン構造関数, サブグリッドフラックスを含むエネルギーカスケードの断続統計を定量的に再現するディープリカレントニューラルネットワークに基づく閉包について述べる。 高次統計精度を実現するため,乱流のシェルモデルを用いる。 本研究は,3次元ナビエ-ストークス乱流に対する類似した手法の開発を奨励するものである。

The development of turbulence closure models, parametrizing the influence of small non-resolved scales on the dynamics of large resolved ones, is an outstanding theoretical challenge with vast applicative relevance. We present a closure, based on deep recurrent neural networks, that quantitatively reproduces, within statistical errors, Eulerian and Lagrangian structure functions and the intermittent statistics of the energy cascade, including those of subgrid fluxes. To achieve high-order statistical accuracy, and thus a stringent statistical test, we employ shell models of turbulence. Our results encourage the development of similar approaches for 3D Navier-Stokes turbulence.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# イベントカメラを用いた高周波周期信号検出のための確率論的アプローチ

Probabilistic Approach for Detection of High-Frequency Periodic Signals using an Event Camera ( http://arxiv.org/abs/2205.04691v4 )

ライセンス: Link先を確認
David El-Chai Ben-Ezra, Ron Arad, Ayelet Padowicz, Israel Tugendhaft, (参考訳) 生体眼にインスパイアされたイベントカメラは、視覚情報の獲得にパラダイムシフトをもたらす新しい非同期技術である。 このパラダイムにより、イベントカメラは従来のカメラに比べてはるかに自然にピクセルサイズの高速モーションをキャプチャできる。 本稿では,イベントカメラを用いた高周波数画素サイズ周期信号検出のための非同期イベント駆動アルゴリズムを提案する。 イベントカメラの非同期情報を効率的に処理する新しいアルゴリズムの開発は,研究コミュニティにとって重要な課題である。 この新しいパラダイムを満たすために開発されたこのアルゴリズムは、確率の未処理理論問題に関係している。 また、$\epsilon,\delta\in\mathbb{R}$, $d\in\mathbb{N}$とする。 $\Phi(m,d)$が$d$以上の隣接する$\tau_{i}$-sペアを持つ確率について、それらの間の距離が$\delta$であるなら、エラー$\epsilon$か? この問題は順序統計学の領域を思い起こさせるもので、新しい可視化パラダイムが数学の新しい領域や問題を発展させる機会でもあることを示している。

Being inspired by the biological eye, event camera is a novel asynchronous technology that pose a paradigm shift in acquisition of visual information. This paradigm enables event cameras to capture pixel-size fast motions much more naturally compared to classical cameras. In this paper we present a new asynchronous event-driven algorithm for detection of high-frequency pixel-size periodic signals using an event camera. Development of such new algorithms, to efficiently process the asynchronous information of event cameras, is essential and being a main challenge in the research community, in order to utilize its special properties and potential. It turns out that this algorithm, that was developed in order to satisfy the new paradigm, is related to an untreated theoretical problem in probability: let $0\leq\tau_{1}\leq\tau_{2}\leq\cdots\leq\tau_{m}\leq1$, originated from an unknown distribution. Let also $\epsilon,\delta\in\mathbb{R}$, and $d\in\mathbb{N}$. What can be said about the probability $\Phi(m,d)$ of having more than $d$ adjacent $\tau_{i}$-s pairs that the distance between them is $\delta$, up to an error $\epsilon$ ? This problem, that reminds the area of order statistic, shows how the new visualization paradigm is also an opportunity to develop new areas and problems in mathematics.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# 授業増分学習の多変量評価に向けて:表現学習の視点から

Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective ( http://arxiv.org/abs/2206.08101v3 )

ライセンス: Link先を確認
Sungmin Cha, Jihwan Kwak, Dongsub Shim, Hyunwoo Kim, Moontae Lee, Honglak Lee, Taesup Moon, (参考訳) クラスインクリメンタルラーニング(CIL)アルゴリズムは、過去の学習クラスを忘れずに、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。 CILアルゴリズムの一般的な評価プロトコルは、これまでに学んだすべてのクラスで平均的なテスト精度を測定することである。しかし、テスト精度を最大化することだけにフォーカスすることは、必ずしもCILアルゴリズムの開発につながるとは限りません。 そこで我々は,CILアルゴリズムによって訓練されたニューラルネットワークモデルを,表現学習における様々な評価プロトコルを用いて実験的に解析し,新しい解析手法を提案する。 我々の実験は、ほとんどの最先端アルゴリズムが高い安定性を優先し、学習した表現を著しく変更せず、時には素質のベースラインよりも低品質の表現を学習することを示した。 しかし、これらのアルゴリズムは、線形探索のために訓練された推定線形分類器とよく似た分類器をモデルが学習できるので、高いテスト精度が得られる。 さらに、最初のタスクで学んだベースモデルは、シングルタスク学習を伴い、異なるアルゴリズム間で表現品質の異なるレベルを示し、この分散はCILアルゴリズムの最終性能に影響を与える。 そこで本研究では,CILアルゴリズムのより多様な評価方法として,表現レベルの評価を追加のレシピとして考えるべきである。

Class incremental learning (CIL) algorithms aim to continually learn new object classes from incrementally arriving data while not forgetting past learned classes. The common evaluation protocol for CIL algorithms is to measure the average test accuracy across all classes learned so far -- however, we argue that solely focusing on maximizing the test accuracy may not necessarily lead to developing a CIL algorithm that also continually learns and updates the representations, which may be transferred to the downstream tasks. To that end, we experimentally analyze neural network models trained by CIL algorithms using various evaluation protocols in representation learning and propose new analysis methods. Our experiments show that most state-of-the-art algorithms prioritize high stability and do not significantly change the learned representation, and sometimes even learn a representation of lower quality than a naive baseline. However, we observe that these algorithms can still achieve high test accuracy because they enable a model to learn a classifier that closely resembles an estimated linear classifier trained for linear probing. Furthermore, the base model learned in the first task, which involves single-task learning, exhibits varying levels of representation quality across different algorithms, and this variance impacts the final performance of CIL algorithms. Therefore, we suggest that the representation-level evaluation should be considered as an additional recipe for more diverse evaluation for CIL algorithms.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# 一般的な誤り訂正符号の復号と相補性の役割

Decoding general error correcting codes and the role of complementarity ( http://arxiv.org/abs/2210.06661v4 )

ライセンス: Link先を確認
Yoshifumi Nakata, Takaya Matsuura, Masato Koashi, (参考訳) 量子誤り訂正符号(QECC)の様々なクラスの中で、非安定化器符号は豊富な性質を持ち、理論的および実用的関心を持つ。 しかし、非安定化器コードのデコードは非常に簡単な作業である。 本稿では,Calderbank-Shor-Stean符号の復号回路を一般のQECCに対して直接拡張可能であることを示す。 この拡張では、CSS符号を定義する線形古典符号の古典復号器の代わりに、QECCに関連する古典量子符号(CQ)を復号する復号器を用いており、復号誤差は、2つの復号器の誤差とCQ符号の相補性の程度に依存する。

Among various classes of quantum error correcting codes (QECCs), non-stabilizer codes have rich properties and are of theoretical and practical interest. Decoding non-stabilizer codes is, however, a highly non-trivial task. In this paper, we show that a decoding circuit for Calderbank-Shor-Stean (CSS) codes can be straightforwardly extended to that for a general QECC. In the extension, instead of the classical decoders of the linear classical codes that define the CSS code, we use decoding measurements of a pair of classical-quantum (CQ) codes associated with the QECC to be decoded.The decoding error depends on the errors of the two decoding measurements and the degree of complementarity of the CQ codes.We then demonstrate the power of the decoding circuit in a toy model of the black hole information paradox, in which we improve decoding errors over previous approaches and further show that the black hole dynamics may be an optimal encoder for quantum information but a poor encoder for classical information.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# カーネルステインの相違によるモーメントの制御

Controlling Moments with Kernel Stein Discrepancies ( http://arxiv.org/abs/2211.05408v4 )

ライセンス: Link先を確認
Heishiro Kanagawa, Alessandro Barp, Arthur Gretton, Lester Mackey, (参考訳) カーネルスタイン差分法(KSD)は分布近似の質を測定し、ターゲット密度が難解な正規化定数を持つ場合でも計算できる。 注目すべき応用としては、近似MCMCサンプルの診断や、正規化されていない統計モデルに対する良質な試験がある。 本研究は,KSDの収束制御特性を解析する。 まず、弱収束制御に使用される標準KSDがモーメント収束制御に失敗することを示す。 この制限に対処するために、次に、代替拡散KSDがモーメントと弱収束の両方を制御する十分な条件を提供する。 即ち、$q > 0$ に対して、$q$-ワッサーシュタイン収束を正確に特徴付けることが知られている最初の KSD を開発する。

Kernel Stein discrepancies (KSDs) measure the quality of a distributional approximation and can be computed even when the target density has an intractable normalizing constant. Notable applications include the diagnosis of approximate MCMC samplers and goodness-of-fit tests for unnormalized statistical models. The present work analyzes the convergence control properties of KSDs. We first show that standard KSDs used for weak convergence control fail to control moment convergence. To address this limitation, we next provide sufficient conditions under which alternative diffusion KSDs control both moment and weak convergence. As an immediate consequence we develop, for each $q > 0$, the first KSDs known to exactly characterize $q$-Wasserstein convergence.
翻訳日:2024-06-26 23:29:11 公開日:2024-06-25
# VideoMap: 潜伏空間におけるビデオ編集、ブレインストーミング、プロトタイピングをサポート

VideoMap: Supporting Video Editing Exploration, Brainstorming, and Prototyping in the Latent Space ( http://arxiv.org/abs/2211.12492v2 )

ライセンス: Link先を確認
David Chuan-En Lin, Fabian Caba Heilbron, Joon-Young Lee, Oliver Wang, Nikolas Martelaro, (参考訳) ビデオ編集は、創造的で複雑な取り組みであり、我々は、ビデオ編集の創造的で探索的な性質をより良くサポートするために、新しいビデオ編集インターフェースを再考する可能性があると信じている。 私たちは、複雑なデータセット内のパターンや接続を見つけるのに役立つ、潜伏した宇宙探査ツールからインスピレーションを受けています。 本稿では,ビデオフレーム上で動作する概念実証ビデオ編集インタフェースであるVideoMapについて紹介する。 地図にインスパイアされたナビゲーション要素による直感的なナビゲーションをサポートし、スワップ可能なレンズを通して異なる潜在空間間の遷移を容易にする。 3つのビデオタスクでエディタをサポートするために、3つのVideoMapコンポーネントを構築しました。 プロと非プロの両方のユーザースタディにおいて、ビデオマップは、不快な作業を減らすのに役立ち、ユーザーフレンドリーな体験を提供し、編集のインスピレーションを与え、ビデオ編集の探索的な性質を効果的にサポートしている。 さらに,3つの拡張アプリケーションを実装することで,ビデオマップの汎用性を実証する。 インタラクティブな例については、プロジェクトのページを参照してほしい。

Video editing is a creative and complex endeavor and we believe that there is potential for reimagining a new video editing interface to better support the creative and exploratory nature of video editing. We take inspiration from latent space exploration tools that help users find patterns and connections within complex datasets. We present VideoMap, a proof-of-concept video editing interface that operates on video frames projected onto a latent space. We support intuitive navigation through map-inspired navigational elements and facilitate transitioning between different latent spaces through swappable lenses. We built three VideoMap components to support editors in three common video tasks. In a user study with both professionals and non-professionals, editors found that VideoMap helps reduce grunt work, offers a user-friendly experience, provides an inspirational way of editing, and effectively supports the exploratory nature of video editing. We further demonstrate the versatility of VideoMap by implementing three extended applications. For interactive examples, we invite you to visit our project page: https://humanvideointeraction.github.io/videomap.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# プロのフォトグラファーが優先する映像のハイライトを識別するビデオジェネリック

Videogenic: Identifying Highlight Moments in Videos with Professional Photographs as a Prior ( http://arxiv.org/abs/2211.12493v2 )

ライセンス: Link先を確認
David Chuan-En Lin, Fabian Caba Heilbron, Joon-Young Lee, Oliver Wang, Nikolas Martelaro, (参考訳) 本稿では,映像からハイライトモーメントを抽出する課題について検討する。 このタスクを実行するには、任意のビデオドメインのハイライトを構成するものを理解すると同時に、異なるドメインにまたがってスケールできる必要がある。 私たちの重要な洞察は、写真家が撮影した写真は、ある活動で最も目立った、または、写真生成の瞬間を捉えやすいということです。 この知見に基づいて,さまざまなドメインを対象とした,ドメイン固有のハイライトビデオを作成するためのテクニックであるVideogenicを提案する。 人間の評価研究(N=50)において、CLIPに基づく検索(画像の意味的知識を持つニューラルネットワーク)と組み合わせた高品質な写真収集が、ビデオハイライトを見つけるための優れた先行候補となることを示す。 In-subjects expert study (N=12), we demonstrate the usefulness of Videogenic to help video editors create highlight video with lighter workload, short task completion time, and better usability。

This paper investigates the challenge of extracting highlight moments from videos. To perform this task, we need to understand what constitutes a highlight for arbitrary video domains while at the same time being able to scale across different domains. Our key insight is that photographs taken by photographers tend to capture the most remarkable or photogenic moments of an activity. Drawing on this insight, we present Videogenic, a technique capable of creating domain-specific highlight videos for a diverse range of domains. In a human evaluation study (N=50), we show that a high-quality photograph collection combined with CLIP-based retrieval (which uses a neural network with semantic knowledge of images) can serve as an excellent prior for finding video highlights. In a within-subjects expert study (N=12), we demonstrate the usefulness of Videogenic in helping video editors create highlight videos with lighter workload, shorter task completion time, and better usability.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# 分布シフト下における安定性の最小値推定

Minimax Optimal Estimation of Stability Under Distribution Shift ( http://arxiv.org/abs/2212.06338v2 )

ライセンス: Link先を確認
Hongseok Namkoong, Yuanzhe Ma, Peter W. Glynn, (参考訳) 意思決定ポリシーと予測モデルのパフォーマンスは、トレーニング中に見られるものと異なる環境に適用した場合に劣化することが多い。 信頼性の高い運用を実現するため,システム性能が許容しきい値を超える程度に低下する原因となる基礎環境の変化として定義されている分散シフト時のシステムの安定性を解析する。 標準的なテールリスク尺度や、分布シフトのもっともらしい大きさの仕様を必要とする分布的ロバストな損失とは対照的に、安定性尺度はより直感的な量、すなわち許容される性能劣化のレベルで定義される。 我々は,安定性の最小値推定器を開発し,その収束速度を解析し,基本的な位相シフト挙動を示す。 ミニマックス収束速度の特性は, 高い性能劣化に対する安定性の評価が統計的コストをもたらすことを示している。 実験により, 分散シフトに対するロバスト性の重要性が重要となる問題に対して, システム設計を比較することで, 安定性フレームワークの実用性を実証した。

The performance of decision policies and prediction models often deteriorates when applied to environments different from the ones seen during training. To ensure reliable operation, we analyze the stability of a system under distribution shift, which is defined as the smallest change in the underlying environment that causes the system's performance to deteriorate beyond a permissible threshold. In contrast to standard tail risk measures and distributionally robust losses that require the specification of a plausible magnitude of distribution shift, the stability measure is defined in terms of a more intuitive quantity: the level of acceptable performance degradation. We develop a minimax optimal estimator of stability and analyze its convergence rate, which exhibits a fundamental phase shift behavior. Our characterization of the minimax convergence rate shows that evaluating stability against large performance degradation incurs a statistical cost. Empirically, we demonstrate the practical utility of our stability framework by using it to compare system designs on problems where robustness to distribution shift is critical.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# Straight-Throughがスパースリカバリを達成 - サポート探索アルゴリズム

Straight-Through meets Sparse Recovery: the Support Exploration Algorithm ( http://arxiv.org/abs/2301.13584v3 )

ライセンス: Link先を確認
Mimoun Mohamed, François Malgouyres, Valentin Emiya, Caroline Chaux, (参考訳) STEは、量子化されたニューラルネットワークの最適化に一般的に使用されるが、実効性のある性能の文脈は、経験的な成功にもかかわらず不明確であり、この理解を一歩進めるために、STEをよく理解された問題に適用する: スパースサポートリカバリ。 本稿では,空間性を促進する新しいアルゴリズムであるSEA ( {\it Support Exploration Algorithm) を導入し,その性能を回復支援問題(モデル選択)で解析する。 SEAは最先端技術よりも多くのサポートを探求し、特に$A$の列が強いコヒーレントである場合、特に実験において優れたパフォーマンスをもたらす。理論解析は、線形測定行列$A$が {\it Restricted Isometry Property} (RIP)を満たすときの回復保証を考える。 回復の十分な条件は同等だが、スパースサポートリカバリにおける最先端の条件よりも厳密である。 それらの重要性は、主にSTEのインスタンスに適用可能であることである。

The {\it straight-through estimator} (STE) is commonly used to optimize quantized neural networks, yet its contexts of effective performance are still unclear despite empirical successes.To make a step forward in this comprehension, we apply STE to a well-understood problem: {\it sparse support recovery}. We introduce the {\it Support Exploration Algorithm} (SEA), a novel algorithm promoting sparsity, and we analyze its performance in support recovery (a.k.a. model selection) problems. SEA explores more supports than the state-of-the-art, leading to superior performance in experiments, especially when the columns of $A$ are strongly coherent.The theoretical analysis considers recovery guarantees when the linear measurements matrix $A$ satisfies the {\it Restricted Isometry Property} (RIP).The sufficient conditions of recovery are comparable but more stringent than those of the state-of-the-art in sparse support recovery. Their significance lies mainly in their applicability to an instance of the STE.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# オンライン戦略分類の基礎的境界

Fundamental Bounds on Online Strategic Classification ( http://arxiv.org/abs/2302.12355v2 )

ライセンス: Link先を確認
Saba Ahmadi, Avrim Blum, Kunhe Yang, (参考訳) 本稿では, 戦略エージェントが事前定義された方法で観測可能な特徴を操作できるオンライン二元分類の問題について検討し, 正の分類を受けるために, 操作グラフでモデル化した。 この設定は、非ストラテジックオンライン分類と根本的に異なることを示す。 例えば、非ストラテジックの場合、ターゲット関数が既知のクラス$H$に属している場合、$\ln|H|$の誤り境界は半可算アルゴリズムによって達成可能であるが、戦略的な設定では$o(\Delta)$の誤りを決定論的アルゴリズムが達成できないことを示し、$\Delta$は演算グラフの最大次数である(|H|=O(\Delta)$のときでさえ)。 誤差付き$O(\Delta\ln|H|)$を得るアルゴリズムを得る。 また、これを非依存設定に拡張し、$\Delta$乗算後悔を持つアルゴリズムを得るとともに、決定論的アルゴリズムが$o(\Delta)$乗算後悔を達成できないことを示す。 次に、エージェントが応答する前か後かに基づいてランダム化された2つのモデルについて検討し、それらが基本的な相違を示すことを示す。 第1のモデルでは、各ラウンドにおいて、学習者は、戦略エージェントが応答する頂点ごとに期待値(正に分類される可能性)を誘導する分類器よりも確率分布を決定的に選択する。 このモデルの学習者は、線形後悔に苦しむ必要がある。 一方、第2のモデルでは、次のエージェントを選択する相手が学習者の確率分布に応答しなければならないが、エージェントはこの分布から引き出された実際の仮説分類器に応答する。 意外なことに、このモデルは学習者にとってより有利であることが示され、不愉快かつ適応的な双方の敵に対してサブ線形後悔境界を達成できるランダム化アルゴリズムを設計した。

We study the problem of online binary classification where strategic agents can manipulate their observable features in predefined ways, modeled by a manipulation graph, in order to receive a positive classification. We show this setting differs in fundamental ways from non-strategic online classification. For instance, whereas in the non-strategic case, a mistake bound of $\ln|H|$ is achievable via the halving algorithm when the target function belongs to a known class $H$, we show that no deterministic algorithm can achieve a mistake bound $o(\Delta)$ in the strategic setting, where $\Delta$ is the maximum degree of the manipulation graph (even when $|H|=O(\Delta)$). We obtain an algorithm achieving mistake bound $O(\Delta\ln|H|)$. We also extend this to the agnostic setting and obtain an algorithm with a $\Delta$ multiplicative regret, and we show no deterministic algorithm can achieve $o(\Delta)$ multiplicative regret. Next, we study two randomized models based on whether the random choices are made before or after agents respond, and show they exhibit fundamental differences. In the first model, at each round the learner deterministically chooses a probability distribution over classifiers inducing expected values on each vertex (probabilities of being classified as positive), which the strategic agents respond to. We show that any learner in this model has to suffer linear regret. On the other hand, in the second model, while the adversary who selects the next agent must respond to the learner's probability distribution over classifiers, the agent then responds to the actual hypothesis classifier drawn from this distribution. Surprisingly, we show this model is more advantageous to the learner, and we design randomized algorithms that achieve sublinear regret bounds against both oblivious and adaptive adversaries.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# PiPar: 協調機械学習のためのパイプライン並列処理

PiPar: Pipeline Parallelism for Collaborative Machine Learning ( http://arxiv.org/abs/2302.12803v2 )

ライセンス: Link先を確認
Zihan Zhang, Philip Rodgers, Peter Kilpatrick, Ivor Spence, Blesson Varghese, (参考訳) 統合学習のような協調機械学習(CML)技術は、複数のモバイルデバイスとサーバにまたがるディープラーニングモデルをトレーニングするために提案されている。 CML技術は、デバイスからの生データをサーバと共有するのではなく、各デバイスでトレーニングされたローカルモデルとしてプライバシ保存される。 しかし,低資源化のため,CMLトレーニングは非効率である。 低資源利用の主要因として,シーケンシャルな計算と通信により,サーバやデバイス上でのアイドリングリソースを同定する。 CML技術にパイプライン並列性を活用する新しいフレームワークPiParを開発した。 新しいトレーニングパイプラインは、異なるハードウェアリソースの計算と異なるバンド幅リソースの通信を並列化して、CMLのトレーニングプロセスを加速するように設計されている。 パイプラインを最適化し、利用可能なリソースを最大限活用するために、低オーバーヘッドの自動パラメータ選択法を提案する。 実験の結果,PiParの基本的アプローチの有効性が確認され,連合学習と比較して強調された。 (i)サーバのアイドル時間を最大64.1倍まで短縮することができ、 (ii) 小型で大規模な6つのディープニューラルネットワークと4つのデータセットの集合に対して、様々なネットワーク条件下で、トレーニング時間を最大34.6倍に加速することができる。 また、異なるプライバシメソッドを組み込んだり、異種デバイスで環境を動作させたり、帯域幅を変えたりすることで、PiParがパフォーマンス上のメリットを享受できることを実験的に実証した。

Collaborative machine learning (CML) techniques, such as federated learning, have been proposed to train deep learning models across multiple mobile devices and a server. CML techniques are privacy-preserving as a local model that is trained on each device instead of the raw data from the device is shared with the server. However, CML training is inefficient due to low resource utilization. We identify idling resources on the server and devices due to sequential computation and communication as the principal cause of low resource utilization. A novel framework PiPar that leverages pipeline parallelism for CML techniques is developed to substantially improve resource utilization. A new training pipeline is designed to parallelize the computations on different hardware resources and communication on different bandwidth resources, thereby accelerating the training process in CML. A low overhead automated parameter selection method is proposed to optimize the pipeline, maximizing the utilization of available resources. The experimental results confirm the validity of the underlying approach of PiPar and highlight that when compared to federated learning: (i) the idle time of the server can be reduced by up to 64.1x, and (ii) the overall training time can be accelerated by up to 34.6x under varying network conditions for a collection of six small and large popular deep neural networks and four datasets without sacrificing accuracy. It is also experimentally demonstrated that PiPar achieves performance benefits when incorporating differential privacy methods and operating in environments with heterogeneous devices and changing bandwidths.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# アート・フィフィアル・インテリジェンス:AIの開示が創造的コンテンツの評価に及ぼす影響

Art-ificial Intelligence: The Effect of AI Disclosure on Evaluations of Creative Content ( http://arxiv.org/abs/2303.06217v2 )

ライセンス: Link先を確認
Manav Raj, Justin Berg, Rob Seamans, (参考訳) OpenAIのChatGPTチャットボットのような生成AI技術の出現は、AIツールが達成できるタスクの範囲を広げ、AI生成のクリエイティブコンテンツを有効にした。 本研究では,創造的コンテンツ作成におけるAIの利用に関する情報開示が,そのようなコンテンツの人的評価にどのように影響するかを考察する。 事前登録された一連の実験研究において、AI開示は創造的または記述的な短編小説の評価に有意な影響を及ぼさないが、AI開示は第一人称で書かれた感情的な叙情詩の評価に悪影響を及ぼすことを示した。 この結果は、AIが生成したコンテンツに対する反応が、コンテンツが明らかに「人間」と見なされる場合、陰性である可能性を示唆するものである。 本研究の意義を論じ,AI公開が創造的コンテンツの評価に影響を及ぼすかどうかをよりよく理解するための研究の計画的経路を概説する。

The emergence of generative AI technologies, such as OpenAI's ChatGPT chatbot, has expanded the scope of tasks that AI tools can accomplish and enabled AI-generated creative content. In this study, we explore how disclosure regarding the use of AI in the creation of creative content affects human evaluation of such content. In a series of pre-registered experimental studies, we show that AI disclosure has no meaningful effect on evaluation either for creative or descriptive short stories, but that AI disclosure has a negative effect on evaluations for emotionally evocative poems written in the first person. We interpret this result to suggest that reactions to AI-generated content may be negative when the content is viewed as distinctly "human." We discuss the implications of this work and outline planned pathways of research to better understand whether and when AI disclosure may affect the evaluation of creative content.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# 自己量子コヒーレンス合成と多重化

Synthesizing and multiplexing autonomous quantum coherences ( http://arxiv.org/abs/2303.07795v3 )

ライセンス: Link先を確認
Artur Slobodeniuk, Tomáš Novotný, Radim Filip, (参考訳) 量子コヒーレンス(quantum coherence)は、量子技術にとって重要な前提条件である。 したがって、量子コヒーレンス(英語版)(quantum coherence)の、できるだけ自律的なロバストな生成は、この分野の発展に不可欠な問題である。 本研究では,スピン系から量子コヒーレンスを合成・多重化する手法について検討する。 この分野での以前の研究は、スピンサブシステムへの浴のバックアクションがそれを生成するために重要であることを示したが、同時に生成したコヒーレンスに重大な制限を与える。 バックアクションプロセスの破壊的影響を回避し,これらの限界を克服できるボソニック浴を用いた実用的アプローチを提案する。 このアプローチを用いて,複数ボソニック浴のスピン-ボソン結合パラメータにおいて,量子コヒーレンスを非摂動的に非摂動的に合成し,その増加と多重化を今後の実証-基本実験のために提案する。

Quantum coherence is a crucial prerequisite for quantum technologies. Therefore, the robust generation, as autonomous as possible, of quantum coherence remains the essential problem for developing this field. We consider a method of synthesizing and multiplexing quantum coherence from spin systems without any direct drives only coupled to bosonic baths. The previous studies in this field have demonstrated that a back-action of the bath to the spin subsystem is important to generate it, however, it simultaneously gives significant limits to the generated coherence. We propose a viable approach with the bosonic bath that allows overcoming these limits by avoiding the destructive effect of the back-action processes. Using this approach, we suggest an advanced synthesis of the quantum coherence non-perturbatively in the spin-boson coupling parameters of multiple bosonic baths to increase and multiplex it for upcoming proof-of-principle experiments.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# 境界処理能力下における中本コンセンサス

Nakamoto Consensus under Bounded Processing Capacity ( http://arxiv.org/abs/2303.09113v4 )

ライセンス: Link先を確認
Lucianna Kiffer, Joachim Neu, Srivatsan Sridhar, Aviv Zohar, David Tse, (参考訳) セキュリティとパフォーマンスのトレードオフの古典的な問題を再考する: 通信と計算のリソースが有限であるノードのネットワークが与えられた場合、Nakamotoのコンセンサス(NC)は、特定のブロックの生成速度に対して、敵のパワーの何パーセントが安全か? NCの最先端解析は、ブロックのノードの処理に対するレート制限を捕捉しないため、ブロックが素早く解放されたときに混雑を引き起こすため、この問題に答えることができない。 本研究では,PoW NCの高精細なセキュリティ性能トレードオフを有界容量モデルで証明するための新しい解析手法を開発した。 このモデルでは,従来の有界遅延モデルとは対照的に,中本氏の私的攻撃はもはや最悪の攻撃ではなく,混雑を悪用したティーシング戦略と呼ばれる新たな攻撃が厳しく悪化していることが示されている。 PoSでは、同化ブロックは、非常に低いブロック生産率を除いて、従来のPoS NCの安全性を損なうため、混雑を悪化させる可能性がある。 このような公平なスパムに対処するため、我々はBlanking NC (BlaNC) と呼ぶPoS NCの変種を提示し、PoW NCと同じレジリエンスを実現する。

For Nakamoto's longest-chain consensus protocol, whose proof-of-work (PoW) and proof-of-stake (PoS) variants power major blockchains such as Bitcoin and Cardano, we revisit the classic problem of the security-performance tradeoff: Given a network of nodes with finite communication- and computation-resources, against what fraction of adversary power is Nakamoto consensus (NC) secure for a given block production rate? State-of-the-art analyses of NC fail to answer this question, because their bounded-delay model does not capture the rate limits to nodes' processing of blocks, which cause congestion when blocks are released in quick succession. We develop a new analysis technique to prove a refined security-performance tradeoff for PoW NC in a bounded-capacity model. In this model, we show that, in contrast to the classic bounded-delay model, Nakamoto's private attack is no longer the worst attack, and a new attack we call the teasing strategy, that exploits congestion, is strictly worse. In PoS, equivocating blocks can exacerbate congestion, making traditional PoS NC insecure except at very low block production rates. To counter such equivocation spamming, we present a variant of PoS NC we call Blanking NC (BlaNC), which achieves the same resilience as PoW NC.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# 学習可能な重み付けとセントロイド類似性による雑音ラベルの学習

Learning with Noisy Labels through Learnable Weighting and Centroid Similarity ( http://arxiv.org/abs/2303.09470v2 )

ライセンス: Link先を確認
Farooq Ahmad Wani, Maria Sofia Bucarelli, Fabrizio Silvestri, (参考訳) 本稿では,医療診断や自律運転などの領域で広く用いられているノイズラベルの存在下で,機械学習モデルをトレーニングする新しい手法を提案する。 深層学習モデルが,後期のトレーニングにおいて,ノイズの多いサンプルに過度に適合する傾向にあることを示す,確立された文献から着想を得た戦略的アプローチを提案する。 この戦略は、潜伏空間におけるクラスセントロイドへの距離を活用し、全てのクラスセントロイドから離れたサンプルの影響を減らし、割引機構を組み込む。 これにより,ノイズラベルの悪影響を効果的に抑制する。 提案手法の基本前提は,訓練の初期段階において,各クラスから遠ざかるサンプルがノイズに関連している可能性が高いという仮定である。 提案手法はロバストな理論原理に基づいており、いくつかのベンチマークデータセットに対する広範な実験を通じて実証的に検証されている。 以上の結果から,本手法は既存の最先端技術よりも常に優れており,ノイズラベルの存在下での分類精度が大幅に向上していることが明らかとなった。 提案する損失関数と補助材料に関するコードはhttps://github.com/wanifarooq/NCODで公開されている。

We introduce a novel method for training machine learning models in the presence of noisy labels, which are prevalent in domains such as medical diagnosis and autonomous driving and have the potential to degrade a model's generalization performance. Inspired by established literature that highlights how deep learning models are prone to overfitting to noisy samples in the later epochs of training, we propose a strategic approach. This strategy leverages the distance to class centroids in the latent space and incorporates a discounting mechanism, aiming to diminish the influence of samples that lie distant from all class centroids. By doing so, we effectively counteract the adverse effects of noisy labels. The foundational premise of our approach is the assumption that samples situated further from their respective class centroid in the initial stages of training are more likely to be associated with noise. Our methodology is grounded in robust theoretical principles and has been validated empirically through extensive experiments on several benchmark datasets. Our results show that our method consistently outperforms the existing state-of-the-art techniques, achieving significant improvements in classification accuracy in the presence of noisy labels. The code for our proposed loss function and supplementary materials is available at https://github.com/wanifarooq/NCOD
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# メタレギュラー化による不偏校正に向けて

Towards Unbiased Calibration using Meta-Regularization ( http://arxiv.org/abs/2303.15057v3 )

ライセンス: Link先を確認
Cheng Wang, Jacek Golebiowski, (参考訳) モデル誤校正は、現代のディープニューラルネットワークで頻繁に確認されている。 最近の研究は、微分可能なキャリブレーションプロキシを通じてモデルキャリブレーションを直接改善することを目的としている。 しかしながら、生成するキャリブレーションは、双晶機構によってしばしばバイアスを受ける。 本研究では,(1)ガンマネットワーク(ガンマネット)と,(2)ガンマネットのスムーズな最適化を実現するガンマネットワーク(ガンマネット)と,(2)ガンマネットのスムーズな最適化を実現するガンマネットワーク(ガンマネット)をベースとしたスムーズなキャリブレーション誤差(SECE)の2つのコンポーネントからなるメタレギュラライゼーションにより,より良いキャリブレーションモデルを学習することを提案する。 ニューラルネットワークを3つのコンピュータビジョンデータセット上で改善し、偏りのないキャリブレーションに正規化するための提案手法の有効性を評価する。 私たちはそれを実証的に示します。 (a)連続変数としてのサンプルワイドガンマの学習は校正を効果的に改善することができる。 (b)SECEは、結合スキームに関して、ガンマネットを不偏で堅牢な校正に向けて円滑に最適化し、 (c)ガンマネットとSECEの組み合わせは、最近提案された手法と比較して非常に競争力のある予測性能を維持しつつ、様々なキャリブレーション指標で最高のキャリブレーション性能を達成する。

Model miscalibration has been frequently identified in modern deep neural networks. Recent work aims to improve model calibration directly through a differentiable calibration proxy. However, the calibration produced is often biased due to the binning mechanism. In this work, we propose to learn better-calibrated models via meta-regularization, which has two components: (1) gamma network (gamma-net), a meta learner that outputs sample-wise gamma values (continuous variable) for Focal loss for regularizing the backbone network; (2) smooth expected calibration error (SECE), a Gaussian-kernel based, unbiased, and differentiable surrogate to ECE that enables the smooth optimization of gamma-Net. We evaluate the effectiveness of the proposed approach in regularizing neural networks towards improved and unbiased calibration on three computer vision datasets. We empirically demonstrate that: (a) learning sample-wise gamma as continuous variables can effectively improve calibration; (b) SECE smoothly optimizes gamma-net towards unbiased and robust calibration with respect to the binning schemes; and (c) the combination of gamma-net and SECE achieves the best calibration performance across various calibration metrics while retaining very competitive predictive performance as compared to multiple recently proposed methods.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# Dataset Demographic Bias の指標 : 表情認識を事例として

Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition ( http://arxiv.org/abs/2303.15889v2 )

ライセンス: Link先を確認
Iris Dominguez-Catena, Daniel Paternain, Mikel Galar, (参考訳) ソースデータセットのデモグラフィックバイアスは、機械学習モデルの予測における不公平さと差別の原因の1つとして示されている。 人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。 本稿では,他の分野から借用できる指標を含む既存の指標を見直し,これらのバイアスの測定について検討する。 我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。 筆者らは,このフレームワークの有用性を説明し,メトリクスの実践的特徴をさらに理解するために,顔の感情認識(FER)に使用される20のデータセットのケーススタディを行い,そのバイアスを分析した。 実験の結果,多くの指標は冗長であり,指標のサブセットの削減は人口統計バイアスの量を測定するのに十分であることがわかった。 この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。 コードはhttps://github.com/irisdominguez/dataset_bias_metricsで公開されている。

Demographic biases in source datasets have been shown as one of the causes of unfairness and discrimination in the predictions of Machine Learning models. One of the most prominent types of demographic bias are statistical imbalances in the representation of demographic groups in the datasets. In this paper, we study the measurement of these biases by reviewing the existing metrics, including those that can be borrowed from other disciplines. We develop a taxonomy for the classification of these metrics, providing a practical guide for the selection of appropriate metrics. To illustrate the utility of our framework, and to further understand the practical characteristics of the metrics, we conduct a case study of 20 datasets used in Facial Emotion Recognition (FER), analyzing the biases present in them. Our experimental results show that many metrics are redundant and that a reduced subset of metrics may be sufficient to measure the amount of demographic bias. The paper provides valuable insights for researchers in AI and related fields to mitigate dataset bias and improve the fairness and accuracy of AI models. The code is available at https://github.com/irisdominguez/dataset_bias_metrics.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# CoSMo: 条件付きプロセスシミュレーションモデルを構築するためのフレームワーク

CoSMo: a Framework to Instantiate Conditioned Process Simulation Models ( http://arxiv.org/abs/2303.17879v4 )

ライセンス: Link先を確認
Rafael S. Oyamada, Gabriel M. Tavares, Sylvio Barbon Junior, Paolo Ceravolo, (参考訳) ビジネスプロセスの変更に伴う潜在的なパフォーマンス改善とリスクを評価する能力について、プロセスシミュレーションが注目されている。 既存の文献では、イベントログデータから発見されたプロセスモデルやディープラーニングアルゴリズムに基づくさまざまなテクニックが紹介されている。 これらの技法には特定の強度と限界がある。 従来のデータ駆動型アプローチは解釈可能性を高め、ディープラーニングベースのアプローチは大きなイベントログにわたる変更を一般化する。 しかし、深層学習の実践的応用は、確率性の管理と情報の統合に関する課題に直面している。 本稿では,ユーザの制約やアプリオリ知識の他の性質に基づいて,CoSMo(Conditioned Process Simulation Models)の発見に適した,新しいリカレントニューラルネットワークを提案する。 このアーキテクチャは、宣言型ルールを学習フェーズに組み込むことで、特定の制約に従うイベントログのシミュレーションを容易にする。 実験的検証は、事前に定義された宣言的条件に固執しつつ、イベントログをシミュレートするCoSMoの有効性を示し、制御フローとデータフローの両方の観点を強調している。

Process simulation is gaining attention for its ability to assess potential performance improvements and risks associated with business process changes. The existing literature presents various techniques, generally grounded in process models discovered from event log data or built upon deep learning algorithms. These techniques have specific strengths and limitations. Traditional data-driven approaches offer increased interpretability, while deep learning-based excel at generalizing changes across large event logs. However, the practical application of deep learning faces challenges related to managing stochasticity and integrating information for what-if analysis. This paper introduces a novel recurrent neural architecture tailored to discover COnditioned process Simulation MOdels (CoSMo) based on user-based constraints or any other nature of a-priori knowledge. This architecture facilitates the simulation of event logs that adhere to specific constraints by incorporating declarative-based rules into the learning phase as an attempt to fill the gap of incorporating information into deep learning models to perform what-if analysis. Experimental validation illustrates CoSMo's efficacy in simulating event logs while adhering to predefined declarative conditions, emphasizing both control-flow and data-flow perspectives.
翻訳日:2024-06-26 23:19:26 公開日:2024-06-25
# フェーダルグラフ強化学習

Feudal Graph Reinforcement Learning ( http://arxiv.org/abs/2304.05099v4 )

ライセンス: Link先を確認
Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi, (参考訳) グラフベースの表現とメッセージパスモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである。 しかし、最近のグラフ深層学習文献で示されているように、そのようなローカルメッセージパッシング演算子は、情報のボトルネックを発生させ、グローバルな調整を妨げることができる。 高レベルの計画を必要とするタスクでは、この問題がより深刻になる。 本研究では,階層的RLとピラミッド型メッセージパッシングアーキテクチャに頼って,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。 特に、FGRLは階層化されたグラフ構造を通して、階層の上部から上位のコマンドが伝播するポリシーの階層を定義している。 下層は物理系の形態を模倣し、上層は高階部分加群に対応する。 結果として得られたエージェントは、特定のレベルにおけるアクションが下層の目標を設定する政策委員会によって特徴づけられ、それによって、タスク分解を自然に実装できる階層的な意思決定構造が実装される。 提案手法をグラフクラスタリング問題とMuJoCoの移動タスクで評価することにより,FGRLが関連するベースラインと良好に比較できることを示す。 さらに、コマンド伝搬機構の詳細な分析により、メッセージパス方式が階層的な意思決定方針の学習に有利であることを示す。

Graph-based representations and message-passing modular policies constitute prominent approaches to tackling composable control problems in Reinforcement Learning (RL). However, as shown by recent graph deep learning literature, such local message-passing operators can create information bottlenecks and hinder global coordination. The issue becomes more serious in tasks requiring high-level planning. In this work, we propose a novel methodology, named Feudal Graph Reinforcement Learning (FGRL), that addresses such challenges by relying on hierarchical RL and a pyramidal message-passing architecture. In particular, FGRL defines a hierarchy of policies where high-level commands are propagated from the top of the hierarchy down through a layered graph structure. The bottom layers mimic the morphology of the physical system, while the upper layers correspond to higher-order sub-modules. The resulting agents are then characterized by a committee of policies where actions at a certain level set goals for the level below, thus implementing a hierarchical decision-making structure that can naturally implement task decomposition. We evaluate the proposed framework on a graph clustering problem and MuJoCo locomotion tasks; simulation results show that FGRL compares favorably against relevant baselines. Furthermore, an in-depth analysis of the command propagation mechanism provides evidence that the introduced message-passing scheme favors learning hierarchical decision-making policies.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# MR-Scout:既存のテストケースからの変成関係の自動合成

MR-Scout: Automated Synthesis of Metamorphic Relations from Existing Test Cases ( http://arxiv.org/abs/2304.07548v4 )

ライセンス: Link先を確認
Congying Xu, Valerio Terragni, Hengcheng Zhu, Jiarong Wu, Shing-Chi Cheung, (参考訳) メタモルフィックテスト(MT)は、複数の関連する入力とその出力を管理するメタモルフィック関係(MR)に基づいてオラクルを定義することで、オラクル問題を緩和する。 しかし、MRの設計はドメイン固有の知識を必要とするため、難しい。 開発者が記述したテストケースは、MRを符号化するドメイン知識を埋め込むことができる。このような符号化されたMRは、元のプログラムだけでなく、同様の機能を持つプログラムもテストするために合成することができる。 本稿では,オープンソースソフトウェア(OSS)プロジェクトのテストケースからMRを自動的に合成するMR-Scoutを提案する。 MR-ScoutはまずMR符号化テストケース(MTC)を発見し、次に符号化されたMRをパラメータ化されたメソッド(コーデレートされたMRと呼ばれる)に合成し、新しいテストケース生成における品質の低下を示すMRをフィルタリングする。 MR-Scout は 701 OSS プロジェクトから 11,000 MTC 以上を発見した。 その結果, MR-Scout の実用性を示すため, 97%以上が自動テストケース生成に高品質であることがわかった。 さらに、コード化されたMRベースのテストは、開発者によるテストによるプログラムのテスト精度を効果的に向上させ、それぞれ13.52%と9.42%のラインカバレッジと突然変異スコアが増加した。 我々の質的研究は、コード化されたMRの55.76%から76.92%が開発者にとって容易に理解可能であることを示している。

Metamorphic Testing (MT) alleviates the oracle problem by defining oracles based on metamorphic relations (MRs), that govern multiple related inputs and their outputs. However, designing MRs is challenging, as it requires domain-specific knowledge. This hinders the widespread adoption of MT. We observe that developer-written test cases can embed domain knowledge that encodes MRs. Such encoded MRs could be synthesized for testing not only their original programs but also other programs that share similar functionalities. In this paper, we propose MR-Scout to automatically synthesize MRs from test cases in open-source software (OSS) projects. MR-Scout first discovers MR-encoded test cases (MTCs), and then synthesizes the encoded MRs into parameterized methods (called codified MRs), and filters out MRs that demonstrate poor quality for new test case generation. MR-Scout discovered over 11,000 MTCs from 701 OSS projects. Experimental results show that over 97% of codified MRs are of high quality for automated test case generation, demonstrating the practical applicability of MR-Scout. Furthermore, codified-MRs-based tests effectively enhance the test adequacy of programs with developer-written tests, leading to 13.52% and 9.42% increases in line coverage and mutation score, respectively. Our qualitative study shows that 55.76% to 76.92% of codified MRs are easily comprehensible for developers.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# S$3$HQA:Multi-hop Text-Table Hybrid Question Answering

S$^3$HQA: A Three-Stage Approach for Multi-hop Text-Table Hybrid Question Answering ( http://arxiv.org/abs/2305.11725v2 )

ライセンス: Link先を確認
Fangyu Lei, Xiang Li, Yifan Wei, Shizhu He, Yiming Huang, Jun Zhao, Kang Liu, (参考訳) 与えられたテキストとテーブル(TextTableQA)から、ハイブリッドな事実知識に関するマルチホップ質問に答えるのは、難しい作業です。 既存のモデルは、主に、トレーニングレトリバーにおけるノイズラベリング、テキストやテーブル上の異種情報の不十分な利用、異なる推論操作のための不足機能など、いくつかの欠陥を持つレトリバー・リーダー・フレームワークを採用している。 本稿では,3段階のTextTableQAフレームワークであるS3HQAを提案する。 ノイズラベリングの問題を解決するために,改良トレーニング付きレトリバーを用いる。 そして、ハイブリッドセレクタは、異種データ間のリンク関係を考慮し、最も関連性の高い事実知識を選択する。 最終段階では、従来の方法のように読み理解モジュールを適用する代わりに、世代ベースの推論を用いて回答を得る。 これには行ワイズジェネレータとLLMプロンプトジェネレータ—(このタスクで最初に使用される)の2つのアプローチが含まれる。 実験結果から,本手法は数発のショット設定において,競合的な結果が得られることが示された。 完全なデータセットでトレーニングすると、私たちのアプローチはすべてのベースラインメソッドを上回り、HybridQAのリーダボードにランクインします。

Answering multi-hop questions over hybrid factual knowledge from the given text and table (TextTableQA) is a challenging task. Existing models mainly adopt a retriever-reader framework, which have several deficiencies, such as noisy labeling in training retriever, insufficient utilization of heterogeneous information over text and table, and deficient ability for different reasoning operations. In this paper, we propose a three-stage TextTableQA framework S3HQA, which comprises of retriever, selector, and reasoner. We use a retriever with refinement training to solve the noisy labeling problem. Then, a hybrid selector considers the linked relationships between heterogeneous data to select the most relevant factual knowledge. For the final stage, instead of adapting a reading comprehension module like in previous methods, we employ a generation-based reasoner to obtain answers. This includes two approaches: a row-wise generator and an LLM prompting generator~(first time used in this task). The experimental results demonstrate that our method achieves competitive results in the few-shot setting. When trained on the full dataset, our approach outperforms all baseline methods, ranking first on the HybridQA leaderboard.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 変分ベイズ動的計画のためのガンベル伝搬による潜在最適経路

Latent Optimal Paths by Gumbel Propagation for Variational Bayesian Dynamic Programming ( http://arxiv.org/abs/2306.02568v3 )

ライセンス: Link先を確認
Xinlei Niu, Christian Walder, Jing Zhang, Charles Patrick Martin, (参考訳) 本稿では,確率軟化解を用いて古典的最適経路問題を解く確率最適経路を提案する。 この統一的なアプローチは、幅広いDP問題を、全ての経路がギブス分布に従う有向非巡回グラフに変換する。 本稿では,Gumbel分布の特性によるメッセージパスアルゴリズムに対するギブズ分布の等価性を示し,潜在経路,すなわちベイズ動的計画法(BDP)の変分ベイズ推定に必要なすべての成分を与える。 本稿では,変分オートエンコーダ(VAE)の潜時空間におけるBDPの利用を実証し,構造化されたスパース最適経路を潜時変数として捉えるBDP-VAEを提案する。 これにより、モデルが観測されていない構造情報に依存する生成タスクのエンドツーエンドトレーニングが可能になる。 最終的に、我々のアプローチの振る舞いを検証し、実世界の2つの応用、すなわちテキスト音声合成と歌声合成にその適用性を示す。 実装コードは \url{https://github.com/XinleiNIU/LatentOptimalPathsBayesianDP} で利用可能です。

We propose the stochastic optimal path which solves the classical optimal path problem by a probability-softening solution. This unified approach transforms a wide range of DP problems into directed acyclic graphs in which all paths follow a Gibbs distribution. We show the equivalence of the Gibbs distribution to a message-passing algorithm by the properties of the Gumbel distribution and give all the ingredients required for variational Bayesian inference of a latent path, namely Bayesian dynamic programming (BDP). We demonstrate the usage of BDP in the latent space of variational autoencoders (VAEs) and propose the BDP-VAE which captures structured sparse optimal paths as latent variables. This enables end-to-end training for generative tasks in which models rely on unobserved structural information. At last, we validate the behavior of our approach and showcase its applicability in two real-world applications: text-to-speech and singing voice synthesis. Our implementation code is available at \url{https://github.com/XinleiNIU/LatentOptimalPathsBayesianDP}.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# セキュリティAPIの誤用を検出する - システムレビュー

Detecting Misuse of Security APIs: A Systematic Review ( http://arxiv.org/abs/2306.08869v2 )

ライセンス: Link先を確認
Zahra Mousavi, Chadni Islam, M. Ali Babar, Alsharif Abuadbba, Kristen Moore, (参考訳) セキュリティアプリケーションプログラミングインターフェース(API)は、ソフトウェアセキュリティの確保に不可欠である。 しかし、その誤用は脆弱性を導入し、深刻なデータ漏洩と重大な財務損失につながる可能性がある。 複雑なAPI設計、不十分なドキュメント、不十分なセキュリティトレーニングは、しばしば開発者が意図しない誤用を引き起こす。 ソフトウェアセキュリティコミュニティは、開発者や組織を支援するために、セキュリティAPIの誤用を検出するためのいくつかのアプローチを考案し、評価した。 本研究は,セキュリティAPIの誤用検出に関する文献を精査し,この重要な領域を包括的に理解する。 我々のゴールは、セキュリティAPIの誤用、検出手法の開発、そしてこの分野の最先端技術を推進するためのオープンな研究手法と併用する評価手法を特定し、分析することである。 体系的文献レビュー(SLR)手法を用いて,69の論文を分析した。 私たちのレビューは結末をたどった (a)6種類のセキュリティAPIの識別 b) 30の異なる誤用の分類 (c)検出技術のヒューリスティックベースおよびMLベースアプローチへの分類、及び (d) 評価基準は10項目, 評価基準は9項目であった。 レビューでは、いくつかの領域における検出アプローチのカバレッジの欠如が明らかにされている。 今後の取り組みは,セキュリティAPI開発と開発者のニーズの整合性,および検出テクノロジの標準化評価手法の進歩に重点を置くことを推奨する。

Security Application Programming Interfaces (APIs) are crucial for ensuring software security. However, their misuse introduces vulnerabilities, potentially leading to severe data breaches and substantial financial loss. Complex API design, inadequate documentation, and insufficient security training often lead to unintentional misuse by developers. The software security community has devised and evaluated several approaches to detecting security API misuse to help developers and organizations. This study rigorously reviews the literature on detecting misuse of security APIs to gain a comprehensive understanding of this critical domain. Our goal is to identify and analyze security API misuses, the detection approaches developed, and the evaluation methodologies employed along with the open research avenues to advance the state-of-the-art in this area. Employing the systematic literature review (SLR) methodology, we analyzed 69 research papers. Our review has yielded (a) identification of 6 security API types; (b) classification of 30 distinct misuses; (c) categorization of detection techniques into heuristic-based and ML-based approaches; and (d) identification of 10 performance measures and 9 evaluation benchmarks. The review reveals a lack of coverage of detection approaches in several areas. We recommend that future efforts focus on aligning security API development with developers' needs and advancing standardized evaluation methods for detection technologies.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 可積分条件を超えた多状態ランダウ・ツェナーモデルへの解

Solution to a class of multistate Landau-Zener model beyond integrability conditions ( http://arxiv.org/abs/2306.09023v2 )

ライセンス: Link先を確認
Rongyu Hu, Fuxiang Li, Chen Sun, (参考訳) 本研究では,積分性条件や標準手法では解けない多状態ランダウ・ツェナーモデルについて検討する。 散乱行列の解析的制約を解析し、シュルンディンガー方程式の数値シミュレーションの結果に適合させることにより、特定のパラメータ選択に対する遷移確率のほぼ正確な解析的表現を求める。 また、一般パラメータ選択に対する逆スイープ率(すなわち、ダイアバティック限界)の観点から、系列展開の先頭順序への遷移確率を決定する。 さらに、このモデルでは、結合が時間的に線形に変化するSu-Schrieffer-Heeger鎖を記述することができることを示す。 本研究は,従来の解法の適用性を超えた多状態ランダウ・ツェナーモデルの解析を行うため,解析的制約とフィッティングという新たな手法を提案する。

We study a class of multistate Landau-Zener model which cannot be solved by integrability conditions or other standard techniques. By analyzing analytical constraints on its scattering matrix and performing fitting to results from numerical simulations of the Schr\"{o}dinger equation, we find nearly exact analytical expressions of all its transition probabilities for specific parameter choices. We also determine the transition probabilities up to leading orders of series expansions in terms of the inverse sweep rate (namely, in the diabatic limit) for general parameter choices. We further show that this model can describe a Su-Schrieffer-Heeger chain with couplings changing linearly in time. Our work presents a new route, i.e., analytical constraint plus fitting, to analyze those multistate Landau-Zener models which are beyond the applicability of conventional solving methods.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 最適性を保証したローカル分散オンライン学習

Locally Differentially Private Distributed Online Learning with Guaranteed Optimality ( http://arxiv.org/abs/2306.14094v2 )

ライセンス: Link先を確認
Ziqin Chen, Yongqiang Wang, (参考訳) 大規模なデータセットとストリーミングデータを処理するというユニークな能力のおかげで、分散オンライン学習が勢いを増している。 プライバシー保護に対する大衆の認識と関心の高まりに対処するため、分散オンライン最適化と学習において、差分プライバシーを可能にするために、多くのアルゴリズムが提案されている。 しかし、これらのアルゴリズムは、プライバシのための学習精度の取引のジレンマに直面することが多い。 オンライン学習の特徴を生かして,このジレンマに対処し,分散オンライン学習における差分プライバシーと学習精度を両立させる手法を提案する。 より具体的には、予想される即時後悔を減らしながら、無限の時間的地平の下でも、このアプローチは有限累積プライバシー予算を同時に確保できる。 完全に分散された設定に対応するため、信頼されたデータキュレーターへの依存を回避し、古典的な「分散(グローバル)」差分プライバシーよりも強力な保護を提供する、ローカルな差分プライバシフレームワークを採用する。 私たちの知る限りでは、このアルゴリズムは厳密な局所的な差分プライバシーと学習精度の両方を確実にする最初のアルゴリズムです。 提案アルゴリズムの有効性を機械学習タスクを用いて評価し,MNISTデータセットとCIFAR-10データセットのCNN画像分類と"mushrooms"データセットのロジスティック回帰を行った。

Distributed online learning is gaining increased traction due to its unique ability to process large-scale datasets and streaming data. To address the growing public awareness and concern on privacy protection, plenty of algorithms have been proposed to enable differential privacy in distributed online optimization and learning. However, these algorithms often face the dilemma of trading learning accuracy for privacy. By exploiting the unique characteristics of online learning, this paper proposes an approach that tackles the dilemma and ensures both differential privacy and learning accuracy in distributed online learning. More specifically, while ensuring a diminishing expected instantaneous regret, the approach can simultaneously ensure a finite cumulative privacy budget, even in the infinite time horizon. To cater for the fully distributed setting, we adopt the local differential-privacy framework, which avoids the reliance on a trusted data curator, and, hence, provides stronger protection than the classic "centralized" (global) differential privacy. To the best of our knowledge, this is the first algorithm that successfully ensures both rigorous local differential privacy and learning accuracy. The effectiveness of the proposed algorithm is evaluated using machine learning tasks, including logistic regression on the the "mushrooms" datasets and CNN-based image classification on the "MNIST" and "CIFAR-10" datasets.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 光度DESI光赤銀河の大規模クラスタリングによる局所原始的非ガウス性

Local primordial non-Gaussianity from the large-scale clustering of photometric DESI luminous red galaxies ( http://arxiv.org/abs/2307.01753v3 )

ライセンス: Link先を確認
Mehdi Rezaie, Ashley J. Ross, Hee-Jong Seo, Hui Kong, Anna Porredon, Lado Samushia, Edmond Chaussidon, Alex Krolewski, Arnaud de Mattia, Florian Beutler, Jessica Nicole Aguilar, Steven Ahlen, Shadab Alam, Santiago Avila, Benedict Bahr-Kalus, Jose Bermejo-Climent, David Brooks, Todd Claybaugh, Shaun Cole, Kyle Dawson, Axel de la Macorra, Peter Doel, Andreu Font-Ribera, Jaime E. Forero-Romero, Satya Gontcho A Gontcho, Julien Guy, Klaus Honscheid, Dragan Huterer, Theodore Kisner, Martin Landriau, Michael Levi, Marc Manera, Aaron Meisner, Ramon Miquel, Eva-Maria Mueller, Adam Myers, Jeffrey A. Newman, Jundan Nie, Nathalie Palanque-Delabrouille, Will Percival, Claire Poppett, Graziano Rossi, Eusebio Sanchez, Michael Schubnell, Gregory Tarlé, Benjamin Alan Weaver, Christophe Yèche, Zhimin Zhou, Hu Zou, (参考訳) 我々は、Dark Energy Spectroscopic Instruments(DESI)による局所原始非ガウス性パラメータ$\fnl$を制約するために、光赤銀河の角度クラスタリングを用いる。 このサンプルは1200万以上の目標からなり、空の14,000平方度をカバーし、赤方偏移は0.2< z < 1.35$である。 我々は, 銀河の絶滅, 調査深度, 天体観測を系統的誤りの主な原因とみなし, 大規模での非宇宙的余剰クラスタリングを緩和するために線形回帰と人工ニューラルネットワークを用いる。 提案手法は,$\fnl$とシステマティックスを用いてシミュレーションを行い,ニューラルネットワーク処理の優れた性能を示す。 9つの画像特性マップからなるニューラルネットワークは、我々の系統的なヌルテスト基準をパスし、フィデューシャルな治療として選択される。 普遍性関係を仮定すると、$\fnl = 34^{+24(+50)}_{-44(-73)}$ 68\%(95\%) である。 得られた制約の整合性を示す一連のロバストネステスト(例えば、画像、デクリエーション、または使用するスケールのカット)を適用する。 回帰法は測定された角パワースペクトルを偏り、$\fnl$制約パワーを劣化させる。 9つの写像の使用は、回帰の3つの一次写像のみを使用するよりも不確実性を2倍にする。 以上の結果から,過度補正を回避し,大規模クラスタリング情報を保護し,制約力を抑える,より効率的な手法の開発を動機付けている。 さらに,DSI 分光試料を用いた $\fnl$ のさらなる研究を奨励し,3次元クラスタリングモードを組み込むことで,画像の系統的な分離や,$\fnl$ 不確実性の低下を抑えることができた。

We use angular clustering of luminous red galaxies from the Dark Energy Spectroscopic Instrument (DESI) imaging surveys to constrain the local primordial non-Gaussianity parameter $\fnl$. Our sample comprises over 12 million targets, covering 14,000 square degrees of the sky, with redshifts in the range $0.2< z < 1.35$. We identify Galactic extinction, survey depth, and astronomical seeing as the primary sources of systematic error, and employ linear regression and artificial neural networks to alleviate non-cosmological excess clustering on large scales. Our methods are tested against simulations with and without $\fnl$ and systematics, showing superior performance of the neural network treatment. The neural network with a set of nine imaging property maps passes our systematic null test criteria, and is chosen as the fiducial treatment. Assuming the universality relation, we find $\fnl = 34^{+24(+50)}_{-44(-73)}$ at 68\%(95\%) confidence. We apply a series of robustness tests (e.g., cuts on imaging, declination, or scales used) that show consistency in the obtained constraints. We study how the regression method biases the measured angular power-spectrum and degrades the $\fnl$ constraining power. The use of the nine maps more than doubles the uncertainty compared to using only the three primary maps in the regression. Our results thus motivate the development of more efficient methods that avoid over-correction, protect large-scale clustering information, and preserve constraining power. Additionally, our results encourage further studies of $\fnl$ with DESI spectroscopic samples, where the inclusion of 3D clustering modes should help separate imaging systematics and lessen the degradation in the $\fnl$ uncertainty.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 超伝導体間の負の静水圧

Negative electrohydrostatic pressure between superconducting bodies ( http://arxiv.org/abs/2307.04903v3 )

ライセンス: Link先を確認
Thomas J. Maldonado, Dung N. Pham, Alessio Amaolo, Alejandro W. Rodriguez, Hakan E. Türeci, (参考訳) 非相対論的スカラー電磁力学の流体力学的表現を超伝導秩序パラメータに適用することにより、平面超伝導体間の負の(魅力的な)圧力を予測する。 ロンドン浸透深さ $\lambda_\text{L} \approx 100 \text{ nm}$ の従来の超伝導体の場合、圧力はアングストローム分離時に $\text{N/mm}^2$ に達する。 得られた表面エネルギーはハートリー・フォック理論によって予測された値よりも実験値とよく一致しており、創発的な電場スクリーニング長はトーマス・フェルミ理論と同等である。 このモデルはバルディーン=クーパー=シュリーファー理論とギンズバーグ=ランダウ理論のバルク制限を回避し、超伝導量子デバイスの解析を行う。

By applying a hydrodynamic representation of non-relativistic scalar electrodynamics to the superconducting order parameter, we predict a negative (attractive) pressure between planar superconducting bodies. For conventional superconductors with London penetration depth $\lambda_\text{L} \approx 100 \text{ nm}$, the pressure reaches tens of $\text{N/mm}^2$ at angstrom separations. The resulting surface energies are in better agreement with experimental values than those predicted by the Hartree-Fock theory, and the emergent electric-field screening length is comparable to that of the Thomas-Fermi theory. The model circumvents the bulk limitations of the Bardeen-Cooper-Schrieffer and Ginzburg-Landau theories to the analysis of superconducting quantum devices.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 雨天・霧天における自律走行のための領域適応に基づく物体検出

Domain Adaptation based Object Detection for Autonomous Driving in Foggy and Rainy Weather ( http://arxiv.org/abs/2307.09676v3 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Jin Ma, Baolu Li, Qin Zou, Jiaqi Ma, Hongkai Yu, (参考訳) 典型的には、教師付き学習に依存する自律運転のための物体検出法は、トレーニングデータとテストデータの間に一貫した特徴分布を仮定するが、このような仮定は異なる気象条件で失敗する可能性がある。 ドメインギャップのため、晴れた天候下で訓練された検出モデルは、霧や雨の条件下ではうまく機能しない可能性がある。 霧や雨の天候で検出のボトルネックを克服することは、野生に展開する自動運転車にとって真の課題だ。 霧や雨の天候下での領域ギャップを埋め、オブジェクト検出の性能を向上させるため、ドメイン適応型オブジェクト検出のための新しいフレームワークを提案する。 画像レベルとオブジェクトレベルの両方の適応は、画像スタイルとドメイン間のオブジェクトの外観の違いを最小限に抑えることを目的としている。 さらに, 課題事例に対するモデルの性能向上のために, ドメイン適応に加えて, 困難な事例に対して, 敵地雷を行う新たな逆勾配反転層を導入する。 さらに,新たな領域レベルの計量正規化を実施するために,データ拡張による補助ドメインの生成を提案する。 公共V2Vベンチマークの実験結果によると、霧や雨の運転シナリオに特化した物体検出が大幅に向上している。

Typically, object detection methods for autonomous driving that rely on supervised learning make the assumption of a consistent feature distribution between the training and testing data, this such assumption may fail in different weather conditions. Due to the domain gap, a detection model trained under clear weather may not perform well in foggy and rainy conditions. Overcoming detection bottlenecks in foggy and rainy weather is a real challenge for autonomous vehicles deployed in the wild. To bridge the domain gap and improve the performance of object detection in foggy and rainy weather, this paper presents a novel framework for domain-adaptive object detection. The adaptations at both the image-level and object-level are intended to minimize the differences in image style and object appearance between domains. Furthermore, in order to improve the model's performance on challenging examples, we introduce a novel adversarial gradient reversal layer that conducts adversarial mining on difficult instances in addition to domain adaptation. Additionally, we suggest generating an auxiliary domain through data augmentation to enforce a new domain-level metric regularization. Experimental findings on public V2V benchmark exhibit a substantial enhancement in object detection specifically for foggy and rainy driving scenarios.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# ワッサーシュタイン統計の形状とアフィン変形に関する情報幾何学

Information Geometry of Wasserstein Statistics on Shapes and Affine Deformations ( http://arxiv.org/abs/2307.12508v4 )

ライセンス: Link先を確認
Shun-ichi Amari, Takeru Matsuda, (参考訳) 情報幾何学とワッサーシュタイン幾何学は確率分布の多様体で導入された2つの主要な構造であり、それらはその異なる特徴を捉えている。 We study of Wasserstein geometry in the framework of Li and Zhao (2023) for the affine deformation statistics model, which is a multi-dimensional generalization of the location-scale model。 情報幾何学とワッサーシュタイン幾何学に基づく推定器のメリットとデメリットを比較する。 確率分布の形状とアフィン変形はワッサーシュタイン幾何学において分離され、フィッシャー効率の損失と引き換えに波形摂動に対する頑健さを示す。 楕円対称アフィン変形モデルの場合,ワッサースタイン推定器がモーメント推定器であることを示す。 これは、波形がガウス的であるときの情報幾何学的推定器(最大形推定器)と一致する。 ワッサーシュタイン効率の役割は、波形変化に対する堅牢性の観点から解明される。

Information geometry and Wasserstein geometry are two main structures introduced in a manifold of probability distributions, and they capture its different characteristics. We study characteristics of Wasserstein geometry in the framework of Li and Zhao (2023) for the affine deformation statistical model, which is a multi-dimensional generalization of the location-scale model. We compare merits and demerits of estimators based on information geometry and Wasserstein geometry. The shape of a probability distribution and its affine deformation are separated in the Wasserstein geometry, showing its robustness against the waveform perturbation in exchange for the loss in Fisher efficiency. We show that the Wasserstein estimator is the moment estimator in the case of the elliptically symmetric affine deformation model. It coincides with the information-geometrical estimator (maximum-likelihood estimator) when the waveform is Gaussian. The role of the Wasserstein efficiency is elucidated in terms of robustness against waveform change.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 広帯域非調和ポテンシャルにおける粒子ダイナミクスとデコヒーレンスの解析

Wigner Analysis of Particle Dynamics and Decoherence in Wide Nonharmonic Potentials ( http://arxiv.org/abs/2307.14106v5 )

ライセンス: Link先を確認
Andreu Riera-Campeny, Marc Roda-Llordes, Piotr T. Grochowski, Oriol Romero-Isart, (参考訳) 非調和ポテンシャルにおける粒子の1次元運動の時間発展を概ね記述したウィグナー関数の解析式を導出する。 提案手法は,初期状態のセントロイドの古典力学と,その軌道に関する回転と旋回の両方を考慮に入れた,2つの正確なフレーム変換を含む。 その後、定数角と線形化デコヒーレンス近似という2つの重要な近似を用いる。 これらの近似は、広いポテンシャルと小さなゆらぎの体制、すなわち、初期状態よりも大きい空間膨張を許容するが、関連する力学長スケール(例えば、旋回点間の距離)よりも小さいポテンシャルに有効である。 我々の分析結果は、古典物理学と量子物理学の相互作用と非線形力学におけるデコヒーレンスの影響を解明する。 この分析結果は、大粒子のマクロ量子状態を生成するために非線形力学を用いて提案を設計し、最適化し、理解するのに役立つ。

We derive an analytical expression of a Wigner function that approximately describes the time evolution of the one-dimensional motion of a particle in a nonharmonic potential. Our method involves two exact frame transformations, accounting for both the classical dynamics of the centroid of the initial state and the rotation and squeezing about that trajectory. Subsequently, we employ two crucial approximations, namely the constant-angle and linearized-decoherence approximations. These approximations are effective in the regime of wide potentials and small fluctuations, namely potentials that enable spatial expansions orders of magnitude larger than the one of the initial state but that remain smaller compared to the relevant dynamical length scale (e.g., distance between turning points). Our analytical result elucidates the interplay between classical and quantum physics and the impact of decoherence during nonlinear dynamics. This analytical result is instrumental to design, optimize and understand proposals using nonlinear dynamics to generate macroscopic quantum states of massive particles.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# 散逸による非エルミタン破砕

Non-Hermitian tearing by dissipation ( http://arxiv.org/abs/2307.14340v3 )

ライセンス: Link先を確認
Qian Du, Xin-Ran Ma, Su-Peng Kou, (参考訳) 本稿では,非エルミート系を散逸下で研究し,実空間におけるN*Nハミルトニアンを還元することにより,k-空間における有効2*2ハミルトニアンを与える。 エネルギーバンドが虚線ギャップを示すことが判明した。 これらの現象を説明するために、我々が定義する断裂性は例外的な点において連続的な相転移を示す「非エルミート破断理論」を提案する。 非エルミート的な裂け目は、バルク状態の分離と境界状態の分離という2つの形態で現れる。 さらに,非エルミート断裂理論を用いた一次元Su-Schrieffer-HeegerモデルとQi-Wu-Zhangモデルについても検討した。 この結果は、トポロジカル量子状態における非エルミート物理学の制御を探求するための理論的アプローチを提供する。

In the paper, we study the non-Hermitian system under dissipation and give the effective 2*2 Hamiltonian in the k-space by reducing the N*N Hamiltonian in the real space for them. It is discovered that the energy band shows an imaginary line gap. To describe these phenomena, we propose the theory of "non-Hermitian tearing", in which the tearability we define reveals a continuous phase transition at the exceptional point. The non-Hermitian tearing manifests in two forms -- separation of bulk state and decoupling of boundary state. In addition, we also explore the one-dimensional Su-Schrieffer-Heeger model and the Qi-Wu-Zhang model under dissipation using the theory of non-Hermitian tearing. Our results provide a theoretical approach for exploring the controlling of non-Hermitian physics on topological quantum states.
翻訳日:2024-06-26 21:19:43 公開日:2024-06-25
# ラベル不足下でのラーニング・トゥ・ランドにおけるGBDTよりも優れた事前学習深度モデル

Pretrained deep models outperform GBDTs in Learning-To-Rank under label scarcity ( http://arxiv.org/abs/2308.00177v4 )

ライセンス: Link先を確認
Charlie Hou, Kiran Koshy Thekumparampil, Michael Shavlovsky, Giulia Fanti, Yesh Dattatreya, Sujay Sanghavi, (参考訳) 表形式のデータでは、現在のディープラーニング(DL)モデルは、GBDT(Gradient Boosted Decision Trees)とよく似ているが、外れ値のデータでは著しく性能が劣っている。 しかし、これらの研究はしばしば、現実のシナリオの複雑さを捉えるのに失敗する理想的な問題設定を研究する。 ラベル不足下では,GBDTよりもDLモデルの方が優れた自然な表付きデータセットを同定する。 検索やレコメンデーションを含むタブラルLTRアプリケーションは、ラベルなしデータが多く、ラベル付きデータが少ないことが多い。 DLローカは、教師なし事前学習を利用して、ラベルのないデータを活用できることが示される。 パブリックデータセットとプロプライエタリデータセットの両方に関する広範な実験では、事前トレーニング済みのDLローダが、ランキングメトリクス(時には38%も)でGBDTローダを一貫して上回っていることが示されています。

On tabular data, a significant body of literature has shown that current deep learning (DL) models perform at best similarly to Gradient Boosted Decision Trees (GBDTs), while significantly underperforming them on outlier data. However, these works often study idealized problem settings which may fail to capture complexities of real-world scenarios. We identify a natural tabular data setting where DL models can outperform GBDTs: tabular Learning-to-Rank (LTR) under label scarcity. Tabular LTR applications, including search and recommendation, often have an abundance of unlabeled data, and scarce labeled data. We show that DL rankers can utilize unsupervised pretraining to exploit this unlabeled data. In extensive experiments over both public and proprietary datasets, we show that pretrained DL rankers consistently outperform GBDT rankers on ranking metrics -- sometimes by as much as 38% -- both overall and on outliers.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# タキオンの共変量子場理論

Covariant quantum field theory of tachyons ( http://arxiv.org/abs/2308.00450v2 )

ライセンス: Link先を確認
Jerzy Paczos, Kacper Dębski, Szymon Cedrowski, Szymon Charzyński, Krzysztof Turzyński, Artur Ekert, Andrzej Dragan, (参考訳) 量子化されたタキオン場に関する3つの大きな誤解は、下から非有界なエネルギースペクトル、フレーム依存的で不安定な真空状態、および非共変可換規則である。 この空間を2倍にすることで、これらの問題を全て排除するタキオン場の適切な量子化を可能にする明示的な共変フレームワークを確立する。 相対論的共分散を維持するために導かれる我々のスキームは、量子論の好ましい解釈として、アハロノフらによって開発された二状態形式主義を欠いている。

Three major misconceptions concerning quantized tachyon fields: the energy spectrum unbounded from below, the frame-dependent and unstable vacuum state, and the non-covariant commutation rules, are shown to be a result of misrepresenting the Lorentz group in a too small Hilbert space. By doubling this space we establish an explicitly covariant framework that allows for the proper quantization of the tachyon fields eliminating all of these issues. Our scheme that is derived to maintain the relativistic covariance also singles out the two-state formalism developed by Aharonov et al. [1] as a preferred interpretation of the quantum theory.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# 準周期変調ランダムハイブリッド回路における測定誘起臨界

Measurement induced criticality in quasiperiodic modulated random hybrid circuits ( http://arxiv.org/abs/2308.03844v2 )

ライセンス: Link先を確認
Gal Shkolnik, Aidan Zabalo, Romain Vasseur, David A. Huse, J. H. Pixley, Snir Gazit, (参考訳) 測定誘起相転移(MIPT)を横断するクエンチド準周期変調(QP)変調により摂動される1次元ハイブリッド量子回路について検討した。 非Pisot QP構造を非有界なゆらぎで特徴づけることで、空飛ぶ指数 $\beta$ をラッキーバウンド $\nu \ge 1/(1-\beta)$ を超えるように調整することができる。 局所射影測定と連動するランダムクリフォード回路のロバストな数値シミュレーションにより、十分に大きなQP構造変動がMIPTを不安定化し、さまよる指数$\beta$によって支配される無限QP型の臨界動的相転移の広いファミリーへの流れを誘導することがわかった。 我々は、ラッキー境界の飽和に整合した相関長指数と、活性化指数$\psi \cong \beta$による普遍活性化動的スケーリングを含む関連する臨界特性を数値的に決定し、実空間再正規化群計算の結論と良好な一致を見出した。

We study one-dimensional hybrid quantum circuits perturbed by quenched quasiperiodic (QP) modulations across the measurement-induced phase transition (MIPT). Considering non-Pisot QP structures, characterized by unbounded fluctuations, allows us to tune the wandering exponent $\beta$ to exceed the Luck bound $\nu \ge 1/(1-\beta)$ for the stability of the MIPT, where $\nu=1.28(2)$. Via robust numerical simulations of random Clifford circuits interleaved with local projective measurements, we find that sufficiently large QP structural fluctuations destabilize the MIPT and induce a flow to a broad family of critical dynamical phase transitions of the infinite QP type that is governed by the wandering exponent, $\beta$. We numerically determine the associated critical properties, including the correlation length exponent consistent with saturating the Luck bound, and a universal activated dynamical scaling with activation exponent $\psi \cong \beta$, finding excellent agreement with the conclusions of real space renormalization group calculations.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# 超薄光デバイスを用いた多光子状態の効率的な評価

Efficient Characterizations of Multiphoton States with an Ultra-thin Optical Device ( http://arxiv.org/abs/2308.07067v2 )

ライセンス: Link先を確認
Kui An, Zilei Liu, Ting Zhang, Siqi Li, You Zhou, Xiao Yuan, Leiran Wang, Wenfu Zhang, Guoxi Wang, He Lu, (参考訳) メタサーフェスにより、平面光学による多光子絡み合いの生成と操作が可能となり、大規模なフォトニック量子情報処理のためのより効率的なプラットフォームを提供する。 ここでは, 従来の光学を用いた要求タスクである情報完全測定を行うために, 光装置の高速かつ複雑な制御を必要とするシャドウトモグラフィなど, 多光子絡み状態のより効率的なキャラクタリゼーションが可能であることを示す。 この小型で安定な装置は、サンプルの複雑さを低減した一般的な正の観測値測定の実装を可能にし、シャドウトモグラフィーを実装するための実験的な複雑さを著しく軽減する。 自己学習アルゴリズムと校正アルゴリズムを統合することで、より少ない測定、高い精度、実験上の不完全性に対する堅牢性など、多光子絡み合いの再構築において顕著な利点を享受できる。 本研究は,多光子エンタングルメントの効率的なキャラクタリゼーションのための集積光学デバイスとしてメタ曲面の実現可能性を明らかにし,超薄型光デバイスを用いたスケーラブルフォトニック量子技術に光を当てる。

Metasurface enables the generation and manipulation of multiphoton entanglement with flat optics, providing a more efficient platform for large-scale photonic quantum information processing. Here, we show that a single metasurface optical device would allow more efficient characterizations of multiphoton entangled states, such as shadow tomography, which generally requires fast and complicated control of optical setups to perform information-complete measurements, a demanding task using conventional optics. The compact and stable device here allows implementations of general positive observable value measures with a reduced sample complexity and significantly alleviates the experimental complexity to implement shadow tomography. Integrating self-learning and calibration algorithms, we observe notable advantages in the reconstruction of multiphoton entanglement, including using fewer measurements, having higher accuracy, and being robust against experimental imperfections. Our work unveils the feasibility of metasurface as a favorable integrated optical device for efficient characterization of multiphoton entanglement, and sheds light on scalable photonic quantum technologies with ultra-thin optical devices.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# 純度検出による絡み合いとコヒーレンスの定量化

Quantification of Entanglement and Coherence with Purity Detection ( http://arxiv.org/abs/2308.07068v2 )

ライセンス: Link先を確認
Ting Zhang, Graeme Smith, John A. Smolin, Lu Liu, Xu-Jie Peng, Qi Zhao, Davide Girolami, Xiongfeng Ma, Xiao Yuan, He Lu, (参考訳) エンタングルメントとコヒーレンス(英語版)は量子システムの基本的な性質であり、量子計算、量子通信、量子メートル法といった将来の量子技術に電力を供給することを約束している。 しかし、その量子化は単に検出するのではなく、一般に量子状態のスペクトル、すなわちシステムサイズとともに指数関数的に増加する実験的に挑戦的な測定セットを再構成する必要がある。 ここでは、操作上有用な絡み合いとコヒーレンスに対する定量的な境界を、普遍的に有効であり、解析的に計算可能であり、実験的に友好的であることを示す。 具体的には、量子状態の局所的および大域的純度の観点から、コヒーレント情報とコヒーレンス相対エントロピーに対する下界と上界が主な理論結果である。 提案手法の有効性を検証するため,光学系における2つの純度検出手法を実験的に実装した。 実験により、純および混合量子状態のコヒーレント情報と相対エントロピーの両方が純度関数によって有界であることが示されている。 我々の研究は、大規模量子情報処理を効果的に検証する手段を提供する。

Entanglement and coherence are fundamental properties of quantum systems, promising to power near future quantum technologies, such as quantum computation, quantum communication and quantum metrology. Yet, their quantification, rather than mere detection, generally requires reconstructing the spectrum of quantum states, i.e., experimentally challenging measurement sets that increase exponentially with the system size. Here, we demonstrate quantitative bounds to operationally useful entanglement and coherence that are universally valid, analytically computable, and experimentally friendly. Specifically, our main theoretical results are lower and upper bounds to the coherent information and the relative entropy of coherence in terms of local and global purities of quantum states. To validate our proposal, we experimentally implement two purity detection methods in an optical system: shadow estimation with random measurements and collective measurements on pairs of state copies. The experiment shows that both the coherent information and the relative entropy of coherence of pure and mixed unknown quantum states can be bounded by purity functions. Our research offers an efficient means of verifying large-scale quantum information processing.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# FedPop:Federated Populationベースのハイパーパラメータチューニング

FedPop: Federated Population-based Hyperparameter Tuning ( http://arxiv.org/abs/2308.08634v2 )

ライセンス: Link先を確認
Haokun Chen, Denis Krompass, Jindong Gu, Volker Tresp, (参考訳) Federated Learning(FL)は、分散機械学習(ML)パラダイムであり、複数のクライアントがローカルデータを集中することなく、協調的にMLモデルをトレーニングする。 従来のMLパイプラインと同様に、FLのクライアントローカル最適化とサーバ集約手順は、ハイパーパラメータ(HP)の選択に敏感である。 集中型MLのためのHPのチューニングに関する広範な研究にもかかわらず、これらの手法はFLでの使用時に準最適結果が得られる。 フレームワークは、クライアントの計算能力に制限があるFLには適さないためである。 FLのHP-Tuningではいくつかのアプローチが提案されているが、クライアントローカルアップデートではHPに限られている。 本稿では,この課題に対処するため,FedPop(Federated Population-based Hyperparameter Tuning)と呼ばれるHPチューニングアルゴリズムを提案する。 FedPopは人口ベースの進化アルゴリズムを使ってHPを最適化し、クライアント側とサーバ側の両方で様々なHPタイプに対応している。 以前のチューニング手法と比較すると、FedPopはオンラインの"チューニング時トレーニング"フレームワークを採用しており、計算効率を提供し、より広範なHP検索空間の探索を可能にしている。 FLベンチマークと複雑な実世界のFLデータセットを用いた実証実験により,提案手法の有効性が実証された。

Federated Learning (FL) is a distributed machine learning (ML) paradigm, in which multiple clients collaboratively train ML models without centralizing their local data. Similar to conventional ML pipelines, the client local optimization and server aggregation procedure in FL are sensitive to the hyperparameter (HP) selection. Despite extensive research on tuning HPs for centralized ML, these methods yield suboptimal results when employed in FL. This is mainly because their "training-after-tuning" framework is unsuitable for FL with limited client computation power. While some approaches have been proposed for HP-Tuning in FL, they are limited to the HPs for client local updates. In this work, we propose a novel HP-tuning algorithm, called Federated Population-based Hyperparameter Tuning (FedPop), to address this vital yet challenging problem. FedPop employs population-based evolutionary algorithms to optimize the HPs, which accommodates various HP types at both client and server sides. Compared with prior tuning methods, FedPop employs an online "tuning-while-training" framework, offering computational efficiency and enabling the exploration of a broader HP search space. Our empirical validation on the common FL benchmarks and complex real-world FL datasets demonstrates the effectiveness of the proposed method, which substantially outperforms the concurrent state-of-the-art HP tuning methods for FL.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# 確率的ゆらぎに基づく拡散モデルに対するメンバーシップ推論攻撃

A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models ( http://arxiv.org/abs/2308.12143v4 )

ライセンス: Link先を確認
Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang, (参考訳) メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングセットに、モデルをクエリすることでレコードが存在するかどうかを特定する。 古典的分類モデルのMIAはよく研究されており、最近の研究でMIAを生成モデルに移植する方法が研究されている。 本研究は、生成モデルに設計された既存のMIAが、主にターゲットモデルの過度な適合に依存することを示唆している。 しかし,従来のMIAでは性能が低かったため,様々な正規化手法を用いることでオーバーフィッティングを回避することができる。 過度な適合とは異なり、ディープラーニングモデルが最適なパフォーマンスを達成するためには暗記が不可欠であり、より一般的な現象である。 生成モデルの記憶化は、メンバーレコード周辺の生成レコードの確率分布の増大につながる。 そこで本稿では,各レコードのゆらぎを解析し,これらの傾向を検知して会員を推測するブラックボックスMIAである確率変動評価メンバーシップ推論攻撃(PFAMI)を提案する。 複数の生成モデルとデータセットにわたる広範な実験を行い、PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができることを示した。

Membership Inference Attack (MIA) identifies whether a record exists in a machine learning model's training set by querying the model. MIAs on the classic classification models have been well-studied, and recent works have started to explore how to transplant MIA onto generative models. Our investigation indicates that existing MIAs designed for generative models mainly depend on the overfitting in target models. However, overfitting can be avoided by employing various regularization techniques, whereas existing MIAs demonstrate poor performance in practice. Unlike overfitting, memorization is essential for deep learning models to attain optimal performance, making it a more prevalent phenomenon. Memorization in generative models leads to an increasing trend in the probability distribution of generating records around the member record. Therefore, we propose a Probabilistic Fluctuation Assessing Membership Inference Attack (PFAMI), a black-box MIA that infers memberships by detecting these trends via analyzing the overall probabilistic fluctuations around given records. We conduct extensive experiments across multiple generative models and datasets, which demonstrate PFAMI can improve the attack success rate (ASR) by about 27.9% when compared with the best baseline.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# ベイジアン探査網

Bayesian Exploration Networks ( http://arxiv.org/abs/2308.13049v4 )

ライセンス: Link先を確認
Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt, Shimon Whiteson, (参考訳) ベイズ強化学習(RL)は、不確実性の下でのシーケンシャルな意思決定に原則的でエレガントなアプローチを提供する。 特に、ベイズエージェントは、頻繁な方法の主要な病理である探索/探索ジレンマに直面しない。 しかし、モデルフリーアプローチの理論的理解は欠如している。 本稿では,新しいベイズ的モデルフリーな定式化を導入するとともに,モデルフリーなアプローチがベイズ最適政策をもたらすことを示す最初の分析を行う。 既存のすべてのモデルフリーアプローチが、任意にベイズ・サブ最適化できるポリシーをもたらす近似を成すことを示す。 モデルフリーベイズ最適性に向けた第一歩として,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入し,ベルマン作用素のアレタリック不確実性(密度推定)とエピステマティック不確実性(変動推論)の両方をモデル化する。 完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。 実証的な結果は、BENが既存のモデルフリーアプローチが失敗するタスクにおいて、真のベイズ最適化ポリシーを学習できることを証明している。

Bayesian reinforcement learning (RL) offers a principled and elegant approach for sequential decision making under uncertainty. Most notably, Bayesian agents do not face an exploration/exploitation dilemma, a major pathology of frequentist methods. However theoretical understanding of model-free approaches is lacking. In this paper, we introduce a novel Bayesian model-free formulation and the first analysis showing that model-free approaches can yield Bayes-optimal policies. We show all existing model-free approaches make approximations that yield policies that can be arbitrarily Bayes-suboptimal. As a first step towards model-free Bayes optimality, we introduce the Bayesian exploration network (BEN) which uses normalising flows to model both the aleatoric uncertainty (via density estimation) and epistemic uncertainty (via variational inference) in the Bellman operator. In the limit of complete optimisation, BEN learns true Bayes-optimal policies, but like in variational expectation-maximisation, partial optimisation renders our approach tractable. Empirical results demonstrate that BEN can learn true Bayes-optimal policies in tasks where existing model-free approaches fail.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# The Best Arm Evades: Near-optimal Multi-pass Streaming Lower Bounds for Pure Exploration in Multi-armed Bandits (特集:ユビキタス・バイオサイバネティックスとバイオサイバネティックス)

The Best Arm Evades: Near-optimal Multi-pass Streaming Lower Bounds for Pure Exploration in Multi-armed Bandits ( http://arxiv.org/abs/2309.03145v2 )

ライセンス: Link先を確認
Sepehr Assadi, Chen Wang, (参考訳) O(\frac{n}{\Delta^2})$ requires $\Omega(\frac{\log{(1/\Delta)}}{\log{(1/\Delta)}}$ pass。 ここでは、$n$は腕の数であり、$\Delta$はベストとセカンドベストの腕の間の報酬ギャップである。 この結果は、[ICML'21]の$O(\log(\frac{1}{\Delta})$-passアルゴリズムと一致し、[ICML'21]は$O(1)$メモリしか使用せず、[STOC'20]とAssadiによるオープンな質問に答える。

We give a near-optimal sample-pass trade-off for pure exploration in multi-armed bandits (MABs) via multi-pass streaming algorithms: any streaming algorithm with sublinear memory that uses the optimal sample complexity of $O(\frac{n}{\Delta^2})$ requires $\Omega(\frac{\log{(1/\Delta)}}{\log\log{(1/\Delta)}})$ passes. Here, $n$ is the number of arms and $\Delta$ is the reward gap between the best and the second-best arms. Our result matches the $O(\log(\frac{1}{\Delta}))$-pass algorithm of Jin et al. [ICML'21] (up to lower order terms) that only uses $O(1)$ memory and answers an open question posed by Assadi and Wang [STOC'20].
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# NExT-GPT: 任意のマルチモーダルLCM

NExT-GPT: Any-to-Any Multimodal LLM ( http://arxiv.org/abs/2309.05519v3 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua, (参考訳) 最近、MM-LLM(Multimodal Large Language Models)は、エキサイティングな進歩を遂げているが、主に、複数のモーダルでコンテンツを生成する能力のない、入力側のマルチモーダル理解の限界に陥る。 人間は常に世界を理解し、様々なモダリティを通じて人々とコミュニケーションをとるので、あらゆるモダリティでコンテンツを受け入れ、届けることのできるMM-LLMを開発することは、人間レベルのAIにとって不可欠である。 このギャップを埋めるために,NExT-GPTという汎用的なMM-LLMシステムを提案する。 NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。 既存のよく訓練された高性能エンコーダとデコーダを活用することで、NEXT-GPTは特定の射影層の少ないパラメータ(1%)で調整される。 さらに、モーダルスイッチング・インストラクション・チューニング(MosIT)を導入し、複雑なモーダル意味理解とコンテンツ生成をNExT-GPTで実現したMosITの高品質データセットを手作業でキュレートする。 全体として、我々の研究は、普遍的なモダリティをモデル化できるAIエージェントを構築する可能性を示し、コミュニティにおけるより人間らしいAI研究への道を開いた。 プロジェクトページ: https://next-gpt.github.io/

While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community. Project page: https://next-gpt.github.io/
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# 正規化と最適マルチクラス学習

Regularization and Optimal Multiclass Learning ( http://arxiv.org/abs/2309.13692v2 )

ライセンス: Link先を確認
Julian Asilis, Siddartha Devic, Shaddin Dughmi, Vatsal Sharan, Shang-Hua Teng, (参考訳) 経験的リスク最小化(ERM)の4段階学習アルゴリズムは、一様収束が学習を特徴付けない様々な設定で失敗することが知られている。 したがって、機械学習の実践が、モデルキャパシティの制御を成功させるために、かなりリッチなアルゴリズム技術で波及していることは驚くにあたらない。 それでも、このようなテクニックや原則は、これらのより一般的な設定で最適な学習を特徴付けるために、パックから切り離されたものはない。 本研究の目的は、ERMが失敗する最も単純な設定で正規化の役割を特徴づけることである。 オッカムのラザーは、構造的リスク最小化(SRM)、最大エントロピーの原理、ベイズ的推論によって具現化されている。 特に,2次元の構造的リスク最小化を緩和する最適学習器を導入する。これは,正規化関数をデータポイントに「局所的」にすることを可能にし,教師なし学習段階を用いて,この正規化関数を最初から学習する。 どちらの次元も削除しても、ほぼ最適の学習者が得られません。 また、OIGからホール複雑性と呼ばれる組合せ列を抽出し、問題の帰納的誤り率を正確に特徴づける最初の方法である。 最後に、OIGの一般化とトランスダクティブ・ラーニング・セッティングを非依存のケースに導入し、ハミンググラフの最適配向がノードのアウトグレードを用いて判断され、ノード依存クレジットのシステムから逸脱し、最適なラーナーを正確に特徴づけることを示した。 ホール複雑性の非依存バージョンは誤り率を正確に表現し、最大エントロピープログラムを用いた最適な学習者を示す。

The quintessential learning algorithm of empirical risk minimization (ERM) is known to fail in various settings for which uniform convergence does not characterize learning. It is therefore unsurprising that the practice of machine learning is rife with considerably richer algorithmic techniques for successfully controlling model capacity. Nevertheless, no such technique or principle has broken away from the pack to characterize optimal learning in these more general settings. The purpose of this work is to characterize the role of regularization in perhaps the simplest setting for which ERM fails: multiclass learning with arbitrary label sets. Using one-inclusion graphs (OIGs), we exhibit optimal learning algorithms that dovetail with tried-and-true algorithmic principles: Occam's Razor as embodied by structural risk minimization (SRM), the principle of maximum entropy, and Bayesian reasoning. Most notably, we introduce an optimal learner which relaxes structural risk minimization on two dimensions: it allows the regularization function to be "local" to datapoints, and uses an unsupervised learning stage to learn this regularizer at the outset. We justify these relaxations by showing that they are necessary: removing either dimension fails to yield a near-optimal learner. We also extract from OIGs a combinatorial sequence we term the Hall complexity, which is the first to characterize a problem's transductive error rate exactly. Lastly, we introduce a generalization of OIGs and the transductive learning setting to the agnostic case, where we show that optimal orientations of Hamming graphs -- judged using nodes' outdegrees minus a system of node-dependent credits -- characterize optimal learners exactly. We demonstrate that an agnostic version of the Hall complexity again characterizes error rates exactly, and exhibit an optimal learner using maximum entropy programs.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# 知識クロスワード: 大規模言語モデルを用いた幾何学的知識推論

Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models ( http://arxiv.org/abs/2310.01290v2 )

ライセンス: Link先を確認
Wenxuan Ding, Shangbin Feng, Yuhan Liu, Zhaoxuan Tan, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov, (参考訳) 構造化された事実制約に縛られた不完全な知識ネットワークからなる幾何学的知識推論ベンチマークである知識クロスワードを提案する。 幾何学的知識推論の新しい設定は、バックトラック、事実と制約の検証、不確実性のある推論など、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。 知識クロスワードには2,101の個別の問題が含まれており、多様な知識領域をカバーし、さらに3つの難易度に分けられる。 我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。 その結果、ベースラインアプローチは、より大きな知識ネットワークと意味論的に等価なエンティティ・イントラクタに苦しむことを示した。 これらの制約を考慮して,LLMの誤り認識バックトラックと制約検証能力を高めるために,Staged Prompting と Verify-All という2つの新しい手法を提案する。 私たちのVerify-Allは従来のメソッドよりも大幅に優れており、ハードサブセットの問題に対してより堅牢です。 さらなる分析により、幾何学的知識推論はLLMの知識能力、特に様々な選択肢順序に対する堅牢性、知識ネットワークにおける複雑な構造的制約、上述のシナリオに新しい課題をもたらすことが示されている。

We propose Knowledge Crosswords, a geometric knowledge reasoning benchmark consisting of incomplete knowledge networks bounded by structured factual constraints, where LLMs are tasked with inferring the missing facts to meet all constraints. The novel setting of geometric knowledge reasoning necessitates new LM abilities beyond existing atomic/linear multi-hop QA, such as backtracking, verifying facts and constraints, reasoning with uncertainty, and more. Knowledge Crosswords contains 2,101 individual problems, covering diverse knowledge domains, and is further divided into three difficulty levels. We conduct extensive experiments to evaluate existing LLMs and approaches on Knowledge Crosswords. Results demonstrate that baseline approaches struggle with larger knowledge networks and semantically-equivalent entity distractors. In light of their limitations, we propose two new approaches, Staged Prompting and Verify-All, to augment LLMs' abilities for error-aware backtracking and constraint verification. Our Verify-All significantly outperforms prior methods and is more robust towards problems in the hard subset. Further analysis shows that geometric knowledge reasoning poses new challenges to LLMs' knowledge abilities, particularly in robustness towards varying option orders, complex structural constraints in knowledge networks, "none of the above" scenarios, and more.
翻訳日:2024-06-26 21:09:52 公開日:2024-06-25
# 限られたサンプル複雑さからのフローベース生成モデル学習の解析

Analysis of learning a flow-based generative model from limited sample complexity ( http://arxiv.org/abs/2310.03575v2 )

ライセンス: Link先を確認
Hugo Cui, Florent Krzakala, Eric Vanden-Eijnden, Lenka Zdeborová, (参考訳) 本研究では,2層オートエンコーダによりパラメータ化されたフローベース生成モデルの学習課題について,高次元ガウス混合系のサンプルとして検討する。 この問題を徹底的に分析する。 まず,学習速度場の密閉形式解析を行い,対象分布から有限個のサンプルに対して学習した浅度デノナイジングオートエンコーダを用いてパラメータ化を行う。 この解析に基づいて, 基本ガウス密度を目標密度の近似に推し進める, 対応する生成フローの鮮明な記述を提供する。 特に、生成した混合物の平均とターゲット混合物の平均の間の距離に対する閉形式式を提供し、$\Theta_n(\frac{1}{n})$として崩壊を示す。 最後に、この値は実際にベイズ最適であることが示されている。

We study the problem of training a flow-based generative model, parametrized by a two-layer autoencoder, to sample from a high-dimensional Gaussian mixture. We provide a sharp end-to-end analysis of the problem. First, we provide a tight closed-form characterization of the learnt velocity field, when parametrized by a shallow denoising auto-encoder trained on a finite number $n$ of samples from the target distribution. Building on this analysis, we provide a sharp description of the corresponding generative flow, which pushes the base Gaussian density forward to an approximation of the target density. In particular, we provide closed-form formulae for the distance between the mean of the generated mixture and the mean of the target mixture, which we show decays as $\Theta_n(\frac{1}{n})$. Finally, this rate is shown to be in fact Bayes-optimal.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# 大規模言語モデルのためのレジリエントでアクセシブルな分布保存型透かし

A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models ( http://arxiv.org/abs/2310.07710v2 )

ライセンス: Link先を確認
Yihan Wu, Zhengmian Hu, Junfeng Guo, Hongyang Zhang, Heng Huang, (参考訳) ウォーターマーキング技術は、言語モデルから生成されたコンテンツに隠蔽情報を埋め込むことで、機械生成コンテンツを識別する有望な方法を提供する。 ドメインにおける課題は、ウォーターマーキング後に生成されたオリジナルコンテンツの配布を保存することである。 本研究は既存の透かしフレームワークを拡張・改善し,<textbf{Di}stribution-\textbf{P}reserving (DiP) の透かしの重要性を強調した。 現在の戦略とは対照的に,提案したDiPmarkは透かし(ディストリビューション保存)中に元のトークン分布を同時に保存し,言語モデルAPIにアクセスせずに検出可能であり,アクセス可能であり,トークンの適度な変更(レジリエント)に対して確実に堅牢である。 DiPmarkは、単語を生成する前にランダムなトークンセットを選択し、次に分布保存リウェイト関数を通じてトークン分布を変更して、サンプリングプロセス中に選択したトークンの確率を高める。 各種言語モデルおよびタスクに対する広範囲な実験的評価は、我々のアプローチの分散保存性、アクセシビリティ、レジリエンスを実証し、不適切な品質維持を要求するタスクを透かし出す効果的なソリューションとなる。

Watermarking techniques offer a promising way to identify machine-generated content via embedding covert information into the contents generated from language models. A challenge in the domain lies in preserving the distribution of original generated content after watermarking. Our research extends and improves upon existing watermarking framework, placing emphasis on the importance of a \textbf{Di}stribution-\textbf{P}reserving (DiP) watermark. Contrary to the current strategies, our proposed DiPmark simultaneously preserves the original token distribution during watermarking (distribution-preserving), is detectable without access to the language model API and prompts (accessible), and is provably robust to moderate changes of tokens (resilient). DiPmark operates by selecting a random set of tokens prior to the generation of a word, then modifying the token distribution through a distribution-preserving reweight function to enhance the probability of these selected tokens during the sampling process. Extensive empirical evaluation on various language models and tasks demonstrates our approach's distribution-preserving property, accessibility, and resilience, making it a effective solution for watermarking tasks that demand impeccable quality preservation.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# Jigsaw: AIファウンデーションモデルにチェーンすることで、デザイナによるマルチモーダルアプリケーションのプロトタイプ作成を支援する

Jigsaw: Supporting Designers to Prototype Multimodal Applications by Chaining AI Foundation Models ( http://arxiv.org/abs/2310.08574v2 )

ライセンス: Link先を確認
David Chuan-En Lin, Nikolas Martelaro, (参考訳) AIファウンデーションモデルの最近の進歩により、デザインコンセプトのアイデアやビジュアルプロトタイプの生成など、創造的なタスクにオフザシェルフを利用することが可能になった。 しかし、これらのモデルを創造的なプロセスに統合することは、特定のタスクに適したスタンドアロンアプリケーションとしてしばしば存在するため、難しい。 この課題に対処するため,基礎モデルを表現するメタファーとしてパズルピースを用いたプロトタイプシステムであるJigsawを紹介した。 Jigsawは、互換性のあるパズルを組み立てることで、さまざまなモダリティをまたいださまざまな基礎モデル機能を組み合わせることができる。 Jigsawの設計を知らせるために、私たちは10人のデザイナと設計目標についてインタビューしました。 ユーザスタディでは、Jigsawが利用可能な基盤モデル機能に対するデザイナの理解を強化し、さまざまなモダリティやタスクにまたがる機能の組み合わせに関するガイダンスを提供し、デザイン探索、プロトタイピング、ドキュメンテーションをサポートするキャンバスとして機能することを示しました。

Recent advancements in AI foundation models have made it possible for them to be utilized off-the-shelf for creative tasks, including ideating design concepts or generating visual prototypes. However, integrating these models into the creative process can be challenging as they often exist as standalone applications tailored to specific tasks. To address this challenge, we introduce Jigsaw, a prototype system that employs puzzle pieces as metaphors to represent foundation models. Jigsaw allows designers to combine different foundation model capabilities across various modalities by assembling compatible puzzle pieces. To inform the design of Jigsaw, we interviewed ten designers and distilled design goals. In a user study, we showed that Jigsaw enhanced designers' understanding of available foundation model capabilities, provided guidance on combining capabilities across different modalities and tasks, and served as a canvas to support design exploration, prototyping, and documentation.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# ドープ原子状半導体ヘテロ構造における強電子-励起子結合による超伝導

Superconductivity induced by strong electron-exciton coupling in doped atomically thin semiconductor heterostructures ( http://arxiv.org/abs/2310.10726v2 )

ライセンス: Link先を確認
Jonas von Milczewski, Xin Chen, Atac Imamoglu, Richard Schmidt, (参考訳) 我々は,励起子が電子間の効果的なアトラクションを媒介する原子状薄膜半導体において,超伝導を誘導する機構について検討した。 我々のモデルは、フォノンを媒介とする超伝導のパラダイムを超えた相互作用効果を含み、ボースとフェルミのポーラロンの確立した限界に接続する。 トリオンの強いカップリング物理を考慮すると、有効電子-励起子相互作用は、弱結合の$s$-wave Cooper対から双極子の超流動体へのBCS-BECクロスオーバーが進行する系に付随して、強い周波数と運動量に依存することが分かる。 強いカップリングでもバイポーラロンは比較的軽いままであり、フェルミ温度の最大10倍の臨界温度となる。 このことは、2次元材料のヘテロ構造を電子ドーピングとトライアン結合エネルギーによって設定された高温で超伝導を実現するための有望な候補とする。

We study a mechanism to induce superconductivity in atomically thin semiconductors where excitons mediate an effective attraction between electrons. Our model includes interaction effects beyond the paradigm of phonon-mediated superconductivity and connects to the well-established limits of Bose and Fermi polarons. By accounting for the strong-coupling physics of trions, we find that the effective electron-exciton interaction develops a strong frequency and momentum dependence accompanied by the system undergoing an emerging BCS-BEC crossover from weakly bound $s$-wave Cooper pairs to a superfluid of bipolarons. Even at strong-coupling the bipolarons remain relatively light, resulting in critical temperatures of up to 10\% of the Fermi temperature. This renders heterostructures of two-dimensional materials a promising candidate to realize superconductivity at high critical temperatures set by electron doping and trion binding energies.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# MgNO:マルチグリッドによる線形演算子の効率的なパラメータ化

MgNO: Efficient Parameterization of Linear Operators via Multigrid ( http://arxiv.org/abs/2310.19809v2 )

ライセンス: Link先を確認
Juncai He, Xinliang Liu, Jinchao Xu, (参考訳) 本研究では,演算子学習のための簡潔なニューラル演算子アーキテクチャを提案する。 非線形作用素層における$i$-thニューロンの出力は、$\mathcal O_i(u) = \sigma\left( \sum_j \mathcal W_{ij} u + \mathcal B_{ij}\right)$で定義される。 ここで、$\mathcal W_{ij}$は、$j$-th入力ニューロンを$i$-th出力ニューロンに接続する有界線型作用素を表し、バイアス$\mathcal B_{ij}$はスカラーではなく関数の形を取る。 新しい普遍近似特性から、2つのニューロン(バナッハ空間)間の有界線型作用素の効率的なパラメータ化が重要な役割を果たす。 その結果,ニューロン間の線形作用素のパラメータ化に乗じて,MgNOを導入している。 このアプローチは数学的厳密さと実践的表現性の両方を提供する。 さらに、MgNOは従来のリフティングおよび投射演算子が従来のニューラル演算子で必要とされることを妨げる。 さらに、多様な境界条件をシームレスに適合させる。 実験の結果,MgNOは他のCNNモデルに比べてトレーニングの容易さが優れており,スペクトル型ニューラル演算子と比較して過度に適応する可能性が低いことがわかった。 偏微分方程式 (PDE) の多種差分式 (PDE) 上で, 定常に最先端性能を保ちながら, 提案手法の効率と精度を実証する。

In this work, we propose a concise neural operator architecture for operator learning. Drawing an analogy with a conventional fully connected neural network, we define the neural operator as follows: the output of the $i$-th neuron in a nonlinear operator layer is defined by $\mathcal O_i(u) = \sigma\left( \sum_j \mathcal W_{ij} u + \mathcal B_{ij}\right)$. Here, $\mathcal W_{ij}$ denotes the bounded linear operator connecting $j$-th input neuron to $i$-th output neuron, and the bias $\mathcal B_{ij}$ takes the form of a function rather than a scalar. Given its new universal approximation property, the efficient parameterization of the bounded linear operators between two neurons (Banach spaces) plays a critical role. As a result, we introduce MgNO, utilizing multigrid structures to parameterize these linear operators between neurons. This approach offers both mathematical rigor and practical expressivity. Additionally, MgNO obviates the need for conventional lifting and projecting operators typically required in previous neural operators. Moreover, it seamlessly accommodates diverse boundary conditions. Our empirical observations reveal that MgNO exhibits superior ease of training compared to other CNN-based models, while also displaying a reduced susceptibility to overfitting when contrasted with spectral-type neural operators. We demonstrate the efficiency and accuracy of our method with consistently state-of-the-art performance on different types of partial differential equations (PDEs).
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# 埋込みダイアクロニックセンス変化モデルと古代ギリシアの事例研究

An Embedded Diachronic Sense Change Model with a Case Study from Ancient Greek ( http://arxiv.org/abs/2311.00541v5 )

ライセンス: Link先を確認
Schyan Zafar, Geoff K. Nicholls, (参考訳) 言葉の意味は時間とともに変化し、言葉感覚は進化し、その過程で出現し、あるいは消滅する。 コーパスが小さく疎い古代の言語では、このような変化を正確にモデル化することは困難であり、結果として感覚変化の推定の不確実性を定量化することが重要である。 GASC (Genre-Aware Semantic Change) と DiSC (Diachronic Sense Change) は、古代ギリシア語のテキストコーパスからターゲット語の変化を、事前学習の助けなしに教師なしの学習を用いて分析するために使用されている既存の生成モデルである。 これらのモデルは、文脈語上の分布として「コスモス」(装飾、秩序、世界を意味する)のような特定の対象語の感覚を表現し、感覚上の分布として有能さを知覚する。 モデルはマルコフ・チェイン・モンテカルロ法(MCMC)を用いてこれらの表現の時間的変化を測定する。 本稿では,単語埋め込みとDiSCを組み合わせた組込みDiSCモデルであるEDiSCを紹介し,優れたモデル性能を提供する。 EDiSCは、MCMC法によるサンプリング効率と拡張性の向上とともに、予測精度の向上、地道回復、不確実性定量化を提供する。 これらのモデルに適合する上での課題についても論じる。

Word meanings change over time, and word senses evolve, emerge or die out in the process. For ancient languages, where the corpora are often small and sparse, modelling such changes accurately proves challenging, and quantifying uncertainty in sense-change estimates consequently becomes important. GASC (Genre-Aware Semantic Change) and DiSC (Diachronic Sense Change) are existing generative models that have been used to analyse sense change for target words from an ancient Greek text corpus, using unsupervised learning without the help of any pre-training. These models represent the senses of a given target word such as "kosmos" (meaning decoration, order or world) as distributions over context words, and sense prevalence as a distribution over senses. The models are fitted using Markov Chain Monte Carlo (MCMC) methods to measure temporal changes in these representations. This paper introduces EDiSC, an Embedded DiSC model, which combines word embeddings with DiSC to provide superior model performance. It is shown empirically that EDiSC offers improved predictive accuracy, ground-truth recovery and uncertainty quantification, as well as better sampling efficiency and scalability properties with MCMC methods. The challenges of fitting these models are also discussed.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# 時間依存密度汎関数理論と機械学習を組み合わせた1000万倍の電子停止電力予測の高速化

Accelerating Electronic Stopping Power Predictions by 10 Million Times with a Combination of Time-Dependent Density Functional Theory and Machine Learning ( http://arxiv.org/abs/2311.00787v2 )

ライセンス: Link先を確認
Logan Ward, Ben Blaiszik, Cheng-Wei Lee, Troy Martin, Ian Foster, André Schleife, (参考訳) 粒子放射線が物質中のエネルギーを放出する速度を知ることは、原子炉、医療、半導体や量子材料、その他多くの技術の設計において鍵となる。 原子間の弾性散乱という原子の停止への核貢献は文献でよく理解されているが、電子的寄与に関するデータを収集するための経路は数十年にわたってコストがかかり、材料が等方性であることを含む多くの単純化された仮定に頼っている。 我々は、時間依存密度汎関数理論(TDDFT)と機械学習を組み合わせることで、スーパーコンピュータ上で新しい材料を評価する時間を短縮し、原子の詳細が電子停止に与える影響について貴重なデータを提供する。 このアプローチでは、TDDFTを使用して電子的な停止コントリビューションを計算し、最初の原則からいくつかの方向のパワーを停止し、マシンラーニングを使用して他の方向へのインターポーラを、コア時間の1000万倍のコストで実行します。 アルミニウムにおける陽子照射の研究において、この組み合わせによるアプローチを実証し、最大エネルギー沈着の深さである「ブラッグピーク」が、どう変化するかを予測する。 実験的な情報要求の欠如により、我々の手法はほとんどの材料に適用でき、その速度は、放射線損傷の量子-連続モデルを可能にする主要な候補となる。 このモデルをトレーニングするために価値あるTDDFTデータを再利用する見通しは、私たちのアプローチを材料データ科学の時代の応用にアピールさせます。

Knowing the rate at which particle radiation releases energy in a material, the stopping power, is key to designing nuclear reactors, medical treatments, semiconductor and quantum materials, and many other technologies. While the nuclear contribution to stopping power, i.e., elastic scattering between atoms, is well understood in the literature, the route for gathering data on the electronic contribution has for decades remained costly and reliant on many simplifying assumptions, including that materials are isotropic. We establish a method that combines time-dependent density functional theory (TDDFT) and machine learning to reduce the time to assess new materials to mere hours on a supercomputer and provides valuable data on how atomic details influence electronic stopping. Our approach uses TDDFT to compute the electronic stopping contributions to stopping power from first principles in several directions and then machine learning to interpolate to other directions at a cost of 10 million times fewer core-hours. We demonstrate the combined approach in a study of proton irradiation in aluminum and employ it to predict how the depth of maximum energy deposition, the "Bragg Peak," varies depending on incident angle -- a quantity otherwise inaccessible to modelers. The lack of any experimental information requirement makes our method applicable to most materials, and its speed makes it a prime candidate for enabling quantum-to-continuum models of radiation damage. The prospect of reusing valuable TDDFT data for training the model make our approach appealing for applications in the age of materials data science.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# 無限大データの最小二乗クラスタリングのための高性能ハイブリッドアルゴリズム

High-Performance Hybrid Algorithm for Minimum Sum-of-Squares Clustering of Infinitely Tall Data ( http://arxiv.org/abs/2311.04517v5 )

ライセンス: Link先を確認
Ravil Mussabayev, Rustam Mussabayev, (参考訳) 本稿では,Infinitely Tall Data (MSSC-ITD) の最小階数クラスタリング(Minimum Sum-of-Squares Clustering of Infinitely Tall Data, MSC-ITD)という,クラスタリング問題の新しい定式化と,その有効解に対するハイブリッド並列手法の革新的な集合であるHPClustを提案する。 現代の高性能コンピューティング技術を利用することで、HPClustは、有効性、計算効率、拡張性といった主要なクラスタリング指標を強化する。 MapReduceフレームワークによる処理時間を短縮するバニラデータ並列処理とは対照的に,本手法では,マルチストラテジーな競合協調並列処理と,目的関数ランドスケープの複雑な特性を活用して,優れた性能を実現する。 スケールに苦しむ他のアルゴリズムとは異なり、当社のアルゴリズムは本質的に並列であり、スケーラビリティと並列性の向上によるソリューション品質の向上、中小データセット用に設計された高度なアルゴリズムよりも優れています。 4つの並列戦略を特徴とするHPClustの評価は,従来の手法や最先端手法よりも優れた性能を示す。 これらの結果から,並列処理はクラスタリング効率を向上するだけでなく,精度も向上することが示された。 さらに、計算効率とクラスタリング品質のバランスについて検討し、データセットの詳細とリソース可用性に基づいた最適な並列戦略に関する洞察を提供する。 本研究はクラスタリングアルゴリズムにおける並列性についての理解を深め,MSSC-ITD に対して,高度な並列アプローチの厳密なハイブリッド化が最適な結果をもたらすことを示す。 合成データに関する実験は、HPClustの異常なスケーラビリティとノイズに対する堅牢性をさらに確認した。

This paper introduces a novel formulation of the clustering problem, namely the Minimum Sum-of-Squares Clustering of Infinitely Tall Data (MSSC-ITD), and presents HPClust, an innovative set of hybrid parallel approaches for its effective solution. By utilizing modern high-performance computing techniques, HPClust enhances key clustering metrics: effectiveness, computational efficiency, and scalability. In contrast to vanilla data parallelism, which only accelerates processing time through the MapReduce framework, our approach unlocks superior performance by leveraging the multi-strategy competitive-cooperative parallelism and intricate properties of the objective function landscape. Unlike other available algorithms that struggle to scale, our algorithm is inherently parallel in nature, improving solution quality through increased scalability and parallelism, and outperforming even advanced algorithms designed for small and medium-sized datasets. Our evaluation of HPClust, featuring four parallel strategies, demonstrates its superiority over traditional and cutting-edge methods by offering better performance in the key metrics. These results also show that parallel processing not only enhances the clustering efficiency, but the accuracy as well. Additionally, we explore the balance between computational efficiency and clustering quality, providing insights into optimal parallel strategies based on dataset specifics and resource availability. This research advances our understanding of parallelism in clustering algorithms, demonstrating that a judicious hybridization of advanced parallel approaches yields optimal results for MSSC-ITD. Experiments on synthetic data further confirm HPClust's exceptional scalability and robustness to noise.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# 自己宣伝校正による微調整大言語モデルに対する実践的メンバーシップ推論攻撃

Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration ( http://arxiv.org/abs/2311.06062v3 )

ライセンス: Link先を確認
Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang, (参考訳) メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。 以前の試みでは、MIAを介して言語モデル(LM)のプライバシーリスクを定量化していたが、既存のMIAアルゴリズムが実用的な大規模言語モデル(LLM)に顕著なプライバシー漏洩を引き起こすかどうかについては合意が得られていない。 LM用に設計された既存のMIAは、参照フリーと参照ベースアタックの2つのカテゴリに分類される。 どちらも、トレーニングレコードがサンプリングされる確率が常に高いという仮説に基づいている。 しかしながら、この仮説は、複数の正規化法とLLMの一般化によって緩和されるターゲットモデルの過剰適合に大きく依存している。 基準ベース攻撃は、目標モデルと基準モデルとの確率差を比較することにより、より信頼性の高いメンバシップ信号を測定するLLMにおいて有望な効果を達成しているように見える。 しかし、参照ベースのアタックのパフォーマンスは、トレーニングデータセットによく似た参照データセットに大きく依存する。 全体として、既存のMIAは、過度にフィットせずプライベートな、実用的な微調整のLLMに対して、効果的なプライバシー漏洩を公開することができない。 本研究では,自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。 具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティングの前に発生するので、オーバーフィッティングではなく記憶に基づく、より信頼性の高いメンバーシップ信号、確率的変動を導入する。 さらに,LLM自体を誘導することで,参照モデルを微調整するデータセットを構築するセルフプロンプト手法を提案する。 このようにして、相手はパブリックAPIから同様の分布を持つデータセットを収集できる。

Membership Inference Attacks (MIA) aim to infer whether a target data record has been utilized for model training or not. Prior attempts have quantified the privacy risks of language models (LMs) via MIAs, but there is still no consensus on whether existing MIA algorithms can cause remarkable privacy leakage on practical Large Language Models (LLMs). Existing MIAs designed for LMs can be classified into two categories: reference-free and reference-based attacks. They are both based on the hypothesis that training records consistently strike a higher probability of being sampled. Nevertheless, this hypothesis heavily relies on the overfitting of target models, which will be mitigated by multiple regularization methods and the generalization of LLMs. The reference-based attack seems to achieve promising effectiveness in LLMs, which measures a more reliable membership signal by comparing the probability discrepancy between the target model and the reference model. However, the performance of reference-based attack is highly dependent on a reference dataset that closely resembles the training dataset, which is usually inaccessible in the practical scenario. Overall, existing MIAs are unable to effectively unveil privacy leakage over practical fine-tuned LLMs that are overfitting-free and private. We propose a Membership Inference Attack based on Self-calibrated Probabilistic Variation (SPV-MIA). Specifically, since memorization in LLMs is inevitable during the training process and occurs before overfitting, we introduce a more reliable membership signal, probabilistic variation, which is based on memorization rather than overfitting. Furthermore, we introduce a self-prompt approach, which constructs the dataset to fine-tune the reference model by prompting the target LLM itself. In this manner, the adversary can collect a dataset with a similar distribution from public APIs.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# 最適局所濾過操作による三部晶量子ステアリングの実験蒸留

Experimental distillation of tripartite quantum steering with an optimal local filtering operation ( http://arxiv.org/abs/2311.09873v2 )

ライセンス: Link先を確認
Qian-Xi Zhang, Xiao-Xu Fang, He Lu, (参考訳) Multipartite Einstein-Podolsky-Rosen~(EPR) ステアリングは、非文字化検証器の存在下でのマルチパートの絡み合いを認め、半デバイス非依存プロトコルにおける実用的な適用を可能にしている。 このようなアプリケーションは一般により強力なステアビリティを必要とするが、避けられないノイズはステアビリティを弱め、結果として量子情報処理の性能を低下させる。 そこで本研究では,2つの半デバイス非依存シナリオの文脈において,3量子一般化グリーンバーガー・ホーネ・ザイリンガー状態の$N$コピーから真のトリパルタイト EPR ステアリングを極大に蒸留できる局所フィルタリング法を提案する。 最適フィルタリング動作は,集合体忠実度の最大化によって決定される。 解析的および数値的な結果は、N$が有限で初期集合体の操舵性が弱いときのフィルタリング操作の利点を示している。 実験では,光学系を用いて2コピー蒸留の実証実験を行った。 最適局所濾過操作の利点は, 完全完全三部体ステアラーグによる高集合体フィデリティ, および真の三部体ステアラーグを目撃する不等式がより高くなるという点で, 蒸留アセンブラージュにより確認される。 本研究は, 初期アセンブリのコピー数が一般に有限である多部式EPRステアリングの蒸留に有効であることを示す。

Multipartite Einstein-Podolsky-Rosen~(EPR) steering admits multipartite entanglement in the presence of uncharacterized verifiers, enabling practical applications in semi-device-independent protocols. Such applications generally require stronger steerability, while the unavoidable noise weakens steerability and consequently degrades the performance of quantum information processing. Here, we propose the local filtering operation that can maximally distill genuine tripartite EPR steering from $N$ copies of three-qubit generalized Greenberger-Horne-Zeilinger states, in the context of two semi-device-independent scenarios. The optimal filtering operation is determined by the maximization of assemblage fidelity. Analytical and numerical results indicate the advantage of proposed filtering operation when $N$ is finite and the steerability of initial assemblages is weak. Experimentally, a proof-of-principle demonstration of two-copy distillation is realized with optical system. The advantage of optimal local filtering operation is confirmed by the distilled assemblage in terms of higher assemblage fidelity with perfectly genuine tripartite steerable assemblages, as well as the greater violation of the inequality to witness genuine tripartite steerable assemblages. Our results benefit the distillation of multipartite EPR steering in practice, where the number of copies of initial assemblages is generally finite.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# エンタングルメントとコヒーレンスの実験的仮想蒸留

Experimental virtual distillation of entanglement and coherence ( http://arxiv.org/abs/2311.09874v2 )

ライセンス: Link先を確認
Ting Zhang, Yukun Zhang, Lu Liu, Xiao-Xu Fang, Qian-Xi Zhang, Xiao Yuan, He Lu, (参考訳) ノイズは一般に避けられず、実用的で有用な量子通信と計算に有害である。 資源理論の枠組みの下では、資源の蒸留はノイズの影響を克服するための一般的なツールとして機能する。 しかし, 従来の資源蒸留プロトコルでは, 資源状態のマルチコピーの操作が一般的であり, 実用性を制限する強力な制限が存在する。 近年, 資源蒸留の設定を緩和して, 量子状態の代わりに測定統計のみを近似させることにより, 資源フルーガープロトコル, 仮想資源蒸留を提案し, より効率的なノイズ資源の蒸留を可能にした。 本稿では, 量子コヒーレンス(次元4まで)の蒸留と二部構造エンタングルメントのためのフォトニック量子システムに対する実験的実装について報告する。 従来のコヒーレンス蒸留では不可能な2次元状態から4次元の最大重畳状態の仮想蒸留を示す。 さらに、ノイズの多いEPRペアの1つのコピーにのみ作用する操作を伴うエンタングルメントの仮想蒸留を実証し、テレポートされた状態の忠実度を著しく向上した仮想蒸留されたEPRペアを用いて量子テレポーテーションタスクを示す。 これらの結果は, 仮想資源蒸留法の実現可能性を示し, ノイズの多い量子ハードウェアによる量子資源の正確な操作の道を開くものである。

Noise is in general inevitable and detrimental to practical and useful quantum communication and computation. Under the resource theory framework, resource distillation serves as a generic tool to overcome the effect of noise. Yet, conventional resource distillation protocols generally require operations on multi-copies of resource states, and strong limitations exist that restrict their practical utilities. Recently, by relaxing the setting of resource distillation to only approximating the measurement statistics instead of the quantum state, a resource-frugal protocol, virtual resource distillation, is proposed, which allows more effective distillation of noisy resources. Here, we report its experimental implementation on a photonic quantum system for the distillation of quantum coherence (up to dimension 4) and bipartite entanglement. We show the virtual distillation of the maximal superposed state of dimension four from the state of dimension two, an impossible task in conventional coherence distillation. Furthermore, we demonstrate the virtual distillation of entanglement with operations acting only on a single copy of the noisy EPR pair and showcase the quantum teleportation task using the virtually distilled EPR pair with a significantly improved fidelity of the teleported state. These results illustrate the feasibility of the virtual resource distillation method and pave the way for accurate manipulation of quantum resources with noisy quantum hardware.
翻訳日:2024-06-26 21:00:07 公開日:2024-06-25
# 一般化グラフプロンプト:グラフ上の事前学習タスクと下流タスクの統合を目指して

Generalized Graph Prompt: Toward a Unification of Pre-Training and Downstream Tasks on Graphs ( http://arxiv.org/abs/2311.15317v3 )

ライセンス: Link先を確認
Xingtong Yu, Zhenghao Liu, Yuan Fang, Zemin Liu, Sihong Chen, Xinming Zhang, (参考訳) グラフニューラルネットワークはグラフ表現学習の強力なツールとして登場したが、そのパフォーマンスはタスク固有の豊富な監視に大きく依存している。 ラベル付け要求を減らすため、"pre-train, prompt"パラダイムはますます一般的になっている。 しかし、グラフのプロンプトに関する既存の研究は限定的であり、下流の様々なタスクにアピールするための普遍的な処理が欠如している。 本稿では,グラフの事前学習と促進のための新しいフレームワークであるGraphPromptを提案する。 GraphPromptは、トレーニング済みタスクとダウンストリームタスクを共通のタスクテンプレートに統合するだけでなく、学習可能なプロンプトを使用して、トレーニング済みモデルからタスク固有の方法で最も関連性の高い知識を見つける。 この2つのステージでGraphPromptをさらに強化するために、GraphPrompt+に2つの大きな拡張を加えて拡張します。 まず、単純なリンク予測以上のグラフ事前学習タスクを一般化し、タスクテンプレートとの互換性を広げる。 次に,事前学習したグラフエンコーダの各層に一連のプロンプトベクトルを組み込んだ,より一般化されたプロンプト設計を提案する。 最後に、GraphPromptとGraphPrompt+を評価し分析するために、5つの公開データセットに関する広範な実験を行う。

Graph neural networks have emerged as a powerful tool for graph representation learning, but their performance heavily relies on abundant task-specific supervision. To reduce labeling requirement, the "pre-train, prompt" paradigms have become increasingly common. However, existing study of prompting on graphs is limited, lacking a universal treatment to appeal to different downstream tasks. In this paper, we propose GraphPrompt, a novel pre-training and prompting framework on graphs. GraphPrompt not only unifies pre-training and downstream tasks into a common task template but also employs a learnable prompt to assist a downstream task in locating the most relevant knowledge from the pre-trained model in a task-specific manner. To further enhance GraphPrompt in these two stages, we extend it into GraphPrompt+ with two major enhancements. First, we generalize several popular graph pre-training tasks beyond simple link prediction to broaden the compatibility with our task template. Second, we propose a more generalized prompt design that incorporates a series of prompt vectors within every layer of the pre-trained graph encoder, in order to capitalize on the hierarchical information across different layers beyond just the readout layer. Finally, we conduct extensive experiments on five public datasets to evaluate and analyze GraphPrompt and GraphPrompt+.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# 開語彙オブジェクト6Dポーズ推定

Open-vocabulary object 6D pose estimation ( http://arxiv.org/abs/2312.00690v4 )

ライセンス: Link先を確認
Jaime Corsetti, Davide Boscaini, Changjae Oh, Andrea Cavallaro, Fabio Poiesi, (参考訳) 対象物を特定するためにテキストプロンプトを使用するオープン語彙オブジェクト6Dのポーズ推定を新たに導入する。 既存のアプローチとは対照的に、私たちの設定では (i)利害対象は、テキストプロンプトのみで指定する。 (ii)推論にはオブジェクトモデル(例、CAD、ビデオシーケンス)は不要で、 (iii)異なるシーンの2つのRGBD視点から、オブジェクトを画像化する。 そこで本研究では,視覚言語モデルを用いてシーンから関心対象を抽出し,その相対的な6次元ポーズを推定する手法を提案する。 提案手法の鍵となるのは,プロンプトによって提供されるオブジェクトレベルの情報を局所的な画像特徴と融合させることで,新しい概念に一般化できる特徴空間を実現することである。 我々は,2つの一般的なデータセットであるREAL275とToyota-Lightに基づく新しいベンチマークに対するアプローチを検証する。 その結果,本手法は,物体の相対的な6次元ポーズを異なる場面で推定する上で,手作り手法と最近のディープラーニングベースラインの両方に優れることがわかった。 コードとデータセットはhttps://jcorsetti.github.io/oryon.comで入手できる。

We introduce the new setting of open-vocabulary object 6D pose estimation, in which a textual prompt is used to specify the object of interest. In contrast to existing approaches, in our setting (i) the object of interest is specified solely through the textual prompt, (ii) no object model (e.g., CAD or video sequence) is required at inference, and (iii) the object is imaged from two RGBD viewpoints of different scenes. To operate in this setting, we introduce a novel approach that leverages a Vision-Language Model to segment the object of interest from the scenes and to estimate its relative 6D pose. The key of our approach is a carefully devised strategy to fuse object-level information provided by the prompt with local image features, resulting in a feature space that can generalize to novel concepts. We validate our approach on a new benchmark based on two popular datasets, REAL275 and Toyota-Light, which collectively encompass 34 object instances appearing in four thousand image pairs. The results demonstrate that our approach outperforms both a well-established hand-crafted method and a recent deep learning-based baseline in estimating the relative 6D pose of objects in different scenes. Code and dataset are available at https://jcorsetti.github.io/oryon.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# XCube: スパースボクセル階層を用いた大規模3次元生成モデリング

XCube: Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies ( http://arxiv.org/abs/2312.03806v2 )

ライセンス: Link先を確認
Xuanchi Ren, Jiahui Huang, Xiaohui Zeng, Ken Museth, Sanja Fidler, Francis Williams, (参考訳) XCube ($\mathcal{X}^3$) は、任意の属性を持つ高分解能スパース3Dボクセルグリッドのための新しい生成モデルである。 我々のモデルは、テスト時間最適化に時間がかからないフィードフォワード方式で、最高1024^3$の効率的な解像度で数百万のボクセルを生成することができる。 これを実現するために、高効率なVDBデータ構造上に構築されたカスタムフレームワークを用いて、徐々に高解像度グリッドを粗い方法で生成する階層型ボクセル潜伏拡散モデルを用いる。 高分解能オブジェクトの生成とは別に,100m$\times$100mの大規模屋外シーンにおけるXCubeの有効性を10cmのボクセルサイズで実証した。 我々は過去のアプローチよりも明確な質的、定量的な改善を観察する。 非条件生成に加えて、ユーザガイド編集、単一スキャンからのシーン補完、テキスト・トゥ・3Dといった様々なタスクを解くために、我々のモデルが利用できることを示す。 ソースコードとさらなる結果はhttps://research.nvidia.com/labs/toronto-ai/xcube/にある。

We present XCube (abbreviated as $\mathcal{X}^3$), a novel generative model for high-resolution sparse 3D voxel grids with arbitrary attributes. Our model can generate millions of voxels with a finest effective resolution of up to $1024^3$ in a feed-forward fashion without time-consuming test-time optimization. To achieve this, we employ a hierarchical voxel latent diffusion model which generates progressively higher resolution grids in a coarse-to-fine manner using a custom framework built on the highly efficient VDB data structure. Apart from generating high-resolution objects, we demonstrate the effectiveness of XCube on large outdoor scenes at scales of 100m$\times$100m with a voxel size as small as 10cm. We observe clear qualitative and quantitative improvements over past approaches. In addition to unconditional generation, we show that our model can be used to solve a variety of tasks such as user-guided editing, scene completion from a single scan, and text-to-3D. The source code and more results can be found at https://research.nvidia.com/labs/toronto-ai/xcube/.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# AntGroupにおける効率的なプルーニングと蒸留による大規模マルチモーダルモデル圧縮

Large Multimodal Model Compression via Efficient Pruning and Distillation at AntGroup ( http://arxiv.org/abs/2312.05795v2 )

ライセンス: Link先を確認
Maolin Wang, Yao Zhao, Jiajia Liu, Jingdong Chen, Chenyi Zhuang, Jinjie Gu, Ruocheng Guo, Xiangyu Zhao, (参考訳) AntGroupにLarge Multimodal Models(LMM)が配備されたことにより、Alipayにおける広告オーディションタスクの強化など、支払い、セキュリティ、広告におけるマルチモーダルタスクが大幅に進歩した。 しかし、このような大規模なモデルの展開は、特にグリーンAIの理想に反するレイテンシや二酸化炭素排出量の増加において、課題をもたらす。 本稿では,当社独自のLLMであるAntGMMに対して,新しいマルチステージ圧縮戦略を提案する。 提案手法は, サンプルサイズを小型化すること, マルチステージプルーニングによる多段冗長性に対処すること, 高度蒸留損失設計を導入すること, の3つの主要な側面に焦点をあてる。 本研究では,Alipay内の現実シナリオからマルチモーダル・オーディション・データセット(MAAD)というデータセットを構築し,提案手法の信頼性を検証する実験を行った。 さらに,2023年9月から3ヶ月のAlipayのマルチモーダル広告オーディションにおける運用成功においても,この戦略の有効性は明らかである。 特に,本手法はレイテンシを大幅に低減し,700msから90msに短縮した。 さらに,我々の圧縮モデルでは,AntGMMの直接展開と比較して,年間約7500万kWhの消費電力削減が期待でき,グリーンAIイニシアチブへのコミットメントを示す。 いくつかのレビュー(footnote{https://github.com/MorinW/AntGMM$\_$Pruning})の後、私たちのコードとMAADデータセットを公開します。

The deployment of Large Multimodal Models (LMMs) within AntGroup has significantly advanced multimodal tasks in payment, security, and advertising, notably enhancing advertisement audition tasks in Alipay. However, the deployment of such sizable models introduces challenges, particularly in increased latency and carbon emissions, which are antithetical to the ideals of Green AI. This paper introduces a novel multi-stage compression strategy for our proprietary LLM, AntGMM. Our methodology pivots on three main aspects: employing small training sample sizes, addressing multi-level redundancy through multi-stage pruning, and introducing an advanced distillation loss design. In our research, we constructed a dataset, the Multimodal Advertisement Audition Dataset (MAAD), from real-world scenarios within Alipay, and conducted experiments to validate the reliability of our proposed strategy. Furthermore, the effectiveness of our strategy is evident in its operational success in Alipay's real-world multimodal advertisement audition for three months from September 2023. Notably, our approach achieved a substantial reduction in latency, decreasing it from 700ms to 90ms, while maintaining online performance with only a slight performance decrease. Moreover, our compressed model is estimated to reduce electricity consumption by approximately 75 million kWh annually compared to the direct deployment of AntGMM, demonstrating our commitment to green AI initiatives. We will publicly release our code and the MAAD dataset after some reviews\footnote{https://github.com/MorinW/AntGMM$\_$Pruning}.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# 凸形状テンプレートの最適化による簡易構造をもつ多モード等角予測領域

Multi-Modal Conformal Prediction Regions with Simple Structures by Optimizing Convex Shape Templates ( http://arxiv.org/abs/2312.07434v2 )

ライセンス: Link先を確認
Renukanandan Tumu, Matthew Cleaveland, Rahul Mangharam, George J. Pappas, Lars Lindemann, (参考訳) コンフォーマル予測は、高い確率で有効な機械学習モデルの予測領域を生成する統計ツールである。 共形予測アルゴリズムの重要な構成要素は、モデルの予測が未知の基底真理値とどのように異なるかを測定する「emph{non-conformity score function」である。 基本的に、これらの関数は共形予測領域の形状と大きさを決定する。 これまでの作業では、マルチモデル予測領域を生成するスコア関数の作成に取り組んできたが、そのような領域は一般的に、下流の計画や制御問題に使用するには複雑すぎる。 キャリブレーションデータに対してパラメータ化された \emph{shape テンプレート関数を最適化し,最小体積の予測領域を生成する非整合スコア関数を提案する。 提案手法では,複数モードの分布の残差を適切に把握し,各領域が凸であり,共形予測領域を用いたモーションプランナなどの下流タスクに容易に組み込むことができる。 本手法は一般的な教師付き学習タスクに適用され,時系列予測における使用例を示す。 本研究では,F16戦闘機と自律走行車の実機実験を行い,F16戦闘機の予測領域を円形のベースライン領域と比較した場合,最大6,8\%の低減率を示す。

Conformal prediction is a statistical tool for producing prediction regions for machine learning models that are valid with high probability. A key component of conformal prediction algorithms is a \emph{non-conformity score function} that quantifies how different a model's prediction is from the unknown ground truth value. Essentially, these functions determine the shape and the size of the conformal prediction regions. While prior work has gone into creating score functions that produce multi-model prediction regions, such regions are generally too complex for use in downstream planning and control problems. We propose a method that optimizes parameterized \emph{shape template functions} over calibration data, which results in non-conformity score functions that produce prediction regions with minimum volume. Our approach results in prediction regions that are \emph{multi-modal}, so they can properly capture residuals of distributions that have multiple modes, and \emph{practical}, so each region is convex and can be easily incorporated into downstream tasks, such as a motion planner using conformal prediction regions. Our method applies to general supervised learning tasks, while we illustrate its use in time-series prediction. We provide a toolbox and present illustrative case studies of F16 fighter jets and autonomous vehicles, showing an up to $68\%$ reduction in prediction region area compared to a circular baseline region.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# 高次ショートカット規則によるモデル整合性復元

Advanced Model Consistency Restoration with Higher-Order Short-Cut Rules ( http://arxiv.org/abs/2312.09828v2 )

ライセンス: Link先を確認
Lars Fritsche, Jens Kosiol, Alexander Lauer, Adrian Möller, Andy Schürr, (参考訳) 逐次モデル同期は、あるモデルから別のモデルへの変化を伝達し、一貫性を回復するタスクである。 不要な削除(情報損失を引き起こす可能性がある)を避けるため、この伝播を最小限の変更方法で実行することは困難である。 理論的な観点からは、情報損失を回避しつつ変化の伝播を確実に補正するいわゆるショートカット(SC)ルールが開発されている。 しかし、可能なすべての変化に反応できるためには、そのような規則の無限の集合が必要であるかもしれない。 実際には、事前計算された基本的なSCルールの小さなセットのみが使われており、情報を失うことなく伝達できる変更の種類を厳しく制限している。 本研究は、同期中に必要となるSCルールをオンザフライで計算するアプローチを開発することで、そのギャップを埋めるものである。 これらの高階のSCルールは、複数の変更を1ステップで処理しなければならない場合に、より複雑なシナリオに対処することができます。 モデル変換ツールeMoflonにアプローチを実装しました。 評価により、高次SCルールのオンザフライでの計算のオーバーヘッドは許容可能であり、時には全体的な性能も向上することが示された。 その上、情報を失うことなく、まったく新しいシナリオを扱うことができます。

Sequential model synchronisation is the task of propagating changes from one model to another correlated one to restore consistency. It is challenging to perform this propagation in a least-changing way that avoids unnecessary deletions (which might cause information loss). From a theoretical point of view, so-called short-cut (SC) rules have been developed that enable provably correct propagation of changes while avoiding information loss. However, to be able to react to every possible change, an infinite set of such rules might be necessary. Practically, only small sets of pre-computed basic SC rules have been used, severely restricting the kind of changes that can be propagated without loss of information. In this work, we close that gap by developing an approach to compute more complex required SC rules on-the-fly during synchronisation. These higher-order SC rules allow us to cope with more complex scenarios when multiple changes must be handled in one step. We implemented our approach in the model transformation tool eMoflon. An evaluation shows that the overhead of computing higher-order SC rules on-the-fly is tolerable and at times even improves the overall performance. Above that, completely new scenarios can be dealt with without the loss of information.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# 製品状態のフィルタリングのための効率的な量子アルゴリズム

Efficient Quantum Algorithm for Filtering Product States ( http://arxiv.org/abs/2312.13892v3 )

ライセンス: Link先を確認
Reinis Irmejs, Mari Carmen Bañuls, J. Ignacio Cirac, (参考訳) 我々は,目標エネルギーで小さなエネルギー分散を持つ状態を効率的に準備する量子アルゴリズムを導入する。 与えられたエネルギーの積状態を、幅$\delta$のローレンツフィルタでフィルタリングすることで達成する。 N$ qubits 上の局所ハミルトニアンが与えられたとき、基底状態が$\delta\sqrt{N}$ に比例する可変エネルギー分散を持つフィルターされた積状態に対応する親ハミルトニアンを構成する。 我々は、親ハミルトニアンがギャップがあり、その基底状態が、断熱的進化を通して $\mathrm{poly}(N,1/\delta)$ time で効率的に実装可能であることを証明した。 我々は, 特定の非可積分モデルのアルゴリズムを数値的にベンチマークし, システムサイズ$N$に依存しない幅$\delta$でフィルタ状態を作成するための断熱的進化時間を求める。 さらに、断熱進化は回路深さ$\mathcal{O}(N^2\delta^{-4})$で実現できる。 我々のアルゴリズムは、量子シミュレーターにおいて、有限エネルギー状態を直接準備し、任意のエネルギーでマイクロカノニカル特性の近似にアクセスすることによって、多くの身体系の有限エネルギー状態を研究する方法を提供する。

We introduce a quantum algorithm to efficiently prepare states with a small energy variance at the target energy. We achieve it by filtering a product state at the given energy with a Lorentzian filter of width $\delta$. Given a local Hamiltonian on $N$ qubits, we construct a parent Hamiltonian whose ground state corresponds to the filtered product state with variable energy variance proportional to $\delta\sqrt{N}$. We prove that the parent Hamiltonian is gapped and its ground state can be efficiently implemented in $\mathrm{poly}(N,1/\delta)$ time via adiabatic evolution. We numerically benchmark the algorithm for a particular non-integrable model and find that the adiabatic evolution time to prepare the filtered state with a width $\delta$ is independent of the system size $N$. Furthermore, the adiabatic evolution can be implemented with circuit depth $\mathcal{O}(N^2\delta^{-4})$. Our algorithm provides a way to study the finite energy regime of many body systems in quantum simulators by directly preparing a finite energy state, providing access to an approximation of the microcanonical properties at an arbitrary energy.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# 光子結合信号検出用シリコン光増倍器

Silicon Photomultipliers for Detection of Photon Bunching Signatures ( http://arxiv.org/abs/2401.01316v3 )

ライセンス: Link先を確認
Lucas Finazzi, Federico Izraelevitch, Alexis Luszczak, Thomas Huber, Andreas Haungs, Federico Golmar, (参考訳) 本研究では,SiPMを用いてLED光からの光束を初めて観察した。 括弧は97~hsのデータを用いて7.3〜\sigma$で観測された。 光は1〜nmの帯域通過フィルタとエタロンフィルタを用いてスペクトル的にフィルタリングされ、場の時間的コヒーレンスとコヒーレンス時間を$\tau_C = (19 \pm 2)$~psと測定した。 これらの測定におけるSiPM非理想性の影響を考察し、SiPMアナログ波形の処理方法と、これらの非理想性を軽減するために使用されるイベント選択について述べる。

In this work, photon bunching from LED light was observed for the first time using SiPMs. The bunching signature was observed with a significance of $7.3~\sigma$ using 97~hs of data. The light was spectrally filtered using a 1~nm bandpass filter and an Etalon filter to ensure temporal coherence of the field and its coherence time was measured to be $\tau_C = (19 \pm 2)$~ps. The impact of SiPM non-idealities in these kinds of measurements is explored, and we describe the methodology to process SiPM analog waveforms and the event selection used to mitigate these non-idealities.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# DEM: 航空宇宙におけるディープニューラルネットワーク分類器出力の認証方法

DEM: A Method for Certifying Deep Neural Network Classifier Outputs in Aerospace ( http://arxiv.org/abs/2401.02283v3 )

ライセンス: Link先を確認
Guy Katz, Natan Levy, Idan Refaeli, Raz Yerushalmi, (参考訳) 航空宇宙分野におけるソフトウェア開発は、厳格で高品質な標準に固執する必要がある。 この領域には商用ソフトウェア(例えば ARP-4754 や DO-178)の規制ガイドラインがあるが、ディープニューラルネットワーク(DNN)コンポーネントを持つソフトウェアには適用されない。 したがって、航空宇宙システムが深層学習革命の恩恵を受けるためには、どうすればよいのかは不明である。 我々の研究は、DNN認証のための新しいアウトプット中心のアプローチで、この問題に対処しようとしています。 提案手法は統計的検証手法を用いており,DNNの出力が信頼できない可能性のある特定の入力をフラグできる重要な利点がある。 そこで本手法では,DNNの他の近傍入力に対する予測を統計的に解析し,不整合を検出する。 これは、個々の出力とは対照的に、DNN全体を認証しようとする既存の技術とは対照的である。 本手法では,DNNをブラックボックスとして使用し,そのトポロジを仮定しない。 この作業が、特に高品質と信頼性の基準が不可欠である航空宇宙領域において、安全クリティカルなアプリケーションにDNNを統合するための別のステップになることを期待しています。

Software development in the aerospace domain requires adhering to strict, high-quality standards. While there exist regulatory guidelines for commercial software in this domain (e.g., ARP-4754 and DO-178), these do not apply to software with deep neural network (DNN) components. Consequently, it is unclear how to allow aerospace systems to benefit from the deep learning revolution. Our work here seeks to address this challenge with a novel, output-centric approach for DNN certification. Our method employs statistical verification techniques, and has the key advantage of being able to flag specific inputs for which the DNN's output may be unreliable - so that they may be later inspected by a human expert. To achieve this, our method conducts a statistical analysis of the DNN's predictions for other, nearby inputs, in order to detect inconsistencies. This is in contrast to existing techniques, which typically attempt to certify the entire DNN, as opposed to individual outputs. Our method uses the DNN as a black-box, and makes no assumptions about its topology. We hope that this work constitutes another step towards integrating DNNs in safety-critical applications - especially in the aerospace domain, where high standards of quality and reliability are crucial.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# ニューラルネットワークを用いたTiny Transformerモデルの低コストFPGA実装

A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE ( http://arxiv.org/abs/2401.02721v2 )

ライセンス: Link先を確認
Ikumi Okubo, Keisuke Sugiura, Hiroki Matsutani, (参考訳) Transformerは幅広いタスクに採用されており、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。 これらの問題に対処するため、ハイブリッドアプローチは最近の研究トレンドとなり、ResNetの一部をMHSA(Multi-Head Self-Attention)に置き換えている。 本稿では、12.1$\times$パラメータ削減のためにResNetの代わりにNeural ODE(正規微分方程式)をバックボーンとして使用する軽量ハイブリッドモデルを提案する。 STL10データセットでは、提案されたモデルは、ResNet50に匹敵する80.15%のトップ1精度を達成する。 次に,エッジコンピューティングのための最小サイズのFPGAデバイス上に,提案モデルが展開される。 FPGAリソースの利用をさらに削減するため、PTQ(Post Training Quantization)の代わりにQAT(Quantization Aware Training)スキームに従ってモデルを定量化し、精度損失を抑制する。 その結果、リソース制限付きFPGA上で非常に軽量なTransformerベースのモデルを実現することができる。 特徴抽出ネットワークの重みは、メモリ転送オーバーヘッドを最小限に抑え、高速な推論を可能にするために、チップ上に格納される。 メモリ転送のオーバーヘッドをなくすことで、推論はシームレスに実行でき、推論が高速化される。 提案したFPGA実装は、バックボーンとMHSA部品の34.01$\times$スピードアップを達成し、ソフトウェアの前処理と後処理を考慮すると、全体的な9.85$\times$スピードアップを達成する。 また、ARM Cortex-A53 CPUと比較して7.10$\times$高効率を実現している。

Transformer has been adopted to a wide range of tasks and shown to outperform CNNs and RNNs while it suffers from high training cost and computational complexity. To address these issues, a hybrid approach has become a recent research trend, which replaces a part of ResNet with an MHSA (Multi-Head Self-Attention). In this paper, we propose a lightweight hybrid model which uses Neural ODE (Ordinary Differential Equation) as a backbone instead of ResNet for 12.1$\times$ parameter reduction. For the STL10 dataset, the proposed model achieves 80.15% top-1 accuracy which is comparable to ResNet50. Then, the proposed model is deployed on a modest-sized FPGA device for edge computing. To further reduce FPGA resource utilization, the model is quantized following QAT (Quantization Aware Training) scheme instead of PTQ (Post Training Quantization) to suppress the accuracy loss. As a result, an extremely lightweight Transformer-based model can be implemented on resource-limited FPGAs. The weights of the feature extraction network are stored on-chip to minimize the memory transfer overhead, allowing faster inference. By eliminating the overhead of memory transfers, inference can be executed seamlessly, leading to accelerated inference. The proposed FPGA implementation achieves a 34.01$\times$ speedup for the backbone and MHSA parts, and it achieves an overall 9.85$\times$ speedup when taking into account software pre- and post-processing. It also achieves an overall 7.10$\times$ higher energy efficiency compared to the ARM Cortex-A53 CPU.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# 非平滑オートディフの数値的信頼性について:MaxPool ケーススタディ

On the numerical reliability of nonsmooth autodiff: a MaxPool case study ( http://arxiv.org/abs/2401.02736v2 )

ライセンス: Link先を確認
Ryan Boustany, (参考訳) 本稿では,非滑らかなMaxPool演算を含むニューラルネットワークにおける自動微分(AD)の信頼性について考察する。 我々は,様々なデータセット(MNIST, CIFAR10, SVHN, ImageNet)における,様々な精度レベル(16, 32, 64ビット)および畳み込みアーキテクチャ(LeNet, VGG, ResNet)におけるADの挙動について検討した。 AD は正しくないが、最近の研究では、非滑らかな操作(MaxPool や ReLU など)が存在する場合でも、ほとんどどこでも微分と一致することが示されている。 一方、実際にはADは浮動小数点数(実数ではない)で動くので、ADが数値的に正しくない部分集合を探索する必要がある。 これらの部分集合には、分岐ゾーン(ADが実数に対して正しくない)と補償ゾーン(ADが浮動小数点数に対して間違っているが実数に対して正しい)が含まれる。 トレーニングプロセスにSGDを用い,MaxPool関数に対する非滑らかなヤコビアンの選択が16ビット,32ビットの精度に与える影響について検討した。 これらの結果は,非平滑なマックスプールジャコビアンが安定かつ効率的なテスト精度を維持するのに有効であるのに対し,高ノルムのヤコビアンでは安定性が低下し,性能が低下することが示唆された。 また,MaxPoolの非滑らかなJacobianの学習への影響は,バッチ正規化やAdamライクなオプティマイザ,精度の向上などによって低減することができる。

This paper considers the reliability of automatic differentiation (AD) for neural networks involving the nonsmooth MaxPool operation. We investigate the behavior of AD across different precision levels (16, 32, 64 bits) and convolutional architectures (LeNet, VGG, and ResNet) on various datasets (MNIST, CIFAR10, SVHN, and ImageNet). Although AD can be incorrect, recent research has shown that it coincides with the derivative almost everywhere, even in the presence of nonsmooth operations (such as MaxPool and ReLU). On the other hand, in practice, AD operates with floating-point numbers (not real numbers), and there is, therefore, a need to explore subsets on which AD can be numerically incorrect. These subsets include a bifurcation zone (where AD is incorrect over reals) and a compensation zone (where AD is incorrect over floating-point numbers but correct over reals). Using SGD for the training process, we study the impact of different choices of the nonsmooth Jacobian for the MaxPool function on the precision of 16 and 32 bits. These findings suggest that nonsmooth MaxPool Jacobians with lower norms help maintain stable and efficient test accuracy, whereas those with higher norms can result in instability and decreased performance. We also observe that the influence of MaxPool's nonsmooth Jacobians on learning can be reduced by using batch normalization, Adam-like optimizers, or increasing the precision level.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# 高分解能ジコトコス像の両側参照

Bilateral Reference for High-Resolution Dichotomous Image Segmentation ( http://arxiv.org/abs/2401.03407v5 )

ライセンス: Link先を確認
Peng Zheng, Dehong Gao, Deng-Ping Fan, Li Liu, Jorma Laaksonen, Wanli Ouyang, Nicu Sebe, (参考訳) 高分解能ディコトコス像分割(DIS)のための新しい両側参照フレームワーク(BiRefNet)を導入する。 本研究は,2つの基本成分: 局所化モジュール (LM) と再構成モジュール (RM) を, 提案した両側参照 (BiRef) で構成する。 LMはグローバルな意味情報を用いたオブジェクトのローカライゼーションを支援する。 RM内では、画像の階層的パッチがソース参照を提供し、勾配マップがターゲット参照として機能する、再構成プロセスにBiRefを利用する。 これらのコンポーネントは、最終的な予測マップを生成するために協力する。 また,より詳細な領域に焦点を絞るために,補助的な勾配監督を導入する。 さらに、地図の質とトレーニングプロセスを改善するために、Disdisに適した実践的なトレーニング戦略を概説する。 提案手法の汎用性を検証するため,BiRefNetがすべてのベンチマークにおいて,タスク固有の最先端手法よりも優れた性能を示すことを示すため,4つのタスクについて広範な実験を行った。 私たちのコードはhttps://github.com/ZhengPeng7/BiRefNetで公開されています。

We introduce a novel bilateral reference framework (BiRefNet) for high-resolution dichotomous image segmentation (DIS). It comprises two essential components: the localization module (LM) and the reconstruction module (RM) with our proposed bilateral reference (BiRef). The LM aids in object localization using global semantic information. Within the RM, we utilize BiRef for the reconstruction process, where hierarchical patches of images provide the source reference and gradient maps serve as the target reference. These components collaborate to generate the final predicted maps. We also introduce auxiliary gradient supervision to enhance focus on regions with finer details. Furthermore, we outline practical training strategies tailored for DIS to improve map quality and training process. To validate the general applicability of our approach, we conduct extensive experiments on four tasks to evince that BiRefNet exhibits remarkable performance, outperforming task-specific cutting-edge methods across all benchmarks. Our codes are available at https://github.com/ZhengPeng7/BiRefNet.
翻訳日:2024-06-26 20:50:02 公開日:2024-06-25
# SoK:顔のディープフェイク検出装置

SoK: Facial Deepfake Detectors ( http://arxiv.org/abs/2401.04364v2 )

ライセンス: Link先を確認
Binh M. Le, Jiwon Kim, Shahroz Tariq, Kristen Moore, Alsharif Abuadbba, Simon S. Woo, (参考訳) ディープフェイクは、創造と普及の容易さから、社会に深刻な脅威として急速に現れてきた。 この状況は、ディープフェイク検出技術の急速な発展を引き起こした。 しかし、既存の検出器の多くは、実験室が生成したデータセットの検証に大きく依存しているため、新しい、新しい、そして現実世界のディープフェイク技術を効果的に準備することができないかもしれない。 本稿では,最新の最先端ディープフェイク検出器の広域的・包括的レビューと解析を行い,いくつかの臨界基準から評価する。 これらの基準は、これらの検出器を4つの高レベル群と13のきめ細かい部分群に分類し、全て統一された標準概念の枠組みと整合する。 この分類と枠組みは、検出器の有効性に影響を与える要因について、より深く実践的な洞察を提供する。 我々は,ブラックボックス,ホワイトボックス,グレーボックスの設定など,様々な標準的な攻撃シナリオにおける16個の主要検出器の一般化可能性を評価する。 我々の体系化された分析と実験は、ディープフェイク検出器とその一般化可能性の深い理解の土台となり、様々な攻撃シナリオに対応可能な検出器を作成することに焦点を当てた将来の研究の道を開いた。 さらに、この研究はディープフェイクに対するより積極的な防御を開発するための洞察を提供する。

Deepfakes have rapidly emerged as a profound and serious threat to society, primarily due to their ease of creation and dissemination. This situation has triggered an accelerated development of deepfake detection technologies. However, many existing detectors rely heavily on lab-generated datasets for validation, which may not effectively prepare them for novel, emerging, and real-world deepfake techniques. In this paper, we conduct an extensive and comprehensive review and analysis of the latest state-of-the-art deepfake detectors, evaluating them against several critical criteria. These criteria facilitate the categorization of these detectors into 4 high-level groups and 13 fine-grained sub-groups, all aligned with a unified standard conceptual framework. This classification and framework offer deep and practical insights into the factors that affect detector efficacy. We assess the generalizability of 16 leading detectors across various standard attack scenarios, including black-box, white-box, and gray-box settings. Our systematized analysis and experimentation lay the groundwork for a deeper understanding of deepfake detectors and their generalizability, paving the way for future research focused on creating detectors adept at countering various attack scenarios. Additionally, this work offers insights for developing more proactive defenses against deepfakes.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# ユニタリ結合クラスタアンサッツの効率的なロバストパラメータ最適化

Efficient and Robust Parameter Optimization of the Unitary Coupled-Cluster Ansatz ( http://arxiv.org/abs/2401.04910v2 )

ライセンス: Link先を確認
Weitang Li, Yufei Ge, Shixin Zhang, Yuqin Chen, Shengyu Zhang, (参考訳) 変分量子固有解法(VQE)フレームワークは、短期量子アルゴリズムの進歩に有効である。 しかしながら、パラメータ最適化はVQEにとって重要なボトルネックであり、アルゴリズムの実行を成功させるためには多数の測定が必要である。 本稿では、量子コンピュータ上でのユニタリ結合クラスタ・アンサッツのパラメータ最適化に特化して設計された、効率的で堅牢な最適化器として、近似パラボラ(SOAP)を用いた逐次最適化を提案する。 SOAPは逐次最適化を活用し、エネルギーランドスケープを二次関数として近似し、各パラメータの最適化に必要なエネルギー評価の数を最小化する。 パラメータ相関を捉えるために、SOAPは前回のイテレーションから平均方向を最適化方向セットに組み込む。 分子システムに関する数値的なベンチマークでは、SOAPは従来の最適化手法に比べてはるかに高速な収束とノイズに対する堅牢性を実現している。 さらに、20キュービットまでの数値シミュレーションにより、SOAPがアンザッツ内のパラメータの数とうまくスケールしていることが分かる。 SOAPの異常な性能は、2量子ビットモデルシステムを用いた超伝導量子コンピュータの実験によってさらに検証される。

The variational quantum eigensolver (VQE) framework has been instrumental in advancing near-term quantum algorithms. However, parameter optimization remains a significant bottleneck for VQE, requiring a large number of measurements for successful algorithm execution. In this paper, we propose sequential optimization with approximate parabola (SOAP) as an efficient and robust optimizer specifically designed for parameter optimization of the unitary coupled-cluster ansatz on quantum computers. SOAP leverages sequential optimization and approximates the energy landscape as quadratic functions, minimizing the number of energy evaluations required to optimize each parameter. To capture parameter correlations, SOAP incorporates the average direction from the previous iteration into the optimization direction set. Numerical benchmark studies on molecular systems demonstrate that SOAP achieves significantly faster convergence and greater robustness to noise compared to traditional optimization methods. Furthermore, numerical simulations up to 20 qubits reveal that SOAP scales well with the number of parameters in the ansatz. The exceptional performance of SOAP is further validated through experiments on a superconducting quantum computer using a 2-qubit model system.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# DK-SLAM:Deep Keypoint Learning, Tracking and Loop-Closingを備えた単眼視覚SLAM

DK-SLAM: Monocular Visual SLAM with Deep Keypoint Learning, Tracking and Loop-Closing ( http://arxiv.org/abs/2401.09160v2 )

ライセンス: Link先を確認
Hao Qu, Lilian Zhang, Jun Mao, Junbo Tie, Xiaofeng He, Xiaoping Hu, Yifei Shi, Changhao Chen, (参考訳) 複雑で現実的なシナリオにおける視覚的SLAMの性能は、しばしば手作りの特徴を使用する際に、信頼性の低い特徴抽出とマッチングによって損なわれる。 深層学習に基づく局所的特徴は、高レベル情報を捕捉し、マッチングベンチマークでよく機能するが、連続的な動きシーンの一般化に苦慮し、ループ検出精度に悪影響を及ぼす。 本システムでは,キーポイント抽出ネットワークの学習を最適化し,多様な環境への適応性を高めるため,モデル非依存メタラーニング(MAML)戦略を採用している。 さらに,学習キーポイントに対する粗い特徴追跡機構を導入する。 これは、連続するフレーム間の相対的なポーズを近似する直接法から始まり、続いて洗練されたポーズ推定のための特徴マッチング法が続く。 累積的な位置決め誤差を軽減するため、DK-SLAMはループ閉鎖検出にバイナリ機能を利用する新しいオンライン学習モジュールを組み込んだ。 このモジュールはシーケンス内のループノードを動的に識別し、正確かつ効率的なローカライゼーションを保証する。 DK-SLAMは、ORB-SLAM3やLIFT-SLAMといった従来の学習ベースのSLAMシステムよりも優れています。 これらの結果は,実環境におけるDK-SLAMの有効性とロバスト性を示すものである。

The performance of visual SLAM in complex, real-world scenarios is often compromised by unreliable feature extraction and matching when using handcrafted features. Although deep learning-based local features excel at capturing high-level information and perform well on matching benchmarks, they struggle with generalization in continuous motion scenes, adversely affecting loop detection accuracy. Our system employs a Model-Agnostic Meta-Learning (MAML) strategy to optimize the training of keypoint extraction networks, enhancing their adaptability to diverse environments. Additionally, we introduce a coarse-to-fine feature tracking mechanism for learned keypoints. It begins with a direct method to approximate the relative pose between consecutive frames, followed by a feature matching method for refined pose estimation. To mitigate cumulative positioning errors, DK-SLAM incorporates a novel online learning module that utilizes binary features for loop closure detection. This module dynamically identifies loop nodes within a sequence, ensuring accurate and efficient localization. Experimental evaluations on publicly available datasets demonstrate that DK-SLAM outperforms leading traditional and learning based SLAM systems, such as ORB-SLAM3 and LIFT-SLAM. These results underscore the efficacy and robustness of our DK-SLAM in varied and challenging real-world environments.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# 3次元形状創製のためのディバース部品合成

Diverse Part Synthesis for 3D Shape Creation ( http://arxiv.org/abs/2401.09384v2 )

ライセンス: Link先を確認
Yanran Guan, Oliver van Kaick, (参考訳) ニューラルネットワークを用いて3次元形状を部分ベース表現の形で合成する手法は、ここ数年で導入されている。 これらの手法は、形状を部品のグラフや階層として表現し、形状サンプリングや再構成などの様々な応用を可能にする。 しかし、現在の手法では、個々の形状部品をユーザの好みに応じて容易に再生することはできない。 本稿では,ユーザが個々の部品に対して多種多様な提案を生成できるようにする手法について検討する。 具体的には、形状部品の多様な提案をサンプリングし、形状合成に関するこれまでの研究では考慮されていなかったモデルに焦点をあてるマルチモーダル深部生成モデルを実験する。 本稿では,これらの技術の比較研究として,パートベース表現における3次元形状の合成法を紹介し,この合成法におけるすべての部分提案手法を評価する。 従来の研究から着想を得た本手法では, 形状は暗黙関数の形で一組の部品として表現され, 空間内に配置して最終形状を形成する。 この表現の合成は、暗黙のデコーダと空間変換器に基づくニューラルネットワークアーキテクチャによって実現される。 複数モーダル生成モデルの比較を行い,その性能評価を行った。 本研究の目的は, マルチモーダル部品生成のための新技術が最良である質的, 定量的評価を行い, 形状復元時に高い形状の忠実さを維持しつつ, 3次元形状に生成する部品をよりきめ細やかな制御を可能にすることにある。

Methods that use neural networks for synthesizing 3D shapes in the form of a part-based representation have been introduced over the last few years. These methods represent shapes as a graph or hierarchy of parts and enable a variety of applications such as shape sampling and reconstruction. However, current methods do not allow easily regenerating individual shape parts according to user preferences. In this paper, we investigate techniques that allow the user to generate multiple, diverse suggestions for individual parts. Specifically, we experiment with multimodal deep generative models that allow sampling diverse suggestions for shape parts and focus on models which have not been considered in previous work on shape synthesis. To provide a comparative study of these techniques, we introduce a method for synthesizing 3D shapes in a part-based representation and evaluate all the part suggestion techniques within this synthesis method. In our method, which is inspired by previous work, shapes are represented as a set of parts in the form of implicit functions which are then positioned in space to form the final shape. Synthesis in this representation is enabled by a neural network architecture based on an implicit decoder and a spatial transformer. We compare the various multimodal generative models by evaluating their performance in generating part suggestions. Our contribution is to show with qualitative and quantitative evaluations which of the new techniques for multimodal part generation perform the best and that a synthesis method based on the top-performing techniques allows the user to more finely control the parts that are generated in the 3D shapes while maintaining high shape fidelity when reconstructing shapes.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# 2次決定関数を持つニューラルネットワークによる分類

Classification with neural networks with quadratic decision functions ( http://arxiv.org/abs/2401.10710v2 )

ライセンス: Link先を確認
Leon Frischauf, Otmar Scherzer, Cong Shi, (参考訳) アフィン線形ニューラルネットワークの代替として、二次決定関数を持つニューラルネットワークが導入された。 それらは、特定される対象やクラスがコンパクトで、円や楕円のような基本的な幾何学の場合に有利である。 本稿では,このようなアンザッツ関数の分類への応用について検討する。 特に,手書き桁の分類と亜種分類のために,MNISTデータセット上でアルゴリズムを試験・比較する。 また、この実装は、ソフトウェアTensorflowとKerasのニューラルネットワーク構造に基づいていることも示している。

Neural networks with quadratic decision functions have been introduced as alternatives to standard neural networks with affine linear ones. They are advantageous when the objects or classes to be identified are compact and of basic geometries like circles, ellipses etc. In this paper we investigate the use of such ansatz functions for classification. In particular we test and compare the algorithm on the MNIST dataset for classification of handwritten digits and for classification of subspecies. We also show, that the implementation can be based on the neural network structure in the software Tensorflow and Keras, respectively.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# スパイキングニューラルネットワークにおけるニューロンの高速勾配自由活性化最大化

Fast gradient-free activation maximization for neurons in spiking neural networks ( http://arxiv.org/abs/2401.10748v2 )

ライセンス: Link先を確認
Nikita Pospelov, Andrei Chertkov, Maxim Beketov, Ivan Oseledets, Konstantin Anokhin, (参考訳) ニューラルネットワークの要素(生体と人工の両方)は、特定の認知的特徴に対する選択性によって説明できる。 これらの特徴を理解することは、ニューラルネットワークの内部動作を理解する上で重要である。 刺激に対する反応が未知で識別不可能な生体系のような生体系では、これらの特徴を明らかにする唯一の方法はフィードバックループを通じて異なる刺激に露出することである。 これらの刺激の特性は、ニューロンの反応を最大化するために反復的に変化すべきである。 このフィードバックループを生物学的ニューラルネットワークに利用するためには、可能な限り最小のイテレーション数で特定のニューロンの活性化を最大化する刺激に到達するために、迅速かつ効率的に実行することが重要である。 ここでは、そのようなループのための効率的な設計のフレームワークを提案する。 我々は、生きている脳のニューロンの非同期スパイク活性をシミュレートするモデルである人工スパイクニューラルネットワーク(SNN)で、これをうまくテストした。 アクティベーション最大化のための最適化手法は、離散的アクティベーション関数の低ランクテンソルトレイン分解に基づいている。 最適化空間はSN-GANまたはVQ-VAE生成モデルによって生成される画像の潜在パラメータ空間である。 私たちの知る限り、SNNに効果的なAMが適用されたのはこれが初めてです。 我々は、トレーニング中の人工ニューロンの最適刺激の変化を追跡し、高い選択性ニューロンが、トレーニングの初期段階と、畳み込みスパイクネットワークの初期層で既に形成可能であることを示す。 この洗練された最適刺激の形成は、分類精度の上昇と関連している。 一部のニューロン、特に深い層では、学習中に選択される概念が徐々に変化し、モデルパフォーマンスの重要性が説明される可能性がある。

Elements of neural networks, both biological and artificial, can be described by their selectivity for specific cognitive features. Understanding these features is important for understanding the inner workings of neural networks. For a living system, such as a neuron, whose response to a stimulus is unknown and not differentiable, the only way to reveal these features is through a feedback loop that exposes it to a large set of different stimuli. The properties of these stimuli should be varied iteratively in order to maximize the neuronal response. To utilize this feedback loop for a biological neural network, it is important to run it quickly and efficiently in order to reach the stimuli that maximizes certain neurons' activation with the least number of iterations possible. Here we present a framework with an efficient design for such a loop. We successfully tested it on an artificial spiking neural network (SNN), which is a model that simulates the asynchronous spiking activity of neurons in living brains. Our optimization method for activation maximization is based on the low-rank Tensor Train decomposition of the discrete activation function. The optimization space is the latent parameter space of images generated by SN-GAN or VQ-VAE generative models. To our knowledge, this is the first time that effective AM has been applied to SNNs. We track changes in the optimal stimuli for artificial neurons during training and show that highly selective neurons can form already in the early epochs of training and in the early layers of a convolutional spiking network. This formation of refined optimal stimuli is associated with an increase in classification accuracy. Some neurons, especially in the deeper layers, may gradually change the concepts they are selective for during learning, potentially explaining their importance for model performance.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# ビジョンファウンデーションモデルにおけるアクティブラーニングの再考

Revisiting Active Learning in the Era of Vision Foundation Models ( http://arxiv.org/abs/2401.14555v2 )

ライセンス: Link先を確認
Sanket Rajan Gupte, Josiah Aklilu, Jeffrey J. Nirschl, Serena Yeung-Levy, (参考訳) ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルのない、またはノイズの多いデータに基づいてトレーニングされ、多様なタスクで印象的なゼロショットまたは少数ショットのパフォーマンスを達成する堅牢な表現を学ぶ。 これらの特性を考慮すると、ラベリング効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。 しかし、ファンデーションモデルの可能性は、ALの文脈、特に低予算体制では検討されていない。 本研究では,基礎モデルが有効ALの3つの重要な構成要素,すなわち,どのように影響するかを評価する。 1)初期ラベル付きプール選択 2【多様なサンプリングの確保】 3)代表者と不確実性サンプリングのトレードオフ 基礎モデルの頑健な表現(DINOv2, OpenCLIP)が、アクティブラーニングにおける既存の知見にどのように挑戦するかを体系的に研究する。 本研究は,サンプルの多様性とドロップアウトによって推定される不確実性をバランスさせる,単純でエレガントなAL戦略の原則構築について報告する。 我々は、自然画像や、AL文献で比較的研究されている領域外バイオメディカル画像を含む、多くの挑戦的な画像分類ベンチマークにおいて、我々の戦略を広範囲に検証した。 我々はまた、 https://github.com/sanketx/AL-foundation-modelsにおいて、現代のAL戦略(私たちのメソッドを含む)の高性能かつ効率的な実装を提供する。

Foundation vision or vision-language models are trained on large unlabeled or noisy data and learn robust representations that can achieve impressive zero- or few-shot performance on diverse tasks. Given these properties, they are a natural fit for active learning (AL), which aims to maximize labeling efficiency. However, the full potential of foundation models has not been explored in the context of AL, specifically in the low-budget regime. In this work, we evaluate how foundation models influence three critical components of effective AL, namely, 1) initial labeled pool selection, 2) ensuring diverse sampling, and 3) the trade-off between representative and uncertainty sampling. We systematically study how the robust representations of foundation models (DINOv2, OpenCLIP) challenge existing findings in active learning. Our observations inform the principled construction of a new simple and elegant AL strategy that balances uncertainty estimated via dropout with sample diversity. We extensively test our strategy on many challenging image classification benchmarks, including natural images as well as out-of-domain biomedical images that are relatively understudied in the AL literature. We also provide a highly performant and efficient implementation of modern AL strategies (including our method) at https://github.com/sanketx/AL-foundation-models.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# 弁別整合性データセット間のMLによる異常検出の評価 : 症例的検討

Evaluating ML-Based Anomaly Detection Across Datasets of Varied Integrity: A Case Study ( http://arxiv.org/abs/2401.16843v2 )

ライセンス: Link先を確認
Adrian Pekar, Richard Jozsa, (参考訳) サイバーセキュリティはデジタル時代の重要な課題であり、ネットワークトラフィックの異常検出はサイバー脅威と戦う上で重要な手段である。 本研究では,異常検出のための機械学習(ML)モデルの開発に有効な,ネットワークトラフィックデータセットにおけるデータ整合性の問題に対処する。 NFStreamを用いたCICIDS-2017データセット, NFS-2023-nTE と NFS-2023-TE の2つの改良版を導入し, 組織学的に流れの消音とラベル付けを保証した。 我々の研究は、元のCICIDS-2017におけるランダムフォレスト(RF)アルゴリズム、改良されたWTMC-2021とCRiSIS-2022、およびNFStream生成データセットのパフォーマンスをバイナリとマルチクラスの両方の分類文脈で比較した。 RFモデルは、データセットの品質に関わらず、一貫した高性能なメトリクスを達成し、データの完全性がMLの有効性に与える影響について批判的な議論を巻き起こす。 本研究は,ネットワークセキュリティ研究におけるデータセット生成における継続的洗練と方法論的厳密さの重要性を浮き彫りにするものである。 ネットワーク脅威の展望が進化するにつれて、それらを検出し分析するために使用されるツールやテクニックも進化しなければなりません。

Cybersecurity remains a critical challenge in the digital age, with network traffic flow anomaly detection being a key pivotal instrument in the fight against cyber threats. In this study, we address the prevalent issue of data integrity in network traffic datasets, which are instrumental in developing machine learning (ML) models for anomaly detection. We introduce two refined versions of the CICIDS-2017 dataset, NFS-2023-nTE and NFS-2023-TE, processed using NFStream to ensure methodologically sound flow expiration and labeling. Our research contrasts the performance of the Random Forest (RF) algorithm across the original CICIDS-2017, its refined counterparts WTMC-2021 and CRiSIS-2022, and our NFStream-generated datasets, in both binary and multi-class classification contexts. We observe that the RF model exhibits exceptional robustness, achieving consistent high-performance metrics irrespective of the underlying dataset quality, which prompts a critical discussion on the actual impact of data integrity on ML efficacy. Our study underscores the importance of continual refinement and methodological rigor in dataset generation for network security research. As the landscape of network threats evolves, so must the tools and techniques used to detect and analyze them.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# モーメントコントラスト学習を用いた蒸留強化時系列予測ネットワーク

Distillation Enhanced Time Series Forecasting Network with Momentum Contrastive Learning ( http://arxiv.org/abs/2401.17802v2 )

ライセンス: Link先を確認
Haozhi Gao, Qianqian Ren, Jinbao Li, (参考訳) コントラスト表現学習は時系列解析において重要であり、データノイズや不完全性、および監視信号の空間性の問題を軽減する。 しかし,既存のコンストラッシブ学習フレームワークは通常,時系列データの複雑な性質を十分に活用できない時間内特徴に重点を置いている。 そこで本研究では,長周期時系列予測のための新しい蒸留拡張フレームワークであるDE-TSMCLを提案する。 具体的には、タイムスタンプをマスクして最適化サブシーケンスを得るかどうかを適応的に学習可能なデータ拡張機構を設計する。 そこで本稿では,時系列のサンプル間および時間内相関を探索し,ラベルのない時系列上の構造特徴を学習するために,モーメントを更新したコントラスト学習タスクを提案する。 一方、より堅牢な表現を学習し、対照的な学習プロセスを促進するために教師付きタスクを設計する。 最後に、上記の2つのタスクを共同で最適化する。 複数のタスクからモデル損失を発生させることで、下流予測タスクの効果的な表現を学習することができる。 最先端技術と比較した大規模な実験は、最大改善率が27.3%に達するDE-TSMCLの有効性をよく示している。

Contrastive representation learning is crucial in time series analysis as it alleviates the issue of data noise and incompleteness as well as sparsity of supervision signal. However, existing constrastive learning frameworks usually focus on intral-temporal features, which fails to fully exploit the intricate nature of time series data. To address this issue, we propose DE-TSMCL, an innovative distillation enhanced framework for long sequence time series forecasting. Specifically, we design a learnable data augmentation mechanism which adaptively learns whether to mask a timestamp to obtain optimized sub-sequences. Then, we propose a contrastive learning task with momentum update to explore inter-sample and intra-temporal correlations of time series to learn the underlying structure feature on the unlabeled time series. Meanwhile, we design a supervised task to learn more robust representations and facilitate the contrastive learning process. Finally, we jointly optimize the above two tasks. By developing model loss from multiple tasks, we can learn effective representations for downstream forecasting task. Extensive experiments, in comparison with state-of-the-arts, well demonstrate the effectiveness of DE-TSMCL, where the maximum improvement can reach to 27.3%.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# 拡張的・拡張的知識を取り入れたオントロジーの埋め込み

Embedding Ontologies via Incorporating Extensional and Intensional Knowledge ( http://arxiv.org/abs/2402.01677v3 )

ライセンス: Link先を確認
Keyu Wang, Guilin Qi, Jiaoyan Chen, Yi Huang, Tianxing Wu, (参考訳) オントロジーはドメイン内の豊富な知識を含み、拡張的知識と強迫的知識という2つのカテゴリに分けられる。 拡張的知識は、オントロジーの特定の概念に属する具体的事例に関する情報を提供するが、その一方で、内在的知識は概念間の固有の性質、特徴、意味的関連について詳述する。 しかし、既存のオントロジー埋め込みアプローチは、拡張的知識と集約的知識の両方を同時に考慮することができない。 本稿では,EIKE(Extensional and Intensional Knowledge Embedding)と呼ばれる新しいオントロジー埋め込み手法を提案する。 EIKEは、オントロジーにインスタンス、概念、それらの関係を埋め込むための統一的なフレームワークを提案し、拡張的知識をモデル化するための幾何学的手法と、構造的情報とテキスト情報の両方をキャプチャできる拡張的知識をモデル化するための事前訓練された言語モデルを適用している。 実験結果から、EIKEは3つのデータセットにおいて3つの分類とリンク予測の両方において最先端の手法を大幅に上回っており、EIKEがドメインのより包括的で代表的な視点を提供することを示している。

Ontologies contain rich knowledge within domain, which can be divided into two categories, namely extensional knowledge and intensional knowledge. Extensional knowledge provides information about the concrete instances that belong to specific concepts in the ontology, while intensional knowledge details inherent properties, characteristics, and semantic associations among concepts. However, existing ontology embedding approaches fail to take both extensional knowledge and intensional knowledge into fine consideration simultaneously. In this paper, we propose a novel ontology embedding approach named EIKE (Extensional and Intensional Knowledge Embedding) by representing ontologies in two spaces, called extensional space and intensional space. EIKE presents a unified framework for embedding instances, concepts and their relations in an ontology, applying a geometry-based method to model extensional knowledge and a pretrained language model to model intensional knowledge, which can capture both structure information and textual information. Experimental results show that EIKE significantly outperforms state-of-the-art methods in three datasets for both triple classification and link prediction, indicating that EIKE provides a more comprehensive and representative perspective of the domain.
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# ベイジアン最適化の先行きを加速する - マルチレベルモンテカルロ

Accelerating Look-ahead in Bayesian Optimization: Multilevel Monte Carlo is All you Need ( http://arxiv.org/abs/2402.02111v2 )

ライセンス: Link先を確認
Shangda Yang, Vitaly Zankin, Maximilian Balandat, Stefan Scherer, Kevin Carlberg, Neil Walton, Kody J. H. Law, (参考訳) 我々はマルチレベルモンテカルロ(MLMC)を利用して、ネストされた期待と最大化を含む多段階ベイズ最適化(BO)法の性能を向上させる。 これらの期待はモンテカルロ (MC) によって計算されなければならない。 ネスト操作では単純MCの複雑さが低下するのに対し、MLMCは次元によらず、滑らかさの仮定なしに、この種の問題に対して標準MC収束率を達成することができる。 理論的には,2段階および3段階のルックアヘッド獲得関数の近似改善に焦点が当てられているが,本手法はBOの文脈を超えて,様々な方法で一般化可能である。 本研究の成果は数値的に検証され,いくつかのベンチマーク例でMLMC for BOの利点が示されている。 コードはhttps://github.com/Shangda-Yang/MLMCBOで入手できる。

We leverage multilevel Monte Carlo (MLMC) to improve the performance of multi-step look-ahead Bayesian optimization (BO) methods that involve nested expectations and maximizations. Often these expectations must be computed by Monte Carlo (MC). The complexity rate of naive MC degrades for nested operations, whereas MLMC is capable of achieving the canonical MC convergence rate for this type of problem, independently of dimension and without any smoothness assumptions. Our theoretical study focuses on the approximation improvements for twoand three-step look-ahead acquisition functions, but, as we discuss, the approach is generalizable in various ways, including beyond the context of BO. Our findings are verified numerically and the benefits of MLMC for BO are illustrated on several benchmark examples. Code is available at https://github.com/Shangda-Yang/MLMCBO .
翻訳日:2024-06-26 20:40:18 公開日:2024-06-25
# ロバスト形状マッチングのための深部周波数対応機能マップ

Deep Frequency-Aware Functional Maps for Robust Shape Matching ( http://arxiv.org/abs/2402.03904v2 )

ライセンス: Link先を確認
Feifan Luo, Qinsong Li, Ling Hu, Haibo Wang, Xinru Liu, Shengjun Liu, Hongyang Chen, (参考訳) 深層関数マップフレームワークは3次元形状マッチングに広く利用されている。 しかし、既存のディープ関数マップ法では、特定のマッチングシナリオにおいて、関数マップ推定のための重要な周波数情報を適応的に取得することはできない。 そこで本研究では,様々な形状マッチングシナリオを優雅に扱えるDeep Frequency-Aware Functional Mapsという,教師なし学習ベースのフレームワークを提案する。 まず、スペクトルフィルタ演算子が情報周波数情報を符号化し、フィルタ関数の集合を学習することで、深い関数写像のフレームワークに対する周波数認識を促進することのできる、望ましい関数写像を計算するためのスペクトルフィルタ演算子保存という一般的な制約を導入する。 そして,提案した制約を損失関数として直接利用し,関数写像,ポイントワイドマップ,フィルタ関数を同時に監視し,フィルタ関数は正規正規ヤコビ基底から導出され,基底の係数は学習可能なパラメータとなる。 最後に,制約と学習されたフィルタ関数を組み込んだ最終点マップの改善のための効率的な改良戦略を開発し,推論過程においてより堅牢で正確な対応を実現する。 特に,非等尺的変形を伴うデータセットや不整合トポロジといった課題において,提案手法が既存の最先端手法よりも優れていることを示す。

Deep functional map frameworks are widely employed for 3D shape matching. However, most existing deep functional map methods cannot adaptively capture important frequency information for functional map estimation in specific matching scenarios, i.e., lacking \textit{frequency awareness}, resulting in poor performance when dealing with large deformable shape matching. To this end, we propose a novel unsupervised learning-based framework called Deep Frequency-Aware Functional Maps, which can gracefully cope with various shape matching scenarios. We first introduce a general constraint called Spectral Filter Operator Preservation to compute desirable functional maps, where the spectral filter operator encodes informative frequency information and can promote frequency awareness for deep functional map frameworks by learning a set of filter functions. Then, we directly utilize the proposed constraint as a loss function to supervise functional maps, pointwise maps, and filter functions simultaneously, where the filter functions are derived from the orthonormal Jacobi basis, and the coefficients of the basis are learnable parameters. Finally, we develop an effective refinement strategy to improve the final pointwise map, which incorporates our constraint and learned filter functions, leading to more robust and accurate correspondences during the inference process. Extensive experimental results on various datasets demonstrate that our approach outperforms the existing state-of-the-art methods, especially in challenging settings like datasets with non-isometric deformation and inconsistent topology.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# ミュラーの定理の2つの簡単な証明

Two Simple Proofs of Müller's Theorem ( http://arxiv.org/abs/2402.05328v3 )

ライセンス: Link先を確認
Samuel Epstein, (参考訳) M\"{u}ller の定理により、弦のコルモゴロフ複雑性はその量子コルモゴロフ複雑性と等しいことが示されている。 したがって、古典的な情報を圧縮するために量子力学を使用する利点はない。 古典的な情報源の量的な情報は、使用する物理モデルに不変である。 これらの結果から、この定理はアルゴリズム情報理論と物理学の交わりにおいておそらく最も重要な結果となる。 元々の証明は非常に広範である。 本論文は、この定理の2つの簡単な証明を含む。 この論文は、誤りを伴う量子コルモゴロフ複雑性の新しい境界も含んでいる。

Due to M\"{u}ller's theorem, the Kolmogorov complexity of a string was shown to be equal to its quantum Kolmogorov complexity. Thus there are no benefits to using quantum mechanics to compress classical information. The quantitative amount of information in classical sources is invariant to the physical model used. These consequences make this theorem arguably the most important result in the intersection of algorithmic information theory and physics. The original proof is quite extensive. This paper contains two simple proofs of this theorem. This paper also contains new bounds for quantum Kolmogorov complexity with error.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# 安全なマルチモーダル学習システムに関する調査研究

A Survey on Safe Multi-Modal Learning System ( http://arxiv.org/abs/2402.05355v4 )

ライセンス: Link先を確認
Tianyi Zhao, Liangliang Zhang, Yao Ma, Lu Cheng, (参考訳) 人工知能の急速な発展の中で、マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力によって、注目を集めている。 医療などの重要な分野での利用が拡大し、安全保証が重要な関心事となっている。 しかし、その安全性に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 このギャップを埋めるために,MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。 この分類は、MMLSの安全性を保証するために重要な4つの基本的な柱、すなわち堅牢性、アライメント、監視、制御性に基づいて構成されている。 この分類を活用して、既存の方法論、ベンチマーク、研究の現状をレビューするとともに、知識の主な限界とギャップを指摘します。 最後に,MMLSの安全性に関するユニークな課題について論じる。 これらの課題を明らかにするために,我々は今後の研究の道を開くことを目指しており,MMLSの安全性プロトコルの大幅な進歩につながる可能性のある潜在的方向性を提案する。

In the rapidly evolving landscape of artificial intelligence, multimodal learning systems (MMLS) have gained traction for their ability to process and integrate information from diverse modality inputs. Their expanding use in vital sectors such as healthcare has made safety assurance a critical concern. However, the absence of systematic research into their safety is a significant barrier to progress in this field. To bridge the gap, we present the first taxonomy that systematically categorizes and assesses MMLS safety. This taxonomy is structured around four fundamental pillars that are critical to ensuring the safety of MMLS: robustness, alignment, monitoring, and controllability. Leveraging this taxonomy, we review existing methodologies, benchmarks, and the current state of research, while also pinpointing the principal limitations and gaps in knowledge. Finally, we discuss unique challenges in MMLS safety. In illuminating these challenges, we aim to pave the way for future research, proposing potential directions that could lead to significant advancements in the safety protocols of MMLS.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# 自由フェルミオンモニタリングシステムにおける異なる解離の影響

The impact of different unravelings in a monitored system of free fermions ( http://arxiv.org/abs/2402.06597v2 )

ライセンス: Link先を確認
Giulia Piccitto, Davide Rossini, Angelo Russomanno, (参考訳) 量子状態拡散(quantum-state-diffusion)と量子ジャンプ(quantum-jump)という2つの異なるランダム測定プロトコル(unravelings)によって記述された、デファス化中の自由フェルミオン連鎖を考える。 どちらのプロトコルも状態は Slater-determinant 形式で保持され、非常に大きなシステムサイズに対応できる。 我々は、量子軌道に沿った測定作用素の分布に分岐点を見出した。つまり、この分布の形状が不定形からバイモーダルに変化する点がある。 この現象が起こる測定強度の値は2つの未発見物と似ているが、分布と遷移は2つの測定プロトコルの対称性を反映する性質が異なる。 また, Slater-Determinant 成分の逆参加比のシステムサイズによるスケーリングについても検討し, マルチフラクタルな挙動を示すパワーロースケーリングを, 非破壊的および非破壊的測定強度の両面において検討した。

We consider a free-fermion chain undergoing dephasing, described by two different random-measurement protocols (unravelings): a quantum-state-diffusion and a quantum-jump one. Both protocols keep the state in a Slater-determinant form, allowing to address quite large system sizes. We find a bifurcation in the distribution of the measurement operators along the quantum trajectories, that's to say, there is a point where the shape of this distribution changes from unimodal to bimodal. The value of the measurement strength where this phenomenon occurs is similar for the two unravelings, but the distributions and the transition have different properties reflecting the symmetries of the two measurement protocols. We also consider the scaling with the system size of the inverse participation ratio of the Slater-determinant components and find a power-law scaling that marks a multifractal behaviour, in both unravelings and for any nonvanishing measurement strength.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# 量子行列幾何学による完全球面ブロッホ超球面

Perfectly Spherical Bloch Hyper-spheres from Quantum Matrix Geometry ( http://arxiv.org/abs/2402.07149v2 )

ライセンス: Link先を確認
Kazuki Hasebe, (参考訳) 先行する量子スピン系と電荷単極系の間の類似を爆発させ、任意の次元で$\it{exact}$球面対称性を持つブロッホ超球面を構築する。 このようなブロッホ超球面は、先行する量子スピンの軌道の集まりとして実現される。 ブロッホ超球面の幾何学は、高次元ファジィ球面の量子ナムブ幾何学と完全に等しい。 ブロッホ超球面の安定化群対称性は必然的に縮退スピンコヒーレント状態を導入し、超球面ホロノミーに付随する非アベリアモノポールのウィルツェク・ゼー幾何学相を生じさせる。 縮退したスピンコヒーレント状態は、行列値の量子幾何テンソルを誘導する。 極小スピンブロッホ超球面は偶数次元と奇数次元で同様の性質を示すが、その大きなスピンは次元のパリティによって質的に異なる。 スピンコヒーレント状態と高次元におけるモノポール調和との特別な対応が確立される。 また、ブロッホ超球によって記述された密度行列について検討し、フォン・ノイマンエントロピーやビュース量子計量のような対応する統計的および幾何学的性質を解明する。

Exploiting analogies between the precessing quantum spin system and the charge-monopole system, we construct Bloch hyper-spheres with $\it{exact}$ spherical symmetries in arbitrary dimensions. Such Bloch hyper-spheres are realized as a collection of the orbits of a precessing quantum spin. The geometry of Bloch hyper-spheres is exactly equal to the quantum Nambu geometry of higher dimensional fuzzy spheres. The stabilizer group symmetry of the Bloch hyper-sphere necessarily introduces degenerate spin-coherent states, giving rise to the Wilczek-Zee geometric phase of non-Abelian monopoles associated with the hyper-sphere holonomy. The degenerate spin-coherent states induce matrix-valued quantum geometric tensors. While the minimal spin Bloch hyper-spheres exhibit similar properties in even and odd dimensions, their large spin counterparts differ qualitatively depending on the parity of the dimensions. Exact correspondences between spin-coherent states and monopole harmonics in higher dimensions are established. We also investigate density matrices described by Bloch hyper-balls and elucidate their corresponding statistical and geometric properties, such as von Neumann entropies and Bures quantum metrics.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# 誰が最初にプレイするか? 多くのロボットによるStackelbergゲームにおけるプレイ順序の最適化

Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots ( http://arxiv.org/abs/2402.09246v4 )

ライセンス: Link先を確認
Haimin Hu, Gabriele Dragotto, Zixu Zhang, Kaiqu Liang, Bartolomeo Stellato, Jaime F. Fisac, (参考訳) 我々は, N-player Stackelberg 軌道ゲームにおいて, エージェントが決定にコミットする順序や, 関連する平衡といった, 社会的に最適なプレイ順序を演算する多エージェント空間ナビゲーション問題を考える。 我々は、この問題を、プレイの順列に付随する全ての可能なStackelbergゲーム空間上の混合整数最適化問題としてモデル化する。 この問題を解決するために、社会的に最適な遊び順序とスタックルバーグ均衡に確実に収束する効率的かつ正確なアルゴリズムであるブランチ・アンド・プレイ(B&P)を導入する。 B&Pのサブルーチンとして、我々はシーケンシャルな軌道計画、すなわち一般的なマルチエージェント制御アプローチを採用し、任意のプレイの順序に対して有効な局所スタックルバーグ平衡を計算する。 本稿では,B&Pによる航空交通管制,群れ形成,輸送車両の配車における実用性を実証する。 我々は、B&Pが様々なベースラインを一貫して上回り、社会的に最適な均衡を計算することを発見した。

We consider the multi-agent spatial navigation problem of computing the socially optimal order of play, i.e., the sequence in which the agents commit to their decisions, and its associated equilibrium in an N-player Stackelberg trajectory game. We model this problem as a mixed-integer optimization problem over the space of all possible Stackelberg games associated with the order of play's permutations. To solve the problem, we introduce Branch and Play (B&P), an efficient and exact algorithm that provably converges to a socially optimal order of play and its Stackelberg equilibrium. As a subroutine for B&P, we employ and extend sequential trajectory planning, i.e., a popular multi-agent control approach, to scalably compute valid local Stackelberg equilibria for any given order of play. We demonstrate the practical utility of B&P to coordinate air traffic control, swarm formation, and delivery vehicle fleets. We find that B&P consistently outperforms various baselines, and computes the socially optimal equilibrium.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# 表現外科:アフィンステアリングの理論と実践

Representation Surgery: Theory and Practice of Affine Steering ( http://arxiv.org/abs/2402.09631v5 )

ライセンス: Link先を確認
Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru, (参考訳) 言語モデルは、しばしば好ましくない振る舞いを示し、例えば、有毒または性別に偏ったテキストを生成する。 ニューラルネットワークモデルの場合、望ましくない振る舞いの符号化がモデルの表現にしばしば存在する。 したがって、モデルが望ましくない振る舞いを示すのを防ぐ自然な(そして一般的な)アプローチは、望ましくないテキストを生成する確率を減らす方法でモデルの表現を操ることである。 本稿では、ステアリング関数の形式的および経験的特性、すなわち、その振る舞いを変えるニューラルネットワークモデルの表現の変換について検討する。 まず、最小二乗の意味で、異なる制約の下でのアフィンステアリング関数を最適に2つ導き出す。 我々の理論は既存のアプローチを正当化し、新しく改良されたステアリングアプローチを提供する。 第2に、偏りを緩和し、毒性の発生を減らす方法の実証的な効果を実証する一連の実験を提供する。

Language models often exhibit undesirable behavior, e.g., generating toxic or gender-biased text. In the case of neural language models, an encoding of the undesirable behavior is often present in the model's representations. Thus, one natural (and common) approach to prevent the model from exhibiting undesirable behavior is to steer the model's representations in a manner that reduces the probability of it generating undesirable text. This paper investigates the formal and empirical properties of steering functions, i.e., transformation of the neural language model's representations that alter its behavior. First, we derive two optimal, in the least-squares sense, affine steering functions under different constraints. Our theory provides justification for existing approaches and offers a novel, improved steering approach. Second, we offer a series of experiments that demonstrate the empirical effectiveness of the methods in mitigating bias and reducing toxic generation.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# DE-COP:言語モデルのトレーニングデータにおける著作権付きコンテンツの検出

DE-COP: Detecting Copyrighted Content in Language Models Training Data ( http://arxiv.org/abs/2402.09910v2 )

ライセンス: Link先を確認
André V. Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li, (参考訳) トレーニングデータが一般に公開されていないことを考慮して、言語モデルのトレーニングプロセスで著作権付きコンテンツが使用されているかどうかをどうやって検出できるのか? 私たちは、言語モデルがそのトレーニングテキストから動詞の抜粋を識別する可能性が高いという前提で動機付けられています。 著作権のあるコンテンツの一部がトレーニングに含まれているかどうかを判定する手法であるDE-COPを提案する。 DE-COPの中核的なアプローチは、動詞のテキストとパラフレーズの両方を含む複数選択の質問でLLMを探索することである。 BookTectionは、165冊の書籍から抜粋を抽出したベンチマークを構築し、モデルのトレーニングカットオフとパラフレーズを作成します。 実験の結果,DEC-COPはロジットが利用可能なモデルにおいて,検出性能(AUC)が9.6%向上することがわかった。 さらに、DE-COPは、前の方法が約4%の精度を示す完全ブラックボックスモデルで疑似書籍を検出する平均精度を72%達成している。 コードとデータセットはhttps://github.com/LeiLiLab/DE-COPで公開されている。

How can we detect if copyrighted content was used in the training process of a language model, considering that the training data is typically undisclosed? We are motivated by the premise that a language model is likely to identify verbatim excerpts from its training text. We propose DE-COP, a method to determine whether a piece of copyrighted content was included in training. DE-COP's core approach is to probe an LLM with multiple-choice questions, whose options include both verbatim text and their paraphrases. We construct BookTection, a benchmark with excerpts from 165 books published prior and subsequent to a model's training cutoff, along with their paraphrases. Our experiments show that DE-COP surpasses the prior best method by 9.6% in detection performance (AUC) on models with logits available. Moreover, DE-COP also achieves an average accuracy of 72% for detecting suspect books on fully black-box models where prior methods give approximately 4% accuracy. The code and datasets are available at https://github.com/LeiLiLab/DE-COP.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# ハイブリッド量子古典ニューラルネットワークの比較解析

A Comparative Analysis of Hybrid-Quantum Classical Neural Networks ( http://arxiv.org/abs/2402.10540v2 )

ライセンス: Link先を確認
Kamila Zaman, Tasnim Ahmed, Muhammad Abdullah Hanif, Alberto Marchisio, Muhammad Shafique, (参考訳) ハイブリッド量子古典機械学習(Hybrid Quantum-Classical Machine Learning, ML)は、現在のノイズの多い中間量子デバイス上の古典的ニューラルネットワークと量子変動回路の長所を融合した、新興分野である。 本稿では,量子畳み込みニューラルネットワーク(Quantum Convolution Neural Network)とQuantum ResNet(Quantum ResNet)という,異なるハイブリッド量子古典機械学習アルゴリズムの比較分析を行った。 本稿では,異なる量子アーキテクチャ間の精度変化をよりよく理解するために,異なる量子ML (Quantum ML) アルゴリズムに焦点をあてる実験を行った。 このような変動により、与えられたハイブリッドQMLアルゴリズムの異なるアーキテクチャ置換間の精度を比較することができる。 この精度に基づくハイブリッドモデルの性能比較により、回路の量子層数と量子ビット数の変化との相関関係におけるハイブリッド量子古典収束の理解が得られる。

Hybrid Quantum-Classical Machine Learning (ML) is an emerging field, amalgamating the strengths of both classical neural networks and quantum variational circuits on the current noisy intermediate-scale quantum devices. This paper performs an extensive comparative analysis between different hybrid quantum-classical machine learning algorithms, namely Quantum Convolution Neural Network, Quanvolutional Neural Network and Quantum ResNet, for image classification. The experiments designed in this paper focus on different Quantum ML (QML) algorithms to better understand the accuracy variation across the different quantum architectures by implementing interchangeable quantum circuit layers, varying the repetition of such layers and their efficient placement. Such variations enable us to compare the accuracy across different architectural permutations of a given hybrid QML algorithm. The performance comparison of the hybrid models, based on the accuracy, provides us with an understanding of hybrid quantum-classical convergence in correlation with the quantum layer count and the qubit count variations in the circuit.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# ハイブリッド量子古典型ニューラルネットワークにおける量子特異ハイパーパラメータの影響に関する研究

Studying the Impact of Quantum-Specific Hyperparameters on Hybrid Quantum-Classical Neural Networks ( http://arxiv.org/abs/2402.10605v2 )

ライセンス: Link先を確認
Kamila Zaman, Tasnim Ahmed, Muhammad Kashif, Muhammad Abdullah Hanif, Alberto Marchisio, Muhammad Shafique, (参考訳) 現在のノイズの多い中間量子デバイスでは、ハイブリッド量子古典ニューラルネットワーク(HQNN)は、古典的な機械学習の強みと量子コンピューティング能力を組み合わせた、有望なソリューションである。 古典的なディープニューラルネットワーク(DNN)と比較して、HQNNは量子回路に特有のハイパーパラメータのセットを新たに提示する。 量子回路深度、量子ビット数、絡み合いの種類、ショット数、観測可能な測定値などのこれらの量子固有ハイパーパラメータは、HQNNの動作と与えられたタスクを学習する能力に大きな影響を与える。 本稿では,PennyLaneフレームワーク上に実装された画像分類タスクのHQNNモデルに対して,これらのバリエーションが与える影響について検討する。 我々は,HQNNモデルの直感的および直感的学習パターンを制御された量子摂動の粒度レベル内に発見し,精度とトレーニング時間との相関関係の健全な基盤を構築することを目的としている。 本研究の結果は、効率的なHQNNアルゴリズムを設計するための新たな道程を開拓し、HQNNモデルのチューニング可能なハイパーパラメータの理解と同定のための基盤を構築し、有用な設計実装と利用に繋がる。

In current noisy intermediate-scale quantum devices, hybrid quantum-classical neural networks (HQNNs) represent a promising solution that combines the strengths of classical machine learning with quantum computing capabilities. Compared to classical deep neural networks (DNNs), HQNNs present an additional set of hyperparameters, which are specific to quantum circuits. These quantum-specific hyperparameters, such as quantum circuit depth, number of qubits, type of entanglement, number of shots, and measurement observables, can significantly impact the behavior of the HQNNs and their capabilities to learn the given task. In this paper, we investigate the impact of these variations on different HQNN models for image classification tasks, implemented on the PennyLane framework. We aim to uncover intuitive and counter-intuitive learning patterns of HQNN models within granular levels of controlled quantum perturbations, to form a sound basis for their correlation to accuracy and training time. The outcome of our study opens new avenues for designing efficient HQNN algorithms and builds a foundational base for comprehending and identifying tunable hyperparameters of HQNN models that can lead to useful design implementation and usage.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# 安全なテキスト・画像生成のためのユニバーサルプロンプト最適化

Universal Prompt Optimizer for Safe Text-to-Image Generation ( http://arxiv.org/abs/2402.10882v3 )

ライセンス: Link先を確認
Zongyu Wu, Hongcheng Gao, Yueze Wang, Xiang Zhang, Suhang Wang, (参考訳) テキスト・ツー・イメージ(T2I)モデルは,テキスト・プロンプトに基づく画像生成において優れた性能を示した。 しかし、これらのモデルは、性的、ハラスメント、違法な活動的画像などの安全でないコンテンツを生成するために、安全でない入力に対して脆弱である。 画像チェッカー、モデルファインチューニング、埋め込みブロッキングに基づく既存の研究は、現実のアプリケーションでは実用的ではない。 そこで我々は,ブラックボックスシナリオにおける安全なT2I(POSI)生成のための最初のユニバーサルプロンプトオプティマイザを提案する。 まず, GPT-3.5 Turbo による毒性クリーンプロンプトペアからなるデータセットを構築した。 情報保存中に有害なプロンプトをクリーンなプロンプトに変換する能力を持つよう、我々は、生成した画像の毒性とテキストアライメントを測定する新しい報酬関数を設計し、プロキシポリシー最適化を通じてオプティマイザを訓練する。 実験により,テキストアライメントに大きな影響を及ぼすことなく,不適切な画像を生成する場合の様々なT2Iモデルの有効性を効果的に低減できることが示された。 また、より良いパフォーマンスを達成するためにメソッドと組み合わせることも柔軟です。 私たちのコードはhttps://github.com/wzongyu/POSI.comで利用可能です。

Text-to-Image (T2I) models have shown great performance in generating images based on textual prompts. However, these models are vulnerable to unsafe input to generate unsafe content like sexual, harassment and illegal-activity images. Existing studies based on image checker, model fine-tuning and embedding blocking are impractical in real-world applications. Hence, we propose the first universal prompt optimizer for safe T2I (POSI) generation in black-box scenario. We first construct a dataset consisting of toxic-clean prompt pairs by GPT-3.5 Turbo. To guide the optimizer to have the ability of converting toxic prompt to clean prompt while preserving semantic information, we design a novel reward function measuring toxicity and text alignment of generated images and train the optimizer through Proximal Policy Optimization. Experiments show that our approach can effectively reduce the likelihood of various T2I models in generating inappropriate images, with no significant impact on text alignment. It is also flexible to be combined with methods to achieve better performance. Our code is available at https://github.com/wzongyu/POSI.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# GLoRe: グローバル・ローカル・リファインメントによるLCMリファインティングの改善方法

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements ( http://arxiv.org/abs/2402.10963v2 )

ライセンス: Link先を確認
Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Raileanu, (参考訳) 最先端の言語モデルは、数学、科学、コーディングタスクにおいて、驚くべき推論の洗練能力を示すことができる。 しかし、最近の研究は、最高のモデルでさえ、外部からのフィードバックにアクセスせずに、 \textit{when and to refine}を識別するのに苦労していることを示している。 Outcome-based Reward Models (\textbf{ORMs}) は、いつ精錬するかを示す最終回答の正しさを予測するために訓練された。 Process Based Reward Models (\textbf{PRMs}) は、中間ステップの正しさを予測するために訓練され、どこを洗練すべきかを示すために使われる。 しかし、訓練には費用がかかるため、広範囲の人的アノテーションが必要になる。 本稿では、最適ポリシーの今後の報奨や$V^{\star}$を近似するために、合成データのみに基づいてトレーニングされたStepwise ORM(\textbf{SORMs})を提案する。 より具体的には、SORMは現在のポリシーを何度もサンプリングする際(ORMの場合のように一度ではなく)、最終回答の正しさを予測するために訓練されます。 実験の結果、SORMはORMと比較して誤った推論ステップを正確に検出でき、改良を行う際の下流の精度が向上することがわかった。 次に、質問と草案解のみを入力とし、修正された解を予測する「textit{global}リファインメントモデル」と、第1の推論誤差の位置を示す入力となる「textit{local}リファインメントモデル」を訓練する。 我々は、SORMのトレーニングに使用されるデータを再利用することで、両方のモデルのトレーニングデータを合成的に生成する。 ORMをリランカとして使用することで、グローバルとローカルのリファインメントを組み合わせることで、個別に1つ、あるいは3つのサンプルベースラインで最高のパフォーマンスを実現しています。 この戦略により、GSM8K上のLLaMA-2 13Bモデル(既にRLで微調整されている)のグリーズサンプリング時の精度を 53\% から 65\% に改善できる。

State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify \textit{when and where to refine} without access to external feedback. Outcome-based Reward Models (\textbf{ORMs}), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (\textbf{PRMs}), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (\textbf{SORMs}) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or $V^{\star}$. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train \textit{global} refinement models, which take only the question and a draft solution as input and predict a corrected solution, and \textit{local} refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# オンライン自己判断による大規模言語モデルの調整

Aligning Large Language Models by On-Policy Self-Judgment ( http://arxiv.org/abs/2402.11253v3 )

ライセンス: Link先を確認
Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min Yoo, Youngjae Yu, (参考訳) 大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。 本稿では,(1)政治学習を行う新しいアライメントフレームワークSELF-JUDGEを提案する。 2) パラメータ効率は, オンライン学習のサンプルを評価するための追加のRMを必要としないため, パラメータ効率がよい。 そこで本研究では,単一モデルを政策と裁判官の両方として機能させるために,審査強化細管(JSFT)を提案する。 具体的には、命令追従タスクの特別な事例として、応答対からより良い応答を選択することで、ペアの判断タスクを考察する。 結果として得られるモデルは、オンザフライ応答の好みを、それ自体から初期化された現在のポリシーから判断することができる。 評価実験の結果,SELF-JUDGEは選好ベンチマークのベースラインよりも優れていた。 また,リジェクションサンプリング自体が,追加評価器を使わずにさらに性能を向上させることができることを示した。

Existing approaches for aligning large language models with human preferences face a trade-off that requires a separate reward model (RM) for on-policy learning. In this paper, we present a novel alignment framework, SELF-JUDGE that (1) does on-policy learning and 2) is parameter efficient, as it does not require an additional RM for evaluating the samples for on-policy learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT) to train a single model to act as both a policy and a judge. Specifically, we view the pairwise judgment task, choosing the better response from a response pair, as a special case of the instruction-following task. The resulting model can judge preferences of on-the-fly responses from current policy initialized from itself. Experimental results show the efficacy of SELF-JUDGE, outperforming baselines in preference benchmarks. We also show that the rejecting sampling by itself can improve performance further without an additional evaluator.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# DriveVLM: 自律走行と大規模ビジョンランゲージモデルの収束性

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models ( http://arxiv.org/abs/2402.12289v5 )

ライセンス: Link先を確認
Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Yang Wang, Zhiyong Zhao, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao, (参考訳) 都市環境における自律運転の主なハードルは、困難な道路条件や繊細な人間の行動など、複雑で長い尾のシナリオを理解することである。 本稿では,視覚言語モデル(VLM)を活用した自律走行システムであるDriveVLMを紹介した。 DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。 さらに,空間的推論におけるVLMの限界を認識し,従来の自律走行パイプラインとDriveVLMの強みを相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。 nuScenesデータセットとSUP-ADデータセットの両方の実験は、複雑で予測不能な運転条件に対するDriveVLMとDriveVLM-Dualの有効性を示した。 最後に、実車にDriveVLM-Dualを配備し、実際の自動運転環境で有効であることを検証した。

A primary hurdle of autonomous driving in urban environments is understanding complex and long-tail scenarios, such as challenging road conditions and delicate human behaviors. We introduce DriveVLM, an autonomous driving system leveraging Vision-Language Models (VLMs) for enhanced scene understanding and planning capabilities. DriveVLM integrates a unique combination of reasoning modules for scene description, scene analysis, and hierarchical planning. Furthermore, recognizing the limitations of VLMs in spatial reasoning and heavy computational requirements, we propose DriveVLM-Dual, a hybrid system that synergizes the strengths of DriveVLM with the traditional autonomous driving pipeline. Experiments on both the nuScenes dataset and our SUP-AD dataset demonstrate the efficacy of DriveVLM and DriveVLM-Dual in handling complex and unpredictable driving conditions. Finally, we deploy the DriveVLM-Dual on a production vehicle, verifying it is effective in real-world autonomous driving environments.
翻訳日:2024-06-26 20:28:47 公開日:2024-06-25
# 多クラス時間論理ニューラルネットワーク

Multi-class Temporal Logic Neural Networks ( http://arxiv.org/abs/2402.12397v2 )

ライセンス: Link先を確認
Danyang Li, Roberto Tron, (参考訳) 時系列データは、ドローンや自動運転車のような自律システムの振る舞いを表すことができる。 時系列データに対する二項・多クラス分類の課題は、研究の目立った領域となっている。 ニューラルネットワークは、データを分類する一般的なアプローチである。しかし、解釈可能性に欠けており、それらから意味のある情報を抽出する上で大きな課題となっている。 信号時相論理 (Signal Temporal Logic, STL) は、時間的挙動の特性を記述する形式主義である。 時系列データのマルチクラス分類のためのSTL仕様を表すニューラルネットワークを提案する。 主なコントリビューションは2つあります。 1)マルチクラス分類におけるマージンの概念を導入する。 2)結果の解釈可能性を高めるために,STLに基づく属性を導入する。 提案手法を2つのデータセット上で評価し,最先端のベースラインと比較する。

Time-series data can represent the behaviors of autonomous systems, such as drones and self-driving cars. The task of binary and multi-class classification for time-series data has become a prominent area of research. Neural networks represent a popular approach to classifying data; However, they lack interpretability, which poses a significant challenge in extracting meaningful information from them. Signal Temporal Logic (STL) is a formalism that describes the properties of timed behaviors. We propose a method that combines all of the above: neural networks that represent STL specifications for multi-class classification of time-series data. We offer two key contributions: 1) We introduce a notion of margin for multi-class classification, and 2) we introduce STL-based attributes for enhancing the interpretability of the results. We evaluate our method on two datasets and compare it with state-of-the-art baselines.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# 価値に基づく深層強化学習において、刈り取られたネットワークは良いネットワークである

In value-based deep reinforcement learning, a pruned network is a good network ( http://arxiv.org/abs/2402.12479v3 )

ライセンス: Link先を確認
Johan Obando-Ceron, Aaron Courville, Pablo Samuel Castro, (参考訳) 近年の研究では、深層強化学習エージェントがネットワークパラメータを効果的に活用することが困難であることが示されている。 我々は、スパーストレーニング技術の利点に関する事前の知見を活用し、段階的な等級決定により、価値に基づくエージェントがパラメータの有効性を最大化できることを実証する。 これにより、ネットワークパラメータのごく一部しか使用せず、従来のネットワークよりも劇的なパフォーマンス向上が達成される。

Recent work has shown that deep reinforcement learning agents have difficulty in effectively using their network parameters. We leverage prior insights into the advantages of sparse training techniques and demonstrate that gradual magnitude pruning enables value-based agents to maximize parameter effectiveness. This results in networks that yield dramatic performance improvements over traditional networks, using only a small fraction of the full network parameters.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# ポストホック整流器としての大規模言語モデルの調和

Harnessing Large Language Models as Post-hoc Correctors ( http://arxiv.org/abs/2402.13414v2 )

ライセンス: Link先を確認
Zhiqiang Zhong, Kuangyu Zhou, Davide Mottin, (参考訳) 機械学習(ML)モデルのサイズが拡大し、高品質なトレーニングデータを必要としているため、これらのモデルの再トレーニングと微調整に関連するコストは急速に増大しています。 LLMはMLのパフォーマンスを最小限のコストで効率的に改善できるのか? 提案するトレーニングフリーフレームワークLlmCorrにより,LLMはポストホックな修正器として機能し,任意のMLモデルの予測に対する修正を提案する。 特に、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。 LLMの文脈内学習能力を活用することで、MLモデルが誤りを犯した事例と、一次予測と真のラベルとの相関関係をLLMに要約するよう依頼する。 その後、LLMは取得した知識を変換し、MLモデルの予測の修正を提案する。 テキスト解析と分子予測に関する実験結果から,モデルの性能を最大39%向上することが示された。

As Machine Learning (ML) models grow in size and demand higher-quality training data, the expenses associated with re-training and fine-tuning these models are escalating rapidly. Inspired by recent impressive achievements of Large Language Models (LLMs) in different fields, this paper delves into the question: can LLMs efficiently improve an ML's performance at a minimal cost? We show that, through our proposed training-free framework LlmCorr, an LLM can work as a post-hoc corrector to propose corrections for the predictions of an arbitrary ML model. In particular, we form a contextual knowledge database by incorporating the dataset's label information and the ML model's predictions on the validation dataset. Leveraging the in-context learning capability of LLMs, we ask the LLM to summarise the instances in which the ML model makes mistakes and the correlation between primary predictions and true labels. Following this, the LLM can transfer its acquired knowledge to suggest corrections for the ML model's predictions. Our experimental results on text analysis and the challenging molecular predictions show that \model improves the performance of a number of models by up to 39%.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# 進化的エンコーディングによるホモログタンパク質の突然変異効果の効率的予測

Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding ( http://arxiv.org/abs/2402.13418v2 )

ライセンス: Link先を確認
Zhiqiang Zhong, Davide Mottin, (参考訳) タンパク質の性質を予測することは、生物学的および医学的な進歩にとって最重要である。 現在のタンパク質工学は、野生型と呼ばれる典型的なタンパク質を変異させ、ホモロジータンパク質のファミリーを構築し、それらの性質を研究する。 しかし、既存の方法は微妙な突然変異を軽視しやすく、タンパク質の性質への影響を捉えられなかった。 この目的のために,進化を意識したタンパク質の埋め込みを学習する効率的なモデルであるEvolMPNN, Evolution-aware Message Passing Neural Networkを提案する。 EvolMPNNはアンカータンパク質の集合をサンプリングし、残基を用いて進化情報を計算し、これらのアンカーに対して異なる進化を意識したアグリゲーションスキームを用いる。 このようにして、EvolMPNNは、アンカータンパク質に関するタンパク質の突然変異効果を捉えるために、新しいメッセージパッシング法を効率的に利用することができる。 その後、集約された進化を意識した埋め込みを配列埋め込みと統合し、最終包括的タンパク質埋め込みを生成する。 我々のモデルは最先端の手法よりも最大6.4%向上し、大きな事前学習モデルと比較して36倍の推論速度が得られる。 コードとモデルはhttps://github.com/zhiqiangzhongddu/EvolMPNN.comで公開されている。

Predicting protein properties is paramount for biological and medical advancements. Current protein engineering mutates on a typical protein, called the wild-type, to construct a family of homologous proteins and study their properties. Yet, existing methods easily neglect subtle mutations, failing to capture the effect on the protein properties. To this end, we propose EvolMPNN, Evolution-aware Message Passing Neural Network, an efficient model to learn evolution-aware protein embeddings. EvolMPNN samples sets of anchor proteins, computes evolutionary information by means of residues and employs a differentiable evolution-aware aggregation scheme over these sampled anchors. This way, EvolMPNN can efficiently utilise a novel message-passing method to capture the mutation effect on proteins with respect to the anchor proteins. Afterwards, the aggregated evolution-aware embeddings are integrated with sequence embeddings to generate final comprehensive protein embeddings. Our model shows up to 6.4% better than state-of-the-art methods and attains 36X inference speedup in comparison with large pre-trained models. Code and models are available at https://github.com/zhiqiangzhongddu/EvolMPNN.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# 疎線形回帰における不適切な学習のための計算統計的ギャップ

Computational-Statistical Gaps for Improper Learning in Sparse Linear Regression ( http://arxiv.org/abs/2402.14103v2 )

ライセンス: Link先を確認
Rares-Darius Buhai, Jingqiu Ding, Stefan Tiegel, (参考訳) 疎線形回帰における不適切な学習のための計算統計的ギャップについて検討する。 より具体的には、次元$d$の$k$スパース線型モデルから$n$のサンプルが与えられたとき、$d$、$k$および$n$の時間多項式において、$n$のサンプルの非自明な予測誤差を達成する回帰ベクトルに対して潜在的に高密度な推定を求める。 情報理論上、これは$\Theta(k \log (d/k))$サンプルを使って実現できる。 しかし、文学においてその優位性にもかかわらず、モデルに追加の制約を加えることなく$\Theta(d)$サンプルを使用して同じ保証を達成できることが知られている多項式時アルゴリズムは存在しない。 同様に、既存の硬度結果は適切な設定に制限され、見積もりもスパースでなければならないか、特定のアルゴリズムにのみ適用される。 このタスクの効率的なアルゴリズムには少なくとも(概して)$\Omega(k^2)$サンプルが必要であるという証拠を与える。 特に, 疎線形回帰のための不適切な学習アルゴリズムは, 少なくとも$\Omega(k^2)$のサンプルを必要とすると広く信じられているレジームにおいて, ウィッシュアート形式のスパースPCA問題を(負のスパイクで)解くのに有効であることを示す。 我々は, 少ないPCA問題に対して, 低次, 統計的クエリローバウンドを用いて, 低次, 統計的クエリローバウンドを補足する。 我々の硬さは、余変数が未知の共分散を持つ平均零ガウス分布から引き出される(関連する)ランダムな設計設定に適用できる。

We study computational-statistical gaps for improper learning in sparse linear regression. More specifically, given $n$ samples from a $k$-sparse linear model in dimension $d$, we ask what is the minimum sample complexity to efficiently (in time polynomial in $d$, $k$, and $n$) find a potentially dense estimate for the regression vector that achieves non-trivial prediction error on the $n$ samples. Information-theoretically this can be achieved using $\Theta(k \log (d/k))$ samples. Yet, despite its prominence in the literature, there is no polynomial-time algorithm known to achieve the same guarantees using less than $\Theta(d)$ samples without additional restrictions on the model. Similarly, existing hardness results are either restricted to the proper setting, in which the estimate must be sparse as well, or only apply to specific algorithms. We give evidence that efficient algorithms for this task require at least (roughly) $\Omega(k^2)$ samples. In particular, we show that an improper learning algorithm for sparse linear regression can be used to solve sparse PCA problems (with a negative spike) in their Wishart form, in regimes in which efficient algorithms are widely believed to require at least $\Omega(k^2)$ samples. We complement our reduction with low-degree and statistical query lower bounds for the sparse PCA problems from which we reduce. Our hardness results apply to the (correlated) random design setting in which the covariates are drawn i.i.d. from a mean-zero Gaussian distribution with unknown covariance.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# 機械学習注意モデルを用いた時間確率バイアス補正

A Temporal Stochastic Bias Correction using a Machine Learning Attention model ( http://arxiv.org/abs/2402.14169v5 )

ライセンス: Link先を確認
Omer Nivron, Damon J. Wischik, Mathieu Vrac, Emily Shuckburgh, Alex T. Archibald, (参考訳) 気候モデルは現実世界の観測に偏っている。 通常、それらは衝撃研究に使用される前に調整される必要がある。 このような調整を可能にする統計手法の組はバイアス補正(BC)と呼ばれる。 しかし、BCの手法は現在、時間的バイアスを調整するのに苦労している。 なぜなら彼らは、連続する時間点間の依存をほとんど無視しているからである。 その結果、熱波の持続時間や周波数などの長期的特性を持つ気候統計は正確には修正できない。 これにより、このような気候統計に関する信頼性の高い影響研究がより困難になる。 本稿では,時間バイアスを補正する新しいBC手法を提案する。 これは紀元前の背景にある哲学を再考することで可能となった。 BC を確率的出力を伴う時間インデックス回帰タスクとして紹介する。 BCを再考することで、最先端の機械学習(ML)の注意モデルに適応し、時間的非同期性を含むさまざまな種類のバイアスを学ぶことができます。 アブハ,ナイジェリア,東京における熱波持続時間統計のケーススタディにより,現在の気象モデルと代替BC法よりも正確な結果が得られた。

Climate models are biased with respect to real-world observations. They usually need to be adjusted before being used in impact studies. The suite of statistical methods that enable such adjustments is called bias correction (BC). However, BC methods currently struggle to adjust temporal biases. Because they mostly disregard the dependence between consecutive time points. As a result, climate statistics with long-range temporal properties, such as heatwave duration and frequency, cannot be corrected accurately. This makes it more difficult to produce reliable impact studies on such climate statistics. This paper offers a novel BC methodology to correct temporal biases. This is made possible by rethinking the philosophy behind BC. We will introduce BC as a time-indexed regression task with stochastic outputs. Rethinking BC enables us to adapt state-of-the-art machine learning (ML) attention models and thereby learn different types of biases, including temporal asynchronicities. With a case study of heatwave duration statistics in Abuja, Nigeria, and Tokyo, Japan, we show more accurate results than current climate model outputs and alternative BC methods.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# MT-Bench-101:多言語対話における大規模言語モデル評価のための細粒度ベンチマーク

MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues ( http://arxiv.org/abs/2402.14762v2 )

ライセンス: Link先を確認
Ge Bai, Jie Liu, Xingyuan Bu, Yancheng He, Jiaheng Liu, Zhanhui Zhou, Zhuoran Lin, Wenbo Su, Tiezheng Ge, Bo Zheng, Wanli Ouyang, (参考訳) LLM(Large Language Models)の出現は、対話システムを大幅に強化した。 しかし,LLMの対話能力の総合評価は依然として課題である。 以前のベンチマークでは、主にシングルターンダイアログや、多ターンダイアログの粗い粒度と不完全な評価に焦点を合わせており、実際の対話の複雑さときめ細かいニュアンスを見下ろしている。 MT-Bench-101は,マルチターン対話におけるLLMの微粒化能力の評価を目的としている。 実マルチターン対話データを詳細に解析することにより,1388個のタスクで4208個のターンを含む3階層の階層的能力分類を構築した。 次に,MT-Bench-101に基づく21のLLMの評価を行い,能力とタスクの両面から包括的分析を行い,様々なタスク内での対話におけるLLMのパフォーマンスの異なる傾向を観察する。 さらに分析したところ、共通アライメント技術やチャット特有の設計は、LLMのマルチターン能力の明らかな向上につながっていないことが示唆された。 広範囲にわたるケーススタディにより、設計したタスクが、対応するマルチターン能力を正確に評価できることが示唆された。 データとコードは \url{https://github.com/mtbench101/mt-bench-101} で公開されている。

The advent of Large Language Models (LLMs) has drastically enhanced dialogue systems. However, comprehensively evaluating the dialogue abilities of LLMs remains a challenge. Previous benchmarks have primarily focused on single-turn dialogues or provided coarse-grained and incomplete assessments of multi-turn dialogues, overlooking the complexity and fine-grained nuances of real-life dialogues. To address this issue, we introduce MT-Bench-101, specifically designed to evaluate the fine-grained abilities of LLMs in multi-turn dialogues. By conducting a detailed analysis of real multi-turn dialogue data, we construct a three-tier hierarchical ability taxonomy comprising 4208 turns across 1388 multi-turn dialogues in 13 distinct tasks. We then evaluate 21 popular LLMs based on MT-Bench-101, conducting comprehensive analyses from both ability and task perspectives and observing differing trends in LLMs performance across dialogue turns within various tasks. Further analysis indicates that neither utilizing common alignment techniques nor chat-specific designs has led to obvious enhancements in the multi-turn abilities of LLMs. Extensive case studies suggest that our designed tasks accurately assess the corresponding multi-turn abilities. The data and code are available at \url{https://github.com/mtbench101/mt-bench-101}.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# 大規模言語モデルを用いた忠実で高品質な患者サプライヤー作成のためのデータ中心的アプローチ

A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models ( http://arxiv.org/abs/2402.15422v2 )

ライセンス: Link先を確認
Stefan Hegselmann, Shannon Zejiang Shen, Florian Gierse, Monica Agrawal, David Sontag, Xiaoyi Jiang, (参考訳) 患者は入院の理解に苦慮することが多いが、医療従事者は説明のためのリソースが限られている。 本研究では,医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討し,トレーニングデータが生成した要約の忠実度と質に及ぼす影響について検討する。 この目的のために、私たちはリリースします。 (i)医療用テキストにおける誤りの厳格なラベル付けプロトコル (ii)100名の医師と100名のサマリーで注釈付幻覚のデータセットを公開している。 幻覚のないデータの微調整はLlama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。 GPT-4 (0.70から0.40) にも同様の効果がみられた。 また,幻覚のない学習データを用いて定性評価を行う。 一般的なメトリクスは、忠実さや品質とよく相関しないことがわかった。 最後に,GPT-4を用いた幻覚自動検出実験を行った。

Patients often face difficulties in understanding their hospitalizations, while healthcare workers have limited resources to provide explanations. In this work, we investigate the potential of large language models to generate patient summaries based on doctors' notes and study the effect of training data on the faithfulness and quality of the generated summaries. To this end, we release (i) a rigorous labeling protocol for errors in medical texts and (ii) a publicly available dataset of annotated hallucinations in 100 doctor-written and 100 generated summaries. We show that fine-tuning on hallucination-free data effectively reduces hallucinations from 2.60 to 1.55 per summary for Llama 2, while preserving relevant information. We observe a similar effect on GPT-4 (0.70 to 0.40), when the few-shot examples are hallucination-free. We also conduct a qualitative evaluation using hallucination-free and improved training data. We find that common quantitative metrics do not correlate well with faithfulness and quality. Finally, we test GPT-4 for automatic hallucination detection, which clearly outperforms common baselines.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# 進行性皮膚科診断:高スペクトル皮膚内視鏡による皮膚画像診断の開発

Advancing dermatological diagnosis: Development of a hyperspectral dermatoscope for enhanced skin imaging ( http://arxiv.org/abs/2403.00612v2 )

ライセンス: Link先を確認
Martin J. Hetz, Carina Nogueira Garcia, Sarah Haggenmüller, Titus J. Brinker, (参考訳) 皮膚科は、様々な皮膚疾患の効率的な診断と治療のために、精度と革新を必要とする。 本稿では,ヒト皮膚分析に適した近縁型ハイパースペクトル皮膚内視鏡(Hyperscope)の開発について紹介する。 このようなデバイスに対する要求と、光学的構成からセンサー選択までの設計上の考慮事項について詳述し、高い忠実度で広いスペクトル範囲を捉えるために必要なものについて述べる。 15人の個人と160枚の皮膚画像から得られた予備的な結果は、様々な皮膚状態を特定し、特徴付けるためのハイパースコープの可能性を示し、非侵襲的な皮膚評価のための有望な道と、皮膚科関連ハイパースペクトルイメージングの今後の研究のためのプラットフォームを提供する。

Clinical dermatology necessitates precision and innovation for efficient diagnosis and treatment of various skin conditions. This paper introduces the development of a cutting-edge hyperspectral dermatoscope (the Hyperscope) tailored for human skin analysis. We detail the requirements to such a device and the design considerations, from optical configurations to sensor selection, necessary to capture a wide spectral range with high fidelity. Preliminary results from 15 individuals and 160 recorded skin images demonstrate the potential of the Hyperscope in identifying and characterizing various skin conditions, offering a promising avenue for non-invasive skin evaluation and a platform for future research in dermatology-related hyperspectral imaging.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# 強結合における開量子系におけるバス誘起相互作用と過渡ダイナミクス:効果的なハミルトン的アプローチ

Bath-induced interactions and transient dynamics in open quantum systems at strong coupling: Effective Hamiltonian approach ( http://arxiv.org/abs/2403.03386v2 )

ライセンス: Link先を確認
Marlon Brenes, Brett Min, Nicholas Anto-Sztrikacs, Nir Bar-Gill, Dvira Segal, (参考訳) 散逸性量子系の力学を理解することは、特に弱いカップリング近似を超えて、様々な量子応用の中心となる。 数値的に正確な手法は正確な解を提供するが、理論的なアプローチによって得られる分析的な洞察を欠くことが多い。 本研究では,システムバス結合エネルギーの摂動的記述に頼ることなく,システムバス構成の力学を理解するために,実効ハミルトニアン理論と呼ばれる最近開発された手法を用いる。 写像ステップと切り離しの組み合わせにより、実効的なハミルトン理論は、開量子系における強いカップリングのシグネチャに関する解析的な洞察と、数値シミュレーションの簡単な経路の両方を提供する。 本手法の精度を検証するため, ボゾン浴に浸漬した1本のスピンと, 共用浴に浸漬した2本の非接触スピンの2つの正準モデルに適用した。 いずれの場合も、非ゼロ温度における過渡的な状態と定常的な状態の限界、弱い状態から強い状態へのシステム-バス相互作用について検討する。 実効ハミルトニアン理論の結果と数値的精度のシミュレーションを比較することで、前者は過渡平衡力学における非マルコフ的特徴を見落としているが、非相互作用スピン間の非摂動的バス生成結合を、その動的ダイナミクスと相関で見られるように正しく捉えていることが示される。 また、実効的なハミルトン理論は強い結合力学と熱力学を理解するための強力なアプローチを提供し、緩和力学と定常状態極限の両方においてそのような相互作用のシグネチャを捉えている。

Understanding the dynamics of dissipative quantum systems, particularly beyond the weak coupling approximation, is central to various quantum applications. While numerically exact methods provide accurate solutions, they often lack the analytical insight provided by theoretical approaches. In this study, we employ the recently-developed method dubbed the effective Hamiltonian theory to understand the dynamics of system-bath configurations without resorting to a perturbative description of the system-bath coupling energy. Through a combination of mapping steps and truncation, the effective Hamiltonian theory offers both analytical insights into signatures of strong couplings in open quantum systems and a straightforward path for numerical simulations. To validate the accuracy of the method, we apply it to two canonical models: a single spin immersed in a bosonic bath and two noninteracting spins in a common bath. In both cases, we study the transient regime and the steady state limit at nonzero temperature, and spanning system-bath interactions from the weak to the strong regime. By comparing the results of the effective Hamiltonian theory with numerically exact simulations, we show that although the former overlooks non-Markovian features in the transient equilibration dynamics, it correctly captures non-perturbative bath-generated couplings between otherwise non-interacting spins as observed in their synchronization dynamics and correlations. Altogether, the effective Hamiltonian theory offers a powerful approach to understanding strong coupling dynamics and thermodynamics, capturing the signatures of such interactions in both relaxation dynamics and in the steady state limit.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# テレコム言語モデル: 巨大でなければならないか?

Telecom Language Models: Must They Be Large? ( http://arxiv.org/abs/2403.04666v2 )

ライセンス: Link先を確認
Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, (参考訳) 電気通信分野におけるLarge Language Models (LLMs) への関心の高まりは、運用効率に革命をもたらす可能性を浮き彫りにしている。 しかし、これらの洗練されたモデルの展開は、しばしばその相当の大きさと計算上の要求によって妨げられ、資源に制約のある環境におけるそれらの生存可能性に対する懸念を提起する。 この課題に対処するため、最近の進歩では、コーディングや常識推論など、多くのタスクにおいて、より大きな言語に匹敵するパフォーマンスを示す小さな言語モデルが出現している。 コンパクトだが強力なモデルであるPhi-2は、この新しい効率的な小言語モデルの波を例示している。 本稿では,Phi-2の通信領域に関する本質的な理解を包括的に評価する。 本稿では,Phi-2の能力向上のために,テレコム規格に特化してキュレートされた広範囲な知識基盤を巧みに統合した検索型拡張生成手法を提案する。 強化されたPhi-2モデルは、よりリソース集約的なGPT-3.5と密接に競合する精度で、テレコム標準に関する質問に答え、精度が大幅に向上したことを示している。 通信分野における問題解決シナリオに対処する上でのPhi-2の高機能化について,その可能性と限界を強調した。

The increasing interest in Large Language Models (LLMs) within the telecommunications sector underscores their potential to revolutionize operational efficiency. However, the deployment of these sophisticated models is often hampered by their substantial size and computational demands, raising concerns about their viability in resource-constrained environments. Addressing this challenge, recent advancements have seen the emergence of small language models that surprisingly exhibit performance comparable to their larger counterparts in many tasks, such as coding and common-sense reasoning. Phi-2, a compact yet powerful model, exemplifies this new wave of efficient small language models. This paper conducts a comprehensive evaluation of Phi-2's intrinsic understanding of the telecommunications domain. Recognizing the scale-related limitations, we enhance Phi-2's capabilities through a Retrieval-Augmented Generation approach, meticulously integrating an extensive knowledge base specifically curated with telecom standard specifications. The enhanced Phi-2 model demonstrates a profound improvement in accuracy, answering questions about telecom standards with a precision that closely rivals the more resource-intensive GPT-3.5. The paper further explores the refined capabilities of Phi-2 in addressing problem-solving scenarios within the telecom sector, highlighting its potential and limitations.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# DITTO : インシシット3次元再構成のための2次元・統合型潜伏トポロジー

DITTO: Dual and Integrated Latent Topologies for Implicit 3D Reconstruction ( http://arxiv.org/abs/2403.05005v2 )

ライセンス: Link先を確認
Jaehyeok Shim, Kyungdon Joo, (参考訳) 本稿では,ノイズやスパース点雲からの暗黙的な3次元再構成を実現するために,二重・統合潜在トポロジ(DITTO)の新たな概念を提案する。 既存のほとんどのメソッドは、主にポイントやグリッドラテントのような単一のラテント型にフォーカスする。 対照的に、提案したDITTOは、点潜水器(二重潜水器)と格子潜水器(二重潜水器)の両方を活用して、その強度、格子潜水器の安定性、点潜水器の詳細な能力を高める。 具体的には、DITTOは二重潜在エンコーダと統合暗黙デコーダから構成される。 デュアルラテントエンコーダにおいて、エンコーダを構成するキーモジュールブロックであるデュアルラテント層は、両方のラテントを並列に洗練し、異なる形状を維持し、再帰的相互作用を可能にする。 特に、新たに提案された二重潜伏層内の動的スパース点変圧器は、効果的に点潜伏層を洗練させる。 すると、統合された暗黙デコーダは、これらの洗練された潜水器を体系的に結合し、高忠実な3D再構成を実現し、特に細密で詳細な構造において、オブジェクトおよびシーンレベルのデータセットにおける過去の最先端の手法を超越する。

We propose a novel concept of dual and integrated latent topologies (DITTO in short) for implicit 3D reconstruction from noisy and sparse point clouds. Most existing methods predominantly focus on single latent type, such as point or grid latents. In contrast, the proposed DITTO leverages both point and grid latents (i.e., dual latent) to enhance their strengths, the stability of grid latents and the detail-rich capability of point latents. Concretely, DITTO consists of dual latent encoder and integrated implicit decoder. In the dual latent encoder, a dual latent layer, which is the key module block composing the encoder, refines both latents in parallel, maintaining their distinct shapes and enabling recursive interaction. Notably, a newly proposed dynamic sparse point transformer within the dual latent layer effectively refines point latents. Then, the integrated implicit decoder systematically combines these refined latents, achieving high-fidelity 3D reconstruction and surpassing previous state-of-the-art methods on object- and scene-level datasets, especially in thin and detailed structures.
翻訳日:2024-06-26 20:19:03 公開日:2024-06-25
# ガウス平滑化による認定教育のパラドックスの克服

Overcoming the Paradox of Certified Training with Gaussian Smoothing ( http://arxiv.org/abs/2403.07095v2 )

ライセンス: Link先を確認
Stefan Balauca, Mark Niklas Müller, Yuhao Mao, Maximilian Baader, Marc Fischer, Martin Vechev, (参考訳) 敵の例に対して高い精度でニューラルネットワークを訓練することは、大きな努力にもかかわらず未解決の問題である。 認証手法は、境界計算の厳密な凸緩和を効果的に活用できるが、訓練では、これらの手法はゆるやかな緩和よりも悪い性能を発揮する。 先行研究は、これらより密着な緩和によって引き起こされる損失面の不連続性と摂動感度によって引き起こされると仮定した。 本研究では,ガウスロス平滑化が両問題を緩和できることを示す。 我々は、滑らかな損失の勾配を計算するアルゴリズムPGPEと、異なる凸緩和を併用した認定トレーニング手法を実証的に提案し、これを実証的に確認する。 このトレーニング手法を使用すると、より厳密な境界がネットワークの厳密な改善につながることが分かる。 PGPEトレーニングのスケーリングは高い計算コストのため依然として困難であるが,理論上は健全だがスムーズな近似を用いることで,同じネットワークアーキテクチャ上でのトレーニングにおいて,最先端の手法よりも優れた認証精度が得られることを示す。 この結果から,強靭なニューラルネットワークのトレーニングにおいて,ガウスロス平滑化が期待できることが明らかとなった。

Training neural networks with high certified accuracy against adversarial examples remains an open problem despite significant efforts. While certification methods can effectively leverage tight convex relaxations for bound computation, in training, these methods perform worse than looser relaxations. Prior work hypothesized that this is caused by the discontinuity and perturbation sensitivity of the loss surface induced by these tighter relaxations. In this work, we show theoretically that Gaussian Loss Smoothing can alleviate both issues. We confirm this empirically by proposing a certified training method combining PGPE, an algorithm computing gradients of a smoothed loss, with different convex relaxations. When using this training method, we observe that tighter bounds indeed lead to strictly better networks. While scaling PGPE training remains challenging due to high computational cost, we show that by using a not theoretically sound, yet much cheaper smoothing approximation, we obtain better certified accuracies than state-of-the-art methods when training on the same network architecture. Our results clearly demonstrate the promise of Gaussian Loss Smoothing for training certifiably robust neural networks.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# LKM-UNet:医療画像セグメンテーションのための大型カーネルビジョンマンバUNet

LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation ( http://arxiv.org/abs/2403.07332v2 )

ライセンス: Link先を確認
Jinhong Wang, Jintai Chen, Danny Chen, Jian Wu, (参考訳) 臨床実践において、医用画像セグメンテーションは、対象臓器や組織の輪郭や寸法に関する有用な情報を提供し、診断、分析、治療の改善を促進する。 過去数年間、畳み込みニューラルネットワーク(CNN)とトランスフォーマーがこの領域を支配してきたが、それでも限られた受容野または高価な長距離モデリングに悩まされている。 近ごろ、ステートスペースシーケンスモデル(SSM)であるMambaが、線形複雑性を伴う長距離依存性モデリングのための有望なパラダイムとして登場した。 本稿では,医療画像分割のためのLKM-U-shape Network(LKM-UNet)を提案する。 LKM-UNetの際立った特徴は、大規模なMambaカーネルの利用であり、小さなカーネルベースのCNNやトランスフォーマーに比べて局所的な空間モデリングに優れ、また、二次的複雑性を伴う自己認識に比べて、グローバルなモデリングにおいて優れた効率を維持している点である。 さらに,視覚入力に対するマンバの大域的空間モデリング機能を強化するために,新しい階層的かつ双方向なマンバブロックを設計する。 包括的実験は、大規模なマンバ核を用いて大きな受容場を実現することの実現可能性と有効性を示す。 コードはhttps://github.com/wjh892521292/LKM-UNetで公開されている。

In clinical practice, medical image segmentation provides useful information on the contours and dimensions of target organs or tissues, facilitating improved diagnosis, analysis, and treatment. In the past few years, convolutional neural networks (CNNs) and Transformers have dominated this area, but they still suffer from either limited receptive fields or costly long-range modeling. Mamba, a State Space Sequence Model (SSM), recently emerged as a promising paradigm for long-range dependency modeling with linear complexity. In this paper, we introduce a Large Kernel Vision Mamba U-shape Network, or LKM-UNet, for medical image segmentation. A distinguishing feature of our LKM-UNet is its utilization of large Mamba kernels, excelling in locally spatial modeling compared to small kernel-based CNNs and Transformers, while maintaining superior efficiency in global modeling compared to self-attention with quadratic complexity. Additionally, we design a novel hierarchical and bidirectional Mamba block to further enhance Mamba's global and neighborhood spatial modeling capability for vision inputs. Comprehensive experiments demonstrate the feasibility and the effectiveness of using large-size Mamba kernels to achieve large receptive fields. Codes are available at https://github.com/wjh892521292/LKM-UNet.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# 高精細なプロンプトチューニング:高精細な医用画像分類のためのパラメータとメモリ効率の学習法

Fine-grained Prompt Tuning: A Parameter and Memory Efficient Transfer Learning Method for High-resolution Medical Image Classification ( http://arxiv.org/abs/2403.07576v3 )

ライセンス: Link先を確認
Yijin Huang, Pujin Cheng, Roger Tam, Xiaoying Tang, (参考訳) パラメータ効率変換学習(PETL)は,大規模事前学習モデル全体(LPM)の更新に要するコストを回避するために,事前学習したモデルを下流タスクに転送するコスト効率の高い方法として提案されている。 本研究では,医用画像分類のためのPETL法であるFPTについて述べる。 FPTは、特に高解像度の入力コンテキストにおいて、他のPETL法と比較してメモリ消費を著しく削減する。 これを実現するために、まずLPMの重みを凍結し、学習可能な軽量サイドネットワークを構築する。 凍結したLPMは、高解像度画像を入力として精細な特徴を抽出し、一方、サイドネットワークは低解像度画像を供給してメモリ使用量を減らす。 サイドネットワークが事前学習した知識にアクセスできるようにするため、融合モジュールを介してLPMから情報を要約するきめ細かいプロンプトを導入する。 トレーニングコストとメモリ要件をさらに削減するために、重要なトークンの選択とプリロード技術が使用されている。 FPTは, サイズ, モダリティ, 複雑さの異なる4つの医療データセットで評価した。 実験の結果、FPTは学習可能なパラメータの1.8%と512 x 512の入力解像度を持つエンコーダViT-Bモデルのメモリコストの13%しか使用せず、LPM全体の微調整に匹敵する性能を示した。

Parameter-efficient transfer learning (PETL) is proposed as a cost-effective way to transfer pre-trained models to downstream tasks, avoiding the high cost of updating entire large-scale pre-trained models (LPMs). In this work, we present Fine-grained Prompt Tuning (FPT), a novel PETL method for medical image classification. FPT significantly reduces memory consumption compared to other PETL methods, especially in high-resolution input contexts. To achieve this, we first freeze the weights of the LPM and construct a learnable lightweight side network. The frozen LPM takes high-resolution images as input to extract fine-grained features, while the side network is fed low-resolution images to reduce memory usage. To allow the side network to access pre-trained knowledge, we introduce fine-grained prompts that summarize information from the LPM through a fusion module. Important tokens selection and preloading techniques are employed to further reduce training cost and memory requirements. We evaluate FPT on four medical datasets with varying sizes, modalities, and complexities. Experimental results demonstrate that FPT achieves comparable performance to fine-tuning the entire LPM while using only 1.8% of the learnable parameters and 13% of the memory costs of an encoder ViT-B model with a 512 x 512 input resolution.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# 低コストプライバシ対応分散型学習

Low-Cost Privacy-Aware Decentralized Learning ( http://arxiv.org/abs/2403.11795v2 )

ライセンス: Link先を確認
Sayan Biswas, Davide Frey, Romaric Gaudel, Anne-Marie Kermarrec, Dimitri Lerévérend, Rafael Pires, Rishi Sharma, François Taïani, (参考訳) 本稿では,ZIP-DLを提案する。ZIP-DLは,低通信コストで効率のよい収束保証を実現するとともに,相関雑音を利用して局所的敵に対する強力なプライバシー保護を実現する,新しいプライバシー対応分散学習アルゴリズムである。 分散アグリゲーションプロセスにおける付加雑音の進行的中和により、ZIP-DLはプライバシー保証の下で高いモデル精度を育成する。 ZIP-DLはさらに、各勾配降下間の単一の通信ラウンドを使用し、通信オーバーヘッドを最小限にする。 本稿では,収束速度とプライバシ保証の両方を理論的に保証し,ZIP-DLを実用シナリオに適用する。 ZIP-DLは、脆弱性/正確性トレードオフの観点から、最先端技術よりも著しく優れています。 特にZIP-DL (i)ベースラインDLと比較して最大52ポイントのリンク性攻撃効果を低下させる。 (二)会員推論攻撃に対して同じ保護を提供するように設定された場合、我々のと同じ脅威モデルの下で動作している最先端のプライバシ保護機構により、最大37%の精度向上を行う。 (iii)同じレベルの保護のために、同じ競合相手に対して最大10.5倍の通信を減少させる。

This paper introduces ZIP-DL, a novel privacy-aware decentralized learning (DL) algorithm that exploits correlated noise to provide strong privacy protection against a local adversary while yielding efficient convergence guarantees for a low communication cost. The progressive neutralization of the added noise during the distributed aggregation process results in ZIP-DL fostering a high model accuracy under privacy guarantees. ZIP-DL further uses a single communication round between each gradient descent, thus minimizing communication overhead. We provide theoretical guarantees for both convergence speed and privacy guarantees, thereby making ZIP-DL applicable to practical scenarios. Our extensive experimental study shows that ZIP-DL significantly outperforms the state-of-the-art in terms of vulnerability/accuracy trade-off. In particular, ZIP-DL (i) reduces the efficacy of linkability attacks by up to 52 percentage points compared to baseline DL, (ii) improves accuracy by up to 37 percent w.r.t. the state-of-the-art privacy-preserving mechanism operating under the same threat model as ours, when configured to provide the same protection against membership inference attacks, and (iii) reduces communication by up to 10.5x against the same competitor for the same level of protection.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# ハーフライン上の連続時間量子ウォークの相転移

Phase transition of a continuous-time quantum walk on the half line ( http://arxiv.org/abs/2403.13576v2 )

ライセンス: Link先を確認
Takuya Machida, (参考訳) 量子ウォークは数学においてランダムウォークの量子アナログと呼ばれる。 量子コンピュータの量子情報における量子アルゴリズムとして研究されている。 量子ウォークには2つの種類がある。 1つは離散時間量子ウォーク、もう1つは連続時間量子ウォークである。 本稿では,半直線上の連続時間量子ウォークについて検討し,その限界定理の発見に挑戦する。 その結果、量子ウォーカの近似挙動は、長い時間で量子ウォーカのシステムが更新された後に明らかにされる。

Quantum walks are referred to as quantum analogs to random walks in mathematics. They have been studied as quantum algorithms in quantum information for quantum computers. There are two types of quantum walks. One is the discrete-time quantum walk and the other is the continuous-time quantum walk. We study a continuous-time quantum walk on the half line and challenge to find a limit theorem for it in this paper. As a result, approximate behavior of the quantum walker is revealed after the system of quantum walk gets updated in long time.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# ロッタリー・ポケット仮説と反復マグニチュード・プルーニング

Insights into the Lottery Ticket Hypothesis and Iterative Magnitude Pruning ( http://arxiv.org/abs/2403.15022v3 )

ライセンス: Link先を確認
Tausifa Jan Saleem, Ramanjit Ahuja, Surendra Prasad, Brejesh Lall, (参考訳) ディープニューラルネットワークのロッテチケット仮説は、反復等級プルーニングプロセスを用いて得られたスペーサーネットワークを再訓練するために使われる初期化の重要性を強調している。 抽選券仮説によって提案された特定の初期化が、一般化(および訓練)性能においてよりうまく機能する傾向にある理由を説明する。 さらに、イテレーティブ・マグニチュード・プルーニング(英語版)の根底にある原則、例えば、より小さなマグニチュードのプルーニングや反復的プロセスの役割は、完全な理解と説明が欠如している。 本研究は, 反復等級プルーニングプロセスの様々な段階において得られた溶液の体積・幾何学的特徴と損失景観特性を実証的に研究することによって, これらの現象に関する知見を提供するものである。

Lottery ticket hypothesis for deep neural networks emphasizes the importance of initialization used to re-train the sparser networks obtained using the iterative magnitude pruning process. An explanation for why the specific initialization proposed by the lottery ticket hypothesis tends to work better in terms of generalization (and training) performance has been lacking. Moreover, the underlying principles in iterative magnitude pruning, like the pruning of smaller magnitude weights and the role of the iterative process, lack full understanding and explanation. In this work, we attempt to provide insights into these phenomena by empirically studying the volume/geometry and loss landscape characteristics of the solutions obtained at various stages of the iterative magnitude pruning process.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# 教師なし動的心内膜MRIのグラフ画像化

Graph Image Prior for Unsupervised Dynamic Cardiac Cine MRI Reconstruction ( http://arxiv.org/abs/2403.15770v2 )

ライセンス: Link先を確認
Zhongsen Li, Wenxuan Chen, Shuai Wang, Chuyu Liu, Qing Zou, Rui Li, (参考訳) 畳み込みニューラルネットワーク(CNN)の帰納バイアスは、Deep Image Prior(DIP)として知られる画像復元の強い先行である。 近年、DIPは非教師なしの動的MRI再構成に利用されており、潜在空間から画像空間への生成モデルが採用されている。 しかし、既存の手法は通常、すべてのフレームで共有されるピラミッド型のCNNジェネレータを使用し、時間的モデリングを潜在空間に埋め込むことで、モデル表現能力を阻害する可能性がある。 本稿では,動的MRI表現のための新しい手法である ``Graph Image Prior' (GIP) を提案する。 GIPは、まず独立したCNNを用いて各フレームのイメージ構造を復元し、次にグラフモデルによりパラメータ化された特徴空間内の時空間相関を利用する。 グラフ畳み込みネットワークは特徴融合と動的画像生成に利用される。 さらに、画像とネットワークパラメータを交互に最適化し、再構成性能を向上させるためのADMMアルゴリズムを考案した。 心血管MRI再建実験では、GIPは圧縮センシング法や他のDIPに基づく教師なし手法よりも優れており、最先端の教師付きアルゴリズムによるパフォーマンスギャップを著しく減少させることが示された。 さらに、GIPは、追加のデータを必要とせず、異なる再構成設定に転送する際に、より優れた一般化能力を示す。

The inductive bias of the convolutional neural network (CNN) can be a strong prior for image restoration, which is known as the Deep Image Prior (DIP). Recently, DIP is utilized in unsupervised dynamic MRI reconstruction, which adopts a generative model from the latent space to the image space. However, existing methods usually use a pyramid-shaped CNN generator shared by all frames, embedding the temporal modeling within the latent space, which may hamper the model expression capability. In this work, we propose a novel scheme for dynamic MRI representation, named ``Graph Image Prior'' (GIP). GIP adopts a two-stage generative network in a new modeling methodology, which first employs independent CNNs to recover the image structure for each frame, and then exploits the spatio-temporal correlations within the feature space parameterized by a graph model. A graph convolutional network is utilized for feature fusion and dynamic image generation. In addition, we devise an ADMM algorithm to alternately optimize the images and the network parameters to improve the reconstruction performance. Experiments were conducted on cardiac cine MRI reconstruction, which demonstrate that GIP outperforms compressed sensing methods and other DIP-based unsupervised methods, significantly reducing the performance gap with state-of-the-art supervised algorithms. Moreover, GIP displays superior generalization ability when transferred to a different reconstruction setting, without the need for any additional data.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# CT境界:ハイブリッド畳み込みとトランスフォーマーニューラルネットワークによる雑音画像からのロバスト境界検出

CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks ( http://arxiv.org/abs/2403.16494v2 )

ライセンス: Link先を確認
Wei Xu, Junjie Luo, Qi Guo, (参考訳) 我々は,畳み込みとトランスフォーマーのハイブリッドニューラルネットワークを用いて,非常にノイズの多い画像に対して,頑健で高速な境界検出手法であるCT-Boundを提案する。 提案アーキテクチャは境界推定を局所検出と大域正規化という2つのタスクに分解する。 局所検出において、モデルは畳み込みアーキテクチャを用いて、各画像パッチの境界構造を、予め定義された局所境界表現であるフィールド・オブ・ジャンクション(FoJ)の形式で予測する。 次に、フィードフォワードトランスフォーマーアーキテクチャを用いて、各パッチの境界構造をグローバルに洗練し、エッジマップとスムーズなカラーマップを同時に生成する。 定量的解析により、CT-Boundは、非常にノイズの多い画像のエッジ検出において、これまでで最高のアルゴリズムよりも優れていることが示された。 また、FoJベースの手法のエッジ検出精度を3倍に向上させ、速度を3倍に向上させる。 最後に、CT-Boundは、追加の微調整やリアルタイム境界マップやカラーマップを毎秒10フレームで作成することなく、実撮画像上で境界マップとカラーマップを作成できることを実証した。

We present CT-Bound, a robust and fast boundary detection method for very noisy images using a hybrid Convolution and Transformer neural network. The proposed architecture decomposes boundary estimation into two tasks: local detection and global regularization. During the local detection, the model uses a convolutional architecture to predict the boundary structure of each image patch in the form of a pre-defined local boundary representation, the field-of-junctions (FoJ). Then, it uses a feed-forward transformer architecture to globally refine the boundary structures of each patch to generate an edge map and a smoothed color map simultaneously. Our quantitative analysis shows that CT-Bound outperforms the previous best algorithms in edge detection on very noisy images. It also increases the edge detection accuracy of FoJ-based methods while having a 3-time speed improvement. Finally, we demonstrate that CT-Bound can produce boundary and color maps on real captured images without extra fine-tuning and real-time boundary map and color map videos at ten frames per second.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# LLMは、インコンテクストの低リソース言語学習者がほとんどいない

LLMs Are Few-Shot In-Context Low-Resource Language Learners ( http://arxiv.org/abs/2403.16512v5 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Pascale Fung, (参考訳) In-context Learning (ICL) は、大規模な言語モデル(LLM)に対して、短いイン・コンテクスト情報のみを使用して、低リソース言語と低リソース言語のギャップを狭めるための重要な手段を提供する。 それにもかかわらず、低リソース言語のためのICLを探究する研究はごくわずかであり、そのほとんどはフランス語やスペイン語のような比較的高リソース言語に焦点を当てている。 本研究では,25の低リソース言語と7の比較的高リソース言語に対して,ICLとその言語間変動(X-ICL)を広範囲に研究する。 本研究は、低リソース言語におけるILCとLLMの有効性を評価するだけでなく、テキスト内ラベルアライメントの欠点を識別し、より効果的な代替手段であるクエリアライメントを導入する。 さらに、低リソース言語に対するICLの様々な側面に関する貴重な洞察を提供する。 本研究は,LLMの低リソース理解の質を高めるために,目的言語における言語ギャップを閉じ,目標とする低リソースと高リソース言語とのセマンティクスを整合させることにより,意味的関連情報を通じて,低リソース理解の質を高めることの重要性を結論づける。 我々の研究は、特に低リソース言語において、ICL研究を進めることの重要性を強調しています。 私たちのコードはhttps://github.com/SamuelCahyawijaya/in-context-alignmentで公開されています。

In-context learning (ICL) empowers large language models (LLMs) to perform diverse tasks in underrepresented languages using only short in-context information, offering a crucial avenue for narrowing the gap between high-resource and low-resource languages. Nonetheless, there is only a handful of works explored ICL for low-resource languages with most of them focusing on relatively high-resource languages, such as French and Spanish. In this work, we extensively study ICL and its cross-lingual variation (X-ICL) on 25 low-resource and 7 relatively higher-resource languages. Our study not only assesses the effectiveness of ICL with LLMs in low-resource languages but also identifies the shortcomings of in-context label alignment, and introduces a more effective alternative: query alignment. Moreover, we provide valuable insights into various facets of ICL for low-resource languages. Our study concludes the significance of few-shot in-context information on enhancing the low-resource understanding quality of LLMs through semantically relevant information by closing the language gap in the target language and aligning the semantics between the targeted low-resource and the high-resource language that the model is proficient in. Our work highlights the importance of advancing ICL research, particularly for low-resource languages. Our code is publicly released at https://github.com/SamuelCahyawijaya/in-context-alignment
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# GLAD:単純な量子化による遅延グラフ生成モデルの改善

GLAD: Improving Latent Graph Generative Modeling with Simple Quantization ( http://arxiv.org/abs/2403.16883v2 )

ライセンス: Link先を確認
Van Khoa Nguyen, Yoann Boget, Frantzeska Lavda, Alexandros Kalousis, (参考訳) グラフ潜在構造を探索することは、グラフ生成研究分野ではあまり注目を集めていない。 しかし、潜在空間を活用することは、グラフのような離散データのためのデータ空間に取り組むのと同じくらい重要である。 しかし、従来の手法ではグラフの置換対称性の保存に失敗したり、潜在空間内で適切にモデル化するための効果的なアプローチが欠如していた。 これらの問題を緩和するために、単純で効果的な離散潜在グラフ拡散生成モデルを提案する。 我々のモデル、すなわちGLADは、既存の潜伏アプローチの欠点を克服するだけでなく、グラフ空間に適用される拡散法に固有の問題を緩和する。 分子ベンチマークデータセット上で生成モデルを検証し、最先端のベースラインと比較して競合性能を示す。

Exploring the graph latent structures has not garnered much attention in the graph generative research field. Yet, exploiting the latent space is as crucial as working on the data space for discrete data such as graphs. However, previous methods either failed to preserve the permutation symmetry of graphs or lacked an effective approaches to model appropriately within the latent space. To mitigate those issues, we propose a simple, yet effective discrete latent graph diffusion generative model. Our model, namely GLAD, not only overcomes the drawbacks of existing latent approaches, but also alleviates inherent issues present in diffusion methods applied on the graph space. We validate our generative model on the molecular benchmark datasets, on which it demonstrates competitive performance compared with the state-of-the-art baselines.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# 空間時間精度トレードオフをもつ非単元及び単元対角演算子の効率的な量子回路

Efficient Quantum Circuits for Non-Unitary and Unitary Diagonal Operators with Space-Time-Accuracy trade-offs ( http://arxiv.org/abs/2404.02819v3 )

ライセンス: Link先を確認
Julien Zylberman, Ugo Nzongani, Andrea Simonetto, Fabrice Debbasch, (参考訳) ユニタリおよび非ユニタリ対角作用素は、偏微分方程式の解法、ハミルトニアンシミュレーション、量子コンピュータへの古典的データのロード(量子状態の準備)など、量子アルゴリズムの基本的な構成要素である。 本稿では,一元対角演算子と非単元対角演算子を効率よく調整可能な量子回路で実装する一般手法を提案する。 深さ、すなわち量子回路の量子ゲートの層数は、幅、すなわち、アンシラ量子ビットの個数、あるいは実装された演算子と対象の量子ゲートの間の精度に関して再現可能である。 正確なメソッドは、サイズ、すなわちプリミティブ量子ゲートの総数、幅のいずれにおいても最適な指数スケーリングを持つが、近似的手法は、滑らかで少なくとも微分可能な関数に依存する対角作用素のクラスに対して効率的であることが証明される。 我々のアプローチは一般に、対角作用素が調整可能な深度あるいは近似値になるようにし、その幅や近似レベルを増大させることで回路の深さを減少させるのに十分である。 この機能は柔軟性を提供し、コヒーレンス時間や累積ゲートエラーのハードウェア制限にマッチする。 量子状態の準備と拡散方程式の非単位空間シミュレーションを行うことにより,これらの手法を説明する。 このシミュレーションは、物理学、化学、生物学、画像処理、ファイナンスに有用な確率モデルの効率的な実装への道を開く。

Unitary and non-unitary diagonal operators are fundamental building blocks in quantum algorithms with applications in the resolution of partial differential equations, Hamiltonian simulations, the loading of classical data on quantum computers (quantum state preparation) and many others. In this paper, we introduce a general approach to implement unitary and non-unitary diagonal operators with efficient-adjustable-depth quantum circuits. The depth, i.e., the number of layers of quantum gates of the quantum circuit, is reducible with respect either to the width, i.e, the number of ancilla qubits, or to the accuracy between the implemented operator and the target one. While exact methods have an optimal exponential scaling either in terms of size, i.e., the total number of primitive quantum gates, or width, approximate methods prove to be efficient for the class of diagonal operators depending on smooth, at least differentiable, functions. Our approach is general enough to allow any method for diagonal operators to become adjustable-depth or approximate, decreasing the depth of the circuit by increasing its width or its approximation level. This feature offers flexibility and can match with the hardware limitations in coherence time or cumulative gate error. We illustrate these methods by performing quantum state preparation and non-unitary-real-space simulation of the diffusion equation. This simulation paves the way to efficient implementations of stochastic models useful in physics, chemistry, biology, image processing and finance.
翻訳日:2024-06-26 20:09:17 公開日:2024-06-25
# 顔認識における外部分布データの正確な分類

Accurately Classifying Out-Of-Distribution Data in Facial Recognition ( http://arxiv.org/abs/2404.03876v3 )

ライセンス: Link先を確認
Gianluca Barone, Aashrit Cunchala, Rudy Nunez, (参考訳) 標準分類理論は、テストセットとトレーニングセットにおける画像の分布が同一であると仮定する。 残念なことに、現実のシナリオは一般的に、トレーニングディストリビューション("in-distribution")のデータとは異なる、目に見えないデータ("out-of-distriion data")を特徴とします。 この問題は、未表現のグループからのデータが、トレーニングデータの均等な割合を表現せずにテストデータに現れるという社会正義の問題で最も多い。 この結果、モデルが確実に間違った決定と予測を返却する可能性がある。 ニューラルネットワークの性能は、分布外データの複数のデータセットで同時にトレーニングされたときに、分布外データの顔画像を改善することができるか? 本研究では,外周露光モデルを導入し,他の顔画像のデータセットが実装された際にモデルの性能がどう変化するかを検討する。 モデルの精度およびその他の指標は、アウトレイラ露光を適用し、トレーニング可能な重みパラメータを組み込んで、オフレイラ画像へのマシンの重み付けを強化し、異なるクラスラベルの重要性を再重み付けすることで向上することができる。 また,画像のソートや画像特徴による外れ値の決定が,平均画素値のソートよりも指標に影響を及ぼすかどうかについても検討した。 私たちの目標は、モデルをより正確にするだけでなく、より広い範囲の画像をスキャンすることで、より公平にすることでした。 また、バランスの取れた特徴を持つより公平なデータセットがモデルの精度に影響を及ぼすかどうかを確認するために、データセットを逆向きにテストしました。

Standard classification theory assumes that the distribution of images in the test and training sets are identical. Unfortunately, real-life scenarios typically feature unseen data ("out-of-distribution data") which is different from data in the training distribution("in-distribution"). This issue is most prevalent in social justice problems where data from under-represented groups may appear in the test data without representing an equal proportion of the training data. This may result in a model returning confidently wrong decisions and predictions. We are interested in the following question: Can the performance of a neural network improve on facial images of out-of-distribution data when it is trained simultaneously on multiple datasets of in-distribution data? We approach this problem by incorporating the Outlier Exposure model and investigate how the model's performance changes when other datasets of facial images were implemented. We observe that the accuracy and other metrics of the model can be increased by applying Outlier Exposure, incorporating a trainable weight parameter to increase the machine's emphasis on outlier images, and by re-weighting the importance of different class labels. We also experimented with whether sorting the images and determining outliers via image features would have more of an effect on the metrics than sorting by average pixel value. Our goal was to make models not only more accurate but also more fair by scanning a more expanded range of images. We also tested the datasets in reverse order to see whether a more fair dataset with balanced features has an effect on the model's accuracy.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# 非線形ホロノミック量子計算の実行に必要な時間の推定

Estimate of the time required to perform a nonadiabatic holonomic quantum computation ( http://arxiv.org/abs/2404.05844v2 )

ライセンス: Link先を確認
Ole Sönnerborn, (参考訳) 非断熱ホロノミック量子計算は、断熱ホロノミックゲートに匹敵する堅牢性を持つ量子論理ゲートを実装する方法として提案されているが、実行時間が短い。 本稿では,量子ゲートの等ホロノミック不等式を確立し,特定のゲートを生成する計算空間の巡回変換の長さを低くする。 その後,ホロノミックゲートの非断熱的実行時間推定を導出する。 さらに、ある次元条件下では、計算空間上の全てのゲートが時間-最適にホロノミカルかつ一元的に実装できるという意味で、等ホロノミック不等式が厳密であることを示す。 本稿では, 非線形ホロノミック量子計算の先駆的な論文で提案された普遍的なホロノミックゲートの実装手順が等長不等式を飽和させ, 時間的最適であることを示す。

Nonadiabatic holonomic quantum computation has been proposed as a method to implement quantum logic gates with robustness comparable to that of adiabatic holonomic gates but with shorter execution times. In this paper, we establish an isoholonomic inequality for quantum gates, which provides a lower bound on the lengths of cyclic transformations of the computational space that generate a specific gate. Then, as a corollary, we derive a nonadiabatic execution time estimate for holonomic gates. In addition, we demonstrate that under certain dimensional conditions, the isoholonomic inequality is tight in the sense that every gate on the computational space can be implemented holonomically and unitarily in a time-optimal way. We illustrate the results by showing that the procedures for implementing a universal set of holonomic gates proposed in a pioneering paper on nonadiabatic holonomic quantum computation saturate the isoholonomic inequality and are thus time optimal.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# 大規模言語モデルにおける高次元人間の価値表現

High-Dimension Human Value Representation in Large Language Models ( http://arxiv.org/abs/2404.07900v2 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Delong Chen, Yejin Bang, Leila Khalatbari, Bryan Wilie, Ziwei Ji, Etsuko Ishii, Pascale Fung, (参考訳) 様々なタスクや分野にまたがる大規模言語モデル(LLM)の広範な適用は、これらのモデルの人間的価値や嗜好との整合性を必要としている。 RLHF(Reinforcement Learning with Human Feedback)から、立憲学習など、人間の価値アライメントのさまざまなアプローチを考えると、そのリリース前にこれらのモデルに注入された人間の価値の範囲と性質を理解する必要がある。 また、コストのかかる大規模な人的アノテーションを使わずに、モデルアライメントも必要です。 本稿では,LLMにおける人的価値分布の高次元表現であるUniVaRを提案する。 LlaMA2, ChatGPT, JAIS, Yi の4つの多言語 LLM の値関連出力から学習し,UniVaR は異なる LLM に埋め込まれた人間の値の分布を異なる言語源と比較する強力なツールであることを示す。 UniVaRを通じて、異なるLLMが異なる言語や文化の様々な価値を優先し、人間の価値と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。

The widespread application of Large Language Models (LLMs) across various tasks and fields has necessitated the alignment of these models with human values and preferences. Given various approaches of human value alignment, ranging from Reinforcement Learning with Human Feedback (RLHF), to constitutional learning, etc. there is an urgent need to understand the scope and nature of human values injected into these models before their release. There is also a need for model alignment without a costly large scale human annotation effort. We propose UniVaR, a high-dimensional representation of human value distributions in LLMs, orthogonal to model architecture and training data. Trained from the value-relevant output of eight multilingual LLMs and tested on the output from four multilingual LLMs, namely LlaMA2, ChatGPT, JAIS and Yi, we show that UniVaR is a powerful tool to compare the distribution of human values embedded in different LLMs with different langauge sources. Through UniVaR, we explore how different LLMs prioritize various values in different languages and cultures, shedding light on the complex interplay between human values and language modeling.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# 時系列からの因果発見によるサイバー物理システムのオンライン教師なし異常検出

Explainable Online Unsupervised Anomaly Detection for Cyber-Physical Systems via Causal Discovery from Time Series ( http://arxiv.org/abs/2404.09871v3 )

ライセンス: Link先を確認
Daniele Meli, (参考訳) オンラインで監視されていない異常の検出は、サイバー物理システムの正しい操作と、それらと相互作用する人間の安全性を保証するために不可欠である。 ニューラルネットワークによるディープラーニングに基づく最先端のアプローチは、(異常のない)システムの通常のモデルとセンサー時系列のリアルタイムストリームとの相違を評価し、異常認識において優れたパフォーマンスを達成する。 しかしながら、大規模なトレーニングデータと時間は通常必要であり、説明可能性はまだ、異常の根源を特定し、予測保守性を実装することが課題である。 本稿では,センサデータのリアルタイム取得における因果関係の持続性を評価し,異常を迅速に検出する。 2つのベンチマーク異常検出データセットにおいて、我々の手法は訓練効率が高く、最先端のニューラルネットワークの精度より優れ、10種類の異常の原因を正確に同定する。 コードはhttps://github.com/Isla-lab/causal_anomaly_detectionにある。

Online unsupervised detection of anomalies is crucial to guarantee the correct operation of cyber-physical systems and the safety of humans interacting with them. State-of-the-art approaches based on deep learning via neural networks achieve outstanding performance at anomaly recognition, evaluating the discrepancy between a normal model of the system (with no anomalies) and the real-time stream of sensor time series. However, large training data and time are typically required, and explainability is still a challenge to identify the root of the anomaly and implement predictive maintainance. In this paper, we use causal discovery to learn a normal causal graph of the system, and we evaluate the persistency of causal links during real-time acquisition of sensor data to promptly detect anomalies. On two benchmark anomaly detection datasets, we show that our method has higher training efficiency, outperforms the accuracy of state-of-the-art neural architectures and correctly identifies the sources of >10 different anomalies. The code is at https://github.com/Isla-lab/causal_anomaly_detection.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# 第9回 NTIRE 2024 能率超解法問題報告

The Ninth NTIRE 2024 Efficient Super-Resolution Challenge Report ( http://arxiv.org/abs/2404.10343v2 )

ライセンス: Link先を確認
Bin Ren, Yawei Li, Nancy Mehta, Radu Timofte, Hongyuan Yu, Cheng Wan, Yuxin Hong, Bingnan Han, Zhuoyuan Wu, Yajun Zou, Yuqing Liu, Jizhe Li, Keji He, Chao Fan, Heng Zhang, Xiaolin Zhang, Xuanwu Yin, Kunlong Zuo, Bohao Liao, Peizhe Xia, Long Peng, Zhibo Du, Xin Di, Wangkai Li, Yang Wang, Wei Zhai, Renjing Pei, Jiaming Guo, Songcen Xu, Yang Cao, Zhengjun Zha, Yan Wang, Yi Liu, Qing Wang, Gang Zhang, Liou Zhang, Shijie Zhao, Long Sun, Jinshan Pan, Jiangxin Dong, Jinhui Tang, Xin Liu, Min Yan, Qian Wang, Menghan Zhou, Yiqiang Yan, Yixuan Liu, Wensong Chan, Dehua Tang, Dong Zhou, Li Wang, Lu Tian, Barsoum Emad, Bohan Jia, Junbo Qiao, Yunshuai Zhou, Yun Zhang, Wei Li, Shaohui Lin, Shenglong Zhou, Binbin Chen, Jincheng Liao, Suiyi Zhao, Zhao Zhang, Bo Wang, Yan Luo, Yanyan Wei, Feng Li, Mingshen Wang, Yawei Li, Jinhan Guan, Dehua Hu, Jiawei Yu, Qisheng Xu, Tao Sun, Long Lan, Kele Xu, Xin Lin, Jingtong Yue, Lehan Yang, Shiyi Du, Lu Qi, Chao Ren, Zeyu Han, Yuhan Wang, Chaolin Chen, Haobo Li, Mingjun Zheng, Zhongbao Yang, Lianhong Song, Xingzhuo Yan, Minghan Fu, Jingyi Zhang, Baiang Li, Qi Zhu, Xiaogang Xu, Dan Guo, Chunle Guo, Jiadi Chen, Huanhuan Long, Chunjiang Duanmu, Xiaoyan Lei, Jie Liu, Weilin Jia, Weifeng Cao, Wenlong Zhang, Yanyu Mao, Ruilong Guo, Nihao Zhang, Qian Wang, Manoj Pandey, Maksym Chernozhukov, Giang Le, Shuli Cheng, Hongyuan Wang, Ziyan Wei, Qingting Tang, Liejun Wang, Yongming Li, Yanhui Guo, Hao Xu, Akram Khatami-Rizi, Ahmad Mahmoudi-Aznaveh, Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, Amogh Joshi, Nikhil Akalwadi, Sampada Malagi, Palani Yashaswini, Chaitra Desai, Ramesh Ashok Tabib, Ujwala Patil, Uma Mudenagudi, (参考訳) 本稿では,NTIRE 2024の課題を概観し,効率的な単一画像超解解法(ESR)とその結果に焦点をあてる。 この課題の課題は、低解像度と対応する高解像度の画像対に基づいて、x4倍率の入力画像を超解することである。 主な目的は、DIV2K_LSDIR_validデータセットで26.90dB、DIV2K_LSDIR_testデータセットで26.99dBのピーク信号対雑音比(PSNR)を維持しながら、ランタイム、パラメータ、FLOPなどの様々な側面を最適化するネットワークを開発することである。 また、メイントラック(オーバーパフォーマンス)、サブトラック1(ランタイム)、サブトラック2(FLOP)、サブトラック3(パラメータ)の4トラックがある。 メイントラックでは、すべての3つのメトリクス(実行時、FLOP、パラメータカウント)が考慮された。 メイントラックの順位は、他の全てのサブトラックのスコアの重み付け和に基づいて算出される。 サブトラック1では,提案項目の実際の実行時性能を評価し,対応するスコアを用いてランキングを決定する。 準線路2ではFLOPの数が考慮された。 順位を決定するために、対応するFLOPに基づいて算出したスコアを使用した。 サブトラック3ではパラメータの数を考慮した。 順位を決定するために,対応するパラメータに基づいて算出したスコアを用いた。 RLFNは効率測定の基準線として設定される。 このチャレンジには262人の登録参加者が参加し、34チームが有効な応募を行った。 彼らは効率の良いシングルイメージ超解像で最先端の計測を行う。 課題の再現性を促進し、他の研究者がこれらの発見に基づいて構築できるように、検証済みソリューションのコードと事前トレーニングされたモデルはhttps://github.com/Amazingren/NTIRE2024_ESR/で公開されている。

This paper provides a comprehensive review of the NTIRE 2024 challenge, focusing on efficient single-image super-resolution (ESR) solutions and their outcomes. The task of this challenge is to super-resolve an input image with a magnification factor of x4 based on pairs of low and corresponding high-resolution images. The primary objective is to develop networks that optimize various aspects such as runtime, parameters, and FLOPs, while still maintaining a peak signal-to-noise ratio (PSNR) of approximately 26.90 dB on the DIV2K_LSDIR_valid dataset and 26.99 dB on the DIV2K_LSDIR_test dataset. In addition, this challenge has 4 tracks including the main track (overall performance), sub-track 1 (runtime), sub-track 2 (FLOPs), and sub-track 3 (parameters). In the main track, all three metrics (ie runtime, FLOPs, and parameter count) were considered. The ranking of the main track is calculated based on a weighted sum-up of the scores of all other sub-tracks. In sub-track 1, the practical runtime performance of the submissions was evaluated, and the corresponding score was used to determine the ranking. In sub-track 2, the number of FLOPs was considered. The score calculated based on the corresponding FLOPs was used to determine the ranking. In sub-track 3, the number of parameters was considered. The score calculated based on the corresponding parameters was used to determine the ranking. RLFN is set as the baseline for efficiency measurement. The challenge had 262 registered participants, and 34 teams made valid submissions. They gauge the state-of-the-art in efficient single-image super-resolution. To facilitate the reproducibility of the challenge and enable other researchers to build upon these findings, the code and the pre-trained model of validated solutions are made publicly available at https://github.com/Amazingren/NTIRE2024_ESR/.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# 大規模言語モデルを用いた感情と倫理のモデル化

Modeling Emotions and Ethics with Large Language Models ( http://arxiv.org/abs/2404.13071v2 )

ライセンス: Link先を確認
Edward Y. Chang, (参考訳) 本稿では,人間のような感情と倫理的考察をLarge Language Models (LLMs) に統合することを検討する。 まず、8つの基本的感情をモデル化し、対立するペアとして提示し、協調的なLLMを用いて、これらの感情を様々な強度で再解釈し表現する。 我々の焦点は、人間のフィードバックによる新しい自己教師付き学習アルゴリズム(SSHF)によって導かれ、LSM内に潜伏する倫理的次元を埋め込むことにまで及んでいる。 このアプローチにより、LLMは倫理的ガイドラインに関する自己評価や調整を行い、感情的に共鳴するだけでなく倫理的に整合したコンテンツを生成する能力を高めることができる。 ここで提示された方法論と事例研究は、LLMが単なるテキストと画像生成を超越し、共感的相互作用と原則化された意思決定の領域に介入し、感情的に意識され倫理的に意識されたAIシステムの開発における新たな先例を定めている。

This paper explores the integration of human-like emotions and ethical considerations into Large Language Models (LLMs). We first model eight fundamental human emotions, presented as opposing pairs, and employ collaborative LLMs to reinterpret and express these emotions across a spectrum of intensity. Our focus extends to embedding a latent ethical dimension within LLMs, guided by a novel self-supervised learning algorithm with human feedback (SSHF). This approach enables LLMs to perform self-evaluations and adjustments concerning ethical guidelines, enhancing their capability to generate content that is not only emotionally resonant but also ethically aligned. The methodologies and case studies presented herein illustrate the potential of LLMs to transcend mere text and image generation, venturing into the realms of empathetic interaction and principled decision-making, thereby setting a new precedent in the development of emotionally aware and ethically conscious AI systems.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# 聖典のモデリング--自然言語処理における宗教的テキストの利用に関する考察

Modeling the Sacred: Considerations when Using Religious Texts in Natural Language Processing ( http://arxiv.org/abs/2404.14740v2 )

ライセンス: Link先を確認
Ben Hutchinson, (参考訳) 本論文は,NLPの倫理に特に関心を持つ自然言語処理(NLP)における宗教テキストの使用について述べる。 宗教テキストは文化的に重要な価値の表現であり、機械学習モデルは、彼らのトレーニングデータにエンコードされた文化的価値を再現する確率を持っている。 さらに、宗教テキストの翻訳は、言語データが不足している場合、NLP研究者によって頻繁に使用される。 これは、しばしば新しいフォロワーを惹きつけることを伴う、彼らの本来の使用と動機から翻訳を再利用する。 本稿は、NLPがそのようなテキストを使うことは、データ証明、文化的文脈、およびそれらの散文論における使用など、モデル偏見を超えた考察を提起するものである、と論じる。 我々は、研究者の立場や、疎外された言語的・宗教的なコミュニティの視点について、さらなる考察を議論する。

This position paper concerns the use of religious texts in Natural Language Processing (NLP), which is of special interest to the Ethics of NLP. Religious texts are expressions of culturally important values, and machine learned models have a propensity to reproduce cultural values encoded in their training data. Furthermore, translations of religious texts are frequently used by NLP researchers when language data is scarce. This repurposes the translations from their original uses and motivations, which often involve attracting new followers. This paper argues that NLP's use of such texts raises considerations that go beyond model biases, including data provenance, cultural contexts, and their use in proselytism. We argue for more consideration of researcher positionality, and of the perspectives of marginalized linguistic and religious communities.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# IDアニメーター:ゼロショットアイデンティティ保存ヒューマンビデオ生成

ID-Animator: Zero-Shot Identity-Preserving Human Video Generation ( http://arxiv.org/abs/2404.15275v3 )

ライセンス: Link先を確認
Xuanhua He, Quande Liu, Shengju Qian, Xin Wang, Tao Hu, Ke Cao, Keyu Yan, Jie Zhang, (参考訳) 特定のアイデンティティを持つ高忠実度人間ビデオの生成は、コンテンツ生成コミュニティにおいて大きな注目を集めている。 しかし、既存のテクニックは、ビデオ生成プロセスにおいて、面倒なケースバイケースの微調整を必要とするか、通常、アイデンティティの詳細を欠くか、トレーニング効率とアイデンティティ保存のバランスをとるのに苦労している。 本研究では,1つの参照顔画像からパーソナライズされた映像を生成するゼロショット映像生成手法である「textbf{ID-Animator}」を提案する。 ID-Animatorは既存の拡散ベースのビデオ生成バックボーンをフェイスアダプタで継承し、学習可能な顔認識クエリからID関連埋め込みを符号化する。 映像生成におけるアイデンティティ情報の抽出を容易にするため、構築された顔画像プールから、統合された人間の属性とアクションキャプション技術を組み込んだID指向データセット構築パイプラインを導入する。 このパイプラインに基づいて、ID保存損失を伴うID関連埋め込みを正確に捕捉するランダム参照トレーニング戦略を考案し、ID固有ビデオ生成モデルにおける忠実度と一般化能力を向上させる。 大規模な実験は、以前のモデルよりもパーソナライズされた人間ビデオを生成するためのID-アニメーションの優位性を実証している。 さらに,本手法は,アニメーションフや各種コミュニティバックボーンモデルといった,トレーニング済みのT2Vモデルと互換性が高く,アイデンティティの保存が望まれる実世界のビデオ生成アプリケーションにおいて,高い拡張性を示す。 私たちのコードとチェックポイントはhttps://github.com/ID-Animator/ID-Animator.comで公開されています。

Generating high-fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case fine-tuning or usually missing identity details in the video generation process. In this study, we present \textbf{ID-Animator}, a zero-shot human-video generation approach that can perform personalized video generation given a single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline that incorporates unified human attributes and action captioning techniques from a constructed facial image pool. Based on this pipeline, a random reference training strategy is further devised to precisely capture the ID-relevant embeddings with an ID-preserving loss, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints are released at https://github.com/ID-Animator/ID-Animator.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# Dual-isometric Projected Entangled Pair States

Dual-isometric Projected Entangled Pair States ( http://arxiv.org/abs/2404.16783v2 )

ライセンス: Link先を確認
Xie-Hang Yu, J. Ignacio Cirac, Pavel Kos, Georgios Styliaris, (参考訳) 高次元多体物理状態の効率的なキャラクタリゼーションは重要な課題を示す。 本稿では,2つの等尺条件を組み込んだプロジェクト・エンタングルド・ペア・ステート(PEPS)を提案する。 この新たなクラスは、一般的な局所可観測関数の効率的な計算や、一般的なPEPSやPEPSに対して1つの等尺的制約のみを課すような2点相関関数の効率的な計算を容易にする。 2つの等尺条件が組み込まれているにもかかわらず、我々のクラスは分析能力を高めながらリッチな物理構造を保っている。 可変パラメータの大規模なセットが特徴で、一般的なPEPSと比較すると、サブリード補正のみである。 さらに、このクラスが普遍的な量子計算を符号化し、位相的から自明な順序への遷移を表現できることを解析的に示す。

Efficient characterization of higher dimensional many-body physical states presents significant challenges. In this paper, we propose a new class of Project Entangled Pair State (PEPS) that incorporates two isometric conditions. This new class facilitates the efficient calculation of general local observables and certain two-point correlation functions, which have been previously shown to be intractable for general PEPS, or PEPS with only a single isometric constraint. Despite incorporating two isometric conditions, our class preserves the rich physical structure while enhancing the analytical capabilities. It features a large set of tunable parameters, with only a subleading correction compared to that of general PEPS. Furthermore, we analytically demonstrate that this class can encode universal quantum computations and can represent a transition from topological to trivial order.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# MaPa:3次元形状のためのテキスト駆動フォトリアリスティックマテリアルペイント

MaPa: Text-driven Photorealistic Material Painting for 3D Shapes ( http://arxiv.org/abs/2404.17569v2 )

ライセンス: Link先を確認
Shangzhan Zhang, Sida Peng, Tao Xu, Yuanbo Yang, Tianrun Chen, Nan Xue, Yujun Shen, Hujun Bao, Ruizhen Hu, Xiaowei Zhou, (参考訳) 本稿では,テキスト記述から3次元メッシュの材料を作成することを目的とする。 テクスチャマップを合成する既存の方法とは違って,高品質なレンダリングをサポートし,編集の柔軟性に優れる外観表現として,セグメントワイズプロシージャ素材グラフを生成することを提案する。 物質グラフとそれに対応するテキスト記述を含む3次元メッシュを併用して,物質グラフ生成モデルをトレーニングする代わりに,既学習の2次元拡散モデルをブリッジとして活用し,テキストと物質グラフを接続する手法を提案する。 具体的には,形状をセグメントの集合に分解し,メッシュ部品に整列した2次元画像を合成するためのセグメント制御拡散モデルを設計する。 生成した画像に基づいて、材料グラフのパラメータを初期化し、それを微分可能なレンダリングモジュールを通して微調整し、テキスト記述に従って材料を生成する。 大規模な実験は、既存の方法よりもフォトリアリズム、解像度、編集性において、我々のフレームワークの優れた性能を示す。 プロジェクトページ:https://zju3dv.github.io/MaPa

This paper aims to generate materials for 3D meshes from text descriptions. Unlike existing methods that synthesize texture maps, we propose to generate segment-wise procedural material graphs as the appearance representation, which supports high-quality rendering and provides substantial flexibility in editing. Instead of relying on extensive paired data, i.e., 3D meshes with material graphs and corresponding text descriptions, to train a material graph generative model, we propose to leverage the pre-trained 2D diffusion model as a bridge to connect the text and material graphs. Specifically, our approach decomposes a shape into a set of segments and designs a segment-controlled diffusion model to synthesize 2D images that are aligned with mesh parts. Based on generated images, we initialize parameters of material graphs and fine-tune them through the differentiable rendering module to produce materials in accordance with the textual description. Extensive experiments demonstrate the superior performance of our framework in photorealism, resolution, and editability over existing methods. Project page: https://zju3dv.github.io/MaPa
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# TabVFL: 垂直的フェデレーション学習における潜在表現の改善

TabVFL: Improving Latent Representation in Vertical Federated Learning ( http://arxiv.org/abs/2404.17990v2 )

ライセンス: Link先を確認
Mohamed Rashad, Zilong Zhao, Jeremie Decouchant, Lydia Y. Chen, (参考訳) オートエンコーダは、高次元データを圧縮して関連する潜伏情報を抽出できる人気のあるニューラルネットワークである。 TabNetは、トレーニングにオートエンコーダアーキテクチャを使用する、表データ用に設計された最先端のニューラルネットワークモデルである。 Vertical Federated Learning(VFL)は、複数のパーティがデータのプライバシを維持しながら、垂直に分割されたデータ上で協調的にモデルをトレーニングできる、新興の分散機械学習パラダイムである。 VFLにおけるトレーニングオートエンコーダの既存の設計は、各参加者に個別のオートエンコーダを訓練し、後から遅延表現を集約するものである。 この設計は、各オートエンコーダが、他の機能を無視しながら、ローカルに利用可能な機能についてトレーニングされているため、参加者間の重要な相関関係を損なう可能性がある。 さらに、従来のオートエンコーダは、VFL設定でユビキタスな表データのために特別に設計されていない。 さらに、トレーニング中のクライアントの障害がモデルロバスト性に与える影響は、VFLシーンであまり研究されていない。 本稿では,参加者の協調的特徴を用いた潜在表現学習の改善を目的とした分散フレームワークTabVFLを提案する。 枠組み i) 完全な接続層の追加により潜在的なデータ漏洩を軽減し、プライバシを保護する。 (ii)1つの潜在表現ベクトルを学習して特徴相関を保存し、 (iii) トレーニングフェーズにおけるクライアントの障害に対する堅牢性の向上。 5つの分類データセットの大規模な実験により、TabVFLはf1スコアの26.12%の改善により、以前の設計より優れていることが示された。

Autoencoders are popular neural networks that are able to compress high dimensional data to extract relevant latent information. TabNet is a state-of-the-art neural network model designed for tabular data that utilizes an autoencoder architecture for training. Vertical Federated Learning (VFL) is an emerging distributed machine learning paradigm that allows multiple parties to train a model collaboratively on vertically partitioned data while maintaining data privacy. The existing design of training autoencoders in VFL is to train a separate autoencoder in each participant and aggregate the latent representation later. This design could potentially break important correlations between feature data of participating parties, as each autoencoder is trained on locally available features while disregarding the features of others. In addition, traditional autoencoders are not specifically designed for tabular data, which is ubiquitous in VFL settings. Moreover, the impact of client failures during training on the model robustness is under-researched in the VFL scene. In this paper, we propose TabVFL, a distributed framework designed to improve latent representation learning using the joint features of participants. The framework (i) preserves privacy by mitigating potential data leakage with the addition of a fully-connected layer, (ii) conserves feature correlations by learning one latent representation vector, and (iii) provides enhanced robustness against client failures during training phase. Extensive experiments on five classification datasets show that TabVFL can outperform the prior work design, with 26.12% of improvement on f1-score.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# テンソルトレインを用いたフーリエオプション価格の学習パラメータ依存性

Learning parameter dependence for Fourier-based option pricing with tensor trains ( http://arxiv.org/abs/2405.00701v5 )

ライセンス: Link先を確認
Rihito Sakurai, Haruto Takahashi, Koichi Miyamoto, (参考訳) 数学ファイナンスにおける長年の問題として、価格オプションのスピードアップ、特にマルチアセットオプションがあげられる。 最近の研究では、テンソルネットワークの高次元テンソル圧縮能力を活用して、テンソルトレイン学習アルゴリズムを用いてフーリエ変換(FT)に基づくオプション価格の高速化が提案されている。 テンソルネットワークのもう1つの用途は、パラメータ依存を含む関数を圧縮することである。 そこで本研究では,FTベースのオプション価格に現れる関数をパラメータ依存で近似したテンソルトレインを構築し,入力パラメータのオプション価格を効率的に算出する,テンソル学習アルゴリズムを提案する。 ベンチマークテストとして,様々な揮発性の値と現在の資産価格に対するマルチアセットオプションの価格設定を行う。 提案手法は, 最大11個の資産を含む試験ケースにおいて, モンテカルロシミュレーションを計算複雑性の観点から10^5$パスで比較し, 精度を同等に保った。

A long-standing issue in mathematical finance is the speed-up of pricing options, especially multi-asset options. A recent study has proposed to use tensor train learning algorithms to speed up Fourier transform (FT)-based option pricing, utilizing the ability of tensor networks to compress high-dimensional tensors. Another usage of the tensor network is to compress functions, including their parameter dependence. In this study, we propose a pricing method, where, by a tensor learning algorithm, we build tensor trains that approximate functions appearing in FT-based option pricing with their parameter dependence and efficiently calculate the option price for the varying input parameters. As a benchmark test, we run the proposed method to price a multi-asset option for the various values of volatilities and present asset prices. We show that, in the tested cases involving up to 11 assets, the proposed method is comparable to or outperforms Monte Carlo simulation with $10^5$ paths in terms of computational complexity, keeping the comparable accuracy.
翻訳日:2024-06-26 19:59:30 公開日:2024-06-25
# 医療における大規模言語モデル:総合ベンチマーク

Large Language Models in Healthcare: A Comprehensive Benchmark ( http://arxiv.org/abs/2405.00716v2 )

ライセンス: Link先を確認
Andrew Liu, Hongjian Zhou, Yining Hua, Omid Rohanian, Anshul Thakur, Lei Clifton, David A. Clifton, (参考訳) 臨床医を支援するための大規模言語モデル(LLM)の導入が注目されている。 既存の作業は主に、評価のための回答オプションを備えたクローズドな質問応答(QA)タスクを採用しています。 しかし、多くの臨床的決定は、事前に設定された選択肢なしで、オープンエンドの質問に答えることを含む。 診療所におけるLSMの理解を深めるため,ベンチマークCysicBenchを構築した。 まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。 さらに,6つの新しいデータセットと,参照QA,治療勧告,入院(長期文書)要約,患者教育,薬理学QA,新興医薬品の薬物相互作用など,現実の実践に近い複雑な臨床タスクを構築した。 ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。 最後に, LLMの臨床的有用性を評価するために, 医療専門家を招待する。

The adoption of large language models (LLMs) to assist clinicians has attracted remarkable attention. Existing works mainly adopt the close-ended question-answering (QA) task with answer options for evaluation. However, many clinical decisions involve answering open-ended questions without pre-set options. To better understand LLMs in the clinic, we construct a benchmark ClinicBench. We first collect eleven existing datasets covering diverse clinical language generation, understanding, and reasoning tasks. Furthermore, we construct six novel datasets and complex clinical tasks that are close to real-world practice, i.e., referral QA, treatment recommendation, hospitalization (long document) summarization, patient education, pharmacology QA and drug interaction for emerging drugs. We conduct an extensive evaluation of twenty-two LLMs under both zero-shot and few-shot settings. Finally, we invite medical experts to evaluate the clinical usefulness of LLMs.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# 位数 8n$ の非アーベル群上のケイリーグラフ上の完全状態移動

Perfect state transfer on Cayley graphs over a non-abelian group of order $8n$ ( http://arxiv.org/abs/2405.02122v2 )

ライセンス: Link先を確認
Akash Kalita, Bikash Bhattacharjya, (参考訳) グラフ $\Gamma$ と隣接行列 $A$ の \textit{transition matrix} は、$H(\tau ) := \exp(-\mathbf{i}\tau A)$, ここで $\tau \in \mathbb{R}$ と $\mathbf{i} = \sqrt{-1}$ で定義される。 グラフ $\Gamma$ は、$u$ と $v$ の間にある \textit{perfect state transfer} (PST) を示し、$\lvert H(\tau_0)_{uv} \rvert = 1$ となるような $\tau_0(>0)\in \mathbb{R}$ が存在する。 正の整数 $n$ に対して、群 $V_{8n}$ は $V_{8n} := \langle a,b \colon a^{2n} = b^{4} = 1, ba = a^{-1}b^{-1}, b^{-1}a = a^{-1}b \rangle$ と定義される。 本稿では、ケイリーグラフ上の完全状態移動の存在を$\text{Cay}(V_{8n}, S)$で研究する。 我々は、$\text{Cay}(V_{8n}, S)$ 上の完全状態移動の存在に必要な条件を提示する。

The \textit{transition matrix} of a graph $\Gamma$ with adjacency matrix $A$ is defined by $H(\tau ) := \exp(-\mathbf{i}\tau A)$, where $\tau \in \mathbb{R}$ and $\mathbf{i} = \sqrt{-1}$. The graph $\Gamma$ exhibits \textit{perfect state transfer} (PST) between the vertices $u$ and $v$ if there exists $\tau_0(>0)\in \mathbb{R}$ such that $\lvert H(\tau_0)_{uv} \rvert = 1$. For a positive integer $n$, the group $V_{8n}$ is defined as $V_{8n} := \langle a,b \colon a^{2n} = b^{4} = 1, ba = a^{-1}b^{-1}, b^{-1}a = a^{-1}b \rangle$. In this paper, we study the existence of perfect state transfer on Cayley graphs $\text{Cay}(V_{8n}, S)$. We present some necessary and sufficient conditions for the existence of perfect state transfer on $\text{Cay}(V_{8n}, S)$.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# Dirac Brackets $\leftrightarrow$ Lindblad Equation: 対応

Dirac Brackets $\leftrightarrow$ Lindblad Equation: A Correspondence ( http://arxiv.org/abs/2405.02566v2 )

ライセンス: Link先を確認
Aleek Maity, V V Sreedhar, (参考訳) 開量子系の時間発展は、系の還元密度作用素に対するゴリーニ-コサコフスキー-スダルシャン-リンドラー方程式によって制御される。 この演算子は、システム自体、入浴、およびそれら間の相互作用を含む複合系の全密度演算子から、浴の度合いに部分的トレースを行うことにより得られる。 システムと浴場の絡み合いは、システムの散逸と脱コヒーレンスを含む、一般化したリウヴィルの進化に繋がる。 同様に、古典的に制約された力学系における物理的可観測物の時間発展は、通常のポアソンブラケットをいわゆるディラックブラケットに置き換える、リウヴィル方程式の一般化によって制御される。 一般化はシステムの位相空間の減少を考慮に入れているが、これは手動で導入されるか、下層のゲージ不変性によって生じる制約のためである。 我々は、リンドブラッド作用素と制約を接続する上記の状況の間の興味深いが正確な古典量子対応を導出する。 この対応は、ボンベリ、コール、リー、ソーキンによるブラックホールの領域法則の文脈で以前に研究され、スレッディニッキーによって独立に研究された単純な調和振動子の系で説明される。

The time evolution of an open quantum system is governed by the Gorini-Kossakowski-Sudarshan-Lindlad equation for the reduced density operator of the system. This operator is obtained from the full density operator of the composite system involving the system itself, the bath, and the interactions between them, by performing a partial trace over the bath degrees of freedom. The entanglement between the system and the bath leads to a generalized Liouville evolution that involves, amongst other things, dissipation and decoherence of the system. In a similar fashion, the time evolution of a physical observable in a classically constrained dynamical system is governed by a generalization of the Liouville equation, in which the usual Poisson bracket is replaced by the so-called Dirac bracket. The generalization takes into account the reduction in the phase space of the system because of constraints, which arise either because they are introduced by hand, or because of some underlying gauge invariance. We derive an intriguing, but precise classical-quantum correspondence between the aforementioned situations which connects the Lindblad operators to the constraints. The correspondence is illustrated in a system of coupled simple harmonic oscillators studied earlier in the context of the area law of black holes by Bombelli, Koul, Lee, and Sorkin, and independently by Srednicki.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# 圧縮ビデオにおける遠隔心拍推定のための深部パルス信号拡大法

Deep Pulse-Signal Magnification for remote Heart Rate Estimation in Compressed Videos ( http://arxiv.org/abs/2405.02652v2 )

ライセンス: Link先を確認
Joaquim Comas, Adria Ruiz, Federico Sukno, (参考訳) 遠隔胸部CT(remote Photoplethysmography, RPPG)に対するデータ駆動型アプローチの最近の進歩は, 遠隔心拍推定の精度を著しく向上させた。 しかし, 映像圧縮では, 映像データを効率よく保存・送信する必要があり, 映像圧縮では性能が著しく低下する。 本稿では,rPPG信号が拡大される非圧縮データ領域に圧縮映像を適応させるため,パルス信号の倍率変換を利用したrPPG推定におけるビデオ圧縮の影響に対処する新しい手法を提案する。 UCLA-rPPG と UBFC-rPPG の2つの公開データセットに対して,複数の圧縮速度でデータベース内性能とデータベース間性能を両立させることにより,本モデルの有効性を検証した。 さらに,MAHNOB-HCI と COHFACE の2つの高圧縮・広帯域化データセットに対して,本手法のロバスト性を評価し,心拍数推定結果の顕著さを明らかにした。

Recent advancements in data-driven approaches for remote photoplethysmography (rPPG) have significantly improved the accuracy of remote heart rate estimation. However, the performance of such approaches worsens considerably under video compression, which is nevertheless necessary to store and transmit video data efficiently. In this paper, we present a novel approach to address the impact of video compression on rPPG estimation, which leverages a pulse-signal magnification transformation to adapt compressed videos to an uncompressed data domain in which the rPPG signal is magnified. We validate the effectiveness of our model by exhaustive evaluations on two publicly available datasets, UCLA-rPPG and UBFC-rPPG, employing both intra- and cross-database performance at several compression rates. Additionally, we assess the robustness of our approach on two additional highly compressed and widely-used datasets, MAHNOB-HCI and COHFACE, which reveal outstanding heart rate estimation results.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models

R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.02659v2 )

ライセンス: Link先を確認
Taolin Zhang, Dongyang Li, Qizhou Chen, Chengyu Wang, Longtao Huang, Hui Xue, Xiaofeng He, Jun Huang, (参考訳) Retrieval-augmented large language model (LLMs) は、情報検索システムによって検索された関連コンテンツを利用して正しい応答を生成し、幻覚の問題を緩和することを目的としている。 しかし、既存のレトリバー・サプライヤ法では、検索した文書とLLM間の微細な構造的意味論の相互作用を考慮せずに、テキスト生成タスクを実行するために、関連文書をLLMのプロンプトに付加するのが一般的である。 この問題は、長い文書で拡張された入力プロンプトを扱う場合、LSMは「中間にある」傾向があるため、正確な応答生成には特に重要である。 本研究では,LLMの文書順序付けを学習し,LLMの膨大なパラメータが凍結したまま生成能力を向上させるため,Reinforced Retriever-Reorder-Responder (R$^4$) と呼ばれる新しいパイプラインを提案する。 再順序学習プロセスは、生成した応答の質に応じて、文書順序調整と文書表現強調という2つのステップに分けられる。 具体的には、検索した文書注文を、グラフ注意学習に基づいて、開始、中、終了位置に整理することを目的としており、応答品質の強化報酬を最大化する。 文書表現の強化は、文書レベルの勾配対向学習を通じて、品質の悪い応答に対する検索された文書の表現をさらに洗練する。 大規模な実験により,提案したパイプラインは,様々な公開データセットの強いベースラインと比較して,知識集約的なタスクに対して,現実的な質問応答性能が向上することが示された。 ソースコードとトレーニングされたモデルは、論文の受理時にリリースされる。

Retrieval-augmented large language models (LLMs) leverage relevant content retrieved by information retrieval systems to generate correct responses, aiming to alleviate the hallucination problem. However, existing retriever-responder methods typically append relevant documents to the prompt of LLMs to perform text generation tasks without considering the interaction of fine-grained structural semantics between the retrieved documents and the LLMs. This issue is particularly important for accurate response generation as LLMs tend to "lose in the middle" when dealing with input prompts augmented with lengthy documents. In this work, we propose a new pipeline named "Reinforced Retriever-Reorder-Responder" (R$^4$) to learn document orderings for retrieval-augmented LLMs, thereby further enhancing their generation abilities while the large numbers of parameters of LLMs remain frozen. The reordering learning process is divided into two steps according to the quality of the generated responses: document order adjustment and document representation enhancement. Specifically, document order adjustment aims to organize retrieved document orderings into beginning, middle, and end positions based on graph attention learning, which maximizes the reinforced reward of response quality. Document representation enhancement further refines the representations of retrieved documents for responses of poor quality via document-level gradient adversarial learning. Extensive experiments demonstrate that our proposed pipeline achieves better factual question-answering performance on knowledge-intensive tasks compared to strong baselines across various public datasets. The source codes and trained models will be released upon paper acceptance.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# 量子ビット型量子シミュレータにおける$d$レベルのシステムの変分シミュレーション

Variational simulation of $d$-level systems on qubit-based quantum simulators ( http://arxiv.org/abs/2405.05051v2 )

ライセンス: Link先を確認
Chufan Lyu, Zuoheng Zou, Xusheng Xu, Man-Hong Yung, Abolfazl Bayat, (参考訳) 現在の量子シミュレータは主に量子ビットベースであり、2レベル量子系をシミュレートするのに自然に適している。 しかし、自然界の多くの系は本質的にd$レベルであり、より高いスピン、ボゾン、振動モード、反復電子を含む。 量子シミュレータ上で$d$レベルのシステムをシミュレートするためには、$d$レベルのシステムをqubitベースにマッピングするために符号化法が必要である。 そのような写像はヒルベルト空間における非正規状態を導入し、シミュレーションをより洗練されたものにすることができる。 本稿では,不正状態に対処するための体系的手法を開発する。 さらに,二進法と対称符号化法という2つの異なるマッピングを比較し,様々な多体系の基底状態と時間変化の変動シミュレーションによりそれらの性能を比較した。 二進符号化は量子ビットの数に関して非常に効率的であるが、元のハミルトニアンの対称性を回路設計に組み込むのは容易ではない。 一方、対称性符号化は回路設計における対称性の実装を促進するが、量子ビットの数にはオーバーヘッドが伴う。 解析の結果、余分な量子ビットを必要とするにもかかわらず、対称性の符号化はバイナリ符号化よりも著しく優れていた。 それらの利点は、より少ない2ビットゲートを必要とし、より速く収束し、バレン高原に対してより弾力性があることによって示される。 我々は,スピン-1,スピン-3/2,ボソニック系の変分基底状態シミュレーションを行い,スピン-1系の変分時間進化を行った。 提案手法は既存の量子シミュレータ上で実装でき、そのポテンシャルは幅広い物理モデルに拡張可能である。

Current quantum simulators are primarily qubit-based, making them naturally suitable for simulating 2-level quantum systems. However, many systems in nature are inherently $d$-level, including higher spins, bosons, vibrational modes, and itinerant electrons. To simulate $d$-level systems on qubit-based quantum simulators, an encoding method is required to map the $d$-level system onto a qubit basis. Such mapping may introduce illegitimate states in the Hilbert space which makes the simulation more sophisticated. In this paper, we develop a systematic method to address the illegitimate states. In addition, we compare two different mappings, namely binary and symmetry encoding methods, and compare their performance through variational simulation of the ground state and time evolution of various many-body systems. While binary encoding is very efficient with respect to the number of qubits it cannot easily incorporate the symmetries of the original Hamiltonian in its circuit design. On the other hand, the symmetry encoding facilitates the implementation of symmetries in the circuit design, though it comes with an overhead for the number of qubits. Our analysis shows that the symmetry encoding significantly outperforms the binary encoding, despite requiring extra qubits. Their advantage is indicated by requiring fewer two-qubit gates, converging faster, and being far more resilient to Barren plateaus. We have performed variational ground state simulations of spin-1, spin-3/2, and bosonic systems as well as variational time evolution of spin-1 systems. Our proposal can be implemented on existing quantum simulators and its potential is extendable to a broad class of physical models.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# LLMの真正集約とオンライン広告への応用

Truthful Aggregation of LLMs with an Application to Online Advertising ( http://arxiv.org/abs/2405.05905v2 )

ライセンス: Link先を確認
Ermis Soumalias, Michael J. Curry, Sven Seuken, (参考訳) オンラインプラットフォームは、広告を自社コンテンツと一緒に表示することによって、年間数十億ドルの収益を生み出している。 現在、これらのプラットフォームはサービスにLLM(Large Language Models)を統合している。 これにより、LLM生成コンテンツから収益を生み出すことが、オンライン広告における次の大きな課題となる。 プラットフォームは広告主の価値を最大化し、ユーザの満足度を確保することを目的としている。 本稿では, LLM の微調整やモデルウェイトへのアクセスなしに動作し, 計算資源の増加に伴い, プラットフォームが目的とする最適微調整 LLM の出力に確実に収束するオークション機構を提案する。 当社のメカニズムは,広告主にとって真正な報告が支配的な戦略であることを保証し,広告主の効用と社会福祉への貢献を両立させる。 さらに、広告主に関するコンテキスト情報を組み込むことができ、コンバージェンスを大幅に加速する。 公開されているLLMを用いた実験により,当社のメカニズムは,計算オーバーヘッドの少ない広告主の価値とプラットフォーム収益を著しく向上させることが示された。 当社のモチベーションアプリケーションはオンライン広告である一方、当社の仕組みは金銭的移転を伴うあらゆる場面で適用可能であり、LCM生成された返信よりも利己的なエージェントの選好を真に集約するための汎用的なソリューションである。

Online platforms generate hundreds of billions of dollars in revenue per year by showing advertisements alongside their own content. Currently, these platforms are integrating Large Language Models (LLMs) into their services. This makes revenue generation from LLM-generated content the next major challenge in online advertising. We consider a scenario where advertisers aim to influence the responses of an LLM to align with their interests, while platforms seek to maximize advertiser value and ensure user satisfaction. We introduce an auction mechanism for this problem that operates without LLM fine-tuning or access to model weights and provably converges to the output of the optimally fine-tuned LLM for the platform's objective as computational resources increase. Our mechanism ensures that truthful reporting is a dominant strategy for advertisers and it aligns each advertiser's utility with their contribution to social welfare - an essential feature for long-term viability. Additionally, it can incorporate contextual information about the advertisers, significantly accelerating convergence. Via experiments with a publicly available LLM, we show that our mechanism significantly boosts advertiser value and platform revenue, with low computational overhead. While our motivating application is online advertising, our mechanism can be applied in any setting with monetary transfers, making it a general-purpose solution for truthfully aggregating the preferences of self-interested agents over LLM-generated replies.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# コントラスト学習と不確実性推定によるセンチネル2画像の能動学習の促進

Enhancing Active Learning for Sentinel 2 Imagery through Contrastive Learning and Uncertainty Estimation ( http://arxiv.org/abs/2405.13285v2 )

ライセンス: Link先を確認
David Pogorzelski, Peter Arlinghaus, Wenyan Zhang, (参考訳) 本稿では,半教師付き学習(SSL)とアクティブ学習戦略を統合することで,衛星画像解析におけるラベル効率を向上させるための新しい手法を提案する。 提案手法は,モンテカルロ・ドロップアウト(MC Dropout)による不確実性推定と対照的な学習を併用し,特にEurosatデータセットを用いて解析されたSentinel-2画像に着目した。 バランスの取れたクラス分布とバランスの取れていないクラス分布の両方を特徴とするシナリオにおいて,本手法の有効性について検討する。 提案手法は, 分類精度を高く保ちながら, ラベル付け作業の大幅な削減を実現している。 これらの知見は、スケーラブルで費用効率の良い衛星画像解析を容易にするアプローチの可能性、特に広範囲の環境モニタリングと土地利用分類タスクに有利であることを示す。

In this paper, we introduce a novel method designed to enhance label efficiency in satellite imagery analysis by integrating semi-supervised learning (SSL) with active learning strategies. Our approach utilizes contrastive learning together with uncertainty estimations via Monte Carlo Dropout (MC Dropout), with a particular focus on Sentinel-2 imagery analyzed using the Eurosat dataset. We explore the effectiveness of our method in scenarios featuring both balanced and unbalanced class distributions. Our results show that the proposed method performs better than several other popular methods in this field, enabling significant savings in labeling effort while maintaining high classification accuracy. These findings highlight the potential of our approach to facilitate scalable and cost-effective satellite image analysis, particularly advantageous for extensive environmental monitoring and land use classification tasks.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# 大規模言語モデルと光ネットワーク:自動化への道を開く

When Large Language Models Meet Optical Networks: Paving the Way for Automation ( http://arxiv.org/abs/2405.17441v2 )

ライセンス: Link先を確認
Danshi Wang, Yidi Wang, Xiaotian Jiang, Yao Zhang, Yue Pang, Min Zhang, (参考訳) GPTの出現以来、大きな言語モデル(LLM)はあらゆる人生に革命的な進歩をもたらした。 優れた自然言語処理(NLP)技術として、LLMは様々な分野で最先端のパフォーマンスを継続的に達成してきた。 しかし、LPMはNLPタスクの汎用モデルと考えられており、光ネットワークのような特殊な分野の複雑なタスクに適用した場合、課題に直面する可能性がある。 本研究では, LLM駆動型エージェント(AI-Agent)を制御層に配置し, 物理層をインテリジェントに制御し, アプリケーション層との相互作用を効果的に行うことを目的とした, LLM駆動型光ネットワークのフレームワークを提案する。 AI-Agentは、外部ツールを活用して、光ネットワークに特化した包括的なリソースライブラリからドメイン知識を抽出することができる。 これは、ユーザ入力と巧妙なプロンプトによって実現され、光ネットワークにおける自律的な操作と保守のための制御命令と結果表現の生成を可能にする。 専門分野におけるLLMの能力向上と,その複雑なタスクに対する可能性向上のために,迅速なエンジニアリング,ドメイン知識ライブラリの確立,複雑なタスクの実装などの詳細について解説する。 さらに,ネットワークアラーム解析とネットワーク性能最適化という2つの典型的な課題に対して,提案手法を検証した。 良好な応答精度と2,400個のテスト状況のセマティックな類似性は、光ネットワークにおけるLLMの大きな可能性を示している。

Since the advent of GPT, large language models (LLMs) have brought about revolutionary advancements in all walks of life. As a superior natural language processing (NLP) technology, LLMs have consistently achieved state-of-the-art performance on numerous areas. However, LLMs are considered to be general-purpose models for NLP tasks, which may encounter challenges when applied to complex tasks in specialized fields such as optical networks. In this study, we propose a framework of LLM-empowered optical networks, facilitating intelligent control of the physical layer and efficient interaction with the application layer through an LLM-driven agent (AI-Agent) deployed in the control layer. The AI-Agent can leverage external tools and extract domain knowledge from a comprehensive resource library specifically established for optical networks. This is achieved through user input and well-crafted prompts, enabling the generation of control instructions and result representations for autonomous operation and maintenance in optical networks. To improve LLM's capability in professional fields and stimulate its potential on complex tasks, the details of performing prompt engineering, establishing domain knowledge library, and implementing complex tasks are illustrated in this study. Moreover, the proposed framework is verified on two typical tasks: network alarm analysis and network performance optimization. The good response accuracies and sematic similarities of 2,400 test situations exhibit the great potential of LLM in optical networks.
翻訳日:2024-06-26 19:49:31 公開日:2024-06-25
# Superposed Decoding: 単一自己回帰推論パスからの複数の生成

Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass ( http://arxiv.org/abs/2405.18400v3 )

ライセンス: Link先を確認
Ethan Shen, Alan Fan, Sarah M. Pratt, Jae Sung Park, Matthew Wallingford, Sham M. Kakade, Ari Holtzman, Ranjay Krishna, Ali Farhadi, Aditya Kusupati, (参考訳) 現在の多くのアプリケーションは、GitHubのコード補完、Gmailのスマートコンポジション、Appleのメッセージ自動提案など、複数の自動補完ドラフトをタイプしてユーザに提供している。 内部的には、言語モデルは、ドラフトを提供するために自動回帰推論パスを実行することで、これをサポートする。 したがって、ユーザに$k$のドラフトを提供するには、高価な言語モデルを実行する必要がある。 我々は,$k$の推論パスを実行する際の計算コストを軽減するために,自動回帰推論パスの計算コストで$k$のドラフトを生成する新しい復号アルゴリズムであるSuperposed Decodingを提案する。 我々は、言語モデルの次のデコードステップへの入力として$k$ドラフトから最新のトークン埋め込みの重ね合わせをすることで、これを実現する。 すべての推論ステップにおいて、$k$ドラフトと上位$k$トークンを組み合わせて$k^2$新しいドラフトを取得し、最も可能性の高いオプションをキャッシュします。 我々の実験によると、Superposed Decodingの$k$ドラフトは、少なくとも$k\ge3$で$2.44\times$よりも高速で、Nucleus SmplingやGreedy Decodingと同等の一貫性と現実性を持っている。 計算正規化設定では、ユーザ評価は、Nucleus SmplingよりもSuperposed Decodingによって生成されるテキストを明らかに好んでいる。 コードやその他の例はhttps://github.com/RAIVNLab/SuperposedDecodingで公開されている。

Many applications today provide users with multiple auto-complete drafts as they type, including GitHub's code completion, Gmail's smart compose, and Apple's messaging auto-suggestions. Under the hood, language models support this by running an autoregressive inference pass to provide a draft. Consequently, providing $k$ drafts to the user requires running an expensive language model $k$ times. To alleviate the computation cost of running $k$ inference passes, we propose Superposed Decoding, a new decoding algorithm that generates $k$ drafts at the computation cost of one autoregressive inference pass. We achieve this by feeding a superposition of the most recent token embeddings from the $k$ drafts as input to the next decoding step of the language model. At every inference step we combine the $k$ drafts with the top-$k$ tokens to get $k^2$ new drafts and cache the $k$ most likely options, using an n-gram interpolation with minimal compute overhead to filter out incoherent generations. Our experiments show that $k$ drafts from Superposed Decoding are at least as coherent and factual as Nucleus Sampling and Greedy Decoding respectively, while being at least $2.44\times$ faster for $k\ge3$. In a compute-normalized setting, user evaluations demonstrably favor text generated by Superposed Decoding over Nucleus Sampling. Code and more examples open-sourced at https://github.com/RAIVNLab/SuperposedDecoding.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# FAIIR: 若者のメンタルヘルスサービス提供のための会話型AIエージェントアシスタントの構築

FAIIR: Building Toward A Conversational AI Agent Assistant for Youth Mental Health Service Provision ( http://arxiv.org/abs/2405.18553v3 )

ライセンス: Link先を確認
Stephen Obadinma, Alia Lachana, Maia Norman, Jocelyn Rankin, Joanna Yu, Xiaodan Zhu, Darren Mastropaolo, Deval Pandya, Roxana Sultan, Elham Dolatabadi, (参考訳) 世界の医療システムとメンタルヘルス機関は、限られた資源の同時挑戦とともに、若者のメンタルヘルスサービスへの需要が高まっている。 ここでは、危機応答者(CR)が若者のメンタルヘルス支援のために会話を行い、各会話に課題タグを割り当てる、最前線危機支援に焦点を当てる。 本研究では,FAIIR(Frontline Assistant: Issue Identification and Recommendation, FAIIR)を開発した。 主な目的は、CRの認知的負担を軽減し、課題識別の精度を高め、会話後の管理作業を効率化することである。 我々は,FAIIRをふりかえりと将来的な会話の両方で評価し,モデル改良,コンセンサス構築,総合評価のためのアクティブCRエンゲージメントによるループ内設計を強調した。 その結果,FAIIRの平均AUCROCは94%,サンプル平均F1スコアは64%,サンプル平均リコールスコアは81%であった。 また、サイレントテストフェーズにおけるFAIIRツールの堅牢性と一般化性も示しています。 特にCRの反応は、FAIIRの予測と90.9%の一致を示した。 さらに、FAIIRとのエキスパート契約は、オリジナルレーベルとの契約を超過した。 以上の結果から,関連事項の特定を支援することで,CRの負担が軽減され,適切な資源が提供可能であり,緊急の脱エスカレーションを要する危機的状況において,アクティブな救助・強制報告が実施できることが示唆された。

The world's healthcare systems and mental health agencies face both a growing demand for youth mental health services, alongside a simultaneous challenge of limited resources. Here, we focus on frontline crisis support, where Crisis Responders (CRs) engage in conversations for youth mental health support and assign an issue tag to each conversation. In this study, we develop FAIIR (Frontline Assistant: Issue Identification and Recommendation), an advanced tool leveraging an ensemble of domain-adapted and fine-tuned transformer models trained on a large conversational dataset comprising 780,000 conversations. The primary aim is to reduce the cognitive burden on CRs, enhance the accuracy of issue identification, and streamline post-conversation administrative tasks. We evaluate FAIIR on both retrospective and prospective conversations, emphasizing human-in-the-loop design with active CR engagement for model refinement, consensus-building, and overall assessment. Our results indicate that FAIIR achieves an average AUCROC of 94%, a sample average F1-score of 64%, and a sample average recall score of 81% on the retrospective test set. We also demonstrate the robustness and generalizability of the FAIIR tool during the silent testing phase, with less than a 2% drop in all performance metrics. Notably, CRs' responses exhibited an overall agreement of 90.9% with FAIIR's predictions. Furthermore, expert agreement with FAIIR surpassed their agreement with the original labels. To conclude, our findings indicate that assisting with the identification of issues of relevance helps reduce the burden on CRs, ensuring that appropriate resources can be provided and that active rescues and mandatory reporting can take place in critical situations requiring immediate de-escalation.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# WRDScore: 自然言語生成モデル評価のための新しい指標

WRDScore: New Metric for Evaluation of Natural Language Generation Models ( http://arxiv.org/abs/2405.19220v3 )

ライセンス: Link先を確認
Ravil Mussabayev, (参考訳) 自然言語生成の問題や、より具体的にはメソッド名予測は、提案されたモデルがテストデータに基づいて評価される必要がある場合、重大な困難に直面します。 このようなメトリクスは、セマンティクスと構文の両方に関して、単一のメソッドを命名できる汎用性を考える必要がある。 予測された(真の)シーケンスと参照(真の)シーケンスの直接的な重複を測定することは、これらの微妙さを捉えることはできない。 他の埋め込みベースのメトリクスは、精度を測ったり、リコールしたり、両方のシーケンスに厳密な非現実的な仮定を課したりしない。 これらの問題に対処するため、我々は、非常にシンプルで軽量な新しい計量法を提案し、一方で、人間の判断に関して優れた性能を得ながら、仮定に頼らずに精度とリコールを計算することができる。

The problem of natural language generation, and, more specifically, method name prediction, faces significant difficulties when proposed models need to be evaluated on test data. Such a metric would need to consider the versatility with which a single method can be named, with respect to both semantics and syntax. Measuring the direct overlap between the predicted and reference (true) sequences will not be able to capture these subtleties. Other existing embedding based metrics either do not measure precision and recall or impose strict unrealistic assumptions on both sequences. To address these issues, we propose a new metric that, on the one hand, is very simple and lightweight, and, on the other hand, is able to calculate precision and recall without resorting to any assumptions while obtaining good performance with respect to the human judgement.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# トピックモデリングのための大規模言語モデルの包括的評価

Comprehensive Evaluation of Large Language Models for Topic Modeling ( http://arxiv.org/abs/2406.00697v2 )

ライセンス: Link先を確認
Tomoki Doi, Masaru Isonuma, Hitomi Yanaka, (参考訳) 最近の研究は、トピックモデリングにLarge Language Models(LLM)を使用し、与えられたドキュメントの理解可能なトピックラベルを生成する。 しかし、その性能は主に質的に評価されており、その能力について定量的に調べる余地は残されている。 本稿では,トピックの品質,限定文書の幻覚やショートカットなど,LLM固有の関心事の影響,トピックカテゴリのプロンプトによる制御性など,複数の観点からLLMを定量的に評価する。 以上の結果から,LLMは幻覚の少ないコヒーレント・多種多様なトピックを識別できるが,文書の部分のみに着目してショートカットを行う可能性が示唆された。 コントロール性も制限されていることもわかりました。

Recent work utilizes Large Language Models (LLMs) for topic modeling, generating comprehensible topic labels for given documents. However, their performance has mainly been evaluated qualitatively, and there remains room for quantitative investigation of their capabilities. In this paper, we quantitatively evaluate LLMs from multiple perspectives: the quality of topics, the impact of LLM-specific concerns, such as hallucination and shortcuts for limited documents, and LLMs' controllability of topic categories via prompts. Our findings show that LLMs can identify coherent and diverse topics with few hallucinations but may take shortcuts by focusing only on parts of documents. We also found that their controllability is limited.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# グラフ同型・色・距離ゲームにおける通信複雑度

Communication Complexity of Graph Isomorphism, Coloring, and Distance Games ( http://arxiv.org/abs/2406.02199v2 )

ライセンス: Link先を確認
Pierre Botteron, Moritz Weber, (参考訳) 量子情報において、非局所ゲームは古典的、量子的、および非シグナリング相関の微分に特に有用である。 区別の例としては、通信複雑性の非崩壊の原理があり、これは実現可能な物理理論に必要なものとしてしばしば解釈される。 量子相関によって満たされるが、いくつかの非シグナリングによって破られる。 本研究では,グラフ理論に関連する3つの非局所ゲームについて,よく知られたグラフ同型およびグラフカラー化ゲームから始まり,パラメータ$D\in\mathbb N$で新たなゲームである頂点距離ゲームを導入することから,この原理を考察する。 これら3つのゲームに対して、最適な条件下での通信複雑性を崩壊させる完全ノンシグナリング戦略が証明される。 また、グラフの分数同型、すなわちD-分数同型(D-分数同型)の洗練も定義し、これは頂点距離ゲームに対する完全非符号戦略を特徴付けることを示す。 意外なことに、パラメータDが非シグナリング設定でのみ可視であるため、非シグナリング戦略は古典的および量子的戦略と比較して、新しいゲームに対してより微妙な区別を与える。

In quantum information, nonlocal games are particularly useful for differentiating classical, quantum, and non-signalling correlations. An example of differentiation is given by the principle of no-collapse of communication complexity, which is often interpreted as necessary for a feasible physical theory. It is satisfied by quantum correlations but violated by some non-signalling ones. In this work, we investigate this principle in the context of three nonlocal games related to graph theory, starting from the well-known graph isomorphism and graph coloring games, and introducing a new game, the vertex distance game, with a parameter $D\in\mathbb N$, that generalizes the former two to some extent. For these three games, we prove that perfect non-signalling strategies collapse communication complexity under favorable conditions. We also define a refinement of fractional isomorphism of graphs, namely D-fractional isomorphisms, and we show that this characterizes perfect non-signalling strategies for the vertex distance game. Surprisingly, we observe that non-signalling strategies provide a finer distinction for the new game compared to classical and quantum strategies since the parameter D is visible only in the non-signalling setting.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# プラグ・アンド・プレイの先駆者としてのテキスト・ツー・イメージ整形流

Text-to-Image Rectified Flow as Plug-and-Play Priors ( http://arxiv.org/abs/2406.03293v2 )

ライセンス: Link先を確認
Xiaofeng Yang, Cheng Chen, Xulei Yang, Fayao Liu, Guosheng Lin, (参考訳) 大規模拡散モデルは、生成タスクにおいて顕著な性能を達成した。 初期のトレーニングアプリケーション以外にも、これらのモデルは汎用的なプラグアンドプレイプリエントとして機能することが証明されている。 例えば、2次元拡散モデルは、3次元の暗黙のモデルを最適化する損失関数として機能する。 新しい生成モデルのクラスである整流流は、ソースからターゲット分布への線形進行を強制し、様々な領域で優れた性能を示す。 拡散に基づく手法と比較して、補正流れのアプローチは生成の質と効率を上回り、推論ステップを少なくする。 本研究では, 拡散モデルに類似した機能を持つ正流法が, 有効な先行モデルとして機能することを示す理論的, 実験的証拠を示す。 修正流れモデルの特異な時間対称性特性に動機づけられた拡散先行現象の生成能力に加えて,本手法の変種は画像インバージョンも追加で行うことができる。 SDSとVSDの損失をテキスト・ツー・3D生成で比較した。 また,画像のインバージョンや編集における競合性能も示す。

Large-scale diffusion models have achieved remarkable performance in generative tasks. Beyond their initial training applications, these models have proven their ability to function as versatile plug-and-play priors. For instance, 2D diffusion models can serve as loss functions to optimize 3D implicit models. Rectified flow, a novel class of generative models, enforces a linear progression from the source to the target distribution and has demonstrated superior performance across various domains. Compared to diffusion-based methods, rectified flow approaches surpass in terms of generation quality and efficiency, requiring fewer inference steps. In this work, we present theoretical and experimental evidence demonstrating that rectified flow based methods offer similar functionalities to diffusion models - they can also serve as effective priors. Besides the generative capabilities of diffusion priors, motivated by the unique time-symmetry properties of rectified flow models, a variant of our method can additionally perform image inversion. Experimentally, our rectified flow-based priors outperform their diffusion counterparts - the SDS and VSD losses - in text-to-3D generation. Our method also displays competitive performance in image inversion and editing.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# 離散離散マルコフ決定過程におけるエントロピー正規化誤差のシャープ推定

Essentially Sharp Estimates on the Entropy Regularization Error in Discrete Discounted Markov Decision Processes ( http://arxiv.org/abs/2406.04163v2 )

ライセンス: Link先を確認
Johannes Müller, Semih Cayci, (参考訳) 無限水平離散化マルコフ決定過程のエントロピー正規化による誤差について検討する。 この誤差は、重み付きKL偏差と問題固有指数の値の両方において、逆正則化強度において指数関数的に減少することを示す。 多項式係数までの上界に一致する下界を与える。 我々の証明は、エントロピー正則化マルコフ決定過程の解と、自然政策勾配法に共通するリーマン計量に対する非正則化報酬の勾配フローとの対応に依存する。 さらに、この対応により、勾配フローの限界を一般化された最大エントロピー最適ポリシーとして特定することができ、これにより、自然方針勾配法の時間連続バージョンに対応するカカデ勾配フローの暗黙のバイアスを特徴づけることができる。 これを用いて、エントロピー規則化自然ポリシー勾配法では、全体の誤差は既存の線形保証を改善する反復数の平方根で指数関数的に減少することを示す。

We study the error introduced by entropy regularization of infinite-horizon discrete discounted Markov decision processes. We show that this error decreases exponentially in the inverse regularization strength both in a weighted KL-divergence and in value with a problem-specific exponent. We provide a lower bound matching our upper bound up to a polynomial factor. Our proof relies on the correspondence of the solutions of entropy-regularized Markov decision processes with gradient flows of the unregularized reward with respect to a Riemannian metric common in natural policy gradient methods. Further, this correspondence allows us to identify the limit of the gradient flow as the generalized maximum entropy optimal policy, thereby characterizing the implicit bias of the Kakade gradient flow which corresponds to a time-continuous version of the natural policy gradient method. We use this to show that for entropy-regularized natural policy gradient methods the overall error decays exponentially in the square root of the number of iterations improving existing sublinear guarantees.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# 構造記述型言語生成によるFrameNetのアノテーション

Annotating FrameNet via Structure-Conditioned Language Generation ( http://arxiv.org/abs/2406.04834v2 )

ライセンス: Link先を確認
Xinyue Cui, Swabha Swayamdipta, (参考訳) 自然言語生成における言語モデルの顕著な生成能力にもかかわらず、明示的な操作と言語構造の生成に対するそれらの効果はいまだ検討されていない。 本稿では,FrameNetの形式化に従って,与えられた意味構造を保存する新しい文を生成するタスクについて検討する。 本稿では、過剰な生成とフィルタのアプローチに従って、新しいフレーム文の注釈付き文を生成するフレームワークを提案する。 以上の結果から,リッチで明示的なセマンティック情報に対する条件付けは,アクセプションと微調整の両面において,人間の受容率の高い世代を生成する傾向が示唆された。 生成されたフレームセマンティックな構造化アノテーションは,低リソース環境でのフレームセマンティックなロールラベリングのためのデータ拡張のトレーニングに有効である。 本研究は,高品質でセマンティックなリッチなデータ生成が到達範囲内にある可能性があるが,そのような世代を下流で活用することは,言語アノテーションタスクを自動化する上での課題を浮き彫りにしている。

Despite the remarkable generative capabilities of language models in producing naturalistic language, their effectiveness on explicit manipulation and generation of linguistic structures remain understudied. In this paper, we investigate the task of generating new sentences preserving a given semantic structure, following the FrameNet formalism. We propose a framework to produce novel frame-semantically annotated sentences following an overgenerate-and-filter approach. Our results show that conditioning on rich, explicit semantic information tends to produce generations with high human acceptance, under both prompting and finetuning. Our generated frame-semantic structured annotations are effective at training data augmentation for frame-semantic role labeling in low-resource settings; however, we do not see benefits under higher resource settings. Our study concludes that while generating high-quality, semantically rich data might be within reach, the downstream utility of such generations remains to be seen, highlighting the outstanding challenges with automating linguistic annotation tasks.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# 混合スーパービジョン音声処理のための事前制約付き大言語モデル付き離散マルチモーダル変換器

Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing ( http://arxiv.org/abs/2406.06582v2 )

ライセンス: Link先を確認
Viet Anh Trinh, Rosy Southwell, Yiwen Guan, Xinlu He, Zhiyong Wang, Jacob Whitehill, (参考訳) 離散音声のトークン化に関する最近の研究は、例えば、音声認識、テキストから音声への変換、音声から音声への翻訳など、複数のタスクをシームレスに実行できるモデルへの道を開いた。 さらに、膨大なテキストコーパスから事前訓練された大きな言語モデル(LLM)には、様々なタスクにおける精度を向上させるための豊富な言語情報が含まれている。 本稿では,複数のタスク(ASR,T2S,S2TTなど)やモーダル性(テキスト,音声,視覚)に柔軟に適用可能な,デコーダのみの離散多モーダル言語モデル(DMLM)を提案する。 本稿では、損失関数、重み初期化、混合訓練指導、コードブックなど、離散マルチモーダルモデルのいくつかの重要な側面について考察する。 その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。 さらに、ASRでは、事前訓練されたLDMからDMLMを初期化し、Whisperアクティベーションから派生したコードブックから恩恵を受ける。

Recent work on discrete speech tokenization has paved the way for models that can seamlessly perform multiple tasks across modalities, e.g., speech recognition, text to speech, speech to speech translation. Moreover, large language models (LLMs) pretrained from vast text corpora contain rich linguistic information that can improve accuracy in a variety of tasks. In this paper, we present a decoder-only Discrete Multimodal Language Model (DMLM), which can be flexibly applied to multiple tasks (ASR, T2S, S2TT, etc.) and modalities (text, speech, vision). We explore several critical aspects of discrete multi-modal models, including the loss function, weight initialization, mixed training supervision, and codebook. Our results show that DMLM benefits significantly, across multiple tasks and datasets, from a combination of supervised and unsupervised training. Moreover, for ASR, it benefits from initializing DMLM from a pretrained LLM, and from a codebook derived from Whisper activations.
翻訳日:2024-06-26 19:39:42 公開日:2024-06-25
# PatentEval: 特許生成におけるエラーを理解する

PatentEval: Understanding Errors in Patent Generation ( http://arxiv.org/abs/2406.06589v2 )

ライセンス: Link先を確認
You Zuo, Kim Gerdes, Eric Villemonte de La Clergerie, Benoît Sagot, (参考訳) 本研究では,機械が生成する特許文書における2つの異なるタスク,すなわちクレーム・ツー・アストラクション生成と,先行するクレームの生成を評価するための総合的なエラータイプロジーを提案する。 我々はまた,この文脈で言語モデルを体系的に評価するためのベンチマークであるPatentEvalを開発した。 我々の研究は、様々なモデルの人間によって注釈付けされた比較分析を含む。 これらは、特許ドメイン内のタスクのトレーニング中に特別に適応されたものから、最新の汎用大規模言語モデル(LLM)まで様々である。 さらに,特許文書評価における人間の判断を近似する指標について検討し,これらの指標が専門家評価とどの程度一致しているかを分析した。 これらのアプローチは、特許テキスト生成の専門分野における現在の言語モデルの能力と限界に関する貴重な洞察を提供する。

In this work, we introduce a comprehensive error typology specifically designed for evaluating two distinct tasks in machine-generated patent texts: claims-to-abstract generation, and the generation of the next claim given previous ones. We have also developed a benchmark, PatentEval, for systematically assessing language models in this context. Our study includes a comparative analysis, annotated by humans, of various models. These range from those specifically adapted during training for tasks within the patent domain to the latest general-purpose large language models (LLMs). Furthermore, we explored and evaluated some metrics to approximate human judgments in patent text evaluation, analyzing the extent to which these metrics align with expert assessments. These approaches provide valuable insights into the capabilities and limitations of current language models in the specialized field of patent text generation.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# フローマッチングとスケール最適輸送による効率的な3次元分子生成

Efficient 3D Molecular Generation with Flow Matching and Scale Optimal Transport ( http://arxiv.org/abs/2406.07266v2 )

ライセンス: Link先を確認
Ross Irwin, Alessandro Tibo, Jon Paul Janet, Simon Olsson, (参考訳) 3Dドラッグデザインのための生成モデルは、タンパク質ポケット内で直接リガンドを設計する可能性から、最近注目されている。 しかし、現在のアプローチは、しばしば非常に遅いサンプリング時間に悩まされるか、化学的妥当性の低い分子を生成する。 これらの制約に対処するため、スケーラブルなE(3)等価メッセージパッシングアーキテクチャであるSemlaを提案する。 さらに,分子生成モデルであるSemlaFlowを導入し,フローマッチングとスケール最適輸送,等変最適輸送の新たな拡張を併用して学習を行った。 本モデルでは,100個のサンプリングステップのみを用いて,ベンチマークデータセットの最先端結果を生成する。 重要な点として、SemlaFlowは20段階以内の高品質な分子をサンプリングし、パフォーマンスを犠牲にすることなく、最先端の2つのオーダー・オブ・マグニチュード・スピードアップに対応する。 さらに、3次元生成のための現在の評価手法の限界を強調し、無条件分子発生装置のための新しいベンチマーク指標を提案する。 最後に、これらの新しいメトリクスを使用して、我々のモデルが現在のアプローチに対して高品質なサンプルを生成する能力を比較し、さらにSemlaFlowの強力なパフォーマンスを実証します。

Generative models for 3D drug design have gained prominence recently for their potential to design ligands directly within protein pockets. Current approaches, however, often suffer from very slow sampling times or generate molecules with poor chemical validity. Addressing these limitations, we propose Semla, a scalable E(3)-equivariant message passing architecture. We further introduce a molecular generation model, SemlaFlow, which is trained using flow matching along with scale optimal transport, a novel extension of equivariant optimal transport. Our model produces state-of-the-art results on benchmark datasets with just 100 sampling steps. Crucially, SemlaFlow samples high quality molecules with as few as 20 steps, corresponding to a two order-of-magnitude speed-up compared to state-of-the-art, without sacrificing performance. Furthermore, we highlight limitations of current evaluation methods for 3D generation and propose new benchmark metrics for unconditional molecular generators. Finally, using these new metrics, we compare our model's ability to generate high quality samples against current approaches and further demonstrate SemlaFlow's strong performance.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# FSBI:周波数強調セルフブレンド画像によるディープフェイク検出

FSBI: Deepfakes Detection with Frequency Enhanced Self-Blended Images ( http://arxiv.org/abs/2406.08625v2 )

ライセンス: Link先を確認
Ahmed Abul Hasanaath, Hamzah Luqman, Raed Katib, Saeed Anwar, (参考訳) ディープフェイク研究の進歩は、人間の目とディープフェイク検出ツールによって検出できないほぼ完璧な操作を生み出した。 近年,映像や映像とディープフェイクを区別する手法がいくつか提案されている。 本稿では、ディープフェイク検出のための周波数拡張自己ブレンド画像(FSBI)アプローチを提案する。 提案手法では、離散ウェーブレット変換(DWT)を用いて、畳み込みネットワークアーキテクチャモデルのトレーニングに使用する自己組織化画像(SBI)から識別特徴を抽出する。 SBIは画像をブレンドする前に、画像のコピーにいくつかの偽のアーティファクトを導入することで、イメージをそれ自体とブレンドする。 これにより、より汎用的な表現を学ぶことで、分類器が特定のアーティファクトを過度に適合させるのを防ぐことができる。 これらのブレンド画像は、周波数特徴抽出器に入力され、時間領域内で容易に検出できないアーティファクトを検出する。 提案手法はFF++とCeleb-DFのデータセットで評価され, 得られた結果から, クロスデータセット評価プロトコルを用いた最先端技術よりも優れていた。

Advances in deepfake research have led to the creation of almost perfect manipulations undetectable by human eyes and some deepfakes detection tools. Recently, several techniques have been proposed to differentiate deepfakes from realistic images and videos. This paper introduces a Frequency Enhanced Self-Blended Images (FSBI) approach for deepfakes detection. This proposed approach utilizes Discrete Wavelet Transforms (DWT) to extract discriminative features from the self-blended images (SBI) to be used for training a convolutional network architecture model. The SBIs blend the image with itself by introducing several forgery artifacts in a copy of the image before blending it. This prevents the classifier from overfitting specific artifacts by learning more generic representations. These blended images are then fed into the frequency features extractor to detect artifacts that can not be detected easily in the time domain. The proposed approach has been evaluated on FF++ and Celeb-DF datasets and the obtained results outperformed the state-of-the-art techniques with the cross-dataset evaluation protocol.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# 単一励起を持つ一次元鎖における原子のアンサンブルの協調崩壊

Cooperative decay of an ensemble of atoms in a one-dimensional chain with a single excitation ( http://arxiv.org/abs/2406.08856v3 )

ライセンス: Link先を確認
Nicola Piovella, (参考訳) 単励起状態におけるN二層原子の1次元鎖の協調崩壊速度の新たな式を提案する。 そこから、原子-原子相互作用グリーン関数の固有値問題を解く必要なしに、超放射とサブ放射の干渉の性質が自然に生じる。 協調崩壊速度は、一励起多様体におけるN原子の一般化されたディック状態に対して評価された、系の有効非エルミートハミルトニアンの期待値の想像上の部分と解釈できる。 無限鎖のラジアント崩壊速度はゼロであるが、有限鎖の1/Nとして減少する。 格子定数 d と原子番号 N の関数として単純な近似式が得られ、結果はまずスカラーモデルに対して得られ、次にベクトル光モデルに拡張され、全ての双極子が整列すると仮定される。

We propose a new expression of the cooperative decay rate of a one-dimensional chain of N two-level atoms in the single-excitation configuration. From it, the interference nature of superradiance and subradiance arises naturally, without the need of solving the eigenvalue problem of the atom-atom interaction Green function. The cooperative decay rate can be interpreted as the imaginary part of the expectation value of the effective non-Hermitian Hamiltonian of the system, evaluated over a generalized Dicke state of N atoms in the single-excitation manifold. Whereas the subradiant decay rate is zero for an infinite chain, it decreases as 1/N for a finite chain. A simple approximated expression for the cooperative decay rate is obtained as a function of the lattice constant d and the atomic number N. The results are obtained first for the scalar model and then extended to the vectorial light model, assuming all the dipoles aligned.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# 多発性硬化性病変の分節におけるインスタンスレベルの定量化

Instance-level quantitative saliency in multiple sclerosis lesion segmentation ( http://arxiv.org/abs/2406.09335v2 )

ライセンス: Link先を確認
Federico Spagnolo, Nataliia Molchanova, Roger Schaer, Meritxell Bach Cuadra, Mario Ocampo Pineda, Lester Melie-Garcia, Cristina Granziera, Vincent Andrearczyk, Adrien Depeursinge, (参考訳) 近年,人工知能(XAI)のための説明可能な手法が,分類タスクの場合のモデル決定機構を明らかにし,記述しようと試みている。 しかし、セマンティックセグメンテーションのためのXAI、特に単一インスタンスについては、これまではほとんど研究されていない。 単一のインスタンスの自動セグメンテーションの根底にあるプロセスを理解することは、特定の関心対象を検出し、セグメンテーションするためにどのような情報が使われたかを明らかにするために不可欠である。 本研究では,SmoothGrad法とGrad-CAM++法に基づくセマンティックセグメンテーションのための2つのインスタンスレベルの説明マップを提案する。 多発性硬化症(MS)におけるMRIバイオマーカーである白質病変(WML)の検出とセグメンテーションの関連について検討した。 スイスのバーゼル大学病院で計4043 FLAIR と MPRAGE MRI でMSと診断された687例を収集した。 データはトレーニング、検証、テストセットにランダムに分割され、MS病変のセグメンテーションのために3D U-Netをトレーニングした。 偽陽性は3050例,偽陽性は1818例,偽陰性は789例であった。 我々は,SmoothGradとGrad-CAM++をベースとした2つのXAI手法を開発し,セマンティックセグメンテーションのためのインスタンスレベルの説明マップを生成する。 調査を行った。 1) 両入力MRIシーケンスに対する唾液度マップの勾配分布 2 合成病変の場合におけるモデルの応答 3) 病変の分節に必要な回腸組織量について検討した。 FLAIRのSmoothGradをベースとした唾液マップでは, 病変内において正の値を示し, 近傍では負の値を示した。 これら4つの巻群で生成した塩分分布のピーク値は, 互いに大きく異なる分布を示し, 提案した塩分濃度の定量的性質を示唆した。 病変境界付近7mmの文脈情報が必要であった。

In recent years, explainable methods for artificial intelligence (XAI) have tried to reveal and describe models' decision mechanisms in the case of classification tasks. However, XAI for semantic segmentation and in particular for single instances has been little studied to date. Understanding the process underlying automatic segmentation of single instances is crucial to reveal what information was used to detect and segment a given object of interest. In this study, we proposed two instance-level explanation maps for semantic segmentation based on SmoothGrad and Grad-CAM++ methods. Then, we investigated their relevance for the detection and segmentation of white matter lesions (WML), a magnetic resonance imaging (MRI) biomarker in multiple sclerosis (MS). 687 patients diagnosed with MS for a total of 4043 FLAIR and MPRAGE MRI scans were collected at the University Hospital of Basel, Switzerland. Data were randomly split into training, validation and test sets to train a 3D U-Net for MS lesion segmentation. We observed 3050 true positive (TP), 1818 false positive (FP), and 789 false negative (FN) cases. We generated instance-level explanation maps for semantic segmentation, by developing two XAI methods based on SmoothGrad and Grad-CAM++. We investigated: 1) the distribution of gradients in saliency maps with respect to both input MRI sequences; 2) the model's response in the case of synthetic lesions; 3) the amount of perilesional tissue needed by the model to segment a lesion. Saliency maps (based on SmoothGrad) in FLAIR showed positive values inside a lesion and negative in its neighborhood. Peak values of saliency maps generated for these four groups of volumes presented distributions that differ significantly from one another, suggesting a quantitative nature of the proposed saliency. Contextual information of 7mm around the lesion border was required for their segmentation.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# Scoreformer: 大規模ドッキングスコア予測のためのサロゲートモデル

Scoreformer: A Surrogate Model For Large-Scale Prediction of Docking Scores ( http://arxiv.org/abs/2406.09346v2 )

ライセンス: Link先を確認
Álvaro Ciudad, Adrián Morales-Pastor, Laura Malo, Isaac Filella-Mercè, Victor Guallar, Alexis Molina, (参考訳) 本研究では,分子ドッキングスコアを正確に予測し,薬物発見における高スループット仮想スクリーニング(HTVS)を最適化する新しいグラフトランスフォーマーモデルであるScoreFormerを提案する。 このアーキテクチャは、Principal Neborhood Aggregation (PNA)とLearningable Random Walk Positional Encodings (LRWPE)を統合し、複雑な分子構造とそれらのドッキングスコアとの関係を理解する能力を高める。 従来のHTVS手法や最近のグラフニューラルネットワーク(GNN)モデルを大きく上回る手法である。 この結果から,ScoreFormerはドッキングスコア予測の競争性能を向上し,既存のモデルに比べて1.65倍の推論時間を短縮できることがわかった。 種々の条件下でScoreFormerを複数のデータセットで評価し,薬剤候補の迅速同定における堅牢性と信頼性を確認した。

In this study, we present ScoreFormer, a novel graph transformer model designed to accurately predict molecular docking scores, thereby optimizing high-throughput virtual screening (HTVS) in drug discovery. The architecture integrates Principal Neighborhood Aggregation (PNA) and Learnable Random Walk Positional Encodings (LRWPE), enhancing the model's ability to understand complex molecular structures and their relationship with their respective docking scores. This approach significantly surpasses traditional HTVS methods and recent Graph Neural Network (GNN) models in both recovery and efficiency due to a wider coverage of the chemical space and enhanced performance. Our results demonstrate that ScoreFormer achieves competitive performance in docking score prediction and offers a substantial 1.65-fold reduction in inference time compared to existing models. We evaluated ScoreFormer across multiple datasets under various conditions, confirming its robustness and reliability in identifying potential drug candidates rapidly.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# Faber Polynomial 法による非線形量子多体ダイナミクス

Non-Unitary Quantum Many-Body Dynamics using the Faber Polynomial Method ( http://arxiv.org/abs/2406.10135v2 )

ライセンス: Link先を確認
Rafael D. Soares, Marco Schirò, (参考訳) 効率的な数値法は、非単体進化の下での量子多体系の非伝統的な力学を探索するにはまだ不足している。 本研究では、Faber多項式を用いて非エルミート系の力学とリンドブラッド力学の量子ジャンプの両方を数値的にシミュレートする。 本手法を,2つの異なる設定から進化する波多野・ネルソンモデルに対して適用する。 i) N'eel state, and ii) 領域の壁。 第1のケースでは、相互作用が皮膚効果に対する初期磁気秩序をいかに保存するかについて検討する。 第2の例では、非接触限界におけるドメインウォール融解問題に対する効果的な流体力学的記述の存在の数値的証拠を示す。 さらに、2つの量子スピン鎖における量子ジャンプの条件的および非条件的ダイナミクスについて検討し、これは非エルミティアスかリウヴィリアスキン効果を示す。 この数値法は本質的にチェビシェフ多項式に基づいて確立された手法を一般化し、非エルミート的シナリオに対応する。

Efficient numerical methods are still lacking to probe the unconventional dynamics of quantum many-body systems under non-unitary evolution. In this work, we use Faber polynomials to numerically simulate both the dynamics of non-Hermitian systems and the quantum jumps unravelling of the Lindblad dynamics. We apply the method to the non-interacting and interacting Hatano-Nelson models evolving from two different setups: i) a N\'eel state, and ii) a domain wall. In the first case, we study how interactions preserve the initial magnetic order against the skin effect. In the second example, we present numerical evidence of the existence of an effective hydrodynamic description for the domain-wall melting problem in the non-interacting limit. Additionally, we investigate both the conditional and unconditional dynamics of the quantum jump unravelling in two quantum spin chains, which exhibit either the non-Hermitian or the Liouvillian skin effect. This numerical method inherently generalises the well-established method based on Chebyshev polynomials to accommodate non-Hermitian scenarios.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# あなたを知らないけど、あなたをキャッチできる:オブジェクト検出器の対外敵パッチに対するリアルタイム防御

I Don't Know You, But I Can Catch You: Real-Time Defense against Diverse Adversarial Patches for Object Detectors ( http://arxiv.org/abs/2406.10285v2 )

ライセンス: Link先を確認
Zijin Lin, Yue Zhao, Kai Chen, Jinwen He, (参考訳) ディープニューラルネットワーク(DNN)は、オブジェクト検出のようなコンピュータビジョンの分野に革命をもたらした。 しかし、既存の研究では、DNNは敵の攻撃に弱いことが示されている。 物理的な世界では、敵は敵のパッチを悪用して、ターゲットのオブジェクトにパッチを当てて検出器から消えさせるHiding Attack (HA) と、検出器を騙して特定のオブジェクトと誤分類するAppearing Attack (AA) を実装した。 近年,敵パッチの潜在的な脅威を軽減するため,検出器の防御方法が多数提案されている。 しかし、そのような手法には、一般化、堅牢性、効率性に制限がある。 ほとんどの防御はHAに対して有効であり、検知器はAAに弱いままである。 本稿では,高一般化,ロバスト性,効率性を備えた逆パッチ検出の革新的なモデルである \textit{NutNet} を提案する。 デジタル領域と物理領域の両方において, YOLOv2-v4, SSD, Faster RCNN, DETRの6つの検出器を実験した結果, 提案手法はHAとAAの両方に対して有効に防御でき, クリーン性能は 0.4 % しか犠牲にならないことがわかった。 我々は,NutNetを検出器の4つのベースライン防御法と比較し,従来のHAとAAの4.7倍の防御性能を示す。 さらに、NutNetは、検出システムのリアルタイム要件を満たすことができる8\%の推論時間しか増加しない。 NutNetのデモは: \url{https://sites.google.com/view/nutnet}.comで公開されている。

Deep neural networks (DNNs) have revolutionized the field of computer vision like object detection with their unparalleled performance. However, existing research has shown that DNNs are vulnerable to adversarial attacks. In the physical world, an adversary could exploit adversarial patches to implement a Hiding Attack (HA) which patches the target object to make it disappear from the detector, and an Appearing Attack (AA) which fools the detector into misclassifying the patch as a specific object. Recently, many defense methods for detectors have been proposed to mitigate the potential threats of adversarial patches. However, such methods still have limitations in generalization, robustness and efficiency. Most defenses are only effective against the HA, leaving the detector vulnerable to the AA. In this paper, we propose \textit{NutNet}, an innovative model for detecting adversarial patches, with high generalization, robustness and efficiency. With experiments for six detectors including YOLOv2-v4, SSD, Faster RCNN and DETR on both digital and physical domains, the results show that our proposed method can effectively defend against both the HA and AA, with only 0.4\% sacrifice of the clean performance. We compare NutNet with four baseline defense methods for detectors, and our method exhibits an average defense performance that is over 2.4 times and 4.7 times higher than existing approaches for HA and AA, respectively. In addition, NutNet only increases the inference time by 8\%, which can meet the real-time requirements of the detection systems. Demos of NutNet are available at: \url{https://sites.google.com/view/nutnet}.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# マルチLLMシステムによる身体的質問応答

Embodied Question Answering via Multi-LLM Systems ( http://arxiv.org/abs/2406.10918v3 )

ライセンス: Link先を確認
Bhrij Patel, Vishnu Sashank Dorbala, Dinesh Manocha, Amrit Singh Bedi, (参考訳) EQA(Embodied Question Answering)は,ユーザの質問に答える環境を探索するエージェントが関与する重要な問題である。 既存の文献では、EQAは単一のエージェントのシナリオでのみ研究されており、探索には時間と費用がかかる。 本研究では,複数の大規模言語モデル(LLM)をベースとしたエージェントが家庭環境に関する質問に独立して答えるマルチエージェントフレームワークのEQAについて検討する。 各クエリに対して1つの回答を生成するために、個々のレスポンスを使用して、堅牢な回答のためにレスポンスを集約するCAM(Central Answer Model)をトレーニングする。 CAM を用いて,投票方式や討論会など LLM の集約手法と比較した場合,50 % の EQA 精度が得られた。 CAMはいかなる種類のエージェント通信も必要とせず、関連するコストから軽減する。 我々は,CAMを非線形(神経ネットワーク,ランダムフォレスト,決定木,XGBoost)および線形(論理回帰分類器,SVM)アルゴリズムで吸収する。 最後に、置換特徴重要度(PFI)によるCAMの特徴重要度分析を行い、各独立したエージェントとクエリコンテキストに依存するCAMの定量化を行う。

Embodied Question Answering (EQA) is an important problem, which involves an agent exploring the environment to answer user queries. In the existing literature, EQA has exclusively been studied in single-agent scenarios, where exploration can be time-consuming and costly. In this work, we consider EQA in a multi-agent framework involving multiple large language models (LLM) based agents independently answering queries about a household environment. To generate one answer for each query, we use the individual responses to train a Central Answer Model (CAM) that aggregates responses for a robust answer. Using CAM, we observe a $50\%$ higher EQA accuracy when compared against aggregation methods for ensemble LLM, such as voting schemes and debates. CAM does not require any form of agent communication, alleviating it from the associated costs. We ablate CAM with various nonlinear (neural network, random forest, decision tree, XGBoost) and linear (logistic regression classifier, SVM) algorithms. Finally, we present a feature importance analysis for CAM via permutation feature importance (PFI), quantifying CAMs reliance on each independent agent and query context.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# MedCalc-Bench:医学計算のための大規模言語モデルの評価

MedCalc-Bench: Evaluating Large Language Models for Medical Calculations ( http://arxiv.org/abs/2406.12036v2 )

ライセンス: Link先を確認
Nikhil Khandekar, Qiao Jin, Guangzhi Xiong, Soren Dunn, Serina S Applebaum, Zain Anwar, Maame Sarfo-Gyamfi, Conrad W Safranek, Abid A Anwar, Andrew Zhang, Aidan Gilson, Maxwell B Singer, Amisha Dave, Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu, (参考訳) 計算と論理ベースの推論を評価するのとは対照的に、医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。 このような定性的な能力は医学的診断に不可欠であるが、現実のシナリオでは、医師はしばしば、定量的方程式に従う臨床電卓と、エビデンスベースの意思決定支援のためのルールベースの推論パラダイムを使用する。 この目的のために, LLMの医療計算能力を評価することを目的とした, 第一種データセットであるMedCalc-Benchを提案する。 MedCalc-Benchには、55の異なる医療計算タスクから1000以上のレビュー済みのインスタンスの評価セットが含まれている。 MedCalc-Benchの各インスタンスは、患者ノート、特定の医学的価値の計算を要求する質問、真実の答え、そしてその答えがどのように得られるかを示すステップバイステップの説明からなる。 以上の結果から, 当科におけるLSMsの有用性が示唆されるが, 臨床検査に十分な効果は得られていない。 一般的な問題としては、不正なエンティティを抽出すること、計算タスクに正しい方程式や規則を使わないこと、計算の算術を誤って実行することなどがある。 医療現場におけるLSMの量的知識と推論のギャップを強調し,様々な臨床計算タスクにおけるLCMの今後の改善を促すことを願っている。

As opposed to evaluating computation and logic-based reasoning, current benchmarks for evaluating large language models (LLMs) in medicine are primarily focused on question-answering involving domain knowledge and descriptive reasoning. While such qualitative capabilities are vital to medical diagnosis, in real-world scenarios, doctors frequently use clinical calculators that follow quantitative equations and rule-based reasoning paradigms for evidence-based decision support. To this end, we propose MedCalc-Bench, a first-of-its-kind dataset focused on evaluating the medical calculation capability of LLMs. MedCalc-Bench contains an evaluation set of over 1000 manually reviewed instances from 55 different medical calculation tasks. Each instance in MedCalc-Bench consists of a patient note, a question requesting to compute a specific medical value, a ground truth answer, and a step-by-step explanation showing how the answer is obtained. While our evaluation results show the potential of LLMs in this area, none of them are effective enough for clinical settings. Common issues include extracting the incorrect entities, not using the correct equation or rules for a calculation task, or incorrectly performing the arithmetic for the computation. We hope our study highlights the quantitative knowledge and reasoning gaps in LLMs within medical settings, encouraging future improvements of LLMs for various clinical calculation tasks.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# 適応的協調的相関学習に基づく半教師付きマルチラベル特徴選択

Adaptive Collaborative Correlation Learning-based Semi-Supervised Multi-Label Feature Selection ( http://arxiv.org/abs/2406.12193v2 )

ライセンス: Link先を確認
Yanyong Huang, Li Yang, Dongjie Wang, Ke Li, Xiuwen Yi, Fengmao Lv, Tianrui Li, (参考訳) 半教師付き多ラベル特徴選択法は, 標本が欠落した高次元多ラベルデータにおいて, 次元性の呪いを解決するために最近開発された。 多くの試みがなされているが、既存のほとんどの手法では、サンプルの類似性やラベルの相関を捉えるために、事前に定義されたグラフアプローチを用いている。 このように、元の特徴空間におけるノイズやアウトリーチの存在は、結果として生じるサンプル類似性グラフの信頼性を損なう可能性がある。 また、未知のラベルが存在するため、ラベルの相関関係を正確に描写することができない。 さらに、これらの手法は選択された特徴の識別力のみを考慮し、冗長性を無視する。 本稿では,アダプティブ・コラボレーティブ・コラボレーティブ・相関 lEarning-based Semi-Supervised Multi-label Feature Selection (Access-MFS) 法を提案する。 具体的には、拡張された非相関制約を備えた一般化回帰モデルを導入し、識別的かつ無関係な特徴を選択し、ラベル付きデータにおける予測ラベルと接地トラックラベルの一貫性を同時に維持する。 そして, サンプル類似度グラフとラベル類似度グラフの両方を適応的に学習し, 特徴選択性能を相互に向上する。 大規模な実験結果から、他の最先端手法よりもAccess-MFSの方が優れていることが示された。

Semi-supervised multi-label feature selection has recently been developed to solve the curse of dimensionality problem in high-dimensional multi-label data with certain samples missing labels. Although many efforts have been made, most existing methods use a predefined graph approach to capture the sample similarity or the label correlation. In this manner, the presence of noise and outliers within the original feature space can undermine the reliability of the resulting sample similarity graph. It also fails to precisely depict the label correlation due to the existence of unknown labels. Besides, these methods only consider the discriminative power of selected features, while neglecting their redundancy. In this paper, we propose an Adaptive Collaborative Correlation lEarning-based Semi-Supervised Multi-label Feature Selection (Access-MFS) method to address these issues. Specifically, a generalized regression model equipped with an extended uncorrelated constraint is introduced to select discriminative yet irrelevant features and maintain consistency between predicted and ground-truth labels in labeled data, simultaneously. Then, the instance correlation and label correlation are integrated into the proposed regression model to adaptively learn both the sample similarity graph and the label similarity graph, which mutually enhance feature selection performance. Extensive experimental results demonstrate the superiority of the proposed Access-MFS over other state-of-the-art methods.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# BIOSCAN-5M:昆虫の生物多様性のためのマルチモーダルデータセット

BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity ( http://arxiv.org/abs/2406.12723v3 )

ライセンス: Link先を確認
Zahra Gharaee, Scott C. Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Lila Kari, Dirk Steinke, Graham W. Taylor, Paul Fieguth, Angel X. Chang, (参考訳) 本稿では,昆虫の生物多様性を理解・監視するための国際的な取り組みの一環として,BIOSCAN-5M Insectデータセットを機械学習コミュニティに提示し,いくつかのベンチマークタスクを確立する。 BIOSCAN-5Mは500万以上の昆虫標本のマルチモーダル情報を含む包括的データセットであり、分類学的ラベル、生ヌクレオチドバーコード配列、割り当てられたバーコードインデックス番号、地理的情報を含む既存の画像ベースの生物学的データセットを著しく拡張する。 マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。 まず、BIOSCAN-5MデータセットのDNAバーコード配列にマスク付き言語モデルを事前学習し、この大きな参照ライブラリが種と種レベルの分類性能に与える影響を実証する。 次に、自己教師付き学習から得られたクラスタ特徴埋め込みに画像やDNAバーコードに適用したゼロショット転送学習タスクを提案し、これらの表現埋め込みから有意義なクラスタを抽出できるかどうかを検討する。 第3に、DNAバーコード、画像データ、分類情報に対してコントラスト学習を行うことにより、マルチモダリティをベンチマークする。 これにより、複数の種類の情報とモダリティを用いた分類学的分類を可能にする一般的な共有埋め込み空間が得られる。 BIOSCAN-5M Insectデータセットのコードリポジトリはhttps://github.com/zahrag/BIOSCAN-5Mで公開されている。

As part of an ongoing worldwide effort to comprehend and monitor insect biodiversity, this paper presents the BIOSCAN-5M Insect dataset to the machine learning community and establish several benchmark tasks. BIOSCAN-5M is a comprehensive dataset containing multi-modal information for over 5 million insect specimens, and it significantly expands existing image-based biological datasets by including taxonomic labels, raw nucleotide barcode sequences, assigned barcode index numbers, and geographical information. We propose three benchmark experiments to demonstrate the impact of the multi-modal data types on the classification and clustering accuracy. First, we pretrain a masked language model on the DNA barcode sequences of the BIOSCAN-5M dataset, and demonstrate the impact of using this large reference library on species- and genus-level classification performance. Second, we propose a zero-shot transfer learning task applied to images and DNA barcodes to cluster feature embeddings obtained from self-supervised learning, to investigate whether meaningful clusters can be derived from these representation embeddings. Third, we benchmark multi-modality by performing contrastive learning on DNA barcodes, image data, and taxonomic information. This yields a general shared embedding space enabling taxonomic classification using multiple types of information and modalities. The code repository of the BIOSCAN-5M Insect dataset is available at https://github.com/zahrag/BIOSCAN-5M.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# Rusty-DAWGを用いた言語モデルの$n$-Gramノベルティの評価

Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG ( http://arxiv.org/abs/2406.13069v2 )

ライセンス: Link先を確認
William Merrill, Noah A. Smith, Yanai Elazar, (参考訳) 学習コーパスに対する言語モデル(LM)によるテキスト生成は,どの程度新規か? 本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲を調査し,両者を評価した。 i) LM が完全トレーニングに$n$-gram を割り当てる確率 (ii)$n$-novelty, トレーニングデータに現れないLMによって生成される$n$-gram(任意の大きな$n$)の割合。 コーパス上の任意の長さの$n$-gramの探索を一定時間で行うために,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。 我々は,LM生成テキストの新規性を人文テキストと比較し,Pythiaモデルに焦点をあてて,生成新規性に影響を与える要因を探究する。 我々は、$n > 4$の場合、LM生成テキストは、人間が書いたテキストよりも斬新ではないが、より小さな$n$に対しては、より斬新であることを発見した。 より大きなLMとより制約のある復号法はどちらも新規性を低下させる。 最後に、トレーニングデータでより頻度が高い場合、LMが損失を減らして$n$-gramを完結することを示す。 全体として,本研究の結果から,LM生成テキストの新規性に影響を与える要因を明らかにし,さらに事前学習を目的としたRusty-DAWGをリリースする。

How novel are texts generated by language models (LMs) relative to their training corpora? In this work, we investigate the extent to which modern LMs generate $n$-grams from their training data, evaluating both (i) the probability LMs assign to complete training $n$-grams and (ii) $n$-novelty, the proportion of $n$-grams generated by an LM that did not appear in the training data (for arbitrarily large $n$). To enable arbitrary-length $n$-gram search over a corpus in constant time, we develop Rusty-DAWG, a novel search tool inspired by indexing of genomic data. We compare the novelty of LM-generated text to human-written text and explore factors that affect generation novelty, focusing on the Pythia models. We find that, for $n > 4$, LM-generated text is less novel than human-written text, though it is more novel for smaller $n$. Larger LMs and more constrained decoding strategies both decrease novelty. Finally, we show that LMs complete $n$-grams with lower loss if they are more frequent in the training data. Overall, our results reveal factors influencing the novelty of LM-generated text, and we release Rusty-DAWG to facilitate further pretraining data research.
翻訳日:2024-06-26 19:29:42 公開日:2024-06-25
# 最適化音声符号化による大規模言語モデルによる自動音声キャプションの実現

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding ( http://arxiv.org/abs/2406.13275v2 )

ライセンス: Link先を確認
Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang, (参考訳) 自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。 近年,大規模言語モデル(LLM)の進歩とオーディオエンコーダのトレーニング手法の改善により,AACの改善の可能性が高まっている。 このようにして、3つの側面からAACを強化することを検討する。 1)一貫したアンサンブル蒸留(CED)による事前訓練されたオーディオエンコーダを用いて、LLMへのモダリティギャップをブリッジし、音響トークンを圧縮するクエリ変換器(Q-Former)を用いて、音響トークンの効果を向上させる。 2) 7BパラメータをデコーダとするLlama 2の利点を検討する。 3) 事前学習した別のLLMでは, トレーニングデータやアノテーションの曖昧さが不十分なため, テキストエラーを補正する。 オーディオエンコーダとテキストデコーダはローランク適応(LoRA)によって最適化される。 実験では、これらの拡張がそれぞれ有効であることが示されている。 提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。

Automated audio captioning (AAC) is an audio-to-text task to describe audio contents in natural language. Recently, the advancements in large language models (LLMs), with improvements in training approaches for audio encoders, have opened up possibilities for improving AAC. Thus, we explore enhancing AAC from three aspects: 1) a pre-trained audio encoder via consistent ensemble distillation (CED) is used to improve the effectivity of acoustic tokens, with a querying transformer (Q-Former) bridging the modality gap to LLM and compress acoustic tokens; 2) we investigate the advantages of using a Llama 2 with 7B parameters as the decoder; 3) another pre-trained LLM corrects text errors caused by insufficient training data and annotation ambiguities. Both the audio encoder and text decoder are optimized by low-rank adaptation (LoRA). Experiments show that each of these enhancements is effective. Our method obtains a 33.0 SPIDEr-FL score, outperforming the winner of DCASE 2023 Task 6A.
翻訳日:2024-06-26 19:19:58 公開日:2024-06-25
# LLMはゼロショットコンテクスト対応同時翻訳機である

LLMs Are Zero-Shot Context-Aware Simultaneous Translators ( http://arxiv.org/abs/2406.13476v3 )

ライセンス: Link先を確認
Roman Koshkin, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) トランスフォーマーの出現は機械翻訳の進歩を加速させた。 より最近の大きな言語モデル(LLM)は、翻訳を含む幅広い言語タスクにおいて、その汎用性と強力なパフォーマンスのおかげで注目を浴びている。 ここでは、オープンソースのLLMが、同時機械翻訳(SiMT)タスクにおける最先端のベースラインと同等以上のパフォーマンスを示す。 また,LLMでは容易な最小背景情報の注入は,特に技術的課題において,さらなる性能向上をもたらすことを示す。 これは、資源集約的なトレーニングや微調整を必要としない、多言語、文脈認識、用語的に正確なSiMTシステムを次世代に構築するLLMの可能性を浮き彫りにしている。

The advent of transformers has fueled progress in machine translation. More recently large language models (LLMs) have come to the spotlight thanks to their generality and strong performance in a wide range of language tasks, including translation. Here we show that open-source LLMs perform on par with or better than some state-of-the-art baselines in simultaneous machine translation (SiMT) tasks, zero-shot. We also demonstrate that injection of minimal background information, which is easy with an LLM, brings further performance gains, especially on challenging technical subject-matter. This highlights LLMs' potential for building next generation of massively multilingual, context-aware and terminologically accurate SiMT systems that require no resource-intensive training or fine-tuning.
翻訳日:2024-06-26 19:19:58 公開日:2024-06-25
# 病理組織学における安全なデータ共有のための画像蒸留

Image Distillation for Safe Data Sharing in Histopathology ( http://arxiv.org/abs/2406.13536v2 )

ライセンス: Link先を確認
Zhe Li, Bernhard Kainz, (参考訳) 病理組織学は、臨床医が正確な診断を行い、疾患の予後を判断し、適切な治療戦略を立案するのに役立つ。 深層学習技術が医療分野で成功していることが証明されるにつれ、主な課題はデータ可用性の制限とデータ共有とプライバシに関する懸念である。 フェデレートラーニングは、モデルをローカルにトレーニングし、サーバー上のパラメータを更新することで、この問題に対処している。 しかし、ドメインシフトやバイアスといった問題は持続し、全体的なパフォーマンスに影響を与える。 データセットの蒸留は、これらの課題を克服するための別のアプローチを示す。 それは、制約なしに共有できる必須情報をカプセル化する小さな合成データセットを作成することを含む。 現在, このパラダイムは, 非可読性表現のみを生成し, 下流学習タスクでは不十分な性能を示すため, 実行不可能である。 我々は,潜在拡散モデルを訓練し,少数の可読性合成画像を用いた新しい蒸留合成データセットを構築した。 最大情報合成画像の選択は、表現空間のグラフコミュニティ解析によって行われる。 合成蒸留データに基づいて訓練された下流分類モデルと実データで訓練されたモデルとを比較検討し,実用化に適した性能を得た。

Histopathology can help clinicians make accurate diagnoses, determine disease prognosis, and plan appropriate treatment strategies. As deep learning techniques prove successful in the medical domain, the primary challenges become limited data availability and concerns about data sharing and privacy. Federated learning has addressed this challenge by training models locally and updating parameters on a server. However, issues, such as domain shift and bias, persist and impact overall performance. Dataset distillation presents an alternative approach to overcoming these challenges. It involves creating a small synthetic dataset that encapsulates essential information, which can be shared without constraints. At present, this paradigm is not practicable as current distillation approaches only generate non human readable representations and exhibit insufficient performance for downstream learning tasks. We train a latent diffusion model and construct a new distilled synthetic dataset with a small number of human readable synthetic images. Selection of maximally informative synthetic images is done via graph community analysis of the representation space. We compare downstream classification models trained on our synthetic distillation data to models trained on real data and reach performances suitable for practical application.
翻訳日:2024-06-26 19:19:58 公開日:2024-06-25
# iWISDM: 大規模マルチモーダルモデルにおける命令追従の評価

iWISDM: Assessing instruction following in multimodal models at scale ( http://arxiv.org/abs/2406.14343v3 )

ライセンス: Link先を確認
Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan, (参考訳) 詳細な指示から複雑なタスクを実行する能力は、我々の種の多くの顕著な成果の鍵となる。 人間としては、幅広いタスクを実行するだけでなく、数百から数千のステップを完了させる、非常に複雑なタスクも実行できます。 テキスト入力と視覚入力を統合した大規模言語モデルとそのより最近のマルチモーダルモデルは、複雑なタスクの実行において前例のない成功を収めた。 しかし、既存のベンチマークのほとんどは単一のモダリティ入力(テキストやビジョン)に限られており、特にマルチモダリティコンテキストでのインストラクションフォローは、マルチモダリティアセスメントの範囲を狭めている。 このギャップを埋めるために,複雑度が変化する視覚言語タスクの制限のない配列を生成するために設計された,指示された仮想VISual Decision Making (iWISDM)環境を導入する。 iWISDMを用いて、様々な複雑さレベルにわたる視覚的タスクに追従する命令の3つの異なるベンチマークをコンパイルし、これらのベンチマーク上で新たに開発された複数のマルチモーダルモデルを評価した。 我々の研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令順守を評価するための堅牢なベンチマークとしてiWISDMを確立し,これらのモデルと人間の命令を正確に追従する能力の大きなギャップを浮き彫りにした。iWISDMのコードはGitHubで公開されている。

The ability to perform complex tasks from detailed instructions is a key to many remarkable achievements of our species. As humans, we are not only capable of performing a wide variety of tasks but also very complex ones that may entail hundreds or thousands of steps to complete. Large language models and their more recent multimodal counterparts that integrate textual and visual inputs have achieved unprecedented success in performing complex tasks. Yet, most existing benchmarks are largely confined to single-modality inputs (either text or vision), narrowing the scope of multimodal assessments, particularly for instruction-following in multimodal contexts. To bridge this gap, we introduce the instructed-Virtual VISual Decision Making (iWISDM) environment engineered to generate a limitless array of vision-language tasks of varying complexity. Using iWISDM, we compiled three distinct benchmarks of instruction following visual tasks across varying complexity levels and evaluated several newly developed multimodal models on these benchmarks. Our findings establish iWISDM as a robust benchmark for assessing the instructional adherence of both existing and emergent multimodal models and highlight a large gap between these models' ability to precisely follow instructions with that of humans.The code of iWISDM is available on GitHub at https://github.com/BashivanLab/iWISDM.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# SynDARin:低リソース言語における自動推論のためのデータセットの合成

SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages ( http://arxiv.org/abs/2406.14425v2 )

ライセンス: Link先を確認
Gayane Ghazaryan, Erik Arakelyan, Pasquale Minervini, Isabelle Augenstein, (参考訳) QAデータセットは、LLM(Large Language Model)の機能の開発と評価に役立っている。 しかし、このようなデータセットは、収集と手作業によるアノテーションのコストと難しさのため、英語以外の言語では不十分である。 これは、低リソース言語における新しいモデルの作成と多言語LLMの性能の測定が困難であることを意味する。 これを軽減するために、低リソース言語向けのQAデータセットの生成と検証を行うメソッドである$\textbf{S}$yn$\textbf{DAR}$inを提案する。 並列コンテンツマイニングを用いて、英語と対象言語の間の$\textit{ Human-curated}$パラグラフを得る。 我々は、英語データを文脈として、$\textit{generate}$ Synthetic Multiple-Awer pairs(MC)に使用する。 これらは、指定されていない$\textit{human-curated}$パラグラフと組み合わせることで、最終的なQAデータセットを形成する。 この方法では、コンテンツ品質の維持、事実エラーの可能性を低減し、コストのかかるアノテーションの必要性を回避することができる。 この手法をテストするために、アルメニア語のための12ドルのサンプルを持つQAデータセットを作成しました。 人間の評価では、生成された英語データの9,8\%が質問の種類やトピックの品質と多様性を維持しており、翻訳検証パイプラインは品質の悪いデータの$\sim70\%をフィルタリングすることができる。 我々は、このデータセットを用いて最先端のLCMをベンチマークし、ランダムな確率に近いモデル性能で人間の精度を達成できないことを示す。 これは、生成されたデータセットが非自明であり、低リソース言語の推論能力を評価するために使用できることを示している。

Question Answering (QA) datasets have been instrumental in developing and evaluating Large Language Model (LLM) capabilities. However, such datasets are scarce for languages other than English due to the cost and difficulties of collection and manual annotation. This means that producing novel models and measuring the performance of multilingual LLMs in low-resource languages is challenging. To mitigate this, we propose $\textbf{S}$yn$\textbf{DAR}$in, a method for generating and validating QA datasets for low-resource languages. We utilize parallel content mining to obtain $\textit{human-curated}$ paragraphs between English and the target language. We use the English data as context to $\textit{generate}$ synthetic multiple-choice (MC) question-answer pairs, which are automatically translated and further validated for quality. Combining these with their designated non-English $\textit{human-curated}$ paragraphs form the final QA dataset. The method allows to maintain the content quality, reduces the likelihood of factual errors, and circumvents the need for costly annotation. To test the method, we created a QA dataset with $1.2$K samples for the Armenian language. The human evaluation shows that $98\%$ of the generated English data maintains quality and diversity in the question types and topics, while the translation validation pipeline can filter out $\sim70\%$ of data with poor quality. We use the dataset to benchmark state-of-the-art LLMs, showing their inability to achieve human accuracy with some model performances closer to random chance. This shows that the generated dataset is non-trivial and can be used to evaluate reasoning capabilities in low-resource language.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# TemPrompt: RAGベースのクラウドソーシングシステムにおける時間関係抽出のためのマルチタスクプロンプト学習

TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems ( http://arxiv.org/abs/2406.14825v2 )

ライセンス: Link先を確認
Jing Yang, Yu Zhao, Yang Linyao, Xiao Wang, Long Chen, Fei-Yue Wang, (参考訳) 時間的関係抽出(TRE)は、イベントや行動の進化を把握し、関連するタスクのワークフローを形成することを目的としており、クラウドソーシングシステムにおける要求者によるタスク要求の理解を支援することを約束している。 しかし、既存のメソッドは限定的で不均一に分散されたアノテートデータに苦戦している。 そこで本研究では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。 PLMのより効果的なプロンプトを引き出すため,タスク指向のプロンプト構築手法を導入し,TREの無数の要因を自動プロンプト生成に深く取り込む。 さらに、時間的事象推論をモデルがイベントや時間的手がかりに焦点を合わせるための補足として提示する。 実験結果によると、TemPromptは標準設定と少数ショット設定の両方で、ほとんどのメトリクスで比較されたベースラインを上回っている。 クラウドソーシングシナリオにおける有効性を検証するためのケーススタディが提供されている。

Temporal relation extraction (TRE) aims to grasp the evolution of events or actions, and thus shape the workflow of associated tasks, so it holds promise in helping understand task requests initiated by requesters in crowdsourcing systems. However, existing methods still struggle with limited and unevenly distributed annotated data. Therefore, inspired by the abundant global knowledge stored within pre-trained language models (PLMs), we propose a multi-task prompt learning framework for TRE (TemPrompt), incorporating prompt tuning and contrastive learning to tackle these issues. To elicit more effective prompts for PLMs, we introduce a task-oriented prompt construction approach that thoroughly takes the myriad factors of TRE into consideration for automatic prompt generation. In addition, we present temporal event reasoning as a supplement to bolster the model's focus on events and temporal cues. The experimental results demonstrate that TemPrompt outperforms all compared baselines across the majority of metrics under both standard and few-shot settings. A case study is provided to validate its effectiveness in crowdsourcing scenarios.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# 言語エージェントの直接マルチツーリング選好最適化

Direct Multi-Turn Preference Optimization for Language Agents ( http://arxiv.org/abs/2406.14868v2 )

ライセンス: Link先を確認
Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng, (参考訳) エージェントタスクに対するLLM(Large Language Models)の適用は、言語エージェントの開発において重要である。 直接選好最適化(DPO)は、複合的エラーの緩和によるこの適応のための有望な手法であり、強化学習(RL)の目的を直接最適化する手段を提供する。 しかし、DPOをマルチターンタスクに適用すると、分割関数をキャンセルできないため、課題が生じる。 この障害を克服するには、パーティション関数を現在の状態から独立させ、好ましくない軌道と好ましくない軌道の間の長さ格差に対処することが含まれる。 この光で、我々は政策制約をRL目標における状態-作用占有度尺度制約に置き換え、Bradley-Terryモデルに長さ正規化を加え、理論的な説明を伴うマルチターンエージェントタスクにDMPOという新しい損失関数を与える。 3つのマルチターンエージェントタスクデータセットに対する大規模な実験により、DMPO損失の有効性と優位性が確認された。

Adapting Large Language Models (LLMs) for agent tasks is critical in developing language agents. Direct Preference Optimization (DPO) is a promising technique for this adaptation with the alleviation of compounding errors, offering a means to directly optimize Reinforcement Learning (RL) objectives. However, applying DPO to multi-turn tasks presents challenges due to the inability to cancel the partition function. Overcoming this obstacle involves making the partition function independent of the current state and addressing length disparities between preferred and dis-preferred trajectories. In this light, we replace the policy constraint with the state-action occupancy measure constraint in the RL objective and add length normalization to the Bradley-Terry model, yielding a novel loss function named DMPO for multi-turn agent tasks with theoretical explanations. Extensive experiments on three multi-turn agent task datasets confirm the effectiveness and superiority of the DMPO loss.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# スピン鎖材料における巨大カロリー効果

Giant caloric effects in spin chain materials ( http://arxiv.org/abs/2406.15092v2 )

ライセンス: Link先を確認
A. A. Zvyagin, V. V. Slavin, (参考訳) スピン鎖材料における巨大電気・エラストカロリック効果を予測した。 この理論は問題の正確な量子力学的解に基づいている。 エントロピーに巨星が飛び込み、カロリー効果によって引き起こされる温度が初期温度に弱いことが示されている。 この効果は、新しい量子デバイス(量子コンピュータの量子ビットのシステムのような)の冷却に利用できる。 一方、臨界点の狭い近傍では大きな変化が予測されるので、この予測効果は現代のマイクロエレクトロニクスのための超感度電気・応力センサに利用することができる。

The giant electro- and elasto-caloric effects in spin chain materials are predicted. The theory is based on the exact quantum mechanical solution of the problem. It is shown that the giant jumps in the entropy and the temperature caused by the caloric effect are weakly affected by the initial temperature. The effect can be used for the cooling of new quantum devices (like systems of qubits in quantum computers). On the other hand, since large changes are predicted in the narrow neighborhood of the critical point, the predicted effect can be used in ultra-sensitive electric and stress sensors for modern microelectronics.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# ECLIPSE:スパース拡散精製によるクリーンラベル不識別毒素の伸長

ECLIPSE: Expunging Clean-label Indiscriminate Poisons via Sparse Diffusion Purification ( http://arxiv.org/abs/2406.15093v2 )

ライセンス: Link先を確認
Xianlong Wang, Shengshan Hu, Yechao Zhang, Ziqi Zhou, Leo Yu Zhang, Peng Xu, Wei Wan, Hai Jin, (参考訳) クリーンラベル無差別中毒攻撃は、正しくラベル付けされた訓練画像に目に見えない摂動を付加し、犠牲者モデルの一般化能力を劇的に低下させる。 近年, 対人訓練, 画像変換技術, 画像浄化などの防御機構が提案されている。 しかしながら、これらのスキームは適応的な攻撃を受けやすく、非現実的な仮定に基づいて構築されるか、特定の毒の種類に対してのみ有効であり、普遍的な適用性が制限される。 本研究では,ECLIPSEと呼ばれる,より普遍的で実用的で堅牢な防衛手法を提案する。 まず, ガウスノイズが毒に与える影響について検討し, 十分なランダムノイズを与えると, あらゆる種類の毒がほぼ同化されることを理論的に証明する。 これを踏まえ、被害者は極めて限られた数のクリーンイメージ(より実用的なシーン)にアクセスでき、その後、このスパースセットを拡大して、認知確率モデルを訓練する(普遍的認知型ツール)。 まず、毒を吸収するためにガウスノイズを導入し、デノナイズのためのモデルを適用し、大まかに精製されたデータセットを作成する。 最後に,ガウスノイズによる各種毒素の同化感受性の不整合のトレードオフに対処するため,残留毒素を効果的に除去する軽量な汚濁補償モジュールを提案し,より普遍的な防御手法を提案する。 大規模な実験により、我々の防衛アプローチは10の最先端防衛よりも優れていることが示された。 また,ECLIPSEに対する適応攻撃を提案し,防衛計画の堅牢性を検証する。 私たちのコードはhttps://github.com/CGCL-codes/ECLIPSEで利用可能です。

Clean-label indiscriminate poisoning attacks add invisible perturbations to correctly labeled training images, thus dramatically reducing the generalization capability of the victim models. Recently, some defense mechanisms have been proposed such as adversarial training, image transformation techniques, and image purification. However, these schemes are either susceptible to adaptive attacks, built on unrealistic assumptions, or only effective against specific poison types, limiting their universal applicability. In this research, we propose a more universally effective, practical, and robust defense scheme called ECLIPSE. We first investigate the impact of Gaussian noise on the poisons and theoretically prove that any kind of poison will be largely assimilated when imposing sufficient random noise. In light of this, we assume the victim has access to an extremely limited number of clean images (a more practical scene) and subsequently enlarge this sparse set for training a denoising probabilistic model (a universal denoising tool). We then begin by introducing Gaussian noise to absorb the poisons and then apply the model for denoising, resulting in a roughly purified dataset. Finally, to address the trade-off of the inconsistency in the assimilation sensitivity of different poisons by Gaussian noise, we propose a lightweight corruption compensation module to effectively eliminate residual poisons, providing a more universal defense approach. Extensive experiments demonstrate that our defense approach outperforms 10 state-of-the-art defenses. We also propose an adaptive attack against ECLIPSE and verify the robustness of our defense scheme. Our code is available at https://github.com/CGCL-codes/ECLIPSE.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# 復号時間アライメントのための進化的ヒューリスティックスを用いたリワードステアリング

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment ( http://arxiv.org/abs/2406.15193v3 )

ライセンス: Link先を確認
Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria, (参考訳) LLMの広範な適用性と全義性の向上は、LLMの反応をユーザやステークホルダーの好みに合わせる必要性を示唆している。 良好なアライメントを実現するために、微調整LDMパラメータを最適化する多くの最適化手法が提案されている。 しかし、そのようなパラメータチューニングは多くのタスクにおけるモデル性能に干渉することが知られている。 さらに、このような状況では、ユーザの好みの変化に追随するのは難しい。 報酬モデルガイダンスによる復号時間アライメントは、推論時間の増加を犠牲にしてこれらの問題を解決する。 しかし、そのような手法のほとんどは、探索と報酬の搾取の間に適切なバランスを取らない(多くの場合、これら2つの側面が混ざった定式化のために)。 この2つの側面を分離し、進化的な方法で実装する: 探索は、変更された命令から復号することで実施され、搾取は、不利益な世代を、よく回復した世代に周期的に置き換えるものとして表現される。 実証的な証拠は、この戦略が広く受け入れられている2つのアライメントベンチマークAlpacaEval 2 と MT-Bench において、多くの選好最適化とデコードタイムアライメントアプローチより優れていることを示している。 私たちの実装は、https://darwin-alignment.github.io.comで利用可能です。

The widespread applicability and increasing omnipresence of LLMs have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that fine-tune LLM parameters to achieve good alignment. However, such parameter tuning is known to interfere with model performance on many tasks. Moreover, keeping up with shifting user preferences is tricky in such a situation. Decoding-time alignment with reward model guidance solves these issues at the cost of increased inference time. However, most of such methods fail to strike the right balance between exploration and exploitation of reward -- often due to the conflated formulation of these two aspects - to give well-aligned responses. To remedy this we decouple these two aspects and implement them in an evolutionary fashion: exploration is enforced by decoding from mutated instructions and exploitation is represented as the periodic replacement of poorly-rewarded generations with well-rewarded ones. Empirical evidences indicate that this strategy outperforms many preference optimization and decode-time alignment approaches on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Our implementation will be available at: https://darwin-alignment.github.io.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# 非造影CTによる急性大動脈症候群の迅速かつ正確な診断 : 大規模・再検討・多施設・AIによる研究

Rapid and Accurate Diagnosis of Acute Aortic Syndrome using Non-contrast CT: A Large-scale, Retrospective, Multi-center and AI-based Study ( http://arxiv.org/abs/2406.15222v2 )

ライセンス: Link先を確認
Yujian Hu, Yilang Xiang, Yan-Jie Zhou, Yangyan He, Shifeng Yang, Xiaolong Du, Chunlan Den, Youyao Xu, Gaofeng Wang, Zhengyao Ding, Jingyong Huang, Wenjun Zhao, Xuejun Wu, Donglin Li, Qianqian Zhu, Zhenjiang Li, Chenyang Qiu, Ziheng Wu, Yunjun He, Chen Tian, Yihui Qiu, Zuodong Lin, Xiaolong Zhang, Yuan He, Zhenpeng Yuan, Xiaoxiang Zhou, Rong Fan, Ruihan Chen, Wenchao Guo, Jianpeng Zhang, Tony C. W. Mok, Zi Li, Le Lu, Dehai Lang, Xiaoqiang Li, Guofu Wang, Wei Lu, Zhengxing Huang, Minfeng Xu, Hongkun Zhang, (参考訳) 胸部痛症状は急性大動脈症候群(AAS)が致死率が高く、特に時間的・正確な治療を行なわない急性大動脈症候群(AAS)が破滅性心血管疾患である緊急部(EDs)で多い。 しかし、EDの現在のトリアージの習慣は、AAS患者の約半数が最初に診断を怠ったり、他の急性胸痛の症状があるとして誤診されたりする可能性がある。 その後、これらのAAS患者は臨床的に不正確または至適な鑑別診断を受ける。 幸運なことに,これらの下垂体プロトコルの下でも,ほとんどすべての患者が鑑別診断の初期段階に大動脈解剖を被覆する非造影CTを施行した。 本研究では,非コントラストCTを用いた人工知能モデル(DeepAAS)を開発した。 マルチセンターレトロスペクティブ(n = 20750)と現実の緊急シナリオ(n = 137,525)の2つの主要なフェーズでパフォーマンスが評価された。 マルチセンターのコホートでは、DeepAAS は 0.958 (95% CI 0.950-0.967) の受信特性曲線の下で平均領域を達成した。 現実世界のコホートでは、DeepAASは109人のAAS患者を誤認し、平均感度は92.6%(95% CI 76.2%-97.5%)、感度は99.2%(95% CI 99.1%-99.3%)に達した。 我々のAIモデルは, 鑑別診断ワークフローのすべての初期段階において, 非造影CTで良好に機能し, 全体的な誤診率と誤診率を48.8%から4.8%に低減し, 誤診初診患者の診断時間を平均681.8 (74-11,820) 分から68.5 (23-195) 分に短縮した。 DeepAASは、追加のテストを必要とすることなく、現在の臨床ワークフローのギャップを効果的に埋めることができる。

Chest pain symptoms are highly prevalent in emergency departments (EDs), where acute aortic syndrome (AAS) is a catastrophic cardiovascular emergency with a high fatality rate, especially when timely and accurate treatment is not administered. However, current triage practices in the ED can cause up to approximately half of patients with AAS to have an initially missed diagnosis or be misdiagnosed as having other acute chest pain conditions. Subsequently, these AAS patients will undergo clinically inaccurate or suboptimal differential diagnosis. Fortunately, even under these suboptimal protocols, nearly all these patients underwent non-contrast CT covering the aorta anatomy at the early stage of differential diagnosis. In this study, we developed an artificial intelligence model (DeepAAS) using non-contrast CT, which is highly accurate for identifying AAS and provides interpretable results to assist in clinical decision-making. Performance was assessed in two major phases: a multi-center retrospective study (n = 20,750) and an exploration in real-world emergency scenarios (n = 137,525). In the multi-center cohort, DeepAAS achieved a mean area under the receiver operating characteristic curve of 0.958 (95% CI 0.950-0.967). In the real-world cohort, DeepAAS detected 109 AAS patients with misguided initial suspicion, achieving 92.6% (95% CI 76.2%-97.5%) in mean sensitivity and 99.2% (95% CI 99.1%-99.3%) in mean specificity. Our AI model performed well on non-contrast CT at all applicable early stages of differential diagnosis workflows, effectively reduced the overall missed diagnosis and misdiagnosis rate from 48.8% to 4.8% and shortened the diagnosis time for patients with misguided initial suspicion from an average of 681.8 (74-11,820) mins to 68.5 (23-195) mins. DeepAAS could effectively fill the gap in the current clinical workflow without requiring additional tests.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# SegHist: 中国の歴史文書テキスト行検出のための汎用セグメンテーションベースのフレームワーク

SegHist: A General Segmentation-based Framework for Chinese Historical Document Text Line Detection ( http://arxiv.org/abs/2406.15485v2 )

ライセンス: Link先を確認
Xingjian Hu, Baole Wei, Liangcai Gao, (参考訳) テキスト線検出は、任意の形のテキスト線、高アスペクト比のテキスト線、その他多くの課題に直面した、歴史的文書解析における重要なタスクである。 本稿では,従来のセグメンテーションに基づくテキスト検出手法を用いて,特にアスペクト比の高いテキストラインの課題を効果的に解決することのできる,歴史文書テキスト検出のための一般的なフレームワークを提案する。 一般的に使われているDB++とSegHistフレームワークを統合することで、DB-SegHistを開発する。 このアプローチは、CHDAC、MTHv2、HDRCデータセット上での競合結果のSOTAを実現し、高アスペクト比のテキスト行を特徴とする最も困難なCHDACデータセットにおいて、1.19%の大幅な改善を実現している。 さらに, 回転MTHv2および回転HDRC上でSOTAを達成し, その回転ロバスト性を示した。 コードはhttps://github.com/LumionHXJ/SegHist.comで公開されている。

Text line detection is a key task in historical document analysis facing many challenges of arbitrary-shaped text lines, dense texts, and text lines with high aspect ratios, etc. In this paper, we propose a general framework for historical document text detection (SegHist), enabling existing segmentation-based text detection methods to effectively address the challenges, especially text lines with high aspect ratios. Integrating the SegHist framework with the commonly used method DB++, we develop DB-SegHist. This approach achieves SOTA on the CHDAC, MTHv2, and competitive results on HDRC datasets, with a significant improvement of 1.19% on the most challenging CHDAC dataset which features more text lines with high aspect ratios. Moreover, our method attains SOTA on rotated MTHv2 and rotated HDRC, demonstrating its rotational robustness. The code is available at https://github.com/LumionHXJ/SegHist.
翻訳日:2024-06-26 19:19:57 公開日:2024-06-25
# ロバストデータ抽出のための幾何媒介(GM)マッチング

Geometric Median (GM) Matching for Robust Data Pruning ( http://arxiv.org/abs/2406.17188v1 )

ライセンス: Link先を確認
Anish Acharya, Inderjit S Dhillon, Sujay Sanghavi, (参考訳) データプルーニング(Data pruning)は、大規模データセットから小さくて情報的なサブセットを選択するための組合せ的タスクであり、大規模にデータに飢えた現代のディープラーニングモデルをトレーニングする際の膨大な計算コストを軽減するために不可欠である。 大規模なデータ収集はめったに騒がしいため、汚職があっても頑丈なデータ刈り取り戦略を開発することは、実際は極めて重要である。 残念なことに、(ロバストな)データプルーニングの既存のヒューリスティックスは理論的なコヒーレンスを欠いており、問題設定の性質によってしばしば達成不可能な英雄的な仮定に依存している。 さらに、これらの戦略は、特に強い汚職やアグレッシブプルーニング率を含むシナリオにおいて、ランダムサンプリングよりも、サブ最適のニューラルスケーリング法を生じることが多い。これは、証明可能なロバストなデータプルーニングをオープンな課題とする。これに対し、我々は、Geometric Median(\gm$) Matching -- a herding~\citep{welling2009herding}スタイルのgreedyアルゴリズムを提案する。これは、サブセットの平均が(潜在的に)ノイズデータセットの幾何学的中央値に近似するように、$k$-subsetを生成する。 理論的には、$\gm$ Matchingは$\gO(1/k)$のスケールを$\gO(1/\sqrt{k})$のスケールで楽しむ。 一般的なディープラーニングベンチマークの広範な実験によると、$\gm$ Matchingは、最先端の最先端を一貫して上回り、高い汚職率とアグレッシブプルーニングレートで上昇し、$\gm$ Matchingは、堅牢なデータプルーニングにおける将来の研究の強力なベースラインとなる。

Data pruning, the combinatorial task of selecting a small and informative subset from a large dataset, is crucial for mitigating the enormous computational costs associated with training data-hungry modern deep learning models at scale. Since large-scale data collections are invariably noisy, developing data pruning strategies that remain robust even in the presence of corruption is critical in practice. Unfortunately, the existing heuristics for (robust) data pruning lack theoretical coherence and rely on heroic assumptions, that are, often unattainable, by the very nature of the problem setting. Moreover, these strategies often yield sub-optimal neural scaling laws even compared to random sampling, especially in scenarios involving strong corruption and aggressive pruning rates -- making provably robust data pruning an open challenge. In response, in this work, we propose Geometric Median ($\gm$) Matching -- a herding~\citep{welling2009herding} style greedy algorithm -- that yields a $k$-subset such that the mean of the subset approximates the geometric median of the (potentially) noisy dataset. Theoretically, we show that $\gm$ Matching enjoys an improved $\gO(1/k)$ scaling over $\gO(1/\sqrt{k})$ scaling of uniform sampling; while achieving the optimal breakdown point of 1/2 even under arbitrary corruption. Extensive experiments across popular deep learning benchmarks indicate that $\gm$ Matching consistently outperforms prior state-of-the-art; the gains become more profound at high rates of corruption and aggressive pruning rates; making $\gm$ Matching a strong baseline for future research in robust data pruning.
翻訳日:2024-06-26 16:11:02 公開日:2024-06-25
# 幼児中心型ホームサウンドスケープにおける音のタグ付け

Sound Tagging in Infant-centric Home Soundscapes ( http://arxiv.org/abs/2406.17190v1 )

ライセンス: Link先を確認
Mohammad Nur Hossain Khan, Jialu Li, Nancy L. McElwain, Mark Hasegawa-Johnson, Bashima Islam, (参考訳) ある環境騒音は、幼児や幼児の発達に悪影響を及ぼす。 家庭環境における音事象の分類・タグ付けは活発な研究分野であるが, 従来, 環境に置かれる非定常マイクや成人の観点から収集されたデータに着目した研究が盛んであった。 さらに、これらの作品の多くは、環境中の幼児や幼児を無視したり、固定音源からのノイズが幼児の位置で中等度である場合やその逆の場合にのみ、単一の家族から収集されたデータを持っている。 したがって,近年の騒音事象検出のための事前学習モデルの成功にもかかわらず,幼児中心の音環境におけるこれらのモデルの性能についてはまだ検討されていない。 このギャップを埋めるため,22家族の家庭音環境の騒音を観測・ラベル付けし,幼児用記録装置を用いて収集した。 本稿では,騒音条件の幼児中心環境データと一般家庭環境データセットを用いた大規模事前学習モデル(Audio Spectrogram Transformer (AST))の性能について検討する。 再サンプリング,公開データセットの利用,公立と幼児中心のトレーニングセットの混合,ノイズとマスキングを用いたデータ拡張など,さまざまなトレーニング戦略を活用することで,スパースおよび不均衡な幼児中心のデータに対する大規模事前学習モデルの性能を評価する。 その結果、収集したデータセットと公開データセットを組み合わせることで、F1スコアを0.11(パブリックデータセット)と0.76(コンパイルデータセット)から0.84(パブリックデータセット)に、Cohen's Kappaを0.013(パブリックデータセット)と0.77(コンパイルデータセット)から0.83(統合データセット)に引き上げた。

Certain environmental noises have been associated with negative developmental outcomes for infants and young children. Though classifying or tagging sound events in a domestic environment is an active research area, previous studies focused on data collected from a non-stationary microphone placed in the environment or from the perspective of adults. Further, many of these works ignore infants or young children in the environment or have data collected from only a single family where noise from the fixed sound source can be moderate at the infant's position or vice versa. Thus, despite the recent success of large pre-trained models for noise event detection, the performance of these models on infant-centric noise soundscapes in the home is yet to be explored. To bridge this gap, we have collected and labeled noises in home soundscapes from 22 families in an unobtrusive manner, where the data are collected through an infant-worn recording device. In this paper, we explore the performance of a large pre-trained model (Audio Spectrogram Transformer [AST]) on our noise-conditioned infant-centric environmental data as well as publicly available home environmental datasets. Utilizing different training strategies such as resampling, utilizing public datasets, mixing public and infant-centric training sets, and data augmentation using noise and masking, we evaluate the performance of a large pre-trained model on sparse and imbalanced infant-centric data. Our results show that fine-tuning the large pre-trained model by combining our collected dataset with public datasets increases the F1-score from 0.11 (public datasets) and 0.76 (collected datasets) to 0.84 (combined datasets) and Cohen's Kappa from 0.013 (public datasets) and 0.77 (collected datasets) to 0.83 (combined datasets) compared to only training with public or collected datasets, respectively.
翻訳日:2024-06-26 16:11:02 公開日:2024-06-25
# Adaptive Augmentation Smplingを用いた一般グラフマッチング

Contrastive General Graph Matching with Adaptive Augmentation Sampling ( http://arxiv.org/abs/2406.17199v1 )

ライセンス: Link先を確認
Jianyuan Bo, Yuan Fang, (参考訳) グラフマッチングは、パターン認識などにおいて重要な応用である。 現在のアプローチでは、主に教師付き学習を採用し、制限やコストのかかる広範なラベル付きデータを要求している。 一方、グラフマッチングのための自己教師付き学習手法は、しばしば余分なカテゴリ情報や入力特徴などの追加の側情報を必要とし、それらの応用を一般的なケースに限定する。 さらに、自己教師付きグラフマッチングのための最適グラフ拡張を設計することは、堅牢性と有効性を保証するための別の課題である。 これらの問題に対処するために、グラフマッチングのための新しいグラフ中心のコントラシブフレームワーク(GCGM)を導入する。 グラフマッチングに適したより困難な拡張を適応的に選択する、Boosting-inspired Adaptive Augmentation Sampler (BiAS)を導入する。 様々な実験を通じて、GCGMは様々なデータセットにわたる最先端の自己教師手法を超越し、より効率的で効率的で汎用的なグラフマッチングに向けた重要な一歩を踏み出した。

Graph matching has important applications in pattern recognition and beyond. Current approaches predominantly adopt supervised learning, demanding extensive labeled data which can be limited or costly. Meanwhile, self-supervised learning methods for graph matching often require additional side information such as extra categorical information and input features, limiting their application to the general case. Moreover, designing the optimal graph augmentations for self-supervised graph matching presents another challenge to ensure robustness and efficacy. To address these issues, we introduce a novel Graph-centric Contrastive framework for Graph Matching (GCGM), capitalizing on a vast pool of graph augmentations for contrastive learning, yet without needing any side information. Given the variety of augmentation choices, we further introduce a Boosting-inspired Adaptive Augmentation Sampler (BiAS), which adaptively selects more challenging augmentations tailored for graph matching. Through various experiments, our GCGM surpasses state-of-the-art self-supervised methods across various datasets, marking a significant step toward more effective, efficient and general graph matching.
翻訳日:2024-06-26 16:11:01 公開日:2024-06-25
# ワールドライン長の相関

Correlators of Worldline Proper Length ( http://arxiv.org/abs/2406.17205v1 )

ライセンス: Link先を確認
Allic Sivaramakrishnan, (参考訳) 古典的な観察者は、その世界線に沿って経過した適切な時間を測定することができる。 観測者が内部相関を持つシステムに結合された場合、経過時間の測定はこれらの相関を継承する可能性がある。 木レベルでのワールドライン固有長のワールドライン質量計算相関関数について,オンシェル作用の導関数を導出する。 我々はスカラー場に結合した世界線を研究する。 長さ2点関数を計算し、相関経路のゆらぎからそれを求める。 そこで本論文では,局所相関器の対数を長さ相関器の生成関数として用いることを提案する。 この提案を用いて、Witten図によって計算されたローカルCFT相関器からAdSワールドラインオブザーバブルを抽出する。 我々は、重力、干渉計、および観測時間のホログラフィックエンコーディングの拡張について簡単に論じる。

A classical observer can measure elapsed proper time along their worldline. When observers are coupled to a system with internal correlations, measurements of elapsed time may inherit these correlations. We show that derivatives of the on-shell action with respect to worldline mass compute correlation functions of worldline proper length at tree level. We study worldlines coupled to a scalar field. We calculate the length-length two-point function and find it arises from correlated path fluctuations. As an application, we propose that the logarithm of local correlators serves as a generating function of length correlators, which generalizes the on-shell action prescription. Using this proposal, we extract AdS worldline observables from local CFT correlators as computed by Witten diagrams. We briefly discuss extensions to gravity, interferometers, and the holographic encoding of observer time.
翻訳日:2024-06-26 16:11:01 公開日:2024-06-25
# VRベースのブロックチェーンを利用した製造業向けデータ可視化フレームワーク

VR-based Blockchain-enabled Data Visualization Framework For Manufacturing Industry ( http://arxiv.org/abs/2406.17207v1 )

ライセンス: Link先を確認
Nitol Saha, Philip Samaha, Ramy Harik, (参考訳) 本研究は、VRと統合されたブロックチェーンベースのデータ視覚化フレームワークを提案し、製造の洞察を得る。 このフレームワークはサウスカロライナ大学のFuture Factories Labのテストベッドで実装されている。 本システムは,ブロックチェーンを用いた複雑な製造データを直感的でインタラクティブな表現に変換するVR環境において,ユーザを没入させることで,理解,分析,意思決定のプロセスを強化することを目的としている。 このプロジェクトでは、ブロックチェーンとVRの2つの主要コンポーネントに焦点を当てている。 Hyperledger Fabricはブロックチェーンネットワークを確立するために使用され、Future Factoriesテストベッドからデータを記録する。 このシステムは、グリップ位置を測定するロボットグリップの電位計、圧力を測定するセル、緊急停止ボタン、温度、速度、コンベアの振動センサーなど、さまざまな情報源からの情報を収集する。 予め定義された条件を満たすと、センサーID、タイムスタンプ、値、原因、重要度を含む関連するデータがブロックチェーンにセキュアに記録され、セル内の欠陥の発生を知らせる。 ブロックチェーンシステムから取得したデータは、‘GET’ APIリクエストを通じてアクセスされる。 VRアプリケーションは、ブロックチェーンデータベースから取得したデータを視覚化するために、クロスプラットフォームのUnityゲームエンジンを使用して開発されている。 Meta Quest 3は、ターゲットとなるヘッドマウントVRデバイスとして使用されている。 VRアプリケーションには2つのC#スクリプトがある: 1つは'GET' APIコールを使ってブロックチェーンデータをクエリするスクリプトで、もう1つはJSONオブジェクトをテキストデータに変換してVRシステム内で視覚化するスクリプトである。 提案システムはブロックチェーン技術とVRビジュアライゼーションを活用して,セキュアなデータ送信を使用して没入的で実用的な洞察を提供する。 提案された枠組みを採用することで、製造業者は、現在ますます複雑で相互に連携する製造現場において、効率性、持続可能性、レジリエンスの新たな可能性を解き放つことができる。

This research proposes a blockchain-based data visualization framework integrated with VR to get manufacturing insights. This framework is implemented at the testbed of the Future Factories Lab at the University of South Carolina. The proposed system aims to enhance understanding, analysis, and decision-making processes by immersing users in a VR environment where complex manufacturing data stored using blockchain is translated into intuitive and interactive representations. The project focuses on two main components: blockchain and VR. Hyperledger Fabric is employed to establish a blockchain network, recording data from the Future Factories testbed. This system captures information from various sources, such as potentiometers on robot grippers to measure grip positioning, load cells to gauge pressure, emergency stop buttons, temperature, speed, and vibration sensors on the conveyors. Whenever predefined conditions are met, pertinent data, including sensor ID, timestamp, value, cause, and importance, is securely recorded in the blockchain, signaling the occurrence of a defect within the cell. Data retrieved from the blockchain system is accessed through 'GET' API requests. A VR application is developed using a cross-platform Unity game engine to visualize the data retrieved from the blockchain database. Meta Quest 3 is used as the targeted Head Mounted VR device. The VR application has two C# scripts: one script to query blockchain data using 'GET' API calls and another script converts the JSON object to text data to visualize in the VR system. The proposed system leverages blockchain technology and VR visualization to deliver immersive, actionable insights using secure data transmission. By embracing the proposed framework, manufacturers can unlock new potential for efficiency, sustainability, and resilience in today's increasingly complex and interconnected manufacturing workplace.
翻訳日:2024-06-26 16:11:01 公開日:2024-06-25
# 米国銃暴力捜査におけるニュース見出しと鉛画像のフレーム検出

Detecting Frames in News Headlines and Lead Images in U.S. Gun Violence Coverage ( http://arxiv.org/abs/2406.17213v1 )

ライセンス: Link先を確認
Isidora Chara Tourni, Lei Guo, Hengchang Hu, Edward Halim, Prakash Ishwar, Taufiq Daryanto, Mona Jalal, Boqi Chen, Margrit Betke, Fabian Zhafransyah, Sha Lai, Derry Tanti Wijaya, (参考訳) ニュースメディアは、特定の視点を用いてイベントや問題の報告を構造化する。 例えば、銃暴力に関する事件を説明する際、一部のジャーナリストはメンタルヘルスや銃規制に焦点を当て、他のジャーナリストは銃の権利に関する議論を強調している。 このような視点は、コミュニケーション研究において 'say{frames} と呼ばれる。 本稿では,まず,リード画像と文脈情報をテキストと組み合わせて,あるニュース記事のフレームを識別する価値について検討する。 画像が見出しのフレームに関連付けられている場合、複数の情報モード(アーティクルおよび画像から派生した特徴)を使用することで、単一の情報モードよりもニュースフレームの予測が向上することが観察された。 また、フレーム画像の関連性は、フレームの具体性と呼ばれる画像を介してフレームを伝達することの容易さに関連していることも観察した。 さらに、我々は、米国における銃暴力に関する最初のマルチモーダルニュースフレーミングデータセットを公開し、通信研究者によってキュレートされ、注釈付けされた。 このデータセットにより、研究者はメディアフレーミングの研究に複数の情報モダリティを使用することができる。

News media structure their reporting of events or issues using certain perspectives. When describing an incident involving gun violence, for example, some journalists may focus on mental health or gun regulation, while others may emphasize the discussion of gun rights. Such perspectives are called \say{frames} in communication research. We study, for the first time, the value of combining lead images and their contextual information with text to identify the frame of a given news article. We observe that using multiple modes of information(article- and image-derived features) improves prediction of news frames over any single mode of information when the images are relevant to the frames of the headlines. We also observe that frame image relevance is related to the ease of conveying frames via images, which we call frame concreteness. Additionally, we release the first multimodal news framing dataset related to gun violence in the U.S., curated and annotated by communication researchers. The dataset will allow researchers to further examine the use of multiple information modalities for studying media framing.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 従来見つからなかったツールを用いた大規模言語モデルによる電力系統シミュレーション

Enabling Large Language Models to Perform Power System Simulations with Previously Unseen Tools: A Case of Daline ( http://arxiv.org/abs/2406.17215v1 )

ライセンス: Link先を確認
Mengshuo Jia, Zeyu Cui, Gabriela Hug, (参考訳) 大規模な言語モデル(LLM)と実験技術の統合は科学研究を変革し、専門的な問題解決を超えてAI能力を提供し、人間の科学者のための研究アシスタントになる。 電力システムでは、シミュレーションは研究に不可欠である。 しかし、LLMは、既存の知識の制限と電力グリッドの複雑さのために、電力系統シミュレーションにおいて重大な課題に直面している。 この問題に対処するために、電力系統とLLMドメインの両方の専門知識を統合するモジュラーフレームワークを提案する。 このフレームワークは、以前は見つからなかったツール上で電力系統シミュレーションを行うLLMの能力を向上する。 提案したフレームワークは、(最適)電力フローシミュレーションと線形化ツールボックスであるDalineで34のシミュレーションタスクを使用して検証され、GPT-4oのシミュレーションコーディング精度を0%から96.07%に改善し、ChatGPT-4oのWebインターフェースの33.8%の精度(全知識ベースがアップロードされた)を上回った。 これらの結果は、電力システムにおける研究アシスタントとしてのLLMの可能性を強調している。

The integration of experiment technologies with large language models (LLMs) is transforming scientific research, offering AI capabilities beyond specialized problem-solving to becoming research assistants for human scientists. In power systems, simulations are essential for research. However, LLMs face significant challenges in power system simulations due to limited pre-existing knowledge and the complexity of power grids. To address this issue, this work proposes a modular framework that integrates expertise from both the power system and LLM domains. This framework enhances LLMs' ability to perform power system simulations on previously unseen tools. Validated using 34 simulation tasks in Daline, a (optimal) power flow simulation and linearization toolbox not yet exposed to LLMs, the proposed framework improved GPT-4o's simulation coding accuracy from 0% to 96.07%, also outperforming the ChatGPT-4o web interface's 33.8% accuracy (with the entire knowledge base uploaded). These results highlight the potential of LLMs as research assistants in power systems.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# マシン・アンラーニングの失敗でデータ流出攻撃が取り消される

Machine Unlearning Fails to Remove Data Poisoning Attacks ( http://arxiv.org/abs/2406.17216v1 )

ライセンス: Link先を確認
Martin Pawelczyk, Jimmy Z. Di, Yiwei Lu, Gautam Kamath, Ayush Sekhari, Seth Neel, (参考訳) 大規模深層学習のために開発された近似機械アンラーニングのためのいくつかの実践的手法の有効性を再考する。 データ削除要求に従うことに加えて、未学習の手法の潜在的応用として、有毒なデータに対するトレーニングの効果を除去することが挙げられる。 既存のアンラーニング手法は, 様々な評価設定(例えば, 会員推論攻撃の緩和)において有効であることが実証されているが, 比較的大規模な計算予算が与えられた場合でも, 各種の毒殺攻撃(無差別, 標的, 新たに導入されたガウス毒殺攻撃)やモデル(画像分類器, LLM)において, データ中毒の影響を除去できないことが実験的に実証された。 未学習の有効性を正確に評価するために,データ中毒に基づく未学習評価指標を導入する。 以上の結果から,より幅広い評価を含む広い視点は,証明可能な保証を伴わずに,深層学習のための機械的アンラーニング手順に対する信頼感の誤認を避けるために必要であることが示唆された。 さらに, 未学習の手法は, 再トレーニングを必要とせずに, 有毒なデータポイントを効率的に除去する上で有用であることを示す一方で, これらの手法はまだ「プライムタイム対応」には至っていないことが示唆されている。

We revisit the efficacy of several practical methods for approximate machine unlearning developed for large-scale deep learning. In addition to complying with data deletion requests, one often-cited potential application for unlearning methods is to remove the effects of training on poisoned data. We experimentally demonstrate that, while existing unlearning methods have been demonstrated to be effective in a number of evaluation settings (e.g., alleviating membership inference attacks), they fail to remove the effects of data poisoning, across a variety of types of poisoning attacks (indiscriminate, targeted, and a newly-introduced Gaussian poisoning attack) and models (image classifiers and LLMs); even when granted a relatively large compute budget. In order to precisely characterize unlearning efficacy, we introduce new evaluation metrics for unlearning based on data poisoning. Our results suggest that a broader perspective, including a wider variety of evaluations, is required to avoid a false sense of confidence in machine unlearning procedures for deep learning without provable guarantees. Moreover, while unlearning methods show some signs of being useful to efficiently remove poisoned datapoints without having to retrain, our work suggests that these methods are not yet "ready for prime time", and currently provide limited benefit over retraining.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 内因性および外因性注意障害による顔の匿名化

Facial Identity Anonymization via Intrinsic and Extrinsic Attention Distraction ( http://arxiv.org/abs/2406.17219v1 )

ライセンス: Link先を確認
Zhenzhong Kuang, Xiaochen Yang, Yingjie Shen, Chao Hu, Jun Yu, (参考訳) 前例のない顔画像の捕獲と適用は、プライバシー開示と戦う匿名化への懸念が高まっている。 既存の方法の多くは、アイデンティティに依存しない情報の過剰な変更や、アイデンティティ保護の不十分な問題に悩まされる。 本稿では,内在的・外在的アイデンティティの注意をそらすことによって,新たな顔匿名化手法を提案する。 一方,特徴空間におけるアイデンティティ情報の匿名化は,本質的なアイデンティティの注意をそらすことによって行う。 他方では,外在的アイデンティティの注意をそらすことにより,視覚的手がかり(外観と幾何学構造)を匿名化する。 提案手法では,顔の外観や形状を柔軟かつ直感的に操作することで,多様な結果が得られる。 複数のデータセットに対して広範な実験を行い、我々のアプローチが最先端の手法より優れていることを示す。

The unprecedented capture and application of face images raise increasing concerns on anonymization to fight against privacy disclosure. Most existing methods may suffer from the problem of excessive change of the identity-independent information or insufficient identity protection. In this paper, we present a new face anonymization approach by distracting the intrinsic and extrinsic identity attentions. On the one hand, we anonymize the identity information in the feature space by distracting the intrinsic identity attention. On the other, we anonymize the visual clues (i.e. appearance and geometry structure) by distracting the extrinsic identity attention. Our approach allows for flexible and intuitive manipulation of face appearance and geometry structure to produce diverse results, and it can also be used to instruct users to perform personalized anonymization. We conduct extensive experiments on multiple datasets and demonstrate that our approach outperforms state-of-the-art methods.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 大規模言語モデルは解釈可能な学習者である

Large Language Models are Interpretable Learners ( http://arxiv.org/abs/2406.17224v1 )

ライセンス: Link先を確認
Ruochen Wang, Si Si, Felix Yu, Dorothea Wiesmann, Cho-Jui Hsieh, Inderjit Dhillon, (参考訳) 表現性と解釈可能性のトレードオフは、分類と意思決定のための人間中心の予測モデルを構築する上で、依然として重要な課題である。 記号規則は解釈可能性を提供するが、表現力に欠けることが多いが、ニューラルネットワークは性能が優れているがブラックボックスとして知られている。 本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせにより,このギャップを埋めることができることを示す。 提案したLLMベースのシンボリックプログラム(LSP)では、自然言語プロンプトを備えた事前訓練されたLLMは、原文入力を自然言語の概念に変換するための巨大な解釈可能なモジュールセットを提供する。 シンボリックプログラムはこれらのモジュールを解釈可能な決定規則に統合する。 LSPを学習するために,プログラムをスクラッチからインクリメンタルに構築する分割・コンカレントアプローチを開発し,各ステップの学習プロセスをLLMでガイドする。 データから解釈可能かつ正確な知識を抽出する際のLSPの有効性を評価するため,多種多様なタスクの集合であるIL-Benchを紹介した。 実験の結果,従来のニューロシンボリックプログラムやバニラオートプロンプトチューニング手法に比べ,LSPの性能は優れていた。 さらに、LSPが学習した知識は自然言語記述と記号規則の組み合わせであるため、人間(解釈可能)や他のLSMに容易に転送でき、配布外サンプルによく一般化できる。

The trade-off between expressiveness and interpretability remains a core challenge when building human-centric predictive models for classification and decision-making. While symbolic rules offer interpretability, they often lack expressiveness, whereas neural networks excel in performance but are known for being black boxes. In this paper, we show a combination of Large Language Models (LLMs) and symbolic programs can bridge this gap. In the proposed LLM-based Symbolic Programs (LSPs), the pretrained LLM with natural language prompts provides a massive set of interpretable modules that can transform raw input into natural language concepts. Symbolic programs then integrate these modules into an interpretable decision rule. To train LSPs, we develop a divide-and-conquer approach to incrementally build the program from scratch, where the learning process of each step is guided by LLMs. To evaluate the effectiveness of LSPs in extracting interpretable and accurate knowledge from data, we introduce IL-Bench, a collection of diverse tasks, including both synthetic and real-world scenarios across different modalities. Empirical results demonstrate LSP's superior performance compared to traditional neurosymbolic programs and vanilla automatic prompt tuning methods. Moreover, as the knowledge learned by LSP is a combination of natural language descriptions and symbolic rules, it is easily transferable to humans (interpretable), and other LLMs, and generalizes well to out-of-distribution samples.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 全スライド画像の生存解析のためのマルチモーダルクロスタスクインタラクション

Multimodal Cross-Task Interaction for Survival Analysis in Whole Slide Pathological Images ( http://arxiv.org/abs/2406.17225v1 )

ライセンス: Link先を確認
Songhan Jiang, Zhengyu Gan, Linghan Cai, Yifeng Wang, Yongbing Zhang, (参考訳) 病理画像とゲノムプロファイルを利用した生存予測は、癌解析と予後においてますます重要である。 1)スライド画像全体(WSI)に含まれる巨大なピクセルは,病理像の過程を複雑にし,腫瘍微小環境(TME)を効果的に表現することが困難である。 2) 既存のマルチモーダル手法は相補的な情報を統合するためのアライメント戦略に頼っていることが多い。 本稿では,サブタイプ分類と生存分析タスクの因果関係を明らかにするために,MCTI(Multimodal Cross-Task Interaction)フレームワークを提案する。 特に,WSIsのTME関連特徴を捉えるために,腫瘍領域のマイニングにサブタイプ分類タスクを利用する。 同時に、マルチヘッドアテンション機構がゲノム特徴抽出に応用され、タスク関連ゲノム埋め込みを得るためにグループ化遺伝子を適応的に実行する。 病理画像とゲノムデータの共同表現により、最適な輸送理論を用いて、サブタイプ分類と生存分析タスクの相関をモデル化し、ポテンシャル情報を効果的に伝達するトランスポートガイドアテンション(TGA)モジュールも導入する。 MCTIは3つの公開ベンチマークで最先端のフレームワークよりも優れています。 https://github.com/jsh0792/MCTI}{https://github.com/jsh0792/MCTI}

Survival prediction, utilizing pathological images and genomic profiles, is increasingly important in cancer analysis and prognosis. Despite significant progress, precise survival analysis still faces two main challenges: (1) The massive pixels contained in whole slide images (WSIs) complicate the process of pathological images, making it difficult to generate an effective representation of the tumor microenvironment (TME). (2) Existing multimodal methods often rely on alignment strategies to integrate complementary information, which may lead to information loss due to the inherent heterogeneity between pathology and genes. In this paper, we propose a Multimodal Cross-Task Interaction (MCTI) framework to explore the intrinsic correlations between subtype classification and survival analysis tasks. Specifically, to capture TME-related features in WSIs, we leverage the subtype classification task to mine tumor regions. Simultaneously, multi-head attention mechanisms are applied in genomic feature extraction, adaptively performing genes grouping to obtain task-related genomic embedding. With the joint representation of pathological images and genomic data, we further introduce a Transport-Guided Attention (TGA) module that uses optimal transport theory to model the correlation between subtype classification and survival analysis tasks, effectively transferring potential information. Extensive experiments demonstrate the superiority of our approaches, with MCTI outperforming state-of-the-art frameworks on three public benchmarks. \href{https://github.com/jsh0792/MCTI}{https://github.com/jsh0792/MCTI}.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 非パラメトリックグラフィカルモデルのグレディ同値探索

Greedy equivalence search for nonparametric graphical models ( http://arxiv.org/abs/2406.17228v1 )

ライセンス: Link先を確認
Bryon Aragam, (参考訳) グラフィカルモデルとベイズモデル選択の理論の顕著な成果の1つは、Chickering と Meek によるGES (en:Greedy equivalence Search) アルゴリズムである。 GESは、特に曲線指数族であるガウスモデルや離散モデルを含む様々な特殊ケースにおいて、有向非巡回グラフ(DAG)モデルの構造を一貫して推定することが知られている。 しかし、一般的な非パラメトリックDAGモデルをカバーする一般的な理論は欠落している。 ここでは、マルコフ分解の滑らかさ条件を満たすDAGモデルの一般族に対するグリーディ同値探索の整合性を確立する。 この証明は非パラメトリックベイズの最近の進歩を活用し、ラプラス近似に基づく議論を避ける不特定なDAGモデルの比較テストを構築する。 それでも、ラプラス近似が有効であり、一貫したスコアリング関数が存在する場合、古典的な結果を回復する。 その結果、一般DAGモデルに適用されたGESの一般整合定理が得られる。

One of the hallmark achievements of the theory of graphical models and Bayesian model selection is the celebrated greedy equivalence search (GES) algorithm due to Chickering and Meek. GES is known to consistently estimate the structure of directed acyclic graph (DAG) models in various special cases including Gaussian and discrete models, which are in particular curved exponential families. A general theory that covers general nonparametric DAG models, however, is missing. Here, we establish the consistency of greedy equivalence search for general families of DAG models that satisfy smoothness conditions on the Markov factorization, and hence may not be curved exponential families, or even parametric. The proof leverages recent advances in nonparametric Bayes to construct a test for comparing misspecified DAG models that avoids arguments based on the Laplace approximation. Nonetheless, when the Laplace approximation is valid and a consistent scoring function exists, we recover the classical result. As a result, we obtain a general consistency theorem for GES applied to general DAG models.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# うつ病の症状検出のための自己監督型埋め込み

Self-Supervised Embeddings for Detecting Individual Symptoms of Depression ( http://arxiv.org/abs/2406.17229v1 )

ライセンス: Link先を確認
Sri Harsha Dumpala, Katerina Dikaios, Abraham Nunes, Frank Rudzicz, Rudolf Uher, Sageev Oore, (参考訳) 世界の数百万人に影響を及ぼす精神疾患であるうつ病は、信頼できるアセスメントシステムを必要としている。 うつ病を検知するか、その重症度を予測することだけに焦点を当てた従来の研究とは異なり、我々の研究はうつ病の個々の症状を特定しつつ、その重症度を音声入力を用いて予測する。 我々は、自己教師付き学習(SSL)ベースの音声モデルを利用して、このタスクで頻繁に遭遇する小さなデータセットをよりよく活用する。 本研究は,従来の音声機能と比較して,SSLの埋め込みによる顕著な性能向上を示す。 種々のSSL事前訓練モデルを比較して,症状の識別に最も寄与する音声情報(意味的,話者的,韻律的)のタイプを解明する。 さらに、複数のSSL埋め込みを組み合わせることがパフォーマンスに与える影響を評価する。 さらに,抑うつ症状を効果的に識別するためのマルチタスク学習の重要性を示す。

Depression, a prevalent mental health disorder impacting millions globally, demands reliable assessment systems. Unlike previous studies that focus solely on either detecting depression or predicting its severity, our work identifies individual symptoms of depression while also predicting its severity using speech input. We leverage self-supervised learning (SSL)-based speech models to better utilize the small-sized datasets that are frequently encountered in this task. Our study demonstrates notable performance improvements by utilizing SSL embeddings compared to conventional speech features. We compare various types of SSL pretrained models to elucidate the type of speech information (semantic, speaker, or prosodic) that contributes the most in identifying different symptoms. Additionally, we evaluate the impact of combining multiple SSL embeddings on performance. Furthermore, we show the significance of multi-task learning for identifying depressive symptoms effectively.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 拡張相関テンソルに基づく統一分離性基準

A unifying separability criterion based on extended correlation tensor ( http://arxiv.org/abs/2406.17230v1 )

ライセンス: Link先を確認
Xiaofen Huang, Tinggui Zhang, Naihuan Jing, (参考訳) 絡み合いは、古典的量子区切り線への探求を言い換え、近代情報技術における潜在的に実用的な応用をもたらしているため、基本的には不合理である。 本研究では, 行列分解のアプローチを用いて, 相関テンソルに基づいて, 分離性に関する実用的基準を導入・定式化する。 この基準が以前に提案されたいくつかの関連する分離性基準を統一していることは興味深い。 理論的解析と詳細な例は、エンタングルメント検出の可用性と実現可能性を示している。 さらに、密度作用素空間におけるその線型性に応じて基準を用いて絡み合う証人の族を構築する。

Entanglement is fundamental inasmuch because it rephrases the quest for the classical-quantum demarcation line, and it also has potentially enormous practical applications in modern information technology. In this work, employing the approach of matrix decomposition, we introduce and formulate a practicable criterion for separability based on the correlation tensor. It is interesting that this criterion unifies several relevant separability criteria proposed before, even stronger than some of them. Theoretical analysis and detailed examples demonstrate its availability and feasibility for entanglement detection. Furthermore we build a family of entanglement witnesses using the criterion according to its linearity in the density operator space.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# CogMG: 大規模言語モデルと知識グラフのコラボレーション強化

CogMG: Collaborative Augmentation Between Large Language Model and Knowledge Graph ( http://arxiv.org/abs/2406.17231v1 )

ライセンス: Link先を確認
Tong Zhou, Yubo Chen, Kang Liu, Jun Zhao, (参考訳) 大規模な言語モデルは、幻覚や事実的不正確なコンテンツを生成するという妥当性にもかかわらず、疑問に答えるアプリケーションにとって不可欠なものとなっている。 LLMにおける幻覚を減らすために知識グラフを問うことは、知識グラフの不完全知識カバレッジの課題を満たす。 一方、情報抽出と知識グラフ補完による知識グラフの更新は、知識更新ミスアライメント問題に直面している。 本研究では,QAシナリオにおけるLLMの限界に対処するために知識グラフを活用するコラボレーティブ拡張フレームワークであるCogMGを紹介する。 LLMは、KGに存在しない3つの知識を特定し、分解し、それらを豊かにし、更新を現実世界の要求に合わせる。 エージェント・フレームワーク内の微調整LDMを用いて,本手法の有効性を実証し,幻覚の低減とQA応答の事実的精度の向上に寄与した。 私たちのコードとビデオは公開されています。

Large language models have become integral to question-answering applications despite their propensity for generating hallucinations and factually inaccurate content. Querying knowledge graphs to reduce hallucinations in LLM meets the challenge of incomplete knowledge coverage in knowledge graphs. On the other hand, updating knowledge graphs by information extraction and knowledge graph completion faces the knowledge update misalignment issue. In this work, we introduce a collaborative augmentation framework, CogMG, leveraging knowledge graphs to address the limitations of LLMs in QA scenarios, explicitly targeting the problems of incomplete knowledge coverage and knowledge update misalignment. The LLMs identify and decompose required knowledge triples that are not present in the KG, enriching them and aligning updates with real-world demands. We demonstrate the efficacy of this approach through a supervised fine-tuned LLM within an agent framework, showing significant improvements in reducing hallucinations and enhancing factual accuracy in QA responses. Our code and video are publicly available.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# デモグラフィックを超えて:人間の信念ネットワークを用いたロールプレイング LLM エージェントのアライメント

Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks ( http://arxiv.org/abs/2406.17232v1 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Zach Studdiford, Krirk Nirunwiroj, Agam Goyal, Vincent V. Frigo, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers, (参考訳) 人間に似た大規模言語モデル(LLM)エージェントの作成は、忠実な社会シミュレーションに不可欠である。 人口統計情報に基づくLLMのロールプレイを持つことは、時に人間の類似性を改善するが、しばしばそうではない。 本研究は,経験に基づく人間の信念ネットワークからの情報を統合することで,人間の行動とLLMの整合性を向上させることができるかどうかを検証した。 人間の調査から得られたデータを用いて,2つの重複しない潜在因子をロードする18のトピックを含む信念ネットワークを推定した。 次に, LLMをベースとしたエージェントを1つのトピックに対する意見付きでシードし, 残りのテストトピックと対応する人的データとのアライメントについて, その表現された意見のアライメントを評価した。 人口統計情報のみに基づくロールプレイングはLLMと人的意見の一致はしなかったが、エージェントを単一の信念でシードすることで、ネットワーク外のトピックではなく、信念ネットワークに関連するトピックのアライメントを大幅に改善した。 これらの結果は、社会における信念分布のパターンをシミュレートし理解しようとする仕事において、人間とLLMの信念のアライメントのための新しい道筋を示唆している。

Creating human-like large language model (LLM) agents is crucial for faithful social simulation. Having LLMs role-play based on demographic information sometimes improves human likeness but often does not. This study assessed whether LLM alignment with human behavior can be improved by integrating information from empirically-derived human belief networks. Using data from a human survey, we estimated a belief network encompassing 18 topics loading on two non-overlapping latent factors. We then seeded LLM-based agents with an opinion on one topic, and assessed the alignment of its expressed opinions on remaining test topics with corresponding human data. Role-playing based on demographic information alone did not align LLM and human opinions, but seeding the agent with a single belief greatly improved alignment for topics related in the belief network, and not for topics outside the network. These results suggest a novel path for human-LLM belief alignment in work seeking to simulate and understand patterns of belief distributions in society.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 有限粒度アライメント強化による自己構築型コンテキストデコンパイル

Self-Constructed Context Decompilation with Fined-grained Alignment Enhancement ( http://arxiv.org/abs/2406.17233v1 )

ライセンス: Link先を確認
Yunlong Feng, Yang Xu, Dechuan Teng, Honglin Mu, Xiao Xu, Libo Qin, Wanxiang Che, Qingfu Zhu, (参考訳) 逆コンパイルはコンパイル済みのコードを高レベルなプログラミング言語に変換し、ソースコードが利用できない時に解析する。 これまでの研究は主に、モデルパラメータのスケールや事前トレーニングのためのトレーニングデータを増やすことで、デコンパイル性能の向上に重点を置いてきた。 1)微調整なしでは、自己構築されたコンテキストデコンパイル(sc$^2$dec)メソッドがLLMのデコンパイル結果を再コンパイルし、文脈内学習のためのペアを構築することにより、モデルがデコンパイル性能を向上させる。 2)デバッギング情報を活用することで,アセンブリコードとソースコードを文レベルで慎重に整列する微粒化アライメント向上(FAE)を微粒化段階に導入し,デバッギングのさらなる改善を実現する。 これらの2つの手法を統合することにより、Decompile-Evalベンチマークで約7.35\%の再実行可能性向上を実現し、55.03\%の新たな最先端性能を確立した。

Decompilation transforms compiled code back into a high-level programming language for analysis when source code is unavailable. Previous work has primarily focused on enhancing decompilation performance by increasing the scale of model parameters or training data for pre-training. Based on the characteristics of the decompilation task, we propose two methods: (1) Without fine-tuning, the Self-Constructed Context Decompilation (sc$^2$dec) method recompiles the LLM's decompilation results to construct pairs for in-context learning, helping the model improve decompilation performance. (2) Fine-grained Alignment Enhancement (FAE), which meticulously aligns assembly code with source code at the statement level by leveraging debugging information, is employed during the fine-tuning phase to achieve further improvements in decompilation. By integrating these two methods, we achieved a Re-Executability performance improvement of approximately 7.35\% on the Decompile-Eval benchmark, establishing a new state-of-the-art performance of 55.03\%.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# タスク非依存のフェデレーション学習

Task-Agnostic Federated Learning ( http://arxiv.org/abs/2406.17235v1 )

ライセンス: Link先を確認
Zhengtao Yao, Hong Nguyen, Ajitesh Srivastava, Jose Luis Ambite, (参考訳) 医療画像の分野では、さまざまな機関の大規模データセットを活用することが、正確なディープラーニングモデルを開発する上で重要であるが、プライバシの懸念はデータ共有を頻繁に妨げている。 統合学習(FL)は、協調学習を促進しながらプライバシを保存するための重要なソリューションとして現れます。 しかし、実世界のシナリオにおけるその応用は、タスクとデータの不均一性、ラベルの不足、識別できない分散データ(非IID)、計算偏差など、いくつかの障害に直面している。 実世界では、医療機関は自分たちのタスクをFLサーバーに開示したり、未確認のタスクを持つネットワーク外の機関が現在進行中のフェデレーションシステムに参加することを望んだりすることを望んでいないかもしれない。 本研究では,自己教師付きFLフレームワークを適応させることにより,未確認タスクにおけるタスク非依存および一般化の問題に対処する。 ビジョントランスフォーマー(ViT)を、自己教師付き事前トレーニングのためのコンセンサス機能エンコーダとして利用し、初期ラベルを必要とせず、さまざまなデータセットやタスク間で効果的な表現学習を可能にするフレームワークである。 様々な実世界の非IID医療画像データセットを用いて、我々のアプローチの有効性を検証し、集中的なアプローチに要求されるトレーニングデータのわずか5倍の精度でF1の精度を90%保持し、アウト・オブ・ディストリションタスクに優れた適応性を示す。 その結果,フェデレート学習アーキテクチャはマルチタスク基礎モデリングへの潜在的アプローチである可能性が示唆された。

In the realm of medical imaging, leveraging large-scale datasets from various institutions is crucial for developing precise deep learning models, yet privacy concerns frequently impede data sharing. federated learning (FL) emerges as a prominent solution for preserving privacy while facilitating collaborative learning. However, its application in real-world scenarios faces several obstacles, such as task & data heterogeneity, label scarcity, non-identically distributed (non-IID) data, computational vaiation, etc. In real-world, medical institutions may not want to disclose their tasks to FL server and generalization challenge of out-of-network institutions with un-seen task want to join the on-going federated system. This study address task-agnostic and generalization problem on un-seen tasks by adapting self-supervised FL framework. Utilizing Vision Transformer (ViT) as consensus feature encoder for self-supervised pre-training, no initial labels required, the framework enabling effective representation learning across diverse datasets and tasks. Our extensive evaluations, using various real-world non-IID medical imaging datasets, validate our approach's efficacy, retaining 90\% of F1 accuracy with only 5\% of the training data typically required for centralized approaches and exhibiting superior adaptability to out-of-distribution task. The result indicate that federated learning architecture can be a potential approach toward multi-task foundation modeling.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# LIPE:非厳密な画像編集に先立ってパーソナライズされたアイデンティティを学習する

LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing ( http://arxiv.org/abs/2406.17236v1 )

ライセンス: Link先を確認
Aoyang Liu, Qingnan Fan, Shuai Qin, Hong Gu, Yansong Tang, (参考訳) 近年,テキスト・画像拡散モデルの顕著な進歩により,画像編集の大幅な進歩が見られたが,非剛性画像編集の問題点は,その複雑さと課題を示している。 既存の手法では、ユニークなアイデンティティ特性が欠如しているため、一貫した結果が得られないことが多い。 したがって、パーソナライズされたアイデンティティを事前に学習することは、編集結果の一貫性を促進することができる。 本稿では,テキストベースの非剛性画像編集に先立ってパーソナライズされたアイデンティティを学習する,新しい課題について検討する。 画像の事前学習と編集の課題に対処するため,同一対象の画像の限られたセットを用いて生成モデルをカスタマイズする2段階のフレームワークLIPEを提案し,その後,学習済みのモデルを非剛性画像編集に利用する。 実験により,過去の先行手法を質的,定量的に比較し,様々な編集シナリオにおけるアプローチの利点を実証した。

Although recent years have witnessed significant advancements in image editing thanks to the remarkable progress of text-to-image diffusion models, the problem of non-rigid image editing still presents its complexities and challenges. Existing methods often fail to achieve consistent results due to the absence of unique identity characteristics. Thus, learning a personalized identity prior might help with consistency in the edited results. In this paper, we explore a novel task: learning the personalized identity prior for text-based non-rigid image editing. To address the problems in jointly learning prior and editing the image, we present LIPE, a two-stage framework designed to customize the generative model utilizing a limited set of images of the same subject, and subsequently employ the model with learned prior for non-rigid image editing. Experimental results demonstrate the advantages of our approach in various editing scenarios over past related leading methods in qualitative and quantitative ways.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 拡張的合成:最小サンプルから大規模データセットを生成する

Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples ( http://arxiv.org/abs/2406.17238v1 )

ライセンス: Link先を確認
Vahid Jebraeeli, Bo Jiang, Hamid Krim, Derya Cansever, (参考訳) 機械学習におけるトレーニング用データの限られた可用性の課題は多くのアプリケーションで発生し、パフォーマンスと一般化への影響は深刻である。 従来のデータ拡張手法は、適度に十分なデータセットでトレーニングを強化することを目的としている。 GAN(Generative Adversarial Networks)のような生成モデルは、重要で多様なデータサンプルを生成する際に、しばしば問題のある収束に直面します。 拡散モデルは有効ではあるが、高い計算コストと長い訓練時間に苦戦している。 本稿では,最小限のサンプルから大規模かつ高忠実なデータセットを生成する,革新的な拡張合成モデルを提案する。 提案手法は拡張グラフマッピングと特徴補間を利用して拡張データセットを合成し、本質的なデータ分布と特徴構造関係を保存する。 このモデルの理論的根拠は、ニューラルネットワークの潜在空間の非線形的性質と、Koopman演算子による捕捉に根ざし、より小さなデータセットから始まり、より大きく、よりリッチな一貫性のあるデータセットの構築を容易にするために、機能の線形空間を生成する。 このプロセスは自己アテンション層で拡張されたオートエンコーダアーキテクチャによって最適化され、最適輸送により分散一貫性が向上する。 生成したデータセット上の分類器を訓練し、その性能を、大規模でオリジナルなデータセットで訓練された分類器と比較することにより、拡張的合成を検証する。 実験により、合成データに基づいてトレーニングされた分類器は、フルスケールデータセットでトレーニングされたものと同等のパフォーマンス指標を達成し、トレーニングデータを効果的に増強するモデルの可能性を実証した。 この作業は、データの不足に対する堅牢なソリューションを提供し、マシンラーニングアプリケーションにおけるデータ可用性向上の道を開く、データ生成の大幅な進歩を表している。

The challenge of limited availability of data for training in machine learning arises in many applications and the impact on performance and generalization is serious. Traditional data augmentation methods aim to enhance training with a moderately sufficient data set. Generative models like Generative Adversarial Networks (GANs) often face problematic convergence when generating significant and diverse data samples. Diffusion models, though effective, still struggle with high computational cost and long training times. This paper introduces an innovative Expansive Synthesis model that generates large-scale, high-fidelity datasets from minimal samples. The proposed approach exploits expander graph mappings and feature interpolation to synthesize expanded datasets while preserving the intrinsic data distribution and feature structural relationships. The rationale of the model is rooted in the non-linear property of neural networks' latent space and in its capture by a Koopman operator to yield a linear space of features to facilitate the construction of larger and enriched consistent datasets starting with a much smaller dataset. This process is optimized by an autoencoder architecture enhanced with self-attention layers and further refined for distributional consistency by optimal transport. We validate our Expansive Synthesis by training classifiers on the generated datasets and comparing their performance to classifiers trained on larger, original datasets. Experimental results demonstrate that classifiers trained on synthesized data achieve performance metrics on par with those trained on full-scale datasets, showcasing the model's potential to effectively augment training data. This work represents a significant advancement in data generation, offering a robust solution to data scarcity and paving the way for enhanced data availability in machine learning applications.
翻訳日:2024-06-26 16:01:10 公開日:2024-06-25
# 回路とは何か? 知識編集の視点

What Do the Circuits Mean? A Knowledge Edit View ( http://arxiv.org/abs/2406.17241v1 )

ライセンス: Link先を確認
Huaizhi Ge, Frank Rudzicz, Zining Zhu, (参考訳) 言語モデルの解釈可能性の分野では、回路発見が人気を集めている。 しかし、これらの回路の真の意味はほとんど答えられていない。 本稿では,知識編集のレンズを用いて,その意味を包括的対象として学習する新しい手法を提案する。 多様なテキスト分類データセットを用いてGPT2-XLモデルの回路を抽出し、階層的関係データセットを用いて回路内の知識編集を探索する。 以上の結果から,これらの回路はエンティティ知識を含むが,知識編集において補完回路よりも新しい知識に抵抗することが示唆された。 さらに,本質的な知識が集中している理想的な「理論回路」が,5%以上だが50%未満のパラメータを組み込む可能性が示唆された。 また、異なるデータセットからの回路間の重なり合いを評価し、適度な類似性を見出す。 では、これらの回路を構成するものは何か? 回路の最大60%は、注意やMLPモジュールではなく、層正規化モジュールで構成されており、知識ローカライゼーションに関する議論が進行中であることを示す。 要約して,本研究は,回路の機能に関する新たな知見を提供し,言語モデルのさらなる解釈可能性および安全性研究のための研究の方向性を紹介する。

In the field of language model interpretability, circuit discovery is gaining popularity. Despite this, the true meaning of these circuits remain largely unanswered. We introduce a novel method to learn their meanings as a holistic object through the lens of knowledge editing. We extract circuits in the GPT2-XL model using diverse text classification datasets, and use hierarchical relations datasets to explore knowledge editing in the circuits. Our findings indicate that these circuits contain entity knowledge but resist new knowledge more than complementary circuits during knowledge editing. Additionally, we examine the impact of circuit size, discovering that an ideal "theoretical circuit" where essential knowledge is concentrated likely incorporates more than 5% but less than 50% of the model's parameters. We also assess the overlap between circuits from different datasets, finding moderate similarities. What constitutes these circuits, then? We find that up to 60% of the circuits consist of layer normalization modules rather than attention or MLP modules, adding evidence to the ongoing debates regarding knowledge localization. In summary, our findings offer new insights into the functions of the circuits, and introduce research directions for further interpretability and safety research of language models.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# 言語モデルにおける連続学習能力のアンロック

Unlocking Continual Learning Abilities in Language Models ( http://arxiv.org/abs/2406.17245v1 )

ライセンス: Link先を確認
Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu, (参考訳) 言語モデル(LM)は優れた性能と一般化能力を示す。 しかし、LMは破滅的な忘れ込みという永続的な課題に苦慮し、継続学習(CL)における長期的持続性を損なう。 既存のアプローチは通常、古いタスクデータやタスクワイドの帰納バイアスをLMに組み込むことによってこの問題に対処する。 しかし、古いデータや正確なタスク情報は、しばしば収集するために利用できない、あるいはコストがかかるため、LMの現在のCLアプローチが利用できなくなる。 この制限に対処するため、私たちは、LMの線形層において大きな出力でのみモデルパラメータを更新するリハーサルのないタスクラベルのないメソッドである$\textbf{MIGU}$$$$$\textbf{M}$agn$\textbf{I}$tude-based $\textbf{G}$radient $\textbf{U}$pdatingを紹介した。 MIGUは、LMモデルが異なるタスクデータを扱う場合、LMの線形層における出力のL1正規化等級分布が異なるという観測に基づいている。 この単純な制約を勾配更新プロセスに課すことで、LMの固有の振る舞いを生かし、自然のCL能力を解放することができる。 実験により,MIGUは3つのLMアーキテクチャ(T5,RoBERTa,Llama2)すべてに適用可能であることが示された。 例えば、MIGUは15タスクのCLベンチマークにおいて、従来のパラメータ効率の高い微調整ベースラインよりも平均精度が15.2%向上した。 MIGUは既存の3つのCLタイプすべてとシームレスに統合し、パフォーマンスをさらに向上する。 コードは \href{https://github.com/wenyudu/MIGU}{this https URL} で公開されている。

Language models (LMs) exhibit impressive performance and generalization capabilities. However, LMs struggle with the persistent challenge of catastrophic forgetting, which undermines their long-term sustainability in continual learning (CL). Existing approaches usually address the issue by incorporating old task data or task-wise inductive bias into LMs. However, old data and accurate task information are often unavailable or costly to collect, hindering the availability of current CL approaches for LMs. To address this limitation, we introduce $\textbf{MIGU}$ ($\textbf{M}$agn$\textbf{I}$tude-based $\textbf{G}$radient $\textbf{U}$pdating for continual learning), a rehearsal-free and task-label-free method that only updates the model parameters with large magnitudes of output in LMs' linear layers. MIGU is based on our observation that the L1-normalized magnitude distribution of the output in LMs' linear layers is different when the LM models deal with different task data. By imposing this simple constraint on the gradient update process, we can leverage the inherent behaviors of LMs, thereby unlocking their innate CL abilities. Our experiments demonstrate that MIGU is universally applicable to all three LM architectures (T5, RoBERTa, and Llama2), delivering state-of-the-art or on-par performance across continual finetuning and continual pre-training settings on four CL benchmarks. For example, MIGU brings a 15.2% average accuracy improvement over conventional parameter-efficient finetuning baselines in a 15-task CL benchmark. MIGU can also seamlessly integrate with all three existing CL types to further enhance performance. Code is available at \href{https://github.com/wenyudu/MIGU}{this https URL}.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# サイレンスを超えて: ロスによるバイアス分析と非対称アプローチ

Beyond Silence: Bias Analysis through Loss and Asymmetric Approach in Audio Anti-Spoofing ( http://arxiv.org/abs/2406.17246v1 )

ライセンス: Link先を確認
Hye-jin Shim, Md Sahidullah, Jee-weon Jung, Shinji Watanabe, Tomi Kinnunen, (参考訳) 音声の反偽造検出研究の現在の傾向は、様々な偽造品を識別することを学ぶことによって、目に見えない攻撃を一般化するモデルの能力を改善することを目指している。 この強調は、主にスプーフクラスに焦点を当てている。 近年、いくつかの研究で、沈黙の分布は2つのクラスによって異なることが指摘されており、これはショートカットとして機能する。 本稿では,沈黙を超えてクラスワイズ解釈を拡張する。 我々は、損失分析と非対称手法を用いて、従来の攻撃に焦点を当てた結果指向の評価から、モデル行動のより深い検証へと移行する。 本研究は,2つのクラス間のトレーニングダイナミクスの有意な差異を強調し,ボナフィドクラスの堅牢なモデリングに焦点を合わせるための今後の研究の必要性を強調した。

Current trends in audio anti-spoofing detection research strive to improve models' ability to generalize across unseen attacks by learning to identify a variety of spoofing artifacts. This emphasis has primarily focused on the spoof class. Recently, several studies have noted that the distribution of silence differs between the two classes, which can serve as a shortcut. In this paper, we extend class-wise interpretations beyond silence. We employ loss analysis and asymmetric methodologies to move away from traditional attack-focused and result-oriented evaluations towards a deeper examination of model behaviors. Our investigations highlight the significant differences in training dynamics between the two classes, emphasizing the need for future research to focus on robust modeling of the bonafide class.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# N$ qubits に対する Einstein-Podolsky-Rosen ステアリングパラドックス "2=1''"

Einstein-Podolsky-Rosen steering paradox "2=1'' for $N$ qubits ( http://arxiv.org/abs/2406.17247v1 )

ライセンス: Link先を確認
Zhi-Jie Liu, Jie Zhou, Hui-Xian Meng, Xing-Yan Fan, Mi Xie, Fu-lin Zhang, Jing-Ling Chen, (参考訳) EPRパラドックス(Einstein-Podolsky-Rosen paradox)は、量子力学の局所的な現実的な説明がないことを強調し、量子理論を持つ局所隠れ状態モデルの非互換性を示す。 あるいは、$N$-qubit混合状態の場合、EPRのステアリングパラドックスは「2=1」という矛盾する等式で表される。 純粋な状態条件と測定条件の両方を満たす限り、この矛盾は任意の$N$-qubit状態に対して成り立つことを示す。 これはEPRステアリングパラドックスがより一般的な場合に存在することも示している。 最後に、議論を実証し分析するための具体例を挙げる。

Einstein-Podolsky-Rosen (EPR) paradox highlights the absence of a local realistic explanation for quantum mechanics, and shows the incompatibility of the local-hidden-state models with quantum theory. For $N$-qubit states, or more importantly, the $N$-qubit mixed states, we present the EPR steering paradox in the form of the contradictory equality "2=1". We show that the contradiction holds for any $N$-qubit state as long as both the pure state requirement and the measurement requirement are satisfied. This also indicates that the EPR steering paradox exists in more general cases. Finally, we give specific examples to demonstrate and analyze our arguments.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# MindSpore Quantum: ユーザフレンドリー、高性能、AI対応の量子コンピューティングフレームワーク

MindSpore Quantum: A User-Friendly, High-Performance, and AI-Compatible Quantum Computing Framework ( http://arxiv.org/abs/2406.17248v1 )

ライセンス: Link先を確認
Xusheng Xu, Jiangyu Cui, Zidong Cui, Runhong He, Qingyu Li, Xiaowei Li, Yanling Lin, Jiale Liu, Wuxin Liu, Jiale Lu, Maolin Luo, Chufan Lyu, Shijie Pan, Mosharev Pavel, Runqiu Shu, Jialiang Tang, Ruoqian Xu, Shu Xu, Kang Yang, Fan Yu, Qingguo Zeng, Haiying Zhao, Qiang Zheng, Junyuan Zhou, Xu Zhou, Yikang Zhu, Zuoheng Zou, Abolfazl Bayat, Xi Cao, Wei Cui, Zhendong Li, Guilu Long, Zhaofeng Su, Xiaoting Wang, Zizhu Wang, Shijie Wei, Re-Bing Wu, Pan Zhang, Man-Hong Yung, (参考訳) 我々は、ノイズの多い中間規模量子(NISQ)アルゴリズムの設計と実装に重点を置いた、先駆的なハイブリッド量子古典フレームワークであるMindSpore Quantumを紹介する。 高度なオープンソースのディープラーニングトレーニング/推論フレームワークであるMindSporeの堅牢なサポートを活用して、MindSpore Quantumは、CPUとGPUプラットフォームの両方で変動量子アルゴリズムの設計とトレーニングにおいて、優れたパフォーマンスを提供する。 さらに、このフレームワークは、実際の量子ハードウェア上で実行される場合の量子アルゴリズムの運用効率の向上に重点を置いている。 これは量子回路のコンパイルと量子ビットマッピングのためのアルゴリズムの開発を含み、量子プロセッサ上で最適な性能を達成するための重要なコンポーネントである。 コアフレームワークに加えて,量子コンピューティングアクセラレーションエンジンQuPackを紹介する。 QuPackは、特に変分量子固有解法(VQE)、量子近似最適化アルゴリズム(QAOA)、およびテンソルネットワークシミュレーションにおいて、MindSpore Quantumのシミュレーション速度を著しく加速し、驚くべき速度を提供する。 この最先端技術の組み合わせは、研究者や実践者が前例のない効率と性能で量子コンピューティングのフロンティアを探索することを可能にする。

We introduce MindSpore Quantum, a pioneering hybrid quantum-classical framework with a primary focus on the design and implementation of noisy intermediate-scale quantum (NISQ) algorithms. Leveraging the robust support of MindSpore, an advanced open-source deep learning training/inference framework, MindSpore Quantum exhibits exceptional efficiency in the design and training of variational quantum algorithms on both CPU and GPU platforms, delivering remarkable performance. Furthermore, this framework places a strong emphasis on enhancing the operational efficiency of quantum algorithms when executed on real quantum hardware. This encompasses the development of algorithms for quantum circuit compilation and qubit mapping, crucial components for achieving optimal performance on quantum processors. In addition to the core framework, we introduce QuPack-a meticulously crafted quantum computing acceleration engine. QuPack significantly accelerates the simulation speed of MindSpore Quantum, particularly in variational quantum eigensolver (VQE), quantum approximate optimization algorithm (QAOA), and tensor network simulations, providing astonishing speed. This combination of cutting-edge technologies empowers researchers and practitioners to explore the frontiers of quantum computing with unprecedented efficiency and performance.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# 2次元胎児脳超音波解析のためのベンチマーク

A benchmark for 2D foetal brain ultrasound analysis ( http://arxiv.org/abs/2406.17250v1 )

ライセンス: Link先を確認
Mariano Cabezas, Yago Diez, Clara Martinez-Diago, Anna Maroto, (参考訳) 脳の発達には、胚の初期から生後数ヶ月までの一連の構造変化が含まれる。 現在、超音波は放射線を使わずにリアルタイムに動的画像を取得する能力とコスト効率の確立したスクリーニング技術である。 しかし、胎児脳画像の解釈が困難であるため、異常の同定は依然として困難である。 本研究では,20週目の妊娠中に得られた104個の2次元胎児脳超音波像を,大まかな頭蓋骨分節から共通の空間に同時登録した。 画像は、元の空間と、すべての被験者の楕円を中心にしたテンプレート空間の両方に提供される。 さらに、この画像は、興味のある構造から脳の発達を分析するためのランドマークポイントを強調するために注釈付けされている。 確率地図と原画像を用いた最終アトラステンプレートは、新しいセグメンテーション手法の開発、胎児脳超音波検査の登録方法、縦断データセットへの作業拡張、新しい画像の異常検出に使用することができる。

Brain development involves a sequence of structural changes from early stages of the embryo until several months after birth. Currently, ultrasound is the established technique for screening due to its ability to acquire dynamic images in real-time without radiation and to its cost-efficiency. However, identifying abnormalities remains challenging due to the difficulty in interpreting foetal brain images. In this work we present a set of 104 2D foetal brain ultrasound images acquired during the 20th week of gestation that have been co-registered to a common space from a rough skull segmentation. The images are provided both on the original space and template space centred on the ellipses of all the subjects. Furthermore, the images have been annotated to highlight landmark points from structures of interest to analyse brain development. Both the final atlas template with probabilistic maps and the original images can be used to develop new segmentation techniques, test registration approaches for foetal brain ultrasound, extend our work to longitudinal datasets and to detect anomalies in new images.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# TopoGCL: トポロジカルグラフコントラスト学習

TopoGCL: Topological Graph Contrastive Learning ( http://arxiv.org/abs/2406.17251v1 )

ライセンス: Link先を確認
Yuzhou Chen, Jose Frias, Yulia R. Gel, (参考訳) グラフコントラスト学習(GCL)は、グラフニューラルネットワーク(GNN)の強みを活かして、豊富なラベルのない情報を含む幅広いアプリケーションでリッチな表現を学習できる新しい概念として最近登場した。 しかし、既存のGCLアプローチは、高階グラフのサブ構造に関する重要な潜伏情報を見落としてしまう傾向にある。 我々は、グラフ上の位相不変性と拡張持続性の概念をGCLに導入することで、この制限に対処する。 特に,複数の解像度でグラフの潜在形状特性を抽出することによって得られる2つの拡張ビューのトポロジ的表現を同一グラフから対象とする新しいコントラストモードを提案する。 拡張トポロジカル層とともに,拡張永続化ランドスケープ(EPL)と呼ばれる新しい拡張永続化サマリを導入し,その理論的安定性の保証を導出する。 生物, 化学, 社会相互作用グラフの広範な数値結果から, 新しいトポロジカルグラフコントラスト学習(TopoGCL)モデルが, 12のデータセットのうち11の教師なしグラフ分類において, 顕著な性能向上を実現し, ノイズの多いシナリオ下で頑健性を示すことが示された。

Graph contrastive learning (GCL) has recently emerged as a new concept which allows for capitalizing on the strengths of graph neural networks (GNNs) to learn rich representations in a wide variety of applications which involve abundant unlabeled information. However, existing GCL approaches largely tend to overlook the important latent information on higher-order graph substructures. We address this limitation by introducing the concepts of topological invariance and extended persistence on graphs to GCL. In particular, we propose a new contrastive mode which targets topological representations of the two augmented views from the same graph, yielded by extracting latent shape properties of the graph at multiple resolutions. Along with the extended topological layer, we introduce a new extended persistence summary, namely, extended persistence landscapes (EPL) and derive its theoretical stability guarantees. Our extensive numerical results on biological, chemical, and social interaction graphs show that the new Topological Graph Contrastive Learning (TopoGCL) model delivers significant performance gains in unsupervised graph classification for 11 out of 12 considered datasets and also exhibits robustness under noisy scenarios.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# 効率的なエネルギー推定のための資源最適化グループ化シャドウ

Resource-Optimized Grouping Shadow for Efficient Energy Estimation ( http://arxiv.org/abs/2406.17252v1 )

ライセンス: Link先を確認
Min Li, Mao Lin, Matthew J. S. Beach, (参考訳) パウリオブザーバブルからなる量子ハミルトニアンの正確かつ効率的なエネルギー推定は、現代の量子コンピューティングにおいて必須の課題である。 本稿では,新たな重なり合うグループ化戦略と凸最適化による推定誤差を最小化することにより,測定資源を最適に割り当てる資源最適化グループ化シャドウ(ROGS)アルゴリズムを提案する。 数値実験により, ROGS は, 量子コンピュータ上での回路のコンパイル・実行に要するコスト要因に対処するため, 従来手法と比較して, 高精度な推定精度を実現するために, ユニークな量子回路を著しく少なくすることを示した。

The accurate and efficient energy estimation of quantum Hamiltonians consisting of Pauli observables is an essential task in modern quantum computing. We introduce a Resource-Optimized Grouping Shadow (ROGS) algorithm, which optimally allocates measurement resources by minimizing the estimation error bound through a novel overlapped grouping strategy and convex optimization. Our numerical experiments demonstrate that ROGS requires significantly fewer unique quantum circuits for accurate estimation accuracy compared to existing methods given a fixed measurement budget, addressing a major cost factor for compiling and executing circuits on quantum computers.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# 知識編集手法はいかにして複雑な知識を編集できるか?

How Well Can Knowledge Edit Methods Edit Perplexing Knowledge? ( http://arxiv.org/abs/2406.17253v1 )

ライセンス: Link先を確認
Huaizhi Ge, Frank Rudzicz, Zining Zhu, (参考訳) 大規模言語モデル(LLM)が広くデプロイされているため、その知識をターゲットとした編集が重要な課題となっている。 近年,ランクワンモデル編集(ROME)などのモデル編集技術の進歩により,LLMを新たな知識で更新する方法が開発されている。 しかし、これらの手法の有効性は知識の種類によって異なる。 本研究は,LLMが新しい概念を理解する上での難易度を説明するために,知識を多種多様な「複雑度」で組み込む知識編集手法の能力について考察する。 まず,前編集条件の確率を用いて,対象知識の「複雑度」を定量化し,後編集条件の確率による編集の有効性を評価する。 広く使われているCounterFactデータセットを利用することで、新しい知識の「複雑さ」と12のシナリオの編集効率との間には、大きな負の相関関係が見つかった。 この現象を深く掘り下げるために、さまざまなカテゴリにまたがる99の低音-高音のペアからなる新しいデータセット、HierarchyDataを紹介します。 我々の分析によると、より抽象的な概念(ハイポニム)は、特定の概念(ハイポニム)よりも複雑である傾向がある。 知識階層が編集結果に与える影響のさらなる調査は、より階層的な水準にある知識が、いくつかのシナリオにおいて変更することがより困難であることを示唆している。 我々の研究は、LLM編集のこれまで見過ごされてきた側面、つまり、難解な知識を扱うための編集方法の変動有効性を強調した。 階層的な関係が編集結果にどのように影響するかを明らかにすることで、我々の発見はLCMを更新する上での課題に対する新たな洞察を与え、将来的なモデル編集へのよりきめ細やかなアプローチの道を開くことができる。

As large language models (LLMs) are widely deployed, targeted editing of their knowledge has become a critical challenge. Recently, advancements in model editing techniques, such as Rank-One Model Editing (ROME), have paved the way for updating LLMs with new knowledge. However, the efficacy of these methods varies across different types of knowledge. This study investigates the capability of knowledge editing methods to incorporate new knowledge with varying degrees of "perplexingness", a term we use to describe the initial difficulty LLMs have in understanding new concepts. We begin by quantifying the "perplexingness" of target knowledge using pre-edit conditional probabilities, and assess the efficacy of edits through post-edit conditional probabilities. Utilizing the widely-used CounterFact dataset, we find significant negative correlations between the "perplexingness" of the new knowledge and the edit efficacy across all 12 scenarios. To dive deeper into this phenomenon, we introduce a novel dataset, HierarchyData, consisting of 99 hyponym-hypernym pairs across diverse categories. Our analysis reveal that more abstract concepts (hypernyms) tend to be more perplexing than their specific counterparts (hyponyms). Further exploration into the influence of knowledge hierarchy on editing outcomes indicates that knowledge positioned at higher hierarchical levels is more challenging to modify in some scenarios. Our research highlights a previously overlooked aspect of LLM editing: the variable efficacy of editing methods in handling perplexing knowledge. By revealing how hierarchical relationships can influence editing outcomes, our findings offer new insights into the challenges of updating LLMs and pave the way for more nuanced approaches to model editing in the future.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# ラベルフリーセグメンテーションとトレーニングフリー画像翻訳を用いたスカルプ診断システム

Scalp Diagnostic System With Label-Free Segmentation and Training-Free Image Translation ( http://arxiv.org/abs/2406.17254v1 )

ライセンス: Link先を確認
Youngmin Kim, Saejin Kim, Hoyeon Moon, Youngjae Yu, Junhyug Noh, (参考訳) しかし、これらの疾患を包含する包括的なAIベースの診断システムの開発は、データの不均衡やラベル付けのコストのかかる問題によって、まだ未解決の領域である。 ScalpVisionでは,疑似イメージラベルペアと従来のヘアマスクラベルの欠如により,効果的なヘアセグメンテーションが達成される。 このアプローチは、毛髪の厚みや数などの重要な特徴を抽出し、アロペシアの重症度を評価するのに重要である。 さらに、ScalpVisionは、ヘア情報を維持しながらデータセット拡張に適応する生成モデルであるDiffuseIT-Mを導入し、頭皮疾患の重症度の予測を改善する。 以上の結果から,ScalpVisionは各種の頭皮疾患やアロペシアの診断に有効であり,皮膚科的治療に有用である可能性が示唆された。

Scalp diseases and alopecia affect millions of people around the world, underscoring the urgent need for early diagnosis and management of the disease.However, the development of a comprehensive AI-based diagnosis system encompassing these conditions remains an underexplored domain due to the challenges associated with data imbalance and the costly nature of labeling. To address these issues, we propose ``ScalpVision", an AI-driven system for the holistic diagnosis of scalp diseases and alopecia.In ScalpVision, effective hair segmentation is achieved using pseudo image-label pairs and an innovative prompting method in the absence of traditional hair masking labels. This approach is crucial for extracting key features such as hair thickness and count, which are then used to assess alopecia severity. Additionally, ScalpVision introduces DiffuseIT-M, a generative model adept at dataset augmentation while maintaining hair information, facilitating improved predictions of scalp disease severity. Our experimental results affirm ScalpVision's efficiency in diagnosing a variety of scalp conditions and alopecia, showcasing its potential as a valuable tool in dermatological care.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# MPCODER: 明示的・暗黙的スタイル表現学習によるマルチユーザパーソナライズドコード生成

MPCODER: Multi-user Personalized Code Generator with Explicit and Implicit Style Representation Learning ( http://arxiv.org/abs/2406.17255v1 )

ライセンス: Link先を確認
Zhenlong Dai, Chang Yao, WenKang Han, Ying Yuan, Zhipeng Gao, Jingyuan Chen, (参考訳) 大きな言語モデル(LLM)は、開発者の日々の開発を支援する大きな可能性を実証しています。 しかし、ほとんどの研究は正しいコードを生成することに焦点を当てており、パーソナライズされたコードを生成するためにLLMを使用する方法はほとんど研究されていない。 このギャップを埋めるため、複数のユーザ向けにパーソナライズされたコードを生成するMPCoder(Multi-user Personalized Code Generator)を提案しました。 コーディングスタイルの特徴をよりよく学習するために、明示的なコーディングスタイル残留学習を使用して、構文コードスタイル標準と暗黙的なスタイル学習をキャプチャし、セマンティックコードスタイル規則をキャプチャします。 コントラスト学習を通じて、異なるユーザの暗黙的な特徴表現をよりよく区別するために、マルチユーザスタイルのアダプタをトレーニングし、最終的には複数のユーザに対してパーソナライズされたコード生成を可能にします。 さらに,異なる符号化スタイルの符号間の類似性を推定するための新しい評価基準を提案する。 実験の結果,本課題に対するアプローチの有効性が示された。

Large Language Models (LLMs) have demonstrated great potential for assisting developers in their daily development. However, most research focuses on generating correct code, how to use LLMs to generate personalized code has seldom been investigated. To bridge this gap, we proposed MPCoder (Multi-user Personalized Code Generator) to generate personalized code for multiple users. To better learn coding style features, we utilize explicit coding style residual learning to capture the syntax code style standards and implicit style learning to capture the semantic code style conventions. We train a multi-user style adapter to better differentiate the implicit feature representations of different users through contrastive learning, ultimately enabling personalized code generation for multiple users. We further propose a novel evaluation metric for estimating similarities between codes of different coding styles. The experimental results show the effectiveness of our approach for this novel task.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# ビデオフレーム補間のための遠方運動モデリング

Disentangled Motion Modeling for Video Frame Interpolation ( http://arxiv.org/abs/2406.17256v1 )

ライセンス: Link先を確認
Jaihyun Lew, Jooyoung Choi, Chaehun Shin, Dahuin Jung, Sungroh Yoon, (参考訳) ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。 復元損失に基づく従来の方法以外にも、近年の研究では、知覚的品質のための高品質な生成モデルが採用されている。 しかし、これらはピクセル空間でのモデリングには複雑なトレーニングと計算コストを必要とする。 本稿では,中間動作モデルに着目し,視覚的品質を向上させるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を紹介する。 本稿では,まず,入力ペアとその光フローからフレームを生成するためのフレーム合成モデルを訓練する。 その後,光フロー用に設計された新しい拡散U-Netアーキテクチャを備え,フレーム間の双方向フローを生成する動き拡散モデルを提案する。 この方法は、より単純な低周波な動きの表現を活用することにより、画素空間上の生成的モデリング手法と比較して、計算要求の低減による知覚的品質の向上を実現する。 提案手法は,VFIにおける実効性と効率性を実証し,様々なベンチマークにおける知覚的指標の最先端手法を超越した手法である。 私たちのコードは、https://github.com/JHLew/MoMoで利用可能です。

Video frame interpolation (VFI) aims to synthesize intermediate frames in between existing frames to enhance visual smoothness and quality. Beyond the conventional methods based on the reconstruction loss, recent works employ the high quality generative models for perceptual quality. However, they require complex training and large computational cost for modeling on the pixel space. In this paper, we introduce disentangled Motion Modeling (MoMo), a diffusion-based approach for VFI that enhances visual quality by focusing on intermediate motion modeling. We propose disentangled two-stage training process, initially training a frame synthesis model to generate frames from input pairs and their optical flows. Subsequently, we propose a motion diffusion model, equipped with our novel diffusion U-Net architecture designed for optical flow, to produce bi-directional flows between frames. This method, by leveraging the simpler low-frequency representation of motions, achieves superior perceptual quality with reduced computational demands compared to generative modeling methods on the pixel space. Our method surpasses state-of-the-art methods in perceptual metrics across various benchmarks, demonstrating its efficacy and efficiency in VFI. Our code is available at: https://github.com/JHLew/MoMo
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# 多言語テキスト音声適応のためのパラメータ効率向上学習の活用

Leveraging Parameter-Efficient Transfer Learning for Multi-Lingual Text-to-Speech Adaptation ( http://arxiv.org/abs/2406.17257v1 )

ライセンス: Link先を確認
Yingting Li, Ambuj Mehrish, Bryan Chew, Bo Cheng, Soujanya Poria, (参考訳) 異なる言語は異なる音声システムを持ち、その韻律的特徴により、多言語で音声を効果的に合成するテキスト音声合成(TTS)モデルの開発が困難になる。 さらに、TSアーキテクチャは、複数の言語のニュアンスを捉えるのに十分な効率と、デプロイに十分な効率の両方を必要とする。 標準的なアプローチは、SpeechT5のようなトランスフォーマーベースのモデルを構築し、大規模な多言語データセットでトレーニングすることだ。 これらのモデルのサイズが大きくなるにつれて、計算コストの重いため、従来の微調整は実行不可能となる。 本稿では,多言語音声合成のためのTTSアーキテクチャを用いて,アダプタやハイパーネットワークなどのパラメータ係数伝達学習(PETL)手法を統合することを提案する。 特に、我々の実験では、PETLメソッドは、$\sim$2.5\%のチューニング可能なパラメータしか持たない完全な微調整に比べて、同等またはそれ以上のパフォーマンスを達成することができる。

Different languages have distinct phonetic systems and vary in their prosodic features making it challenging to develop a Text-to-Speech (TTS) model that can effectively synthesise speech in multilingual settings. Furthermore, TTS architecture needs to be both efficient enough to capture nuances in multiple languages and efficient enough to be practical for deployment. The standard approach is to build transformer based model such as SpeechT5 and train it on large multilingual dataset. As the size of these models grow the conventional fine-tuning for adapting these model becomes impractical due to heavy computational cost. In this paper, we proposes to integrate parameter-efficient transfer learning (PETL) methods such as adapters and hypernetwork with TTS architecture for multilingual speech synthesis. Notably, in our experiments PETL methods able to achieve comparable or even better performance compared to full fine-tuning with only $\sim$2.5\% tunable parameters.The code and samples are available at: https://anonymous.4open.science/r/multilingualTTS-BA4C.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# 多体系における環境媒介長絡相関

Environment-Mediated Long-Ranged Correlations in Many-Body System ( http://arxiv.org/abs/2406.17258v1 )

ライセンス: Link先を確認
Meng Xu, J. T. Stockburger, J. Ankerhold, (参考訳) 複雑な集合の量子状態は、環境の影響によって避けられないほど影響を受け、通常は単純なマルコフ過程によって正確にモデル化することはできない。 システムのサイズが大きくなるにつれ、非摂動シミュレーションは避けられなくなるが、本質的な多体相互作用の密接な相互作用と環境自由度からのタイムリなフィードバックのため、非常に難しい。 本研究では、最近開発された量子散逸と最小拡張状態空間(QD-MESS)のアプローチを用いて、有限サイズのIsing型スピン鎖における貯水池誘導長周期相関に対処する。 オーミックおよびサブオーミックスペクトル密度を持つ熱貯水池では、有限温度からゼロ温度までの量子時間進化をシミュレートする。 熱ゆらぎ、量子ゆらぎ、反強磁性相互作用の競合は、散逸誘起相転移や時空間相関を含む動的相の豊富なパターンを示す。

Quantum states in complex aggregates are unavoidably affected by environmental effects, which typically cannot be accurately modeled by simple Markovian processes. As system sizes scale up, nonperturbative simulation become thus unavoidable but they are extremely challenging due to the intimate interplay of intrinsic many-body interaction and time-retarded feedback from environmental degrees of freedom. In this work, we utilize the recently developed Quantum Dissipation with Minimally Extended State Space (QD-MESS) approach to address reservoir induced long-ranged temporal correlations in finite size Ising-type spin chains. For thermal reservoirs with ohmic and subohmic spectral density we simulate the quantum time evolution from finite to zero temperature. The competition between thermal fluctuations, quantum fluctuations, and anti-/ferromagnetic interactions reveal a rich pattern of dynamical phases including dissipative induced phase transitions and spatiotemporal correlations.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# 架空のキャラクターロールプレイにおける幻覚の緩和

Mitigating Hallucination in Fictional Character Role-Play ( http://arxiv.org/abs/2406.17260v1 )

ライセンス: Link先を確認
Nafis Sadeq, Zhouhang Xie, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley, (参考訳) ロールプレイングは、カスタマーサポート、エンボディエージェント、計算社会科学など、幅広い応用がある。 大規模言語モデル(LLM)のパラメトリック世界知識の影響は、ロールプレイングキャラクタがキャラクタから行動し、その知識の範囲外にあるものに対する幻覚を引き起こすことが多い。 本研究では,架空のキャラクターロールプレイにおける幻覚の評価と緩和に焦点を当てる。 我々は2000人以上のキャラクターと72,000人のインタビューを含むデータセットを導入し、18,000人の敵対的質問を行った。 予備校正された信頼閾値を用いてパラメトリック知識の影響を調節することにより幻覚を緩和するロールプレイング手法であるRoleFactを提案する。 実験の結果,提案手法は,時間感性面接における時間幻覚の44%を減らし,相手の質問に対して18%の精度で生成応答の事実的精度を向上することがわかった。 コードとデータセットはhttps://github.com/NafisSadeq/rolefact.gitで入手できる。

Role-playing has wide-ranging applications in customer support, embodied agents, computational social science, etc. The influence of parametric world knowledge of large language models (LLMs) often causes role-playing characters to act out of character and hallucinate about things outside the scope of their knowledge. In this work, we focus on the evaluation and mitigation of hallucination in fictional character role-play. We introduce a dataset with more than 2,000 characters and 72,000 interviews, including 18,000 adversarial questions. We propose RoleFact, a role-playing method that mitigates hallucination by modulating the influence of parametric knowledge using a pre-calibrated confidence threshold. Experiments show that the proposed method improves the factual precision of generated responses by 18% for adversarial questions with a 44% reduction in temporal hallucination for time-sensitive interviews. The code and the dataset will be available at https://github.com/NafisSadeq/rolefact.git.
翻訳日:2024-06-26 15:51:17 公開日:2024-06-25
# TRAWL:大規模言語モデルのためのテンソル削減および近似ウェイト

TRAWL: Tensor Reduced and Approximated Weights for Large Language Models ( http://arxiv.org/abs/2406.17261v1 )

ライセンス: Link先を確認
Yiran Luo, Het Patel, Yu Fu, Dawon Ahn, Jia Chen, Yue Dong, Evangelos E. Papalexakis, (参考訳) 大規模言語モデル(LLM)は、人工知能を根本的に変革し、最近の進歩を触媒し、環境と計算のかなりの負担を課している。 本稿では,テンソル分解によるLLMの最適化手法であるTRAWL(Tensor Reduced and Approximated Weights for Large Language Models)を紹介する。 TRAWLはトランスフォーマーベースのアーキテクチャ内で行列を利用するための多様な戦略を活用し、再トレーニングを必要とせず、注目すべきパフォーマンス向上を実現している。 最も顕著な改善は、特に最終層の完全連結重みに適用した場合、追加データや微調整を必要とせず、精度を最大16%向上させる、層間干渉戦略によって観察された。 これらの結果は、大規模言語モデルの最適化の効率性と有効性を高めるために、ターゲットおよび適応技術の重要性を強調し、より持続的でアクセスしやすいAIシステムの開発を促進する。

Large language models (LLMs) have fundamentally transformed artificial intelligence, catalyzing recent advancements while imposing substantial environmental and computational burdens. We introduce TRAWL (Tensor Reduced and Approximated Weights for Large Language Models), a novel methodology for optimizing LLMs through tensor decomposition. TRAWL leverages diverse strategies to exploit matrices within transformer-based architectures, realizing notable performance enhancements without necessitating retraining. The most significant improvements were observed through a layer-by-layer intervention strategy, particularly when applied to fully connected weights of the final layers, yielding up to 16% enhancement in accuracy without the need for additional data or fine-tuning. These results underscore the importance of targeted and adaptive techniques in increasing the efficiency and effectiveness of large language model optimization, thereby promoting the development of more sustainable and accessible AI systems.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# D2LLM:意味探索のための分解・蒸留された大規模言語モデル

D2LLM: Decomposed and Distilled Large Language Models for Semantic Search ( http://arxiv.org/abs/2406.17262v1 )

ライセンス: Link先を確認
Zihan Liao, Hang Yu, Jianguo Li, Jun Wang, Wei Zhang, (参考訳) セマンティック検索の鍵となる課題は、クエリに関連する文をピンポイントする上で、正確かつ効率的にモデルを作成することである。 BERTスタイルのバイエンコーダは、事前に計算された埋め込みで効率よく動作するが、検索タスクの微妙なニュアンスを見逃してしまうことが多い。 逆に、クロスエンコーダ設計のGPTスタイルのLCMは、これらのニュアンスをキャプチャするが、計算集約であり、リアルタイムアプリケーションを妨げる。 本稿では,D2LLMs-Decomposed and Distilled LLMs for semantic search- which with the best of both worlds。 我々は,クロスエンコーダをマルチヘッドアテンションによるポーリングとインタラクションエミュレーションモジュールに統合した効率的なバイエンコーダに分解し,ニュアンスな理解と事前計算性を実現する。 LLMからの知識は、コントラスト、ランク、特徴模倣技術を用いて、このモデルに蒸留される。 実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,少なくとも6.45%のNLIタスク性能向上率で,主要なベースラインを5つ越えていることがわかった。 ソースコードはhttps://github.com/codefuse-ai/D2LLMで入手できる。

The key challenge in semantic search is to create models that are both accurate and efficient in pinpointing relevant sentences for queries. While BERT-style bi-encoders excel in efficiency with pre-computed embeddings, they often miss subtle nuances in search tasks. Conversely, GPT-style LLMs with cross-encoder designs capture these nuances but are computationally intensive, hindering real-time applications. In this paper, we present D2LLMs-Decomposed and Distilled LLMs for semantic search-that combines the best of both worlds. We decompose a cross-encoder into an efficient bi-encoder integrated with Pooling by Multihead Attention and an Interaction Emulation Module, achieving nuanced understanding and pre-computability. Knowledge from the LLM is distilled into this model using contrastive, rank, and feature imitation techniques. Our experiments show that D2LLM surpasses five leading baselines in terms of all metrics across three tasks, particularly improving NLI task performance by at least 6.45%. The source code is available at https://github.com/codefuse-ai/D2LLM.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# フィッシャー・ラオ勾配流による効率, 多モード, 導出自由ベイズ推論

Efficient, Multimodal, and Derivative-Free Bayesian Inference With Fisher-Rao Gradient Flows ( http://arxiv.org/abs/2406.17263v1 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M. Stuart, (参考訳) 本稿では,正規化定数を含む確率分布の効率的な近似サンプリングについて検討する。 具体的には,科学技術応用における大規模逆問題に対するベイズ推定における問題クラスに着目する。 提案手法における計算上の課題は次のとおりである。 一 高価な前方モデルの繰り返し評価の必要性 (二)複数モードの存在の可能性、及び 三 前方モデルの勾配又は随伴解法が実現できないという事実。 既存のベイズ推定手法はこれらの課題のいくつかを個別に満たすが、我々は3つ全てに体系的に対処する枠組みを提案する。 提案手法は確率空間におけるフィッシャー・ラオ勾配流の上に構築され,一様指数速度で目標分布に向かって収束する確率密度の力学系を導出する。 この急激な収束は、概略した計算負担に有利である (i) 演算子分割法とガウス混合近似を適用して流れを数値的にシミュレートする。 (II)。 さらに、これらのガウス成分とその重みの微分自由な更新を促進するためにカルマン法を用い、この問題に対処する。 (三) 提案手法は,ガウス混合カルマンインバージョン (GMKI) の多モード分布を扱うのに十分な高効率な微分自由サンプリング器を実現する。 GMKIの有効性は理論上も数値的にも,概念実証と2次元例を含む複数実験で実証され,大規模応用として,ソリューションデータからNavier-Stokes初期条件を正の時間で回収する。

In this paper, we study efficient approximate sampling for probability distributions known up to normalization constants. We specifically focus on a problem class arising in Bayesian inference for large-scale inverse problems in science and engineering applications. The computational challenges we address with the proposed methodology are: (i) the need for repeated evaluations of expensive forward models; (ii) the potential existence of multiple modes; and (iii) the fact that gradient of, or adjoint solver for, the forward model might not be feasible. While existing Bayesian inference methods meet some of these challenges individually, we propose a framework that tackles all three systematically. Our approach builds upon the Fisher-Rao gradient flow in probability space, yielding a dynamical system for probability densities that converges towards the target distribution at a uniform exponential rate. This rapid convergence is advantageous for the computational burden outlined in (i). We apply Gaussian mixture approximations with operator splitting techniques to simulate the flow numerically; the resulting approximation can capture multiple modes thus addressing (ii). Furthermore, we employ the Kalman methodology to facilitate a derivative-free update of these Gaussian components and their respective weights, addressing the issue in (iii). The proposed methodology results in an efficient derivative-free sampler flexible enough to handle multi-modal distributions: Gaussian Mixture Kalman Inversion (GMKI). The effectiveness of GMKI is demonstrated both theoretically and numerically in several experiments with multimodal target distributions, including proof-of-concept and two-dimensional examples, as well as a large-scale application: recovering the Navier-Stokes initial condition from solution data at positive times.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# 自動走行のためのイメージガイド付き屋外LiDAR知覚品質評価

Image-Guided Outdoor LiDAR Perception Quality Assessment for Autonomous Driving ( http://arxiv.org/abs/2406.17265v1 )

ライセンス: Link先を確認
Ce Zhang, Azim Eskandarian, (参考訳) LiDARは、自動運転車の認識にとって最も重要なセンサーの1つだ。 しかし、現在のLiDARベースのポイントクラウド認識アルゴリズムでは、包括的で厳密なLiDAR品質評価手法が欠如しており、検出性能の不確実性につながっている。 さらに、既存のポイントクラウド品質評価アルゴリズムは、主に屋内環境や単一対象シナリオ向けに設計されている。 本稿では,画像誘導アウトドアポイントクラウド品質評価(IGO-PQA)アルゴリズムという,屋外自律運転環境のための新しい画像誘導ポイントクラウド品質評価アルゴリズムを提案する。 提案アルゴリズムは2つの主成分からなる。 最初のコンポーネントであるIGO-PQA生成アルゴリズムは、ポイントクラウドデータ、対応するRGB周辺のビューイメージ、エージェントオブジェクトの基底真理アノテーションを利用して、単一フレームのLiDARベースのポイントクラウドの全体的な品質スコアを生成する。 第2のコンポーネントは、非参照アウトドアポイントクラウド品質評価のためのトランスフォーマーベースのIGO-PQA回帰アルゴリズムである。 この回帰アルゴリズムは、画像データやオブジェクト基底真理アノテーションを必要とせずに、オンライン形式でIGO-PQAスコアを直接予測することができる。 提案アルゴリズムはnuScenesとWaymoのオープンデータセットを用いて評価する。 IGO-PQA生成アルゴリズムは、一貫性と合理的な知覚品質指標を提供する。 さらに,提案したIGO-PQA回帰アルゴリズムは,nuScenesデータセットで0.86,Waymoデータセットで0.97のピアソン線形相関係数(PLCC)を実現する。

LiDAR is one of the most crucial sensors for autonomous vehicle perception. However, current LiDAR-based point cloud perception algorithms lack comprehensive and rigorous LiDAR quality assessment methods, leading to uncertainty in detection performance. Additionally, existing point cloud quality assessment algorithms are predominantly designed for indoor environments or single-object scenarios. In this paper, we introduce a novel image-guided point cloud quality assessment algorithm for outdoor autonomous driving environments, named the Image-Guided Outdoor Point Cloud Quality Assessment (IGO-PQA) algorithm. Our proposed algorithm comprises two main components. The first component is the IGO-PQA generation algorithm, which leverages point cloud data, corresponding RGB surrounding view images, and agent objects' ground truth annotations to generate an overall quality score for a single-frame LiDAR-based point cloud. The second component is a transformer-based IGO-PQA regression algorithm for no-reference outdoor point cloud quality assessment. This regression algorithm allows for the direct prediction of IGO-PQA scores in an online manner, without requiring image data and object ground truth annotations. We evaluate our proposed algorithm using the nuScenes and Waymo open datasets. The IGO-PQA generation algorithm provides consistent and reasonable perception quality indices. Furthermore, our proposed IGO-PQA regression algorithm achieves a Pearson Linear Correlation Coefficient (PLCC) of 0.86 on the nuScenes dataset and 0.97 on the Waymo dataset.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# AG-LSEC:オーディオによるレクシカルスピーカーの誤り訂正

AG-LSEC: Audio Grounded Lexical Speaker Error Correction ( http://arxiv.org/abs/2406.17266v1 )

ライセンス: Link先を確認
Rohit Paturi, Xiang Li, Sundararajan Srinivasan, (参考訳) 話者ダイアリゼーション(英: Speaker Diarization, SD)システムは通常音声ベースで、従来の音声転写パイプラインではASRシステムとは独立して動作し、特に話者回転や音声重複領域の周囲において、SDや/またはASRの調停による話者誤差を発生させることができる。 これらの誤りを低減するために、外部言語モデルが話者誤りを訂正するための語彙情報を提供する語彙話者誤り補正(LSEC)が最近提案されている。 提案手法はワードダイアリゼーション誤り率(WDER)を向上するが,付加的な音響情報を使用しず,誤りを生じやすい。 本稿では,既存のSDパイプラインから直接発する話者スコアを用いて,LSECシステムを強化し,音響的基盤を構築することを提案する。 このアプローチは、オーディオベースのSD、ASRシステムに対して25-40%の範囲でWDERを大幅に削減し、RT03-CTS、コールホーム・アメリカン・イングリッシュ、フィッシャーのデータセットに対して15-25%の差でLSECシステムを上回った。

Speaker Diarization (SD) systems are typically audio-based and operate independently of the ASR system in traditional speech transcription pipelines and can have speaker errors due to SD and/or ASR reconciliation, especially around speaker turns and regions of speech overlap. To reduce these errors, a Lexical Speaker Error Correction (LSEC), in which an external language model provides lexical information to correct the speaker errors, was recently proposed. Though the approach achieves good Word Diarization error rate (WDER) improvements, it does not use any additional acoustic information and is prone to miscorrections. In this paper, we propose to enhance and acoustically ground the LSEC system with speaker scores directly derived from the existing SD pipeline. This approach achieves significant relative WDER reductions in the range of 25-40% over the audio-based SD, ASR system and beats the LSEC system by 15-25% relative on RT03-CTS, Callhome American English and Fisher datasets.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# 効率的なソース非依存量子会議鍵合意

Efficient source-independent quantum conference key agreement ( http://arxiv.org/abs/2406.17267v1 )

ライセンス: Link先を確認
Yu Bao, Yi-Ran Xiao, Yu-Chen Song, Yao Fu, Xiao-Yu Cao, Hua-Lei Yin, Zeng-Bing Chen, (参考訳) 量子会議鍵契約(QCKA)は、複数の参加者間で、無条件で安全な会議鍵の配布を可能にする。 高忠実度化と多光子絡み合いの長距離分布の課題により、絡み合いに基づくQCKAはキーレートとスケーラビリティの両方において深刻な制限に直面している。 本稿では, 絡み合った光子対分布ネットワーク内で実現可能な, 後マッチング方式を用いたソース非依存QCKA方式を提案する。 我々は,コヒーレント攻撃の場合においても,無条件のセキュリティ証明を提供するために,等価な仮想多光子絡み合わせプロトコルを導入する。 対称星ネットワークでは、以前の$n$-光子エンタングルメントプロトコルと比較して、会議の鍵レートが$O(\eta^{n})$から$O(\eta^{2})$に改善される。 シミュレーションの結果,提案プロトコルの性能は都市間距離において複数桁の長所を持つことがわかった。 我々は,量子ネットワークの実装において,その可能性を示すことを期待する。

Quantum conference key agreement (QCKA) enables the unconditional secure distribution of conference keys among multiple participants. Due to challenges in high-fidelity preparation and long-distance distribution of multi-photon entanglement, entanglement-based QCKA is facing severe limitations in both key rate and scalability. Here, we propose a source-independent QCKA scheme utilizing the post-matching method, feasible within the entangled photon pair distribution network. We introduce an equivalent distributing virtual multi-photon entanglement protocol for providing the unconditional security proof even in the case of coherent attacks. For the symmetry star-network, comparing with previous $n$-photon entanglement protocol, the conference key rate is improved from $O(\eta^{n})$ to $O(\eta^{2})$, where $\eta$ is the transmittance from the entanglement source to one participant. Simulation results show that the performance of our protocol has multiple orders of magnitude advantages in the intercity distance. We anticipate that our approach will demonstrate its potential in the implementation of quantum networks.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# 検索に基づくトレース診断

Search-based Trace Diagnostic ( http://arxiv.org/abs/2406.17268v1 )

ライセンス: Link先を確認
Gabriel Araujo, Ricardo Caldas, Federico Formica, Genaína Rodrigues, Patrizio Pelliccione, Claudio Menghi, (参考訳) サイバー物理システム(CPS)開発では、システムの動作が要求に反するかどうかを検証する必要がある。 この分析はしばしば、実行トレースと信号ベースの時間特性によって表現される要求によって表現されるシステムの挙動を考察する。 実行トレースが要件に違反している場合、エンジニアはトレース診断の問題を解決する必要がある。 自動トレース診断技術は、トレース診断活動においてエンジニアを支援することを目的としている。 本稿では,CPS要求に対する新しいトレース診断手法であるサーチベーストレース診断(SBTD)を提案する。 既存の手法とは異なり、SBTDは進化探索に依存している。 SBTDは、一連の候補診断から始まり、(突然変異、組換え、選択を通じて)新しい候補診断を生成するために進化的アルゴリズムを反復的に適用し、これらの解の質を決定するために適合関数を使用する。 そして、診断生成工程を行い、トレース違反の原因を説明する。 HLS (Hybrid Logic of Signals) を用いて,信号に基づく時間論理要求のためのSBTDツールである診断を実装した。 知的財産権侵害につながる17種類のトレーサ要件の組み合わせを34実験で評価し,情報診断におけるSBTDの有効性と,その有効性を時間的に評価した。 以上の結果から, 診断は診断に有効であることが確認された(34例中33例)。

Cyber-physical systems (CPS) development requires verifying whether system behaviors violate their requirements. This analysis often considers system behaviors expressed by execution traces and requirements expressed by signal-based temporal properties. When an execution trace violates a requirement, engineers need to solve the trace diagnostic problem: They need to understand the cause of the breach. Automated trace diagnostic techniques aim to support engineers in the trace diagnostic activity. This paper proposes search-based trace-diagnostic (SBTD), a novel trace-diagnostic technique for CPS requirements. Unlike existing techniques, SBTD relies on evolutionary search. SBTD starts from a set of candidate diagnoses, applies an evolutionary algorithm iteratively to generate new candidate diagnoses (via mutation, recombination, and selection), and uses a fitness function to determine the qualities of these solutions. Then, a diagnostic generator step is performed to explain the cause of the trace violation. We implemented Diagnosis, an SBTD tool for signal-based temporal logic requirements expressed using the Hybrid Logic of Signals (HLS). We evaluated Diagnosis by performing 34 experiments for 17 trace-requirements combinations leading to a property violation and by assessing the effectiveness of SBTD in producing informative diagnoses and its efficiency in generating them on a time basis. Our results confirm that Diagnosis can produce informative diagnoses in practical time for most of our experiments (33 out of 34).
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# DARG:適応推論グラフによる大規模言語モデルの動的評価

DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph ( http://arxiv.org/abs/2406.17271v1 )

ライセンス: Link先を確認
Zhehao Zhang, Jiaao Chen, Diyi Yang, (参考訳) 静的ベンチマークによるLLM(Large Language Models)の評価の現在のパラダイムには、データ汚染の脆弱性やLLMの進化する機能への適応性の欠如など、大きな制限がある。 したがって、制御された複雑さで評価データを適応し、生成できる評価方法が緊急に必要となる。 本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。 具体的には、まず、現在のベンチマークでデータポイントの推論グラフを抽出し、その後、推論グラフを摂動させて新しいテストデータを生成する。 このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。 新たに生成したデータのラベルの正確性を保証するため,コード拡張LDMも使用する。 我々はDARGフレームワークを15の最先端LLMを持つ4つの領域における多種多様な推論タスクに適用する。 実験の結果, ほぼすべてのLSMは複雑性が増すにつれて性能が低下し, 特定のLSMは顕著な低下を示した。 さらに, DARG が生成したデータを用いて計算すると, LLM のバイアスが大きくなることが判明した。 これらの観察は、LSMを動的かつ適応的に評価する方法に関する有用な洞察を提供する。 コードはhttps://github.com/SALT-NLP/DARGで公開されている。

The current paradigm of evaluating Large Language Models (LLMs) through static benchmarks comes with significant limitations, such as vulnerability to data contamination and a lack of adaptability to the evolving capabilities of LLMs. Therefore, evaluation methods that can adapt and generate evaluation data with controlled complexity are urgently needed. In this work, we introduce Dynamic Evaluation of LLMs via Adaptive Reasoning Graph Evolvement (DARG) to dynamically extend current benchmarks with controlled complexity and diversity. Specifically, we first extract the reasoning graphs of data points in current benchmarks and then perturb the reasoning graphs to generate novel testing data. Such newly generated test samples can have different levels of complexity while maintaining linguistic diversity similar to the original benchmarks. We further use a code-augmented LLM to ensure the label correctness of newly generated data. We apply our DARG framework to diverse reasoning tasks in four domains with 15 state-of-the-art LLMs. Experimental results show that almost all LLMs experience a performance decrease with increased complexity and certain LLMs exhibit significant drops. Additionally, we find that LLMs exhibit more biases when being evaluated via the data generated by DARG with higher complexity levels. These observations provide useful insights into how to dynamically and adaptively evaluate LLMs. The code is available at https://github.com/SALT-NLP/DARG.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# ASRのための音声エンコーダと大規模言語モデルとの総合解法

A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR ( http://arxiv.org/abs/2406.17272v1 )

ライセンス: Link先を確認
Van Tung Pham, Yist Lin, Tao Han, Wei Li, Jun Zhang, Lu Lu, Yuxuan Wang, (参考訳) 近年,音声認識のための言語エンコーダを大規模言語モデル (LLM) に接続する手法が提案されている。 しかし、微調整オプションの制限、音声テキストアライメントを強制するメカニズムの欠如、特にドメインミスマッチ条件における挿入エラーの増大など、いくつかの制限が持続している。 本稿では,これらの課題に対処するための包括的解決策を提案する。 私たちはまず、より思慮深い微調整スキームの調査から始めます。 次に、モダリティ間のアライメントを高めるために、マッチング損失を提案する。 最後に,高い挿入誤差を軽減するためのトレーニングと推論手法について検討する。 Librispeech corpus の実験結果から,LoRA などのパラメータ効率の高い手法を用いてエンコーダと LLM を部分的に微調整することが最もコスト効率のよい手法であることが示された。 さらに、マッチング損失はモダリティアライメントを改善し、性能を向上させる。 提案手法は挿入誤りを著しく低減する。

Recent works have shown promising results in connecting speech encoders to large language models (LLMs) for speech recognition. However, several limitations persist, including limited fine-tuning options, a lack of mechanisms to enforce speech-text alignment, and high insertion errors especially in domain mismatch conditions. This paper presents a comprehensive solution to address these issues. We begin by investigating more thoughtful fine-tuning schemes. Next, we propose a matching loss to enhance alignment between modalities. Finally, we explore training and inference methods to mitigate high insertion errors. Experimental results on the Librispeech corpus demonstrate that partially fine-tuning the encoder and LLM using parameter-efficient methods, such as LoRA, is the most cost-effective approach. Additionally, the matching loss improves modality alignment, enhancing performance. The proposed training and inference methods significantly reduce insertion errors.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# テキスト要約における不確実性推定手法の性能評価を信頼できるか?

Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization? ( http://arxiv.org/abs/2406.17274v1 )

ライセンス: Link先を確認
Jianfeng He, Runing Yang, Linlin Yu, Changbin Li, Ruoxi Jia, Feng Chen, Ming Jin, Chang-Tien Lu, (参考訳) テキスト要約は、様々な領域において重要な自然言語生成(NLG)タスクである。 しかし、リスククリティカルなアプリケーションにおける不正確な要約のコストが高いこと、特に人間によるループ内意思決定に関わるものは、テキスト要約(UE-TS)評価法における不確実性推定の信頼性を懸念する。 この懸念は、多様かつ潜在的に矛盾するNLGメトリクスに対する不確実性モデルメトリクスの依存に起因している。 この問題に対処するため、4次元にわたる31 NLGメトリクスを包括的に組み込んだUE-TSベンチマークを導入する。 このベンチマークは、3つのデータセット上で2つの大きな言語モデルと1つの事前訓練された言語モデルの不確実性推定能力を評価する。 また,本ベンチマークにおける14種類の共通不確実性評価手法の性能評価を行った。 本研究は,UE-TS手法の信頼性と有効性を確保するために,複数の非相関性NLG指標と多様な不確実性推定手法を検討することの重要性を強調した。

Text summarization, a key natural language generation (NLG) task, is vital in various domains. However, the high cost of inaccurate summaries in risk-critical applications, particularly those involving human-in-the-loop decision-making, raises concerns about the reliability of uncertainty estimation on text summarization (UE-TS) evaluation methods. This concern stems from the dependency of uncertainty model metrics on diverse and potentially conflicting NLG metrics. To address this issue, we introduce a comprehensive UE-TS benchmark incorporating 31 NLG metrics across four dimensions. The benchmark evaluates the uncertainty estimation capabilities of two large language models and one pre-trained language model on three datasets, with human-annotation analysis incorporated where applicable. We also assess the performance of 14 common uncertainty estimation methods within this benchmark. Our findings emphasize the importance of considering multiple uncorrelated NLG metrics and diverse uncertainty estimation methods to ensure reliable and efficient evaluation of UE-TS techniques.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# OPT-Tree:適応的なドラフトツリー構造を持つ投機的デコーディング

OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure ( http://arxiv.org/abs/2406.17276v1 )

ライセンス: Link先を確認
Jikai Wang, Yi Su, Juntao Li, Qinrong Xia, Zi Ye, Xinyu Duan, Zhefeng Wang, Min Zhang, (参考訳) 自動回帰言語モデルは、様々なシナリオにおいて優れたパフォーマンスを示す。 しかし,1ステップ1ワード生成モードでは推論効率が制限されるため,モデルが大きくなったため,近年はプレッシャー問題となっている。 投機的復号法では、複数のトークンを1ステップで生成できる「ドラフト・アンド・検証」機構を採用し、損失のない加速を実現する。 既存の手法は主に固定ヒューリスティックなドラフト構造を採用しており、検証中の受け入れ長を最大化するために異なる状況に適応できない。 このジレンマを緩和するために、適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。 各復号ステップにおける受理長の数学的期待を最大化する最適な木構造を探索する。 実験結果から, OPT-Treeは既存のドラフト構造より優れており, 自己回帰復号と比較して最大3.2の高速化率を実現していることがわかった。 ドラフトモデルが十分に強力で、ノード予算が十分であれば、1ステップで10以上のトークンを生成することができる。 私たちのコードはhttps://github.com/Jikai0Wang/OPT-Tree.comで公開されています。

Autoregressive language models demonstrate excellent performance in various scenarios. However, the inference efficiency is limited by its one-step-one-word generation mode, which has become a pressing problem recently as the models become increasingly larger. Speculative decoding employs a "draft and then verify" mechanism to allow multiple tokens to be generated in one step, realizing lossless acceleration. Existing methods mainly adopt fixed heuristic draft structures, which fail to adapt to different situations to maximize the acceptance length during verification. To alleviate this dilemma, we proposed OPT-Tree, an algorithm to construct adaptive and scalable draft trees. It searches the optimal tree structure that maximizes the mathematical expectation of the acceptance length in each decoding step. Experimental results reveal that OPT-Tree outperforms the existing draft structures and achieves a speed-up ratio of up to 3.2 compared with autoregressive decoding. If the draft model is powerful enough and the node budget is sufficient, it can generate more than ten tokens in a single step. Our code is available at https://github.com/Jikai0Wang/OPT-Tree.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# ターゲットデータに対する音声認証アプリケーション保護

Securing Voice Authentication Applications Against Targeted Data Poisoning ( http://arxiv.org/abs/2406.17277v1 )

ライセンス: Link先を確認
Alireza Mohammadi, Keshav Sood, Dhananjay Thiruvady, Asef Nazari, (参考訳) ディープニューラルネットワークに基づく音声認証システムは、ユーザーを認証するために生体特性をユニークに識別する生体認証技術を約束している。 しかし、ターゲットとするデータ中毒攻撃には特に影響を受けやすく、攻撃者は正統なユーザーの発話を自分自身で置き換える。 現実的な攻撃シナリオを考慮した実世界のデータセットを用いた拡張フレームワークを提案する。 その結果、提案手法は堅牢であり、少量(データセットの5%)しか毒を盛っていない場合でも正確な認証を提供することがわかった。

Deep neural network-based voice authentication systems are promising biometric verification techniques that uniquely identify biological characteristics to verify a user. However, they are particularly susceptible to targeted data poisoning attacks, where attackers replace legitimate users' utterances with their own. We propose an enhanced framework using realworld datasets considering realistic attack scenarios. The results show that the proposed approach is robust, providing accurate authentications even when only a small fraction (5% of the dataset) is poisoned.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# 負荷輸送のための分散型多足歩行制御の学習

Learning Decentralized Multi-Biped Control for Payload Transport ( http://arxiv.org/abs/2406.17279v1 )

ライセンス: Link先を確認
Bikram Pandit, Ashutosh Gupta, Mohitvishnu S. Gadde, Addison Johnson, Aayam Kumar Shrestha, Helei Duan, Jeremy Dao, Alan Fern, (参考訳) 多輪ロボットキャリアによる平坦な地形でのペイロード輸送は、十分に理解され、効果的で、構成可能である。 本研究の目的は、車輪よりも脚に適する荒地を走行する上で、同様の効果と構成性を提供することである。 そこで本研究では、車輪を複数の二足歩行ロボットに置き換える多足歩行ロボットキャリアについて検討する。 我々の主な貢献は、厳格に取り付けられた二足歩行ロボットの様々な数や構成に効果的に適用できるようなシステムのための分散制御系を設計することである。 実世界への移動を支援するシミュレーションにおいて,制御器を訓練するための強化学習手法を提案する。 シミュレーション実験では, 様々なシミュレートされた輸送シナリオに対するアプローチの有効性を定量的に評価した。 さらに,2台と3台のCassieロボットからなるシステムに対して,実世界におけるコントローラの実証を行った。 私たちの知る限り、これはスケーラブルなマルチバイピンペイロードトランスポートシステムの最初の例です。

Payload transport over flat terrain via multi-wheel robot carriers is well-understood, highly effective, and configurable. In this paper, our goal is to provide similar effectiveness and configurability for transport over rough terrain that is more suitable for legs rather than wheels. For this purpose, we consider multi-biped robot carriers, where wheels are replaced by multiple bipedal robots attached to the carrier. Our main contribution is to design a decentralized controller for such systems that can be effectively applied to varying numbers and configurations of rigidly attached bipedal robots without retraining. We present a reinforcement learning approach for training the controller in simulation that supports transfer to the real world. Our experiments in simulation provide quantitative metrics showing the effectiveness of the approach over a wide variety of simulated transport scenarios. In addition, we demonstrate the controller in the real-world for systems composed of two and three Cassie robots. To our knowledge, this is the first example of a scalable multi-biped payload transport system.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# グラフニューラルネットワークのための距離再計算器と位相再構成器

Distance Recomputator and Topology Reconstructor for Graph Neural Networks ( http://arxiv.org/abs/2406.17281v1 )

ライセンス: Link先を確認
Dong Liu, Meng Jiang, (参考訳) 本稿では,グラフニューラルネットワーク(GNN)の拡張を目的とした新しい手法である距離再計算器とトポロジー再構成器を紹介する。 距離再計算器は、動的符号化方式を用いてkホップ近傍のノード距離を動的に補正し、ノード表現の精度と適応性を向上させる。 同時に、Topology Reconstructorは、計算された「類似性距離」に基づいて局所グラフ構造を調整し、学習結果を改善するためにネットワーク構成を最適化する。 これらの手法は、従来のGNNにおける静的ノード表現と固定集約スキームの制限に対処し、複雑なグラフトポロジーと動的グラフトポロジーをモデル化するためのよりニュアンスなアプローチを提供する。 さらに, 評価実験により, 各種ベンチマークデータセットにおける既存手法と比較して, 大幅な性能上の優位性を示した。 提案手法は,ノード関係モデリングの精度を高めるだけでなく,非同期アグリゲーション機構による情報集約効率を最適化する。 このアプローチは、動的あるいは大規模グラフを含むシナリオにおいて特に有効であることが証明され、実際のグラフ学習タスクにおけるメソッドの堅牢性と適用性を示す。

This paper introduces novel methodologies, the Distance Recomputator and Topology Reconstructor, aimed at enhancing Graph Neural Networks (GNNs). The Distance Recomputator dynamically recalibrates node distances within k-hop neighborhoods using a dynamic encoding scheme, thereby improving the accuracy and adaptability of node representations. Concurrently, the Topology Reconstructor adjusts local graph structures based on computed "similarity distances," optimizing network configurations for improved learning outcomes. These methods address the limitations of static node representations and fixed aggregation schemes in traditional GNNs, offering a more nuanced approach to modeling complex and dynamic graph topologies. Furthermore, our experimental evaluations demonstrate significant performance advantages over existing methods across various benchmark datasets. The proposed Distance Recomputator and Topology Reconstructor not only enhance node relationship modeling accuracy but also optimize information aggregation efficiency through an asynchronous aggregation mechanism. This approach proves particularly effective in scenarios involving dynamic or large-scale graphs, showcasing the methods' robustness and applicability in real-world graph learning tasks.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# BERT, ニューラル情報検索, ブール検索, 否定検索

BERT, Neural Information Retrieval, Boolean Retrieval, Negation Retrieval ( http://arxiv.org/abs/2406.17282v1 )

ライセンス: Link先を確認
Quan Mai, Susan Gauch, Douglas Adams, (参考訳) 本稿では,集合演算に対するクエリ埋め込みと,インターセクション(AND),差分(NOT),ユニオン(OR)などのブール論理クエリを強化するために設計された,細調整のBERTベースモデルであるSetBERTを紹介する。 SetBERTは論理構造クエリの検索性能を大幅に改善する。 本稿では,逆コントラスト損失の革新的な利用法を提案し,否定文の同定と,プロンプトGPTによって生成されたデータセットを用いた細調整BERTを提案する。 さらに、他のBERTモデルとは異なり、3重項損失を伴う微調整は、この特定のタスクの性能を低下させることを示した。 実験の結果, SetBERT-base は BERT-base を大幅に上回るだけでなく (リコールの63%の改善) , より大型の BERT-large モデルに匹敵する性能を実現していることがわかった。

We introduce SetBERT, a fine-tuned BERT-based model designed to enhance query embeddings for set operations and Boolean logic queries, such as Intersection (AND), Difference (NOT), and Union (OR). SetBERT significantly improves retrieval performance for logic-structured queries, an area where both traditional and neural retrieval methods typically underperform. We propose an innovative use of inversed-contrastive loss, focusing on identifying the negative sentence, and fine-tuning BERT with a dataset generated via prompt GPT. Furthermore, we demonstrate that, unlike other BERT-based models, fine-tuning with triplet loss actually degrades performance for this specific task. Our experiments reveal that SetBERT-base not only significantly outperforms BERT-base (up to a 63% improvement in Recall) but also achieves performance comparable to the much larger BERT-large model, despite being only one-third the size.
翻訳日:2024-06-26 15:41:13 公開日:2024-06-25
# 偏形符号の帰納的符号化

A Recursive Encoding for Cuneiform Signs ( http://arxiv.org/abs/2406.17283v1 )

ライセンス: Link先を確認
Daniel M. Stelzer, (参考訳) cuneiform pedagogyの最も大きな問題の1つは、未知のサインを検索するプロセスである。 本稿では,コンピュータが処理可能な方法でストロークの配列を表現した,符号の「再帰的符号化」を提案する。 一連の新しいアルゴリズムは、生徒に特別な部品でサインを探す新しい方法を提供し、サインやタブレットを電子的にレンダリングする新しい方法を提供する。

One of the most significant problems in cuneiform pedagogy is the process of looking up unknown signs, which often involves a tedious page-by-page search through a sign list. This paper proposes a new "recursive encoding" for signs, which represents the arrangement of strokes in a way a computer can process. A series of new algorithms then offers students a new way to look up signs by any distinctive component, as well as providing new ways to render signs and tablets electronically.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# EON-1: 近感極端エッジオンライン特徴抽出のためのブレインインスパイアされたプロセッサ

EON-1: A Brain-Inspired Processor for Near-Sensor Extreme Edge Online Feature Extraction ( http://arxiv.org/abs/2406.17285v1 )

ライセンス: Link先を確認
Alexandra Dobrita, Amirreza Yousefzadeh, Simon Thorpe, Kanishkan Vadivel, Paul Detterer, Guangzhi Tang, Gert-Jan van Schaik, Mario Konijnenburg, Anteneh Gebregiorgis, Said Hamdioui, Manolis Sifalakis, (参考訳) Edge AIアプリケーションでは、オンライン学習とリソース制約のある組み込みデバイスへの適応をデプロイすることで、変化する環境における高速なセンサ生成データストリームを処理することができる。 しかし、Edgeでは低レイテンシと電力効率の推論が最重要であるため、オンライン学習とデバイスへの適応は推論に最小限のオーバーヘッドを課す必要がある。 この目標を念頭に置いて、高並列性、ニューロン共配置メモリと計算、イベント駆動処理といった、脳にインスパイアされたコンピューティングの原則に従う、SNN(Spike Neural Networks)を使用したストリーミングデータエッジAIアプリケーションのための、エネルギー効率のよい学習と、デバイス上での適応について検討する。 本稿では,高速なオンライン学習と適応アルゴリズムを統合した,近感的極端オンライン特徴抽出のための脳に触発されたプロセッサであるEON-1を提案する。 学習のエネルギーオーバーヘッドは1%に過ぎず、他のSoTAソリューションに比べてはるかに低いが、推論精度は同等である。 さらに,EON-1 は,HD および UHD ストリーミングビデオの低レイテンシ処理をリアルタイムに実現し,学習を可能にしていることを示す。

For Edge AI applications, deploying online learning and adaptation on resource-constrained embedded devices can deal with fast sensor-generated streams of data in changing environments. However, since maintaining low-latency and power-efficient inference is paramount at the Edge, online learning and adaptation on the device should impose minimal additional overhead for inference. With this goal in mind, we explore energy-efficient learning and adaptation on-device for streaming-data Edge AI applications using Spiking Neural Networks (SNNs), which follow the principles of brain-inspired computing, such as high-parallelism, neuron co-located memory and compute, and event-driven processing. We propose EON-1, a brain-inspired processor for near-sensor extreme edge online feature extraction, that integrates a fast online learning and adaptation algorithm. We report results of only 1% energy overhead for learning, by far the lowest overhead when compared to other SoTA solutions, while attaining comparable inference accuracy. Furthermore, we demonstrate that EON-1 is up for the challenge of low-latency processing of HD and UHD streaming video in real-time, with learning enabled.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# 大規模言語モデルを用いた中国語販売対話における5つの大きな人格特性の予測

Predicting the Big Five Personality Traits in Chinese Counselling Dialogues Using Large Language Models ( http://arxiv.org/abs/2406.17287v1 )

ライセンス: Link先を確認
Yang Yan, Lizhi Ma, Anqi Li, Jingsong Ma, Zhenzhong Lan, (参考訳) 人格特性の正確な評価は効果的な心理カウンセリングには不可欠であるが、自己報告型アンケートのような従来の方法には時間とバイアスが伴う。 本研究では,大言語モデル(LLM)がカウンセリング対話から直接,ビッグファイブの性格特性を予測できるかどうかを検証し,その課題を実行するための革新的な枠組みを導入する。 本フレームワークは,カウンセリングセッションにおけるLCMの条件付けにロールプレイとアンケートに基づくプロンプトを適用し,Big Five Inventoryに対するクライアントの反応をシミュレートする。 実世界853回のカウンセリングセッションにおいて, LLM予測特性と実際の5つの特徴との間に有意な相関関係がみられ, フレームワークの有効性が証明された。 さらに、アブレーション研究は、予測精度を高めるために、ロールプレイシミュレーションと質問紙によるタスク単純化の重要性を強調している。 一方、スーパーバイザード・ファイン・チューニングを用いた直接選好最適化を用いた微調整Llama3-8Bモデルでは、Qwen1.5-110Bを36.94 %上回り、130.95 %の改善を実現している。 結論として、LLMはカウンセリング対話に基づいて性格を予測することができる。 我々のコードとモデルは \url{https://github.com/kuri-leo/BigFive-LLM-Predictor} で公開されている。

Accurate assessment of personality traits is crucial for effective psycho-counseling, yet traditional methods like self-report questionnaires are time-consuming and biased. This study exams whether Large Language Models (LLMs) can predict the Big Five personality traits directly from counseling dialogues and introduces an innovative framework to perform the task. Our framework applies role-play and questionnaire-based prompting to condition LLMs on counseling sessions, simulating client responses to the Big Five Inventory. We evaluated our framework on 853 real-world counseling sessions, finding a significant correlation between LLM-predicted and actual Big Five traits, proving the validity of framework. Moreover, ablation studies highlight the importance of role-play simulations and task simplification via questionnaires in enhancing prediction accuracy. Meanwhile, our fine-tuned Llama3-8B model, utilizing Direct Preference Optimization with Supervised Fine-Tuning, achieves a 130.95\% improvement, surpassing the state-of-the-art Qwen1.5-110B by 36.94\% in personality prediction validity. In conclusion, LLMs can predict personality based on counseling dialogues. Our code and model are publicly available at \url{https://github.com/kuri-leo/BigFive-LLM-Predictor}, providing a valuable tool for future research in computational psychometrics.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# クロスドメインレコメンデーションシステムにおける双曲的知識伝達

Hyperbolic Knowledge Transfer in Cross-Domain Recommendation System ( http://arxiv.org/abs/2406.17289v1 )

ライセンス: Link先を確認
Xin Yang, Heng Chang, Zhijian La, Jinze Yang, Xingrun Li, Yu Lu, Shuaiqiang Wang, Dawei Yin, Erxue Min, (参考訳) クロスドメイン・レコメンデーション(CDR)は、ターゲットレコメンデーションドメインにおけるデータの分散性の問題を軽減するために、異なるドメインからの知識を活用することを目的としており、近年注目を集めている。 この領域には顕著な進歩があったが、現在の方法のほとんどはユークリッド空間のユーザやアイテムを表しており、レコメンデーションシステムにおける長いテールの分散データを扱うには理想的ではない。 さらに、他のドメインからのデータを追加することで、データセット全体のロングテール特性が悪化し、CDRモデルを効果的にトレーニングすることが難しくなる。 近年の研究では, ハイパーボリックな手法が長期分布のモデル化に特に適していることが示されており, CDRシナリオにおけるユーザや項目に対するハイパーボリックな表現の探索に繋がった。 しかし、異なる領域の異なる特徴のため、CDRタスクに双曲表現学習を適用することは極めて困難である。 本稿では,ハイパーボリック・コントラスト学習(HCTS)と呼ばれる新しいフレームワークを提案する。 ユーザとアイテムをそれぞれのドメインから個別に埋め込み、それらを調整可能な曲率を持つ異なる双曲多様体にマッピングして予測する。 対象領域におけるユーザや項目の表現を改善するために,知識伝達のための双曲型コントラスト学習モジュールを開発した。 実世界のデータセットに対する大規模な実験は、双曲多様体がCDRタスクに対するユークリッド空間の有望な代替であることを示した。

Cross-Domain Recommendation (CDR) seeks to utilize knowledge from different domains to alleviate the problem of data sparsity in the target recommendation domain, and it has been gaining more attention in recent years. Although there have been notable advancements in this area, most current methods represent users and items in Euclidean space, which is not ideal for handling long-tail distributed data in recommendation systems. Additionally, adding data from other domains can worsen the long-tail characteristics of the entire dataset, making it harder to train CDR models effectively. Recent studies have shown that hyperbolic methods are particularly suitable for modeling long-tail distributions, which has led us to explore hyperbolic representations for users and items in CDR scenarios. However, due to the distinct characteristics of the different domains, applying hyperbolic representation learning to CDR tasks is quite challenging. In this paper, we introduce a new framework called Hyperbolic Contrastive Learning (HCTS), designed to capture the unique features of each domain while enabling efficient knowledge transfer between domains. We achieve this by embedding users and items from each domain separately and mapping them onto distinct hyperbolic manifolds with adjustable curvatures for prediction. To improve the representations of users and items in the target domain, we develop a hyperbolic contrastive learning module for knowledge transfer. Extensive experiments on real-world datasets demonstrate that hyperbolic manifolds are a promising alternative to Euclidean space for CDR tasks.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# 従来の量子理論はコヒーレントな関係アカウントをサポートしない

Conventional Quantum Theory Does Not Support A Coherent Relational Account ( http://arxiv.org/abs/2406.17290v1 )

ライセンス: Link先を確認
R. E. Kastner, (参考訳) 従来の量子理論では、ウィグナーの友人の思考実験で生じるような「測定」を定義できないため、観測者間の不一致は、プライベートであり、不可避である、という頻繁に主張に対する反例をレビューする。 関係量子力学をこのような不整合から守ろうとする最近の試みの意義を考察し、それが成功していないと結論づける。

I review a counterexample to the frequent claim that discrepancies among observers resulting from conventional quantum theory's inability to define "measurement", such as those arising in the Wigner's Friend thought experiment, remain private and incommensurable. I consider the implications for a recent attempt to shield Relational Quantum Mechanics from such inconsistencies and conclude that it is not successful.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# 確率過程モデリングにおけるメモリ削減のためのリソースとしての負性

Negativity as a resource for memory reduction in stochastic process modeling ( http://arxiv.org/abs/2406.17292v1 )

ライセンス: Link先を確認
Kelvin Onggadinata, Andrew Tanggara, Mile Gu, Dagomir Kaszlikowski, (参考訳) 確率的モデリングでは、過剰なエントロピー(プロセス 過去と未来の間に共有される相互情報)は、その力学をシミュレートするために必要なメモリの基本的な下位境界を表す。 しかし、この境界は古典機械またはその拡張量子機械によって飽和できない。 プロセスのシミュレートには、過去と未来の間で共有されるものよりも、現在により多くの情報を格納する必要があります。 ここでは、古典的および量子的モデル(n-機械)を超えて隠れマルコフモデルの仮説的な一般化を考える。 衝突エントロピー測度の下では、そのようなモデルの最小メモリは余剰エントロピーを等しくすることができることを示す。 我々の結果は、メモリアドバンテージな確率シミュレーションに必要なリソースとして、負性(negativity)を示唆している。

In stochastic modeling, the excess entropy -- the mutual information shared between a processes past and future -- represents the fundamental lower bound of the memory needed to simulate its dynamics. However, this bound cannot be saturated by either classical machines or their enhanced quantum counterparts. Simulating a process fundamentally requires us to store more information in the present than than what is shared between past and future. Here we consider a hypothetical generalization of hidden Markov models beyond classical and quantum models -- n-machines -- that allow for negative quasi-probabilities. We show that under the collision entropy measure of information, the minimal memory of such models can equalize the excess entropy. Our results hint negativity as a necessary resource for memory-advantaged stochastic simulation -- mirroring similar interpretations in various other quantum information tasks.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# Math-LLaVA:マルチモーダル大言語モデルのためのブートストラップ数学的推論

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models ( http://arxiv.org/abs/2406.17294v1 )

ライセンス: Link先を確認
Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee, (参考訳) 大規模言語モデル(LLM)は、特にテキスト数学的問題解決において顕著な推論能力を示している。 しかし、既存のオープンソースイメージインストラクション微調整データセットは、画像毎の質問対を限定的に含むが、視覚情報をフル活用して、マルチモーダルLLM(MLLM)のマルチモーダル数学的推論能力を高めることはできない。 このギャップを埋めるために、24の既存データセットから40Kの高品質な画像を集め、320Kの新しいペアを合成し、マルチモーダルな数学的疑問の幅と深さを高めるMathV360Kデータセットを作成することで、高品質で多様なマルチモーダルな数学的データセットの欠如に対処する。 我々は、LLaVA-1.5ベースモデルであるMath-LLaVAを紹介し、MathV360Kで微調整する。 この手法はLLaVA-1.5のマルチモーダルな数学的推論能力を大幅に向上させ、MathVistaのミニテスト分割におけるGPT-4Vに匹敵する性能を19ポイント向上させた。 さらに、Math-LLaVAは一般化性の向上を示し、MMMUベンチマークを大幅に改善した。 本研究は,MLLMの数学的推論能力向上におけるデータセットの多様性と合成の重要性を強調した。 コードとデータは以下の通りである。 \url{https://github.com/HZQ950419/Math-LLaVA}。

Large language models (LLMs) have demonstrated impressive reasoning capabilities, particularly in textual mathematical problem-solving. However, existing open-source image instruction fine-tuning datasets, containing limited question-answer pairs per image, do not fully exploit visual information to enhance the multimodal mathematical reasoning capabilities of Multimodal LLMs (MLLMs). To bridge this gap, we address the lack of high-quality, diverse multimodal mathematical datasets by collecting 40K high-quality images with question-answer pairs from 24 existing datasets and synthesizing 320K new pairs, creating the MathV360K dataset, which enhances both the breadth and depth of multimodal mathematical questions. We introduce Math-LLaVA, a LLaVA-1.5-based model fine-tuned with MathV360K. This novel approach significantly improves the multimodal mathematical reasoning capabilities of LLaVA-1.5, achieving a 19-point increase and comparable performance to GPT-4V on MathVista's minitest split. Furthermore, Math-LLaVA demonstrates enhanced generalizability, showing substantial improvements on the MMMU benchmark. Our research highlights the importance of dataset diversity and synthesis in advancing MLLMs' mathematical reasoning abilities. The code and data are available at: \url{https://github.com/HZQ950419/Math-LLaVA}.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# MatText: 言語モデルは物質モデリングにテキストとスケール以上のものを必要とするか?

MatText: Do Language Models Need More than Text & Scale for Materials Modeling? ( http://arxiv.org/abs/2406.17295v1 )

ライセンス: Link先を確認
Nawaf Alampara, Santiago Miret, Kevin Maik Jablonka, (参考訳) 素材をテキストとして効果的に表現することは、大きな言語モデル(LLM)の膨大な進歩を活用して、新しい材料を発見する可能性がある。 LLMは様々な領域で顕著な成功を収めてきたが、材料科学への応用はいまだに過小評価されている。 基本的な課題は、材料モデリングにテキストベースの表現を最大限に活用する方法の理解の欠如である。 この課題は、物質システムの複雑さを捉える上で、これらのテキスト表現の能力と限界を厳格に評価する包括的なベンチマークがないことによってさらに複雑になる。 このギャップに対処するために、モデリング材料における言語モデルの性能を体系的に評価するために設計されたベンチマークツールとデータセットのスイートであるMatTextを提案する。 MatTextは、マテリアルシステムのための9つの異なるテキストベースの表現を含んでおり、その中にはいくつかの新しい表現も含まれている。 各表現には固有の誘導バイアスが含まれており、関連する情報を取得し、材料に関する以前の物理的知識を統合する。 さらに、MatTextは、材料科学の文脈で言語モデルのパフォーマンスをトレーニングし、ベンチマークするための重要なツールを提供する。 これらのツールには、各表現の標準化されたデータセット分割、幾何学的要因に対する感度を評価するプローブ、結晶構造をテキストにシームレスに変換するツールが含まれる。 MatTextを用いて、モデリング材料における言語モデルの性能を広範囲に分析する。 以上の結果から,現在の言語モデルでは,すべての表現にまたがる材料モデリングに不可欠な幾何学的情報を得るのに常に苦労していることが明らかとなった。 代わりに、これらのモデルはローカル情報を活用する傾向があり、これは我々の新しい表現のいくつかで強調されている。 材料設計におけるテキストベースの手法の欠点を明らかにするためのMateTextの能力について分析を行った。

Effectively representing materials as text has the potential to leverage the vast advancements of large language models (LLMs) for discovering new materials. While LLMs have shown remarkable success in various domains, their application to materials science remains underexplored. A fundamental challenge is the lack of understanding of how to best utilize text-based representations for materials modeling. This challenge is further compounded by the absence of a comprehensive benchmark to rigorously evaluate the capabilities and limitations of these text representations in capturing the complexity of material systems. To address this gap, we propose MatText, a suite of benchmarking tools and datasets designed to systematically evaluate the performance of language models in modeling materials. MatText encompasses nine distinct text-based representations for material systems, including several novel representations. Each representation incorporates unique inductive biases that capture relevant information and integrate prior physical knowledge about materials. Additionally, MatText provides essential tools for training and benchmarking the performance of language models in the context of materials science. These tools include standardized dataset splits for each representation, probes for evaluating sensitivity to geometric factors, and tools for seamlessly converting crystal structures into text. Using MatText, we conduct an extensive analysis of the capabilities of language models in modeling materials. Our findings reveal that current language models consistently struggle to capture the geometric information crucial for materials modeling across all representations. Instead, these models tend to leverage local information, which is emphasized in some of our novel representations. Our analysis underscores MatText's ability to reveal shortcomings of text-based methods for materials design.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# BlockLLM: 右座標ブロックの選択と最適化によるLLMのメモリ効率向上

BlockLLM: Memory-Efficient Adaptation of LLMs by Selecting and Optimizing the Right Coordinate Blocks ( http://arxiv.org/abs/2406.17296v1 )

ライセンス: Link先を確認
Amrutha Varshini Ramesh, Vignesh Ganapathiraman, Issam H. Laradji, Mark Schmidt, (参考訳) 新たなタスクやドメインへの事前トレーニングや適応のための大規模言語モデル(LLM)のトレーニングは、アプリケーションの拡大に伴ってますます重要になっている。 しかし、モデルとデータサイズが大きくなるにつれて、トレーニングプロセスは大きなメモリ課題を生じさせ、しばしば容易に利用できない大量のGPUメモリを必要とする。 低ランク適応(LoRA)のような既存の手法は、トレーニング可能な低ランク行列の分解を追加し、トレーニングのダイナミクスを変更し、モデルのパラメータ探索を低ランク部分空間に制限する。 より最近の方法であるGaLoreでは、Gradient Low-Rank Projectionを使用して、完全なパラメータトレーニング設定において、メモリフットプリントを削減する。 しかし、GaLoreは「可逆性」の性質を満たすLCM層のサブセットにのみ適用できるため、適用性は制限される。 これらの課題に対応するために,ブロック座標降下に着想を得たBlockLLMを導入する。 トレーニング可能なパラメータのごく一部のサブセットを,アーキテクチャやトレーニング手順の一部を変更せずに慎重に選択し,更新する。 BlockLLMは、基礎となる最適化プロセスのメモリフットプリントを削減しつつ、微調整と事前訓練の両方で最先端のパフォーマンスを達成する。 実験の結果,パラメータの5%未満の微調整により,GLUEベンチマークで最先端のパープレキシティスコアを達成できた。 C4データセットで事前トレーニングされたLlamaモデルでは、BlockLLMは、競合性能を維持しながら、最先端技術よりもはるかに少ないメモリでトレーニングすることができる。

Training large language models (LLMs) for pretraining or adapting to new tasks and domains has become increasingly critical as their applications expand. However, as the model and the data sizes grow, the training process presents significant memory challenges, often requiring a prohibitive amount of GPU memory that may not be readily available. Existing methods such as low-rank adaptation (LoRA) add trainable low-rank matrix factorizations, altering the training dynamics and limiting the model's parameter search to a low-rank subspace. GaLore, a more recent method, employs Gradient Low-Rank Projection to reduce the memory footprint, in the full parameter training setting. However GaLore can only be applied to a subset of the LLM layers that satisfy the "reversibility" property, thus limiting their applicability. In response to these challenges, we introduce BlockLLM, an approach inspired by block coordinate descent. Our method carefully selects and updates a very small subset of the trainable parameters without altering any part of its architecture and training procedure. BlockLLM achieves state-of-the-art performance in both finetuning and pretraining tasks, while reducing the memory footprint of the underlying optimization process. Our experiments demonstrate that fine-tuning with only less than 5% of the parameters, BlockLLM achieves state-of-the-art perplexity scores on the GLUE benchmarks. On Llama model pretrained on C4 dataset, BlockLLM is able to train with significantly less memory than the state-of-the-art, while still maintaining competitive performance.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# オープンセットカメラ3Dオブジェクト検出に向けて

Towards Open-set Camera 3D Object Detection ( http://arxiv.org/abs/2406.17297v1 )

ライセンス: Link先を確認
Zhuolin He, Xinrun Li, Heng Gao, Jiachen Tang, Shoumeng Qiu, Wenfu Wang, Lvjian Lu, Xiuchong Qiu, Xiangyang Xue, Jian Pu, (参考訳) 従来のカメラ3Dオブジェクト検出器は通常、既定の既知のオブジェクトの集合を認識するために訓練される。 現実のシナリオでは、これらの検出器は訓練カテゴリー外の未知の物体に遭遇し、それらを正しく識別することができない。 このギャップに対処するため,OS-Det3D (Open-set Camera 3D Object Detection) は,カメラ3D検出器が未知の物体と未知の物体の両方を識別する能力を高めるための2段階のトレーニングフレームワークである。 提案する3Dオブジェクト探索ネットワーク(ODN3D)は,一般的な3Dオブジェクトを見つけるために,3Dボックスの位置や規模などの幾何学的手がかりを用いて特別に訓練されている。 ODN3Dはクラスに依存しない方法で訓練され、提供される3Dオブジェクト領域の提案には本質的にデータノイズが伴う。 未知のオブジェクトを識別する際の精度を高めるために,JOSモジュールを導入する。 JOSは、ODN3Dオブジェクトネスとカメラ特徴注目オブジェクトネスを組み合わせたODN3Dの3Dオブジェクト領域提案から、未知のオブジェクトに対する擬似基底真理を選択する。 nuScenesとKITTIデータセットの実験は、カメラ3D検出器が未知の物体を識別し、未知の物体の性能を向上する上で、我々のフレームワークの有効性を実証している。

Traditional camera 3D object detectors are typically trained to recognize a predefined set of known object classes. In real-world scenarios, these detectors may encounter unknown objects outside the training categories and fail to identify them correctly. To address this gap, we present OS-Det3D (Open-set Camera 3D Object Detection), a two-stage training framework enhancing the ability of camera 3D detectors to identify both known and unknown objects. The framework involves our proposed 3D Object Discovery Network (ODN3D), which is specifically trained using geometric cues such as the location and scale of 3D boxes to discover general 3D objects. ODN3D is trained in a class-agnostic manner, and the provided 3D object region proposals inherently come with data noise. To boost accuracy in identifying unknown objects, we introduce a Joint Objectness Selection (JOS) module. JOS selects the pseudo ground truth for unknown objects from the 3D object region proposals of ODN3D by combining the ODN3D objectness and camera feature attention objectness. Experiments on the nuScenes and KITTI datasets demonstrate the effectiveness of our framework in enabling camera 3D detectors to successfully identify unknown objects while also improving their performance on known objects.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# ディファレンシャル・プライベート・ディープラーニングの効率的かつスケーラブルな学習を目指して

Towards Efficient and Scalable Training of Differentially Private Deep Learning ( http://arxiv.org/abs/2406.17298v1 )

ライセンス: Link先を確認
Sebastian Rodriguez Beltran, Marlon Tobaben, Niki Loppi, Antti Honkela, (参考訳) 微分プライベート確率勾配勾配(DP-SGD)は、差分プライバシー(DP)の下で機械学習モデルを訓練するための標準アルゴリズムである。 DP-SGDの大きな欠点は、以前の研究が包括的に研究したユーティリティの低下である。 しかし、実際には、大規模なデプロイメントを妨げるもう一つの大きな欠点は、計算コストが著しく高いことである。 本研究では,DP下でのディープラーニングモデルの学習における計算コストの定量化と,コスト削減を目的としたベンチマーク手法について,総合的な実証的研究を行った。 DP-SGDのより効率的な実装や、より精度の低いトレーニングがある。 最後に,最大80個のGPUを用いたスケーリング動作について検討する。

Differentially private stochastic gradient descent (DP-SGD) is the standard algorithm for training machine learning models under differential privacy (DP). The major drawback of DP-SGD is the drop in utility which prior work has comprehensively studied. However, in practice another major drawback that hinders the large-scale deployment is the significantly higher computational cost. We conduct a comprehensive empirical study to quantify the computational cost of training deep learning models under DP and benchmark methods that aim at reducing the cost. Among these are more efficient implementations of DP-SGD and training with lower precision. Finally, we study the scaling behaviour using up to 80 GPUs.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# 有限サイズ効果による量子相対エントロピーの測定

Measuring quantum relative entropy with finite-size effect ( http://arxiv.org/abs/2406.17299v1 )

ライセンス: Link先を確認
Masahito Hayashi, (参考訳) 相対エントロピー$D(\rho\|\sigma)$を$\sigma$が知られているときに推定する。 我々は、Cram\'{e}r-Rao型が相対的バレントロピーと等しいことを示す。 我々の推定器は次元 $d$ が固定されたときに Cram\'{e}r-Rao 型が有界となる。 また、次元$d$が増加すると、サンプルの複雑さ$O(d^2)$も達成する。 このサンプルの複雑さは、$\sigma$が複雑性混合状態であるときに最適である。 また、時間複雑性は$O(d^5 \polylog d)$である。 提案する推定器は両設定で統一的に動作する。

We study the estimation of relative entropy $D(\rho\|\sigma)$ when $\sigma$ is known. We show that the Cram\'{e}r-Rao type bound equals the relative varentropy. Our estimator attains the Cram\'{e}r-Rao type bound when the dimension $d$ is fixed. It also achieves the sample complexity $O(d^2)$ when the dimension $d$ increases. This sample complexity is optimal when $\sigma$ is the complexity mixed state. Also, it has time complexity $O(d^5 \polylog d)$. Our proposed estimator unifiedly works under both settings.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# CausalScore:オープンドメイン対話システムにおける応答関連性評価のための自動参照フリーメトリクス

CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems ( http://arxiv.org/abs/2406.17300v1 )

ライセンス: Link先を確認
Tao Feng, Lizhen Qu, Xiaoxi Kang, Gholamreza Haffari, (参考訳) オープンドメイン対話システムにおける応答の質を自動評価することは難しいが重要な課題である。 現在の評価指標は、特に文法的に正しい反応を評価する場合、人間の判断と一致しないことが多い。 そこで本研究では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい尺度を提案する。 対話履歴から応答への無条件依存と条件依存の両方を利用して因果強度を推定する。 私たちは、既存の競争指標と人間の判断との整合性を比較します。 実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。 さらに,人間に注釈を付けた因果関係を持つ対話データセットCGDIALOG+と,将来的な自動メトリクスの開発を容易にするための一対の人的判断セットを収集する。

Automatically evaluating the quality of responses in open-domain dialogue systems is a challenging but crucial task. Current evaluation metrics often fail to align with human judgments, especially when assessing responses that are grammatically correct. To address this issue, we propose a novel metric, called CausalScore, which assesses the relevance of responses by measuring the causal strength between dialogue histories and responses. The causal strength is estimated by utilizing both unconditional dependence and conditional dependencies from the dialogue history to responses. We compare our metric with the existing competitive metrics in terms of their alignment with human judgements. Our experimental results demonstrate that CausalScore significantly surpasses existing state-of-the-art metrics by aligning better with human judgements. Additionally, we collect a new dialogue dataset CGDIALOG+ with human-annotated causal relations and a set of pairwise human judgements to facilitate the development of future automatic metrics.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# 対話品質測定のためのLLMの活用

Leveraging LLMs for Dialogue Quality Measurement ( http://arxiv.org/abs/2406.17304v1 )

ライセンス: Link先を確認
Jinghan Jia, Abi Komma, Timothy Leffel, Xujun Peng, Ajay Nagesh, Tamer Soliman, Aram Galstyan, Anoop Kumar, (参考訳) タスク指向の会話型AI評価では、教師なし手法は人間の判断と相関が低く、教師なし手法には一般化が欠如している。 大規模言語モデル(LLM)の最近の進歩は、NLPタスクにまたがる堅牢なゼロショットと少数ショット機能を示している。 本稿では,LLMを用いた対話品質の自動評価について検討し,パブリックデータセットとプロプライエタリデータセットの様々な構成を試行する。 モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。 その結果,(1)より大きなモデルではより正確な対話ラベルが得られ,(2)文脈内サンプルのアルゴリズム的選択はランダム選択よりも優れ,(3)最終ラベルを出力する前にLLMに正当化を与えるよう依頼されたCoT推論は性能を向上し,(4)微調整のLLMはアウトオブボックスラベルよりも優れていた。 この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。

In task-oriented conversational AI evaluation, unsupervised methods poorly correlate with human judgments, and supervised approaches lack generalization. Recent advances in large language models (LLMs) show robust zeroshot and few-shot capabilities across NLP tasks. This paper explores using LLMs for automated dialogue quality evaluation, experimenting with various configurations on public and proprietary datasets. Manipulating factors such as model size, in-context examples, and selection techniques, we examine "chain-of-thought" (CoT) reasoning and label extraction procedures. Our results show that (1) larger models yield more accurate dialogue labels; (2) algorithmic selection of in-context examples outperforms random selection; (3) CoT reasoning where an LLM is asked to provide justifications before outputting final labels improves performance; and (4) fine-tuned LLMs outperform out-of-the-box ones. Our results indicate that LLMs that are suitably fine-tuned and have sufficient reasoning capabilities can be leveraged for automated dialogue evaluation.
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# 大規模言語モデルを用いたオープンNERのための検索強化命令チューニング

Retrieval Augmented Instruction Tuning for Open NER with Large Language Models ( http://arxiv.org/abs/2406.17305v1 )

ライセンス: Link先を確認
Tingyu Xie, Jian Zhang, Yan Zhang, Yuanyuan Liang, Qi Li, Hongwei Wang, (参考訳) 大規模言語モデル (LLM) の強みは,情報抽出 (IE) に拡張プロンプトや命令チューニング (IT) によって応用されている。 しかし、情報を LLMs for IE に組み込む最善の方法は、未解決の問題である。 本稿では,IE 用検索機能拡張命令チューニング (RA-IT) について検討し,オープンネームエンティティ認識 (NER) の課題に着目した。 具体的には、各トレーニングサンプルに対して、トレーニングデータセットから意味論的に類似したサンプルをコンテキストとして検索し、元の命令の入力にプリペイドする。 RA-ITのアプローチをより徹底的に評価するために,オープンNERのための中国語ITデータセットを構築し,英語と中国語の両方のシナリオでRA-ITを評価する。 実験により, RA-ITの有効性は, 様々なデータサイズ, 英語と中国語のシナリオで検証された。 また,提案するRA-ITフレームワークにおける各種検索戦略の影響について,徹底的な研究を行った。 https://github.com/Emma1066/Retrieval-Augmented-IT-OpenNER

The strong capability of large language models (LLMs) has been applied to information extraction (IE) through either retrieval augmented prompting or instruction tuning (IT). However, the best way to incorporate information with LLMs for IE remains an open question. In this paper, we explore Retrieval Augmented Instruction Tuning (RA-IT) for IE, focusing on the task of open named entity recognition (NER). Specifically, for each training sample, we retrieve semantically similar examples from the training dataset as the context and prepend them to the input of the original instruction. To evaluate our RA-IT approach more thoroughly, we construct a Chinese IT dataset for open NER and evaluate RA-IT in both English and Chinese scenarios. Experimental results verify the effectiveness of RA-IT across various data sizes and in both English and Chinese scenarios. We also conduct thorough studies to explore the impacts of various retrieval strategies in the proposed RA-IT framework. Code and data are available at: https://github.com/Emma1066/Retrieval-Augmented-IT-OpenNER
翻訳日:2024-06-26 15:31:28 公開日:2024-06-25
# 軽蔑・軽蔑によるゼノ効果の解明

Eluding Zeno effect via dephasing and detuning ( http://arxiv.org/abs/2406.17306v1 )

ライセンス: Link先を確認
Julio Cuadrado, Alfredo Luis, (参考訳) 中間状態の集団の頻繁な観察が初期状態から最終状態への移行を妨げないゼノ効果の変種を解析する。 ゼノ効果は、量子進化の干渉を適切に変化させることで動的に調整する位相シフトや変形によって解明される。

We analyze some variants of the Zeno effect in which the frequent observation of the population of an intermediate state does not prevent the transition of the system from the initial state to a certain final state. The Zeno effect is eluded by means of phase shifts or detunings that tailor the dynamics by suitably altering the interference governing quantum evolution.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 実効LGD近似の改善 - キャッシュフローデータの欠落を処理するためのXGBoostを使った新しいフレームワーク

Improving Realized LGD Approximation: A Novel Framework with XGBoost for Handling Missing Cash-Flow Data ( http://arxiv.org/abs/2406.17308v1 )

ライセンス: Link先を確認
Zuzanna Kostecka, Robert Ślepaczuk, (参考訳) 損失与えられたデフォルト(LGD)パラメータの正確な計算範囲は、財務データの観点から包括的である。 本研究では,キャッシュフローデータへの限られたアクセス条件下での実効LGDの近似を改善する方法を検討することを目的とする。 機械学習(ML)技術を用いることで,露出値の違い(デルタ・アドバンスト・アプローチ)に依存する手法の性能を向上させる。 この研究は欧州各国の住宅ローンポートフォリオのデータを利用しており、同様の経済状況によく似ていると仮定している。 住宅市場に関連する非金融変数とマクロ経済データを取り入れ、損失重大度近似の精度を向上させる。 提案手法は、ケース固有関係ではなく、ML技術を適用するという一般的な利点を示すために、国別(地方法に関する)またはポートフォリオ特化要因を緩和しようとするものである。 我々はキャッシュフローデータに依存しないXGBoostモデルを開発した。 我々の研究の新たな側面は、デルタの卓越したアプローチの詳細な探索と、機械学習モデルによるキャッシュフローデータへの限られたアクセス条件に対処するための方法論である。

The scope for the accurate calculation of the Loss Given Default (LGD) parameter is comprehensive in terms of financial data. In this research, we aim to explore methods for improving the approximation of realized LGD in conditions of limited access to the cash-flow data. We enhance the performance of the method which relies on the differences between exposure values (delta outstanding approach) by employing machine learning (ML) techniques. The research utilizes the data from the mortgage portfolio of one of the European countries and assumes a close resemblance to similar economic contexts. It incorporates non-financial variables and macroeconomic data related to the housing market, improving the accuracy of loss severity approximation. The proposed methodology attempts to mitigate the country-specific (related to the local legal) or portfolio-specific factors in aim to show the general advantage of applying ML techniques, rather than case-specific relation. We developed an XGBoost model that does not rely on cash-flow data yet enhances the accuracy of realized LGD estimation compared to results obtained with the delta outstanding approach. A novel aspect of our work is the detailed exploration of the delta outstanding approach and the methodology for addressing conditions of limited access to cash-flow data through machine learning models.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# スクリーンプレイによるゼロショット長ビデオ理解

Zero-Shot Long-Form Video Understanding through Screenplay ( http://arxiv.org/abs/2406.17309v1 )

ライセンス: Link先を確認
Yongliang Wu, Bozheng Li, Jiawang Cao, Wenbo Zhu, Yi Lu, Weiheng Chi, Chuyun Xie, Haolin Zheng, Ziyue Su, Jay Wu, Xu Yang, (参考訳) 長文ビデオ質問応答タスクでは,時間的情報と文脈的情報の両方を利用して,映像コンテンツの理解と分析を正確に行う必要がある。 本稿では,マルチモーダル認識機能を備えた高度な映像理解システムMM-Screenplayerについて述べる。 従来のストーリーテリング手法とは異なり、映像コンテンツを視覚的に連続した撮影ではなく、基本単位としてシーンに整理する。 さらに、不確実な情報、特にブレークポイントモードをターゲットとして再評価し、検証する `Look Back' 戦略を開発しました。 MM-ScreenplayerはCVPR'2024のLong-form VidEo Understanding (LOVEU) Track 1 Challengeで最高スコアを獲得し、世界的精度は87.5%、ブレークポイント精度は68.8%だった。

The Long-form Video Question-Answering task requires the comprehension and analysis of extended video content to respond accurately to questions by utilizing both temporal and contextual information. In this paper, we present MM-Screenplayer, an advanced video understanding system with multi-modal perception capabilities that can convert any video into textual screenplay representations. Unlike previous storytelling methods, we organize video content into scenes as the basic unit, rather than just visually continuous shots. Additionally, we developed a ``Look Back'' strategy to reassess and validate uncertain information, particularly targeting breakpoint mode. MM-Screenplayer achieved highest score in the CVPR'2024 LOng-form VidEo Understanding (LOVEU) Track 1 Challenge, with a global accuracy of 87.5% and a breakpoint accuracy of 68.8%.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# すべての選好ペアが平等に作成されるわけではない: アノテーション効率の良い反復選好学習のためのレシピ

Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning ( http://arxiv.org/abs/2406.17312v1 )

ライセンス: Link先を確認
Sen Yang, Leyang Cui, Deng Cai, Xinting Huang, Shuming Shi, Wai Lam, (参考訳) 反復的な選好学習は優れたパフォーマンスを得るが、オンラインの注釈付き選好ラベルを必要とする。 本研究では,反復的嗜好学習におけるランダム選択ベースラインと比較して,競争力やパフォーマンスの向上を図りつつ,コスト効率のよいアノテーションに対する価値アノテート対応ペアを選択する戦略について検討する。 不確実性と分布シフトに関する仮定に基づいて、DPOが予測した暗黙の報酬マージンをランク付けし、より多くの利益をもたらす応答ペアを選択することを提案する。 より広範な実験により、これらの応答対を小さなマージンでアノテートすることは、シングルおよびマルチイテレーションのシナリオにおいて、大またはランダムよりも一般的に優れていることを示す。 さらに、経験的な結果は、後から複数のイテレーションにまたがるよりも、初期のイテレーションでより多くのアノテーション予算を割り当てることを示唆しています。

Iterative preference learning, though yielding superior performances, requires online annotated preference labels. In this work, we study strategies to select worth-annotating response pairs for cost-efficient annotation while achieving competitive or even better performances compared with the random selection baseline for iterative preference learning. Built on assumptions regarding uncertainty and distribution shifts, we propose a comparative view to rank the implicit reward margins as predicted by DPO to select the response pairs that yield more benefits. Through extensive experiments, we show that annotating those response pairs with small margins is generally better than large or random, under both single- and multi-iteration scenarios. Besides, our empirical results suggest allocating more annotation budgets in the earlier iterations rather than later across multiple iterations.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 天文学における教師なし学習の展望

A review of unsupervised learning in astronomy ( http://arxiv.org/abs/2406.17316v1 )

ライセンス: Link先を確認
Sotiria Fotopoulou, (参考訳) このレビューでは、一般的な教師なし学習手法を要約し、天文学における過去、現在、そして将来の用途について概観する。 教師なし学習は、知識を抽出できる方法でデータセットの情報内容を整理することを目的としている。 伝統的にこれは、例えば主成分分析やオートエンコーダによるデータセットのランク付け、例えば自己組織化マップによる高次元空間のより単純な可視化などによって達成されてきた。 他の教師なし学習の望ましい性質としては、クラスタの同定、すなわち類似したオブジェクトのグループの同定があり、これは伝統的にk平均アルゴリズムによって達成され、最近ではHDBSCANのような密度ベースのクラスタリングによって実現されている。 最近では、次元の縮小とクラスタリングメソッドをチェーンする複雑なフレームワークが登場している。 しかし、完全なデータセットは知られていない。 このように、今日では、教師なし学習と教師なし学習の両方から得られるであろう自己監督的および半監督的手法に多くの研究が向けられている。

This review summarizes popular unsupervised learning methods, and gives an overview of their past, current, and future uses in astronomy. Unsupervised learning aims to organise the information content of a dataset, in such a way that knowledge can be extracted. Traditionally this has been achieved through dimensionality reduction techniques that aid the ranking of a dataset, for example through principal component analysis or by using auto-encoders, or simpler visualisation of a high dimensional space, for example through the use of a self organising map. Other desirable properties of unsupervised learning include the identification of clusters, i.e. groups of similar objects, which has traditionally been achieved by the k-means algorithm and more recently through density-based clustering such as HDBSCAN. More recently, complex frameworks have emerged, that chain together dimensionality reduction and clustering methods. However, no dataset is fully unknown. Thus, nowadays a lot of research has been directed towards self-supervised and semi-supervised methods that stand to gain from both supervised and unsupervised learning.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# DMF-Net:Dual-Channel Modality FusionとShape-Aware Upsampling Transformerを用いたイメージガイドポイントクラウドコンプリート

DMF-Net: Image-Guided Point Cloud Completion with Dual-Channel Modality Fusion and Shape-Aware Upsampling Transformer ( http://arxiv.org/abs/2406.17319v1 )

ライセンス: Link先を確認
Aihua Mao, Yuxuan Tang, Jiangtao Huang, Ying He, (参考訳) 本稿では,一視点画像誘導点雲完成の課題について検討する。 既存の方法は、画像の情報を明示的にまたは暗黙的にポイントクラウドに融合することで、有望な結果を得た。 しかし、画像が大域的な形状情報を持ち、部分点雲がリッチな局所的詳細を持っていることを考慮すれば、両モードはモダリティ融合を行う際には等しく注意する必要があると考えられる。 この目的のために,画像誘導点雲補完(DMF-Net)のための2チャネルモード融合ネットワークを,粗大な方法で提案する。 第1段階では、DMF-Netは部分点雲と対応する画像を入力として取り出して粗い点雲を復元する。 第2段階では、粗い点雲が2回、形状を意識したアップサンプリング変圧器でアップサンプリングされ、密度の高い完全点雲が得られる。 DMF-Netは、ShapeNet-ViPCデータセット上で、最先端の非モーダル・マルチモーダル・ポイント・クラウド・コンプリートよりも優れていた。

In this paper we study the task of a single-view image-guided point cloud completion. Existing methods have got promising results by fusing the information of image into point cloud explicitly or implicitly. However, given that the image has global shape information and the partial point cloud has rich local details, We believe that both modalities need to be given equal attention when performing modality fusion. To this end, we propose a novel dual-channel modality fusion network for image-guided point cloud completion(named DMF-Net), in a coarse-to-fine manner. In the first stage, DMF-Net takes a partial point cloud and corresponding image as input to recover a coarse point cloud. In the second stage, the coarse point cloud will be upsampled twice with shape-aware upsampling transformer to get the dense and complete point cloud. Extensive quantitative and qualitative experimental results show that DMF-Net outperforms the state-of-the-art unimodal and multimodal point cloud completion works on ShapeNet-ViPC dataset.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# STIRAPに基づく量子ビット回転の短縮と断熱性向上

Shortcut to adiabaticity improvement of STIRAP based qubit rotation ( http://arxiv.org/abs/2406.17321v1 )

ライセンス: Link先を確認
Khayla Black, Xi Chen, Tim Byrnes, (参考訳) ロバスト量子制御は、量子ビットの正確な操作に依存する量子コンピュータの開発に不可欠である。 量子制御の1つの形態は、通常状態伝達プロトコルであるが、KisとRenzoni(Phys)によって拡張されたRaman adiabatic passage (STIRAP)である。 A 65, 032318 (2002) で立方体回転を行う。 STIRAPの断熱に対するショートカット法は、断熱基準を超えて断熱過程を高速にし、高い忠実性を示すことが示されている。 本稿では,量子論理ゲートの性能向上のために,STIRAP量子ビット回転方式に近距離法を適用した。 この方式は、4レベル$\Lambda$システムにおける基底状態間の直接接続や、5レベル$\Lambda$システムにおける効果的な接続を通じて実装できる。 拡張短絡法と断熱法は, ダイアバティック政権におけるクビット回転の忠実度を向上させるのに有効であることを示す。

Robust quantum control is essential for the development of quantum computers, which rely on precise manipulation of qubits. One form of quantum control is stimulated Raman adiabatic passage (STIRAP), which ordinarily is a state transfer protocol but was extended by Kis and Renzoni (Phys. Rev. A 65, 032318 (2002)) to perform qubit rotations. Shortcut methods to adiabaticity for STIRAP have been shown to speed up adiabatic processes, beyond the adiabatic criterion, with high fidelity. Here, we apply shortcut to adiabaticity methods to the STIRAP qubit rotation scheme to improve the performance of quantum logic gates. The scheme can be implemented via direct connections between ground states in a 4-level $\Lambda$ system or effective connections in a 5-level $\Lambda$ system with modified pulses that implement transitionless quantum driving via the addition of a counterdiabatic driving term. We show that the extended shortcut to adiabaticity method serves to improve the fidelity of qubit rotations in the diabatic regime.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# ALPBench: タブラルデータに基づくアクティブラーニングパイプラインのベンチマーク

ALPBench: A Benchmark for Active Learning Pipelines on Tabular Data ( http://arxiv.org/abs/2406.17322v1 )

ライセンス: Link先を確認
Valentin Margraf, Marcel Wever, Sandra Gilhuber, Gabriel Marques Tavares, Thomas Seidl, Eyke Hüllermeier, (参考訳) ラベル付きデータの予算額のみが手に入るような環境では、アクティブラーニングは、ラベル付けすべき最も情報性の高いデータポイントを選択するためのクエリ戦略を考案し、学習アルゴリズムの効率と性能を向上させることを目的としている。 活発な学習文献において,このようなクエリ戦略が提案され,比較されている。 しかし、コミュニティは異なるクエリ戦略のパフォーマンスを比較するための標準ベンチマークをまだ持っていない。 これは特に、クエリ戦略と異なる学習アルゴリズムの組み合わせをアクティブな学習パイプラインに当てはめ、学習アルゴリズムの選択の影響を調べる。 このギャップを埋めるために、アクティブな学習パイプラインの仕様、実行、パフォーマンス監視を容易にするALPBenchを提案する。 評価を再現可能にし、正確なデータセット分割と使用済みアルゴリズムのハイパーパラメータ設定を節約するための手段が組み込まれている。 ALPBenchは、86の現実世界の表層分類データセットと5つのアクティブな学習設定で構成され、430のアクティブな学習問題をもたらす。 各種学習アルゴリズムと問合せ戦略との汎用性と広範囲な互換性を示すために,8つの学習アルゴリズムを2つの異なる設定で組み合わせた9つの問合せ戦略を評価する。 https://github.com/ValentinMargraf/ActiveLearningPipelines.com/ActiveLearningPipelines。

In settings where only a budgeted amount of labeled data can be afforded, active learning seeks to devise query strategies for selecting the most informative data points to be labeled, aiming to enhance learning algorithms' efficiency and performance. Numerous such query strategies have been proposed and compared in the active learning literature. However, the community still lacks standardized benchmarks for comparing the performance of different query strategies. This particularly holds for the combination of query strategies with different learning algorithms into active learning pipelines and examining the impact of the learning algorithm choice. To close this gap, we propose ALPBench, which facilitates the specification, execution, and performance monitoring of active learning pipelines. It has built-in measures to ensure evaluations are done reproducibly, saving exact dataset splits and hyperparameter settings of used algorithms. In total, ALPBench consists of 86 real-world tabular classification datasets and 5 active learning settings, yielding 430 active learning problems. To demonstrate its usefulness and broad compatibility with various learning algorithms and query strategies, we conduct an exemplary study evaluating 9 query strategies paired with 8 learning algorithms in 2 different settings. We provide ALPBench here: https://github.com/ValentinMargraf/ActiveLearningPipelines.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# XAMI -- XMM-Newton光画像におけるアーティファクト検出のためのベンチマークデータセット

XAMI -- A Benchmark Dataset for Artefact Detection in XMM-Newton Optical Images ( http://arxiv.org/abs/2406.17323v1 )

ライセンス: Link先を確認
Elisabeta-Iulia Dima, Pablo Gómez, Sandor Kruk, Peter Kretschmar, Simon Rosen, Călin-Adrian Popa, (参考訳) 反射または散乱された光は、科学研究に悪影響を及ぼす可能性のある天文学的な観測で人工物を生成する。 したがって、これらのアーティファクトの自動検出は、特に収集されるデータ量の増加によって、非常に有益である。 機械学習の手法はこの問題に適しているが、現在、天文学的な観測で人工物を検出するためにそのようなアプローチを訓練する注釈付きデータが不足している。 本稿では,XMM-Newton宇宙望遠鏡の光学モニタリングカメラから,さまざまな種類の人工物を示す画像のデータセットを提示する。 自動ML手法のトレーニングに使用するアーティファクトで,1000枚の画像のサンプルを手書きした。 さらに,実例分節を用いたアーティファクトの正確な検出とマスキングに適した手法を実証する。 我々は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのモデルの両方からの知識を組み合わせて、ハイブリッドアプローチを採用し、セグメンテーションでそれらの利点を利用する。 提案手法とデータセットは、再現可能なベースラインを提供することにより、天文観測におけるアーティファクト検出を促進する。 すべてのコードとデータは利用可能である(https://github.com/ESA-Datalabs/XAMI-modelとhttps://github.com/ESA-Datalabs/XAMI-dataset)。

Reflected or scattered light produce artefacts in astronomical observations that can negatively impact the scientific study. Hence, automated detection of these artefacts is highly beneficial, especially with the increasing amounts of data gathered. Machine learning methods are well-suited to this problem, but currently there is a lack of annotated data to train such approaches to detect artefacts in astronomical observations. In this work, we present a dataset of images from the XMM-Newton space telescope Optical Monitoring camera showing different types of artefacts. We hand-annotated a sample of 1000 images with artefacts which we use to train automated ML methods. We further demonstrate techniques tailored for accurate detection and masking of artefacts using instance segmentation. We adopt a hybrid approach, combining knowledge from both convolutional neural networks (CNNs) and transformer-based models and use their advantages in segmentation. The presented method and dataset will advance artefact detection in astronomical observations by providing a reproducible baseline. All code and data are made available (https://github.com/ESA-Datalabs/XAMI-model and https://github.com/ESA-Datalabs/XAMI-dataset).
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 天文学におけるChatGPTの利用

Delving into the Utilisation of ChatGPT in Scientific Publications in Astronomy ( http://arxiv.org/abs/2406.17324v1 )

ライセンス: Link先を確認
Simone Astarita, Sandor Kruk, Jan Reerink, Pablo Gómez, (参考訳) 自然言語処理における機械学習アプローチの能力の急速な進歩は、過去2年間で大規模言語モデルの台頭を極めた。 最近の研究は、特にいくつかの分野において、学術的な著作にこれらを前例のない形で採用していることを示しているが、天文学におけるその普及性は十分に研究されていない。 これを解決するために、ChatGPTは学術テキストを生成する際に人間よりも頻繁に使用する単語を抽出し、合計100万の論文を検索する。 このようにして、2000年以降にNASA天文学データシステムによって追跡された天文学の出版物における単語発生頻度を評価する。 次に,その発生の統計的解析を行う。 我々はChatGPTで好まれる単語のリストを特定し、2024年に他の分野の傾向と一致した制御群に対して、これらの単語の統計的に有意な増加を見出した。 これらの結果は、天文学論文の執筆においてこれらのモデルが広く採用されていることを示唆している。 我々は、組織、出版社、研究者が協力して、倫理的および実践的なガイドラインを特定し、科学的厳密さを維持しながら、これらのシステムの利点を最大化することを奨励します。

Rapid progress in the capabilities of machine learning approaches in natural language processing has culminated in the rise of large language models over the last two years. Recent works have shown unprecedented adoption of these for academic writing, especially in some fields, but their pervasiveness in astronomy has not been studied sufficiently. To remedy this, we extract words that ChatGPT uses more often than humans when generating academic text and search a total of 1 million articles for them. This way, we assess the frequency of word occurrence in published works in astronomy tracked by the NASA Astrophysics Data System since 2000. We then perform a statistical analysis of the occurrences. We identify a list of words favoured by ChatGPT and find a statistically significant increase for these words against a control group in 2024, which matches the trend in other disciplines. These results suggest a widespread adoption of these models in the writing of astronomy papers. We encourage organisations, publishers, and researchers to work together to identify ethical and pragmatic guidelines to maximise the benefits of these systems while maintaining scientific rigour.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 個人と組織によるソフトウェア開発におけるAIツールの利用と採用:基礎的理論研究

AI Tool Use and Adoption in Software Development by Individuals and Organizations: A Grounded Theory Study ( http://arxiv.org/abs/2406.17325v1 )

ライセンス: Link先を確認
Ze Shi Li, Nowshin Nawar Arony, Ahmed Musa Awon, Daniela Damian, Bowen Xu, (参考訳) ChatGPT、Copilot、GeminiといったAI支援ツールは、近年、ソフトウェア開発の性質に劇的に影響を与えている。 多くの研究が、実践者がこれらのツールを自分の仕事で使うことで達成した肯定的な利益を研究してきた。 AIツールを活用する上でのユーザビリティ面に関する知識は増えているが、組織や実践者がAIツールの採用や利用の増加について検討する上で考慮すべき問題に関する具体的な詳細はいまだに欠けている。 本研究では,26名の業界実践者と395名の調査対象者を対象に,総合的な調査を行った。 個人や組織に影響を与えるモチベーションと課題がいくつかあり、AIツールの採用の理論を開発したのです。 例えば、実践者がAIツールを採用し、使用するための重要な動機として、AIベストプラクティスとヒントを共有する文化を作ることが分かりました。 2つの個別の動機,4つの個別の課題,3つの組織的モチベーション,3つの組織的課題,および3つのインターリーブされた関係を見出した。 3つのインターリーブされた関係は、モチベーションが実践者を引き寄せてAIツールの使用を拡大し、実践者がAIツールの使用から遠ざけるというプッシュプルな振る舞いをする。

AI assistance tools such as ChatGPT, Copilot, and Gemini have dramatically impacted the nature of software development in recent years. Numerous studies have studied the positive benefits that practitioners have achieved from using these tools in their work. While there is a growing body of knowledge regarding the usability aspects of leveraging AI tools, we still lack concrete details on the issues that organizations and practitioners need to consider should they want to explore increasing adoption or use of AI tools. In this study, we conducted a mixed methods study involving interviews with 26 industry practitioners and 395 survey respondents. We found that there are several motives and challenges that impact individuals and organizations and developed a theory of AI Tool Adoption. For example, we found creating a culture of sharing of AI best practices and tips as a key motive for practitioners' adopting and using AI tools. In total, we identified 2 individual motives, 4 individual challenges, 3 organizational motives, and 3 organizational challenges, and 3 interleaved relationships. The 3 interleaved relationships act in a push-pull manner where motives pull practitioners to increase the use of AI tools and challenges push practitioners away from using AI tools.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 空間囚人のジレンマゲームにおける状態-反状態-状態-反応アルゴリズム

The State-Action-Reward-State-Action Algorithm in Spatial Prisoner's Dilemma Game ( http://arxiv.org/abs/2406.17326v1 )

ライセンス: Link先を確認
Lanyu Yang, Dongchun Jiang, Fuqiang Guo, Mingjian Fu, (参考訳) 協調行動は、人間社会と自然の両方で一般的である。 自己関心の個人間の協力の出現と維持を理解することは、進化生物学や社会科学において重要な課題である。 強化学習(Reinforcement Learning, RL)は、環境変化に適応し、期待される利益を最大化できる進化ゲーム理論の研究に適したフレームワークを提供する。 本研究では、進化ゲーム理論における個人のための意思決定メカニズムとして、ステート・アクション・リワード・ステート・アクション(SARSA)アルゴリズムを用いる。 まず、SARSAを模倣学習に適用し、エージェントは報酬に基づいて隣人を選択して模倣する。 このアプローチは,独立した意思決定能力を持たないエージェントの行動変化を観察することを可能にする。 その後、SARSAは、プライマリエージェントが隣人との協力や裏切りを独立に選択するために利用される。 我々は,SARSAが協力率に与える影響を,報酬の変動とネットワーク内の協調作業者や欠陥者の分布を分析して評価する。

Cooperative behavior is prevalent in both human society and nature. Understanding the emergence and maintenance of cooperation among self-interested individuals remains a significant challenge in evolutionary biology and social sciences. Reinforcement learning (RL) provides a suitable framework for studying evolutionary game theory as it can adapt to environmental changes and maximize expected benefits. In this study, we employ the State-Action-Reward-State-Action (SARSA) algorithm as the decision-making mechanism for individuals in evolutionary game theory. Initially, we apply SARSA to imitation learning, where agents select neighbors to imitate based on rewards. This approach allows us to observe behavioral changes in agents without independent decision-making abilities. Subsequently, SARSA is utilized for primary agents to independently choose cooperation or betrayal with their neighbors. We evaluate the impact of SARSA on cooperation rates by analyzing variations in rewards and the distribution of cooperators and defectors within the network.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 質量重畳BTZブラックホールのホーキング放射の量子相関

Quantum correlation of Hawking radiations for mass-superposed BTZ black holes ( http://arxiv.org/abs/2406.17327v1 )

ライセンス: Link先を確認
Hongbin Zhang, Baocheng Zhang, (参考訳) ウンルー・デウィット検出器モデルを用いた最近の研究により、ブラックホール質量重畳の量子的シグネチャが明らかになった。 本稿では,等時密度密度相関関数を用いて,BTZブラックホールの質量重畳を再検討する。 興味深いことに、BTZブラックホール質量重畳の量子シグネチャは、等時密度密度相関ピークによって明らかにできる。 さらに、同じ質量比の異なる質量重ね合わせを区別することができるが、これは以前に記録されていない現象である。 特に、相関関数法は、質量重畳されたBTZブラックホールであっても、ホーキング放射の発生位置を特定できる。 この位置は、相関関数が最大値に達する地平線の半径の約2倍半であり、これは、量子的に重畳された時空においても、ホーキング放射の起源軌跡としての量子大気の概念を支持する。

Recent studies using the Unruh-DeWitt detector model have revealed the quantum signatures of black hole mass superposition. In this paper, we use the equal-time density-density correlation function to reinvestigate the mass superposition of BTZ black holes. Interestingly, the quantum signatures of BTZ black hole mass superposition can be revealed by the equal-time density-density correlation peaks. Additionally, different mass superpositions for the same mass ratio can be distinguished, a phenomenon not previously documented. Specifically, the correlation function method can pinpoint the location where Hawking radiations are generated, even for mass-superposed BTZ black holes. Our findings indicate that this location is approximately at two and a half times the radius of the horizon, where the correlation function reaches its maximum.This supports the concept of a quantum atmosphere as the origin locus of Hawking radiation,even in quantum-superposed spacetimes.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 大規模言語モデルのための二重空間知識蒸留

Dual-Space Knowledge Distillation for Large Language Models ( http://arxiv.org/abs/2406.17328v1 )

ライセンス: Link先を確認
Songming Zhang, Xue Zhang, Zengkui Sun, Yufeng Chen, Jinan Xu, (参考訳) 知識蒸留(KD)は、より大きな言語モデル(LLM)を圧縮し、その知識をより小さなモデルに伝達する、有望なソリューションとして知られている。 この過程において、ホワイトボックスKD法は通常、2つのモデルの出力分布間の距離を最小化し、より多くの知識を伝達することができる。 しかし、現在のWhite-box KDフレームワークでは、出力分布は2つのモデルの出力空間からなり、それぞれの予測ヘッドを使用する。 我々は,空間差が教師モデルと生徒モデルとの表現と分布の両レベルでの類似度を低くすると主張している。 さらに、この相違により、現在のLLMに共通する異なる語彙を持つモデル間のKDプロセスも妨げられる。 これらの問題に対処するため,KDの2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。 DSKDに基づいて,2つのモデルの表現を異なる語彙で自動的に整列するクロスモデルアテンション機構をさらに発展させる。 したがって、我々のフレームワークは、現在のフレームワークのようなKD(例えば、KLの発散)の様々な距離関数と互換性があるだけでなく、語彙に関係なく任意の2つのLLM間のKDもサポートしている。 タスクに依存しない命令追従ベンチマークの実験では、DSKDは様々な距離関数を持つ現在のWhite-box KDフレームワークよりも大幅に優れており、異なる語彙を持つLLMの既存のKDメソッドよりも優れていた。

Knowledge distillation (KD) is known as a promising solution to compress large language models (LLMs) via transferring their knowledge to smaller models. During this process, white-box KD methods usually minimize the distance between the output distributions of the two models so that more knowledge can be transferred. However, in the current white-box KD framework, the output distributions are from the respective output spaces of the two models, using their own prediction heads. We argue that the space discrepancy will lead to low similarity between the teacher model and the student model on both representation and distribution levels. Furthermore, this discrepancy also hinders the KD process between models with different vocabularies, which is common for current LLMs. To address these issues, we propose a dual-space knowledge distillation (DSKD) framework that unifies the output spaces of the two models for KD. On the basis of DSKD, we further develop a cross-model attention mechanism, which can automatically align the representations of the two models with different vocabularies. Thus, our framework is not only compatible with various distance functions for KD (e.g., KL divergence) like the current framework, but also supports KD between any two LLMs regardless of their vocabularies. Experiments on task-agnostic instruction-following benchmarks show that DSKD significantly outperforms the current white-box KD framework with various distance functions, and also surpasses existing KD methods for LLMs with different vocabularies.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 階層的深層強化学習による仮想ネットワークの連関制御と資源配分

Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning ( http://arxiv.org/abs/2406.17334v1 )

ライセンス: Link先を確認
Tianfu Wang, Li Shen, Qilin Fan, Tong Xu, Tongliang Liu, Hui Xiong, (参考訳) ネットワーク仮想化における重要なリソース管理問題として、仮想ネットワーク埋め込み(VNE)は、物理ネットワークの有限リソースを異なるリソース要求で順次到着する仮想ネットワーク要求(VNR)に割り当てることを目的としている。 これはNPハード組合せ最適化問題であるため、実現可能なソリューションを提供するために多くの努力がなされている。 しかしながら、既存のほとんどのアプローチは、長期的パフォーマンスに影響を与える可能性のあるVNRの受け入れ制御を無視しているか、物理的ネットワークとVNRの時間的および位相的特徴を完全に活用していないかのどちらかである。 本稿では, HRL-ACRA と名づけられた VNE の適応制御と資源配分の協調政策を学習するための階層的強化学習手法を提案する。 具体的には、VNEプロセス全体を、到着したVNRを受け入れるかどうかを決定するための上位レベルポリシーと、HRLアプローチを通じてVNRの要求を満たすために物理ネットワークのリソースを割り当てる下位レベルポリシーに分解する。 基本訓練アルゴリズムとして近似ポリシー最適化を考慮し、上位エージェントの無限地平線問題に対処する平均報酬法を採用し、下位エージェントのスパース報酬問題を緩和するために、カスタマイズされた多目的固有報酬を設計する。 さらに、VNRと物理ネットワークの特徴を捉え、シーケンシャル・ツー・シーケンスモデルを利用して埋め込み動作を反復的に生成する、深い特徴認識グラフニューラルネットワークを開発した。 最後に, HRL-ACRAは, 受入率と長期平均収益の両面で, 最先端のベースラインを上回っていることを示す。 私たちのコードは \url{https://github.com/GeminiLight/hrl-acra} で利用可能です。

As an essential resource management problem in network virtualization, virtual network embedding (VNE) aims to allocate the finite resources of physical network to sequentially arriving virtual network requests (VNRs) with different resource demands. Since this is an NP-hard combinatorial optimization problem, many efforts have been made to provide viable solutions. However, most existing approaches have either ignored the admission control of VNRs, which has a potential impact on long-term performances, or not fully exploited the temporal and topological features of the physical network and VNRs. In this paper, we propose a deep Hierarchical Reinforcement Learning approach to learn a joint Admission Control and Resource Allocation policy for VNE, named HRL-ACRA. Specifically, the whole VNE process is decomposed into an upper-level policy for deciding whether to admit the arriving VNR or not and a lower-level policy for allocating resources of the physical network to meet the requirement of VNR through the HRL approach. Considering the proximal policy optimization as the basic training algorithm, we also adopt the average reward method to address the infinite horizon problem of the upper-level agent and design a customized multi-objective intrinsic reward to alleviate the sparse reward issue of the lower-level agent. Moreover, we develop a deep feature-aware graph neural network to capture the features of VNR and physical network and exploit a sequence-to-sequence model to generate embedding actions iteratively. Finally, extensive experiments are conducted in various settings, and show that HRL-ACRA outperforms state-of-the-art baselines in terms of both the acceptance ratio and long-term average revenue. Our code is available at \url{https://github.com/GeminiLight/hrl-acra}.
翻訳日:2024-06-26 15:21:33 公開日:2024-06-25
# 軽量埋め込み型レコメンダシステムにおける詳細な性能ベンチマーク

A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems ( http://arxiv.org/abs/2406.17335v1 )

ライセンス: Link先を確認
Hung Vinh Tran, Tong Chen, Quoc Viet Hung Nguyen, Zi Huang, Lizhen Cui, Hongzhi Yin, (参考訳) Web 作成以来,レコメンダシステム (RS) は情報フィルタリングにおいて必須のメカニズムとなっている。 State-of-the-art RSは、主に分類的特徴に依存し、埋め込みベクトルによって符号化され、結果として非常に大きな埋め込みテーブルとなる。 過度にパラメータ化された埋め込みテーブルがスケーラビリティを損なうのを防ぐために、学術と産業の両方がRS埋め込みの圧縮に力を入れている。 しかし、軽量埋め込み型RS(LERS)の繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られ、LERSの性能と現実のユーザビリティとの関連性に障害が生じている。 さらに、軽量な埋め込みという共通の目標にもかかわらず、LERSは2つの主要なレコメンデーションタスク – 協調フィルタリングとコンテンツベースのレコメンデーション – の1つの選択で評価される。 クロスタスクトランスファービリティに関する議論の欠如は、統一的でスケーラブルなソリューションの開発を妨げる。 これらの課題に触発された本研究では, LERSの性能, 効率, クロスタスクの転送性について, 徹底的なベンチマークによる検討を行った。 さらに,様々な複雑なLERSよりも優れた,容易に展開できるが高い競争力を持つベースラインであるマグニチュードプルーニングを用いた効率的な埋め込み圧縮手法を提案する。 本研究は,2つのタスクにまたがるLERSの性能を明らかにし,その有効性と一般化性に光を当てた。 エッジベースのレコメンデーションをサポートするために、すべてのLERSをRaspberry Pi 4上でテストしました。 最後に, LERSの性能, モデル選択の提案, 今後の研究におけるLERSの課題について概説した。 今後の研究を促進するため、ソースコードとアーティファクトを \href{this link}{https://github.com/chenxing 1999/recsys-benchmark} で公開しています。

Since the creation of the Web, recommender systems (RSs) have been an indispensable mechanism in information filtering. State-of-the-art RSs primarily depend on categorical features, which ecoded by embedding vectors, resulting in excessively large embedding tables. To prevent over-parameterized embedding tables from harming scalability, both academia and industry have seen increasing efforts in compressing RS embeddings. However, despite the prosperity of lightweight embedding-based RSs (LERSs), a wide diversity is seen in evaluation protocols, resulting in obstacles when relating LERS performance to real-world usability. Moreover, despite the common goal of lightweight embeddings, LERSs are evaluated with a single choice between the two main recommendation tasks -- collaborative filtering and content-based recommendation. This lack of discussions on cross-task transferability hinders the development of unified, more scalable solutions. Motivated by these issues, this study investigates various LERSs' performance, efficiency, and cross-task transferability via a thorough benchmarking process. Additionally, we propose an efficient embedding compression method using magnitude pruning, which is an easy-to-deploy yet highly competitive baseline that outperforms various complex LERSs. Our study reveals the distinct performance of LERSs across the two tasks, shedding light on their effectiveness and generalizability. To support edge-based recommendations, we tested all LERSs on a Raspberry Pi 4, where the efficiency bottleneck is exposed. Finally, we conclude this paper with critical summaries of LERS performance, model selection suggestions, and underexplored challenges around LERSs for future research. To encourage future research, we publish source codes and artifacts at \href{this link}{https://github.com/chenxing1999/recsys-benchmark}.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# 脂肪性肝疾患検出のためのロバストに最適化されたDeep Feature Decoupling Network

Robustly Optimized Deep Feature Decoupling Network for Fatty Liver Diseases Detection ( http://arxiv.org/abs/2406.17338v1 )

ライセンス: Link先を確認
Peng Huang, Shu Hu, Bo Peng, Jiashu Zhang, Xi Wu, Xin Wang, (参考訳) 現在の医用画像分類の取り組みは、主により高い平均性能を目指しており、しばしば異なる階級間のバランスを無視している。 これは、クラス間の認識精度と明らかな認識弱点に顕著な違いをもたらす可能性がある。 大量のデータをサポートせずに、深層学習は脂肪肝のきめ細かい分類の課題に直面している。 本稿では,特徴分離と適応的対角学習を組み合わせた,革新的なディープラーニングフレームワークを提案する。 まず, 腹部超音波検査では, 脂肪肝に特徴的な特徴と特徴を2つの反復的に圧縮したデカップラーを用いて観察した。 その後、色空間を変換した後、分離された特徴を原画像と連結し、分類器に供給する。 対人訓練では,摂動を適応的に調整し,各クラスの精度で対人力のバランスをとる。 このモデルは、正反対サンプルを正しく分類することで認識の弱点を排除し、認識の堅牢性を向上させる。 その結果,提案手法の精度は4.16%向上し,82.95%となった。 大規模な実験によって実証されたように,本手法は,任意の分類器の認識弱点を排除し,平均性能を向上する汎用学習フレームワークである。 コードはhttps://github.com/HP-ML/MICCAI2024で公開されている。

Current medical image classification efforts mainly aim for higher average performance, often neglecting the balance between different classes. This can lead to significant differences in recognition accuracy between classes and obvious recognition weaknesses. Without the support of massive data, deep learning faces challenges in fine-grained classification of fatty liver. In this paper, we propose an innovative deep learning framework that combines feature decoupling and adaptive adversarial training. Firstly, we employ two iteratively compressed decouplers to supervised decouple common features and specific features related to fatty liver in abdominal ultrasound images. Subsequently, the decoupled features are concatenated with the original image after transforming the color space and are fed into the classifier. During adversarial training, we adaptively adjust the perturbation and balance the adversarial strength by the accuracy of each class. The model will eliminate recognition weaknesses by correctly classifying adversarial samples, thus improving recognition robustness. Finally, the accuracy of our method improved by 4.16%, achieving 82.95%. As demonstrated by extensive experiments, our method is a generalized learning framework that can be directly used to eliminate the recognition weaknesses of any classifier while improving its average performance. Code is available at https://github.com/HP-ML/MICCAI2024.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# 構造制約グラフの生成モデリング

Generative Modelling of Structurally Constrained Graphs ( http://arxiv.org/abs/2406.17341v1 )

ライセンス: Link先を確認
Manuel Madeira, Clement Vignac, Dorina Thanou, Pascal Frossard, (参考訳) グラフ拡散モデルはグラフ生成における最先端技術として登場したが、これらのモデルにドメイン知識を統合することは依然として困難である。 ドメイン知識は、現実のシナリオにおいて特に重要である。 制約のない、条件付きグラフ生成モデルは、そのようなドメイン固有の構造特性を保証できない。 ConStructは,平面性や非巡回性といった特定の特性をハードコントラストグラフ拡散モデルに組み込むことのできる,新しいフレームワークである。 我々のアプローチは、サンプルグラフがグラフの領域内にあることを保証し、前と逆の両方の過程において、軌道全体を通して指定された性質を検証する。 これは、特定のエッジ吸収ノイズモデルと新しいプロジェクタ演算子を導入することで実現される。 ConStructは、いくつかの構造的およびエッジ削除不変の制約にまたがる汎用性を示し、合成ベンチマークと属性付き実世界のデータセットの両方で最先端のパフォーマンスを達成する。 例えば、デジタル病理グラフデータセットの平面性を利用して、提案手法は既存のベースラインを上回り、生成したデータの有効性を最大71.1ポイント向上させる。

Graph diffusion models have emerged as state-of-the-art techniques in graph generation, yet integrating domain knowledge into these models remains challenging. Domain knowledge is particularly important in real-world scenarios, where invalid generated graphs hinder deployment in practical applications. Unconstrained and conditioned graph generative models fail to guarantee such domain-specific structural properties. We present ConStruct, a novel framework that allows for hard-constraining graph diffusion models to incorporate specific properties, such as planarity or acyclicity. Our approach ensures that the sampled graphs remain within the domain of graphs that verify the specified property throughout the entire trajectory in both the forward and reverse processes. This is achieved by introducing a specific edge-absorbing noise model and a new projector operator. ConStruct demonstrates versatility across several structural and edge-deletion invariant constraints and achieves state-of-the-art performance for both synthetic benchmarks and attributed real-world datasets. For example, by leveraging planarity in digital pathology graph datasets, the proposed method outperforms existing baselines and enhances generated data validity by up to 71.1 percentage points.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# 相乗的表現と点雲の3次元生成のためのマスク付き生成エクストラクタ

Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds ( http://arxiv.org/abs/2406.17342v1 )

ライセンス: Link先を確認
Hongliang Zeng, Ping Zhang, Fang Li, Jiahua Wang, Tingyu Ye, Pengteng Guo, (参考訳) 2次元画像生成モデリングと表現学習の分野では、Masked Generative Encoder (MAGE) が生成モデルと表現学習の相乗効果を実証している。 そこで我々は,この概念をクラウドデータへ拡張するためのPoint-MAGEを提案する。 具体的には、まずベクトル量子化変分オートエンコーダ(VQVAE)を使用して、3次元形状のニューラルネットワーク表現を再構成し、点パッチの個別の意味的特徴を学習する。 その後、マスキングモデルと可変マスキング比を組み合わせることで、生成学習と表現学習の同時学習を実現する。 さらに,我々のフレームワークは既存のポイントクラウド自己教師型学習(SSL)モデルとシームレスに統合され,性能が向上する。 我々は,Point-MAGEの表現学習と生成能力を広範囲に評価した。 形状分類タスクにおいて、Point-MAGEはModelNet40データセットで94.2%、ScanObjectNNデータセットで92.9%(+1.3%)の精度を達成した。 さらに、数ショットの学習と部分のセグメンテーションタスクにおいて、最先端のパフォーマンスを新たに達成した。 実験結果から,Point-MAGEは非条件条件と条件条件の両方で,詳細な3次元形状と高品質な形状を生成できることが確認された。

In the field of 2D image generation modeling and representation learning, Masked Generative Encoder (MAGE) has demonstrated the synergistic potential between generative modeling and representation learning. Inspired by this, we propose Point-MAGE to extend this concept to point cloud data. Specifically, this framework first utilizes a Vector Quantized Variational Autoencoder (VQVAE) to reconstruct a neural field representation of 3D shapes, thereby learning discrete semantic features of point patches. Subsequently, by combining the masking model with variable masking ratios, we achieve synchronous training for both generation and representation learning. Furthermore, our framework seamlessly integrates with existing point cloud self-supervised learning (SSL) models, thereby enhancing their performance. We extensively evaluate the representation learning and generation capabilities of Point-MAGE. In shape classification tasks, Point-MAGE achieved an accuracy of 94.2% on the ModelNet40 dataset and 92.9% (+1.3%) on the ScanObjectNN dataset. Additionally, it achieved new state-of-the-art performance in few-shot learning and part segmentation tasks. Experimental results also confirmed that Point-MAGE can generate detailed and high-quality 3D shapes in both unconditional and conditional settings.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# Q-DiT:拡散変圧器の高精度後量子化

Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers ( http://arxiv.org/abs/2406.17343v1 )

ライセンス: Link先を確認
Lei Chen, Yuan Meng, Chen Tang, Xinzhu Ma, Jingyan Jiang, Xin Wang, Zhi Wang, Wenwu Zhu, (参考訳) 拡散モデルの最近の進歩、特に、UNetベースの拡散変換から拡散変換(DiT)へのアーキテクチャ変換の傾向は、画像合成の品質とスケーラビリティを著しく改善した。 驚くべき生成品質にもかかわらず、これらの大規模モデルの大規模な計算要求は、現実世界のシナリオにおける展開を著しく妨げます。 後トレーニング量子化(PTQ)は、モデルサイズを圧縮し、事前トレーニングされたモデルの推論を高速化し、モデルの再トレーニングをなくし、有望なソリューションを提供する。 しかし、既存のPTQフレームワークはViTと従来の拡散モデルの両方にのみ設計されており、バイアス量子化に陥り、性能が著しく低下する。 本稿では,DiTsの重量と活性化の両面において大きなばらつきがみられ,数値表現の制限が容易に解消されることがわかった。 この問題に対処するために、ウェイトとアクティベーションの入力チャネル間の実質的な分散を管理する微粒化量子化、量子化の粒度を最適化し冗長性を緩和する自動探索戦略、タイムステップ間のアクティベーション変化を捉える動的アクティベーション量子化の3つの手法をシームレスに統合するQ-DiTを考案した。 ImageNetデータセットの大規模な実験は、提案したQ-DiTの有効性を示す。 具体的には、 ImageNet 256x256 上で DiT-XL/2 を W8A8 に量子化する際、Q-DiT はベースラインと比較して FID を 1.26 削減する。 W4A8設定の下では、画像生成の忠実度を維持し、FIDの限界増加のみを示し、拡散トランスフォーマーの効率的で高品質な量子化のための新しいベンチマークを設定する。 コードは \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT} で公開されている。

Recent advancements in diffusion models, particularly the trend of architectural transformation from UNet-based Diffusion to Diffusion Transformer (DiT), have significantly improved the quality and scalability of image synthesis. Despite the incredible generative quality, the large computational requirements of these large-scale models significantly hinder the deployments in real-world scenarios. Post-training Quantization (PTQ) offers a promising solution by compressing model sizes and speeding up inference for the pretrained models while eliminating model retraining. However, we have observed the existing PTQ frameworks exclusively designed for both ViT and conventional Diffusion models fall into biased quantization and result in remarkable performance degradation. In this paper, we find that the DiTs typically exhibit considerable variance in terms of both weight and activation, which easily runs out of the limited numerical representations. To address this issue, we devise Q-DiT, which seamlessly integrates three techniques: fine-grained quantization to manage substantial variance across input channels of weights and activations, an automatic search strategy to optimize the quantization granularity and mitigate redundancies, and dynamic activation quantization to capture the activation changes across timesteps. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of the proposed Q-DiT. Specifically, when quantizing DiT-XL/2 to W8A8 on ImageNet 256x256, Q-DiT achieves a remarkable reduction in FID by 1.26 compared to the baseline. Under a W4A8 setting, it maintains high fidelity in image generation, showcasing only a marginal increase in FID and setting a new benchmark for efficient, high-quality quantization in diffusion transformers. Code is available at \href{https://github.com/Juanerx/Q-DiT}{https://github.com/Juanerx/Q-DiT}.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# NerfBaselines:新しいビュー合成手法の一貫性と再現性の評価

NerfBaselines: Consistent and Reproducible Evaluation of Novel View Synthesis Methods ( http://arxiv.org/abs/2406.17345v1 )

ライセンス: Link先を確認
Jonas Kulhanek, Torsten Sattler, (参考訳) 新しいビュー合成は、AR/VR、ゲーム、ロボット工学のシミュレーションなど、多くのアプリケーションにおいて重要な問題である。 近年のNeural Radiance Fields(NeRFs)と3D Gaussian Splatting(3DGS)メソッドの急速な発展に伴い,異なる評価プロトコルを用いた手法,コードベースのインストールと使用が困難であること,新しい3Dシーンに適さない手法などにより,現在のSoTA(State-of-the-art)の追跡が困難になっている。 本実験は, 各種手法の評価プロトコルの微妙な差異が, 不整合性指標につながることを示すことによって, この主張を支持する。 これらの問題に対処するため,さまざまなメソッドのインストールを簡略化し,一貫したベンチマークツールを提供し,再現性を確保するNerfBaselinesというフレームワークを提案する。 本研究は,本論文で報告された数値を再現することにより,本実装を実験的に検証する。 アクセシビリティをさらに向上するために、一般的なメソッドを標準ベンチマークで比較するWebプラットフォームをリリースする。 Web: https://jkulhanek.com/nerfbaselines

Novel view synthesis is an important problem with many applications, including AR/VR, gaming, and simulations for robotics. With the recent rapid development of Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) methods, it is becoming difficult to keep track of the current state of the art (SoTA) due to methods using different evaluation protocols, codebases being difficult to install and use, and methods not generalizing well to novel 3D scenes. Our experiments support this claim by showing that tiny differences in evaluation protocols of various methods can lead to inconsistent reported metrics. To address these issues, we propose a framework called NerfBaselines, which simplifies the installation of various methods, provides consistent benchmarking tools, and ensures reproducibility. We validate our implementation experimentally by reproducing numbers reported in the original papers. To further improve the accessibility, we release a web platform where commonly used methods are compared on standard benchmarks. Web: https://jkulhanek.com/nerfbaselines
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# Stacked Confusion Reject Plots (SCORE)

Stacked Confusion Reject Plots (SCORE) ( http://arxiv.org/abs/2406.17346v1 )

ライセンス: Link先を確認
Stephan Hasler, Lydia Fischer, (参考訳) 機械学習は、健康や運転支援といった重要な応用分野にますます応用されてきている。 誤った決定のリスクを最小限に抑えるためには、不確実なサンプルを拒絶するために分類の確実性を検討する必要がある。 このための確立されたツールは、拒否されたサンプルの数と分類パフォーマンスメトリクスの間のトレードオフを視覚化する拒否曲線である。 我々は、共通の拒絶曲線は抽象的すぎるし、非専門家による解釈が難しいと論じる。 使用済みデータと分類器の振舞いをより直感的に理解するスタックド・コンフュージョン・リジェクト・プロット(SCORE)を提案する。 人工ガウスデータの例を示し、SCOREの様々なオプションを文書化し、Pythonパッケージとしてコードを提供する。

Machine learning is more and more applied in critical application areas like health and driver assistance. To minimize the risk of wrong decisions, in such applications it is necessary to consider the certainty of a classification to reject uncertain samples. An established tool for this are reject curves that visualize the trade-off between the number of rejected samples and classification performance metrics. We argue that common reject curves are too abstract and hard to interpret by non-experts. We propose Stacked Confusion Reject Plots (SCORE) that offer a more intuitive understanding of the used data and the classifier's behavior. We present example plots on artificial Gaussian data to document the different options of SCORE and provide the code as a Python package.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# ロバストな未学習事例のための意味的ディープハイディング

Semantic Deep Hiding for Robust Unlearnable Examples ( http://arxiv.org/abs/2406.17349v1 )

ライセンス: Link先を確認
Ruohan Meng, Chenyu Yi, Yi Yu, Siyuan Yang, Bingquan Shen, Alex C. Kot, (参考訳) データプライバシと保護の確保は、ディープラーニングの時代において最重要になっている。 深層学習モデルを誤解させ、データに小さな摂動を加えることで、データを不正な探索から防ぐために、未学習例が提案されている。 しかし、このような摂動(ノイズ、テクスチャ、色の変化など)は、主に低レベルの特徴に影響を与え、一般的な対策に弱い。 対照的に、複雑な形状のセマンティックイメージは、多くの高レベルな特徴を持ち、それに対してより弾力性があり、堅牢で学習不可能な例を生み出す可能性を秘めている。 本稿では,高次特徴に富んだセマンティックイメージを適応的に隠蔽するDeep Hiding (DH)方式を提案する。 Invertible Neural Network (INN) を用いて、事前に定義された画像を統合する。 データ非学習性を高めるために、INNと協調してこれらの摂動のクラス内分散を規則化する潜在特徴集中モジュールを導入する。 学習不可能な例の堅牢性をさらに向上するため,隠れセマンティック画像を生成するセマンティック画像生成モジュールを設計した。 類似のセマンティック情報を利用することで、同クラス内のサンプルに対して類似したセマンティック画像を生成し、クラス間距離を拡大し、クラス内距離を狭める。 CIFAR-10, CIFAR-100, およびImageNetサブセットの18対策に対する広範囲な実験により, 提案手法は未使用事例に対して優れた堅牢性を示し, その有効性を実証している。

Ensuring data privacy and protection has become paramount in the era of deep learning. Unlearnable examples are proposed to mislead the deep learning models and prevent data from unauthorized exploration by adding small perturbations to data. However, such perturbations (e.g., noise, texture, color change) predominantly impact low-level features, making them vulnerable to common countermeasures. In contrast, semantic images with intricate shapes have a wealth of high-level features, making them more resilient to countermeasures and potential for producing robust unlearnable examples. In this paper, we propose a Deep Hiding (DH) scheme that adaptively hides semantic images enriched with high-level features. We employ an Invertible Neural Network (INN) to invisibly integrate predefined images, inherently hiding them with deceptive perturbations. To enhance data unlearnability, we introduce a Latent Feature Concentration module, designed to work with the INN, regularizing the intra-class variance of these perturbations. To further boost the robustness of unlearnable examples, we design a Semantic Images Generation module that produces hidden semantic images. By utilizing similar semantic information, this module generates similar semantic images for samples within the same classes, thereby enlarging the inter-class distance and narrowing the intra-class distance. Extensive experiments on CIFAR-10, CIFAR-100, and an ImageNet subset, against 18 countermeasures, reveal that our proposed method exhibits outstanding robustness for unlearnable examples, demonstrating its efficacy in preventing unauthorized data exploitation.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# 線形導波路における$$$型ジャイアントエミッタを用いたキャビティ変調振動境界状態

Cavity Modified Oscillating Bound States with a $Λ$-type giant emitter in a linear waveguide ( http://arxiv.org/abs/2406.17351v1 )

ライセンス: Link先を確認
Ge Sun, Ya Yang, Jing Li, Jing Lu, Lan Zhou, (参考訳) 3レベル巨大原子(3GA)、真空状態の導波路、単一モードキャビティからなるシステムについて検討した。 3GAキャビティ系は強い結合状態にあり、結合点間の距離は自然に放出される光子のコヒーレント長に匹敵する。 導波路内の3GAとその放射場を長時間にわたって解析した。 また, 定常値の他に, 連続体中の2つの境界状態の重畳によって生じる振動状態の符号である励起状態の振動特性も見出した。 放射体は結合点によって形成される空洞のような幾何学で伝播する。 1つのバウンド状態が創発すると、時空の放出された磁場強度に対して正弦波干渉パターンが可視される。 サブ空間に2つの有界状態が発生したときに、時間内の振動特性と、放射された磁場強度に対する空間内のビートが観察される。 波長と周期は、キャビティ内の光子の個数によって制御される。

We study a system composed by a three-level giant atom (3GA), a waveguide initially in the vacuum state, and a single-mode cavity. The 3GA-cavity system is in a strong-coupling regime, and the distance between the coupling points is comparable to the coherent length of a spontaneously emitted photon. The dynamics of the 3GA and its radiative field in the waveguide for long time are analyzed. Besides the steady value, we also found an oscillatory character of the excited state population, a signature of oscillating bound states which is generated by the superposition of two bound states in the continuum. The radiative field propagates in the cavity-like geometry formed by the coupling points. When one bound state is emergent, a sine-like interference pattern is visible for the emitted field intensity in spacetime. An oscillatory character in time and a beat in space for the emitted field intensity are observed when two bound states are emergent in a subspace. The wavelengths and the periods are controlled by the number of the photons in the cavity.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# 加速度計ネックカラーを用いた雑草前子牛の行動監視用デジタルツールの開発

Development of a digital tool for monitoring the behaviour of pre-weaned calves using accelerometer neck-collars ( http://arxiv.org/abs/2406.17352v1 )

ライセンス: Link先を確認
Oshana Dissanayake, Sarah E. Mcpherson, Joseph Allyndrée, Emer Kennedy, Pádraig Cunningham, Lucile Riaboff, (参考訳) 子牛の行動の自動モニタリングは、農場で最初の週から動物福祉を評価するための有望な方法である。 この研究が目指すのは 一 加速度計データから機械学習モデルを作成して、雑草前子牛の主な行動の分類し、 (II) モデルの予測から, 雑草前子牛の行動を監視するデジタルツールを設置した。 30頭の乳牛がネックコラーに取り付けられた3D加速度計を2ヶ月間装備し、同時に撮影された。 この行動には注釈が付され、27.4時間の観測が加速度計のデータと一致した。 その後、タイムシリーズは3秒のウィンドウに分割された。 2つの機械学習モデルは、子牛の80%のデータを使って調整された。 (i)11個の手工芸品[モデル1]とを用いて活動行動と不活動行動の分類を行うランダムフォレストモデル (II)ROCKET特徴量[モデル2]を用いて、横、走、牛乳の飲用とその他の行動の分類を行うRage ClassifierCVモデル。 モデルの性能は、残りの20%の牛からのデータを用いてテストされた。 モデル1は0.92のバランスの取れた精度を達成した。 モデル2は0.84のバランスの取れた精度を達成した。 行動指標として, 日常活動率, ランニング, ライディング, ミルクの摂取状況, その他の行動指標を, 予測値から推定した。 開発はすべてPythonダッシュボードに埋め込まれ、個々のカルフメトリクスを生の加速度計ファイルから直接表示できるようになった。

Automatic monitoring of calf behaviour is a promising way of assessing animal welfare from their first week on farms. This study aims to (i) develop machine learning models from accelerometer data to classify the main behaviours of pre-weaned calves and (ii) set up a digital tool for monitoring the behaviour of pre-weaned calves from the models' prediction. Thirty pre-weaned calves were equipped with a 3-D accelerometer attached to a neck-collar for two months and filmed simultaneously. The behaviours were annotated, resulting in 27.4 hours of observation aligned with the accelerometer data. The time-series were then split into 3 seconds windows. Two machine learning models were tuned using data from 80% of the calves: (i) a Random Forest model to classify between active and inactive behaviours using a set of 11 hand-craft features [model 1] and (ii) a RidgeClassifierCV model to classify between lying, running, drinking milk and other behaviours using ROCKET features [model 2]. The performance of the models was tested using data from the remaining 20% of the calves. Model 1 achieved a balanced accuracy of 0.92. Model 2 achieved a balanced accuracy of 0.84. Behavioural metrics such as daily activity ratio and episodes of running, lying, drinking milk, and other behaviours expressed over time were deduced from the predictions. All the development was finally embedded into a Python dashboard so that the individual calf metrics could be displayed directly from the raw accelerometer files.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# 建築スメルと静的解析警告の相関について

On the correlation between Architectural Smells and Static Analysis Warnings ( http://arxiv.org/abs/2406.17354v1 )

ライセンス: Link先を確認
Matteo Esposito, Mikel Robredo, Francesca Arcelli Fontana, Valentina Lenarduzzi, (参考訳) 背景。 ソフトウェアの品質保証は、ソフトウェア開発とメンテナンスにおいて不可欠です。 静的解析ツール(SAT)はコード品質の評価に広く使われている。 アーキテクチャ上の臭いは、品質上の問題に対処し、評価する上で、ますます厄介なものになっています。 目的。 静的分析警告(SAW)とアーキテクチャの臭い(AS)の関係を理解して,開発者やメンテナがSAWに力を注ぐことで,ASとの共同作業が容易になることを目指しています。 方法。 785 SAWはSAT, Checkstyle, Findbugs, PMD, SonarQube, ARCANツールで検出された4つのアーキテクチャの臭いによって検出された。 我々はSAWがASの存在にどのように影響するかを分析した。 最後に,特定のASに対するSAWの重症度とSAWの優性に基づくAS修復努力の優先順位付けを提案した。 結果。 本研究は, SAWsとASsの中間的な相関関係を明らかにした。 SATとSAWの異なる組み合わせはASの発生に大きく影響し、特定のSAWは特定のASと共起する可能性が高い。 逆に、SAWの33.79%は「健康なキャリア」として働き、ASとは無関係である。 結論。 実践者は、SAWの約3分の1を無視し、ASと関連している可能性が高いものに集中することができる。 SAW重症度またはSAW重症度に基づくAS修復の優先順位付けは、AS重症度に基づくような効果的なランク付けをもたらす。

Background. Software quality assurance is essential during software development and maintenance. Static Analysis Tools (SAT) are widely used for assessing code quality. Architectural smells are becoming more daunting to address and evaluate among quality issues. Objective. We aim to understand the relationships between static analysis warnings (SAW) and architectural smells (AS) to guide developers/maintainers in focusing their efforts on SAWs more prone to co-occurring with AS. Method. We performed an empirical study on 103 Java projects totaling 72 million LOC belonging to projects from a vast set of domains, and 785 SAW detected by four SAT, Checkstyle, Findbugs, PMD, SonarQube, and 4 architectural smells detected by ARCAN tool. We analyzed how SAWs influence AS presence. Finally, we proposed an AS remediation effort prioritization based on SAW severity and SAW proneness to specific ASs. Results. Our study reveals a moderate correlation between SAWs and ASs. Different combinations of SATs and SAWs significantly affect AS occurrence, with certain SAWs more likely to co-occur with specific ASs. Conversely, 33.79% of SAWs act as "healthy carriers", not associated with any ASs. Conclusion. Practitioners can ignore about a third of SAWs and focus on those most likely to be associated with ASs. Prioritizing AS remediation based on SAW severity or SAW proneness to specific ASs results in effective rankings like those based on AS severity.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# ポアソン対数正規モデルに対する木に基づく変分推論

Tree-based variational inference for Poisson log-normal models ( http://arxiv.org/abs/2406.17361v1 )

ライセンス: Link先を確認
Alexandre Chaussard, Anna Bonnet, Elisabeth Gassiat, Sylvain Le Corff, (参考訳) 生態系を研究する際、階層木は、微生物学の分類学、地理学の社会クラス、小売業の製品タイプといった近接基準に基づくエンティティの組織化によく使われ、エンティティの関係に関する貴重な洞察を提供する。 その重要性にもかかわらず、現在のカウントデータモデルは、この構造化情報を利用していない。 特に、カウントデータからエンティティ間の相互作用をモデル化できることで知られる広く使われているPoisson log-normal (PLN) モデルでは、そのような階層木構造を組み込むことができず、そのような複雑さを特徴とする領域における適用性を制限することができる。 本稿ではPLNモデルの拡張としてPLN-Treeモデルを導入する。 構造的変分推論手法を統合することにより,理論的基礎と実践的解釈性の両方を具体化して,適応的な訓練手順を提案し,識別可能性の確立を図る。 さらに、我々のフレームワークはタスクを前処理パイプラインとして分類するように拡張し、その汎用性を示します。 合成データセットと実世界のマイクロバイオームデータの実験的評価は、PLN-Treeモデルが階層的依存関係を捕捉し、複雑なデータ構造に対する貴重な洞察を与え、生態系モデリングにおける分類学のような知識グラフの実践的関心を示す。

When studying ecosystems, hierarchical trees are often used to organize entities based on proximity criteria, such as the taxonomy in microbiology, social classes in geography, or product types in retail businesses, offering valuable insights into entity relationships. Despite their significance, current count-data models do not leverage this structured information. In particular, the widely used Poisson log-normal (PLN) model, known for its ability to model interactions between entities from count data, lacks the possibility to incorporate such hierarchical tree structures, limiting its applicability in domains characterized by such complexities. To address this matter, we introduce the PLN-Tree model as an extension of the PLN model, specifically designed for modeling hierarchical count data. By integrating structured variational inference techniques, we propose an adapted training procedure and establish identifiability results, enhancisng both theoretical foundations and practical interpretability. Additionally, we extend our framework to classification tasks as a preprocessing pipeline, showcasing its versatility. Experimental evaluations on synthetic datasets as well as real-world microbiome data demonstrate the superior performance of the PLN-Tree model in capturing hierarchical dependencies and providing valuable insights into complex data structures, showing the practical interest of knowledge graphs like the taxonomy in ecosystems modeling.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# エンド・ツー・エンド低音源音声翻訳のための合成音声データの活用

Leveraging Synthetic Audio Data for End-to-End Low-Resource Speech Translation ( http://arxiv.org/abs/2406.17363v1 )

ライセンス: Link先を確認
Yasmin Moslem, (参考訳) 本稿では,アイルランド語から英語への音声翻訳のための国際音声翻訳会議(IWSLT 2024)へのシステム提出について述べる。 我々はWhisperに基づくエンドツーエンドシステムを構築し、音声のバックトランスレーションやノイズ拡張など、多くのデータ拡張手法を採用した。 本稿では,合成音声データを用いた効果について検討し,信号の多様性を高めるためのいくつかの方法について議論する。

This paper describes our system submission to the International Conference on Spoken Language Translation (IWSLT 2024) for Irish-to-English speech translation. We built end-to-end systems based on Whisper, and employed a number of data augmentation techniques, such as speech back-translation and noise augmentation. We investigate the effect of using synthetic audio data and discuss several methods for enriching signal diversity.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# アニーリングに基づく偏微分方程式の解法

Annealing-based approach to solving partial differential equations ( http://arxiv.org/abs/2406.17364v1 )

ライセンス: Link先を確認
Kazue Kudo, (参考訳) 熱処理に基づくアプローチによる偏微分方程式の解法は、一般化固有値問題の解法に基づいている。 偏微分方程式が離散化されると、線形方程式(SLE)の系につながる。 SLE を解くことは一般固有値問題として表すことができ、これは一般化されたレイリー商函数を持つ最適化問題に変換できる。 提案アルゴリズムは,Isingマシンを用いて変数数を増大させることなく,任意の精度で固有ベクトルの計算を可能にする。 この手法と理論解析を用いて解決した簡単な例は、適切なパラメータ設定のためのガイドラインを提供する。

Solving partial differential equations using an annealing-based approach is based on solving generalized eigenvalue problems. When a partial differential equation is discretized, it leads to a system of linear equations (SLE). Solving an SLE can be expressed as a general eigenvalue problem, which can be converted into an optimization problem with the objective function being a generalized Rayleigh quotient. The proposed algorithm allows the computation of eigenvectors at arbitrary precision without increasing the number of variables using an Ising machine. Simple examples solved using this method and theoretical analysis provide a guideline for appropriate parameter settings.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# 実験研究の一般化可能性

Generalizability of experimental studies ( http://arxiv.org/abs/2406.17374v1 )

ライセンス: Link先を確認
Federico Matteucci, Vadim Arzamasov, Jose Cribeiro-Ramallo, Marco Heyden, Konstantin Ntounas, Klemens Böhm, (参考訳) 実験研究は機械学習(ML)研究の基盤となっている。 一般的なが、しばしば暗黙的な仮定は、研究の結果が研究そのものを超えて、例えば新しいデータへと一般化するというものである。 つまり、異なる条件下で研究を繰り返すことが同様の結果をもたらす確率が高い。 概念の重要性にもかかわらず、一般化可能性を測定するという問題は未解決のままである。 これはおそらく実験研究の数学的形式化の欠如によるものである。 本稿では,そのような形式化を提案し,一般化可能性の概念を定量化する。 この概念は、既存の研究の一般化可能性を調べ、新しい研究の一般化可能性を達成するために必要な実験の数を見積もることができる。 その有用性を示すために、最近発表された2つのベンチマークに適用して、一般化可能かつ一般化不可能な結果を識別する。 また、他の実験研究のために分析を繰り返すPythonモジュールも公開しています。

Experimental studies are a cornerstone of machine learning (ML) research. A common, but often implicit, assumption is that the results of a study will generalize beyond the study itself, e.g. to new data. That is, there is a high probability that repeating the study under different conditions will yield similar results. Despite the importance of the concept, the problem of measuring generalizability remains open. This is probably due to the lack of a mathematical formalization of experimental studies. In this paper, we propose such a formalization and develop a quantifiable notion of generalizability. This notion allows to explore the generalizability of existing studies and to estimate the number of experiments needed to achieve the generalizability of new studies. To demonstrate its usefulness, we apply it to two recently published benchmarks to discern generalizable and non-generalizable results. We also publish a Python module that allows our analysis to be repeated for other experimental studies.
翻訳日:2024-06-26 15:11:49 公開日:2024-06-25
# バングラの文脈長変化に伴うバイアスの特性に関する実証的研究

An Empirical Study on the Characteristics of Bias upon Context Length Variation for Bangla ( http://arxiv.org/abs/2406.17375v1 )

ライセンス: Link先を確認
Jayanta Sadhu, Ayan Antik Khan, Abhik Bhattacharjee, Rifat Shahriyar, (参考訳) 事前訓練された言語モデルは本質的に様々な社会的バイアスを示しており、広く使われているため、様々な言語文脈における社会的影響を決定的に検証するきっかけとなった。 従来の研究では、主に高リソース言語に焦点を当てた固有バイアス測定のための多くの方法が提供されてきた。 本研究では,これらの調査を低リソース言語であるBanglaに拡張することを目的としている。 具体的には,(1)バングラにおける内在性バイアス測定のためのデータセットを作成し,(2)既存のバイアス測定方法を適用するために必要な適応について考察し,(3)従来の研究で見過ごされた要因である,文脈長の変化がバイアス測定に与える影響を検討する。 実験を通じて,コンテキスト長に対するバイアス指標の明確な依存性を実証し,バングラのバイアス分析における微妙な考察の必要性を強調した。 我々は、バングラ語におけるバイアス測定の足掛かりとして、将来の研究を支援するために、我々のすべてのリソースを一般公開すると考えている。

Pretrained language models inherently exhibit various social biases, prompting a crucial examination of their social impact across various linguistic contexts due to their widespread usage. Previous studies have provided numerous methods for intrinsic bias measurements, predominantly focused on high-resource languages. In this work, we aim to extend these investigations to Bangla, a low-resource language. Specifically, in this study, we (1) create a dataset for intrinsic gender bias measurement in Bangla, (2) discuss necessary adaptations to apply existing bias measurement methods for Bangla, and (3) examine the impact of context length variation on bias measurement, a factor that has been overlooked in previous studies. Through our experiments, we demonstrate a clear dependency of bias metrics on context length, highlighting the need for nuanced considerations in Bangla bias analysis. We consider our work as a stepping stone for bias measurement in the Bangla Language and make all of our resources publicly available to support future research.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# 合成音声検出のためのマルチヘッド自己認識における時間チャネルモデリング

Temporal-Channel Modeling in Multi-head Self-Attention for Synthetic Speech Detection ( http://arxiv.org/abs/2406.17376v1 )

ライセンス: Link先を確認
Duc-Tuan Truong, Ruijie Tao, Tuan Nguyen, Hieu-Thi Luong, Kong Aik Lee, Eng Siong Chng, (参考訳) トランスフォーマーモデルを利用した最近の合成音声検出器は畳み込みニューラルネットワークと比較して優れた性能を示した。 この改善は、入力トークンの時間的関係を学習するTransformerモデルにおけるMHSA(Multi-head Self-attention)の強力なモデリング能力による可能性がある。 しかし、合成音声のアーティファクトは周波数チャネルと時間セグメントの両方の特定の領域に配置することができ、MHSAは入力シーケンスの時間チャネル依存性を無視している。 本研究では,MHSAの時間チャネル依存性を捉える能力を高めるため,時間チャネルモデリング(TCM)モジュールを提案する。 ASVspoof 2021の実験結果によると、0.03Mの追加パラメータだけで、TCMモジュールはEERの9.25%で最先端システムを上回っている。 さらにアブレーション研究により、時間的情報とチャネル的情報の両方を利用することで、合成音声の検出において最大の改善がもたらされることが明らかとなった。

Recent synthetic speech detectors leveraging the Transformer model have superior performance compared to the convolutional neural network counterparts. This improvement could be due to the powerful modeling ability of the multi-head self-attention (MHSA) in the Transformer model, which learns the temporal relationship of each input token. However, artifacts of synthetic speech can be located in specific regions of both frequency channels and temporal segments, while MHSA neglects this temporal-channel dependency of the input sequence. In this work, we proposed a Temporal-Channel Modeling (TCM) module to enhance MHSA's capability for capturing temporal-channel dependencies. Experimental results on the ASVspoof 2021 show that with only 0.03M additional parameters, the TCM module can outperform the state-of-the-art system by 9.25% in EER. Further ablation study reveals that utilizing both temporal and channel information yields the most improvement for detecting synthetic speech.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# 多言語LLMを用いた言語間適応への3段階的アプローチ

A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs ( http://arxiv.org/abs/2406.17377v1 )

ライセンス: Link先を確認
Vaibhav Singh, Amrith Krishna, Karthika NJ, Ganesh Ramakrishnan, (参考訳) 低リソース言語は、その定義上、大規模言語モデルの事前学習コーパスで表される傾向にある。 本研究では,LLMが未確認言語でのタスクに適応できる3つの低リソース言語間アプローチについて検討する。 Llama-2 は LLM であり、Indic 言語は、他の多くの言語群の中でも、2兆ドルのトークン事前学習コーパスのうち、0.005 % 以下に貢献している。 本研究では,英語が支配するLlama-2を用いて,ベンガル語,ヒンディー語,タミル語を対象言語とする言語間移動実験を行った。 ICLと微調整の3つの言語間移動法について検討した。 1つは、LLMにおける支配的な言語を介して、追加の監視信号を追加することで、文脈内学習と微調整の両方において改善がもたらされることである。 第二に、ターゲット言語を単語の並べ替えに適応させることは、ICLでは有益であるが、その影響は微調整によって減少する。 最後に、ある低リソース言語における継続的な事前トレーニングは、他の関連する低リソース言語に対するモデルパフォーマンスを改善することができる。

Low-resource languages, by its very definition, tend to be under represented in the pre-training corpora of Large Language Models. In this work, we investigate three low-resource cross-lingual approaches that enable an LLM adapt to tasks in previously unseen languages. Llama-2 is an LLM where Indic languages, among many other language families, contribute to less than $0.005\%$ of the total $2$ trillion token pre-training corpora. In this work, we experiment with the English-dominated Llama-2 for cross-lingual transfer to three Indic languages, Bengali, Hindi, and Tamil as target languages. We study three approaches for cross-lingual transfer, under ICL and fine-tuning. One, we find that adding additional supervisory signals via a dominant language in the LLM, leads to improvements, both under in-context learning and fine-tuning. Two, adapting the target languages to word reordering may be beneficial under ICL, but its impact diminishes with fine tuning. Finally, continued pre-training in one low-resource language can improve model performance for other related low-resource languages.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# LLMのテキスト埋め込みは、キーのトークンと密接な関係にある

A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens ( http://arxiv.org/abs/2406.17378v1 )

ライセンス: Link先を確認
Zhijie Nie, Richong Zhang, Zhanyu Wu, (参考訳) 大規模言語モデル(LLM)からのテキスト埋め込みは,情報検索や意味的テキスト類似性などのタスクにおいて,優れた成果を上げている。 本研究では, 埋め込み LLM にテキストを埋め込むと, 入力テキストのキートークンと整合性を持たせることができる,という興味深い発見を示す。 まず, この現象を 8 つの埋め込み LLM 上で完全に解析し, この現象が普遍的であり, モデルアーキテクチャ, トレーニング戦略, 埋め込み手法の影響を受けないことを示す。 より深い解析により、埋め込み LLM と元の生成 LLM との埋め込み空間の主な変化が第一の主成分であることが分かる。 最初のプリンシパルコンポーネントを調整することで、テキストの埋め込みをキートークンと整列することができます。 最後に,本発見の膨大な応用可能性を示すために,(1) 整列トークンに基づく単純で実用的なスパース検索手法を提案する。(2) ファジィ概念(意味的関連性と意味的類似性)と新興技術(例えば,命令追従埋め込み)を理解する上で,新たな視点を提供することを示す。

Text embeddings from large language models (LLMs) have achieved excellent results in tasks such as information retrieval, semantic textual similarity, etc. In this work, we show an interesting finding: when feeding a text into the embedding LLMs, the obtained text embedding will be able to be aligned with the key tokens in the input text. We first fully analyze this phenomenon on eight embedding LLMs and show that this phenomenon is universal and is not affected by model architecture, training strategy, and embedding method. With a deeper analysis, we then find that the main change in embedding space between the embedding LLMs and their original generative LLMs is in the first principal component. By adjusting the first principal component, we can align text embedding with the key tokens. Finally, we give several examples to demonstrate the vast application potential of this finding: (1) we propose a simple and practical sparse retrieval method based on the aligned tokens, which can achieve 80\% of the dense retrieval effect of the same model while reducing the computation significantly; (2) we show that our findings provide a fresh perspective to help understand fuzzy concepts (e.g., semantic relatedness vs. semantic similarity) and emerging technologies (e.g., instruction-following embedding) in this field.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# Forget but Recall: 継続的学習におけるインクリメンタル潜時整形

Forget but Recall: Incremental Latent Rectification in Continual Learning ( http://arxiv.org/abs/2406.17381v1 )

ライセンス: Link先を確認
Nghia D. Nguyen, Hieu Trung Nguyen, Ang Li, Hoang Pham, Viet Anh Nguyen, Khoa D. Doan, (参考訳) 変化するデータストリームを継続的に学習する本質的な能力は、ディープニューラルネットワーク(DNN)のデシプラタムである。 しかし、現在のDNNは破滅的な忘れ込みに悩まされており、過去の知識を思い出すのを妨げている。 この問題を緩和するために、既存の継続学習(CL)アプローチは、リプレイの模範を維持したり、学習を正規化したり、新しいタスクの専用容量を割り当てたりする。 本稿では,Incrmental Latent Rectification (ILR) と呼ばれる,漸進学習のための未探索CL方向について検討する。 簡単に言えば、ILRは、現在の訓練されたDNNから古いタスクの表現空間へ、予測決定を行うのが簡単になるように、その表現を修正(または修正)することを学ぶ。 この修正プロセスは、整流器ユニットと呼ばれる小さな表現マッピングネットワークの連鎖のみを使用する。 CIFAR10、CIFAR100、Tiny ImageNetなどの連続学習ベンチマークに関する実証実験は、既存の代表CL法と比較して、この新しいCL方向の有効性と可能性を実証している。

Intrinsic capability to continuously learn a changing data stream is a desideratum of deep neural networks (DNNs). However, current DNNs suffer from catastrophic forgetting, which hinders remembering past knowledge. To mitigate this issue, existing Continual Learning (CL) approaches either retain exemplars for replay, regularize learning, or allocate dedicated capacity for new tasks. This paper investigates an unexplored CL direction for incremental learning called Incremental Latent Rectification or ILR. In a nutshell, ILR learns to propagate with correction (or rectify) the representation from the current trained DNN backward to the representation space of the old task, where performing predictive decisions is easier. This rectification process only employs a chain of small representation mapping networks, called rectifier units. Empirical experiments on several continual learning benchmarks, including CIFAR10, CIFAR100, and Tiny ImageNet, demonstrate the effectiveness and potential of this novel CL direction compared to existing representative CL methods.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# ビデオによる幼児の2Dポーズの自動推定:7つのディープニューラルネットワーク手法の比較

Automatic infant 2D pose estimation from videos: comparing seven deep neural network methods ( http://arxiv.org/abs/2406.17382v1 )

ライセンス: Link先を確認
Filipe Gama, Matej Misar, Lukas Navara, Jason Khoury, Sergiu T. Popescu, Matej Hoffmann, (参考訳) 通常のビデオから乳児の姿勢や動きを自動的に計測することは、運動研究の「野生」に大きな可能性をもたらし、運動発達の理解を促進し、障害の早期診断の可能性を大幅に増大させる。 ディープラーニングと機械学習の進歩により,コンピュータビジョンにおける人間のポーズ推定手法が急速に発達している。 しかし、これらの手法は大人を対象とするデータセットに基づいて異なる文脈で訓練されている。 この作業は、乳幼児の体位に関するビデオ(AlphaPose, DeepLabCut/DeeperCut, Detectron2, HRNet, MediaPipe/BlazePose, OpenPose, ViTPose)をテストし、比較する。 驚いたことに、DeepLabCutとMediaPipeを除くすべてのメソッドは、さらなる微調整なしで競争性能を保ち、ViTPoseは最高性能である。 標準性能指標(鍵点類似度,平均精度,リコール)に次いで,首中ヒップ比で表される誤差を導入し,誤り検出と冗長検出と,下流タスクに関連する各手法の内部信頼度評価の信頼性について検討する。 競争力のあるネットワークの中では、マシン上でリアルタイム(27fps)に動作できるのはAlphaPoseのみでした。 使用したすべてのメソッド、分析スクリプト、および処理されたデータは、https://hub.docker.com/u/ Humanoidsctuとhttps://osf.io/x465b/でドキュメント化されたDockerコンテナや命令を提供します。

Automatic markerless estimation of infant posture and motion from ordinary videos carries great potential for movement studies "in the wild", facilitating understanding of motor development and massively increasing the chances of early diagnosis of disorders. There is rapid development of human pose estimation methods in computer vision thanks to advances in deep learning and machine learning. However, these methods are trained on datasets featuring adults in different contexts. This work tests and compares seven popular methods (AlphaPose, DeepLabCut/DeeperCut, Detectron2, HRNet, MediaPipe/BlazePose, OpenPose, and ViTPose) on videos of infants in supine position. Surprisingly, all methods except DeepLabCut and MediaPipe have competitive performance without additional finetuning, with ViTPose performing best. Next to standard performance metrics (object keypoint similarity, average precision and recall), we introduce errors expressed in the neck-mid-hip ratio and additionally study missed and redundant detections and the reliability of the internal confidence ratings of the different methods, which are relevant for downstream tasks. Among the networks with competitive performance, only AlphaPose could run close to real time (27 fps) on our machine. We provide documented Docker containers or instructions for all the methods we used, our analysis scripts, and processed data at https://hub.docker.com/u/humanoidsctu and https://osf.io/x465b/.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# QAOA-in-QAOAを用いたMaxCutのハイブリッド古典量子シミュレーション

Hybrid Classical-Quantum Simulation of MaxCut using QAOA-in-QAOA ( http://arxiv.org/abs/2406.17383v1 )

ライセンス: Link先を確認
Aniello Esposito, Tamuz Danzig, (参考訳) 量子近似最適化アルゴリズム(QAOA)は、複雑な組合せ最適化問題の解法である。 QAOA-in-QAOA (QAOA^2) は、多くのサブグラフ問題を並列に解くことができる大規模最大カット(MaxCut)問題を解くために、分割とコンカリストのヒューリスティックを使用する。 そこで本研究では,Classiq プラットフォームに基づく MaxCut 問題のスケーラブルな解に対する QAOA2 法の実装について述べる。 このフレームワークは、MPI(Message Passing Interface)とSLURMのワークロードマネージャを用いて、HPE-Cray EXスーパーコンピュータ上で実行される。 QAOA^2が古典的な部分グラフを解く利点があるかどうかを理解するために、QAOAの純粋に古典的な代替品としてのゴーマン・ウィリアムソン(GW)アルゴリズムの限界について検討した。 最大33量子ビットの大規模シミュレーションの結果は、特定のケースにおけるQAOAの利点と実装の効率、および実際の量子デバイスの準備におけるワークフローの妥当性を示す。 検討されたグラフに対して、サブグラフの最良の選択は、結果を著しく改善するものではなく、GWよりも優れています。

The Quantum approximate optimization algorithm (QAOA) is a leading hybrid classical-quantum algorithm for solving complex combinatorial optimization problems. QAOA-in-QAOA (QAOA^2) uses a divide-and-conquer heuristic to solve large-scale Maximum Cut (MaxCut) problems, where many subgraph problems can be solved in parallel. In this work, an implementation of the QAOA2 method for the scalable solution of the MaxCut problem is presented, based on the Classiq platform. The framework is executed on an HPE-Cray EX supercomputer by means of the Message Passing Interface (MPI) and the SLURM workload manager. The limits of the Goemans-Williamson (GW) algorithm as a purely classical alternative to QAOA are investigated to understand if QAOA^2 could benefit from solving certain sub-graphs classically. Results from large-scale simulations of up to 33 qubits are presented, showing the advantage of QAOA in certain cases and the efficiency of the implementation, as well as the adequacy of the workflow in the preparation of real quantum devices. For the considered graphs, the best choice for the sub-graphs does not significantly improve results and is still outperformed by GW.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# ネイティブデザインバイアス:英語のネイティブ性が言語モデルのパフォーマンスに与える影響についての研究

Native Design Bias: Studying the Impact of English Nativeness on Language Model Performance ( http://arxiv.org/abs/2406.17385v1 )

ライセンス: Link先を確認
Manon Reusens, Philipp Borchert, Jochen De Weerdt, Bart Baesens, (参考訳) 大規模言語モデル(LLM)は、大規模コーパスの事前訓練とユーザプロンプトによる指示に従う際に得られる情報を提供する。 本研究では,LLM応答の質がユーザの人口分布によって異なるかを検討する。 英語をグローバル言語として考えると、異なる母国語話者の方言の多様性とともに、非母国英語話者がLLMからより低い品質または実際的誤りの反応を受けるかどうかを探索する。 この結果から,LLMが母国英語話者と母国英語話者から誘導され,母国英語話者と他国の母国英語話者を比較した場合に,性能の相違が生じていることが示唆された。 さらに,モデルがユーザのネイティブ性を認識あるいは認識した場合のアンカー効果も強く,非ネイティブ話者との対話時の応答品質をさらに低下させる。 我々の分析は、124のアノテーションから12,000以上のユニークなアノテーションが得られた、新たに収集されたデータセットに基づいており、母国語と英語の習熟度に関する情報を含んでいる。

Large Language Models (LLMs) excel at providing information acquired during pretraining on large-scale corpora and following instructions through user prompts. This study investigates whether the quality of LLM responses varies depending on the demographic profile of users. Considering English as the global lingua franca, along with the diversity of its dialects among speakers of different native languages, we explore whether non-native English speakers receive lower-quality or even factually incorrect responses from LLMs more frequently. Our results show that performance discrepancies occur when LLMs are prompted by native versus non-native English speakers and persist when comparing native speakers from Western countries with others. Additionally, we find a strong anchoring effect when the model recognizes or is made aware of the user's nativeness, which further degrades the response quality when interacting with non-native speakers. Our analysis is based on a newly collected dataset with over 12,000 unique annotations from 124 annotators, including information on their native language and English proficiency.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# 低レベル制約二レベル最適化のための二重モーメント法

Double Momentum Method for Lower-Level Constrained Bilevel Optimization ( http://arxiv.org/abs/2406.17386v1 )

ライセンス: Link先を確認
Wanli Shi, Yi Chang, Bin Gu, (参考訳) 双レベル最適化(BO)は、最近、これらの問題に固有のネスト構造をキャプチャできるため、多くの機械学習アプリケーションで注目されている。 近年,大規模問題の解法として多くの超勾配法が提案されている。 しかしながら、LCBO問題に対する現在の過次的手法は、最適条件が微分可能性および可逆性条件を満たし、収束率のしっかりとした解析が欠如している場合に、非常に制限的な仮定を必要とする。 さらに悪いことに、既存のメソッドではダブルループの更新が必要です。 そこで本研究では,再帰的仮定を使わずに,非滑らかな暗黙的関数定理(nonsmooth implicit function theorem)の理論を活用するLCBOの新しい過次関数を提案する。 さらに,double-momentum法とAdaptive Step size法を併用した \textit{single-loop single-timescale} アルゴリズムを提案し,$(\delta, \epsilon)$-stationary point with $\tilde{\mathcal{O}}(d_2^2\epsilon^{-4})$ iterations を返却できることを証明した。 提案手法の有効性を示す2つの応用実験を行った。

Bilevel optimization (BO) has recently gained prominence in many machine learning applications due to its ability to capture the nested structure inherent in these problems. Recently, many hypergradient methods have been proposed as effective solutions for solving large-scale problems. However, current hypergradient methods for the lower-level constrained bilevel optimization (LCBO) problems need very restrictive assumptions, namely, where optimality conditions satisfy the differentiability and invertibility conditions and lack a solid analysis of the convergence rate. What's worse, existing methods require either double-loop updates, which are sometimes less efficient. To solve this problem, in this paper, we propose a new hypergradient of LCBO leveraging the theory of nonsmooth implicit function theorem instead of using the restrive assumptions. In addition, we propose a \textit{single-loop single-timescale} algorithm based on the double-momentum method and adaptive step size method and prove it can return a $(\delta, \epsilon)$-stationary point with $\tilde{\mathcal{O}}(d_2^2\epsilon^{-4})$ iterations. Experiments on two applications demonstrate the effectiveness of our proposed method.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# SyncNoise:テキストベースの3Dシーン編集のための幾何学的に一貫性のあるノイズ予測

SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing ( http://arxiv.org/abs/2406.17396v1 )

ライセンス: Link先を確認
Ruihuang Li, Liyi Chen, Zhengqiang Zhang, Varun Jampani, Vishal M. Patel, Lei Zhang, (参考訳) テキストベースの2次元拡散モデルは、画像生成と編集において印象的な能力を示した。 一方、2D拡散モデルでは、3D編集タスクにも大きな可能性を秘めている。 しかし、複数の視点で一貫した編集を実現する方法は依然として課題である。 反復的データセット更新法は、グローバルな一貫性を達成することができるが、収束が遅く、過度に滑らかなテクスチャに悩まされる。 高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。 SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、多視点ノイズ予測を幾何的に一貫させ、セマンティック構造と低周波外観の両方で大域的な一貫性を確保する。 高周波の細部における局所的な一貫性をさらに高めるため、我々はアンカービューのグループを設定し、それらをクロスビュー・リジェクションを通じて近隣のフレームに伝播させた。 マルチビュー対応の信頼性を向上させるため,訓練中の深度監視を導入し,精密な測地線を復元する。 本手法は,特に複雑なテクスチャを持つシーンにおいて,ノイズや画素レベルの幾何的整合性を高めることにより,テキストの指示に配慮した高品質な3D編集結果を実現する。

Text-based 2D diffusion models have demonstrated impressive capabilities in image generation and editing. Meanwhile, the 2D diffusion models also exhibit substantial potentials for 3D editing tasks. However, how to achieve consistent edits across multiple viewpoints remains a challenge. While the iterative dataset update method is capable of achieving global consistency, it suffers from slow convergence and over-smoothed textures. We propose SyncNoise, a novel geometry-guided multi-view consistent noise editing approach for high-fidelity 3D scene editing. SyncNoise synchronously edits multiple views with 2D diffusion models while enforcing multi-view noise predictions to be geometrically consistent, which ensures global consistency in both semantic structure and low-frequency appearance. To further enhance local consistency in high-frequency details, we set a group of anchor views and propagate them to their neighboring frames through cross-view reprojection. To improve the reliability of multi-view correspondences, we introduce depth supervision during training to enhance the reconstruction of precise geometries. Our method achieves high-quality 3D editing results respecting the textual instructions, especially in scenes with complex textures, by enhancing geometric consistency at the noise and pixel levels.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# GradCheck: 条件拡散サンプリングのための分類器ガイダンス勾配の解析

GradCheck: Analyzing classifier guidance gradients for conditional diffusion sampling ( http://arxiv.org/abs/2406.17399v1 )

ライセンス: Link先を確認
Philipp Vaeth, Alexander M. Fruehwald, Benjamin Paassen, Magda Gregorova, (参考訳) 非条件で訓練されたDenoising Diffusion Probabilistic Model (DDPM) からサンプリングするために、分類器誘導はサンプリング中に条件情報を追加するが、分類器からの勾配、特にノイズの多い画像で訓練されていないものはしばしば不安定である。 本研究では、ロバストな分類器と非ロバストな分類器を比較した勾配解析を行い、複数の勾配安定化手法について検討した。 実験により,これらの手法はより安定かつ情報的分類器誘導勾配を提供することにより,非ロバスト分類器のクラス条件サンプルの品質を著しく向上させることが示された。 この結果は,特に非ロバスト分類器における分類器誘導性能の向上における勾配安定性の重要性を浮き彫りにした。

To sample from an unconditionally trained Denoising Diffusion Probabilistic Model (DDPM), classifier guidance adds conditional information during sampling, but the gradients from classifiers, especially those not trained on noisy images, are often unstable. This study conducts a gradient analysis comparing robust and non-robust classifiers, as well as multiple gradient stabilization techniques. Experimental results demonstrate that these techniques significantly improve the quality of class-conditional samples for non-robust classifiers by providing more stable and informative classifier guidance gradients. The findings highlight the importance of gradient stability in enhancing the performance of classifier guidance, especially on non-robust classifiers.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# 量子重力磁気相互作用

Quantum gravitomagnetic interaction ( http://arxiv.org/abs/2406.17402v1 )

ライセンス: Link先を確認
Di Hao, Jiawei Hu, Hongwei Yu, (参考訳) 線形化量子重力の枠組みにおいて、真空中における重力場の変化によって誘導される2つの非点状物体間の量子重力相互作用について検討する。 我々は、以前に研究された重力電場の変化によって引き起こされる量子重力相互作用に加えて、量子重力磁気相互作用が存在することを発見した。 この相互作用は、変動する重力磁場によって誘導される非点状物体中の瞬時局所化質量電流間の相互作用に由来する。 4階摂動理論を用いて量子重力磁気相互作用エネルギーの明示的な形式を導出し、近接状態における$r^{-10}$依存と遠方状態における$r^{-11}$依存を示す。 この相互作用エネルギーは、物体の重力電磁偏光性が大きいときに重要であると期待されている。

In the framework of linearized quantum gravity, we study the quantum gravitational interaction between two nonpointlike objects induced by fluctuating gravitomagnetic fields in vacuum. We find that, in addition to the quantum gravitational interaction induced by fluctuating gravitoelectric fields previously studied, there exists a quantum gravitomagnetic interaction. This interaction originates from the interaction between the instantaneous localized mass currents in nonpointlike objects induced by the fluctuating gravitomagnetic fields. Using fourth-order perturbation theory, we derive the explicit form of the quantum gravitomagnetic interaction energy, which shows an $r^{-10}$ dependence in the near regime and an $r^{-11}$ dependence in the far regime, where $r$ is the distance between the two objects. This interaction energy is expected to be significant when the gravitomagnetic polarizability of the objects is large.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# make some noise: Unlocking Language Model Parallel Inference Capability through Noisy Training (英語)

Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training ( http://arxiv.org/abs/2406.17404v1 )

ライセンス: Link先を確認
Yixuan Wang, Xianzhen Luo, Fuxuan Wei, Yijun Liu, Qingfu Zhu, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che, (参考訳) 既存の投機的復号法は、通常、ドラフトトークン生成のモデルを支援するために追加のモデル構造とトレーニングプロセスを必要とする。 これにより、アクセラレーションメソッドの新たなモデルへの移行は、デバイスメモリのコストと要求がより高くなる。 この問題に対処するために,大規模言語モデルの教師付き微調整段階の代替として,Make Some Noise (MSN) トレーニングフレームワークを提案する。 トレーニング方法は、単にモデルの入力にいくつかのノイズを導入して、認知タスクを学習する。 これは、オリジナルのタスク能力に影響を与えることなく、モデルの並列デコーディング能力を著しく向上させる。 さらに,MSNモデルの推論速度をさらに向上するために,木に基づく検索拡張Jacobiデコード戦略を提案する。 一般領域とコード領域の両方の実験では、MSNはモデル性能を損なうことなく2.3-2.7倍の速度で推論できることを示した。 MSNモデルは、Spec-Bench上の追加モデル構造を持つSOTAモデルに匹敵する加速比も達成している。

Existing speculative decoding methods typically require additional model structure and training processes to assist the model for draft token generation. This makes the migration of acceleration methods to the new model more costly and more demanding on device memory. To address this problem, we propose the Make Some Noise (MSN) training framework as a replacement for the supervised fine-tuning stage of the large language model. The training method simply introduces some noise at the input for the model to learn the denoising task. It significantly enhances the parallel decoding capability of the model without affecting the original task capability. In addition, we propose a tree-based retrieval-augmented Jacobi (TR-Jacobi) decoding strategy to further improve the inference speed of MSN models. Experiments in both the general and code domains have shown that MSN can improve inference speed by 2.3-2.7x times without compromising model performance. The MSN model also achieves comparable acceleration ratios to the SOTA model with additional model structure on Spec-Bench.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# 表情認識における表現的差とステレオタイプ性差

Less can be more: representational vs. stereotypical gender bias in facial expression recognition ( http://arxiv.org/abs/2406.17405v1 )

ライセンス: Link先を確認
Iris Dominguez-Catena, Daniel Paternain, Aranzazu Jurio, Mikel Galar, (参考訳) 機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。 これは特に、基礎モデルのトレーニングに大規模で教師なしのデータセットの使用の増加に関連している。 伝統的に、これらのデータセット内の人口統計バイアスは十分に理解されておらず、モデル自体にどのように伝播するかを理解する能力を制限する。 そこで本研究では,データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。 ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。 本分析では,最も一般的なデータセットに偏りを示す領域である表情認識(FER)の領域について考察する。 我々は、表現バイアスとステレオタイプバイアスの両方の異なる強度を含むサブセットを慎重に設計し、生成するためのベースラインとして、最大のFERデータセットの1つであるAffectnetを使用します。 その後、これらの偏りのある部分集合上で複数のモデルを訓練し、それらの性能を共通のテストセットで評価し、モデルの予測への偏りの伝播を評価する。 以上の結果から,表現バイアスが予想よりも弱いことが示唆された。 モデルは、トレーニングデータセットに1つの性別が存在しない場合でも、優れた一般化能力を示す。 逆に、ステレオタイプバイアスは、主に偏見のあるクラスに集中するが、偏見のないクラスの予測にも影響を及ぼす。 これらの結果は、効果的なバイアス緩和戦略の開発に不可欠であるバイアスの種類を区別するバイアス分析の必要性を強調している。

Machine learning models can inherit biases from their training data, leading to discriminatory or inaccurate predictions. This is particularly concerning with the increasing use of large, unsupervised datasets for training foundational models. Traditionally, demographic biases within these datasets have not been well-understood, limiting our ability to understand how they propagate to the models themselves. To address this issue, this paper investigates the propagation of demographic biases from datasets into machine learning models. We focus on the gender demographic component, analyzing two types of bias: representational and stereotypical. For our analysis, we consider the domain of facial expression recognition (FER), a field known to exhibit biases in most popular datasets. We use Affectnet, one of the largest FER datasets, as our baseline for carefully designing and generating subsets that incorporate varying strengths of both representational and stereotypical bias. Subsequently, we train several models on these biased subsets, evaluating their performance on a common test set to assess the propagation of bias into the models' predictions. Our results show that representational bias has a weaker impact than expected. Models exhibit a good generalization ability even in the absence of one gender in the training dataset. Conversely, stereotypical bias has a significantly stronger impact, primarily concentrated on the biased class, although it can also influence predictions for unbiased classes. These results highlight the need for a bias analysis that differentiates between types of bias, which is crucial for the development of effective bias mitigation strategies.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# 2次非線形性を有する三導波路結合器における非古典光

Nonclassical Light in a Three-Waveguide Coupler with Second-Order Nonlinearity ( http://arxiv.org/abs/2406.17407v1 )

ライセンス: Link先を確認
Mohd Syafiq M. Hanapi, Abdel-Baset M. A. Ibrahim, Rafael Julius, Pankaj K. Choudhury, Hichem Eleuch, (参考訳) 第2高調波発生で動作する3波長導波路非線形カプラで発生する可能性のある圧縮状態について論じる。 本研究は相空間法(正のP表現に基づく)とハイゼンベルク法に基づく解析摂動法という,よく知られた2つの手法を用いて実施する。 鍵設計パラメータの効果は, 双方向と対向伝搬の両方に対して解析される。 可能な最適のスクイーズ度を同定する。 また、両手法の性能と能力についても批判的に評価する。 鍵設計パラメータの低いレベルと進化の初期段階では、この2つの方法の高レベルの一致が注目される。 量子ベース技術の新たな時代において、提案システムは非線形カプラを非古典的光発生に活用するための新たな道を開く。

Possible squeezed states generated in a three-waveguide nonlinear coupler operating with second harmonic generation is discussed. This study is carried out using two well-known techniques; the phase space method (based on positive P-representation) and the Heisenberg-based analytical perturbative method. The effect of the key design parameters is analyzed for both codirectional and contra-directional propagation. The optimal degree of feasible squeezing is identified. Also, the performance and capacities of both methods are critically evaluated. For low levels of key design parameters and in the early stages of evolution, a high level of agreement between the two methods is noticed. In the new era of quantum-based technology, the proposed system opens a new avenue for utilising nonlinear couplers in nonclassical light generation.
翻訳日:2024-06-26 15:01:42 公開日:2024-06-25
# 深さ誘導半監督型インスタンスセグメンテーション

Depth-Guided Semi-Supervised Instance Segmentation ( http://arxiv.org/abs/2406.17413v1 )

ライセンス: Link先を確認
Xin Chen, Jie Hu, Xiawu Zheng, Jianghang Lin, Liujuan Cao, Rongrong Ji, (参考訳) Semi-Supervised Instance Segmentation (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。 従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。 しかし、そのようなメカニズムは不安定なノイズを引き起こすことが多く、単一のインスタンスは複数のRGB値を表示することができる。 この制限を克服するために、DG(Depth-Guided) SSISフレームワークを導入します。 このフレームワークでは、入力画像から抽出された深度マップを使用して、密接に関連する距離値を持つ個々のインスタンスを表現し、異なるインスタンスに対して正確な輪郭を提供する。 RGBデータとは異なり、深度マップは独自の視点を提供し、SSISプロセスに統合する。 そこで本研究では,深度推定から抽出した特徴を統合したDepth Feature Fusionを提案する。 この統合により、モデルは深度情報をよりよく理解し、その有効利用を確実にすることができる。 さらに、トレーニング中の深度画像のばらつきを管理するために、Depth Controllerを導入する。 このコンポーネントは、深度マップの適応的な調整、収束速度の向上、RGBと深度マップ間の損失重みの動的バランスを可能にする。 COCOおよびCityscapesデータセットで実施した大規模な実験により,提案手法の有効性が検証された。 我々の手法はSSISの新しいベンチマークを確立し、従来の手法より優れている。 特に、当社のDGは、COCOデータセットのラベル付きデータそれぞれ1%、5%、10%で22.29%、31.47%、35.14%のmAPを達成した。

Semi-Supervised Instance Segmentation (SSIS) aims to leverage an amount of unlabeled data during training. Previous frameworks primarily utilized the RGB information of unlabeled images to generate pseudo-labels. However, such a mechanism often introduces unstable noise, as a single instance can display multiple RGB values. To overcome this limitation, we introduce a Depth-Guided (DG) SSIS framework. This framework uses depth maps extracted from input images, which represent individual instances with closely associated distance values, offering precise contours for distinct instances. Unlike RGB data, depth maps provide a unique perspective, making their integration into the SSIS process complex. To this end, we propose Depth Feature Fusion, which integrates features extracted from depth estimation. This integration allows the model to understand depth information better and ensure its effective utilization. Additionally, to manage the variability of depth images during training, we introduce the Depth Controller. This component enables adaptive adjustments of the depth map, enhancing convergence speed and dynamically balancing the loss weights between RGB and depth maps. Extensive experiments conducted on the COCO and Cityscapes datasets validate the efficacy of our proposed method. Our approach establishes a new benchmark for SSIS, outperforming previous methods. Specifically, our DG achieves 22.29%, 31.47%, and 35.14% mAP for 1%, 5%, and 10% labeled data on the COCO dataset, respectively.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 基本行列推定のための深部集合を用いたコンセンサス学習

Consensus Learning with Deep Sets for Essential Matrix Estimation ( http://arxiv.org/abs/2406.17414v1 )

ライセンス: Link先を確認
Dror Moran, Yuval Margalit, Guy Trostianetsky, Fadi Khatib, Meirav Galun, Ronen Basri, (参考訳) 2台のカメラの相対的な位置と向きを符号化する必須行列のロバストな推定は、運動パイプラインの構造における基本的なステップである。 最近のディープベース手法は、グラフ、アテンション層、ハードプルーニングステップを含む複雑なネットワークアーキテクチャを用いて正確な推定を実現している。 本稿では,Deep Setsに基づくよりシンプルなネットワークアーキテクチャを提案する。 2つの画像から抽出した点一致の集合から,不整点一致を同定し,不整点一致の変位雑音をモデル化する。 重み付きDLTモジュールはこれらの予測を使って必須行列を回帰する。 我々のネットワークは、より複雑なアーキテクチャを持つ既存のネットワークよりも優れている正確なリカバリを実現する。

Robust estimation of the essential matrix, which encodes the relative position and orientation of two cameras, is a fundamental step in structure from motion pipelines. Recent deep-based methods achieved accurate estimation by using complex network architectures that involve graphs, attention layers, and hard pruning steps. Here, we propose a simpler network architecture based on Deep Sets. Given a collection of point matches extracted from two images, our method identifies outlier point matches and models the displacement noise in inlier matches. A weighted DLT module uses these predictions to regress the essential matrix. Our network achieves accurate recovery that is superior to existing networks with significantly more complex architectures.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 可変層幅量子化: LLMの単純かつ効果的な量子化手法

Variable Layer-Wise Quantization: A Simple and Effective Approach to Quantize LLMs ( http://arxiv.org/abs/2406.17415v1 )

ライセンス: Link先を確認
Razvan-Gabriel Dumitru, Vikas Yadav, Rishabh Maheshwary, Paul-Ioan Clotan, Sathwik Tejaswi Madhusudhan, Mihai Surdeanu, (参考訳) 本稿では,大規模言語モデル(LLM)の異なる層を異なるビットレベルで定量化する,シンプルな変数量子化手法を提案する。 具体的には、浮動小数点量子化レベルを達成するために、最も重要な層を高いビット精度に量子化し、より重要でない層を低いビットに量子化する。 LLM内の層の重要性を測定するための効果的な方法として,第1に,出力埋め込みと入力埋め込みとの違い(より高い)に基づいて,レイヤの重要性を測定する。 重要度に応じて異なる層を異なるビットで定量化すると、より圧縮されたモデルサイズで性能低下が最小となることを示す。 最後に、可変層ワイド量子化実験から得られたいくつかの実用的な重要な点について述べる。 (a) 可変量子化下のLLM性能は,提案した順序付けを用いて25~50%の層を低い量子化で移動させるまで原モデルに近いが,特定の順序付けを使わずに移動した場合は5~10%に留まる。 b)LLMを低ビットに量子化することは、極端量子化(2ビット)を使用しない限り、プルーニングよりも大幅に向上する。 (c)低ビットに対する層ワイド量子化は、より少ない層を持つ小さなLLMに比べて、より多くの層を持つ大きなLLMの場合より有効である。 実験に使用されたコードは、https://github.com/RazvanDu/LayerwiseQuant.comで公開されている。

We present a simple variable quantization approach that quantizes different layers of a large language model (LLM) at different bit levels. Specifically, we quantize the most important layers to higher bit precision and less important layers to lower bits to achieve floating point quantization levels. We propose two effective strategies to measure the importance of layers within LLMs: the first measures the importance of a layer based on how different its output embeddings are from the input embeddings (the higher the better); the second estimates the importance of a layer using the number of layer weights that are much larger than average (the smaller the better). We show that quantizing different layers at varying bits according to our importance scores results in minimal performance drop with a far more compressed model size. Finally, we present several practical key takeaways from our variable layer-wise quantization experiments: (a) LLM performance under variable quantization remains close to the original model until 25-50% of layers are moved in lower quantization using our proposed ordering but only until 5-10% if moved using no specific ordering; (b) Quantizing LLMs to lower bits performs substantially better than pruning unless extreme quantization (2-bit) is used; and (c) Layer-wise quantization to lower bits works better in the case of larger LLMs with more layers compared to smaller LLMs with fewer layers. The code used to run the experiments is available at: https://github.com/RazvanDu/LayerwiseQuant.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# SE-VGAE:解釈可能なアーキテクチャレイアウト設計グラフ生成のための教師なしアンタングル表現学習

SE-VGAE: Unsupervised Disentangled Representation Learning for Interpretable Architectural Layout Design Graph Generation ( http://arxiv.org/abs/2406.17418v1 )

ライセンス: Link先を確認
Jielin Chen, Rudi Stouffs, (参考訳) アーキテクチャレイアウト設計に固有の関係構造を捉えるためのグラフの適合性にもかかわらず、グラフに基づく表現学習とアーキテクチャ設計グラフ生成の探索によるアーキテクチャ設計空間の解釈に関する研究は注目に値する。 同時に、グラフ生成における不整合表現学習は、ノード置換不変性や表現表現性といった課題に直面している。 これらの課題に対処するために,非教師付き非教師付き非教師付き非教師付き表現学習フレームワークであるスタイルベースエッジ拡張変分グラフオートエンコーダ(SE-VGAE)を導入する。 このフレームワークは3つの代替パイプラインで設計されており、それぞれがトランスフォーマーベースのエッジ拡張エンコーダ、潜在空間のアンタングルモジュール、スタイルベースのデコーダを統合している。 これらのコンポーネントは、アーキテクチャレイアウトグラフ生成に影響を及ぼす潜在因子の分解を促進し、生成の忠実度と多様性を高める。 また、グラフ特徴拡張スキームを体系的に探索し、広範囲な実験を通してアーキテクチャレイアウト表現をアンタングする上での有効性を評価することにより、フレームワークの最適化に関する洞察を提供する。 さらに,実際のフロアプラン画像から抽出した大規模アーキテクチャレイアウトグラフデータセットのベンチマークを提供し,グラフデータに基づくアーキテクチャ設計表現空間の解釈を容易にする。 本研究はアーキテクチャレイアウトグラフ生成のための非絡み合い表現学習の先駆者である。 この研究のコードとデータセットはオープンソースになる予定だ。

Despite the suitability of graphs for capturing the relational structures inherent in architectural layout designs, there is a notable dearth of research on interpreting architectural design space using graph-based representation learning and exploring architectural design graph generation. Concurrently, disentangled representation learning in graph generation faces challenges such as node permutation invariance and representation expressiveness. To address these challenges, we introduce an unsupervised disentangled representation learning framework, Style-based Edge-augmented Variational Graph Auto-Encoder (SE-VGAE), aiming to generate architectural layout in the form of attributed adjacency multi-graphs while prioritizing representation disentanglement. The framework is designed with three alternative pipelines, each integrating a transformer-based edge-augmented encoder, a latent space disentanglement module, and a style-based decoder. These components collectively facilitate the decomposition of latent factors influencing architectural layout graph generation, enhancing generation fidelity and diversity. We also provide insights into optimizing the framework by systematically exploring graph feature augmentation schemes and evaluating their effectiveness for disentangling architectural layout representation through extensive experiments. Additionally, we contribute a new benchmark large-scale architectural layout graph dataset extracted from real-world floor plan images to facilitate the exploration of graph data-based architectural design representation space interpretation. This study pioneered disentangled representation learning for the architectural layout graph generation. The code and dataset of this study will be open-sourced.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 文書の背後には残らない - 拡張マルチドキュメントQAによる長期 LLM のベンチマーク

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA ( http://arxiv.org/abs/2406.17419v1 )

ライセンス: Link先を確認
Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li, (参考訳) 長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。 一方、長文LLMの評価のためのベンチマークは徐々に追いつきつつある。 しかし、既存のベンチマークでは、テストケースの長さを人工的に拡張するために無関係なノイズテキストを使用しており、ロングコンテキストアプリケーションの現実のシナリオから逸脱している。 このギャップを埋めるために,拡張多文書質問応答(QA)を通じて現実的なシナリオに整合する,新しい長文ベンチマークであるLoongを提案する。 通常の文書 QA とは異なり、Loong のテストケースでは、各文書は最終回答に関連しており、どんな文書も無視すると答えの失敗につながる。 さらに、Long氏は、より現実的で包括的なロングコンテキスト理解の評価を促進するために、スポットライトの配置、比較、クラスタリング、および推論の連鎖の4種類のタスクを導入している。 大規模な実験は、既存の長文言語モデルが拡張の可能性を秘めていることを示している。 Retrieval augmented generation(RAG)は低パフォーマンスを実現し、Loongがモデルの長期コンテキストモデリング能力を確実に評価できることを実証する。

Long-context modeling capabilities have garnered widespread attention, leading to the emergence of Large Language Models (LLMs) with ultra-context windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually catching up. However, existing benchmarks employ irrelevant noise texts to artificially extend the length of test cases, diverging from the real-world scenarios of long-context applications. To bridge this gap, we propose a novel long-context benchmark, Loong, aligning with realistic scenarios through extended multi-document question answering (QA). Unlike typical document QA, in Loong's test cases, each document is relevant to the final answer, ignoring any document will lead to the failure of the answer. Furthermore, Loong introduces four types of tasks with a range of context lengths: Spotlight Locating, Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic and comprehensive evaluation of long-context understanding. Extensive experiments indicate that existing long-context language models still exhibit considerable potential for enhancement. Retrieval augmented generation (RAG) achieves poor performance, demonstrating that Loong can reliably assess the model's long-context modeling capabilities.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 無線接続性制限によるVRによるリアルタイム遠隔制御

Real-Time Remote Control via VR over Limited Wireless Connectivity ( http://arxiv.org/abs/2406.17420v1 )

ライセンス: Link先を確認
H. P. Madushanka, Rafaela Scaciota, Sumudu Samarakoon, Mehdi Bennis, (参考訳) この研究は、限られた無線接続上での人間とロボットの相互作用を強化するソリューションを導入している。 目標は、バーチャルリアリティー(VR)インターフェースを通じてロボットを遠隔操作することで、接続が失われる場合に、スムーズな自律モードへの移行を保証することだ。 VRインターフェースは動的3D仮想マップへのアクセスを提供し、セロボットが収集し送信するリアルタイムセンサーデータを継続的に更新する。 さらに、ロボットはワイヤレス接続を監視し、接続が制限されたシナリオで自動的に自律モードに切り替える。 リアルタイムマッピング、メガネによるリモートコントロール、無線接続の継続的な監視、接続制限時の自律ナビゲーションの4つの重要な機能を統合することで、シームレスなエンドツーエンド操作を実現しています。

This work introduces a solution to enhance human-robot interaction over limited wireless connectivity. The goal is toenable remote control of a robot through a virtual reality (VR)interface, ensuring a smooth transition to autonomous mode in the event of connectivity loss. The VR interface provides accessto a dynamic 3D virtual map that undergoes continuous updatesusing real-time sensor data collected and transmitted by therobot. Furthermore, the robot monitors wireless connectivity and automatically switches to a autonomous mode in scenarios with limited connectivity. By integrating four key functionalities: real-time mapping, remote control through glasses VR, continuous monitoring of wireless connectivity, and autonomous navigation during limited connectivity, we achieve seamless end-to-end operation.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 臨床放射線治療CTを用いた深層学習に基づく脳分割モデルの性能評価

Deep learning-based brain segmentation model performance validation with clinical radiotherapy CT ( http://arxiv.org/abs/2406.17423v1 )

ライセンス: Link先を確認
Selena Huisman, Matteo Maspero, Marielle Philippens, Joost Verhoeff, Szabolcs David, (参考訳) 医療画像のマニュアルセグメンテーションは労働集約的であり、コントラストや解像度の低い画像では特に困難である。 病気の存在はさらに悪化し、自動化された解決策の必要性が増す。 この点において、SynthSegは様々なコントラストと解像度を横断する自動脳セグメント化のために設計された堅牢なディープラーニングモデルである。 本研究では,マルチセンター・データセットを用いて,CT(Computed tomography)を用いたSynthSegのロバスト脳分割モデルを検証する。 5施設で治療した放射線治療患者の260対CTとMRIのオープンアクセスデータセットを収集した。 The Freesurfer Imaging SuiteのコンポーネントであるSynthSegモデルを用いて、CTとMRIから脳のセグメンテーションを得た。 これらのセグメンテーションをDiceスコアとHausdorff 95 距離 (HD95) を用いて比較評価し,MRIに基づくセグメンテーションを基礎的真理として扱った。 パフォーマンス基準を満たしなかった脳領域は、自動品質管理(QC)スコアに基づいて除外された。 ディススコアは0.76(IQR: 0.65-0.83)の平均的なオーバーラップを示している。 HD95の中央値は2.95mm(IQR: 1.73-5.39)である。 QCスコアベースの閾値付けは、中央値のダイスを0.1、中央値のHD95を0.05mm改善する。 また, 性別と年齢に関する形態的差異もCTで再現され, 性別とMRIでは約17%, 年齢では10%の差がみられた。 SynthSegはCTベースの自動脳セグメンテーションに利用できるが、精度が必須でないアプリケーションに限られる。 総合的なQCスコアに基づいてCTの性能はMRIより低いが,QCベースの閾値設定では低品質なセグメンテーションを除外できる。 また, 性別と年齢の相関がMRIと類似していることから, CTによる神経解剖学的研究が推奨されている。

Manual segmentation of medical images is labor intensive and especially challenging for images with poor contrast or resolution. The presence of disease exacerbates this further, increasing the need for an automated solution. To this extent, SynthSeg is a robust deep learning model designed for automatic brain segmentation across various contrasts and resolutions. This study validates the SynthSeg robust brain segmentation model on computed tomography (CT), using a multi-center dataset. An open access dataset of 260 paired CT and magnetic resonance imaging (MRI) from radiotherapy patients treated in 5 centers was collected. Brain segmentations from CT and MRI were obtained with SynthSeg model, a component of the Freesurfer imaging suite. These segmentations were compared and evaluated using Dice scores and Hausdorff 95 distance (HD95), treating MRI-based segmentations as the ground truth. Brain regions that failed to meet performance criteria were excluded based on automated quality control (QC) scores. Dice scores indicate a median overlap of 0.76 (IQR: 0.65-0.83). The median HD95 is 2.95 mm (IQR: 1.73-5.39). QC score based thresholding improves median dice by 0.1 and median HD95 by 0.05mm. Morphological differences related to sex and age, as detected by MRI, were also replicated with CT, with an approximate 17% difference between the CT and MRI results for sex and 10% difference between the results for age. SynthSeg can be utilized for CT-based automatic brain segmentation, but only in applications where precision is not essential. CT performance is lower than MRI based on the integrated QC scores, but low-quality segmentations can be excluded with QC-based thresholding. Additionally, performing CT-based neuroanatomical studies is encouraged, as the results show correlations in sex- and age-based analyses similar to those found with MRI.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# CuDA2: トラクタエージェントを協調マルチエージェントシステムに組み込むアプローチ

CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems ( http://arxiv.org/abs/2406.17425v1 )

ライセンス: Link先を確認
Zhen Chen, Yong Liao, Youpeng Zhao, Zipeng Dai, Jian Zhao, (参考訳) 協調的マルチエージェント強化学習(CMARL)戦略は、敵の摂動に弱いことが知られている。 敵の攻撃に関するこれまでの研究は主に、攻撃の少ないシナリオにおいて、被害者のエージェントの国家や行動を直接妨害するホワイトボックス攻撃に焦点を当てていた。 しかし,実環境における被害者エージェントの完全アクセスは極めて困難である。 より現実的な敵攻撃を実現するために, CMARLシステムに反逆エージェントを注入する新しい手法を提案する。 我々は、この問題をトラクタマルコフ決定プロセス(TMDP)としてモデル化する。 TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。 しかし、反逆者の訓練効率は低いままであり、彼らの行動と被害者の報酬を直接関連付けることは困難である。 この問題に対処するため、我々はCuDA(Cuiosity-Driven Adversarial Attack)フレームワークを提案する。 CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を向上するとともに、裏切り者の最適なポリシー不変性を維持する。 具体的には、トレーニング済みランダムネットワーク蒸留(RND)モジュールを使用し、RNDモジュールが生成する余分な報酬は、反逆者が被害者のエージェントが知らない状態を探索することを奨励する。 SMACの様々なシナリオに対する大規模な実験により、我々のCuDA2フレームワークは、他のベースラインと比較して、同等または優れた敵攻撃能力を提供します。

Cooperative Multi-Agent Reinforcement Learning (CMARL) strategies are well known to be vulnerable to adversarial perturbations. Previous works on adversarial attacks have primarily focused on white-box attacks that directly perturb the states or actions of victim agents, often in scenarios with a limited number of attacks. However, gaining complete access to victim agents in real-world environments is exceedingly difficult. To create more realistic adversarial attacks, we introduce a novel method that involves injecting traitor agents into the CMARL system. We model this problem as a Traitor Markov Decision Process (TMDP), where traitors cannot directly attack the victim agents but can influence their formation or positioning through collisions. In TMDP, traitors are trained using the same MARL algorithm as the victim agents, with their reward function set as the negative of the victim agents' reward. Despite this, the training efficiency for traitors remains low because it is challenging for them to directly associate their actions with the victim agents' rewards. To address this issue, we propose the Curiosity-Driven Adversarial Attack (CuDA2) framework. CuDA2 enhances the efficiency and aggressiveness of attacks on the specified victim agents' policies while maintaining the optimal policy invariance of the traitors. Specifically, we employ a pre-trained Random Network Distillation (RND) module, where the extra reward generated by the RND module encourages traitors to explore states unencountered by the victim agents. Extensive experiments on various scenarios from SMAC demonstrate that our CuDA2 framework offers comparable or superior adversarial attack capabilities compared to other baselines.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 極端学習機械の理論的枠組みの批判的分析

A Critical Analysis of the Theoretical Framework of the Extreme Learning Machine ( http://arxiv.org/abs/2406.17427v1 )

ライセンス: Link先を確認
Irina Perfilievaa, Nicolas Madrid, Manuel Ojeda-Aciego, Piotr Artiemjew, Agnieszka Niemczynowicz, (参考訳) ELM(Extreme Learning Machine)の応用が成功したにもかかわらず、基礎となる原理は厳密な数学的正当性を持っていないことを示す。 具体的には、2つの主要なステートメントの証明を論じるとともに、EMM学習アルゴリズムに反例を与えるデータセットを作成し、その設計を説明し、多くの反例をもたらす。 最後に、いくつかの理論的ケースにおいて、EMMの効率を正当化する基礎の代替的なステートメントを提供する。

Despite the number of successful applications of the Extreme Learning Machine (ELM), we show that its underlying foundational principles do not have a rigorous mathematical justification. Specifically, we refute the proofs of two main statements, and we also create a dataset that provides a counterexample to the ELM learning algorithm and explain its design, which leads to many such counterexamples. Finally, we provide alternative statements of the foundations, which justify the efficiency of ELM in some theoretical cases.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 大規模マルチモーダルモデルにおける音声特異リスクの探索に向けて:分類学,ベンチマーク,考察

Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights ( http://arxiv.org/abs/2406.17430v1 )

ライセンス: Link先を確認
Hao Yang, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari, (参考訳) 大規模マルチモーダルモデル(LMM)は近年大きな成功を収めており、マルチモーダル情報を理解し、人間のユーザと対話する強力な能力を示している。 進展にもかかわらず、マルチモーダル設定、特に音声のモダリティにおけるハイリスクな相互作用を検出するという課題はほとんど未解明のままである。 音声モダリティのリスクに関する従来の研究は、主に内容(例えば、書き起こしとして捉えられるもの)を強調する。 しかし、音声に基づく対話においては、音声におけるパラ言語的手がかりは、発話の背後にある意図した意味を著しく変えることができる。 本研究は, 言語固有のリスク分類法を提案し, 敵意(重度の皮肉と脅し), 悪意のある模倣(年齢, 性別, 民族性), ステレオタイプバイアス(年齢, 性別, 民族性)の8つのリスクカテゴリについて検討した。 分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。 最新のモデルでさえ、音声における様々なパラ言語固有のリスクを検出するのに効果がない(例えば、Gemini 1.5 Proはランダムベースラインよりわずかに上回っている)。 警告: この論文は偏見と攻撃的な例を含んでいる。

Large Multimodal Models (LMMs) have achieved great success recently, demonstrating a strong capability to understand multimodal information and to interact with human users. Despite the progress made, the challenge of detecting high-risk interactions in multimodal settings, and in particular in speech modality, remains largely unexplored. Conventional research on risk for speech modality primarily emphasises the content (e.g., what is captured as transcription). However, in speech-based interactions, paralinguistic cues in audio can significantly alter the intended meaning behind utterances. In this work, we propose a speech-specific risk taxonomy, covering 8 risk categories under hostility (malicious sarcasm and threats), malicious imitation (age, gender, ethnicity), and stereotypical biases (age, gender, ethnicity). Based on the taxonomy, we create a small-scale dataset for evaluating current LMMs capability in detecting these categories of risk. We observe even the latest models remain ineffective to detect various paralinguistic-specific risks in speech (e.g., Gemini 1.5 Pro is performing only slightly above random baseline). Warning: this paper contains biased and offensive examples.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# Androidアプリの互換性問題の背後にあるセマンティック非互換APIに関する大規模調査

A Large-scale Investigation of Semantically Incompatible APIs behind Compatibility Issues in Android Apps ( http://arxiv.org/abs/2406.17431v1 )

ライセンス: Link先を確認
Shidong Pan, Tianchen Guo, Lihong Zhang, Pei Liu, Zhenchang Xing, Xiaoyu Sun, (参考訳) アプリケーションプログラミングインタフェース(API)の非互換性は、Androidアプリケーション開発における長年の問題である。 Android APIの急速な進化は、多数のAPIの追加、削除、隣のバージョン間の変更をもたらす。 残念なことに、この頻度の高い変更は互換性の問題を引き起こす可能性がある。 研究者はAPIシグネチャの変更による互換性の問題を検出するためにいくつかの研究を提案しているが、洗練されたセマンティックな変更に起因する互換性の問題を見落としていることが多い。 この課題に対して,静的解析とLLM(Large Language Models)を併用して,Android Open Source Project(AOSP)における非互換APIの大規模発見を行った。 問題を体系的に定式化し,非互換なAPI,特に意味的変化を検出する統一的なフレームワークを提案する。 Androidフレームワークでセマンティックに非互換なAPIを特定する上で、我々のアプローチが0.83 F1スコアを達成したことは注目に値する。 最終的に、我々のアプローチは、バージョン4からバージョン33にまたがる5,481の互換性のないAPIを検出します。 さらに、これまで見過ごされてきた幅広い互換性問題(+92.3%)を検出する上で、最先端の手法を補完する効果を実証する。

Application Programming Interface (API) incompatibility is a long-standing issue in Android application development. The rapid evolution of Android APIs results in a significant number of API additions, removals, and changes between adjacent versions. Unfortunately, this high frequency of alterations may lead to compatibility issues, often without adequate notification to developers regarding these changes. Although researchers have proposed some work on detecting compatibility issues caused by changes in API signatures, they often overlook compatibility issues stemming from sophisticated semantic changes. In response to this challenge, we conducted a large-scale discovery of incompatible APIs in the Android Open Source Project (AOSP) by leveraging static analysis and pre-trained Large Language Models (LLMs) across adjacent versions. We systematically formulate the problem and propose a unified framework to detect incompatible APIs, especially for semantic changes. It's worth highlighting that our approach achieves a 0.83 F1-score in identifying semantically incompatible APIs in the Android framework. Ultimately, our approach detects 5,481 incompatible APIs spanning from version 4 to version 33. We further demonstrate its effectiveness in supplementing the state-of-the-art methods in detecting a broader spectrum of compatibility issues (+92.3%) that have been previously overlooked.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 公正さとロバストさのためのデータバランシングにおけるグラフの考え方

Mind the Graph When Balancing Data for Fairness or Robustness ( http://arxiv.org/abs/2406.17433v1 )

ライセンス: Link先を確認
Jessica Schrouff, Alexis Bellot, Amal Rannen-Triki, Alan Malek, Isabela Albuquerque, Arthur Gretton, Alexander D'Amour, Silvia Chiappa, (参考訳) 機械学習の予測設定におけるフェアネスやロバストネスの失敗は、共変量、結果、変動の補助要因の間の望ましくない依存関係に起因する可能性がある。 これらの障害を軽減するための一般的な戦略はデータバランシングである。 本研究では、データバランスのトレーニング分布に関する条件を定義し、公正なモデルやロバストなモデルに導く。 以上の結果から,バランスの取れた分布は,タスクの因果グラフにおいて不要な依存関係を選択的に除去することには対応せず,複数の障害モードを発生させ,また正規化などの他の緩和手法との干渉さえも生じないことが明らかとなった。 その結果,データバランシングを行う前に因果グラフを考慮に入れることの重要性を強調した。

Failures of fairness or robustness in machine learning predictive settings can be due to undesired dependencies between covariates, outcomes and auxiliary factors of variation. A common strategy to mitigate these failures is data balancing, which attempts to remove those undesired dependencies. In this work, we define conditions on the training distribution for data balancing to lead to fair or robust models. Our results display that, in many cases, the balanced distribution does not correspond to selectively removing the undesired dependencies in a causal graph of the task, leading to multiple failure modes and even interference with other mitigation techniques such as regularization. Overall, our results highlight the importance of taking the causal graph into account before performing data balancing.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# ディラック分散関係を持つ粒子浴のマルコビアン性と非マルコビアン性

Markovianity and non-Markovianity of Particle Bath with Dirac Dispersion Relation ( http://arxiv.org/abs/2406.17436v1 )

ライセンス: Link先を確認
Takano Taira, Hatano Naomichi, Akinori Nishino, (参考訳) オープン量子系の量子粒子の崩壊速度は、実験による経験的予測と、対応する量子状態のマルコフ力学による理論的予測に基づいて、伝統的に指数関数として知られていた。 しかし、理論的な予測と実験的な観察の両方が、この指数関数的崩壊、特に短期と長期の体制からの逸脱を示唆している。 本研究では, ギャップ$m$とエネルギーカットオフ$L$のエネルギースペクトルを特徴とする環境中での単一ディラック粒子の自然放出について検討した。 その結果、スペクトルカットオフ$L$のような高エネルギー構造が、短時間の非指数崩壊を駆動する上で重要な役割を担っていることが明らかとなった。 対照的に、長時間の崩壊は、ディラックギャップ$m$のような低エネルギー構造の影響を主に受けている。 驚いたことに、エネルギーカットオフ$L$が無限でエネルギーギャップ$m$がゼロである極限において、質量を持たないディラック粒子の崩壊ダイナミクスはボルン・マルコフ近似のような従来の近似を必要としないマルコフの挙動を示す。 この研究は、粒子エネルギー特性と崩壊ダイナミクスの間の複雑な相互作用を強調し、量子崩壊過程に関する新たな洞察を与える。

The decay rate of quantum particles in open quantum systems has traditionally been known as exponential, based on empirical predictions from experiments and theoretical predictions from the Markovian dynamics of the corresponding quantum states. However, both theoretical predictions and experimental observations suggest deviations from this exponential decay, particularly in the short and long time regimes. In this study, we explore the spontaneous emission of a single Dirac particle within an environment characterized by an energy spectrum with a gap $m$ and an energy cutoff $L$. Our results reveal that high-energy structures, such as the spectral cutoff $L$, play a critical role in driving the short-time non-exponential decay. In contrast, the long-time decay is predominantly influenced by low-energy structures, such as the Dirac gap $m$. Surprisingly, we find that in the limits where the energy cutoff $L$ is infinite and the energy gap $m$ is zero, the decay dynamics of massless Dirac particles exhibit Markovian behavior without the need for conventional approximations like the Born-Markov approximation. This work underscores the complex interplay between particle energy properties and decay dynamics, providing new insights into quantum decay processes.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 手書き文書に対する質問応答の促進:HW-SQuADのための現状認識モデル

Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD ( http://arxiv.org/abs/2406.17437v1 )

ライセンス: Link先を確認
Aniket Pal, Ajoy Mondal, C. V. Jawahar, (参考訳) 質問に答える手書き文書は多くの現実世界のアプリケーションにおいて難しい課題である。 本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。 モデルレベルでの変換器ベースの文書検索とアンサンブル手法を取り入れ,HW-SQuADデータセットとBenthamQAデータセットにおいて,それぞれ82.02%,92.55%のExact Matchスコアを達成し,従来の最高の認識ベースアプローチを10.89%,26%上回った。 また,文書検索の精度を90%から95.30%に向上させた。 本研究は,手書き文書における質問応答の進行における提案手法の重要性を実証するものである。 コードとトレーニングされたモデルは、この重要な自然言語領域における将来の研究を促進するために公開されます。

Question-answering handwritten documents is a challenging task with numerous real-world applications. This paper proposes a novel recognition-based approach that improves upon the previous state-of-the-art on the HW-SQuAD and BenthamQA datasets. Our model incorporates transformer-based document retrieval and ensemble methods at the model level, achieving an Exact Match score of 82.02% and 92.55% in HW-SQuAD and BenthamQA datasets, respectively, surpassing the previous best recognition-based approach by 10.89% and 26%. We also enhance the document retrieval component, boosting the top-5 retrieval accuracy from 90% to 95.30%. Our results demonstrate the significance of our proposed approach in advancing question answering on handwritten documents. The code and trained models will be publicly available to facilitate future research in this critical area of natural language.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# Implicit-Zoo:2次元画像と3次元シーンのための大規模ニューラルネットワーク機能データセット

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes ( http://arxiv.org/abs/2406.17438v1 )

ライセンス: Link先を確認
Qi Ma, Danda Pani Paudel, Ender Konukoglu, Luc Van Gool, (参考訳) 神経暗黙関数はコンピュータビジョン、グラフィックスなど様々な領域において重要な意味を持つ。 それらのアドバンテージは、複雑な形状やシーンを高い忠実度、滑らかな補間能力、連続的な表現で表現できることである。 これらの利点にもかかわらず、暗黙の関数の開発と分析は、包括的なデータセットの欠如と、その実装と評価に必要な相当な計算資源によって制限されてきた。 これらの課題に対処するために、この分野の研究と開発を容易にするために設計された、数千のGPUトレーニング日を必要とする大規模なデータセットである"Implicit-Zoo"を紹介します。 我々のデータセットには、CIFAR-10、ImageNet-1K、Cityscapes for 2D Image Task、OmniObject3D dataset for 3D Vision Taskなどの多様な2Dおよび3Dシーンが含まれている。 厳格なチェック、精錬、低品質データのフィルタリングを通じて、高品質を保証します。 Indicit-Zooを用いることで,(1)トランスフォーマーモデルのトークン位置を学習すること,(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること,の2つの直接的なメリットを示す。 これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。

Neural implicit functions have demonstrated significant importance in various areas such as computer vision, graphics. Their advantages include the ability to represent complex shapes and scenes with high fidelity, smooth interpolation capabilities, and continuous representations. Despite these benefits, the development and analysis of implicit functions have been limited by the lack of comprehensive datasets and the substantial computational resources required for their implementation and evaluation. To address these challenges, we introduce "Implicit-Zoo": a large-scale dataset requiring thousands of GPU training days designed to facilitate research and development in this field. Our dataset includes diverse 2D and 3D scenes, such as CIFAR-10, ImageNet-1K, and Cityscapes for 2D image tasks, and the OmniObject3D dataset for 3D vision tasks. We ensure high quality through strict checks, refining or filtering out low-quality data. Using Implicit-Zoo, we showcase two immediate benefits as it enables to: (1) learn token locations for transformer models; (2) directly regress 3D cameras poses of 2D images with respect to NeRF models. This in turn leads to an improved performance in all three task of image classification, semantic segmentation, and 3D pose regression, thereby unlocking new avenues for research.
翻訳日:2024-06-26 14:51:57 公開日:2024-06-25
# 浅いエッチングしたニオブ酸リチウムナノ導波路におけるブロードバンド光子対の効率的な生成

Efficient generation of broadband photon pairs in shallow-etched lithium niobate nanowaveguide ( http://arxiv.org/abs/2406.17439v1 )

ライセンス: Link先を確認
Xiao-Xu Fang, Leiran Wang, He Lu, (参考訳) ナノフォトニックチップ上で高効率なブロードバンド自発的パラメトリックダウンコンバージョン~(SPDC)を実現するために、浅いエッチングした周期的な窒化リチウム導波管の設計と製造を行う。 浅いエッチング導波路は、製造不完全により誘導される導波路幅の不均一性を許容し、高いカウントレートと帯域幅で光子対を生成することができる。 高輝度11.7〜GHz/mW、帯域幅22~THzの光子対発生を5.7mmのPPLN導波路で実証する。 生成した光子対は、16262$\pm$850までの偶然/事故比と強い時間相関を示す。 絶縁体上のニオブ酸リチウムプラットフォーム上での効率的なSPDCデバイス製造における浅いエッチングの可能性を確認し,ブロードバンド光子源を用いた量子情報処理に有効であることを確認した。

We design and fabricate shallow-etched periodically poled lithium niobate waveguide to realize highly-efficient broadband spontaneous parametric down-conversion~(SPDC) on nanophotonic chip. The shallow-etched waveguide is capable to tolerate the non-uniformities of waveguide width induced by fabrication imperfections, enabling generation of photon pairs with high count rate and bandwidth. We demonstrate photon-pair generation with a high brightness of 11.7~GHz/mW and bandwidth of 22~THz, in a 5.7-mm-long PPLN waveguide. The generated photon pairs exhibit strong temporal correlation with a coincidence-to-accidental ratio up to 16262$\pm$850. Our results confirm the feasibility of shallow etching in fabrication of efficient SPDC device on platform of lithium niobate on insulator, and benefit quantum information processing with broadband photon source.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 同時分類・生成のためのマトリックス製品状態モデル

A Matrix Product State Model for Simultaneous Classification and Generation ( http://arxiv.org/abs/2406.17441v1 )

ライセンス: Link先を確認
Alex Mossi, Bojan Žunkovic, Kyriakos Flouris, (参考訳) 量子機械学習(Quantum Machine Learning、QML)は、量子コンピューティングの原理と機械学習の技法を融合させる、急速に拡大する分野である。 この領域における強力な数学的フレームワークの1つはテンソルネットワークである。 これらのネットワークは、低いランクのテンソルを収縮させることにより、高階テンソルを近似するために使用される。 もともと量子システムをシミュレートするために開発されたテンソルネットワークは、量子コンピューティングや拡張によってQMLに不可欠なものになっている。 複雑な高次元データを効率的に表現し、操作する能力は、量子領域内のさまざまな機械学習タスクに適している。 本稿では,MPSが分類器と生成器の両方として機能する行列積状態(MPS)モデルを提案する。 この新しいMPSモデルの二重機能は、教師付きMPSモデルの伝統的なトレーニングを強化する戦略を可能にする。 このフレームワークは、生成的敵ネットワークにインスパイアされ、より現実的なサンプルを生成するために、アウトリーチを削減している。 さらに,本研究は,生成タスクのためのテンソルネットワーク手法の力学に関する知見を提供する。 具体的には,非正規化MPSからの代替埋め込み関数と新しいサンプリング手法について論じる。

Quantum machine learning (QML) is a rapidly expanding field that merges the principles of quantum computing with the techniques of machine learning. One of the powerful mathematical frameworks in this domain is tensor networks. These networks are used to approximate high-order tensors by contracting tensors with lower ranks. Originally developed for simulating quantum systems, tensor networks have become integral to quantum computing and, by extension, to QML. Their ability to efficiently represent and manipulate complex, high-dimensional data makes them suitable for various machine learning tasks within the quantum realm. Here, we present a matrix product state (MPS) model, where the MPS functions as both a classifier and a generator. The dual functionality of this novel MPS model permits a strategy that enhances the traditional training of supervised MPS models. This framework is inspired by generative adversarial networks and is geared towards generating more realistic samples by reducing outliers. Additionally, our contributions offer insights into the mechanics of tensor network methods for generation tasks. Specifically, we discuss alternative embedding functions and a new sampling method from non-normalized MPSs.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# Mamba24/8D: 状態空間モデルによるポイントクラウドにおけるグローバルインタラクションの強化

Mamba24/8D: Enhancing Global Interaction in Point Clouds via State Space Model ( http://arxiv.org/abs/2406.17442v1 )

ライセンス: Link先を確認
Zhuoyuan Li, Yubo Ai, Jiahao Lu, ChuXin Wang, Jiacheng Deng, Hanzhi Chang, Yanzhe Liang, Wenfei Yang, Shifeng Zhang, Tianzhu Zhang, (参考訳) トランスフォーマーは、3Dポイントクラウドセマンティックセグメンテーションの印象的な結果を示した。 しかし、変換器の二次的な複雑さは計算コストを高くし、同時に処理できる点の数を制限するとともに、長距離依存のモデリングを妨げる。 長周期モデリングのための最近の状態空間モデル(SSM)の大きな可能性からインスピレーションを得て、SSMベースのアーキテクチャであるMambaをポイントクラウドドメインに導入し、線形複雑性の下で強力なグローバルモデリング機能を持つMamba24/8Dを提案する。 具体的には,マンバの因果性に適合する点雲の不規則性を実現するために,点雲に適用可能な多経路シリアライズ戦略を提案する。 さらに,局所的なジオメトリのモデル化や一方向モデリングにおいて,Mambaの欠点を補うためのConvMambaブロックを提案する。 Mamba24/8Dは、ScanNet v2、ScanNet200、nuScenesなど、いくつかの3Dポイントクラウドセグメンテーションタスクの最先端結果を取得し、その有効性は広範な実験によって検証されている。

Transformers have demonstrated impressive results for 3D point cloud semantic segmentation. However, the quadratic complexity of transformer makes computation cost high, limiting the number of points that can be processed simultaneously and impeding the modeling of long-range dependencies. Drawing inspiration from the great potential of recent state space models (SSM) for long sequence modeling, we introduce Mamba, a SSM-based architecture, to the point cloud domain and propose Mamba24/8D, which has strong global modeling capability under linear complexity. Specifically, to make disorderness of point clouds fit in with the causal nature of Mamba, we propose a multi-path serialization strategy applicable to point clouds. Besides, we propose the ConvMamba block to compensate for the shortcomings of Mamba in modeling local geometries and in unidirectional modeling. Mamba24/8D obtains state of the art results on several 3D point cloud segmentation tasks, including ScanNet v2, ScanNet200 and nuScenes, while its effectiveness is validated by extensive experiments.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 人間の行動認識と関連する課題に関する国際バイオメカニクス標準に基づく関節角度の利用

Using joint angles based on the international biomechanical standards for human action recognition and related tasks ( http://arxiv.org/abs/2406.17443v1 )

ライセンス: Link先を確認
Kevin Schlegel, Lei Jiang, Hao Ni, (参考訳) キーポイントデータは、アクション検出や認識といったタスクに対して、機械学習においてかなりの注目を集めている。 しかし、医師、体操選手、スポーツ科学者、コーチなどの運動の専門家は、静的な身体のポーズや動きを正確かつ効率的に伝達するために、国際バイオメカニクス協会によって標準化された関節角の概念を使用している。 本稿では, 基本生体力学の概念を導入し, 共通のキーポイントデータを, 与えられたポーズを一意に記述し, カメラ視点の独立性やアクションを行う人など, 様々な望ましい数学的特性を持つジョイントアングルに変換する方法について述べる。 我々は、キーポイントデータの関節角表現が機械学習アプリケーションに適していることを実験的に証明し、場合によっては即時の性能向上をもたらす可能性があることを実証した。 関節角を人間に意味のあるキネマティックデータの表現として用いることは、スポーツや医療など、人間の専門家との解釈可能性や対話が重要であるアプリケーションに特に有望である。 この方向のさらなる研究を容易にするため、我々はキーポイントデータをジョイントアングルに変換するピソンパッケージをリリースする。

Keypoint data has received a considerable amount of attention in machine learning for tasks like action detection and recognition. However, human experts in movement such as doctors, physiotherapists, sports scientists and coaches use a notion of joint angles standardised by the International Society of Biomechanics to precisely and efficiently communicate static body poses and movements. In this paper, we introduce the basic biomechanical notions and show how they can be used to convert common keypoint data into joint angles that uniquely describe the given pose and have various desirable mathematical properties, such as independence of both the camera viewpoint and the person performing the action. We experimentally demonstrate that the joint angle representation of keypoint data is suitable for machine learning applications and can in some cases bring an immediate performance gain. The use of joint angles as a human meaningful representation of kinematic data is in particular promising for applications where interpretability and dialog with human experts is important, such as many sports and medical applications. To facilitate further research in this direction, we will release a python package to convert keypoint data into joint angles as outlined in this paper.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 局所過程の制約

Constraints on local processes ( http://arxiv.org/abs/2406.17447v1 )

ライセンス: Link先を確認
Abhijit Gadde, Shraiyance Jain, Harshal Kulkarni, (参考訳) システムの状態の量子を局所的なプロセスで別の状態に変換したい場合、成功の確率は何でしょう? この確率は両状態の絡み合いを定量化することで有界であることが判明した。 本稿では,局所的な操作下での単調なマルチパーティ・エンタングルメントと,平均的な古典的コミュニケーションのファミリを構築する。 これらの測度は状態とその共役の局所ユニタリ不変多項式から構成され、純粋状態に対する計算が容易である。 これらの測度を用いて、局所量子演算と古典的通信を用いて、与えられた状態を別の状態に変換する成功確率を束縛する。

If we want to transform the quantum of state of a system to another using local processes, what is the probability of success? It turns out that this probability can be bounded by quantifying entanglement within both the states. In this paper, we construct a family of multipartite entanglement measures that are monotonic under local operations and classical communication on average. The measures are constructed out of local unitary invariant polynomials of the state and its conjugate, and hence are easy to compute for pure states. Using these measures we bound the success probability of transforming a given state into another state using local quantum operations and classical communication.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# マスクオートエンコーダの擬似ラベリング

Pseudo Labelling for Enhanced Masked Autoencoders ( http://arxiv.org/abs/2406.17450v1 )

ライセンス: Link先を確認
Srinivasa Rao Nandam, Sara Atito, Zhenhua Feng, Josef Kittler, Muhammad Awais, (参考訳) SdAE、CAE、GreenMIM、MixAEなどのMasked Image Modeling(MIM)ベースのモデルでは、予測、損失関数の変更、追加のアーキテクチャコンポーネントの導入により、Masked Autoencoders(MAE)のパフォーマンスを向上させるさまざまな戦略が検討されている。 本稿では,従来の画素レベルの再構築をトークンレベルの再構築に置き換えた上で,クラストークンとデータトークンの両方に擬似ラベリングを統合することで,MAE性能を向上させるアプローチを提案する。 この戦略では、クラスタ割り当てを擬似ラベルとして使用して、ネットワーク内のインスタンスレベルの識別を促進する一方で、トークン再構成では、ローカルコンテキストをカプセル化した離散トークンを生成する必要がある。 擬似ラベリングと再構成のターゲットは教師ネットワークによって生成される必要がある。 対象の擬似ラベルの生成とトークンの特徴の再構築を両立させるため,教師を2つの異なるモデルに分離する。 この分離は、スループットとメモリ消費に無視できる影響を与えながら、単一の教師よりも経験的に優れていることを証明している。 擬似ラベリングを補助タスクとして組み込むことで、ImageNet-1Kや他の下流タスク(分類、セマンティックセグメンテーション、検出など)が顕著に改善された。

Masked Image Modeling (MIM)-based models, such as SdAE, CAE, GreenMIM, and MixAE, have explored different strategies to enhance the performance of Masked Autoencoders (MAE) by modifying prediction, loss functions, or incorporating additional architectural components. In this paper, we propose an enhanced approach that boosts MAE performance by integrating pseudo labelling for both class and data tokens, alongside replacing the traditional pixel-level reconstruction with token-level reconstruction. This strategy uses cluster assignments as pseudo labels to promote instance-level discrimination within the network, while token reconstruction requires generation of discrete tokens encapturing local context. The targets for pseudo labelling and reconstruction needs to be generated by a teacher network. To disentangle the generation of target pseudo labels and the reconstruction of the token features, we decouple the teacher into two distinct models, where one serves as a labelling teacher and the other as a reconstruction teacher. This separation proves empirically superior to a single teacher, while having negligible impact on throughput and memory consumption. Incorporating pseudo-labelling as an auxiliary task has demonstrated notable improvements in ImageNet-1K and other downstream tasks, including classification, semantic segmentation, and detection.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# インフォーマティブな質問に対する学習: 優先最適化によるLLMの強化と期待される情報獲得

Learning to Ask Informative Questions: Enhancing LLMs with Preference Optimization and Expected Information Gain ( http://arxiv.org/abs/2406.17453v1 )

ライセンス: Link先を確認
Davide Mazzaccara, Alberto Testoni, Raffaella Bernardi, (参考訳) 質問は、情報検索タスクを完了するために必要な情報を取得するために必要なツールである。 しかし、特にオープンソースモデルである大規模言語モデル(LLM)は、期待される情報ゲイン(EIG)によって測定されるように、情報的質問を生成するのによく機能しない。 本論文では,20項目のゲーム対話において,LLM生成した質問に対する情報伝達性を高める手法を提案する。 ゲーム毎に同じモデル(LLAMA 2-CHAT 7B)から複数の質問をサンプリングし、DPOアルゴリズムを適用するために低EIGと高EIGの2組のペアを作成する。 提案手法は,DPOモデルをトレーニングするドメインと異なる領域であっても,より効果的な質問(EIG)を生成することを示す。

Questions are essential tools for acquiring the necessary information to complete information-seeking tasks. However, large language models (LLMs), especially open-source models, often perform poorly in generating informative questions, as measured by expected information gain (EIG). In this paper, we propose a method to enhance the informativeness of LLM-generated questions in 20-question game dialogues. We sample multiple questions from the same model (LLAMA 2-CHAT 7B) for each game and create pairs of low-EIG and high-EIG questions to apply a Direct Preference Optimization (DPO) algorithm. Our results show that this method produces more effective questions (in terms of EIG), even in domains different from those used to train the DPO model.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# CCFの分散コンセンサスと一貫性プロトコルのスマートカジュアル検証

Smart Casual Verification of CCF's Distributed Consensus and Consistency Protocols ( http://arxiv.org/abs/2406.17455v1 )

ライセンス: Link先を確認
Heidi Howard, Markus A. Kuppe, Edward Ashton, Amaury Chamayou, Natacha Crooks, (参考訳) Confidential Consortium Framework(CCF)は、信頼できる信頼性のあるクラウドアプリケーションを開発するためのオープンソースプラットフォームである。 CCFはMicrosoftのAzure Confidential Ledgerサービスを動かしているため、CCFの設計と実装の正確性に対する信頼性を構築することが不可欠である。 本稿では、CCFの新しい分散プロトコルの正当性を検証するために、スマートカジュアル検証を適用した経験を報告する。 我々はスマートカジュアル検証という用語を使って,形式仕様の厳密さと自動テストの実用性を備えたモデルチェックを組み合わせたハイブリッドアプローチを記述しています。 従来の形式的なアプローチでは、かなりの買い入れが必要で、ドメインの専門家によるワンオフの取り組みも少なくありませんが、私たちはスマートカジュアルな検証アプローチをCCFの継続的インテグレーションパイプラインに統合し、コントリビュータがCCFの進化を継続的に検証できるようにしています。 私たちは、複雑なコードベースにスマートカジュアルな検証を適用する上で直面した課題と、運用に影響を与える前に設計と実装の微妙なバグを見つけるためにそれらを克服する方法について説明します。

The Confidential Consortium Framework (CCF) is an open-source platform for developing trustworthy and reliable cloud applications. CCF powers Microsoft's Azure Confidential Ledger service and as such it is vital to build confidence in the correctness of CCF's design and implementation. This paper reports our experiences applying smart casual verification to validate the correctness of CCF's novel distributed protocols, focusing on its unique distributed consensus protocol and its custom client consistency model. We use the term smart casual verification to describe our hybrid approach, which combines the rigor of formal specification and model checking with the pragmatism of automated testing, in our case binding the formal specification in TLA+ to the C++ implementation. While traditional formal methods approaches require substantial buy-in and are often one-off efforts by domain experts, we have integrated our smart casual verification approach into CCF's continuous integration pipeline, allowing contributors to continuously validate CCF as it evolves. We describe the challenges we faced in applying smart casual verification to a complex existing codebase and how we overcame them to find subtle bugs in the design and implementation before they could impact production.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 文脈データ拡張による文法的誤り訂正の改善

Improving Grammatical Error Correction via Contextual Data Augmentation ( http://arxiv.org/abs/2406.17456v1 )

ライセンス: Link先を確認
Yixuan Wang, Baoxin Wang, Yijun Liu, Qingfu Zhu, Dayong Wu, Wanxiang Che, (参考訳) 近年, 文法的誤り訂正(GEC)の分野では, 合成データによるデータ増大が, データの不足を緩和するために広く利用されている。 しかし、これらの合成データは、不整合誤差分布やノイズラベルによるデータ制限微調整フェーズではなく、事前学習フェーズで主に使用される。 本稿では,文脈拡張に基づく合成データ構築手法を提案する。 具体的には、ルールベースの置換とモデルベースの生成を組み合わせ、生成モデルを用いて抽出されたエラーパターンのよりリッチなコンテキストを生成する。 また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。 CoNLL14 と BEA19-Test の実験により,提案手法は強いベースラインを安定かつ実質的に上回り,数個の合成データのみを用いて最先端レベルを達成することを示した。

Nowadays, data augmentation through synthetic data has been widely used in the field of Grammatical Error Correction (GEC) to alleviate the problem of data scarcity. However, these synthetic data are mainly used in the pre-training phase rather than the data-limited fine-tuning phase due to inconsistent error distribution and noisy labels. In this paper, we propose a synthetic data construction method based on contextual augmentation, which can ensure an efficient augmentation of the original data with a more consistent error distribution. Specifically, we combine rule-based substitution with model-based generation, using the generative model to generate a richer context for the extracted error patterns. Besides, we also propose a relabeling-based data cleaning method to mitigate the effects of noisy labels in synthetic data. Experiments on CoNLL14 and BEA19-Test show that our proposed augmentation method consistently and substantially outperforms strong baselines and achieves the state-of-the-art level with only a few synthetic data.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 時間的特徴補正とマルチタスク統合による衛星画像時系列からの連続都市変化検出

Continuous Urban Change Detection from Satellite Image Time Series with Temporal Feature Refinement and Multi-Task Integration ( http://arxiv.org/abs/2406.17458v1 )

ライセンス: Link先を確認
Sebastian Hafner, Heng Fang, Hossein Azizpour, Yifang Ban, (参考訳) 都市化は前例のない速度で進行し、環境と人間の幸福に悪影響を及ぼす。 リモートセンシングは、都市成長の正確な情報で持続可能な開発戦略を支援することにより、これらの効果を緩和する可能性がある。 深層学習に基づく手法は、畳み込みニューラルネットワーク(ConvNet)、トランスフォーマー、マルチタスク学習装置を用いて、光学衛星画像対から有望な都市変化検出結果を達成した。 しかし、トランスフォーマーは、マルチテンポラリなデータ、すなわち >2 画像による都市変化検出には使われておらず、マルチタスク学習手法では、変化とセグメンテーションの出力を組み合わせた統合アプローチが欠如している。 本研究のギャップを埋めるために,衛星画像時系列の連続画像対の変化を識別する連続都市変化検出手法を提案する。 具体的には、自己アテンションを利用して、ConvNetベースのマルチテンポラルビルディング表現を改善する時間的特徴改善(TFR)モジュールを提案する。 さらに,マルコフネットワークを用いたマルチタスク統合(MTI)モジュールを提案する。 提案手法は,PlanetScopeコンステレーション (F1 score 0.551) とGaofen-2 (F1 score 0.440) によって得られた高解像度衛星画像時系列に基づいて,都市の変化を効果的に同定する。 さらに, 提案手法の有効性を両時間的・複数時間的都市変動検出・分節法と比較し, 2つの挑戦的データセットを用いた実験を行った。

Urbanization advances at unprecedented rates, resulting in negative effects on the environment and human well-being. Remote sensing has the potential to mitigate these effects by supporting sustainable development strategies with accurate information on urban growth. Deep learning-based methods have achieved promising urban change detection results from optical satellite image pairs using convolutional neural networks (ConvNets), transformers, and a multi-task learning setup. However, transformers have not been leveraged for urban change detection with multi-temporal data, i.e., >2 images, and multi-task learning methods lack integration approaches that combine change and segmentation outputs. To fill this research gap, we propose a continuous urban change detection method that identifies changes in each consecutive image pair of a satellite image time series. Specifically, we propose a temporal feature refinement (TFR) module that utilizes self-attention to improve ConvNet-based multi-temporal building representations. Furthermore, we propose a multi-task integration (MTI) module that utilizes Markov networks to find an optimal building map time series based on segmentation and dense change outputs. The proposed method effectively identifies urban changes based on high-resolution satellite image time series acquired by the PlanetScope constellation (F1 score 0.551) and Gaofen-2 (F1 score 0.440). Moreover, our experiments on two challenging datasets demonstrate the effectiveness of the proposed method compared to bi-temporal and multi-temporal urban change detection and segmentation methods.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# ラベル効率のよい学習のための自己監督手法の検討

Investigating Self-Supervised Methods for Label-Efficient Learning ( http://arxiv.org/abs/2406.17460v1 )

ライセンス: Link先を確認
Srinivasa Rao Nandam, Sara Atito, Zhenhua Feng, Josef Kittler, Muhammad Awais, (参考訳) ビジョントランスフォーマーと自己教師付き学習を組み合わせることで、分類、セグメンテーション、検出といった下流タスクのために、大規模なデータセットにわたってスケールするモデルの開発が可能になる。 これらのモデルのローショット学習能力は、いくつかのローショットダウンストリームタスクにまたがって、ほとんど検討されていない。 我々は、事前訓練されたモデルを比較することで、低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、異なる自己教師付きプレテキストタスクのシステムレベルでの研究を行う。 また, 崩壊回避法, セントリング, ME-MAX, シンクホーンが下流作業に与える影響についても検討した。 詳細な分析から,マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入し,マルチクラス分類,マルチラベル分類,セマンティックセグメンテーションなど,低ショットダウンストリームタスクのすべてにおいて,より優れたパフォーマンスを実現する。 さらに,本モデルを大規模データセット上でテストする場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションでの性能向上を示す。

Vision transformers combined with self-supervised learning have enabled the development of models which scale across large datasets for several downstream tasks like classification, segmentation and detection. The low-shot learning capability of these models, across several low-shot downstream tasks, has been largely under explored. We perform a system level study of different self supervised pretext tasks, namely contrastive learning, clustering, and masked image modelling for their low-shot capabilities by comparing the pretrained models. In addition we also study the effects of collapse avoidance methods, namely centring, ME-MAX, sinkhorn, on these downstream tasks. Based on our detailed analysis, we introduce a framework involving both mask image modelling and clustering as pretext tasks, which performs better across all low-shot downstream tasks, including multi-class classification, multi-label classification and semantic segmentation. Furthermore, when testing the model on full scale datasets, we show performance gains in multi-class classification, multi-label classification and semantic segmentation.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 拡散寿命木-拡散モデルの生成過程を理解するための進化的埋め込み-

The Tree of Diffusion Life: Evolutionary Embeddings to Understand the Generation Process of Diffusion Models ( http://arxiv.org/abs/2406.17462v1 )

ライセンス: Link先を確認
Vidya Prasad, Hans van Gorp, Christina Humer, Anna Vilanova, Nicola Pezzotti, (参考訳) 拡散モデルは、ガウスノイズでデータを破損させ、それをディープラーニングで反復的に再構成し、ノイズの多い画像を徐々に洗練された出力に変換することによって、高品質なサンプルを生成する。 このデータの進化を理解することは解釈可能性にとって重要であるが、その高次元の進化の性質のために複雑である。 t分布確率的近傍埋め込み (t-SNE) のような伝統的な次元減少法は高次元空間の理解に役立つが、それらは進化的構造保存を無視する。 そこで本研究では,拡散モデルの生成過程におけるデータ進化を理解する方法として,拡散寿命木(TDL)を提案する。 TDLは、様々なプロンプトを持つインスタンスを通して拡散モデルの生成空間をサンプリングし、画像エンコーダを使用してこれらのサンプルから意味を抽出し、中間空間に投影する。 このアルゴリズムは、高次元の関係を保ちながら反復を明示的に符号化し、データの進化を可視化する新しい進化的埋め込みアルゴリズムを採用している。 この埋め込みは、3つのメトリクスを利用する: 標準的なt-SNEの損失、意味的に類似した要素をグループ化する損失、同じイテレーションステップからグループ要素をグループ化する損失、同じインスタンスの要素をイテレーション間で整列させるインスタンスアライメントの損失。 我々は,反復を表現し,総合的な探索を可能にするリチリニアおよびラジアルレイアウトを提案する。 我々は,様々な特徴抽出器を評価し,異なるプロンプトセットによるGLIDEや安定拡散といった顕著な拡散モデルを用いてTDLの可能性を強調した。 TDLは拡散モデルにおけるデータ進化の理解を単純化し、それらの機能に関する貴重な洞察を提供する。

Diffusion models generate high-quality samples by corrupting data with Gaussian noise and iteratively reconstructing it with deep learning, slowly transforming noisy images into refined outputs. Understanding this data evolution is important for interpretability but is complex due to its high-dimensional evolutionary nature. While traditional dimensionality reduction methods like t-distributed stochastic neighborhood embedding (t-SNE) aid in understanding high-dimensional spaces, they neglect evolutionary structure preservation. Hence, we propose Tree of Diffusion Life (TDL), a method to understand data evolution in the generative process of diffusion models. TDL samples a diffusion model's generative space via instances with varying prompts and employs image encoders to extract semantic meaning from these samples, projecting them to an intermediate space. It employs a novel evolutionary embedding algorithm that explicitly encodes the iterations while preserving the high-dimensional relations, facilitating the visualization of data evolution. This embedding leverages three metrics: a standard t-SNE loss to group semantically similar elements, a displacement loss to group elements from the same iteration step, and an instance alignment loss to align elements of the same instance across iterations. We present rectilinear and radial layouts to represent iterations, enabling comprehensive exploration. We assess various feature extractors and highlight TDL's potential with prominent diffusion models like GLIDE and Stable Diffusion with different prompt sets. TDL simplifies understanding data evolution within diffusion models, offering valuable insights into their functioning.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 大規模言語モデルからの反復的フィードバックによるツール検索の強化

Enhancing Tool Retrieval with Iterative Feedback from Large Language Models ( http://arxiv.org/abs/2406.17465v1 )

ライセンス: Link先を確認
Qiancheng Xu, Yongqi Li, Heming Xia, Wenjie Li, (参考訳) ツール学習は、大規模な言語モデル(LLM)機能を外部ツールで拡張し、拡張することを目的としている。 現在の手法では、LLMはコンテキスト内学習や微調整によって、ある程度のツールを効果的に扱えることが示されている。 しかし、現実のシナリオでは、ツールの数は広く不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。 ツール検索は、以下の課題のために簡単ではない。 1) 複雑なユーザ指示及びツール記述 2)ツール検索とツール利用モデルとの相違。 上記の課題に対処するため,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。 具体的には,ツールレトリバーモデルに対するフィードバックを複数ラウンドで提供し,ツールレトリバーの指示やツールに対する理解を段階的に改善し,2つのスタンドアロンコンポーネント間のギャップを減らし,ツール利用モデル,すなわちLDMに促す。 ツール検索モデルを評価するために,統一的で包括的なベンチマークを構築した。 提案手法は,ドメイン内評価とドメイン外評価の両方において,高度な性能を実現することを示す。

Tool learning aims to enhance and expand large language models' (LLMs) capabilities with external tools, which has gained significant attention recently. Current methods have shown that LLMs can effectively handle a certain amount of tools through in-context learning or fine-tuning. However, in real-world scenarios, the number of tools is typically extensive and irregularly updated, emphasizing the necessity for a dedicated tool retrieval component. Tool retrieval is nontrivial due to the following challenges: 1) complex user instructions and tool descriptions; 2) misalignment between tool retrieval and tool usage models. To address the above issues, we propose to enhance tool retrieval with iterative feedback from the large language model. Specifically, we prompt the tool usage model, i.e., the LLM, to provide feedback for the tool retriever model in multi-round, which could progressively improve the tool retriever's understanding of instructions and tools and reduce the gap between the two standalone components. We build a unified and comprehensive benchmark to evaluate tool retrieval models. The extensive experiments indicate that our proposed approach achieves advanced performance in both in-domain evaluation and out-of-domain evaluation.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# ニューラルネットワークと人間の最適定数解の早期学習

Early learning of the optimal constant solution in neural networks and humans ( http://arxiv.org/abs/2406.17467v1 )

ライセンス: Link先を確認
Jirko Rubruck, Jan P. Bauer, Andrew Saxe, Christopher Summerfield, (参考訳) 深層ニューラルネットワークは、トレーニングの過程でますます複雑な機能を学ぶ。 ここでは、対象関数の学習が、ネットワークが最適定数解(OCS)を学習する初期段階、すなわち、初期モデル応答がターゲットラベルの分布を反映し、入力に提供された情報を完全に無視する初期段階に先行していることを実証的および理論的に示す。 階層的なカテゴリ学習タスクを用いて、バイアス項で訓練された深層線形ネットワークにおける動的学習の正確な解を導出する。 初期化してゼロになったとしても、このシンプルなアーキテクチャ機能は初期のダイナミクスに大きな変化をもたらす。 MNISTとCIFAR10に基づく階層的学習課題を解くために、この初期のOCSフェーズの目印を特定し、これらのシグネチャが深い線形ネットワークやより大きく、より複雑な(そして非線形)畳み込みニューラルネットワークでどのように観測されるかを説明する。 これらの観測は、深層線形ネットワークが早期学習中に必ずOCSを学習していることを証明することによって説明される。 結果の汎用性をさらに調査するため,分類学習課題において,3日間にわたって人間の学習者を訓練する。 次に、正負(正しい還元)の速度のダイナミクスの観点から、この初期のOCS相の定性的なシグネチャを同定する。 驚くべきことに、私たちは人間の学習者の行動において、OCSに早くから依存していた。 最後に、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。 全体としては、OCSは教師付き、誤り訂正学習における普遍的な学習原則であり、その普及のメカニズム的な理由を示唆している。

Deep neural networks learn increasingly complex functions over the course of training. Here, we show both empirically and theoretically that learning of the target function is preceded by an early phase in which networks learn the optimal constant solution (OCS) - that is, initial model responses mirror the distribution of target labels, while entirely ignoring information provided in the input. Using a hierarchical category learning task, we derive exact solutions for learning dynamics in deep linear networks trained with bias terms. Even when initialized to zero, this simple architectural feature induces substantial changes in early dynamics. We identify hallmarks of this early OCS phase and illustrate how these signatures are observed in deep linear networks and larger, more complex (and nonlinear) convolutional neural networks solving a hierarchical learning task based on MNIST and CIFAR10. We explain these observations by proving that deep linear networks necessarily learn the OCS during early learning. To further probe the generality of our results, we train human learners over the course of three days on the category learning task. We then identify qualitative signatures of this early OCS phase in terms of the dynamics of true negative (correct-rejection) rates. Surprisingly, we find the same early reliance on the OCS in the behaviour of human learners. Finally, we show that learning of the OCS can emerge even in the absence of bias terms and is equivalently driven by generic correlations in the input data. Overall, our work suggests the OCS as a universal learning principle in supervised, error-corrective learning, and the mechanistic reasons for its prevalence.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# MedCare:クリニカルアライメントとナレッジアグリゲーションの分離による医療用LLMの改善

MedCare: Advancing Medical LLMs through Decoupling Clinical Alignment and Knowledge Aggregation ( http://arxiv.org/abs/2406.17484v1 )

ライセンス: Link先を確認
Yusheng Liao, Shuyang Jiang, Yanfeng Wang, Yu Wang, (参考訳) 大規模言語モデル(LLM)は、特に医学分野で価値のある自然言語理解と生成の進歩を示す。 進歩にもかかわらず、医学的なタスクに固有の複雑さと多様性のために課題は継続され、知識集約的なタスクとアライメント要求タスクに分類される。 従来のアプローチでは後者のタスクを無視するか、少数のタスクに集中していたため、一般化が失われる。 これらの欠点に対処するため、我々はプログレッシブな微調整パイプラインを提案する。 このパイプラインは、ナレッジアグリゲータとノイズアグリゲータを使用して、最初の段階で多様な知識を符号化し、有害情報をフィルタリングする。 第2段階では、雑音アグリゲータを落として、最適下界表現の干渉を避けるとともに、知識空間への直交方向に最適化されたアライメントモジュールを活用して、知識の忘れを軽減します。 この2段階のパラダイムに基づいて、20以上の医療課題における最先端(SOTA)のパフォーマンスと、特定の医療アライメントタスクにおけるSOTA結果の達成を目的とした、臨床アライメントと知識アグリゲーション(MedCare)の分離による医療LLMを提案する。 MedCare (1.8B, 7B, 14B) の様々なモデルサイズは、いずれも類似のモデルサイズを持つ既存のモデルよりも大幅に改善されている。

Large language models (LLMs) have shown substantial progress in natural language understanding and generation, proving valuable especially in the medical field. Despite advancements, challenges persist due to the complexity and diversity inherent in medical tasks, which can be categorized as knowledge-intensive tasks and alignment-required tasks. Previous approaches either ignore the latter task or focus on a minority of tasks and hence lose generalization. To address these drawbacks, we propose a progressive fine-tuning pipeline. This pipeline employs a Knowledge Aggregator and a Noise aggregator to encode diverse knowledge in the first stage and filter out detrimental information. In the second stage, we drop the Noise Aggregator to avoid the interference of suboptimal representation and leverage an additional alignment module optimized towards an orthogonal direction to the knowledge space to mitigate knowledge forgetting. Based on this two-stage paradigm, we proposed a Medical LLM through decoupling Clinical Alignment and Knowledge Aggregation (MedCare), which is designed to achieve state-of-the-art (SOTA) performance on over 20 medical tasks, as well as SOTA results on specific medical alignment tasks. Various model sizes of MedCare (1.8B, 7B, 14B) all demonstrate significant improvements over existing models with similar model sizes.
翻訳日:2024-06-26 14:42:03 公開日:2024-06-25
# 弱めに監視されたリモートセンシングシャドウ除去のためのクロスモーダル球面凝集法

Cross-Modal Spherical Aggregation for Weakly Supervised Remote Sensing Shadow Removal ( http://arxiv.org/abs/2406.17469v1 )

ライセンス: Link先を確認
Kaichen Chi, Wei Jing, Junjie Li, Qiang Li, Qi Wang, (参考訳) リモートセンシングのシャドウ除去は、汚染された表面情報を復元することを目的としており、通常、影は照度が圧倒的に低いため、難しい。 対照的に、赤外線画像は重要な光の変化に対して堅牢であり、可視画像と相補的な視覚的手がかりを提供する。 しかし、既存の手法は不均一なモダリティ間の協調を無視し、望ましくない品質劣化を招いた。 このギャップを埋めるために、S2-ShadowNetと呼ばれる球面特徴空間を持つ弱教師付きシャドウ除去ネットワークを提案し、可視光と赤外光の両世界のベストを探索する。 具体的には、クロスドメインマッピングを学習するために、モーダル変換(可視赤外)モデルを使用し、現実的な赤外線サンプルを生成する。 次に、Swin Transformerを使用して、強い表現的可視/赤外線特徴を抽出する。 同時に、抽出された特徴は滑らかな球面多様体に写像され、正規化による領域シフトが緩和される。 良く設計された類似性損失と直交性損失は球面空間に埋め込まれており、表現内容と向きの両方の制約により、プライベート可視/赤外線特徴の分離と共有可視/赤外線特徴のアライメントが促される。 このようなやり方は、モダリティ間の暗黙の相互性を促進するため、影の除去に関する新しい洞察を与える。 そこでS2-ShadowNetはシャドウイメージ自体からシャドウやシャドウのないパッチをトリミングすることで、ステレオタイプと厳密なペアデータ取得を回避している。 さらに重要なことは、4000個のシャドウ画像と対応するシャドウマスクを含む、大規模に監督されたシャドウ除去ベンチマークに寄与する。

Remote sensing shadow removal, which aims to recover contaminated surface information, is tricky since shadows typically display overwhelmingly low illumination intensities. In contrast, the infrared image is robust toward significant light changes, providing visual clues complementary to the visible image. Nevertheless, the existing methods ignore the collaboration between heterogeneous modalities, leading to undesired quality degradation. To fill this gap, we propose a weakly supervised shadow removal network with a spherical feature space, dubbed S2-ShadowNet, to explore the best of both worlds for visible and infrared modalities. Specifically, we employ a modal translation (visible-to-infrared) model to learn the cross-domain mapping, thus generating realistic infrared samples. Then, Swin Transformer is utilized to extract strong representational visible/infrared features. Simultaneously, the extracted features are mapped to the smooth spherical manifold, which alleviates the domain shift through regularization. Well-designed similarity loss and orthogonality loss are embedded into the spherical space, prompting the separation of private visible/infrared features and the alignment of shared visible/infrared features through constraints on both representation content and orientation. Such a manner encourages implicit reciprocity between modalities, thus providing a novel insight into shadow removal. Notably, ground truth is not available in practice, thus S2-ShadowNet is trained by cropping shadow and shadow-free patches from the shadow image itself, avoiding stereotypical and strict pair data acquisition. More importantly, we contribute a large-scale weakly supervised shadow removal benchmark, including 4000 shadow images with corresponding shadow masks.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# フェデレーション学習による車車間通信の動的スケジューリング

Dynamic Scheduling for Vehicle-to-Vehicle Communications Enhanced Federated Learning ( http://arxiv.org/abs/2406.17470v1 )

ライセンス: Link先を確認
Jintao Yan, Tan Chen, Yuxuan Sun, Zhaojun Nan, Sheng Zhou, Zhisheng Niu, (参考訳) 車両のコンピューティングとセンシング機能を活用して、車両連系学習(VFL)が連結車両のエッジトレーニングに応用されている。 車両ネットワークの動的および相互接続性は、車両間直接通信(V2V)を利用するユニークな機会を示し、VFL訓練効率を向上させる。 本稿では,車両のエネルギー制約と移動性を考慮して,VFLトレーニング性能を最適化する確率的最適化問題を定式化し,その問題を解決するためにV2V強化動的スケジューリング(VEDS)アルゴリズムを提案する。 VFLのモデルアグリゲーション要件とモビリティによる送信時間制限は、段階的に目的関数となり、この問題を解決する上での課題が提示される。 そこで本研究では, 長期確率最適化問題をオンライン混合整数非線形プログラミング(MINLP)問題に変換する微分型ドリフト・プラス・ペナルティ法を提案し, オンライン解とオフライン最適解間の性能ギャップを限定する理論的解析を行った。 さらに、スケジューリング優先度の分析により、元の問題を一連の凸最適化問題に還元し、インテリアポイント法を用いて効率よく解決する。 実験結果から,CIFAR-10データセットにおける画像分類精度を3.18%向上し,Argoverse軌道予測データセットにおける平均変位誤差を10.21%低減した。

Leveraging the computing and sensing capabilities of vehicles, vehicular federated learning (VFL) has been applied to edge training for connected vehicles. The dynamic and interconnected nature of vehicular networks presents unique opportunities to harness direct vehicle-to-vehicle (V2V) communications, enhancing VFL training efficiency. In this paper, we formulate a stochastic optimization problem to optimize the VFL training performance, considering the energy constraints and mobility of vehicles, and propose a V2V-enhanced dynamic scheduling (VEDS) algorithm to solve it. The model aggregation requirements of VFL and the limited transmission time due to mobility result in a stepwise objective function, which presents challenges in solving the problem. We thus propose a derivative-based drift-plus-penalty method to convert the long-term stochastic optimization problem to an online mixed integer nonlinear programming (MINLP) problem, and provide a theoretical analysis to bound the performance gap between the online solution and the offline optimal solution. Further analysis of the scheduling priority reduces the original problem into a set of convex optimization problems, which are efficiently solved using the interior-point method. Experimental results demonstrate that compared with the state-of-the-art benchmarks, the proposed algorithm enhances the image classification accuracy on the CIFAR-10 dataset by 3.18% and reduces the average displacement errors on the Argoverse trajectory prediction dataset by 10.21%.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# 指向性ウィンドウアテンションを用いた医用画像のセグメンテーション

Medical Image Segmentation Using Directional Window Attention ( http://arxiv.org/abs/2406.17471v1 )

ライセンス: Link先を確認
Daniya Najiha Abdul Kareem, Mustansar Fiaz, Noa Novershtern, Hisham Cholakkal, (参考訳) 正確な医用画像のセグメンテーションは、細胞セグメンテーション、腫瘍の同定、臓器の局在などの診断目的に不可欠である。 従来の畳み込みニューラルネットワーク(CNN)ベースのアプローチは、受容領域が限られているため、正確なセグメンテーション結果を達成するのに苦労した。 トランスフォーマーベースのアプローチは、グローバルな受容場を活用することで、この制限に対処するが、ピクセル精度のセグメンテーションに必要なローカル情報をキャプチャする上で、しばしば課題に直面している。 本稿では,DwinFormerについて紹介する。DwinFormerは,指向性ウィンドウ(Dwin)と機能符号化のためのグローバル自己注意(GSA)からなる,医用画像セグメンテーションのための階層型エンコーダデコーダアーキテクチャである。 本設計の焦点はDwinFormer内におけるDwinブロックの導入であり,各方向のボリュームに注意を集中させることで,入力特徴マップの水平方向,垂直方向,深度方向の局所的および大域的情報を効果的にキャプチャする。 この目的のために、我々のドウィンブロックは、水平、垂直、深度方向の受容場を徐々に増加させるネストドウィンアテンション(NDA)と、アテンション計算のための局所的なコンテキスト情報をキャプチャする畳み込みドウィンアテンション(CDA)を導入している。 提案されたDwinブロックは、DwinFormerの最初の2つの高解像度ステージでローカルおよびグローバルな依存関係をキャプチャするが、GSAブロックは、最後の2つの低解像度ステージでグローバルな依存関係をエンコードする。 挑戦的な3D Synapse Multi-organデータセットとCell HMSデータセットに関する実験は、最先端アプローチに対するDwinFormerのメリットを実証しています。 ソースコードは \url{https://github.com/Daniyanaj/DWINFORMER} で公開されます。

Accurate segmentation of medical images is crucial for diagnostic purposes, including cell segmentation, tumor identification, and organ localization. Traditional convolutional neural network (CNN)-based approaches struggled to achieve precise segmentation results due to their limited receptive fields, particularly in cases involving multi-organ segmentation with varying shapes and sizes. The transformer-based approaches address this limitation by leveraging the global receptive field, but they often face challenges in capturing local information required for pixel-precise segmentation. In this work, we introduce DwinFormer, a hierarchical encoder-decoder architecture for medical image segmentation comprising a directional window (Dwin) attention and global self-attention (GSA) for feature encoding. The focus of our design is the introduction of Dwin block within DwinFormer that effectively captures local and global information along the horizontal, vertical, and depthwise directions of the input feature map by separately performing attention in each of these directional volumes. To this end, our Dwin block introduces a nested Dwin attention (NDA) that progressively increases the receptive field in horizontal, vertical, and depthwise directions and a convolutional Dwin attention (CDA) that captures local contextual information for the attention computation. While the proposed Dwin block captures local and global dependencies at the first two high-resolution stages of DwinFormer, the GSA block encodes global dependencies at the last two lower-resolution stages. Experiments over the challenging 3D Synapse Multi-organ dataset and Cell HMS dataset demonstrate the benefits of our DwinFormer over the state-of-the-art approaches. Our source code will be publicly available at \url{https://github.com/Daniyanaj/DWINFORMER}.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# UHD-IQAベンチマークデータベース:ブラインド写真品質評価の境界を押し上げる

UHD-IQA Benchmark Database: Pushing the Boundaries of Blind Photo Quality Assessment ( http://arxiv.org/abs/2406.17472v1 )

ライセンス: Link先を確認
Vlad Hosu, Lorenzo Agnolucci, Oliver Wiedemann, Daisuke Iso, (参考訳) 固定幅3840ピクセルの6073 UHD-1 (4K) 画像からなる画像品質評価(IQA)データセットを提案する。 既存のNo-Reference (NR) IQAデータセットとは対照的に、我々の研究は高い技術的品質の高度に美的な写真に焦点を当てており、文献のギャップを埋めている。 画像は、合成内容を排除するために慎重にキュレートされ、一般的なNR-IQAモデルを訓練するのに十分な多様性がある。 データセットには、クラウドソーシング調査を通じて得られた知覚的品質評価が注釈付けされている。 写真家とグラフィックアーティストからなる10人の専門家ラッカーは、複数のセッションで少なくとも2回は画像を評価し、信頼性の高いラベルを生み出した。 アノテーションは信頼性を確保するために、自己整合性を含むいくつかの指標に基づいて厳選された。 データセットには、5000以上のカテゴリのユーザとマシン生成タグによる豊富なメタデータと、お気に入り、お気に入り、ダウンロード、ビューなどの人気指標が含まれている。 高品質な画像、信頼できるクラウドソースアノテーション、高アノテーション解決などの特徴により、我々のデータセットは、知覚的画像品質評価研究を推進し、現代の写真に適用可能な実用的なNR-IQAモデルを開発する新たな機会を開く。 私たちのデータセットはhttps://database.mmsp-kn.de/uhd-iqa-benchmark-database.htmlで公開されています。

We introduce a novel Image Quality Assessment (IQA) dataset comprising 6073 UHD-1 (4K) images, annotated at a fixed width of 3840 pixels. Contrary to existing No-Reference (NR) IQA datasets, ours focuses on highly aesthetic photos of high technical quality, filling a gap in the literature. The images, carefully curated to exclude synthetic content, are sufficiently diverse to train general NR-IQA models. The dataset is annotated with perceptual quality ratings obtained through a crowdsourcing study. Ten expert raters, comprising photographers and graphics artists, assessed each image at least twice in multiple sessions spanning several days, resulting in highly reliable labels. Annotators were rigorously selected based on several metrics, including self-consistency, to ensure their reliability. The dataset includes rich metadata with user and machine-generated tags from over 5,000 categories and popularity indicators such as favorites, likes, downloads, and views. With its unique characteristics, such as its focus on high-quality images, reliable crowdsourced annotations, and high annotation resolution, our dataset opens up new opportunities for advancing perceptual image quality assessment research and developing practical NR-IQA models that apply to modern photos. Our dataset is available at https://database.mmsp-kn.de/uhd-iqa-benchmark-database.html
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# TSynD:医用画像分類のためのターゲット合成データ生成

TSynD: Targeted Synthetic Data Generation for Enhanced Medical Image Classification ( http://arxiv.org/abs/2406.17473v1 )

ライセンス: Link先を確認
Joshua Niemeijer, Jan Ehrhardt, Hristina Uzunova, Heinz Handels, (参考訳) 大規模な機械学習アプローチのトレーニングに医療画像データを使用することは、可用性の不足とコストのかかるデータアノテーションの生成により、特に困難である。 生成モデルの迅速な開発により、トレーニングプロセスに大量のリアルな合成データを活用することにより、この問題に取り組むことができる。 しかし、ランダムに合成サンプルを選択することは最適な戦略ではないかもしれない。 本研究では,画像分類の精度とロバスト性を改善するために,合成トレーニングデータのターゲット生成について検討する。 そこで本研究では, 認識不確実性の高いデータ生成モデルを指導し, 認識不確実性の高いデータ生成モデルを構築することを目的としている。 画像生成中に、自動エンコーダによって再構成された画像を分類器に供給し、不確実性の尺度としてクラス確率分布上の相互情報を計算し、デコードされた画像上の分類器の不確実性を最大化することを目的として、最適化プロセスを通じてオートエンコーダの特徴空間を変更する。 このようなデータに基づいてトレーニングすることで,複数の分類タスクに対するテスト時間データ強化と敵攻撃に対する性能と堅牢性を向上させることができる。

The usage of medical image data for the training of large-scale machine learning approaches is particularly challenging due to its scarce availability and the costly generation of data annotations, typically requiring the engagement of medical professionals. The rapid development of generative models allows towards tackling this problem by leveraging large amounts of realistic synthetically generated data for the training process. However, randomly choosing synthetic samples, might not be an optimal strategy. In this work, we investigate the targeted generation of synthetic training data, in order to improve the accuracy and robustness of image classification. Therefore, our approach aims to guide the generative model to synthesize data with high epistemic uncertainty, since large measures of epistemic uncertainty indicate underrepresented data points in the training set. During the image generation we feed images reconstructed by an auto encoder into the classifier and compute the mutual information over the class-probability distribution as a measure for uncertainty.We alter the feature space of the autoencoder through an optimization process with the objective of maximizing the classifier uncertainty on the decoded image. By training on such data we improve the performance and robustness against test time data augmentations and adversarial attacks on several classifications tasks.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# 複合データ表現を用いたトランスフォーマに基づく名前付きエンティティ認識

Transformer-based Named Entity Recognition with Combined Data Representation ( http://arxiv.org/abs/2406.17474v1 )

ライセンス: Link先を確認
Michał Marcińczuk, (参考訳) 本研究では、名前付きエンティティ認識タスクにおけるトランスフォーマーモデルとその有効性について検討する。 本研究は,1つの文,複数の文,および1ベクトルあたりの文脈に注意を払って結合された文をそれぞれ使用する単一,合併,文脈を含むデータ表現戦略について検討した。 分析によると、単一の戦略でトレーニングモデルを実行すると、異なるデータ表現のパフォーマンスが低下する可能性がある。 この制限に対処するために、モデル安定性と適応性を改善するために3つの戦略全てを利用する統合トレーニング手法を提案する。 このアプローチの結果は、様々なデータセットにわたる4つの言語(英語、ポーランド語、チェコ語、ドイツ語)に対して提示され、議論され、統合戦略の有効性が示されている。

This study examines transformer-based models and their effectiveness in named entity recognition tasks. The study investigates data representation strategies, including single, merged, and context, which respectively use one sentence, multiple sentences, and sentences joined with attention to context per vector. Analysis shows that training models with a single strategy may lead to poor performance on different data representations. To address this limitation, the study proposes a combined training procedure that utilizes all three strategies to improve model stability and adaptability. The results of this approach are presented and discussed for four languages (English, Polish, Czech, and German) across various datasets, demonstrating the effectiveness of the combined strategy.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# ストラテジックエージェントによる公正露光最適化を用いたレコメンダシステムにおける変形性デビア

Performative Debias with Fair-exposure Optimization Driven by Strategic Agents in Recommender Systems ( http://arxiv.org/abs/2406.17475v1 )

ライセンス: Link先を確認
Zhichen Xiang, Hongke Zhao, Chuang Zhao, Ming He, Jianping Fan, (参考訳) データバイアス、例えば、人気はレコメンデーターシステム内の両側の市場のダイナミクスを損なう。 このことは、あまり目立たないが、ユーザーの興味をとらえるロングテールアイテムを覆い隠すことになる。 この問題を取り巻く研究が豊富にあるにもかかわらず、依然として課題を提起し、学術界ではホットな話題となっている。 そこで本稿では,戦略的エージェントによって駆動される公正な露光最適化による動的セッティングにおける階層的アプローチについて述べる。 プロデューサー側のために設計されたエージェントの実行は、コンテンツ制作者が露出を最大化するために戦略的インセンティブに基づいてアイテム機能を変更できると仮定する。 この反復処理はエンドツーエンドの最適化を伴い、精度と公正性を同時にターゲットとする微分可能なランキング演算子を使用する。 共同目標は、テールアイテムの視認性を高めながらレコメンデーションのパフォーマンスを確保することである。 また、予測の性能特性を活用して、戦略的学習がコンテンツクリエーターに効果的に公正性への転換にどう影響するかを示し、テールアイテムの特徴を動機づけた。 公立および工業用両方のデータセットに関する総合的な実験を通じて,提案手法の有効性と優位性を実証し,特にテールアイテムの可能性を明らかにする。

Data bias, e.g., popularity impairs the dynamics of two-sided markets within recommender systems. This overshadows the less visible but potentially intriguing long-tail items that could capture user interest. Despite the abundance of research surrounding this issue, it still poses challenges and remains a hot topic in academic circles. Along this line, in this paper, we developed a re-ranking approach in dynamic settings with fair-exposure optimization driven by strategic agents. Designed for the producer side, the execution of agents assumes content creators can modify item features based on strategic incentives to maximize their exposure. This iterative process entails an end-to-end optimization, employing differentiable ranking operators that simultaneously target accuracy and fairness. Joint objectives ensure the performance of recommendations while enhancing the visibility of tail items. We also leveraged the performativity nature of predictions to illustrate how strategic learning influences content creators to shift towards fairness efficiently, thereby incentivizing features of tail items. Through comprehensive experiments on both public and industrial datasets, we have substantiated the effectiveness and dominance of the proposed method especially on unveiling the potential of tail items.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# TRIP:イベントベースビジョンに基づくハードウェア効率の良いニューロモルフィック処理のための学習領域の関心領域予測

TRIP: Trainable Region-of-Interest Prediction for Hardware-Efficient Neuromorphic Processing on Event-based Vision ( http://arxiv.org/abs/2406.17483v1 )

ライセンス: Link先を確認
Cina Arjmand, Yingfu Xu, Kevin Shidqi, Alexandra F. Dobrita, Kanishkan Vadivel, Paul Detterer, Manolis Sifalakis, Amirreza Yousefzadeh, Guangzhi Tang, (参考訳) ニューロモルフィックプロセッサは、イベントベースのカメラからのスパースイベントを効率的に処理するのに適している。 しかし、入力解像度が増大するにつれて、コンピューティングの需要とハードウェアコストが増大する中で、大きな課題に直面している。 本稿では,ニューロモルフィックプロセッサ上でのイベントベースの視覚処理のためのハードウェア効率の高い最初のハードアテンションフレームワークであるTraiable Region-of-Interest Prediction (TRIP)を提案する。 我々のTRIPフレームワークは、効率的かつ正確な分類のために、低解像度のRerea-of-Interest(ROI)を積極的に生成する。 このフレームワークはスパースイベント固有の低情報密度を利用してROI予測のオーバーヘッドを低減する。 TRIPのハードウェア対応最適化を導入し,SENECAニューロモーフィックプロセッサ上でハードウェア最適化アルゴリズムを実装した。 複数のイベントベース分類データセットを用いて評価を行った。 提案手法は,すべてのデータセットにおける最先端の精度を実現し,位置や大きさの異なる適切なROIを生成する。 DvsGestureデータセットでは、我々の解は最先端の計算よりも46倍少ない精度で計算できる。 さらに、TRIPは従来のソリューションに比べて2倍以上のレイテンシとエネルギーをSENECAニューロモルフィックプロセッサ上で実現している。

Neuromorphic processors are well-suited for efficiently handling sparse events from event-based cameras. However, they face significant challenges in the growth of computing demand and hardware costs as the input resolution increases. This paper proposes the Trainable Region-of-Interest Prediction (TRIP), the first hardware-efficient hard attention framework for event-based vision processing on a neuromorphic processor. Our TRIP framework actively produces low-resolution Region-of-Interest (ROIs) for efficient and accurate classification. The framework exploits sparse events' inherent low information density to reduce the overhead of ROI prediction. We introduced extensive hardware-aware optimizations for TRIP and implemented the hardware-optimized algorithm on the SENECA neuromorphic processor. We utilized multiple event-based classification datasets for evaluation. Our approach achieves state-of-the-art accuracies in all datasets and produces reasonable ROIs with varying locations and sizes. On the DvsGesture dataset, our solution requires 46x less computation than the state-of-the-art while achieving higher accuracy. Furthermore, TRIP enables more than 2x latency and energy improvements on the SENECA neuromorphic processor compared to the conventional solution.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# WAVE:可変サイズのモデルの適応初期化のためのウェイトテンプレート

WAVE: Weight Template for Adaptive Initialization of Variable-sized Models ( http://arxiv.org/abs/2406.17503v1 )

ライセンス: Link先を確認
Fu Feng, Yucheng Xie, Jing Wang, Xin Geng, (参考訳) モデルパラメータの拡張は、事前訓練されたモデルの重要性を浮き彫りにするが、モデル展開時に発生する制約は、変数サイズのモデルを必要とする。 その結果、従来の事前学習および微調整のパラダイムは、目標モデルが事前訓練モデルと互換性がない場合に初期化の問題に対処できない。 マルチタスクの観点からこの問題に取り組み,共有された \textbf{W}eight テンプレートを組み込んだ \textbf{V}ariable-siz\textbf{E}d モデルを導入する。 初期化の間、ターゲットモデルはモデルサイズに合わせて対応するウェイトスケーラを初期化するが、これは限られたデータ量からクロネッカー積に基づくウェイトテンプレートの接続ルールを学ぶのに十分である。 重みテンプレートの構築には、祖先モデルからの共通知識を知識蒸留による学習遺伝子として重みテンプレートに構造的に凝縮する「textit{Learngene} framework」を用いる。 このプロセスは、トレーニング済みモデルの知識を重みテンプレートの規則に従って構造化された知識に統合することを可能にする。 本稿では,学習遺伝子に対する総合的なベンチマークを行い,WAVEの有効性を実証した。 その結果、WAVEは、様々な深さと幅のモデルの初期化時に最先端の性能を達成し、特に小型モデルでは、それぞれ$n\times$および$5\times$の計算資源において、$n$モデルの直接事前学習よりも優れていた。 WAVEは、一連のデータセットをまたいだ最も効率的な知識伝達を同時に達成し、特に7つの下流データセットで1.8\%と1.2\%の平均的な改善を達成する。

The expansion of model parameters underscores the significance of pre-trained models; however, the constraints encountered during model deployment necessitate models of variable sizes. Consequently, the traditional pre-training and fine-tuning paradigm fails to address the initialization problem when target models are incompatible with pre-trained models. We tackle this issue from a multitasking perspective and introduce \textbf{WAVE}, which incorporates a set of shared \textbf{W}eight templates for \textbf{A}daptive initialization of \textbf{V}ariable-siz\textbf{E}d Models. During initialization, target models will initialize the corresponding weight scalers tailored to their model size, which are sufficient to learn the connection rules of weight templates based on the Kronecker product from a limited amount of data. For the construction of the weight templates, WAVE utilizes the \textit{Learngene} framework, which structurally condenses common knowledge from ancestry models into weight templates as the learngenes through knowledge distillation. This process allows the integration of pre-trained models' knowledge into structured knowledge according to the rules of weight templates. We provide a comprehensive benchmark for the learngenes, and extensive experiments demonstrate the efficacy of WAVE. The results show that WAVE achieves state-of-the-art performance when initializing models with various depth and width, and even outperforms the direct pre-training of $n$ entire models, particularly for smaller models, saving approximately $n\times$ and $5\times$ in computational and storage resources, respectively. WAVE simultaneously achieves the most efficient knowledge transfer across a series of datasets, specifically achieving an average improvement of 1.8\% and 1.2\% on 7 downstream datasets.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# 言語モデルにおけるメンタル状態表現のベンチマーク

Benchmarking Mental State Representations in Language Models ( http://arxiv.org/abs/2406.17513v1 )

ライセンス: Link先を確認
Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling, (参考訳) 言語モデル(LM)は、心の理論の推論を必要とするタスクにおいて、多くの研究が生成性能を評価してきたが、モデルの内部的な精神状態の表現に関する研究は依然として限られている。 最近の研究は、LMが自分自身や他人の信念を表現できることを示すのに、プローブを用いている。 しかし、これらの主張には限定的な評価が伴い、モデル設計とトレーニング選択によって精神状態がどう影響するかを評価することは困難である。 本報告では,様々なモデルサイズ,微調整アプローチ,知的状態表現のロバスト性や,プローブ内の暗記問題などについて検討する設計を促すため,様々なLMタイプを用いた広範囲なベンチマークを報告する。 以上の結果から,他者の信念に対するモデルの内部表現の質は,モデルのサイズによって向上し,さらに重要なことは微調整によって向上することが示唆された。 我々は,素早い変化が心的タスクの理論における探索的パフォーマンスにどのように影響するかを初めて研究する。 モデル表現は、たとえそのようなバリエーションが有益であるとしても、迅速な変動に敏感であることを示す。 最後に、マインド理論における過去のアクティベーション編集実験を補完し、プローブを訓練することなく、それらのアクティベーションを操ることで、モデルの推論性能を向上させることができることを示す。

While numerous works have assessed the generative performance of language models (LMs) on tasks requiring Theory of Mind reasoning, research into the models' internal representation of mental states remains limited. Recent work has used probing to demonstrate that LMs can represent beliefs of themselves and others. However, these claims are accompanied by limited evaluation, making it difficult to assess how mental state representations are affected by model design and training choices. We report an extensive benchmark with various LM types with different model sizes, fine-tuning approaches, and prompt designs to study the robustness of mental state representations and memorisation issues within the probes. Our results show that the quality of models' internal representations of the beliefs of others increases with model size and, more crucially, with fine-tuning. We are the first to study how prompt variations impact probing performance on theory of mind tasks. We demonstrate that models' representations are sensitive to prompt variations, even when such variations should be beneficial. Finally, we complement previous activation editing experiments on Theory of Mind tasks and show that it is possible to improve models' reasoning performance by steering their activations without the need to train any probe.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# 類似度蒸留によるグラフオートエンコーダのノード識別性保持

Preserving Node Distinctness in Graph Autoencoders via Similarity Distillation ( http://arxiv.org/abs/2406.17517v1 )

ライセンス: Link先を確認
Ge Chen, Yulan Hu, Sheng Ouyang, Yong Liu, Cuicui Luo, (参考訳) グラフオートエンコーダ (GAE) は, 生成的自己教師型学習手法の一種であり, 近年大きな可能性を示している。 GAEは通常、平均二乗誤差(MSE)のような距離ベースの基準に頼り、入力グラフを再構築する。 しかし、単一の再構成基準のみに依存すると、再構成されたグラフの特異性が失われ、ノードが同様の表現に崩壊し、準最適性能がもたらされる可能性がある。 この問題に対処するために、再構築されたグラフにおける必要な相違性を維持するための、シンプルで効果的な戦略を開発した。 知識蒸留技術に着想を得て,GAEの二重エンコーダデコーダアーキテクチャを教師-学生関係とみなすことができた。 そこで本研究では,単純なKL制約によって達成された生グラフから再構成グラフへの相違点の知識の移譲を提案する。 具体的には、生グラフと再構成グラフのペアワイズノード類似度スコアを計算する。 トレーニングプロセス中、KL制約は再構築基準とともに最適化される。 我々は3種類のグラフタスクにまたがる広範な実験を行い、戦略の有効性と汎用性を実証した。 提案手法は,曖昧な再構成を回避し,全体的な性能を向上させるために,プラグアンドプレイ法として利用できることを示す。

Graph autoencoders (GAEs), as a kind of generative self-supervised learning approach, have shown great potential in recent years. GAEs typically rely on distance-based criteria, such as mean-square-error (MSE), to reconstruct the input graph. However, relying solely on a single reconstruction criterion may lead to a loss of distinctiveness in the reconstructed graph, causing nodes to collapse into similar representations and resulting in sub-optimal performance. To address this issue, we have developed a simple yet effective strategy to preserve the necessary distinctness in the reconstructed graph. Inspired by the knowledge distillation technique, we found that the dual encoder-decoder architecture of GAEs can be viewed as a teacher-student relationship. Therefore, we propose transferring the knowledge of distinctness from the raw graph to the reconstructed graph, achieved through a simple KL constraint. Specifically, we compute pairwise node similarity scores in the raw graph and reconstructed graph. During the training process, the KL constraint is optimized alongside the reconstruction criterion. We conducted extensive experiments across three types of graph tasks, demonstrating the effectiveness and generality of our strategy. This indicates that the proposed approach can be employed as a plug-and-play method to avoid vague reconstructions and enhance overall performance.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# 知識学習経路の説明可能性を高める:因果的知識ネットワーク

Enhancing Explainability of Knowledge Learning Paths: Causal Knowledge Networks ( http://arxiv.org/abs/2406.17518v1 )

ライセンス: Link先を確認
Yuang Wei, Yizhou Zhou, Yuan-Hao Jiang, Bo Jiang, (参考訳) 信頼できる知識構造は、効果的な適応学習システムと知的学習システムを構築するための前提条件である。 そこで本研究では,因果的知識ネットワークを構築する方法を提案する。 このアプローチはベイジアンネットワークを基礎として利用し、因果関係解析を取り入れて因果関係ネットワークを導出する。 さらに,この枠組みに基づいて構築されたHuman-Centric eXplainable AI in Education技術により,意思決定プロセスにおける透明性を維持しつつ,教育と学習の質を向上させることができる。

A reliable knowledge structure is a prerequisite for building effective adaptive learning systems and intelligent tutoring systems. Pursuing an explainable and trustworthy knowledge structure, we propose a method for constructing causal knowledge networks. This approach leverages Bayesian networks as a foundation and incorporates causal relationship analysis to derive a causal network. Additionally, we introduce a dependable knowledge-learning path recommendationHuman-Centric eXplainable AI in Education technique built upon this framework, improving teaching and learning quality while maintaining transparency in the decision-making process.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# 検索型大規模言語モデルのエントロピーに基づく復号化

Entropy-Based Decoding for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2406.17519v1 )

ライセンス: Link先を確認
Zexuan Qiu, Zijing Ou, Bin Wu, Jingjing Li, Aiwei Liu, Irwin King, (参考訳) 外部知識を抽出したLarge Language Models (LLM) の拡張は、生成した応答の事実的正確性を改善するのに有効であることが証明されている。 その成功にもかかわらず、検索強化LDMは、外部と内部の両方の知識源からのノイズによって生成された応答が負の影響を受けるという、散逸性の問題に直面している。 本稿では,この問題を緩和するために,エントロピーを考慮した学習自由復号法を提案する。 提案手法では,エントロピーに基づく文書並列アンサンブル復号法を用いて,検索した文書から低エントロピー分布を優先し,関連するコンテキスト情報の抽出を強化する。 さらに、得られた低エントロピーアンサンブル分布と、モデルの内部知識から層間における高エントロピー分布とを対比するコントラッシブデコーディング機構を導入し、信頼性の高い外部情報に重点を置いている。 オープンドメイン質問応答データセットの大規模な実験により,本手法の優位性が示された。

Augmenting Large Language Models (LLMs) with retrieved external knowledge has proven effective for improving the factual accuracy of generated responses. Despite their success, retrieval-augmented LLMs still face the distractibility issue, where the generated responses are negatively influenced by noise from both external and internal knowledge sources. In this paper, we introduce a novel, training-free decoding method guided by entropy considerations to mitigate this issue. Our approach utilizes entropy-based document-parallel ensemble decoding to prioritize low-entropy distributions from retrieved documents, thereby enhancing the extraction of relevant information of context. Additionally, it incorporates a contrastive decoding mechanism that contrasts the obtained low-entropy ensemble distribution with the high-entropy distribution derived from the model's internal knowledge across layers, which ensures a greater emphasis on reliable external information. Extensive experiments on open-domain question answering datasets demonstrate the superiority of our method.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# 場所を教えてくれ:マルチモーダルのLLMは場所認識と出会う

Tell Me Where You Are: Multimodal LLMs Meet Place Recognition ( http://arxiv.org/abs/2406.17520v1 )

ライセンス: Link先を確認
Zonglin Lyu, Juexiao Zhang, Mingxuan Lu, Yiming Li, Chen Feng, (参考訳) 大型言語モデル(LLM)は、長い水平計画や常識推論など、ロボット工学において様々な有望な能力を示す。 しかし、位置認識における彼らの業績はまだ未定である。 本研究では,視覚的位置認識(VPR)にMLLM(Multimodal LLM)を導入する。 我々のキーとなる設計は、視覚に基づく検索を用いて、いくつかの候補を提案し、言語に基づく推論を利用して、最終決定のために各候補を慎重に検査することである。 具体的には、市販のビジョンファウンデーションモデル(VFM)が生み出すロバストな視覚的特徴を活用して、いくつかの候補位置を求める。 次に、MLLMに対して、現在の観測結果と各候補との差異を相互に記述し、これらの記述に基づいて最適な候補を推論するように促す。 MLLMの推論能力とVFMの汎用的な視覚的特徴を統合することで,VPR固有の教師付きトレーニングを必要とせず,効果的な位置認識ソリューションがすでに実現されていることを,3つのデータセットで示している。 我々は,VFM,LLM,MLLMといった基礎モデルの適用と設計に新たな可能性をもたらし,移動ロボットのローカライゼーションとナビゲーションを強化することができると信じている。

Large language models (LLMs) exhibit a variety of promising capabilities in robotics, including long-horizon planning and commonsense reasoning. However, their performance in place recognition is still underexplored. In this work, we introduce multimodal LLMs (MLLMs) to visual place recognition (VPR), where a robot must localize itself using visual observations. Our key design is to use vision-based retrieval to propose several candidates and then leverage language-based reasoning to carefully inspect each candidate for a final decision. Specifically, we leverage the robust visual features produced by off-the-shelf vision foundation models (VFMs) to obtain several candidate locations. We then prompt an MLLM to describe the differences between the current observation and each candidate in a pairwise manner, and reason about the best candidate based on these descriptions. Our results on three datasets demonstrate that integrating the general-purpose visual features from VFMs with the reasoning capabilities of MLLMs already provides an effective place recognition solution, without any VPR-specific supervised training. We believe our work can inspire new possibilities for applying and designing foundation models, i.e., VFMs, LLMs, and MLLMs, to enhance the localization and navigation of mobile robots.
翻訳日:2024-06-26 14:32:18 公開日:2024-06-25
# スピントルクによるペンタセン分子の単一スピンの電子常磁性共鳴

Spin torque driven electron paramagnetic resonance of a single spin in a pentacene molecule ( http://arxiv.org/abs/2406.17522v1 )

ライセンス: Link先を確認
Stepan Kovarik, Richard Schlitz, Aishwarya Vishwakarma, Dominic Ruckert, Pietro Gambardella, Sebastian Stepanow, (参考訳) 量子系の制御は通常、時間依存の電場または磁場によって達成される。 あるいは、電子スピンはスピン偏極電流によって制御できる。 ここでは、走査トンネル顕微鏡の先端から有機分子に注入された高周波スピン偏極電流による単一スピンのコヒーレント駆動を実証する。 電子常磁性共鳴の励起により、局所電流を用いたスピントルクによる単一スピンの動的制御を確立した。 さらに、制御されたデコヒーレンスに基づく個々のスピンの操作を可能にする磁場の非散逸作用とは対照的に、スピン移動トルクの散逸作用を強調した。

Control over quantum systems is typically achieved by time-dependent electric or magnetic fields. Alternatively, electronic spins can be controlled by spin-polarized currents. Here we demonstrate coherent driving of a single spin by a radiofrequency spin-polarized current injected from the tip of a scanning tunneling microscope into an organic molecule. With the excitation of electron paramagnetic resonance, we established dynamic control of single spins by spin torque using a local electric current. In addition our work highlights the dissipative action of the spin-transfer torque, in contrast to the nondissipative action of the magnetic field, which allows for the manipulation of individual spins based on controlled decoherence.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# 値に基づく深部強化学習におけるハイパーパラメータ選択の整合性について

On the consistency of hyper-parameter selection in value-based deep reinforcement learning ( http://arxiv.org/abs/2406.17523v1 )

ライセンス: Link先を確認
Johan Obando-Ceron, João G. M. Araújo, Aaron Courville, Pablo Samuel Castro, (参考訳) 深部強化学習(深部RL)は,アルゴリズム設計と高パラメータの慎重に選択することで,様々な領域で大きな成功を収めている。 アルゴリズムの改良は、しばしば以前の手法に基づく反復的な拡張の結果であり、一方、ハイパーパラメータの選択は、通常、従来の手法から継承されるか、提案手法のために特別に微調整される。 性能に重大な影響を与えるにもかかわらず、ハイパーパラメータの選択はアルゴリズムの進歩によってしばしば隠れている。 本稿では,様々なハイパーパラメータの一貫性と信頼性を定量化するための新しいスコアの導入を含む,価値に基づく深層強化学習エージェントのハイパーパラメータ選択の信頼性に着目した広範な実証的研究を行う。 我々の発見は、どのハイパーパラメーターがチューニングに最も重要かを確立するのに役立つだけでなく、異なるトレーニング体制間でどのチューニングが一貫性を持ち続けるかを明らかにするのにも役立ちます。

Deep reinforcement learning (deep RL) has achieved tremendous success on various domains through a combination of algorithmic design and careful selection of hyper-parameters. Algorithmic improvements are often the result of iterative enhancements built upon prior approaches, while hyper-parameter choices are typically inherited from previous methods or fine-tuned specifically for the proposed technique. Despite their crucial impact on performance, hyper-parameter choices are frequently overshadowed by algorithmic advancements. This paper conducts an extensive empirical study focusing on the reliability of hyper-parameter selection for value-based deep reinforcement learning agents, including the introduction of a new score to quantify the consistency and reliability of various hyper-parameters. Our findings not only help establish which hyper-parameters are most critical to tune, but also help clarify which tunings remain consistent across different training regimes.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# LumberChunker: 長期にわたるナラティブなドキュメントセグメンテーション

LumberChunker: Long-Form Narrative Document Segmentation ( http://arxiv.org/abs/2406.17526v1 )

ライセンス: Link先を確認
André V. Duarte, João Marques, Miguel Graça, Miguel Freire, Lei Li, Arlindo L. Oliveira, (参考訳) 現代のNLPタスクは、最新の関連するコンテキスト情報にアクセスするために、より密集した検索手法に依存している。 私たちは、コンテンツのセマンティックな独立性がより捕えられるように、サイズが変化するセグメントから、検索が恩恵を受けるという前提に動機付けられています。 LLMを利用して動的に文書を分割する手法であるLumberChunkerを提案する。 提案手法を評価するため,Project Gutenbergで公開されている100冊のパブリックドメイン物語書から,3000冊の「干し草に潜む」タイプの質問応答対のベンチマークであるGutenQAを紹介した。 我々の実験によると、LumberChunkerは検索性能(DCG@20)が7.37%向上するだけでなく、RAGパイプラインに統合された場合、Gemini 1.5M Proのような他のチャンキング手法や競争ベースラインよりも効果的であることが証明された。 私たちのコードとデータはhttps://github.com/joaodsmarques/LumberChunkerで公開されています。

Modern NLP tasks increasingly rely on dense retrieval methods to access up-to-date and relevant contextual information. We are motivated by the premise that retrieval benefits from segments that can vary in size such that a content's semantic independence is better captured. We propose LumberChunker, a method leveraging an LLM to dynamically segment documents, which iteratively prompts the LLM to identify the point within a group of sequential passages where the content begins to shift. To evaluate our method, we introduce GutenQA, a benchmark with 3000 "needle in a haystack" type of question-answer pairs derived from 100 public domain narrative books available on Project Gutenberg. Our experiments show that LumberChunker not only outperforms the most competitive baseline by 7.37% in retrieval performance (DCG@20) but also that, when integrated into a RAG pipeline, LumberChunker proves to be more effective than other chunking methods and competitive baselines, such as the Gemini 1.5M Pro. Our Code and Data are available at https://github.com/joaodsmarques/LumberChunker
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# ポイントクラウド登録のためのポイントツリー変換器

Point Tree Transformer for Point Cloud Registration ( http://arxiv.org/abs/2406.17530v1 )

ライセンス: Link先を確認
Meiling Wang, Guangyan Chen, Yi Yang, Li Yuan, Yufeng Yue, (参考訳) ポイントクラウド登録は、コンピュータビジョンとロボティクスの分野における基本的なタスクである。 変圧器を用いた手法の最近の進歩は、この領域における性能の向上を実証している。 しかし、これらの手法で使用される標準的な注意機構は、しばしば多くの低関連点を統合し、少ないが意味のある点に注意重みを優先順位付けるのに苦労する。 この非効率さは限定的な局所構造モデリング能力と二次計算複雑性をもたらす。 これらの制約を克服するために,点木変換器 (PTT) を提案する。点木変換器は,線形計算複雑性を維持しながら局所的および大域的特徴を効率的に抽出する,点クラウド登録のための新しい変換器ベースのアプローチである。 PTTは、点雲から粗雑な方法で階層的な特徴木を構築し、新しくPTA(Point Tree Attention)機構を導入する。 具体的には、各木層は、注目スコアが最も高いキーポイントのサブセットを選択的に識別する。 その後のレイヤは、選択された点集合の育点から派生した、重要な関連性のある領域に注目する。 特徴抽出プロセスには、高レベルの意味情報をキャプチャする粗い点特徴も組み込まれ、局所構造モデリングやマルチスケール情報のプログレッシブな統合が容易になる。 その結果、PTAはモデルに重要な局所構造に集中させ、線形計算複雑性を維持しながら詳細な局所情報を導出する権限を与える。 3DMatch, ModelNet40 および KITTI データセットを用いて行った実験により,本手法が最先端手法よりも優れた性能を実現することを示す。

Point cloud registration is a fundamental task in the fields of computer vision and robotics. Recent developments in transformer-based methods have demonstrated enhanced performance in this domain. However, the standard attention mechanism utilized in these methods often integrates many low-relevance points, thereby struggling to prioritize its attention weights on sparse yet meaningful points. This inefficiency leads to limited local structure modeling capabilities and quadratic computational complexity. To overcome these limitations, we propose the Point Tree Transformer (PTT), a novel transformer-based approach for point cloud registration that efficiently extracts comprehensive local and global features while maintaining linear computational complexity. The PTT constructs hierarchical feature trees from point clouds in a coarse-to-dense manner, and introduces a novel Point Tree Attention (PTA) mechanism, which follows the tree structure to facilitate the progressive convergence of attended regions towards salient points. Specifically, each tree layer selectively identifies a subset of key points with the highest attention scores. Subsequent layers focus attention on areas of significant relevance, derived from the child points of the selected point set. The feature extraction process additionally incorporates coarse point features that capture high-level semantic information, thus facilitating local structure modeling and the progressive integration of multiscale information. Consequently, PTA empowers the model to concentrate on crucial local structures and derive detailed local information while maintaining linear computational complexity. Extensive experiments conducted on the 3DMatch, ModelNet40, and KITTI datasets demonstrate that our method achieves superior performance over the state-of-the-art methods.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# LLMに基づくダイバーシティ認識のためのニュアンスとの人間-ロボットインタラクションの強化

Enhancing LLM-Based Human-Robot Interaction with Nuances for Diversity Awareness ( http://arxiv.org/abs/2406.17531v1 )

ライセンス: Link先を確認
Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa, (参考訳) 本稿では,大規模言語モデル(LLM)の機能を活用した多様性を考慮した自律会話システムを提案する。 このシステムは、背景、性格、年齢、性別、文化といった要因を考慮して、多様な人口や個人に適応する。 会話の流れは、事前に確立された知識ベースの構造によって導かれる一方、LLMは多様性に敏感な文を生成するなど、様々な機能を担っている。 多様性を認識するには、ユーザー、会話履歴、文脈の詳細、特定のガイドラインに関する包括的な情報を含め、モデルに慎重に工夫されたプロンプトを提供する必要がある。 システムの性能を評価するため,制御と実環境の両方の実験を行い,幅広い性能指標を測定した。

This paper presents a system for diversity-aware autonomous conversation leveraging the capabilities of large language models (LLMs). The system adapts to diverse populations and individuals, considering factors like background, personality, age, gender, and culture. The conversation flow is guided by the structure of the system's pre-established knowledge base, while LLMs are tasked with various functions, including generating diversity-aware sentences. Achieving diversity-awareness involves providing carefully crafted prompts to the models, incorporating comprehensive information about users, conversation history, contextual details, and specific guidelines. To assess the system's performance, we conducted both controlled and real-world experiments, measuring a wide range of performance indicators.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# 大規模言語モデルはDL-Liteオントロジーに理解できるか? : 実証的研究

Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study ( http://arxiv.org/abs/2406.17532v1 )

ライセンス: Link先を確認
Keyu Wang, Guilin Qi, Jiaqi Li, Songlin Zhai, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクを解く上で大きな成果を上げている。 近年,LLMの記号的知識の蓄積,検索,推論能力に注目が集まっており,構造化情報を理解する可能性を示している。 しかし、LCMが記述論理(DL)オントロジーを理解できるかどうかはまだ分かっていない。 本研究では,LLMにおけるDL-Liteオントロジーの理解能力について,構文的・意味的側面から検討した。 広範な実験により,DL-Liteオントロジーの理解におけるLLMの有効性と限界を実証した。 LLMは概念や役割の形式的構文やモデル理論のセマンティクスを理解することができる。 しかし、LLMはTBox NIの推移性を理解し、大きなABoxでオントロジーを扱うのに苦労している。 我々の実験と分析がLSMに関する洞察を与え、より忠実な知識エンジニアリングソリューションを構築するきっかけになることを願っています。

Large language models (LLMs) have shown significant achievements in solving a wide range of tasks. Recently, LLMs' capability to store, retrieve and infer with symbolic knowledge has drawn a great deal of attention, showing their potential to understand structured information. However, it is not yet known whether LLMs can understand Description Logic (DL) ontologies. In this work, we empirically analyze the LLMs' capability of understanding DL-Lite ontologies covering 6 representative tasks from syntactic and semantic aspects. With extensive experiments, we demonstrate both the effectiveness and limitations of LLMs in understanding DL-Lite ontologies. We find that LLMs can understand formal syntax and model-theoretic semantics of concepts and roles. However, LLMs struggle with understanding TBox NI transitivity and handling ontologies with large ABoxes. We hope that our experiments and analyses provide more insights into LLMs and inspire to build more faithful knowledge engineering solutions.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# Few-shot Hierarchical Text Classificationのための検索型インコンテキスト学習

Retrieval-style In-Context Learning for Few-shot Hierarchical Text Classification ( http://arxiv.org/abs/2406.17534v1 )

ライセンス: Link先を確認
Huiyao Chen, Yu Zhao, Zulong Chen, Mengjia Wang, Liangyue Li, Meishan Zhang, Min Zhang, (参考訳) 階層的テキスト分類(HTC)は幅広いアプリケーションにとって重要なタスクである。 大規模言語モデル (LLM) を持つインコンテキストラーニング (ICL) は、数発の学習で大きな成功を収めているが、階層的なラベルセットと非常にあいまいなラベルのために、HTCにとってそれほど効果的ではない。 本研究では,数発のHTC向けに LLM を用いた最初の ICL ベースのフレームワークを紹介する。 検索データベースを利用して、関連する実演を識別し、多層階層ラベルを管理するための反復的なポリシーを用いる。 特に,入力テキストに対するHTCのラベル対応表現を検索データベースに装備し,マスク言語モデリング(MLM)による事前訓練,レイヤワイド分類(CLS,特にHTC用),および新たな異種コントラスト学習(DCL,主に隣接セマンティック・類似ラベル)の目標とする。 3つのベンチマークデータセットによる実験結果から,提案手法の優れた性能が示され,数発のHTCで最先端の結果が得られた。

Hierarchical text classification (HTC) is an important task with broad applications, while few-shot HTC has gained increasing interest recently. While in-context learning (ICL) with large language models (LLMs) has achieved significant success in few-shot learning, it is not as effective for HTC because of the expansive hierarchical label sets and extremely-ambiguous labels. In this work, we introduce the first ICL-based framework with LLM for few-shot HTC. We exploit a retrieval database to identify relevant demonstrations, and an iterative policy to manage multi-layer hierarchical labels. Particularly, we equip the retrieval database with HTC label-aware representations for the input texts, which is achieved by continual training on a pretrained language model with masked language modeling (MLM), layer-wise classification (CLS, specifically for HTC), and a novel divergent contrastive learning (DCL, mainly for adjacent semantically-similar labels) objective. Experimental results on three benchmark datasets demonstrate superior performance of our method, and we can achieve state-of-the-art results in few-shot HTC.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# Disce aut Deficere: InVALSI Italian Benchmark上でのLLMの有効性の評価

Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark ( http://arxiv.org/abs/2406.17535v1 )

ライセンス: Link先を確認
Fabio Mercorio, Mario Mezzanzanica, Daniele Potertì, Antonio Serino, Andrea Seveso, (参考訳) 近年のLLM(Large Language Models)の進歩は、人間の言語を生成・操作する能力を大幅に強化し、様々なアプリケーションにまたがる可能性を強調している。 LLMを英語以外の言語で評価することは、多岐にわたるグローバルな文脈における言語的汎用性、文化的妥当性、適用性を保証するために不可欠である。 InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。 まず、テストフォーマットを厳格に適応させ、元のテストの本質を維持しながら自動処理に適合させる自動LLM評価にINVALSIベンチマークを適用する。 第2に,現在のLCMを詳細に評価し,学術コミュニティにとって重要な基準点を提供する。 最後に、これらのモデルの性能と人間の結果とを視覚的に比較する。 さらに、研究者は継続的な評価のためにモデルを提出することを勧められ、ベンチマークが現在かつ価値のあるリソースであることを保証する。

Recent advancements in Large Language Models (LLMs) have significantly enhanced their ability to generate and manipulate human language, highlighting their potential across various applications. Evaluating LLMs in languages other than English is crucial for ensuring their linguistic versatility, cultural relevance, and applicability in diverse global contexts, thus broadening their usability and effectiveness. We tackle this challenge by introducing a structured benchmark using the INVALSI tests, a set of well-established assessments designed to measure educational competencies across Italy. Our study makes three primary contributions: Firstly, we adapt the INVALSI benchmark for automated LLM evaluation, which involves rigorous adaptation of the test format to suit automated processing while retaining the essence of the original tests. Secondly, we provide a detailed assessment of current LLMs, offering a crucial reference point for the academic community. Finally, we visually compare the performance of these models against human results. Additionally, researchers are invited to submit their models for ongoing evaluation, ensuring the benchmark remains a current and valuable resource.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# MedMNIST-C: 画像の現実的破壊をシミュレートした総合的ベンチマークと分類器の堅牢性の改善

MedMNIST-C: Comprehensive benchmark and improved classifier robustness by simulating realistic image corruptions ( http://arxiv.org/abs/2406.17536v1 )

ライセンス: Link先を確認
Francesco Di Salvo, Sebastian Doerrich, Christian Ledig, (参考訳) 神経ネットワークに基づくシステムの臨床実践への統合は、ドメインの一般化と堅牢性に関連する課題によって制限される。 コンピュータビジョンコミュニティは、これらの課題に対する進捗を測定するための基本的な前提条件として、ImageNet-Cのようなベンチマークを確立した。 同様のデータセットは、画像のモダリティや応用にまたがる包括的なベンチマークが欠如している医療画像コミュニティでは、ほとんど欠落している。 このギャップに対処するため、私たちはMedMNIST+コレクションに基づくベンチマークデータセットであるMedMNIST-Cをオープンソースとして公開した。 実世界の成果物や分布変化に対する確立されたアルゴリズムの頑健さを包括的に評価するため,タスクやモダリティに特有な画像の破損をシミュレートする。 さらに、簡単な人工汚職により、高性能で軽量なデータ拡張がモデルロバスト性を高めることができるという定量的証拠も提供します。 従来の汎用的な拡張戦略とは異なり、我々のアプローチはドメイン知識を活用し、広く採用されている手法と比較して、はるかに高い堅牢性を示す。 MedMNIST-Cを導入し,対象とするデータ拡張を可能にするライブラリをオープンソース化することにより,医用画像の課題に適したロバストな手法の開発に寄与する。 コードはhttps://github.com/francescodisalvo05/medmnistc-api}{github.com/francescodisalvo05/medmnistc-apiで公開されている。

The integration of neural-network-based systems into clinical practice is limited by challenges related to domain generalization and robustness. The computer vision community established benchmarks such as ImageNet-C as a fundamental prerequisite to measure progress towards those challenges. Similar datasets are largely absent in the medical imaging community which lacks a comprehensive benchmark that spans across imaging modalities and applications. To address this gap, we create and open-source MedMNIST-C, a benchmark dataset based on the MedMNIST+ collection covering 12 datasets and 9 imaging modalities. We simulate task and modality-specific image corruptions of varying severity to comprehensively evaluate the robustness of established algorithms against real-world artifacts and distribution shifts. We further provide quantitative evidence that our simple-to-use artificial corruptions allow for highly performant, lightweight data augmentation to enhance model robustness. Unlike traditional, generic augmentation strategies, our approach leverages domain knowledge, exhibiting significantly higher robustness when compared to widely adopted methods. By introducing MedMNIST-C and open-sourcing the corresponding library allowing for targeted data augmentations, we contribute to the development of increasingly robust methods tailored to the challenges of medical imaging. The code is available at https://github.com/francescodisalvo05/medmnistc-api}{github.com/francescodisalvo05/medmnistc-api.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# SincVAE: SincNetと変分オートエンコーダを用いた脳波データの異常検出を改善する新しいアプローチ

SincVAE: a New Approach to Improve Anomaly Detection on EEG Data Using SincNet and Variational Autoencoder ( http://arxiv.org/abs/2406.17537v1 )

ライセンス: Link先を確認
Andrea Pollastro, Francesco Isgrò, Roberto Prevete, (参考訳) 過去数十年間、脳波モニタリング(EEG)は神経疾患、特に発作を診断するための重要なツールとなっている。 世界有数の神経疾患であるてんかんは、人口の約17%に影響を及ぼす。 これらの患者は重大なリスクに直面しており、日常生活における信頼性のある連続的な発作モニタリングの必要性を強調している。 文献で議論されている技術のほとんどは、教師付き機械学習(ML)手法に依存している。 しかし、てんかん性脳波波形の変動を正確にラベル付けすることの難しさは、これらのアプローチの使用を複雑にしている。 さらに、偶発的なイベントの希少さは、データ内の高いインバランシングを導入し、教師付き学習アプローチにおける予測性能の低下につながる可能性がある。 代わりに、半教師付きアプローチでは、発作を含まないデータのみにモデルをトレーニングすることができるため、データの分散に関する問題を回避することができる。 本研究では,脳波データからてんかん発作を検出するための半教師付きアプローチを提案する。 本提案では,帯域通過フィルタのアドホックアレイを変分オートエンコーダ(VAE)の第1層として学習することにより,情報帯域の周波数を識別・分離する前処理段階を排除できる可能性が示唆された。 以上の結果から,SncVAEは脳波データにおける発作検出を改善し,早期発作の早期発見と術後経過のモニタリングが可能であることが示唆された。

Over the past few decades, electroencephalography (EEG) monitoring has become a pivotal tool for diagnosing neurological disorders, particularly for detecting seizures. Epilepsy, one of the most prevalent neurological diseases worldwide, affects approximately the 1 \% of the population. These patients face significant risks, underscoring the need for reliable, continuous seizure monitoring in daily life. Most of the techniques discussed in the literature rely on supervised Machine Learning (ML) methods. However, the challenge of accurately labeling variations in epileptic EEG waveforms complicates the use of these approaches. Additionally, the rarity of ictal events introduces an high imbalancing within the data, which could lead to poor prediction performance in supervised learning approaches. Instead, a semi-supervised approach allows to train the model only on data not containing seizures, thus avoiding the issues related to the data imbalancing. This work proposes a semi-supervised approach for detecting epileptic seizures from EEG data, utilizing a novel Deep Learning-based method called SincVAE. This proposal incorporates the learning of an ad-hoc array of bandpass filter as a first layer of a Variational Autoencoder (VAE), potentially eliminating the preprocessing stage where informative band frequencies are identified and isolated. Results indicate that SincVAE improves seizure detection in EEG data and is capable of identifying early seizures during the preictal stage as well as monitoring patients throughout the postictal stage.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# SKD-TSTSAN:マイクロ圧縮認識のための自己知識蒸留に基づく3ストリーム時間シフト注意ネットワーク

SKD-TSTSAN: Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition ( http://arxiv.org/abs/2406.17538v1 )

ライセンス: Link先を確認
Guanghao Zhu, Lin Liu, Yuhao Hu, Haixin Sun, Fang Liu, Xiaohui Du, Ruqian Hao, Juanxiu Liu, Yong Liu, Hao Deng, Jing Zhang, (参考訳) マイクロ表現(ME)は、人々が本当の感情を隠そうとするときに自然に起こる微妙な顔の動きである。 マイクロ圧縮認識(MER)は、犯罪分析や心理療法など、多くの分野で重要である。 しかし、MEの強度が低く、MEデータセットが小さいため、MERは難しい。 そこで本論文では, 自己知識蒸留(SKD-TSTSAN)に基づく3ストリーム時間シフトアテンションネットワークを提案する。 まず,ME筋運動の低強度化にあたり,ME筋運動の強度を高めるために学習ベースの運動倍率モジュールを利用する。 第2に,ローカル空間ストリームに効率的なチャネルアテンション (ECA) モジュールを用いて,ME に強く関係する顔領域にネットワークを集中させる。 さらに、時間シフトモジュール(TSM)を動的時相ストリームで使用することにより、2つの異なる時間領域からMEモーション情報を混合することにより、追加のパラメータを持たない時間モデリングを可能にする。 さらに,MERタスクに自己知識蒸留(SKD)を導入し,補助分類器を導入し,ネットワークの最深部を監督し,全てのブロックがトレーニングセットの特徴を十分に探求することを奨励する。 最後に、CASME II、SAMM、MMEW、CAS(ME)3の4つのMEデータセットについて広範な実験を行った。 実験の結果,SKD-TSTSANは既存の手法よりも優れ,新しい最先端性能を実現していることがわかった。 私たちのコードはhttps://github.com/GuanghaoZhu663/SKD-TSTSANで公開されます。

Micro-expressions (MEs) are subtle facial movements that occur spontaneously when people try to conceal the real emotions. Micro-expression recognition (MER) is crucial in many fields, including criminal analysis and psychotherapy. However, MER is challenging since MEs have low intensity and ME datasets are small in size. To this end, a three-stream temporal-shift attention network based on self-knowledge distillation (SKD-TSTSAN) is proposed in this paper. Firstly, to address the low intensity of ME muscle movements, we utilize learning-based motion magnification modules to enhance the intensity of ME muscle movements. Secondly, we employ efficient channel attention (ECA) modules in the local-spatial stream to make the network focus on facial regions that are highly relevant to MEs. In addition, temporal shift modules (TSMs) are used in the dynamic-temporal stream, which enables temporal modeling with no additional parameters by mixing ME motion information from two different temporal domains. Furthermore, we introduce self-knowledge distillation (SKD) into the MER task by introducing auxiliary classifiers and using the deepest section of the network for supervision, encouraging all blocks to fully explore the features of the training set. Finally, extensive experiments are conducted on four ME datasets: CASME II, SAMM, MMEW, and CAS(ME)3. The experimental results demonstrate that our SKD-TSTSAN outperforms other existing methods and achieves new state-of-the-art performance. Our code will be available at https://github.com/GuanghaoZhu663/SKD-TSTSAN.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# 量子エミッタのSUPER励起は多光子過程である

The SUPER excitation of quantum emitters is a multi-photon process ( http://arxiv.org/abs/2406.17540v1 )

ライセンス: Link先を確認
Luca Vannucci, Niels Gregersen, (参考訳) 量子エミッタ集団(SUPER)の揺らぎは、2つの赤みがかったレーザーパルスを用いて、量子エミッタの励起状態をほぼ一様の忠実度で生成することができる。 共鳴しないが完全にコヒーレントな性質は、単一光子源を励起状態に生成する上で貴重なツールとして量子フォトニクスに多大な関心を惹きつけ、同時にレーザーの簡単なスペクトルフィルタリングを保証している。 しかし、電磁場とエミッタ間のエネルギー交換の観点からのこのメカニズムの物理的理解はいまだに欠如している。 ここでは、スイングアップ励起の完全な量子化モデルを示し、実際にモードの1つが2つ以上の光子を失い、もう1つが少なくとも1つを得る多光子過程であることを示す。 本研究は,SUPER方式の予期せぬ物理的解釈と,単一エミッタと複数フィールドモード間の非線形相互作用を明らかにするものである。

The swing-up of quantum emitter population (SUPER) scheme allows to populate the excited state of a quantum emitter with near-unity fidelity using two red-detuned laser pulses. Its off-resonant, yet fully coherent nature has attracted significant interest in quantum photonics as a valuable tool for preparing single-photon sources in their excited state on demand, while simultaneously ensuring straightforward spectral filtering of the laser. However, the physical understanding of this mechanism in terms of energy exchange between the electromagnetic field and the emitter is still lacking. Here, we present a fully quantized model of the swing-up excitation and demonstrate that it is in fact a multi-photon process, where one of the modes loses two or more photons while the other gains at least one. Our findings provide an unexpected physical interpretation of the SUPER scheme and unveil a new non-linear interaction between single emitters and multiple field modes.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# 合成データ生成におけるセマンティックセグメンテーションのための主成分クラスタリング

Principal Component Clustering for Semantic Segmentation in Synthetic Data Generation ( http://arxiv.org/abs/2406.17541v1 )

ライセンス: Link先を確認
Felix Stillger, Frederik Hasecke, Tobias Meisen, (参考訳) 本稿では,潜在拡散モデルを用いてセマンティックセグメンテーションのための合成データセットを生成する手法について概説する。 CVPR 2024ワークショップチャレンジ”SyntaGen Harnessing Generative Models for Synthetic Visual Datasets”と題された,CVPR 2024ワークショップチャレンジへの提出の一部です。 提案手法では, 自己注意を用いて, 新たな頭知的セマンティック情報凝縮を促進することにより, 安定拡散潜水器からのクラス非依存画像セグメンテーションの直接取得を可能にする。 さらに,テキストからピクセルへの非プロンプト影響のクロスアテンションを用いて,以前に生成したマスクの分類を容易にする。 最後に,安定拡散による出力画像のみを用いてマスク改質ステップを提案する。

This technical report outlines our method for generating a synthetic dataset for semantic segmentation using a latent diffusion model. Our approach eliminates the need for additional models specifically trained on segmentation data and is part of our submission to the CVPR 2024 workshop challenge, entitled CVPR 2024 workshop challenge "SyntaGen Harnessing Generative Models for Synthetic Visual Datasets". Our methodology uses self-attentions to facilitate a novel head-wise semantic information condensation, thereby enabling the direct acquisition of class-agnostic image segmentation from the Stable Diffusion latents. Furthermore, we employ non-prompt-influencing cross-attentions from text to pixel, thus facilitating the classification of the previously generated masks. Finally, we propose a mask refinement step by using only the output image by Stable Diffusion.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# CDQuant:Greedy Coordinate Descentを用いた大規模事前学習モデルの正確なトレーニング後重み量子化

CDQuant: Accurate Post-training Weight Quantization of Large Pre-trained Models using Greedy Coordinate Descent ( http://arxiv.org/abs/2406.17542v1 )

ライセンス: Link先を確認
Pranav Ajit Nair, Arun Sai Suggala, (参考訳) 大規模言語モデル(LLM)は、最近、様々な言語タスクで顕著なパフォーマンスを示した。 しかし、そのデプロイメントは、大きな計算とストレージの要求によって制約されることが多い。 量子化はこの課題に対処するための重要なテクニックとして現れており、パフォーマンスに最小限の影響を伴って大きなモデルの圧縮を可能にしている。 ポストトレーニング量子化(PTQ)法である最近のGPTQアルゴリズムは、LCMを圧縮するのに非常に有効であることが証明され、コアコンポーネントとしてGPTQを利用する研究の波が引き起こされた。 PTQランドスケープにおけるGPTQの役割を認識し,GPTQの簡易かつスケーラブルな代替品であるCDQuantを導入する。 CDQuantは座標降下を利用して、高品質な量子化重みを達成するために層単位での再構成損失を最小限に抑える。 我々のアルゴリズムは簡単に実装でき、数十億のパラメータを持つモデルに効率的にスケールできる。 PLM2モデルファミリーの広範な評価を通じて、CDQuantは様々なモデルサイズと量子化レベルでGPTQを一貫して上回っていることを示す。 特に PaLM2-Otter の INT2 量子化では、CDQuant は GPTQ に比べて 10% のパープレキシティ低下を達成する。

Large language models (LLMs) have recently demonstrated remarkable performance across diverse language tasks. But their deployment is often constrained by their substantial computational and storage requirements. Quantization has emerged as a key technique for addressing this challenge, enabling the compression of large models with minimal impact on performance. The recent GPTQ algorithm, a post-training quantization (PTQ) method, has proven highly effective for compressing LLMs, sparking a wave of research that leverages GPTQ as a core component. Recognizing the pivotal role of GPTQ in the PTQ landscape, we introduce CDQuant, a simple and scalable alternative to GPTQ with improved performance. CDQuant uses coordinate descent to minimize the layer-wise reconstruction loss to achieve high-quality quantized weights. Our algorithm is easy to implement and scales efficiently to models with hundreds of billions of parameters. Through extensive evaluation on the PaLM2 model family, we demonstrate that CDQuant consistently outperforms GPTQ across diverse model sizes and quantization levels. In particular, for INT2 quantization of PaLM2-Otter, CDQuant achieves a 10% reduction in perplexity compared to GPTQ.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# 反断熱駆動による超低温原子によるNOON状態の加速生成

Accelerated creation of NOON states with ultracold atoms via counterdiabatic driving ( http://arxiv.org/abs/2406.17545v1 )

ライセンス: Link先を確認
Simon Dengis, Sandro Wimberger, Peter Schlagheck, (参考訳) 量子制御プロトコルは、2つのモードにN個の超低温ボゾン原子を持つNOON状態を生成するために提案され、コヒーレント重ね合わせ $\vert N,0\rangle + \vert 0,N\rangle$ に対応する。 この状態は、最初に全てのボソンが配置され、他の2つのモードと対称に結合された第3モードを用いて作成することができる。 この第3モードのエネルギーを他のモードのエネルギーレベルに調整することで、NOON状態の断熱的な生成が可能になる。 通常、このプロセスは実用性には時間がかかりすぎるが、関連するスペクトルギャップの小さいため、効率的なギャップ工学を可能にする反断熱駆動によって劇的に加速することができる。 このプロセスは、超低温量子ガスで実験的に実現可能な静的パラメータ適応の観点で実装可能であることを実証する。 要求されるプロトコル速度における利得因子は、関与する原子の数と指数関数的に増加し、したがって、この断熱遷移の根底にある指数関数的に遅い集団トンネル過程と相反する。

A quantum control protocol is proposed for the creation of NOON states with N ultracold bosonic atoms on two modes, corresponding to the coherent superposition $\vert N,0\rangle + \vert 0,N\rangle$. This state can be prepared by using a third mode where all bosons are initially placed and which is symmetrically coupled to the two other modes. Tuning the energy of this third mode across the energy level of the other modes allows the adiabatic creation of the NOON state. While this process normally takes too much time to be of practical usefulness, due to the smallness of the involved spectral gap, it can be drastically boosted through counterdiabatic driving which allows for efficient gap engineering. We demonstrate that this process can be implemented in terms of static parameter adaptations that are experimentally feasible with ultracold quantum gases. Gain factors in the required protocol speed are obtained that increase exponentially with the number of involved atoms and thus counterbalance the exponentially slow collective tunneling process underlying this adiabatic transition.
翻訳日:2024-06-26 14:20:18 公開日:2024-06-25
# 合成顔画像の検出:精度、ロバスト性、一般化

Detection of Synthetic Face Images: Accuracy, Robustness, Generalization ( http://arxiv.org/abs/2406.17547v1 )

ライセンス: Link先を確認
Nela Petrzelkova, Jan Cech, (参考訳) 合成顔画像の検出実験を行った。 我々は、最近の拡散モデルを含む5つの偽の顔画像生成装置から、FF5と呼ばれるデータセットを収集した。 合成画像と実画像の分離において,特定の画像生成装置で訓練した簡単なモデルでほぼ完璧な精度が得られることがわかった。 このモデルは、データ拡張を用いて、一般的な画像歪み(解像度、圧縮)を処理する。 さらに, 合成画像に塗料を塗布して実物にブレンドする部分的操作を同定し, その操作領域をYOLOアーキテクチャの簡単なモデルで局所化する。 しかし、このモデルは敵攻撃に弱いことが判明し、目に見えない発電機に一般化することはなかった。 安定AIの安定拡散画像生成装置の微調整版であるRealistic Visionで行った最近の最先端手法では,新しい生成装置で生成した画像の一般化に失敗したことも確認できた。

An experimental study on detecting synthetic face images is presented. We collected a dataset, called FF5, of five fake face image generators, including recent diffusion models. We find that a simple model trained on a specific image generator can achieve near-perfect accuracy in separating synthetic and real images. The model handles common image distortions (reduced resolution, compression) by using data augmentation. Moreover, partial manipulations, where synthetic images are blended into real ones by inpainting, are identified and the area of the manipulation is localized by a simple model of YOLO architecture. However, the model turned out to be vulnerable to adversarial attacks and does not generalize to unseen generators. Failure to generalize to detect images produced by a newer generator also occurs for recent state-of-the-art methods, which we tested on Realistic Vision, a fine-tuned version of StabilityAI's Stable Diffusion image generator.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 射影測定のみを用いた連続的三部構造非局所性共有

Sharing tripartite nonlocality sequentially using only projective measurements ( http://arxiv.org/abs/2406.17551v1 )

ライセンス: Link先を確認
Yiyang Xu, Hao Sun, Fenzhuo Guo, Haifeng Dong, Qiaoyan Wen, (参考訳) ベル非局所性は量子情報処理タスクにおいて貴重な資源である。 科学者は、単一の絡み合った状態が長い非局所的な相関関係を生成できるかどうかに興味を持っている。 従来の研究は、非シャープ測定によって連続的に三部構成の非局所性共有を達成してきた。 本稿では,射影測定のみを用いて三部構造非局所性の共有と古典的ランダム性の共有について検討する。 一般化されたGHZ状態に対しては、2つのチャーリーが非局所性(英語版)を1つのアリスと1つのボブと共有できる一方、チャーリーは1つのアリスと1つのボブと真の非局所性(英語版)を共有できることを示した。 しかし、偏りのある測定選択では、真の三分儀の非局所性を共有するチャーリーの数は2つに増やすことができる。 しかし, 偏りの測定値を用いることで, 標準三部点非局所性を共有するシーケンシャルオブザーバの数が増加しないことがわかった。 さらに、測定組み合わせ確率のパラメータに対して、状態に関する2つの違反の可能な範囲を提供する。

Bell nonlocality is a valuable resource in quantum information processing tasks. Scientists are interested in whether a single entangled state can generate a long sequence of nonlocal correlations. Previous work has accomplished sequential tripartite nonlocality sharing through unsharp measurements. In this paper, we investigate the sharing of tripartite nonlocality using only projective measurements and sharing classical randomness. For the generalized GHZ state, we have demonstrated that using unbiased measurement choices, two Charlies can share the standard tripartite nonlocality with a single Alice and a single Bob, while at most one Charlie can share the genuine tripartite nonlocality with a single Alice and a single Bob. However, with biased measurement choices, the number of Charlies sharing the genuine tripartite nonlocality can be increased to two. Nonetheless, we find that using biased measurements does not increase the number of sequential observers sharing the standard tripartite nonlocality. Moreover, we provide the feasible range of double violation for the parameters of the measurement combination probability with respect to the state.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 推定行動生成のための検索拡張コード生成:Minecraftを事例として

Retrieval-Augmented Code Generation for Situated Action Generation: A Case Study on Minecraft ( http://arxiv.org/abs/2406.17553v1 )

ライセンス: Link先を確認
Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen, (参考訳) Minecraft Collaborative Building Taskでは、2人のプレーヤーが協力する。 アーキテクト(A)がビルダー(B)に指示を与え、3Dブロックを使って特定の構造を組み立てる。 本研究では,大規模言語モデル(LLM)を用いて,ビルダのアクションシーケンスを予測する。 LLMのインコンテキスト学習能力を活用することで、ベースライン手法よりもパフォーマンスを大幅に向上させる、数発のプロンプト技術を用いています。 さらに,今後の作業におけるパフォーマンスのギャップを詳細に分析する。

In the Minecraft Collaborative Building Task, two players collaborate: an Architect (A) provides instructions to a Builder (B) to assemble a specified structure using 3D blocks. In this work, we investigate the use of large language models (LLMs) to predict the sequence of actions taken by the Builder. Leveraging LLMs' in-context learning abilities, we use few-shot prompting techniques, that significantly improve performance over baseline methods. Additionally, we present a detailed analysis of the gaps in performance for future work
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# FineWebデータセット: 大規模で最高のテキストデータのためのWebの決定

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale ( http://arxiv.org/abs/2406.17557v1 )

ライセンス: Link先を確認
Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf, (参考訳) 大規模言語モデル(LLM)の性能は、事前学習データセットの品質とサイズに大きく依存する。 しかし、Llama 3やMixtralのような最先端のオープンなLLMのための事前トレーニングデータセットは公開されておらず、どのように作成されたかはほとんど分かっていない。 本研究では,96のCommon Crawlスナップショットから得られた15トリリオンのトークンデータセットであるFineWebを紹介する。 高品質な事前トレーニングデータセットのキュレート方法の理解を深めるために、FinWebで使用される設計選択を慎重に文書化し、改善策やフィルタリング戦略の詳細な調査を含む。 また、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションであるFineWeb-Eduを紹介する。 FineWeb-Edu で事前トレーニングされた LLM は、MMLU や ARC のような知識と推論集約的なベンチマークにおいて、劇的にパフォーマンスが向上している。 データセットに加えて、データキュレーションコードベースと、アブレーション実験中にトレーニングされたすべてのモデルも公開しています。

The performance of a large language model (LLM) depends heavily on the quality and size of its pretraining dataset. However, the pretraining datasets for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly available and very little is known about how they were created. In this work, we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl snapshots that produces better-performing LLMs than other open pretraining datasets. To advance the understanding of how best to curate high-quality pretraining datasets, we carefully document and ablate all of the design choices used in FineWeb, including in-depth investigations of deduplication and filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion token collection of educational text filtered from FineWeb. LLMs pretrained on FineWeb-Edu exhibit dramatically better performance on knowledge- and reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we publicly release our data curation codebase and all of the models trained during our ablation experiments.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 最小インタラクションエッジチューニング: ビジュアル適応のための新しいパラダイム

Minimal Interaction Edge Tuning: A New Paradigm for Visual Adaptation ( http://arxiv.org/abs/2406.17559v1 )

ライセンス: Link先を確認
Ningyuan Tang, Minghao Fu, Jianxin Wu, (参考訳) 大規模ビジョン事前学習モデルの迅速なスケーリングにより、計算資源の少ないエッジデバイスでは、微調整タスクがますます困難になる。 我々は、エッジチューニングと呼ばれる新しいビジュアル適応パラダイムを探求し、大規模な事前訓練されたモデルを、強力なクラウドサーバ上で動作するスタンドアロンの機能抽出器として扱う。 この微調整は、少ない計算資源を必要とする小さなネットワークを持つエッジデバイス上で実行される。 本稿では,エッジチューニングパラダイムに適した既存手法について論じる。 しかし、エッジチューニングにおける3つの大きな欠点は、低い適応能力、大きなアダプタネットワーク、高い情報転送オーバーヘッドである。 これらの問題に対処するため,MIET (Minimal Interaction Edge Tuning) を提案する。 軽量な注目型アダプタネットワークにより、MIETは情報伝達効率、パラメータ効率、計算およびメモリ効率を達成し、同時に様々な視覚適応ベンチマークで競合結果を示す。

The rapid scaling of large vision pretrained models makes fine-tuning tasks more and more difficult on edge devices with low computational resources. We explore a new visual adaptation paradigm called edge tuning, which treats large pretrained models as standalone feature extractors that run on powerful cloud servers. The fine-tuning carries out on edge devices with small networks which require low computational resources. Existing methods that are potentially suitable for our edge tuning paradigm are discussed. But, three major drawbacks hinder their application in edge tuning: low adaptation capability, large adapter network, and high information transfer overhead. To address these issues, we propose Minimal Interaction Edge Tuning, or MIET, which reveals that the sum of intermediate features from pretrained models not only has minimal information transfer but also has high adaptation capability. With a lightweight attention-based adaptor network, MIET achieves information transfer efficiency, parameter efficiency, computational and memory efficiency, and at the same time demonstrates competitive results on various visual adaptation benchmarks.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 動的アクティベーション構成を持つ大規模言語モデルの多目的ステアリング

Multi-property Steering of Large Language Models with Dynamic Activation Composition ( http://arxiv.org/abs/2406.17563v1 )

ライセンス: Link先を確認
Daniel Scalena, Gabriele Sarti, Malvina Nissim, (参考訳) アクティベーションステアリング法は,モデルの中間表現を加法的に介入することで,言語モデル生成の条件付けに有効であることが示された。 しかし, これらの手法の評価は, 単一条件特性と合成条件に限られている。 本研究では, 多様な活性化ステアリング戦略の総合評価を行い, 最適パラメータの性質に依存した特性に着目し, 世代ごとのロバストな影響を確実にする。 この問題に対処するために,1つ以上の特性の操舵強度を世代毎に調節する情報理論的手法である動的活性化合成法を提案する。 マルチプロパティステアリング実験により, コンディショニングの影響を最小限に抑えつつ, 高コンディショニングの維持に成功していることがわかった。

Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models' intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# FrenchToxicity Prompts:フランスのテキストにおける毒性の評価と緩和のための大規模なベンチマーク

FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts ( http://arxiv.org/abs/2406.17566v1 )

ライセンス: Link先を確認
Caroline Brun, Vassilina Nikoulina, (参考訳) 大規模言語モデル(LLM)はますます普及しているが、個人やコミュニティに有害なバイアスや有害な言語を生み出す傾向にある。 生成したコンテンツの毒性を評価・緩和するために多くの努力が払われているが、それは主に英語に集中しているが、他の言語についても検討することが不可欠である。 この問題に対処するため、フレンチToxicityPromptsを作成した。フレンチToxicityPromptsは、自然発生のフレンチプロンプトとそれに続く50Kのデータセットで、広く使用されている毒性分類器の毒性スコアが注釈付けされている。 LLMの4つの主要なオープンソースファミリから14の異なるモデルをデータセットに対して評価し、その潜在的な毒性を様々な次元にわたって評価した。 我々は、エングリスを超えて毒性の検出と緩和に関する今後の研究を促進することを願っている。

Large language models (LLMs) are increasingly popular but are also prone to generating bias, toxic or harmful language, which can have detrimental effects on individuals and communities. Although most efforts is put to assess and mitigate toxicity in generated content, it is primarily concentrated on English, while it's essential to consider other languages as well. For addressing this issue, we create and release FrenchToxicityPrompts, a dataset of 50K naturally occurring French prompts and their continuations, annotated with toxicity scores from a widely used toxicity classifier. We evaluate 14 different models from four prevalent open-sourced families of LLMs against our dataset to assess their potential toxicity across various dimensions. We hope that our contribution will foster future research on toxicity detection and mitigation beyond Englis
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 因果応答体検出

Causal Responder Detection ( http://arxiv.org/abs/2406.17571v1 )

ライセンス: Link先を確認
Tzviel Frostig, Oshri Machluf, Amitay Kamber, Elad Berkman, Raviv Pryluk, (参考訳) 本稿では,治療に強く反応する治療対象を同定する新しい手法であるCARDについて紹介する。 共形予測の最近の進歩を活用して、CARDは有限サンプルサイズの偽発見率を制御しながら、応答者を正確に識別する機械学習技術を採用している。 さらに,非ランダムな処理アロケーションから生じるバイアスを軽減し,観測条件下での手法の堅牢性を高めるために,確率スコア調整を組み込んだ。 シミュレーション研究により、CARDは多様なシナリオにおいて、高出力の応答器を効果的に検出することを示した。

We introduce the causal responders detection (CARD), a novel method for responder analysis that identifies treated subjects who significantly respond to a treatment. Leveraging recent advances in conformal prediction, CARD employs machine learning techniques to accurately identify responders while controlling the false discovery rate in finite sample sizes. Additionally, we incorporate a propensity score adjustment to mitigate bias arising from non-random treatment allocation, enhancing the robustness of our method in observational settings. Simulation studies demonstrate that CARD effectively detects responders with high power in diverse scenarios.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# IoTディフェンスのためのテキストからSQLを超えて - IoT脅威のクエリと分類のための総合的なフレームワーク

Beyond Text-to-SQL for IoT Defense: A Comprehensive Framework for Querying and Classifying IoT Threats ( http://arxiv.org/abs/2406.17574v1 )

ライセンス: Link先を確認
Ryan Pavlich, Nima Ebadi, Richard Tarbell, Billy Linares, Adrian Tan, Rachael Humphreys, Jayanta Kumar Das, Rambod Ghandiparsi, Hannah Haley, Jerris George, Rocky Slavin, Kim-Kwang Raymond Choo, Glenn Dietrich, Anthony Rios, (参考訳) データベースに対する自然言語インタフェースの約束を認識した先行研究は、テキストからSQLシステムの開発を強調してきた。 この分野ではかなり進歩していますが、既存の研究はテキストクエリからSQL文を生成することに集中しています。 しかし、より広範な課題は、返されたデータに関する新しい情報を推測することだ。 このギャップに対処するために、我々の研究は2つの大きな貢献をしている。 まず,10,985のテキスト-SQLペアと239,398行のネットワークトラフィックからなる,新しいIoT(Internet-of-Things)テキスト-SQLデータセットを紹介する。 データセットには、以前のテキストからSQLへのデータセット、特に時間的関連クエリに制限された追加のクエリタイプが含まれている。 私たちのデータセットは、センサ読み取りとネットワークトラフィックデータを調べるスマートな建物のIoTエコシステムをベースとしています。 次に、私たちのデータセットは2段階の処理を可能にします。そこでは、生成されたSQLから返されるデータ(ネットワークトラフィック)を悪意のあるものとして分類することができます。 以上の結果から,データに関する検索と推測を行う共同トレーニングにより,テキストとSQLのパフォーマンスが向上し,ほぼほぼ一致したモデルが得られた。 また、現在の大規模言語モデル(例えば、GPT3.5)は、返却データに関する新しい情報を推測するのに苦労していることも示しており、我々のデータセットは、複雑なドメイン固有の推論をLLMに統合するための新しいテストベッドを提供する。

Recognizing the promise of natural language interfaces to databases, prior studies have emphasized the development of text-to-SQL systems. While substantial progress has been made in this field, existing research has concentrated on generating SQL statements from text queries. The broader challenge, however, lies in inferring new information about the returned data. Our research makes two major contributions to address this gap. First, we introduce a novel Internet-of-Things (IoT) text-to-SQL dataset comprising 10,985 text-SQL pairs and 239,398 rows of network traffic activity. The dataset contains additional query types limited in prior text-to-SQL datasets, notably temporal-related queries. Our dataset is sourced from a smart building's IoT ecosystem exploring sensor read and network traffic data. Second, our dataset allows two-stage processing, where the returned data (network traffic) from a generated SQL can be categorized as malicious or not. Our results show that joint training to query and infer information about the data can improve overall text-to-SQL performance, nearly matching substantially larger models. We also show that current large language models (e.g., GPT3.5) struggle to infer new information about returned data, thus our dataset provides a novel test bed for integrating complex domain-specific reasoning into LLMs.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# シャープネスを意識したメタコンチネンタル学習による医用画像の普遍的登録に向けて

Toward Universal Medical Image Registration via Sharpness-Aware Meta-Continual Learning ( http://arxiv.org/abs/2406.17575v1 )

ライセンス: Link先を確認
Bomin Wang, Xinzhe Luo, Xiahai Zhuang, (参考訳) 医療画像登録における現在のディープラーニングアプローチは、通常、分散シフトとデータ収集の課題に直面し、現実世界のデプロイメントを妨げる。 対照的に、普遍的な医用画像登録は、幅広い臨床関連タスクを同時に行うことを目的としており、臨床応用に大きな可能性を秘めている。 本稿では,連続的な学習手法を提案することによって,逐次学習シナリオにおける普遍的な3次元医用画像登録の目標を達成するための最初の試みを示す。 具体的には,メタラーニングと経験リプレイを併用して,破滅的な忘れ込みの問題を緩和する。 さらに,メタコンチネンタル学習の一般化を促進するために,シャープネス対応メタコンチネンタル学習(SAMCL)を提案する。 脳MRI,腹部CT,肺CT,腹部MRI-CT画像ペアなど,連続的な学習環境下での4つのデータセットに対する本手法の有効性を検証した。 結果はSAMCLの普遍的なイメージ登録の実現の可能性を示しており、これはバニラシーケンシャルまたは集中型マルチタスクトレーニング戦略と同等あるいは同等である。ソースコードはhttps://github.com/xzluo97/Continual-Regから入手できる。

Current deep learning approaches in medical image registration usually face the challenges of distribution shift and data collection, hindering real-world deployment. In contrast, universal medical image registration aims to perform registration on a wide range of clinically relevant tasks simultaneously, thus having tremendous potential for clinical applications. In this paper, we present the first attempt to achieve the goal of universal 3D medical image registration in sequential learning scenarios by proposing a continual learning method. Specifically, we utilize meta-learning with experience replay to mitigating the problem of catastrophic forgetting. To promote the generalizability of meta-continual learning, we further propose sharpness-aware meta-continual learning (SAMCL). We validate the effectiveness of our method on four datasets in a continual learning setup, including brain MR, abdomen CT, lung CT, and abdomen MR-CT image pairs. Results have shown the potential of SAMCL in realizing universal image registration, which performs better than or on par with vanilla sequential or centralized multi-task training strategies.The source code will be available from https://github.com/xzluo97/Continual-Reg.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 高度なランサムウェア攻撃シミュレーションのためのレッドチームにおける強化学習の活用

Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations ( http://arxiv.org/abs/2406.17576v1 )

ライセンス: Link先を確認
Cheng Wang, Christopher Redino, Ryan Clark, Abdul Rahman, Sal Aguinaga, Sathvik Murli, Dhruv Nandakumar, Roland Rao, Lanxiao Huang, Daniel Radke, Edward Bowen, (参考訳) ランサムウェアは、個人や組織に対して、システムを暗号化し、巨額の手数料が取られるまで公開しないという重大な脅威を生じさせる。 潜在的な攻撃に対する準備を強化するため、組織は通常、既存のセキュリティ対策を評価するための模擬攻撃を含むレッド・チーム・エクササイズを実施します。 本稿では,ランサムウェア攻撃のシミュレーションに強化学習(RL)を利用する新しい手法を提案する。 実世界のネットワークを模倣するシミュレーション環境でRLエージェントを訓練することにより、効果的な攻撃戦略を迅速に学習し、従来の手動浸透試験プロセスを大幅に合理化することができる。 RLエージェントが明らかにした攻撃経路は、防御チームに貴重な洞察を与え、ネットワークの弱点を特定し、より回復力のある防御策を開発するのに役立つ。 提案手法の有効性を確認し,ハニーファイル(不正アクセスを検出するために戦略的に配置されたデコイファイル)を回避しながら,RLエージェントが高価値なターゲットに対する攻撃を発見し,調整する能力を示す。

Ransomware presents a significant and increasing threat to individuals and organizations by encrypting their systems and not releasing them until a large fee has been extracted. To bolster preparedness against potential attacks, organizations commonly conduct red teaming exercises, which involve simulated attacks to assess existing security measures. This paper proposes a novel approach utilizing reinforcement learning (RL) to simulate ransomware attacks. By training an RL agent in a simulated environment mirroring real-world networks, effective attack strategies can be learned quickly, significantly streamlining traditional, manual penetration testing processes. The attack pathways revealed by the RL agent can provide valuable insights to the defense team, helping them identify network weak points and develop more resilient defensive measures. Experimental results on a 152-host example network confirm the effectiveness of the proposed approach, demonstrating the RL agent's capability to discover and orchestrate attacks on high-value targets while evading honeyfiles (decoy files strategically placed to detect unauthorized access).
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 前部セグメント光コヒーレンス・トモグラフィー画像における細胞検出の促進

Advancing Cell Detection in Anterior Segment Optical Coherence Tomography Images ( http://arxiv.org/abs/2406.17577v1 )

ライセンス: Link先を確認
Boyu Chen, Ameenat L. Solebo, Paul Taylor, (参考訳) 前部ぶどう膜炎(英: Anterior uveitis)は、眼炎の一種であり、早期に診断されない場合、永久的な視力喪失を引き起こす。 この状態を監視するには、眼前室(AC)の炎症細胞を定量化する必要がある。 しかし、AS-OCT画像中の細胞を手動で同定することは時間と主観的である。 さらに、既存の自動化アプローチは、細胞の検出効率と検出結果の信頼性の両方に制限がある可能性がある。 これらの課題に対処するため,AS-OCT画像中の細胞を検出する自動フレームワークを提案する。 このフレームワークはゼロショットチャンバーセグメンテーションモジュールとセル検出モジュールで構成される。 第1モジュールは、人手によるトレーニングデータを必要とせずに、画像中のAC領域をセグメントする。 その後、第2モジュールは、セグメント化されたAC領域内の個々の細胞を特定する。 実験により,本フレームワークは,交流セグメンテーションとセル検出の両タスクにおいて,現在の最先端手法と比較して優れた性能を示す。 特に、これまでの細胞検出アプローチでは、リコールが低かったり、かなりの数の細胞を見落としたりする可能性があることがわかりました。 対照的に、我々のフレームワークは改善されたソリューションを提供しており、前部ぶどう膜炎の診断と研究に役立てることができる。 私たちの細胞検出コードは、https://github.com/joeybyc/cell_detection.comで公開されています。

Anterior uveitis, a common form of eye inflammation, can lead to permanent vision loss if not promptly diagnosed. Monitoring this condition involves quantifying inflammatory cells in the anterior chamber (AC) of the eye, which can be captured using Anterior Segment Optical Coherence Tomography (AS-OCT). However, manually identifying cells in AS-OCT images is time-consuming and subjective. Moreover, existing automated approaches may have limitations in both the effectiveness of detecting cells and the reliability of their detection results. To address these challenges, we propose an automated framework to detect cells in the AS-OCT images. This framework consists of a zero-shot chamber segmentation module and a cell detection module. The first module segments the AC area in the image without requiring human-annotated training data. Subsequently, the second module identifies individual cells within the segmented AC region. Through experiments, our framework demonstrates superior performance compared to current state-of-the-art methods for both AC segmentation and cell detection tasks. Notably, we find that previous cell detection approaches could suffer from low recall, potentially overlooking a significant number of cells. In contrast, our framework offers an improved solution, which could benefit the diagnosis and study of anterior uveitis. Our code for cell detection is publicly available at: https://github.com/joeybyc/cell_detection.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# 決定論的法則からの疫学的ホライズン:ノーマトイ理論からの教訓

Epistemic Horizons From Deterministic Laws: Lessons From a Nomic Toy Theory ( http://arxiv.org/abs/2406.17581v1 )

ライセンス: Link先を確認
Johannes Fankhauser, Tomáš Gonda, Gemma De les Coves, (参考訳) 量子論はエピステミックな地平線を持ち、すなわち、正確な値は相容れない物理量に同時に割り当てられることができない。 スペクケンスのおもちゃ理論で示されるように、古典的な機械的設定におけるハイゼンベルクの不確実性原理に類似したエピステミックな地平線を仮定することは、量子現象の多元性にも繋がる。 本稿では,情報収集エージェントを物理的システムとして明示的にモデル化する決定論的理論,「自律玩具理論」を紹介する。 本研究の主な成果は,このような薬剤に対する上皮性地平線の存在である。 彼らはポアソンブラケットが消えるオブザーバブルの値しか同時に学べない。 したがって、トイ理論は相容れない測度を持ち、物理的システムの完全な状態は分かっていない。 エージェントによるシステムの最も良い記述は、スペケンスのおもちゃ理論の疫学的な状態である。 この結果から,被検体と対象物の分離性の観点から不確実性の測定を行った。 重要なことに、この主張はミノノトイ理論が本質的に古典的であるにもかかわらず従う。 この研究は、(完全な)量子論のような、疫学的な地平線に関するさらなる研究を招いている。

Quantum theory has an epistemic horizon, i.e. exact values cannot be assigned simultaneously to incompatible physical quantities. As shown by Spekkens' toy theory, positing an epistemic horizon akin to Heisenberg's uncertainty principle in a classical mechanical setting also leads to a plethora of quantum phenomena. We introduce a deterministic theory - nomic toy theory - in which information gathering agents are explicitly modelled as physical systems. Our main result shows the presence of an epistemic horizon for such agents. They can only simultaneously learn the values of observables whose Poisson bracket vanishes. Therefore, nomic toy theory has incompatible measurements and the complete state of a physical system cannot be known. The best description of a system by an agent is via an epistemic state of Spekkens' toy theory. Our result reconciles us to measurement uncertainty as an aspect of the inseparability of subjects and objects. Significantly, the claims follow even though nomic toy theory is essentially classical. This work invites further investigations of epistemic horizons, such as the one of (full) quantum theory.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# XAIにおける構成的解釈可能性に向けて

Towards Compositional Interpretability for XAI ( http://arxiv.org/abs/2406.17583v1 )

ライセンス: Link先を確認
Sean Tull, Robin Lorenz, Stephen Clark, Ilyas Khan, Bob Coecke, (参考訳) 人工知能(AI)は現在、主に解釈性に欠けるブラックボックス機械学習モデルに基づいている。 eXplainable AI(XAI)の分野は、金融、法務、健康といった高い分野において批判的であり、この大きな懸念に対処しようと努力している。 本稿では,カテゴリ理論に基づくAIモデルとその解釈可能性の定義手法を提案する。 このために、構成モデルの概念を用い、その抽象構造を具体的実装とともに捉える形式的な文字列図式の観点からモデルを見る。 この包括的見解は決定論的、確率論的、量子モデルを含む。 我々は、線形モデルとルールベースのモデル、(繰り返し)ニューラルネットワーク、トランスフォーマー、VAE、因果モデルとDisCoCircモデルを含む、幅広いAIモデルを構成モデルとして比較する。 次に、その構成構造の観点からモデルの解釈を定義し、モデルの解釈可能性を分析する方法を示し、これを用いてXAIの共通テーマを明らかにする。 標準の'本質的に解釈可能な'モデルを作るものは、最も明確に図式化されます。 これは、例えば因果関係、概念空間、DisCoCircモデルを含む、より一般的な構成解釈可能な(CI)モデルの概念につながります。 次に、CIモデルの説明可能性の利点を説明します。 第一に、それらの構成構造は他の量の興味の計算を可能にし、その構造と一致することによってモデルからモデル化された現象への推論を促進することができる。 第二に、影響の制約、図形手術、書き直しの説明に基づいて、彼らの行動に関する図式的な説明を可能にする。 最後に,アプローチの今後の方向性について論じ,そのような意味のある構造化されたモデルを実際にどのように学習するかという疑問を提起する。

Artificial intelligence (AI) is currently based largely on black-box machine learning models which lack interpretability. The field of eXplainable AI (XAI) strives to address this major concern, being critical in high-stakes areas such as the finance, legal and health sectors. We present an approach to defining AI models and their interpretability based on category theory. For this we employ the notion of a compositional model, which sees a model in terms of formal string diagrams which capture its abstract structure together with its concrete implementation. This comprehensive view incorporates deterministic, probabilistic and quantum models. We compare a wide range of AI models as compositional models, including linear and rule-based models, (recurrent) neural networks, transformers, VAEs, and causal and DisCoCirc models. Next we give a definition of interpretation of a model in terms of its compositional structure, demonstrating how to analyse the interpretability of a model, and using this to clarify common themes in XAI. We find that what makes the standard 'intrinsically interpretable' models so transparent is brought out most clearly diagrammatically. This leads us to the more general notion of compositionally-interpretable (CI) models, which additionally include, for instance, causal, conceptual space, and DisCoCirc models. We next demonstrate the explainability benefits of CI models. Firstly, their compositional structure may allow the computation of other quantities of interest, and may facilitate inference from the model to the modelled phenomenon by matching its structure. Secondly, they allow for diagrammatic explanations for their behaviour, based on influence constraints, diagram surgery and rewrite explanations. Finally, we discuss many future directions for the approach, raising the question of how to learn such meaningfully structured models in practice.
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# LongIns: LLMのための長文インストラクションベースのエクサム

LongIns: A Challenging Long-context Instruction-based Exam for LLMs ( http://arxiv.org/abs/2406.17588v1 )

ライセンス: Link先を確認
Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang, (参考訳) 大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。 LLMの性能を異なるシナリオで評価するために、様々な評価ベンチマークが登場した。 しかしながら、これらのベンチマークのほとんどは、主にLLMの検索能力を必要とする質問に答えるための重要な情報を特定することに重点を置いているため、これらのベンチマークは、大量の情報からLLMの推論性能を部分的に表すことができる。 一方、LLMは32k、128k、200k、またはそれ以上のコンテキストウィンドウを持つと主張することが多いが、これらのベンチマークはこれらのLLMの実際のサポートされた長さを明らかにしていない。 これらの問題に対処するため,LongInsベンチマークデータセットを提案する。 具体的には,GIST(Global Instruction & Single Task),LIST(Local Instruction & Single Task),LIMT(Local Instruction & Multiple Tasks)の3つの評価設定を紹介した。 本研究はLongInsに基づいて,既存のLCMの総合的な評価を行い,以下の重要な知見を得た。 128kの文脈長を持つ最高性能のGPT-4は、LongInsにおける16kの評価コンテキストウィンドウでは不十分である。 (2)。 既存のLLMのマルチホップ推論能力については、短いコンテキストウィンドウ(4k未満)の下でも重要な努力が必要である。

The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k).
翻訳日:2024-06-26 14:10:33 公開日:2024-06-25
# DocParseNet: 効率的なスキャンドキュメンテーションアノテーションのための高度なセマンティックセグメンテーションとOCR埋め込み

DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation ( http://arxiv.org/abs/2406.17591v1 )

ライセンス: Link先を確認
Ahmad Mohammadshirazi, Ali Nosrati Firoozsalari, Mengxi Zhou, Dheeraj Kulshrestha, Rajiv Ramnath, (参考訳) スキャンされた文書のアノテーションを自動化することは困難であり、計算効率と精度のバランスを取る必要がある。 DocParseNetは、ディープラーニングとマルチモーダル学習を組み合わせて、テキストとビジュアルデータの両方を処理することで、この問題に対処する。 このモデルは従来のOCRやセマンティックセグメンテーションを超えて、テキストと画像間の相互作用をキャプチャして、複雑なドキュメント構造におけるコンテキストニュアンスを保存する。 評価の結果,DocParseNetは従来のモデルよりも優れており,検証ではmIoUスコアが49.12,テストセットでは49.78であった。 これは、最先端のベースラインモデルよりも58%精度が向上し、UNextベースラインよりも18%向上したことを反映している。 注目すべきは、DocParseNetはたった280万のパラメータでこれらの結果を達成することで、モデルのサイズを約25倍削減し、他のモデルと比べてトレーニングを5倍高速化する。 これらのメトリクスは、0.034 TFLOPs (BS=1) の計算効率と相まって、DocParseNetのドキュメントアノテーションにおけるハイパフォーマンスを強調している。 モデルの適応性とスケーラビリティは、実際の企業文書処理アプリケーションに適しています。 コードはhttps://github.com/ahmad-shirazi/DocParseNetで入手できる。

Automating the annotation of scanned documents is challenging, requiring a balance between computational efficiency and accuracy. DocParseNet addresses this by combining deep learning and multi-modal learning to process both text and visual data. This model goes beyond traditional OCR and semantic segmentation, capturing the interplay between text and images to preserve contextual nuances in complex document structures. Our evaluations show that DocParseNet significantly outperforms conventional models, achieving mIoU scores of 49.12 on validation and 49.78 on the test set. This reflects a 58% accuracy improvement over state-of-the-art baseline models and an 18% gain compared to the UNext baseline. Remarkably, DocParseNet achieves these results with only 2.8 million parameters, reducing the model size by approximately 25 times and speeding up training by 5 times compared to other models. These metrics, coupled with a computational efficiency of 0.034 TFLOPs (BS=1), highlight DocParseNet's high performance in document annotation. The model's adaptability and scalability make it well-suited for real-world corporate document processing applications. The code is available at https://github.com/ahmad-shirazi/DocParseNet
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 『小を通して大きなものを見る』:軽微な説明からNLI上の人間の判断分布を近似できるか?

"Seeing the Big through the Small": Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations? ( http://arxiv.org/abs/2406.17600v1 )

ライセンス: Link先を確認
Beiduo Chen, Xinpeng Wang, Siyao Peng, Robert Litschko, Anna Korhonen, Barbara Plank, (参考訳) HLV(Human label variation)は、複数のアノテータが妥当な理由で異なるラベルを提供するときに発生する貴重な情報源である。 自然言語推論(NLI)において、HLVを捕捉する以前のアプローチでは、多くの群衆労働者から注釈を集め、人間の判断分布(HJD)を表すか、専門家言語学者を使用して、選択したラベルについて詳細な説明を行うかのどちらかが関係している。 従来の手法はより密度の高いHJD情報を提供するが、取得はリソース集約である。 対照的に、後者はよりリッチなテキスト情報を提供するが、多くの人間の裁判官にスケールアップすることは困難である。 また, 大規模言語モデル (LLM) は評価指標 (``LLM judges'') として用いられることが多いが, 結果が混在しているため, HJD を研究対象とする研究は少ない。 本研究は,少数の専門家ラベルと説明を用いて,LLMを用いてHJDを近似することを提案する。 実験の結果,HJD と明示的なラベルを伴わずに HJD を近似する LLM の能力は著しく向上し,HJD のアノテーションをスケールアップするためのソリューションが提供されることがわかった。 しかし、LLM生成モデル判定分布(MJD)を用いた微調整の小さなソフトラベル認識モデルでは、距離が似ているものの、結果として得られる微調整モデルと可視化された分布は、部分的に矛盾する結果を示す。 我々は,MJDを人間の判断分布に対してより効果的に評価するために,グローバルレベルの形状測定と可視化によるインスタンスレベルの距離測定を補完することの重要性を示す。

Human label variation (HLV) is a valuable source of information that arises when multiple human annotators provide different labels for valid reasons. In Natural Language Inference (NLI) earlier approaches to capturing HLV involve either collecting annotations from many crowd workers to represent human judgment distribution (HJD) or use expert linguists to provide detailed explanations for their chosen labels. While the former method provides denser HJD information, obtaining it is resource-intensive. In contrast, the latter offers richer textual information but it is challenging to scale up to many human judges. Besides, large language models (LLMs) are increasingly used as evaluators (``LLM judges'') but with mixed results, and few works aim to study HJDs. This study proposes to exploit LLMs to approximate HJDs using a small number of expert labels and explanations. Our experiments show that a few explanations significantly improve LLMs' ability to approximate HJDs with and without explicit labels, thereby providing a solution to scale up annotations for HJD. However, fine-tuning smaller soft-label aware models with the LLM-generated model judgment distributions (MJDs) presents partially inconsistent results: while similar in distance, their resulting fine-tuned models and visualized distributions differ substantially. We show the importance of complementing instance-level distance measures with a global-level shape metric and visualization to more effectively evaluate MJDs against human judgment distributions.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# Director3D: リアル世界のカメラ軌道とテキストからの3Dシーン生成

Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text ( http://arxiv.org/abs/2406.17601v1 )

ライセンス: Link先を確認
Xinyang Li, Zhangyu Lai, Linning Xu, Yansong Qu, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji, (参考訳) 3D生成の最近の進歩は、地上の真理3D資産と事前に定義されたカメラを備えた合成データセットを活用している。 しかし、より現実的な3Dシーンを生み出すことができる現実世界のデータセットを採用する可能性については、まだ明らかにされていない。 本研究では、現実世界の撮影で見られる、複雑でシーン固有のカメラ軌道の鍵となる課題を掘り下げる。 実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。 そこで,本研究ではまず,撮影者として機能するトラジェクトリ拡散変換器を用いて,テキスト記述に基づくカメラトラジェクトリの分布をモデル化する。 次に、ガウス駆動型多視点遅延拡散モデルがデコレータとして機能し、カメラの軌跡とテキストが与えられた画像列分布をモデル化する。 このモデルは2次元拡散モデルから微調整され、一貫した復調のための即時的な3次元シーン表現としてピクセル整列3次元ガウスを直接生成する。 (3) 最後に、3Dガウスは2D拡散モデルの先行を組み込んだ新しいSDS++ロスによって洗練される。 大規模な実験により、Director3Dは既存の手法よりも優れ、現実世界の3D生成において優れたパフォーマンスを提供することが示された。

Recent advancements in 3D generation have leveraged synthetic datasets with ground truth 3D assets and predefined cameras. However, the potential of adopting real-world datasets, which can produce significantly more realistic 3D scenes, remains largely unexplored. In this work, we delve into the key challenge of the complex and scene-specific camera trajectories found in real-world captures. We introduce Director3D, a robust open-world text-to-3D generation framework, designed to generate both real-world 3D scenes and adaptive camera trajectories. To achieve this, (1) we first utilize a Trajectory Diffusion Transformer, acting as the Cinematographer, to model the distribution of camera trajectories based on textual descriptions. (2) Next, a Gaussian-driven Multi-view Latent Diffusion Model serves as the Decorator, modeling the image sequence distribution given the camera trajectories and texts. This model, fine-tuned from a 2D diffusion model, directly generates pixel-aligned 3D Gaussians as an immediate 3D scene representation for consistent denoising. (3) Lastly, the 3D Gaussians are refined by a novel SDS++ loss as the Detailer, which incorporates the prior of the 2D diffusion model. Extensive experiments demonstrate that Director3D outperforms existing methods, offering superior performance in real-world 3D generation.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 拡散法に基づく侵入検知のための逆浄化法

Diffusion-based Adversarial Purification for Intrusion Detection ( http://arxiv.org/abs/2406.17606v1 )

ライセンス: Link先を確認
Mohamed Amine Merzouk, Erwan Beurier, Reda Yaich, Nora Boulahia-Cuppens, Frédéric Cuppens, (参考訳) サイバー攻撃の高度化は、侵入検知システムにおける機械学習技術の統合を促しているが、敵の事例の出現は重大な課題である。 これらの巧妙な摂動はMLモデルを誤解させ、攻撃者は検出を回避したり、誤警報を発生させたりすることができる。 反応として、特に有望な結果を示す拡散モデルによって、敵の浄化が説得力のある解として現れた。 しかし、その浄化ポテンシャルは侵入検知の文脈では未解明のままである。 本稿では,ネットワーク侵入検出における逆例の浄化における拡散モデルの有効性を示す。 拡散パラメータの包括的解析により,通常の性能に最小限の影響を伴って,対向ロバスト性を最大化する最適構成を同定する。 本研究は,拡散雑音と拡散ステップの関係について考察し,新しい分野への貢献を示す。 実験は2つのデータセットと5つの敵攻撃に対して行われた。 実装コードは公開されている。

The escalating sophistication of cyberattacks has encouraged the integration of machine learning techniques in intrusion detection systems, but the rise of adversarial examples presents a significant challenge. These crafted perturbations mislead ML models, enabling attackers to evade detection or trigger false alerts. As a reaction, adversarial purification has emerged as a compelling solution, particularly with diffusion models showing promising results. However, their purification potential remains unexplored in the context of intrusion detection. This paper demonstrates the effectiveness of diffusion models in purifying adversarial examples in network intrusion detection. Through a comprehensive analysis of the diffusion parameters, we identify optimal configurations maximizing adversarial robustness with minimal impact on normal performance. Importantly, this study reveals insights into the relationship between diffusion noise and diffusion steps, representing a novel contribution to the field. Our experiments are carried out on two datasets and against 5 adversarial attacks. The implementation code is publicly available.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 低クロストーク・シリコン加工光導波路による物質量子へのレーザー伝送

Low-Crosstalk, Silicon-Fabricated Optical Waveguides for Laser Delivery to Matter Qubits ( http://arxiv.org/abs/2406.17607v1 )

ライセンス: Link先を確認
Clayton L. Craft, Nicholas J. Barton, Andrew C. Klug, Kenneth Scalzi, Ian Wildemann, Pramod Asagodu, Joseph D. Broz, Nikola L. Porto, Michael Macalik, Anthony Rizzo, Garrett Percevault, Christopher C. Tison, A. Matthew Smith, Michael L. Fanto, James Schneeloch, Erin Sheridan, Dylan Heberle, Andrew Brownell, Vijay S. S. Sundaram, Venkatesh Deenadayalan, Matthew van Niekerk, Evan Manfreda-Schulz, Gregory A. Howland, Stefan F. Preble, Daniel Coleman, Gerald Leake, Alin Antohe, Tuan Vo, Nicholas M. Fahrenkopf, Todd H. Stievater, Kathy-Anne Brickman-Soderberg, Zachary S. Smith, David Hucul, (参考訳) 物質ベースの量子ビットにおける量子情報の信頼性の高い制御には、正確に外界を適用する必要があり、隣接する量子ビット間の場の空間的クロストークは、忠実さを損なう。 CMOSファウントリーにより作製された窒化ケイ素(Si3N4)光導波路を,スケーラブルな量子情報処理に適合するクロストークを有する8個の不等間隔捕獲バリウムイオンに対処する。 チップ設計に組み込まれたクロストーク緩和技術により、隣り合う導波路出力と493nmおよび585nmの設計機器の同様の挙動の間には、少なくとも50.8(1.3) dBの計測光学界が減少する。 650nm付近の導波管出力と493nm付近のグローバルレーザーを用いて8個のバリウム-138イオンの鎖をレーザー冷却し、その結果の蛍光を493nmで撮像した。

Reliable control of quantum information in matter-based qubits requires precisely applied external fields, and unaccounted for spatial cross-talk of these fields between adjacent qubits leads to loss of fidelity. We report a CMOS foundry-produced, micro-fabricated silicon nitride (Si3N4) optical waveguide for addressing a chain of eight, unequally-spaced trapped barium ions with crosstalk compatible with scalable quantum information processing. The crosstalk mitigation techniques incorporated into the chip design result in a reduction of the measured optical field by at least 50.8(1.3) dB between adjacent waveguide outputs near 650 nm and similar behavior for devices designed for 493 nm and 585 nm. The waveguide outputs near 650 nm, along with a global laser near 493 nm were used to laser-cool a chain of eight barium-138 ions, and a camera imaged the resulting fluorescence at 493 nm.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 医用画像分割のためのテスト時間生成拡張

Test-Time Generative Augmentation for Medical Image Segmentation ( http://arxiv.org/abs/2406.17608v1 )

ライセンス: Link先を確認
Xiao Ma, Yuhui Tao, Yuhan Zhang, Zexuan Ji, Yizhe Zhang, Qiang Chen, (参考訳) 本稿では,テスト期間中の医用画像のセグメンテーションを向上するための新しいアプローチを提案する。 入力テスト画像上に手作りの変換や関数を用いて、テスト時間拡張のための複数のビューを作成する代わりに、テスト時間拡張のための高度なドメインファインチューニング生成モデル(GM)、例えば安定拡散(SD)の利用を提唱する。 GMは、包括的ドメインデータ知識の理解とカプセル化を訓練されているため、データ特性と分布を表す点において、セグメンテーションモデルよりも優れている。 したがって、GMをテスト時間拡張に統合することにより、サンプルの内容と外観特性と関連するローカルデータ分布とを一致させて、与えられたテストサンプルの複数のビューを効果的に生成することができる。 このアプローチは、従来の手作り変換よりも適応性と弾力性が向上する。 3つの医用画像セグメンテーションタスク(9つのデータセット)で実施された総合的な実験は、セグメンテーションの結果を高めるために提案されたTTGAの有効性と汎用性を示した。 さらに、TTGAは画素単位の誤差推定を大幅に改善し、より信頼性の高いセグメンテーションシステムの展開を容易にする。 コードは、https://github.com/maxiao0234/TTGA.comでリリースされる。

In this paper, we propose a novel approach to enhance medical image segmentation during test time. Instead of employing hand-crafted transforms or functions on the input test image to create multiple views for test-time augmentation, we advocate for the utilization of an advanced domain-fine-tuned generative model (GM), e.g., stable diffusion (SD), for test-time augmentation. Given that the GM has been trained to comprehend and encapsulate comprehensive domain data knowledge, it is superior than segmentation models in terms of representing the data characteristics and distribution. Hence, by integrating the GM into test-time augmentation, we can effectively generate multiple views of a given test sample, aligning with the content and appearance characteristics of the sample and the related local data distribution. This approach renders the augmentation process more adaptable and resilient compared to conventional handcrafted transforms. Comprehensive experiments conducted across three medical image segmentation tasks (nine datasets) demonstrate the efficacy and versatility of the proposed TTGA in enhancing segmentation outcomes. Moreover, TTGA significantly improves pixel-wise error estimation, thereby facilitating the deployment of a more reliable segmentation system. Code will be released at: https://github.com/maxiao0234/TTGA.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# MSRS:スパースマスク最適化によるスクラッチからのマルチモーダル音声認識モデルの訓練

MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization ( http://arxiv.org/abs/2406.17614v1 )

ライセンス: Link先を確認
Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Lu Yin, Qiao Xiao, Stavros Petridis, Shiwei Liu, Maja Pantic, (参考訳) 事前訓練されたモデルは、追加コストを伴うが、音声認識の基本的なアプローチである。 本研究では,視覚的・視覚的音声認識モデル(VSR,AVSR)をスクラッチから学習するための正規化手法を提案する。 このアプローチは「textbf{MSRS} (Multimodal Speech Recognition from Scratch)」と略され、訓練の開始時に高密度モデルのスパース構造を迅速に学習するスパース正規化を導入する。 スパースマスクが安定すると,非ゼロ値の更新により,密度モデルへの移行やスパースモデル維持が可能となる。 MSRSは、RS3ベンチマークで21.1%と0.9%のWERでVSRとAVSRの競争結果を達成し、トレーニング時間を少なくとも2倍に短縮する。 我々は、他のスパースアプローチを探索し、MSRSだけが、消失する勾配によって影響を受ける重量を暗黙的に隠蔽することで、スクラッチからトレーニングできることを示す。

Pre-trained models have been a foundational approach in speech recognition, albeit with associated additional costs. In this study, we propose a regularization technique that facilitates the training of visual and audio-visual speech recognition models (VSR and AVSR) from scratch. This approach, abbreviated as \textbf{MSRS} (Multimodal Speech Recognition from Scratch), introduces a sparse regularization that rapidly learns sparse structures within the dense model at the very beginning of training, which receives healthier gradient flow than the dense equivalent. Once the sparse mask stabilizes, our method allows transitioning to a dense model or keeping a sparse model by updating non-zero values. MSRS achieves competitive results in VSR and AVSR with 21.1% and 0.9% WER on the LRS3 benchmark, while reducing training time by at least 2x. We explore other sparse approaches and show that only MSRS enables training from scratch by implicitly masking the weights affected by vanishing gradients.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# プログラミング言語と自然言語のアラインメント:バグローカライゼーションのためのマルチモーダルトランスフォーマーベース埋め込みにおける設計選択の探索

Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization ( http://arxiv.org/abs/2406.17615v1 )

ライセンス: Link先を確認
Partha Chakraborty, Venkatraman Arumugam, Meiyappan Nagappan, (参考訳) バグローカライゼーション(バグローカライゼーション、Bug localization)とは、プログラミング言語のソースコードファイルの識別であり、バグレポート(バグレポート)を使ってソフトウェアが予期せぬ振る舞いをする原因でもある。 バグローカライゼーションは労働集約型であるため、バグローカライゼーションモデルがソフトウェア開発者の支援に使用されている。 ソースコードファイルとバグレポートのドメイン差のため、ディープラーニングモデルに基づく現代のバグローカライゼーションシステムは、バグレポートとソースコードファイルを共有ベクトル空間に投影する埋め込み技術に大きく依存している。 埋め込みの作成にはいくつかの設計上の選択があるが、これらの選択が埋め込みの品質とバグローカライゼーションモデルの性能に与える影響は、現在の研究で説明されていない。 このギャップに対処するため,本研究では,14種類の異なる埋め込みモデルを評価し,様々な設計選択の効果について考察した。 その後,これらの埋め込みモデルを用いたバグローカライゼーションモデルを開発し,それらの選択が局所化モデルの性能に与える影響を評価する。 以上の結果から,プレトレーニング戦略が組込みの質に大きく影響していることが示唆された。 さらに,組込みモデルとデータとの親和性は,バグローカライゼーションモデルの性能に顕著な影響を及ぼすことがわかった。 特に、異なるプロジェクトからトレーニングデータとテストデータが収集されると、バグローカライゼーションモデルの性能は大幅に変動する。

Bug localization refers to the identification of source code files which is in a programming language and also responsible for the unexpected behavior of software using the bug report, which is a natural language. As bug localization is labor-intensive, bug localization models are employed to assist software developers. Due to the domain difference between source code files and bug reports, modern bug-localization systems, based on deep learning models, rely heavily on embedding techniques that project bug reports and source code files into a shared vector space. The creation of an embedding involves several design choices, but the impact of these choices on the quality of embedding and the performance of bug localization models remains unexplained in current research. To address this gap, our study evaluated 14 distinct embedding models to gain insights into the effects of various design choices. Subsequently, we developed bug localization models utilizing these embedding models to assess the influence of these choices on the performance of the localization models. Our findings indicate that the pre-training strategies significantly affect the quality of the embedding. Moreover, we discovered that the familiarity of the embedding models with the data has a notable impact on the bug localization model's performance. Notably, when the training and testing data are collected from different projects, the performance of the bug localization models exhibits substantial fluctuations.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# スパイクニューラルネットワークを用いた組込みイベントベース物体検出

Embedded event based object detection with spiking neural network ( http://arxiv.org/abs/2406.17617v1 )

ライセンス: Link先を確認
Jonathan Courtois, Pierre-Emmanuel Novac, Edgar Lemaire, Alain Pegatoquet, Benoit Miramond, (参考訳) イベントベースのオブジェクト検出(OD)の複雑さは、かなりの課題を引き起こす。 スパイキングニューラルネットワーク(SNN)は有望な結果を示し、効率的なイベントベースODの道を開く。 この成功にもかかわらず、組み込みデバイス上での効率的なSNNへの道は依然として課題である。 これは、タスクを達成するのに必要なネットワークのサイズと、SNNの利点を利用するデバイスの能力が原因である。 エッジ”デバイスが検討されている場合でも、通常は数十ワットを消費する組み込みGPUを使用する。 これらの課題に対して,本研究では,SPiking Low-power Event-based ArchiTecture (SPLEAT) アクセラレータを応用した,組み込み型ニューロモルフィックテストベンチを提案する。 Qualiaフレームワークの拡張バージョンを使用することで、SPLEATのFPGA実装上でスパイキングニューラルネットワークをトレーニング、評価、定量化、デプロイすることができる。 このテストベンチを使用して、最先端のSNNソリューションをロードし、専用ハードウェアにネットワークをデプロイする際のパフォーマンス損失を見積もり、低消費電力のスパイクニューラルネットワーク用に特別に設計されたニューロモルフィックハードウェア上で実際のイベントベースのODを実行する。 注目すべきは、1.08万のパラメータを持つモデルを含む組み込みスパイクソリューションが、予測毎に490mJで効率的に動作することだ。

The complexity of event-based object detection (OD) poses considerable challenges. Spiking Neural Networks (SNNs) show promising results and pave the way for efficient event-based OD. Despite this success, the path to efficient SNNs on embedded devices remains a challenge. This is due to the size of the networks required to accomplish the task and the ability of devices to take advantage of SNNs benefits. Even when "edge" devices are considered, they typically use embedded GPUs that consume tens of watts. In response to these challenges, our research introduces an embedded neuromorphic testbench that utilizes the SPiking Low-power Event-based ArchiTecture (SPLEAT) accelerator. Using an extended version of the Qualia framework, we can train, evaluate, quantize, and deploy spiking neural networks on an FPGA implementation of SPLEAT. We used this testbench to load a state-of-the-art SNN solution, estimate the performance loss associated with deploying the network on dedicated hardware, and run real-world event-based OD on neuromorphic hardware specifically designed for low-power spiking neural networks. Remarkably, our embedded spiking solution, which includes a model with 1.08 million parameters, operates efficiently with 490 mJ per prediction.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 多言語自動歌詞書き起こしモデルの構築に向けて

Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model ( http://arxiv.org/abs/2406.17618v1 )

ライセンス: Link先を確認
Jiawen Huang, Emmanouil Benetos, (参考訳) 多言語自動文字起こし(ALT)は,ラベル付きデータの不足や歌唱による課題が,多言語自動音声認識と比較して難しい課題である。 いくつかの多言語歌唱データセットが最近リリースされているが、英語がこれらのコレクションを支配し続けている。 マルチリンガルALTは、データのスケールとアノテーションの品質のため、まだ探索されていない。 本稿では,利用可能なデータセットを用いた多言語ALTシステムの構築を目指す。 英語のALTに有効であることが証明されたアーキテクチャに触発されて、ターゲット語彙集合を拡張することで、これらの手法を多言語シナリオに適用する。 次に、単言語モデルと比較して、多言語モデルの性能を評価する。 さらに,言語情報をモデルに組み込む様々な条件付け手法についても検討する。 言語による分析を応用し、言語分類性能と組み合わせる。 その結果,多言語モデルは言語サブセット上で訓練されたモノリンガルモデルよりも一貫した性能を示した。 さらに,言語情報の導入によって性能が著しく向上することが実証された。

Multilingual automatic lyrics transcription (ALT) is a challenging task due to the limited availability of labelled data and the challenges introduced by singing, compared to multilingual automatic speech recognition. Although some multilingual singing datasets have been released recently, English continues to dominate these collections. Multilingual ALT remains underexplored due to the scale of data and annotation quality. In this paper, we aim to create a multilingual ALT system with available datasets. Inspired by architectures that have been proven effective for English ALT, we adapt these techniques to the multilingual scenario by expanding the target vocabulary set. We then evaluate the performance of the multilingual model in comparison to its monolingual counterparts. Additionally, we explore various conditioning methods to incorporate language information into the model. We apply analysis by language and combine it with the language classification performance. Our findings reveal that the multilingual model performs consistently better than the monolingual models trained on the language subsets. Furthermore, we demonstrate that incorporating language information significantly enhances performance.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 自己評価・展示・認識:大規模言語モデルにおけるパーソナリティのレビュー

Self-assessment, Exhibition, and Recognition: a Review of Personality in Large Language Models ( http://arxiv.org/abs/2406.17624v1 )

ライセンス: Link先を確認
Zhiyuan Wen, Yu Yang, Jiannong Cao, Haoming Sun, Ruosong Yang, Shuaiqi Liu, (参考訳) 大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞うようになるにつれて、LLMにおけるパーソナリティの調査に関心を持つ研究者が増えている。 しかし、心理学的パーソナリティ研究の多様性とLSMの急速な発展は、この学際的な分野において、広いが断片化された研究の風景を生み出している。 異なる研究、異なるパーソナリティ心理測定、異なるLLMに関する広範な研究は、全体論的な概要を持つことを難しくし、現実世界の応用に発見を適用するのにさらに困難をもたらす。 本稿では, LLMにおける自己評価, 展示, 認識という3つの研究課題に, 自己評価, 展示, 認識の3つの研究課題を分類し, 人格の内在的特徴と外的表現に基づく総合的なレビューを行う。 各問題に対して、我々は徹底的な解析を行い、対応する解の詳細な比較を行う。 さらに,現在の研究から研究成果とオープン課題を要約し,その根本原因についてさらに議論する。 また、興味のある研究者や開発者を支援するために、広く公開されているリソースも収集しています。 最後に,今後の研究の方向性と応用シナリオについて論じる。 本稿は, LLMにおける人格に関する最新の文献を包括的に調査した初めての論文である。 本研究は, 明確な分類, 詳細な分析, 将来的な方向性, 広範囲な資源収集を提示することによって, この新興分野のさらなる進歩を, より深く理解し, 促進することを目指している。

As large language models (LLMs) appear to behave increasingly human-like in text-based interactions, more and more researchers become interested in investigating personality in LLMs. However, the diversity of psychological personality research and the rapid development of LLMs have led to a broad yet fragmented landscape of studies in this interdisciplinary field. Extensive studies across different research focuses, different personality psychometrics, and different LLMs make it challenging to have a holistic overview and further pose difficulties in applying findings to real-world applications. In this paper, we present a comprehensive review by categorizing current studies into three research problems: self-assessment, exhibition, and recognition, based on the intrinsic characteristics and external manifestations of personality in LLMs. For each problem, we provide a thorough analysis and conduct in-depth comparisons of their corresponding solutions. Besides, we summarize research findings and open challenges from current studies and further discuss their underlying causes. We also collect extensive publicly available resources to facilitate interested researchers and developers. Lastly, we discuss the potential future research directions and application scenarios. Our paper is the first comprehensive survey of up-to-date literature on personality in LLMs. By presenting a clear taxonomy, in-depth analysis, promising future directions, and extensive resource collections, we aim to provide a better understanding and facilitate further advancements in this emerging field.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# CoSafe: マルチターン対話における大規模言語モデルの安全性評価

CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference ( http://arxiv.org/abs/2406.17626v1 )

ライセンス: Link先を確認
Erxin Yu, Jing Li, Ming Liao, Siqi Wang, Zuchen Gao, Fei Mi, Lanqing Hong, (参考訳) 大規模言語モデル(LLM)が常に進化するにつれて、その安全性は依然として重要な研究課題である。 LLMの安全性のための以前のレッドチームアプローチは、主に単一プロンプト攻撃やゴールハイジャックに重点を置いていた。 我々の知る限り、私たちはマルチターン・ダイアログ・コア推論におけるLLM安全性を初めて研究した人物です。 私たちは14のカテゴリで1,400の質問のデータセットを作成しました。 次に,広く使用されている5つのオープンソースLCMについて,詳細な評価を行った。 その結果,マルチターンコア参照安全性攻撃では,LLaMA2-Chat-7bモデルでは56%,Mistral-7B-Instructモデルでは13.9%であった。 これらの結果は,対話型コア参照相互作用におけるLLMの安全性上の脆弱性を浮き彫りにした。

As large language models (LLMs) constantly evolve, ensuring their safety remains a critical research problem. Previous red-teaming approaches for LLM safety have primarily focused on single prompt attacks or goal hijacking. To the best of our knowledge, we are the first to study LLM safety in multi-turn dialogue coreference. We created a dataset of 1,400 questions across 14 categories, each featuring multi-turn coreference safety attacks. We then conducted detailed evaluations on five widely used open-source LLMs. The results indicated that under multi-turn coreference safety attacks, the highest attack success rate was 56% with the LLaMA2-Chat-7b model, while the lowest was 13.9% with the Mistral-7B-Instruct model. These findings highlight the safety vulnerabilities in LLMs during dialogue coreference interactions.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# コントラスト学習によるローカライゼーションの映像化

Video Inpainting Localization with Contrastive Learning ( http://arxiv.org/abs/2406.17628v1 )

ライセンス: Link先を確認
Zijie Lou, Gang Cao, Man Lin, (参考訳) ディープビデオのインペイントは通常、偽ビデオを作成するための重要なオブジェクトを削除する悪意のある操作として使用される。 塗布された地域を盲目的に識別することは重要である。 本稿では,コントラッシブ・ラーニング(ViLocal)を用いたビデオ・インパインティング・ローカライゼーションの簡易かつ効果的な法医学的手法を提案する。 具体的には、3D Uniformerエンコーダをビデオノイズ残差に適用し、効果的な時空間法医学的特徴を学習する。 識別力を高めるために、教師付きコントラスト学習を採用し、正負のプリスチン対と偽の画素対を誘引し、印字された映像の局所的不整合を捉える。 特殊な2段階のトレーニング戦略を備えた軽量畳み込みデコーダにより、画素ワイドなローカライゼーションマップが得られる。 十分なトレーニングサンプルを作成するために,フレーム単位でピクセルレベルのアノテーションを付加した2500本の動画の映像オブジェクトセグメンテーションデータセットを構築した。 膨大な実験結果から,ViLocalの最先端技術に対する優位性が確認された。 コードとデータセットはhttps://github.com/multimediaFor/ViLocal.comで入手できる。

Deep video inpainting is typically used as malicious manipulation to remove important objects for creating fake videos. It is significant to identify the inpainted regions blindly. This letter proposes a simple yet effective forensic scheme for Video Inpainting LOcalization with ContrAstive Learning (ViLocal). Specifically, a 3D Uniformer encoder is applied to the video noise residual for learning effective spatiotemporal forensic features. To enhance the discriminative power, supervised contrastive learning is adopted to capture the local inconsistency of inpainted videos through attracting/repelling the positive/negative pristine and forged pixel pairs. A pixel-wise inpainting localization map is yielded by a lightweight convolution decoder with a specialized two-stage training strategy. To prepare enough training samples, we build a video object segmentation dataset of 2500 videos with pixel-level annotations per frame. Extensive experimental results validate the superiority of ViLocal over state-of-the-arts. Code and dataset will be available at https://github.com/multimediaFor/ViLocal.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# KanQAS: Kolmogorov Arnold Network for Quantum Architecture Search

KANQAS: Kolmogorov Arnold Network for Quantum Architecture Search ( http://arxiv.org/abs/2406.17630v1 )

ライセンス: Link先を確認
Akash Kundu, Aritra Sarkar, Abhishek Sadhu, (参考訳) 量子アーキテクチャサーチ~(QAS)は量子回路の最適化と自動設計のための有望な方向である。 QASの最近の技術は、深層Qネットワークのような強化学習からの機械学習ベースのアプローチに焦点を当てている。 マルチ層パーセプトロンをベースとした深層QネットワークがQASに適用されているが、パラメータが多いため、その解釈性は依然として困難である。 本研究では、量子アーキテクチャ探索問題におけるkanの実用性を評価し、その効率を、成功確率、最適解の頻度、およびネットワークの様々な自由度への依存性の観点から分析する。 ノイズのないシナリオでは、マルチキュービットの最大絡み合った状態を生成するための成功の確率と最適量子回路構成の数は、MPPよりも著しく高い。 さらにノイズの多いシナリオでは、Kanは、MLPよりも最大絡み合った状態の近似において、活性化関数の選択に大きく依存する。 さらなる調査により,KANはMPPに比べて学習可能なパラメータが極めて少ないことが判明した。

Quantum architecture search~(QAS) is a promising direction for optimization and automated design of quantum circuits towards quantum advantage. Recent techniques in QAS focus on machine learning-based approaches from reinforcement learning, like deep Q-network. While multi-layer perceptron-based deep Q-networks have been applied for QAS, their interpretability remains challenging due to the high number of parameters. In this work, we evaluate the practicality of KANs in quantum architecture search problems, analyzing their efficiency in terms of the probability of success, frequency of optimal solutions and their dependencies on various degrees of freedom of the network. In a noiseless scenario, the probability of success and the number of optimal quantum circuit configurations to generate the multi-qubit maximally entangled states are significantly higher than MLPs. Moreover in noisy scenarios, KAN can achieve a better fidelity in approximating maximally entangled state than MLPs, where the performance of the MLP significantly depends on the choice of activation function. Further investigation reveals that KAN requires a very small number of learnable parameters compared to MLPs, however, the average time of executing each episode for KAN is much higher.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 自動アノテーションにおける知識蒸留:LLM生成学習ラベルを用いた教師付きテキスト分類

Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels ( http://arxiv.org/abs/2406.17633v1 )

ライセンス: Link先を確認
Nicholas Pangakis, Samuel Wolken, (参考訳) コンピュータ社会科学(CSS)の実践者は、微調整された教師付きテキスト分類器に人間のラベル付きデータを利用することが多い。 我々は,人為的なトレーニングデータを,生成型大規模言語モデル(LLMs)からサロゲートトレーニングラベルに拡張あるいは置き換える可能性を評価する。 推奨ワークフローを導入し、14の分類タスクを複製し、性能を測定することで、このLLMアプリケーションをテストする。 我々は,近年のCSS記事から英語のテキスト分類データセットをハイインパクトジャーナルに導入した。 これらのデータセットはパスワードで保護されたアーカイブに保存されているため、我々の分析は汚染の問題が少なくなる。 各タスクについて,GPT-4ラベルを用いて微調整した教師付き分類器と,人間のアノテーションで微調整した分類器と,数ショットのインコンテキスト学習によるGPT-4とMistral-7Bのラベルを比較した。 以上の結果から,LLMラベルを微調整した教師付き分類モデルは,ヒトアノテータのラベルを微調整したモデルと同等に機能することが示唆された。 LLMラベルを用いた微調整モデルは、教師付きテキスト分類器を構築するための高速で効率的で費用対効果の高い方法である。

Computational social science (CSS) practitioners often rely on human-labeled data to fine-tune supervised text classifiers. We assess the potential for researchers to augment or replace human-generated training data with surrogate training labels from generative large language models (LLMs). We introduce a recommended workflow and test this LLM application by replicating 14 classification tasks and measuring performance. We employ a novel corpus of English-language text classification data sets from recent CSS articles in high-impact journals. Because these data sets are stored in password-protected archives, our analyses are less prone to issues of contamination. For each task, we compare supervised classifiers fine-tuned using GPT-4 labels against classifiers fine-tuned with human annotations and against labels from GPT-4 and Mistral-7B with few-shot in-context learning. Our findings indicate that supervised classification models fine-tuned on LLM-generated labels perform comparably to models fine-tuned with labels from human annotators. Fine-tuning models using LLM-generated labels can be a fast, efficient and cost-effective method of building supervised text classifiers.
翻訳日:2024-06-26 14:00:49 公開日:2024-06-25
# 雑音を考慮した拡散モデル

Aligning Diffusion Models with Noise-Conditioned Perception ( http://arxiv.org/abs/2406.17636v1 )

ライセンス: Link先を確認
Alexander Gambashidze, Anton Kulikov, Yuriy Sosnin, Ilya Makarov, (参考訳) 言語モデル(LM)向けに開発された人間の嗜好最適化の最近の進歩により、テキストから画像への拡散モデルが約束され、迅速なアライメント、視覚的魅力、ユーザの嗜好が向上している。 LMとは異なり、拡散モデルは通常、人間の知覚とうまく一致しないピクセルやVAE空間で最適化される。 本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。 提案手法では,DPO(Direct Preference Optimization),CPO(Contrastive Preference Optimization),SFT(supervised fine-tuning)を用いて,安定拡散1.5およびXLの微調整を行う。 この手法は、品質や計算コストなど、様々な指標で標準のラテント空間の実装を著しく上回っている。 SDXLの場合、我々のアプローチは、PartiPromptsデータセット上のオリジナルのオープンソースSDXL-DPOに対して、60.8\%の一般的な好み、62.2\%の視覚的魅力、52.1\%のプロンプトを提供する。 提案手法は,拡散モデルにおける人間の嗜好アライメントの効率と品質を改善するだけでなく,他の最適化手法と容易に統合可能である。 トレーニングコードとLoRAウェイトは以下の通りである。 https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1

Recent advancements in human preference optimization, initially developed for Language Models (LMs), have shown promise for text-to-image Diffusion Models, enhancing prompt alignment, visual appeal, and user preference. Unlike LMs, Diffusion Models typically optimize in pixel or VAE space, which does not align well with human perception, leading to slower and less efficient training during the preference alignment stage. We propose using a perceptual objective in the U-Net embedding space of the diffusion model to address these issues. Our approach involves fine-tuning Stable Diffusion 1.5 and XL using Direct Preference Optimization (DPO), Contrastive Preference Optimization (CPO), and supervised fine-tuning (SFT) within this embedding space. This method significantly outperforms standard latent-space implementations across various metrics, including quality and computational cost. For SDXL, our approach provides 60.8\% general preference, 62.2\% visual appeal, and 52.1\% prompt following against original open-sourced SDXL-DPO on the PartiPrompts dataset, while significantly reducing compute. Our approach not only improves the efficiency and quality of human preference alignment for diffusion models but is also easily integrable with other optimization techniques. The training code and LoRA weights will be available here: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# ギャップを緩和する:CLIPにおけるクロスモーダルアライメント改善のための調査アプローチ

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP ( http://arxiv.org/abs/2406.17639v1 )

ライセンス: Link先を確認
Sedigheh Eslami, Gerard de Melo, (参考訳) コントラスト言語-画像事前学習(CLIP)は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。 しかし、幾何学的な観点から、CLIP埋め込み空間は明らかなモジュラリティギャップを持つことが判明した。 このギャップは埋め込み空間を過度にスパースし、非連結にし、異なるモジュラリティは超球面の異なる部分領域に密分布する。 本研究では,主に2つの疑問に答えることを目的としている。 1.マルチモーダルエンコーダ間のパラメータ空間の共有はモダリティギャップを減少させるか? 2. モダリティ内分離によるユニモーダル埋め込みの分離によりギャップを緩和できるか? これらの疑問に答えるためにAlignCLIPを設計し、両方の質問に対する回答が肯定的であることを示す。 広範にわたる実験により,AlignCLIPは組込みのクロスモーダルアライメントにおける顕著な拡張を実現し,モダリティギャップを低減するとともに,ゼロショット画像分類,ゼロショットマルチモーダル検索,ゼロショットセマンティックテキスト類似性などの下流評価における性能を維持した。

Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering two main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? We design AlignCLIP, in order to answer these questions and show that answers to both questions are positive. Through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while maintaining the performance across several downstream evaluations, such as zero-shot image classification, zero-shot multi-modal retrieval and zero-shot semantic text similarity.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# BayTTA:ベイズモデル平均化を用いたテスト時間拡張による不確かさを意識した医用画像分類

BayTTA: Uncertainty-aware medical image classification with optimized test-time augmentation using Bayesian model averaging ( http://arxiv.org/abs/2406.17640v1 )

ライセンス: Link先を確認
Zeinab Sherkatghanad, Moloud Abdar, Mohammadreza Bakhtyari, Vladimir Makarenkov, (参考訳) TTA(Test-time Augmentation)は、コンピュータビジョンタスクのテストフェーズでよく使われるテクニックである。 入力データの複数の拡張バージョンを集約する。 単純な平均定式化を用いた予測の組み合わせは、TTAの実行後、一般的で簡単なアプローチである。 本稿では,ベイズモデル平均化(BMA)に基づく,ベイズベースTTA(Bayesian-based TTA)と呼ばれる,TTAを最適化するための新しいフレームワークを提案する。 まず、TTAによって生成された入力データの様々なバリエーションに関連するモデルリストを生成する。 次に,BMAを用いて,それぞれの後部確率で重み付けされたモデル予測を組み合わせる。 このようなアプローチにより、モデルの不確実性を考慮して、関連する機械学習やディープラーニングモデルの予測性能を高めることができる。 皮膚癌,乳癌,胸部X線画像を含む3つの医用画像データセットと,CRISPORとGUIDE-seqの2つの有名な遺伝子編集データセットを含む,各種公開データを用いたBayTTAの性能評価を行った。 VGG-16, MobileNetV2, DenseNet201, ResNet152V2, InceptionRes-NetV2などのCNNモデルにBayTTAを組み込むことで, 精度と堅牢性の向上が期待できる。

Test-time augmentation (TTA) is a well-known technique employed during the testing phase of computer vision tasks. It involves aggregating multiple augmented versions of input data. Combining predictions using a simple average formulation is a common and straightforward approach after performing TTA. This paper introduces a novel framework for optimizing TTA, called BayTTA (Bayesian-based TTA), which is based on Bayesian Model Averaging (BMA). First, we generate a model list associated with different variations of the input data created through TTA. Then, we use BMA to combine model predictions weighted by their respective posterior probabilities. Such an approach allows one to take into account model uncertainty, and thus to enhance the predictive performance of the related machine learning or deep learning model. We evaluate the performance of BayTTA on various public data, including three medical image datasets comprising skin cancer, breast cancer, and chest X-ray images and two well-known gene editing datasets, CRISPOR and GUIDE-seq. Our experimental results indicate that BayTTA can be effectively integrated into state-of-the-art deep learning models used in medical image analysis as well as into some popular pre-trained CNN models such as VGG-16, MobileNetV2, DenseNet201, ResNet152V2, and InceptionRes-NetV2, leading to the enhancement in their accuracy and robustness performance.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# LLMの幻覚の禁止は、一般化を再考する必要がある

Banishing LLM Hallucinations Requires Rethinking Generalization ( http://arxiv.org/abs/2406.17642v1 )

ライセンス: Link先を確認
Johnny Li, Saksham Consul, Eda Zhou, James Wong, Naila Farooqui, Yuxin Ye, Nithyashree Manohar, Zhuxiaona Wei, Tian Wu, Ben Echols, Sharon Zhou, Gregory Diamos, (参考訳) 強力なチャット、コーディング、推論能力にもかかわらず、LLM(Large Language Models)はしばしば幻覚を呈する。 従来の知恵は、幻覚は創造性と事実性のバランスの結果であり、外的知識源に LLM を根ざすことによって緩和されるが、排除されないことを示唆している。 大規模な系統的な実験を通して、これらの従来のアプローチは、LCMが実際に幻覚する理由を説明するのに失敗していることを示す。 具体的には,大規模メモリエキスパート(MoME)を付加したLCMが,乱数の大きなデータセットを容易に記憶できることを示す。 これらの実験結果は,インターネットスケールデータを用いたトレーニングを行う場合のように,トレーニング損失がしきい値を超える場合,次のトークンの幻覚を予測するためにトレーニングされた単純なニューラルネットワークが,通常ならば次のトークンの幻覚を予測できることを示す理論的構築と相関する。 本研究は,幻覚を緩和するための従来の検索手法と比較することにより,これらの知見を解釈する。 われわれはこの発見を利用して、幻覚を取り除く第1世代モデル、Lamini-1を設計した。

Despite their powerful chat, coding, and reasoning abilities, Large Language Models (LLMs) frequently hallucinate. Conventional wisdom suggests that hallucinations are a consequence of a balance between creativity and factuality, which can be mitigated, but not eliminated, by grounding the LLM in external knowledge sources. Through extensive systematic experiments, we show that these traditional approaches fail to explain why LLMs hallucinate in practice. Specifically, we show that LLMs augmented with a massive Mixture of Memory Experts (MoME) can easily memorize large datasets of random numbers. We corroborate these experimental findings with a theoretical construction showing that simple neural networks trained to predict the next token hallucinate when the training loss is above a threshold as it usually does in practice when training on internet scale data. We interpret our findings by comparing against traditional retrieval methods for mitigating hallucinations. We use our findings to design a first generation model for removing hallucinations -- Lamini-1 -- that stores facts in a massive mixture of millions of memory experts that are retrieved dynamically.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# 変分主義: 言語データにおける多面的変化とバイアスの探索

Variationist: Exploring Multifaceted Variation and Bias in Written Language Data ( http://arxiv.org/abs/2406.17647v1 )

ライセンス: Link先を確認
Alan Ramponi, Camilla Casula, Stefano Menini, (参考訳) 言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。 NLPの実践者は、トレーニング前にデータの品質上の懸念や有害なバイアスを明らかにすることができ、言語学者や社会科学者が言語の使用や人間の行動に関する洞察を得るのに役立つ。 しかし、現在、複数の変数、言語ユニット、そして記述統計を超えた多様なメトリクスにわたる言語のバリエーションとバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。 本稿では,このギャップを埋める,高度にモジュラーで拡張性があり,タスクに依存しないツールである「変分主義」を紹介する。 変分主義者は、選択肢の言語単位に関して、多様性と関連メトリクスをまたいだ変数タイプとセマンティクスの潜在的無制限な組み合わせを一度に処理し、30以上の変数タイプとセマンティクスの組み合わせに対して最大5次元のインタラクティブチャートの作成をオーケストレーションする。 計算弁証学、人名変化、テキスト生成に関するケーススタディを通じて、変分主義は、異なる分野の研究者が、特定の研究の質問に答えたり、言語データに望ましくない関連を明らかにするのにどのように役立つかを示す。 Pythonライブラリ、コード、ドキュメント、チュートリアルがリサーチコミュニティで公開されている。

Exploring and understanding language data is a fundamental stage in all areas dealing with human language. It allows NLP practitioners to uncover quality concerns and harmful biases in data before training, and helps linguists and social scientists to gain insight into language use and human behavior. Yet, there is currently a lack of a unified, customizable tool to seamlessly inspect and visualize language variation and bias across multiple variables, language units, and diverse metrics that go beyond descriptive statistics. In this paper, we introduce Variationist, a highly-modular, extensible, and task-agnostic tool that fills this gap. Variationist handles at once a potentially unlimited combination of variable types and semantics across diversity and association metrics with regards to the language unit of choice, and orchestrates the creation of up to five-dimensional interactive charts for over 30 variable type-semantics combinations. Through our case studies on computational dialectology, human label variation, and text generation, we show how Variationist enables researchers from different disciplines to effortlessly answer specific research questions or unveil undesired associations in language data. A Python library, code, documentation, and tutorials are made publicly available to the research community.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# 人口プロセスのためのプライバシー保護強化学習

Privacy Preserving Reinforcement Learning for Population Processes ( http://arxiv.org/abs/2406.17649v1 )

ライセンス: Link先を確認
Samuel Yang-Zhao, Kee Siong Ng, (参考訳) 本稿では, 集団プロセス上で動作する強化学習(RL)アルゴリズムにおけるプライバシ保護の問題について考察する。 この設定では、RLアルゴリズムは、人口レベル統計を状態として受信し、各時点における全人口に影響を与えるアクションを実行することで、T$タイムステップ以上の人口と相互作用する。 個人のデータは複数のインタラクションにまたがって収集することができ、そのプライバシは常に保護されなければならない。 本稿では,Pufferfish のプライバシ分析により,集団プロセスに相関するデータが存在する場合のベイズ的差分プライバシー(DP)のセマンティクスを明らかにする。 次に、任意のRLアルゴリズムを入力とし、それを微分プライベートにするメタアルゴリズムを提案する。 これは、DP機構を用いて、RLアルゴリズムがそれらを入力として受け取る前に、各タイミングで状態と報酬信号の民営化を行うアプローチをとることで達成される。 その結果,民営化状態に標準RLアルゴリズムを直接適用した場合の値関数近似誤差は,人口規模やプライバシー予算の増加とともに急速に減少することがわかった。 このことは、集団プロセスにおいて、異なるプライベートなRLアルゴリズムに対して、合理的なプライバシユーティリティトレードオフが可能であることを強調している。 本研究は,大集団を対象としたシミュレートされた疫病対策に関する実験により検証した。

We consider the problem of privacy protection in Reinforcement Learning (RL) algorithms that operate over population processes, a practical but understudied setting that includes, for example, the control of epidemics in large populations of dynamically interacting individuals. In this setting, the RL algorithm interacts with the population over $T$ time steps by receiving population-level statistics as state and performing actions which can affect the entire population at each time step. An individual's data can be collected across multiple interactions and their privacy must be protected at all times. We clarify the Bayesian semantics of Differential Privacy (DP) in the presence of correlated data in population processes through a Pufferfish Privacy analysis. We then give a meta algorithm that can take any RL algorithm as input and make it differentially private. This is achieved by taking an approach that uses DP mechanisms to privatize the state and reward signal at each time step before the RL algorithm receives them as input. Our main theoretical result shows that the value-function approximation error when applying standard RL algorithms directly to the privatized states shrinks quickly as the population size and privacy budget increase. This highlights that reasonable privacy-utility trade-offs are possible for differentially private RL algorithms in population processes. Our theoretical findings are validated by experiments performed on a simulated epidemic control problem over large population sizes.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# ELIZA再解釈:世界初のチャットボットはチャットボットとして意図されたものではなかった

ELIZA Reinterpreted: The world's first chatbot was not intended as a chatbot at all ( http://arxiv.org/abs/2406.17650v1 )

ライセンス: Link先を確認
Jeff Shrager, (参考訳) ELIZAはしばしば世界初のチャットボットと見なされ、1960年代初頭にジョセフ・ワイゼンバウムによって書かれた。 ワイゼンバウムはチャットボットを発明するつもりはなく、人間と機械の会話と解釈と誤解の重要な認知過程を研究するためのプラットフォームを構築するつもりであった。 彼の目的はエリザの名声によって曖昧にされ、それが創造の絶好のタイミングから大きくなり、野生に逃げ込んだ。 本稿では,AI技術史における中心的スレッドの交点からERIZAが生じたことを示す。 ELIZAがいかにして世界に逃避したのか、そしてその偶発的な脱走が、プログラミング言語のネジの偶然のターンとともに、ELIZAがチャットボットとして意図されていたという誤解と、50年以上の歴史に残るオリジナルのELIZAの喪失につながったかについても、簡単に議論しました。

ELIZA, often considered the world's first chatbot, was written by Joseph Weizenbaum in the early 1960s. Weizenbaum did not intend to invent the chatbot, but rather to build a platform for research into human-machine conversation and the important cognitive processes of interpretation and misinterpretation. His purpose was obscured by ELIZA's fame, resulting in large part from the fortuitous timing of it's creation, and it's escape into the wild. In this paper I provide a rich historical context for ELIZA's creation, demonstrating that ELIZA arose from the intersection of some of the central threads in the technical history of AI. I also briefly discuss how ELIZA escaped into the world, and how its accidental escape, along with several coincidental turns of the programming language screws, led both to the misapprehension that ELIZA was intended as a chatbot, and to the loss of the original ELIZA to history for over 50 years.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# ソフトウェアモデル補完のための大規模言語モデルを活用する:産業用および公共用データセットの結果

Leveraging Large Language Models for Software Model Completion: Results from Industrial and Public Datasets ( http://arxiv.org/abs/2406.17651v1 )

ライセンス: Link先を確認
Christof Tinnes, Alisa Welter, Sven Apel, (参考訳) ソフトウェアシステムの構造と振舞いのモデリングは、ソフトウェア工学の産業実践において重要な役割を果たす。 他のソフトウェアエンジニアリングアーティファクトと同様に、ソフトウェアモデルは進化の対象となる。 しかし、モデル完了を推奨するソフトウェアモデルの進化におけるモデラーのサポートは、まだ未解決の問題である。 本稿では,この課題に対する大規模言語モデルの可能性について検討する。 特に,大規模言語モデル,モデル履歴,検索拡張生成をモデル補完に活用した検索拡張生成を提案する。 産業アプリケーション,オープンソースコミュニティデータセット,シミュレートされたモデルリポジトリの1つの制御されたコレクションを含む3つのデータセットの実験を通じて,検索拡張生成によるモデル補完のための大規模言語モデルの可能性を評価する。 大規模な言語モデルは、ソフトウェアモデルの進化をサポートするための有望な技術であることがわかった(62.30%が実世界の産業データに対して意味論的に正しい完成であり、86.19%の型正しい完成である)。 大規模言語モデルの一般的な推論能力は、ほとんど、うるさい、あるいは全く例のない概念を扱う際に特に有用である。

Modeling structure and behavior of software systems plays a crucial role in the industrial practice of software engineering. As with other software engineering artifacts, software models are subject to evolution. Supporting modelers in evolving software models with recommendations for model completions is still an open problem, though. In this paper, we explore the potential of large language models for this task. In particular, we propose an approach, retrieval-augmented generation, leveraging large language models, model histories, and retrieval-augmented generation for model completion. Through experiments on three datasets, including an industrial application, one public open-source community dataset, and one controlled collection of simulated model repositories, we evaluate the potential of large language models for model completion with retrieval-augmented generation. We found that large language models are indeed a promising technology for supporting software model evolution (62.30% semantically correct completions on real-world industrial data and up to 86.19% type-correct completions). The general inference capabilities of large language models are particularly useful when dealing with concepts for which there are few, noisy, or no examples at all.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# 高速量子コンピューティングのためのアルゴリズム的フォールトトレランス

Algorithmic Fault Tolerance for Fast Quantum Computing ( http://arxiv.org/abs/2406.17653v1 )

ライセンス: Link先を確認
Hengyun Zhou, Chen Zhao, Madelyn Cain, Dolev Bluvstein, Casey Duckering, Hong-Ye Hu, Sheng-Tao Wang, Aleksander Kubica, Mikhail D. Lukin, (参考訳) 高速で信頼性の高い論理演算は、実用的な量子アルゴリズムを大規模に実装する必要があるため、有用な量子コンピュータの実現に不可欠である。 論理量子ビットを多くの物理量子ビットに冗長に符号化し、シンドローム測定を用いてエラーを検出し、その後修正することにより、非常に低い論理誤り率が得られる。 しかし、表面符号のようなほとんどの実用的な量子誤り訂正(QEC)符号の場合、一般的に、符号距離dの順に複数の抽出ラウンドがシンドローム抽出誤差のため、フォールトトレラント計算には必要であると考えられている。 ここでは、この一般的な信念に反して、フォールトトレラントな論理演算は、マジック状態入力とフィードフォワード演算を含む広範囲のQEC符号に対して一定の時間オーバーヘッドで行うことができ、「アルゴリズム的フォールトトレランス」を達成することができることを示す。 部分的シンドローム情報のみをアクセスするトランスバーサル演算と新しい相関復号法を組み合わせることで、理想的な測定結果分布からの偏差をコード距離で指数関数的に小さくすることができることを示す。 この証明を回路レベルシミュレーションで補足し,本手法の耐故障性と競合性能を実証する。 我々の研究は、フォールトトレランスの理論に新たな光を当て、実用的なフォールトトレラント量子計算の時空間コストを桁違いに削減する可能性がある。

Fast, reliable logical operations are essential for the realization of useful quantum computers, as they are required to implement practical quantum algorithms at large scale. By redundantly encoding logical qubits into many physical qubits and using syndrome measurements to detect and subsequently correct errors, one can achieve very low logical error rates. However, for most practical quantum error correcting (QEC) codes such as the surface code, it is generally believed that due to syndrome extraction errors, multiple extraction rounds -- on the order of the code distance d -- are required for fault-tolerant computation. Here, we show that contrary to this common belief, fault-tolerant logical operations can be performed with constant time overhead for a broad class of QEC codes, including the surface code with magic state inputs and feed-forward operations, to achieve "algorithmic fault tolerance". Through the combination of transversal operations and novel strategies for correlated decoding, despite only having access to partial syndrome information, we prove that the deviation from the ideal measurement result distribution can be made exponentially small in the code distance. We supplement this proof with circuit-level simulations in a range of relevant settings, demonstrating the fault tolerance and competitive performance of our approach. Our work sheds new light on the theory of fault tolerance, potentially reducing the space-time cost of practical fault-tolerant quantum computation by orders of magnitude.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# MDHA:マルチビュー3Dオブジェクト検出のためのハイブリッドアンカー付きマルチスケール変形可能トランス

MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection ( http://arxiv.org/abs/2406.17654v1 )

ライセンス: Link先を確認
Michelle Adeline, Junn Yong Loo, Vishnu Monn Baskaran, (参考訳) マルチビュー3Dオブジェクト検出は、自律運転システムにおいて重要な要素である。 現代のクエリベースの手法は、主に3Dアンカーのデータセット固有の初期化、バイアスの導入、あるいは計算的に非効率で計算不可能な高密度アテンション機構の利用に依存する。 MDHAは,マルチビュー・マルチスケール入力からのハイブリッドアンカーを用いて,適応的な3次元出力提案を構築する,新しいスパースクエリベースのフレームワークである。 固定された2Dアンカーは深さ予測と組み合わせて2.5Dアンカーを形成する。 高効率を実現するため,提案するアンカーエンコーダはスパース改良を行い,トップkアンカーと特徴を選択する。 さらに,既存のマルチビューアテンション機構は参照ポイントを複数の画像に投影することに依存しているが,新しいCircular Deformable Attention機構は単一の画像に投影するだけで,参照ポイントが隣接する画像にシームレスに対応でき,性能を損なうことなく効率が向上する。 nuScenesのvalセットでは、46.4%のmAPと55.0%のNDSをResNet101バックボーンで達成している。 MDHAはベースラインを大幅に上回り、アンカーの提案は学習可能な埋め込みとしてモデル化される。

Multi-view 3D object detection is a crucial component of autonomous driving systems. Contemporary query-based methods primarily depend either on dataset-specific initialization of 3D anchors, introducing bias, or utilize dense attention mechanisms, which are computationally inefficient and unscalable. To overcome these issues, we present MDHA, a novel sparse query-based framework, which constructs adaptive 3D output proposals using hybrid anchors from multi-view, multi-scale input. Fixed 2D anchors are combined with depth predictions to form 2.5D anchors, which are projected to obtain 3D proposals. To ensure high efficiency, our proposed Anchor Encoder performs sparse refinement and selects the top-k anchors and features. Moreover, while existing multi-view attention mechanisms rely on projecting reference points to multiple images, our novel Circular Deformable Attention mechanism only projects to a single image but allows reference points to seamlessly attend to adjacent images, improving efficiency without compromising on performance. On the nuScenes val set, it achieves 46.4% mAP and 55.0% NDS with a ResNet101 backbone. MDHA significantly outperforms the baseline, where anchor proposals are modelled as learnable embeddings.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# DKPROMPT:オープンワールドプランニングのためのビジョンランゲージモデル

DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning ( http://arxiv.org/abs/2406.17659v1 )

ライセンス: Link先を確認
Xiaohan Zhang, Zainab Altaweel, Yohei Hayamizu, Yan Ding, Saeid Amiri, Hao Yang, Andy Kaminski, Chad Esselink, Shiqi Zhang, (参考訳) 視覚言語モデル(VLM)は、ロボットが自然言語でタスクを受け取り、視覚入力に基づいて計画を生成するロボットタスク計画問題に適用されている。 現在のVLMは、強力な視覚言語理解能力を示しているが、その性能は、計画タスクで満足できるものには程遠い。 PDDLをベースとした古典的タスクプランナーは、長期的タスクの計画に強いが、予期せぬ状況が一般的であるオープンな世界ではうまく機能しない。 本稿では,DKPROMPTと呼ばれる新しいタスク計画実行フレームワークを提案し,オープンワールドにおける古典的計画のためのPDDLにおけるドメイン知識の活用を促進する。 定量的実験の結果、DKPROMPT は古典的計画、純粋 VLM ベース、その他のタスク完了率の競争ベースラインよりも優れていた。

Vision-language models (VLMs) have been applied to robot task planning problems, where the robot receives a task in natural language and generates plans based on visual inputs. While current VLMs have demonstrated strong vision-language understanding capabilities, their performance is still far from being satisfactory in planning tasks. At the same time, although classical task planners, such as PDDL-based, are strong in planning for long-horizon tasks, they do not work well in open worlds where unforeseen situations are common. In this paper, we propose a novel task planning and execution framework, called DKPROMPT, which automates VLM prompting using domain knowledge in PDDL for classical planning in open worlds. Results from quantitative experiments show that DKPROMPT outperforms classical planning, pure VLM-based and a few other competitive baselines in task completion rate.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# Grass: 構造化スパース勾配を用いた計算効率のよい低メモリLDMトレーニング

Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients ( http://arxiv.org/abs/2406.17660v1 )

ライセンス: Link先を確認
Aashiq Muhamed, Oscar Li, David Woodruff, Mona Diab, Virginia Smith, (参考訳) 大規模言語モデル(LLM)のトレーニングと微調整は、しばしば限られたGPUメモリによってボトルネックとなる。 既存のプロジェクションベースの最適化手法は、最適化状態メモリを減らすために低次元のサブ空間に勾配を投影することでこの問題に対処するが、それらは一般に密度の高いプロジェクション行列に依存しており、計算とメモリのオーバーヘッドを導入することができる。 本研究では,グラス(GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification)を提案する。 この設計は、最適化状態のメモリ使用量を大幅に削減するだけでなく、勾配メモリフットプリント、計算、通信コストを最小化し、スループットを大幅に向上させる。 事前訓練および微調整タスクに関する大規模な実験は、グラスがフルランクトレーニングや既存の投影法と競合する性能を発揮することを示した。 特に、Grassは、1台の40GB A100 GPU上で13BパラメータのLLaMAモデルの半精度事前トレーニングを可能にしている。 コードはhttps://github.com/aashiqmuhamed/GRASS で見ることができる。

Large language model (LLM) training and finetuning are often bottlenecked by limited GPU memory. While existing projection-based optimization methods address this by projecting gradients into a lower-dimensional subspace to reduce optimizer state memory, they typically rely on dense projection matrices, which can introduce computational and memory overheads. In this work, we propose Grass (GRAdient Stuctured Sparsification), a novel approach that leverages sparse projections to transform gradients into structured sparse updates. This design not only significantly reduces memory usage for optimizer states but also minimizes gradient memory footprint, computation, and communication costs, leading to substantial throughput improvements. Extensive experiments on pretraining and finetuning tasks demonstrate that Grass achieves competitive performance to full-rank training and existing projection-based methods. Notably, Grass enables half-precision pretraining of a 13B parameter LLaMA model on a single 40GB A100 GPU--a feat infeasible for previous methods--and yields up to a $2\times$ throughput improvement on an 8-GPU system. Code can be found at https://github.com/aashiqmuhamed/GRASS .
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# LLM-ARC: 自動推論によるLCMの強化

LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic ( http://arxiv.org/abs/2406.17663v1 )

ライセンス: Link先を確認
Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville, David Ferrucci, (参考訳) LLM-ARCは,Large Language Models (LLMs) の論理的推論能力を高めるために設計され,それらをARC(Automated Reasoning Critic)と組み合わせて導入する。 LLM-ARC は Actor-Critic 方式を採用しており、LCM アクターは宣言論理プログラムと意味的正当性テストを生成し、自動推論批評家はコードを評価し、テストを実行し、反復的洗練のためのテスト失敗に対するフィードバックを提供する。 ASP(Answer Set Programming)を用いて実装されたLLM-ARCは、複雑な論理的推論能力をテストするFOLIOベンチマークで88.32%の最先端の精度を達成した。 実験では,LLMのみのベースラインよりも大幅に改善され,論理的テスト生成と反復的自己精製の重要性が強調された。 我々は、アクターが批判的フィードバックでエンドツーエンドのダイアログトレースに基づいて訓練される完全自動自己教師型トレーニングループを用いて、最良の結果を得る。 複雑な自然言語推論タスクに対するLLM-ARCの堅牢性と有効性を示す。

We introduce LLM-ARC, a neuro-symbolic framework designed to enhance the logical reasoning capabilities of Large Language Models (LLMs), by combining them with an Automated Reasoning Critic (ARC). LLM-ARC employs an Actor-Critic method where the LLM Actor generates declarative logic programs along with tests for semantic correctness, while the Automated Reasoning Critic evaluates the code, runs the tests and provides feedback on test failures for iterative refinement. Implemented using Answer Set Programming (ASP), LLM-ARC achieves a new state-of-the-art accuracy of 88.32% on the FOLIO benchmark which tests complex logical reasoning capabilities. Our experiments demonstrate significant improvements over LLM-only baselines, highlighting the importance of logic test generation and iterative self-refinement. We achieve our best result using a fully automated self-supervised training loop where the Actor is trained on end-to-end dialog traces with Critic feedback. We discuss potential enhancements and provide a detailed error analysis, showcasing the robustness and efficacy of LLM-ARC for complex natural language reasoning tasks.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# この論文は、最も賢いレビュアーを持っていた -- オーディオ・テキスト・トランスフォーマーを用いたフラタリー検出-

This Paper Had the Smartest Reviewers -- Flattery Detection Utilising an Audio-Textual Transformer-Based Approach ( http://arxiv.org/abs/2406.17667v1 )

ライセンス: Link先を確認
Lukas Christ, Shahin Amiriparian, Friederike Hawighorst, Ann-Kathrin Schill, Angelo Boutalikakis, Lorenz Graf-Vlachy, Andreas König, Björn W. Schuller, (参考訳) フラタリー(英: Flattery)は、人間のコミュニケーションにおいて重要な側面であり、社会的結合を促進し、知覚を形作り、戦略的賞賛と賞賛を通じて行動に影響を与える。 その自動検出は、人間とAIの相互作用の自然性を高めることができる。 このニーズを満たすために、20時間に及ぶ音声と学習機械学習モデルからなる新しい音声テキストデータセットを提案する。 特に、事前訓練されたAST、Wav2Vec2、Whisperモデルを用いて、テキストモダリティに対してWhisper TTSモデルとRoBERTaテキスト分類器を組み合わせる。 その後,テキストと音声の表現を組み合わせたマルチモーダル分類器を構築した。 未確認テストデータの評価は有望な結果を示し、Unweighted Average Recallスコアは音声のみの実験で82.46%、テキストのみの実験で85.97%、マルチモーダルなアプローチで87.16%に達した。

Flattery is an important aspect of human communication that facilitates social bonding, shapes perceptions, and influences behavior through strategic compliments and praise, leveraging the power of speech to build rapport effectively. Its automatic detection can thus enhance the naturalness of human-AI interactions. To meet this need, we present a novel audio textual dataset comprising 20 hours of speech and train machine learning models for automatic flattery detection. In particular, we employ pretrained AST, Wav2Vec2, and Whisper models for the speech modality, and Whisper TTS models combined with a RoBERTa text classifier for the textual modality. Subsequently, we build a multimodal classifier by combining text and audio representations. Evaluation on unseen test data demonstrates promising results, with Unweighted Average Recall scores reaching 82.46% in audio-only experiments, 85.97% in text-only experiments, and 87.16% using a multimodal approach.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# 視覚変換器を用いた脳腫瘍の分類 : 選択的クロスアテンション機構と特徴校正

Brain Tumor Classification using Vision Transformer with Selective Cross-Attention Mechanism and Feature Calibration ( http://arxiv.org/abs/2406.17670v1 )

ライセンス: Link先を確認
Mohammad Ali Labbaf Khaniki, Alireza Golkarieh, Mohammad Manthouri, (参考訳) 脳腫瘍の分類は、医療画像解析において難しい課題である。 本稿では,視覚変換器を用いた新しい脳腫瘍分類手法を提案する。 提案手法は,長距離依存とマルチスケール機能融合のモデル化におけるトランスフォーマーの強みを利用する。 本稿では, クロスアテンション融合モジュールの性能向上のための2つの新しいメカニズム, 特徴キャリブレーション機構(FCM)と選択的クロスアテンション(SCA)を紹介する。 FCMは異なるブランチの機能を校正し、互換性を高めます。 提案手法は脳腫瘍の分類における他の最先端手法よりも優れており,精度と効率が向上している。 提案したFCMおよびSCA機構は、他のビジョントランスフォーマーアーキテクチャに容易に組み込むことができ、医用画像解析における将来的な研究の方向性として期待できる。 実験の結果,脳腫瘍の分類作業において,既存の手法を超越し,最先端の性能を達成できることが確認された。

Brain tumor classification is a challenging task in medical image analysis. In this paper, we propose a novel approach to brain tumor classification using a vision transformer with a novel cross-attention mechanism. Our approach leverages the strengths of transformers in modeling long-range dependencies and multi-scale feature fusion. We introduce two new mechanisms to improve the performance of the cross-attention fusion module: Feature Calibration Mechanism (FCM) and Selective Cross-Attention (SCA). FCM calibrates the features from different branches to make them more compatible, while SCA selectively attends to the most informative features. Our experiments demonstrate that the proposed approach outperforms other state-of-the-art methods in brain tumor classification, achieving improved accuracy and efficiency. The proposed FCM and SCA mechanisms can be easily integrated into other vision transformer architectures, making them a promising direction for future research in medical image analysis. Experimental results confirm that our approach surpasses existing methods, achieving state-of-the-art performance in brain tumor classification tasks.
翻訳日:2024-06-26 13:51:04 公開日:2024-06-25
# LaTable: 大規模タブラルモデルに向けて

LaTable: Towards Large Tabular Models ( http://arxiv.org/abs/2406.17673v1 )

ライセンス: Link先を確認
Boris van Breugel, Jonathan Crabbé, Rob Davis, Mihaela van der Schaar, (参考訳) タブラルデータは最もユビキタスなモダリティの1つだが、表層生成基盤モデルに関する文献は、テキストや視覚モデルよりもはるかに遅れている。 このようなモデルの作成は、異なる表形式のデータセット、表形式のメタデータ(例:データセット記述とフィーチャーヘッダ)、事前の知識(例:フィーチャー順)が欠けているテーブルなど、不均一な機能空間のため、難しい。 本研究では、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい表拡散モデルであるLaTableを提案する。 広範な実験により、LaTableは分散生成のベースラインよりも優れており、微調整されたLaTableはより少ないサンプルで分散データセットをより良く生成できることがわかった。 一方、LaTableのゼロショット性能の低さや、より優れたゼロショットおよび少数ショット生成機能を備えた生成可能な表層基盤モデルの構築について学ぶことができるかもしれない。

Tabular data is one of the most ubiquitous modalities, yet the literature on tabular generative foundation models is lagging far behind its text and vision counterparts. Creating such a model is hard, due to the heterogeneous feature spaces of different tabular datasets, tabular metadata (e.g. dataset description and feature headers), and tables lacking prior knowledge (e.g. feature order). In this work we propose LaTable: a novel tabular diffusion model that addresses these challenges and can be trained across different datasets. Through extensive experiments we find that LaTable outperforms baselines on in-distribution generation, and that finetuning LaTable can generate out-of-distribution datasets better with fewer samples. On the other hand, we explore the poor zero-shot performance of LaTable, and what it may teach us about building generative tabular foundation models with better zero- and few-shot generation capabilities.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# AI心理学の定量化 - 大規模言語モデルのための心理学的ベンチマーク

Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models ( http://arxiv.org/abs/2406.17675v1 )

ライセンス: Link先を確認
Yuan Li, Yue Huang, Hongyi Wang, Xiangliang Zhang, James Zou, Lichao Sun, (参考訳) 大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。 LLMの社会への広範な統合は、それらが心理的属性を示すかどうか、そしてそれらの属性が彼らの行動に対する理解を深める可能性のある安定した質問であるかどうかに関心を喚起した。 本稿では,心理学的側面の同定,評価データセットのキュレーション,結果検証による評価など,LCMにおける心理学研究の枠組みについて述べる。 この枠組みに従うと、パーソナリティ、価値観、感情、心の理論、モチベーション、知性の6つの心理学的側面を網羅する、LCMの総合的心理測定ベンチマークを導入する。 このベンチマークには、さまざまなシナリオとアイテムタイプを備えた13のデータセットが含まれている。 以上の結果から,LSMは幅広い心理的特性を示すことが示唆された。 また,LLMの自己報告特性と実世界のシナリオにおける行動の相違も明らかにした。 本稿では,LLMの心理学的評価を徹底的に実施し,AIおよび社会科学における信頼性評価と潜在的応用に関する知見を提供する。

Large Language Models (LLMs) have demonstrated exceptional task-solving capabilities, increasingly adopting roles akin to human-like assistants. The broader integration of LLMs into society has sparked interest in whether they manifest psychological attributes, and whether these attributes are stable-inquiries that could deepen the understanding of their behaviors. Inspired by psychometrics, this paper presents a framework for investigating psychology in LLMs, including psychological dimension identification, assessment dataset curation, and assessment with results validation. Following this framework, we introduce a comprehensive psychometrics benchmark for LLMs that covers six psychological dimensions: personality, values, emotion, theory of mind, motivation, and intelligence. This benchmark includes thirteen datasets featuring diverse scenarios and item types. Our findings indicate that LLMs manifest a broad spectrum of psychological attributes. We also uncover discrepancies between LLMs' self-reported traits and their behaviors in real-world scenarios. This paper demonstrates a thorough psychometric assessment of LLMs, providing insights into reliable evaluation and potential applications in AI and social sciences.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# HSI-Xセマンティックセマンティックセグメンテーションのための局所-Globalクロスモーダルアテンション-アウェアフュージョン

Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation ( http://arxiv.org/abs/2406.17679v1 )

ライセンス: Link先を確認
Xuming Zhang, Naoto Yokoya, Xingfa Gu, Qingjiu Tian, Lorenzo Bruzzone, (参考訳) ハイパースペクトル画像(HSI)分類は、最近パフォーマンスボトルネックに達した。 補足的モダリティ(X-モダリティ)から豊富な補完情報を提供することにより、このボトルネックを克服するための有望なアプローチとしてマルチモーダルデータ融合が出現している。 しかし, 画像センサの相違, 解像度, モダリティの相違により, 様々な感覚モダリティにまたがる包括的相互モーダル相互作用と融合の実現は困難である。 本研究では,効率,精度,一般化性を両立するHSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。 LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。 LoGoCAFのパイプラインは、ローカル-グローバルエンコーダと軽量多層パーセプトロン(MLP)デコーダで構成される。 エンコーダにおいて、畳み込みは浅層における局所的および高解像度の細部を符号化するために使用され、トランスフォーマーはより深い層においてグローバルおよび低解像度の粗い特徴を統合するために使用される。 MLPデコーダは、特徴融合および予測のためにエンコーダから情報を集約する。 特に、各エンコーダ段階では、FEM(Feature enhancement Module)とFIFM(Feature Interaction and fusion Module)の2つのモジュールが導入された。 FEMは、方向認識、位置感受性、チャネルワイドといった他のモードからの特徴を組み合わせることで、補完情報を強化するために使用される。 拡張された特徴により、FIFMは、最終的な意味予測のために、モダリティ間の情報相互作用と融合を促進するように設計されている。 我々のLoGoCAFは優れた性能を示し、一般化する。 コードは公開されます。

Hyperspectral image (HSI) classification has recently reached its performance bottleneck. Multimodal data fusion is emerging as a promising approach to overcome this bottleneck by providing rich complementary information from the supplementary modality (X-modality). However, achieving comprehensive cross-modal interaction and fusion that can be generalized across different sensing modalities is challenging due to the disparity in imaging sensors, resolution, and content of different modalities. In this study, we propose a Local-to-Global Cross-modal Attention-aware Fusion (LoGoCAF) framework for HSI-X classification that jointly considers efficiency, accuracy, and generalizability. LoGoCAF adopts a pixel-to-pixel two-branch semantic segmentation architecture to learn information from HSI and X modalities. The pipeline of LoGoCAF consists of a local-to-global encoder and a lightweight multilayer perceptron (MLP) decoder. In the encoder, convolutions are used to encode local and high-resolution fine details in shallow layers, while transformers are used to integrate global and low-resolution coarse features in deeper layers. The MLP decoder aggregates information from the encoder for feature fusion and prediction. In particular, two cross-modality modules, the feature enhancement module (FEM) and the feature interaction and fusion module (FIFM), are introduced in each encoder stage. The FEM is used to enhance complementary information by combining the feature from the other modality across direction-aware, position-sensitive, and channel-wise dimensions. With the enhanced features, the FIFM is designed to promote cross-modality information interaction and fusion for the final semantic prediction. Extensive experiments demonstrate that our LoGoCAF achieves superior performance and generalizes well. The code will be made publicly available.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# 費用対効果のないエンドツーエンド自動運転と3次元手動アノテーション

End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation ( http://arxiv.org/abs/2406.17680v1 )

ライセンス: Link先を確認
Mingzhe Guo, Zhipeng Zhang, Yuan He, Ke Wang, Liping Jing, (参考訳) 本稿では,視覚に基づくエンド・ツー・エンド自動運転(E2EAD)の手法であるUADを提案する。 私たちのモチベーションは、現在のE2EADモデルが依然として典型的な運転スタックのモジュラーアーキテクチャを模倣していることに起因しています。 画期的な進歩を遂げたものの、そのような設計には何らかの欠点がある。 1)事前のサブタスクは、トレーニングデータのスケーリングに重大な障害を生じさせることなく、監督として高品質な3Dアノテーションを大量に必要とします。 2) 各サブモジュールは、トレーニングと推論の両方において、かなりの計算オーバーヘッドを伴います。 この目的のために我々は,これらすべての問題に対処するための,教師なしプロキシを備えたE2EADフレームワークであるUADを提案する。 まず、アノテーションの要求をなくすために、新しいAngular Perception Pretextを設計する。 プリテキストは、手動のアノテーションを使わずに、角度方向の空間的対象性と時間的ダイナミクスを予測することによって、運転シーンをモデル化する。 第2に,予測軌道の整合性を異なるオーグメント視点で学習する自己指導型トレーニング戦略を提案し,ステアリングシナリオにおける計画ロバスト性を高める。 我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。 さらに、提案手法は、UniADの44.3%のトレーニングリソースしか消費せず、推論で3.4倍高速に動作している。 私たちのイノベーティブなデザインは、教師付きのものよりも不確実なパフォーマンス上のアドバンテージを示すだけでなく、データ、トレーニング、推論における前例のない効率性も享受しています。 コードとモデルはhttps://github.com/KargoBot_Research/UAD.comでリリースされる。

We propose UAD, a method for vision-based end-to-end autonomous driving (E2EAD), achieving the best open-loop evaluation performance in nuScenes, meanwhile showing robust closed-loop driving quality in CARLA. Our motivation stems from the observation that current E2EAD models still mimic the modular architecture in typical driving stacks, with carefully designed supervised perception and prediction subtasks to provide environment information for oriented planning. Although achieving groundbreaking progress, such design has certain drawbacks: 1) preceding subtasks require massive high-quality 3D annotations as supervision, posing a significant impediment to scaling the training data; 2) each submodule entails substantial computation overhead in both training and inference. To this end, we propose UAD, an E2EAD framework with an unsupervised proxy to address all these issues. Firstly, we design a novel Angular Perception Pretext to eliminate the annotation requirement. The pretext models the driving scene by predicting the angular-wise spatial objectness and temporal dynamics, without manual annotation. Secondly, a self-supervised training strategy, which learns the consistency of the predicted trajectories under different augment views, is proposed to enhance the planning robustness in steering scenarios. Our UAD achieves 38.7% relative improvements over UniAD on the average collision rate in nuScenes and surpasses VAD for 41.32 points on the driving score in CARLA's Town05 Long benchmark. Moreover, the proposed method only consumes 44.3% training resources of UniAD and runs 3.4 times faster in inference. Our innovative design not only for the first time demonstrates unarguable performance advantages over supervised counterparts, but also enjoys unprecedented efficiency in data, training, and inference. Code and models will be released at https://github.com/KargoBot_Research/UAD.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# VarBench: 動的可変摂動によるロバスト言語モデルのベンチマーク

VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation ( http://arxiv.org/abs/2406.17681v1 )

ライセンス: Link先を確認
Kun Qian, Shunji Wan, Claudia Tang, Youzhi Wang, Xuanming Zhang, Maximillian Chen, Zhou Yu, (参考訳) 大規模な言語モデルが従来のベンチマークで印象的なスコアを得るにつれ、データ汚染問題として知られる事前トレーニング中にベンチマークデータの漏洩を懸念する研究者が増えている。 公平な評価を確保するため、最近のベンチマークでは、トレーニングセットと検証セットのみをリリースし、テストセットラベルをクローズドソースに保つ。 彼らは、彼の言語モデルを評価して、集中処理のためのモデルの予測を提出し、モデルの結果を彼らのリーダーボードにパブリッシュするために、誰でも要求する。 しかし、このプロセスは非効率であり、効果的なエラー解析を妨げている。 この問題に対処するために,ベンチマークを可変化し,動的に言語モデルを評価することを提案する。 具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。 それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。 この変数摂動法を,GSM8K,ARC,CommonsenseQA,TruthfulQAの4つのデータセットに適用した。 実験の結果,本手法は言語モデルの真の性能をより正確に評価し,汚染問題を効果的に軽減することを示した。

As large language models achieve impressive scores on traditional benchmarks, an increasing number of researchers are becoming concerned about benchmark data leakage during pre-training, commonly known as the data contamination problem. To ensure fair evaluation, recent benchmarks release only the training and validation sets, keeping the test set labels closed-source. They require anyone wishing to evaluate his language model to submit the model's predictions for centralized processing and then publish the model's result on their leaderboard. However, this submission process is inefficient and prevents effective error analysis. To address this issue, we propose to variabilize benchmarks and evaluate language models dynamically. Specifically, we extract variables from each test case and define a value range for each variable. For each evaluation, we sample new values from these value ranges to create unique test cases, thus ensuring a fresh evaluation each time. We applied this variable perturbation method to four datasets: GSM8K, ARC, CommonsenseQA, and TruthfulQA, which cover mathematical generation and multiple-choice tasks. Our experimental results demonstrate that this approach provides a more accurate assessment of the true capabilities of language models, effectively mitigating the contamination problem.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# 不均一部分分別性を考慮したボソンサンプリングの効率的な古典的アルゴリズム

Efficient classical algorithm for simulating boson sampling with inhomogeneous partial distinguishability ( http://arxiv.org/abs/2406.17682v1 )

ライセンス: Link先を確認
S. N. van den Hoven, E. Kanis, J. J. Renema, (参考訳) ボソンサンプリングは量子優位性を示す主要なプロトコルの1つであるが、このプロトコルがノイズにどのように反応するかの理論はまだ不完全である。 ボソンサンプリングの古典的シミュレーション理論を,光子対間の不明瞭性の程度が異なる場合に拡張する。

Boson sampling is one of the leading protocols for demonstrating a quantum advantage, but the theory of how this protocol responds to noise is still incomplete. We extend the theory of classical simulation of boson sampling with partial distinguishability to the case where the degree of indistinguishability between photon pairs is different between different pairs.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# Masked Diffusion を用いた一元的自動符号化

Unified Auto-Encoding with Masked Diffusion ( http://arxiv.org/abs/2406.17688v1 )

ライセンス: Link先を確認
Philippe Hansen-Estruch, Sriram Vishwanath, Amy Zhang, Manan Tomar, (参考訳) 生成的および自己監督的表現学習モデルの成功の中心には、ある種の画像腐敗を取り入れた再構成目標が存在する。 拡散モデルは、スケジュールされたガウスの腐敗プロセスを通じてこのアプローチを実装し、マスキングされたオートエンコーダモデルは、画像のパッチをマスキングする。 異なるアプローチにもかかわらず、その方法論の根底にある類似性は、両方のタスクをデノイズ化できるオートエンコーダへの有望な道のりを示唆している。 本稿では,単一自動符号化フレームワークにおいて,パッチベースとノイズベースの汚職技術を組み合わせた統一型マスク付き拡散(UMD)を提案する。 具体的には、拡散雑音発生スケジュールにノイズフリーでハイマスキング表現ステップを導入して拡散変圧器(DiT)訓練プロセスを変更し、その後の時間ステップに混合マスクとノイズ画像を利用する。 拡散モデリングやマスク付きパッチトークンの予測に有用な機能を統合することで,線形探索やクラス条件生成などの下流生成および表現学習タスクにおいて高い性能を発揮する。 これは、重いデータ拡張、複数のビュー、追加のエンコーダを必要とせずに実現できる。 さらに, UMDは, 全学習時間における事前拡散に基づく手法の計算効率を向上する。 コードをhttps://github.com/philippe-eecs/small-vision.comでリリースします。

At the core of both successful generative and self-supervised representation learning models there is a reconstruction objective that incorporates some form of image corruption. Diffusion models implement this approach through a scheduled Gaussian corruption process, while masked auto-encoder models do so by masking patches of the image. Despite their different approaches, the underlying similarity in their methodologies suggests a promising avenue for an auto-encoder capable of both de-noising tasks. We propose a unified self-supervised objective, dubbed Unified Masked Diffusion (UMD), that combines patch-based and noise-based corruption techniques within a single auto-encoding framework. Specifically, UMD modifies the diffusion transformer (DiT) training process by introducing an additional noise-free, high masking representation step in the diffusion noising schedule, and utilizes a mixed masked and noised image for subsequent timesteps. By integrating features useful for diffusion modeling and for predicting masked patch tokens, UMD achieves strong performance in downstream generative and representation learning tasks, including linear probing and class-conditional generation. This is achieved without the need for heavy data augmentations, multiple views, or additional encoders. Furthermore, UMD improves over the computational efficiency of prior diffusion based methods in total training time. We release our code at https://github.com/philippe-eecs/small-vision.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# 分散からオーバートン多元主義へ:大規模言語モデルアライメントの考察

From Distributional to Overton Pluralism: Investigating Large Language Model Alignment ( http://arxiv.org/abs/2406.17692v1 )

ライセンス: Link先を確認
Thom Lake, Eunsol Choi, Greg Durrett, (参考訳) アライメントプロセスは、大きな言語モデル(LLM)の出力分布のいくつかの特性を変化させる。 LLM応答のアライメント後分布シフトの2つの側面を解析した。 まず, 適応後の応答多様性の低下について, 前報で再検討した。 分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。 アライメントは、出力分布を、ベースLSMから複数の応答をカバーする情報をカバーし、本質的には単一の応答で多様な情報を提示する、より長い応答にシフトしながら、無関係で不必要なコンテンツを抑制する。 アライメントが有用な情報を抑圧する証拠はほとんど見つからないが、逆の質問をするのは当然である。 第2の調査では、これはそうではなく、整列モデルの挙動は微調整なしでベースモデルから復元可能である。 インコンテキストの例と、応答内容に関する低解像度のセマンティックヒントの組み合わせは、アライメントチューニングされたLLM応答と同様にアライメントチューニングされたLLM応答が互いに類似したベースLSMからの応答を引き出すことができる。 これらの結果は、現在のアライメント手法が捉えられるが、補助的なLLM動作の有用なサブセットを拡張せず、表面配向仮説のさらなる証拠となることを示唆している。 また、コンテクスト内アライメントは、微調整なしでアライメントLLMを模倣する戦略として、驚くほど遠くまで進むことができることも示している。 私たちのコードとデータはhttps://github.com/thomlake/investigating-alignment.comで公開されています。

The alignment process changes several properties of a large language model's (LLM's) output distribution. We analyze two aspects of post-alignment distributional shift of LLM responses. First, we re-examine previously reported reductions in response diversity post-alignment. Our analysis suggests that an apparent drop in the diversity of responses is largely explained by quality control and information aggregation. Alignment suppresses irrelevant and unhelpful content while shifting the output distribution toward longer responses that cover information spanning several responses from the base LLM, essentially presenting diverse information in a single response. Finding little evidence that alignment suppresses useful information, it is natural to ask the opposite question: do aligned models surface information that cannot be recovered from base models? Our second investigation shows this is not the case and the behavior of aligned models is recoverable from base models without fine-tuning. A combination of in-context examples and lower-resolution semantic hints about response content can elicit responses from base LLMs that are as similar to alignment-tuned LLM responses as alignment-tuned LLM responses are to each other. Taken together, these results indicate that current alignment techniques capture but do not extend the useful subset of assistant-like base LLM behavior, providing further evidence for the Superficial Alignment Hypothesis. They also show that in-context alignment can go surprisingly far as a strategy for imitating aligned LLMs without fine-tuning. Our code and data is available at https://github.com/thomlake/investigating-alignment.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# キャビティ損失を伴うシュレーディンガー猫 : 有限および構造化貯水池の効果

Schrödinger cats coupled with cavities losses: the effect of finite and structured reservoirs ( http://arxiv.org/abs/2406.17696v1 )

ライセンス: Link先を確認
J. Lira, L. Sanz, (参考訳) ジャイアンス・カミングスモデルの分散限界を考慮した量子ドットにおいて、電磁モードとエクシトンを結合したナノキャビティ内での「シュリンガー猫」の生成について論じる。 2種類の貯水池とのカップリングによる損失を模擬したナノキャビティにおけるボゾン状態に対する環境の影響に焦点を当てた。 第一の場合、系と有限の貯水池との相互作用は、貯水池の異なる大きさの破片が、シュリンガー・キャットの誕生と死の力学において、物理系の同じ量の情報を供給していることを示している。 第2のケースでは、周波数とともにスペクトル密度が大きく変化する構造化された貯水池を考える。 この状況は、量子チャネルが埋め込まれた固体デバイスに関係しており、メモリ効果は一般的に無視できない。 このような状況下では、動力学はマルコフとは大きく異なり、平均光子数に関連する振動が現れる。 これらの振動は、非マルコビアン性の測定によって証明された、システムと環境の間の情報の流れに影響を与える。

We discuss the generation of a Schr\"odinger cat in a nanocavity created by the coupling of an electromagnetic mode with an exciton in a quantum dot considering the dispersive limit of the Jaynes-Cummings model. More than the generation itself, we focus on the effects of the environment over the bosonic state in the nanocavity, which has losses simulated by coupling with two different kind of reservoirs. In the first case, the interaction between the system with a finite reservoir shows that fragments of different sizes of the reservoir deliver the same amount of information about the physical system in the dynamics of the birth and death of the Schr\"odinger cat. The second case considers a structured reservoir, whose spectral density varies significantly with frequency. This situation becomes relevant in solid-state devices where quantum channels are embedded, as memory effects generally cannot be neglected. Under these circumstances, it is observed that the dynamics can differ substantially from the Markovian, presenting oscillations related to the average number of photons. These oscillations influence the information flow between the system and the environment, evidenced here by the measurement of non-Markovianity.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# HGTDP-DTA:ドラッグターゲット結合親和性予測のための動的プロンプト付きハイブリッドグラフ変換器

HGTDP-DTA: Hybrid Graph-Transformer with Dynamic Prompt for Drug-Target Binding Affinity Prediction ( http://arxiv.org/abs/2406.17697v1 )

ライセンス: Link先を確認
Xi Xiao, Wentao Wang, Jiacheng Xie, Lijing Zhu, Gaofei Chen, Zhengji Li, Tianyang Wang, Min Xu, (参考訳) 薬物標的結合親和性(DTA)は薬物スクリーニングの重要な基準である。 既存の実験手法は時間がかかり、限られた構造情報やドメイン情報に依存している。 学習に基づく手法は、シーケンスと構造情報をモデル化できるが、コンテキストデータの統合に苦慮し、しばしば薬物と標的の相互作用の包括的なモデリングを欠いている。 本研究では,HGTDP-DTAと呼ばれるハイブリッドグラフトランスフォーマフレームワーク内で動的プロンプトを利用する新しいDTA予測手法を提案する。 本手法は,各薬物・標的ペアに対してコンテキスト特異的なプロンプトを生成し,ユニークな相互作用を捕捉するモデルの能力を高める。 プロンプトチューニングの導入により、無関係なノイズを除去し、タスク関連情報を強調することにより予測プロセスを最適化し、分子グラフの入力特性を動的に調整する。 提案したハイブリッドなGraph-Transformerアーキテクチャは,Graph Convolutional Networks(GCNs)の構造情報とTransformerが取得したシーケンス情報を組み合わせることで,グローバル情報とローカル情報とのインタラクションを容易にする。 さらに、分子グラフビューと親和性サブグラフビューを共通特徴空間に投影する多視点特徴融合法を採用し、構造情報と文脈情報を効果的に組み合わせた。 Davis と KIBA の2つの広く使われている公開データセットの実験により、HGTDP-DTA は予測性能と一般化能力の両方において最先端のDTA予測手法より優れていることが示された。

Drug target binding affinity (DTA) is a key criterion for drug screening. Existing experimental methods are time-consuming and rely on limited structural and domain information. While learning-based methods can model sequence and structural information, they struggle to integrate contextual data and often lack comprehensive modeling of drug-target interactions. In this study, we propose a novel DTA prediction method, termed HGTDP-DTA, which utilizes dynamic prompts within a hybrid Graph-Transformer framework. Our method generates context-specific prompts for each drug-target pair, enhancing the model's ability to capture unique interactions. The introduction of prompt tuning further optimizes the prediction process by filtering out irrelevant noise and emphasizing task-relevant information, dynamically adjusting the input features of the molecular graph. The proposed hybrid Graph-Transformer architecture combines structural information from Graph Convolutional Networks (GCNs) with sequence information captured by Transformers, facilitating the interaction between global and local information. Additionally, we adopted the multi-view feature fusion method to project molecular graph views and affinity subgraph views into a common feature space, effectively combining structural and contextual information. Experiments on two widely used public datasets, Davis and KIBA, show that HGTDP-DTA outperforms state-of-the-art DTA prediction methods in both prediction performance and generalization ability.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# 高次マルコフスイッチングモデルによる非定常因果構造同定

Identifying Nonstationary Causal Structures with High-Order Markov Switching Models ( http://arxiv.org/abs/2406.17698v1 )

ライセンス: Link先を確認
Carles Balsells-Rodas, Yixin Wang, Pedro A. M. Mediano, Yingzhen Li, (参考訳) 時系列における因果発見は急速に発展し、気候科学や神経科学など様々な分野に応用されている。 従来のアプローチでは定常因果グラフを仮定しており、時間依存効果や異種ノイズを伴う非定常時系列に適応することができる。 この研究では、状態依存因果構造を介して非定常性に対処する。 我々はまず,高次マルコフスイッチングモデルの同定可能性を確立する。 本研究では, 高次構造依存構造推定のための提案手法のスケーラビリティを実証し, 脳活動データに適用可能であることを示す。

Causal discovery in time series is a rapidly evolving field with a wide variety of applications in other areas such as climate science and neuroscience. Traditional approaches assume a stationary causal graph, which can be adapted to nonstationary time series with time-dependent effects or heterogeneous noise. In this work we address nonstationarity via regime-dependent causal structures. We first establish identifiability for high-order Markov Switching Models, which provide the foundations for identifiable regime-dependent causal discovery. Our empirical studies demonstrate the scalability of our proposed approach for high-order regime-dependent structure estimation, and we illustrate its applicability on brain activity data.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# FedBiOT: フルモデルなしのフェデレーション学習におけるLLM局所微調整

FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model ( http://arxiv.org/abs/2406.17706v1 )

ライセンス: Link先を確認
Feijie Wu, Zitao Li, Yaliang Li, Bolin Ding, Jing Gao, (参考訳) 大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。 しかし、多くのドメイン固有のデータは、プライベートに複数の所有者に分散されている。 したがって、このジレンマは、連邦学習(FL)におけるLLM微調整の実行方法への関心を高めている。 しかし、限られた計算能力と通信能力に直面すると、FLクライアントはLLMを効果的に微調整するのに苦労した。 この目的のために,FL に対する資源効率の高い LLM 微調整手法である FedBiOT を導入する。 具体的には、サーバが圧縮LDMを生成し、その性能をフルモデルと整合させる。 その後、クライアントは、アダプタと呼ばれる圧縮モデルの軽量だが重要な部分を微調整する。 サーバがクライアントが所有するプライベートデータにアクセスできないため、サーバによるアライメントに使われるデータは、クライアントによる微調整に使われるものとは異なる分布を持つ。 この問題を二段階最適化問題に定式化し、データ差の負の効果を最小限に抑え、サーバとクライアントの更新ルールを導出する。 我々はLLaMA-2の広範囲な実験を行い、このアダプタがグローバルLLMに再統合された場合、例外的な性能を示すことを実証した。 また、提案したFedBiOTは、既存のベンチマークと比較してリソース消費を著しく削減すると同時に、同等のパフォーマンスレベルを実現していることを示す。

Large language models (LLMs) show amazing performance on many domain-specific tasks after fine-tuning with some appropriate data. However, many domain-specific data are privately distributed across multiple owners. Thus, this dilemma raises the interest in how to perform LLM fine-tuning in federated learning (FL). However, confronted with limited computation and communication capacities, FL clients struggle to fine-tune an LLM effectively. To this end, we introduce FedBiOT, a resource-efficient LLM fine-tuning approach to FL. Specifically, our method involves the server generating a compressed LLM and aligning its performance with the full model. Subsequently, the clients fine-tune a lightweight yet important part of the compressed model, referred to as an adapter. Notice that as the server has no access to the private data owned by the clients, the data used for alignment by the server has a different distribution from the one used for fine-tuning by clients. We formulate the problem into a bi-level optimization problem to minimize the negative effect of data discrepancy and derive the updating rules for the server and clients. We conduct extensive experiments on LLaMA-2, empirically showing that the adapter has exceptional performance when reintegrated into the global LLM. The results also indicate that the proposed FedBiOT significantly reduces resource consumption compared to existing benchmarks, all while achieving comparable performance levels.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# SurgeMOD:画像空間の組織の動きを視覚ベースの手術力に変換する

SurgeMOD: Translating image-space tissue motions into vision-based surgical forces ( http://arxiv.org/abs/2406.17707v1 )

ライセンス: Link先を確認
Mikel De Iturrate Reyzabal, Dionysios Malas, Shuai Wang, Sebastien Ourselin, Hongbin Liu, (参考訳) 本稿では,映像から直接導出される臓器の動作の周波数領域に基づく最小侵襲ロボット手術における視覚に基づく力推定手法を提案する。 呼吸や心臓循環といった自然なプロセスによって生じる内部運動を用いて、周波数領域における運動の空間的基盤を推測する。 この表現に取り組んでおり、環境の空間的力学モデルを構築するために、この問題を限られた低頻度に識別する。 我々は、この事前構築されたモデルを用いて、力推定問題を動的制約問題として定義する。 本研究では,シリコーンファントムおよび前バイブオ実験において,実測値と実測値とを一致させることにより,点接触力を確実に推定できることを実証した。 さらに,ユーザが選択した特定の領域の外科的ビデオからコヒーレントな力のテクスチャを合成する定性的実験を行った。 本手法は, 定量的および定性的解析の両面で良好な結果を示し, 外科的力推定のための純粋視覚に基づく手法の出発点となる。

We present a new approach for vision-based force estimation in Minimally Invasive Robotic Surgery based on frequency domain basis of motion of organs derived directly from video. Using internal movements generated by natural processes like breathing or the cardiac cycle, we infer the image-space basis of the motion on the frequency domain. As we are working with this representation, we discretize the problem to a limited amount of low-frequencies to build an image-space mechanical model of the environment. We use this pre-built model to define our force estimation problem as a dynamic constraint problem. We demonstrate that this method can estimate point contact forces reliably for silicone phantom and ex-vivo experiments, matching real readings from a force sensor. In addition, we perform qualitative experiments in which we synthesize coherent force textures from surgical videos over a certain region of interest selected by the user. Our method demonstrates good results for both quantitative and qualitative analysis, providing a good starting point for a purely vision-based method for surgical force estimation.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# 共同例選択によるデータキュレーションによるマルチモーダル学習の促進

Data curation via joint example selection further accelerates multimodal learning ( http://arxiv.org/abs/2406.17711v1 )

ライセンス: Link先を確認
Talfan Evans, Nikhil Parthasarathy, Hamza Merzic, Olivier J. Henaff, (参考訳) データキュレーションは大規模な事前学習の重要な要素である。 本研究では,データのバッチを個別に選択するよりも,データのバッチを共同で選択することが効果的であることを実証する。 マルチモーダルコントラスト目的は、データ間の依存関係を公開し、バッチの合同学習可能性を測定するための基準を自然に獲得する。 このようなバッチを選択するための単純でトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。 より大きなスーパーバッチから選択することで性能が向上すると共に、モデル近似の最近の進歩を活用して、関連する計算オーバーヘッドを低減する。 その結果、JEST(Joint example selection)を用いたマルチモーダル・コントラスト学習は、最大13$\times$少ないイテレーションと10$\times$少ない計算で最先端のモデルを克服する。 JESTのパフォーマンスに欠かせないのは、トレーニング済みの参照モデルを通じて、より小さく、十分に計算されたデータセットの配布に向けて、データ選択プロセスをステアリングし、データキュレーションのレベルを、ニューラルスケーリング法則の新たな次元として公開することだ。

Data curation is an essential component of large-scale pretraining. In this work, we demonstrate that jointly selecting batches of data is more effective for learning than selecting examples independently. Multimodal contrastive objectives expose the dependencies between data and thus naturally yield criteria for measuring the joint learnability of a batch. We derive a simple and tractable algorithm for selecting such batches, which significantly accelerate training beyond individually-prioritized data points. As performance improves by selecting from larger super-batches, we also leverage recent advances in model approximation to reduce the associated computational overhead. As a result, our approach--multimodal contrastive learning with joint example selection (JEST)--surpasses state-of-the-art models with up to 13$\times$ fewer iterations and 10$\times$ less computation. Essential to the performance of JEST is the ability to steer the data selection process towards the distribution of smaller, well-curated datasets via pretrained reference models, exposing the level of data curation as a new dimension for neural scaling laws.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# パラメータチューニングによる多目的二項微分アプローチによるビジネスプロセスモデルの探索:MoD-ProM

Multi-objective Binary Differential Approach with Parameter Tuning for Discovering Business Process Models: MoD-ProM ( http://arxiv.org/abs/2406.17713v1 )

ライセンス: Link先を確認
Sonia Deshmukh, Shikha Gupta, Naveen Kumar, (参考訳) プロセス発見アプローチは、プロセスモデルとして知られる構造化情報を自動的に発見するために、ビジネスデータを分析する。 プロセスモデルの品質は、完全性(適合性)、正確性、単純性、一般化といった品質次元を使って測定されます。 従来のプロセス発見アルゴリズムは通常、単一のプロセスモデルを出力する。 単一のモデルでは、観測された振る舞いを正確に捉えたり、トレーニングデータを過度に適合させることはできない。 我々は,環境制約に基づいて適切なモデルを選択可能なエンドユーザに対して,複数の候補ソリューションを提供する多目的フレームワークにおいて,プロセス発見問題を構築した。 本稿では,プロセス発見のための多目的フレームワークにおけるバイナリ微分進化手法について考察する。 提案手法は交叉交叉/突然変異演算子を用いる。 パラメータはGreyリレーショナル解析と田口手法を組み合わせて調整される。 我々は、提案手法を、よく知られた単目的アルゴリズムと最先端の多目的進化アルゴリズム、非支配的ソーティング遺伝的アルゴリズム(NSGA-II)と比較した。 } 計算による追加比較では, 品質次元の重み付き平均も実施されている。 その結果,提案アルゴリズムは計算効率が高く,適合度関数に高いスコアを付ける多角化候補解を生成することがわかった。 提案手法により生成されたプロセスモデルは、最先端のアルゴリズムで生成されたプロセスよりも優れているか、少なくとも優れていることが示されている。

Process discovery approaches analyze the business data to automatically uncover structured information, known as a process model. The quality of a process model is measured using quality dimensions -- completeness (replay fitness), preciseness, simplicity, and generalization. Traditional process discovery algorithms usually output a single process model. A single model may not accurately capture the observed behavior and overfit the training data. We have formed the process discovery problem in a multi-objective framework that yields several candidate solutions for the end user who can pick a suitable model based on the local environmental constraints (possibly varying). We consider the Binary Differential Evolution approach in a multi-objective framework for the task of process discovery. The proposed method employs dichotomous crossover/mutation operators. The parameters are tuned using Grey relational analysis combined with the Taguchi approach. {We have compared the proposed approach with the well-known single-objective algorithms and state-of-the-art multi-objective evolutionary algorithm -- Non-dominated Sorting Genetic Algorithm (NSGA-II).} Additional comparison via computing a weighted average of the quality dimensions is also undertaken. Results show that the proposed algorithm is computationally efficient and produces diversified candidate solutions that score high on the fitness functions. It is shown that the process models generated by the proposed approach are superior to or at least as good as those generated by the state-of-the-art algorithms.
翻訳日:2024-06-26 13:41:09 公開日:2024-06-25
# 因果効果推定のための構成モデル

Compositional Models for Estimating Causal Effects ( http://arxiv.org/abs/2406.17714v1 )

ライセンス: Link先を確認
Purva Pruthi, David Jensen, (参考訳) 多くの現実世界のシステムは相互作用するコンポーネントの集合として表現できる。 そのようなシステムの例としては、クエリプロセッサのような計算システム、セルのような自然システム、ファミリーのような社会システムなどがある。 従来の(連想的な)機械学習において、統計リレーショナルモデルやグラフニューラルネットワークなど、そのような構造化されたシステムをモデル化するための多くのアプローチが提案されている。 この以前の研究にもかかわらず、因果効果を推定する既存のアプローチは、一般にそのようなシステムを単一単位として扱い、変数の固定セットでそれらを表現し、同質なデータ生成過程を仮定する。 構成系における個別処理効果(ITE)を推定するための構成的アプローチについて検討し、各単位を複数の異種成分の合成で表す。 このアプローチでは、モジュールアーキテクチャを使用して各コンポーネントの潜在的な結果をモデル化し、コンポーネントレベルの潜在的な結果を集約し、ユニットレベルの潜在的な結果を得る。 因果的推論における構成的アプローチの新たなメリットとして,コンポーネントの見知らぬ組み合わせの対実的な結果の体系的一般化と,因果的効果推定の古典的手法と比較して,治療群と制御群との重複保証の改善が考えられる。 また,構成的アプローチを実証的に評価するための新しい環境のセットを導入し,シミュレーションデータと実世界のデータを用いた手法の有効性を実証する。

Many real-world systems can be represented as sets of interacting components. Examples of such systems include computational systems such as query processors, natural systems such as cells, and social systems such as families. Many approaches have been proposed in traditional (associational) machine learning to model such structured systems, including statistical relational models and graph neural networks. Despite this prior work, existing approaches to estimating causal effects typically treat such systems as single units, represent them with a fixed set of variables and assume a homogeneous data-generating process. We study a compositional approach for estimating individual treatment effects (ITE) in structured systems, where each unit is represented by the composition of multiple heterogeneous components. This approach uses a modular architecture to model potential outcomes at each component and aggregates component-level potential outcomes to obtain the unit-level potential outcomes. We discover novel benefits of the compositional approach in causal inference - systematic generalization to estimate counterfactual outcomes of unseen combinations of components and improved overlap guarantees between treatment and control groups compared to the classical methods for causal effect estimation. We also introduce a set of novel environments for empirically evaluating the compositional approach and demonstrate the effectiveness of our approach using both simulated and real-world data.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# ViANLI: ベトナムの敵対的自然言語推論

ViANLI: Adversarial Natural Language Inference for Vietnamese ( http://arxiv.org/abs/2406.17716v1 )

ライセンス: Link先を確認
Tin Van Huynh, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, (参考訳) 自然言語処理(NLI)データセットとモデルの開発は、アノテーション設計の革新に触発されている。 今日、機械学習モデルが急速に発展し、既存の機械学習モデルの性能は、自然言語の推論タスクを含む自然言語処理に関連するさまざまなタスクに関する最先端の結果に急速に到達した。 アノテーションプロセス中に事前学習されたモデルを使用することで、人間に機械モデルでは正しく予測できない前提-仮説の組み合わせを作らせることで、現在のNLIモデルに挑戦することができる。 ベトナム語に対する自然言語推論の研究において、魅力的かつ挑戦的であり続けるために、本稿では、NLP研究コミュニティに、VANLIという名の逆NLIデータセットを導入する。 このデータセットは、10K以上の前提-仮説ペアを含み、アノテータが生成するパターンの最も多くを得るために、継続的な調整プロセスによって構築される。 ViANLIデータセットは、テストセット上で最も強力なモデルの精度が48.4%に達すると、多くの現在のSOTAモデルに多くの困難をもたらした。 さらに,実験結果から,我々のデータセットでトレーニングしたモデルがベトナムの他のNLIデータセットよりも大幅に改善したことが明らかとなった。

The development of Natural Language Processing (NLI) datasets and models has been inspired by innovations in annotation design. With the rapid development of machine learning models today, the performance of existing machine learning models has quickly reached state-of-the-art results on a variety of tasks related to natural language processing, including natural language inference tasks. By using a pre-trained model during the annotation process, it is possible to challenge current NLI models by having humans produce premise-hypothesis combinations that the machine model cannot correctly predict. To remain attractive and challenging in the research of natural language inference for Vietnamese, in this paper, we introduce the adversarial NLI dataset to the NLP research community with the name ViANLI. This data set contains more than 10K premise-hypothesis pairs and is built by a continuously adjusting process to obtain the most out of the patterns generated by the annotators. ViANLI dataset has brought many difficulties to many current SOTA models when the accuracy of the most powerful model on the test set only reached 48.4%. Additionally, the experimental results show that the models trained on our dataset have significantly improved the results on other Vietnamese NLI datasets.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# 自己予測はいつに役立つのか?強化学習における補助的課題を理解する

When does Self-Prediction help? Understanding Auxiliary Tasks in Reinforcement Learning ( http://arxiv.org/abs/2406.17718v1 )

ライセンス: Link先を確認
Claas Voelcker, Tyler Kastner, Igor Gilitschenski, Amir-massoud Farahmand, (参考訳) 強化学習における観察再構成や潜時自己予測などの補助学習タスクが表現学習問題に与える影響について検討する。 また,MDPにおける注意散らしや観察機能との相互作用についても検討した。 本稿では,線形モデル仮定の下での注意散らしや観察機能の存在下での観察再構成,潜時自己予測,およびTD学習の学習力学に関する理論的解析を行う。 この形式化により、潜在自己予測が有用である理由を説明できる一方、観測再構成は単独で使用する場合により有用な特徴を提供することができる。 我々の経験的分析は、学習力学フレームワークから得られた知見が、非線形ニューラルネットワークにおける線形モデル仮定を超えた損失関数の挙動を予測することを示している。 これにより、線形モデルフレームワークの理論的解析だけでなく、応用問題に対する実用的利益も強化される。

We investigate the impact of auxiliary learning tasks such as observation reconstruction and latent self-prediction on the representation learning problem in reinforcement learning. We also study how they interact with distractions and observation functions in the MDP. We provide a theoretical analysis of the learning dynamics of observation reconstruction, latent self-prediction, and TD learning in the presence of distractions and observation functions under linear model assumptions. With this formalization, we are able to explain why latent-self prediction is a helpful \emph{auxiliary task}, while observation reconstruction can provide more useful features when used in isolation. Our empirical analysis shows that the insights obtained from our learning dynamics framework predicts the behavior of these loss functions beyond the linear model assumption in non-linear neural networks. This reinforces the usefulness of the linear model framework not only for theoretical analysis, but also practical benefit for applied problems.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# 非マルコフ量子系におけるプロセステンソルによる最適制御の統一法

Unifying methods for optimal control in non-Markovian quantum systems via process tensors ( http://arxiv.org/abs/2406.17719v1 )

ライセンス: Link先を確認
Carlos Ortega-Taberner, Eoin O'Neill, Eoin Butler, Gerald E. Fux, P. R. Eastham, (参考訳) 環境の大きな次元性は、マルコフ近似を超えた開量子系に最適制御を適用する際の制限因子である。 非マルコフ開系をシミュレートする複数の方法があり、環境を多くのアクティブな自由度に効果的に還元する。 ここでは,これらの手法のいくつかを行列積演算子(行列積演算子)という形でプロセステンソルで表現できることを示す。 行列積演算形式は、バック伝搬を用いて勾配を計算するための一般的なスキームを提供し、それぞれのプロセステンソルの結合次元を介して異なる方法の効率を比較できるようにする。

The large dimensionality of environments is the limiting factor in applying optimal control to open quantum systems beyond Markovian approximations. Multiple methods exist to simulate non-Markovian open systems which effectively reduce the environment to a number of active degrees of freedom. Here we show that several of these methods can be expressed in terms of a process tensor in the form of a matrix-product-operator, which serves as a unifying framework to show how they can be used in optimal control, and to compare their performance. The matrix-product-operator form provides a general scheme for computing gradients using back propagation, and allows the efficiency of the different methods to be compared via the bond dimensions of their respective process tensors.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# Arboretum: 生物多様性のための大規模マルチモーダルデータセットを実現するAI

Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity ( http://arxiv.org/abs/2406.17720v1 )

ライセンス: Link先を確認
Chih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab, Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh, Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian, (参考訳) Arboretumは、生物多様性アプリケーションのためのAIを促進するために設計された、公開可能な最大のデータセットである。 このデータセットは、iNaturalistコミュニティサイエンスプラットフォームからキュレーションされ、正確性を確保するためにドメインの専門家によって審査され、134.6万の画像が含まれており、既存のデータセットを桁違いにスケールしている。 このデータセットは、鳥類(Aves)、クモ/ティックス/ミツ(Arachnida)、昆虫(Insecta)、植物(Plantae)、菌類/ムッシュルーム(Fungi)、カタツムリ(Mollusca)、ヘビ/リザード(Reptilia)などの様々な種の画像と画像のペアデータを含んでおり、生物多様性評価や農業研究のためのマルチモーダル視覚言語AIモデルにとって貴重な資源となっている。 各画像には、科学的な名前、分類学的詳細、一般的な名前が注釈付けされており、AIモデルのトレーニングの堅牢性を高めている。 Arboretumは,4000万枚のキャプション画像のサブセットを用いてトレーニングされたCLIPモデルのスイートをリリースすることによって,その価値を実証する。 我々は、厳密な評価のためのいくつかの新しいベンチマーク、ゼロショット学習のための報告精度、ライフステージ、希少種、共生種、および分類学的階層の様々なレベルにおける評価について紹介する。 Arboretumは、害虫対策、作物のモニタリング、世界規模の生物多様性評価、環境保全など、さまざまなデジタルツールを可能にするAIモデルの開発を加速することを期待している。 これらの進歩は、食料安全保障の確保、生態系の保全、気候変動の影響緩和に不可欠である。 Arboretumは公開されており、簡単にアクセスできる。 データ、モデル、コードへのリンクについては、 \href{https://baskargroup.github.io/Arboretum/}{project website} を参照してください。

We introduce Arboretum, the largest publicly accessible dataset designed to advance AI for biodiversity applications. This dataset, curated from the iNaturalist community science platform and vetted by domain experts to ensure accuracy, includes 134.6 million images, surpassing existing datasets in scale by an order of magnitude. The dataset encompasses image-language paired data for a diverse set of species from birds (Aves), spiders/ticks/mites (Arachnida), insects (Insecta), plants (Plantae), fungus/mushrooms (Fungi), snails (Mollusca), and snakes/lizards (Reptilia), making it a valuable resource for multimodal vision-language AI models for biodiversity assessment and agriculture research. Each image is annotated with scientific names, taxonomic details, and common names, enhancing the robustness of AI model training. We showcase the value of Arboretum by releasing a suite of CLIP models trained using a subset of 40 million captioned images. We introduce several new benchmarks for rigorous assessment, report accuracy for zero-shot learning, and evaluations across life stages, rare species, confounding species, and various levels of the taxonomic hierarchy. We anticipate that Arboretum will spur the development of AI models that can enable a variety of digital tools ranging from pest control strategies, crop monitoring, and worldwide biodiversity assessment and environmental conservation. These advancements are critical for ensuring food security, preserving ecosystems, and mitigating the impacts of climate change. Arboretum is publicly available, easily accessible, and ready for immediate use. Please see the \href{https://baskargroup.github.io/Arboretum/}{project website} for links to our data, models, and code.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# 連続可変測定装置非依存量子鍵分布における変位と光子触媒作用の役割の再検討

Re-examination of the role of displacement and photon catalysis operation in continuous variable measurement device-independent quantum key distribution ( http://arxiv.org/abs/2406.17727v1 )

ライセンス: Link先を確認
Chandan Kumar, Arvind, (参考訳) 連続可変測定装置独立量子鍵分布(CV-MDI-QKD)におけるm$- Photon触媒による2モード圧縮コヒーレント(m$-PCTMSC)状態の利点について検討した。 そこで, 0-PCTMSC 状態はガウス状態であり, CV-MDI-QKD に対するゼロ光子触媒による2モード加圧真空状態と比較して劣ることを示す。 我々は,全ての状態パラメータ,すなわち分散,透過率,変位に対する秘密鍵レートの最適化を行う。 近年の多くの提案とは対照的に、ゼロ光および単光子触媒による触媒反応は、最大伝送距離を改善するための限界的な利点しか示さない。 第2に, CV-MDI-QKDの改善には, 変位が有効でないことがわかった。

We investigate the benefits of using $m$-photon catalysed two-mode squeezed coherent ($m$-PCTMSC) state in continuous variable measurement device-independent quantum key distribution (CV-MDI-QKD). To that end, we derive the Wigner characteristic function of the $m$-PCTMSC state and show that the 0-PCTMSC state is a Gaussian state and is an inferior choice as compared to the zero photon catalyzed two-mode squeezed vacuum state for CV-MDI-QKD. We carry out the optimization of the secret key rate with respect to all state parameters, namely variance, transmissivity, and displacement. Contrary to many recent proposals, the results show that zero- and single-photon catalysis operation provides only a marginal benefit in improving the maximum transmission distance. Secondly, we find that displacement offers no benefit in improving CV-MDI-QKD.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# LLMをターゲットとしたパフォーマンス不足は、脆弱性のあるユーザに影響を与える

LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users ( http://arxiv.org/abs/2406.17737v1 )

ライセンス: Link先を確認
Elinor Poole-Dayan, Deb Roy, Jad Kabbara, (参考訳) 最先端のLarge Language Models (LLM) は多くのタスクにおいて顕著な性能を示してきたが、幻覚や偏見のような望ましくないモデル行動について広範な研究がなされている。 本研究では,LLM応答の質が,英語の習熟度,教育水準,原産地の3つの特性によって,情報精度,真正性,拒絶の点でどのように変化するかを検討する。 真理と事実をターゲットとした3つの最先端LCMと2つの異なるデータセットについて広範な実験を行った。 現状のLLMにおける望ましくない行動は、英語の習熟度が低く、教育水準が低く、アメリカ国外から派生したユーザーにとって不適切であり、これらのモデルが信頼できない情報ソースを最も脆弱なユーザーに向けてレンダリングすることを示唆している。

While state-of-the-art Large Language Models (LLMs) have shown impressive performance on many tasks, there has been extensive research on undesirable model behavior such as hallucinations and bias. In this work, we investigate how the quality of LLM responses changes in terms of information accuracy, truthfulness, and refusals depending on three user traits: English proficiency, education level, and country of origin. We present extensive experimentation on three state-of-the-art LLMs and two different datasets targeting truthfulness and factuality. Our findings suggest that undesirable behaviors in state-of-the-art LLMs occur disproportionately more for users with lower English proficiency, of lower education status, and originating from outside the US, rendering these models unreliable sources of information towards their most vulnerable users.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# 親と子を見分ける:事前学習型言語モデルを用いた二段階分類法

Find Parent then Label Children: A Two-stage Taxonomy Completion Method with Pre-trained Language Model ( http://arxiv.org/abs/2406.17739v1 )

ライセンス: Link先を確認
Fei Xia, Yixuan Weng, Shizhu He, Kang Liu, Jun Zhao, (参考訳) ドメイン概念を階層構造に整理する分類学は、知識システムや下流アプリケーションを構築する上で不可欠である。 ドメイン知識が進化するにつれて、新しい概念を含むように、分類学を継続的に更新する必要がある。 従来のアプローチは、主に既存の階層樹の葉ノードに概念を追加することに重点を置いており、それは分類学の知識を十分に活用せず、元の分類学構造(通常は非リーフノードを含む)を更新することができない。 本稿では,ATTEMPTと呼ばれる2段階の方法を提案する。 親ノードを見つけて子ノードをラベル付けすることで,新しい概念を正しい位置に挿入する。 具体的には、局所ノードと自然文を生成するプロンプトを組み合わせることで、ハイパーニム・ハイポニミー認識のための事前学習された言語モデルを利用する。 2つのパブリックデータセット(6つのドメインを含む)の実験結果は、ATTEMPTが既存の手法を超越して、分類の完了と拡張のタスクの両方で最善を尽くしていることを示している。

Taxonomies, which organize domain concepts into hierarchical structures, are crucial for building knowledge systems and downstream applications. As domain knowledge evolves, taxonomies need to be continuously updated to include new concepts. Previous approaches have mainly focused on adding concepts to the leaf nodes of the existing hierarchical tree, which does not fully utilize the taxonomy's knowledge and is unable to update the original taxonomy structure (usually involving non-leaf nodes). In this paper, we propose a two-stage method called ATTEMPT for taxonomy completion. Our method inserts new concepts into the correct position by finding a parent node and labeling child nodes. Specifically, by combining local nodes with prompts to generate natural sentences, we take advantage of pre-trained language models for hypernym/hyponymy recognition. Experimental results on two public datasets (including six domains) show that ATTEMPT performs best on both taxonomy completion and extension tasks, surpassing existing methods.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# パラメータ効率の良い微調整のための構造的非制限領域行列

Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning ( http://arxiv.org/abs/2406.17740v1 )

ライセンス: Link先を確認
Arijit Sehanobish, Avinava Dubey, Krzysztof Choromanski, Somnath Basu Roy Chowdhury, Deepali Jain, Vikas Sindhwani, Snigdha Chaturvedi, (参考訳) トランスフォーマーモデルを拡張しようとする最近の取り組みは、幅広いタスク(Wei et al , 2022)で急速に進歩している。 しかし、これらのモデルをダウンストリームタスクのために微調整することは、パラメータ数が大きいため、コストがかかる。 パラメータ効率の良いファインチューニング(PEFT)アプローチは,少数のパラメータだけを更新することで,モデルの微調整を可能にすることで実現可能な代替手段として浮上している。 本研究では,パラメータ効率のよい微調整(PEFT)のための一般的なフレームワークを提案し,アダプタやLoRAなどの一般的なアプローチの代替として機能する構造化非制限ランク行列(SURM)をベースとした。 LoRAのような他の方法とは異なり、SURMはコンパクト性と表現性の間の適切なバランスを見つけるための柔軟性を提供する。 これは、以前この文脈で使われていなかった低変位ランク行列(LDRM)を使用することで達成される。 SURMはベースラインと競合し続け、しばしばより小さなパラメータ予算を使用しながら、大幅な品質改善を提供する。 SURMは、LoRAの低ランク行列を置換しながら、様々な画像分類タスクにおいて5-7%の精度向上を実現している。 また、GLUEベンチマークでは、アダプタのパラメータ数を最大12倍に削減する(事実上品質が低下する)。

Recent efforts to scale Transformer models have demonstrated rapid progress across a wide range of tasks (Wei et al., 2022). However, fine-tuning these models for downstream tasks is expensive due to their large parameter counts. Parameter-efficient fine-tuning (PEFT) approaches have emerged as a viable alternative by allowing us to fine-tune models by updating only a small number of parameters. In this work, we propose a general framework for parameter efficient fine-tuning (PEFT), based on structured unrestricted-rank matrices (SURM) which can serve as a drop-in replacement for popular approaches such as Adapters and LoRA. Unlike other methods like LoRA, SURMs provides more flexibility in finding the right balance between compactness and expressiveness. This is achieved by using low displacement rank matrices (LDRMs), which hasn't been used in this context before. SURMs remain competitive with baselines, often providing significant quality improvements while using a smaller parameter budget. SURMs achieve 5-7% accuracy gains on various image classification tasks while replacing low-rank matrices in LoRA. It also results in up to 12x reduction of the number of parameters in adapters (with virtually no loss in quality) on the GLUE benchmark.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# Point-SAM: 点雲の3次元分割モデル

Point-SAM: Promptable 3D Segmentation Model for Point Clouds ( http://arxiv.org/abs/2406.17741v1 )

ライセンス: Link先を確認
Yuchen Zhou, Jiayuan Gu, Tung Yen Chiang, Fanbo Xiang, Hao Su, (参考訳) 画像セグメンテーションのための2次元基礎モデルの開発は、SAM(Segment Anything Model)によって大幅に進展した。 しかし、3Dモデルでも同様の成功は、統一されていないデータフォーマット、軽量モデル、多彩なマスクを持つラベル付きデータの不足といった問題により、依然として課題である。 そこで本研究では,点雲に着目した3次元プロンプト可能なセグメンテーションモデル(Point-SAM)を提案する。 提案手法では,SAMを3次元領域に拡張するトランスフォーマー方式を用いる。 パートレベルのアノテーションとオブジェクトレベルのアノテーションを活用し、SAMから擬似ラベルを生成するデータエンジンを導入し、3Dモデルに2Dの知識を抽出します。 本モデルは,室内および屋外のいくつかのベンチマークにおいて最先端のモデルより優れており,3Dアノテーションなどの様々な応用を実証している。 コードとデモはhttps://github.com/zyc00/Point-SAMで見ることができる。

The development of 2D foundation models for image segmentation has been significantly advanced by the Segment Anything Model (SAM). However, achieving similar success in 3D models remains a challenge due to issues such as non-unified data formats, lightweight models, and the scarcity of labeled data with diverse masks. To this end, we propose a 3D promptable segmentation model (Point-SAM) focusing on point clouds. Our approach utilizes a transformer-based method, extending SAM to the 3D domain. We leverage part-level and object-level annotations and introduce a data engine to generate pseudo labels from SAM, thereby distilling 2D knowledge into our 3D model. Our model outperforms state-of-the-art models on several indoor and outdoor benchmarks and demonstrates a variety of applications, such as 3D annotation. Codes and demo can be found at https://github.com/zyc00/Point-SAM.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# 指導における長さ制約

Following Length Constraints in Instructions ( http://arxiv.org/abs/2406.17744v1 )

ライセンス: Link先を確認
Weizhe Yuan, Ilia Kulikov, Ping Yu, Kyunghyun Cho, Sainbayar Sukhbaatar, Jason Weston, Jing Xu, (参考訳) 従順なモデルに従う命令は、整合性のないモデルよりもユーザ要求を満足させることができる。 しかし、そのようなモデルの評価には長いバイアスがあり、トレーニングアルゴリズムはより長い応答を学習することで、このバイアスを利用する傾向があることが示されている。 本研究では,所望の長さ制約を含む命令を用いて,推論時に制御可能なモデルをトレーニングする方法を示す。 このようなモデルは、GPT4、Llama 3、Mixtralといった標準命令よりも優れている。

Aligned instruction following models can better fulfill user requests than their unaligned counterparts. However, it has been shown that there is a length bias in evaluation of such models, and that training algorithms tend to exploit this bias by learning longer responses. In this work we show how to train models that can be controlled at inference time with instructions containing desired length constraints. Such models are superior in length instructed evaluations, outperforming standard instruction following models such as GPT4, Llama 3 and Mixtral.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# Recite, Reconstruct, Recollect: Memorization in LMs as a Multifaceted Phenomenon

Recite, Reconstruct, Recollect: Memorization in LMs as a Multifaceted Phenomenon ( http://arxiv.org/abs/2406.17746v1 )

ライセンス: Link先を確認
USVSN Sai Prashanth, Alvin Deng, Kyle O'Brien, Jyothir S V, Mohammad Aflah Khan, Jaydeep Borkar, Christopher A. Choquette-Choo, Jacob Ray Fuehne, Stella Biderman, Tracy Ke, Katherine Lee, Naomi Saphra, (参考訳) 言語モデルにおける記憶は、典型的には同種現象として扱われ、記憶されたデータの特異性を無視している。 代わりに、各サンプルを記述し、それをモデルとコーパスに関連付ける複雑な要素の集合の効果として記憶をモデル化する。 これらの因子に関する直感を構築するために、暗記を分類学に分解する:高度に複製された配列のリサイクリング、本質的に予測可能なシーケンスの再構築、そしてどちらもないシーケンスのリコール。 記憶の予測モデルを構築することによる分類学の有用性を実証する。 依存関係を解析し, 予測モデルの重みを検査することにより, 異なる要因が, 分類学的カテゴリーによって異なる記憶可能性に影響を及ぼすことがわかった。

Memorization in language models is typically treated as a homogenous phenomenon, neglecting the specifics of the memorized data. We instead model memorization as the effect of a set of complex factors that describe each sample and relate it to the model and corpus. To build intuition around these factors, we break memorization down into a taxonomy: recitation of highly duplicated sequences, reconstruction of inherently predictable sequences, and recollection of sequences that are neither. We demonstrate the usefulness of our taxonomy by using it to construct a predictive model for memorization. By analyzing dependencies and inspecting the weights of the predictive model, we find that different factors influence the likelihood of memorization differently depending on the taxonomic category.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# 機械学習における破壊対称性の効果の探索

Probing the effects of broken symmetries in machine learning ( http://arxiv.org/abs/2406.17747v1 )

ライセンス: Link先を確認
Marcel F. Langer, Sergey N. Pozdnyakov, Michele Ceriotti, (参考訳) 対称性は物理学において最も中心的な概念の1つであり、物理科学に適用された機械学習モデルの帰納的バイアスとして広く採用されていることは驚くにあたらない。 これは特に原子スケールでの物質の性質を対象とするモデルに当てはまる。 確立されたアプローチと最先端のアプローチは、ほとんど例外なく、原子の翻訳、置換、回転と全く同じであるように構築されている。 対称性(特に回転)を組み込むことは、モデル設計空間を制約し、しばしば計算的に要求されるより複雑なアーキテクチャを暗示する。 非対称モデルがデータから対称性を習得し易いことや、それを行うことがモデルの正確性に有用であることを示している。 気体相, 液体, 固体水のシミュレーションを含む現実的なシナリオにおいて, 回転不変性にほぼ従うモデルを構築した。 我々は、対称性の破れによって、直接的または間接的に影響を受けやすい物理的観測物に特に焦点を合わせ、モデルが補間的でバルクな状態で使用されるとき、無視可能な結果を見つける。 ガス相の外挿予測においても、対称性のアーチファクトが顕著であるにもかかわらず、モデルは非常に安定である。 また, 対称性の破れの程度を体系的に低減し, 観測対象の収束への影響を評価するための戦略についても論じる。

Symmetry is one of the most central concepts in physics, and it is no surprise that it has also been widely adopted as an inductive bias for machine-learning models applied to the physical sciences. This is especially true for models targeting the properties of matter at the atomic scale. Both established and state-of-the-art approaches, with almost no exceptions, are built to be exactly equivariant to translations, permutations, and rotations of the atoms. Incorporating symmetries -- rotations in particular -- constrains the model design space and implies more complicated architectures that are often also computationally demanding. There are indications that non-symmetric models can easily learn symmetries from data, and that doing so can even be beneficial for the accuracy of the model. We put a model that obeys rotational invariance only approximately to the test, in realistic scenarios involving simulations of gas-phase, liquid, and solid water. We focus specifically on physical observables that are likely to be affected -- directly or indirectly -- by symmetry breaking, finding negligible consequences when the model is used in an interpolative, bulk, regime. Even for extrapolative gas-phase predictions, the model remains very stable, even though symmetry artifacts are noticeable. We also discuss strategies that can be used to systematically reduce the magnitude of symmetry breaking when it occurs, and assess their impact on the convergence of observables.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-25
# シャンプープレコンディショナーの新展開

A New Perspective on Shampoo's Preconditioner ( http://arxiv.org/abs/2406.17748v1 )

ライセンス: Link先を確認
Depen Morwani, Itai Shapira, Nikhil Vyas, Eran Malach, Sham Kakade, Lucas Janson, (参考訳) Kronecker製品プレコンディショナーを使用する2階最適化アルゴリズムであるShampooは先頃、マシンラーニングコミュニティから注目を集めている。 シャンプーが用いるプレコンディショナーは、ヘッセンのガウス-ニュートン成分の近似、あるいはアダグラードが維持する勾配の共分散行列の近似と見なすことができる。 これらの行列の Kronecker 積近似と Shampoo の近似との明示的で斬新な接続を提供する。 私たちのつながりはシャンプーの近似に関する微妙だが一般的な誤解を浮き彫りにしている。 特に、シャンプーオプティマイザが使用する近似の$\textit{square}$は、上記の最適クロネッカー積近似を計算するための電力反復アルゴリズムの1ステップに相当する。 さまざまなデータセットやアーキテクチャにわたって、私たちは、これが最適なKronecker製品近似に近いことを実証的に示しています。 さらに, ヘッセン近似の観点からは, シャンプーの計算効率を高めるための様々な実践的手法(バッチ勾配や経験的フィッシャーなど)がヘッセン近似の品質に与える影響を実証的に検討する。

Shampoo, a second-order optimization algorithm which uses a Kronecker product preconditioner, has recently garnered increasing attention from the machine learning community. The preconditioner used by Shampoo can be viewed either as an approximation of the Gauss--Newton component of the Hessian or the covariance matrix of the gradients maintained by Adagrad. We provide an explicit and novel connection between the $\textit{optimal}$ Kronecker product approximation of these matrices and the approximation made by Shampoo. Our connection highlights a subtle but common misconception about Shampoo's approximation. In particular, the $\textit{square}$ of the approximation used by the Shampoo optimizer is equivalent to a single step of the power iteration algorithm for computing the aforementioned optimal Kronecker product approximation. Across a variety of datasets and architectures we empirically demonstrate that this is close to the optimal Kronecker product approximation. Additionally, for the Hessian approximation viewpoint, we empirically study the impact of various practical tricks to make Shampoo more computationally efficient (such as using the batch gradient and the empirical Fisher) on the quality of Hessian approximation.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# NVIDIA Jetson Nanoによるリアルタイムシステムのためのディープラーニングモデルのベンチマーク:実証的研究

Benchmarking Deep Learning Models on NVIDIA Jetson Nano for Real-Time Systems: An Empirical Investigation ( http://arxiv.org/abs/2406.17749v1 )

ライセンス: Link先を確認
Tushar Prasanna Swaminathan, Christopher Silver, Thangarajah Akilan, (参考訳) 複雑なディープラーニング(DL)モデルの普及は、コンピュータビジョンベースのソリューションを含む様々なアプリケーションに革命をもたらし、リアルタイムシステムへの統合を促している。 しかし、これらのモデルのリソース集約的な性質は、組み込みデバイスやエッジデバイスのような低計算能力と低メモリデバイスへのデプロイに課題をもたらす。 この研究は、複雑なDLモデルの最適化を実証的に研究し、組み込みデバイス、特にNVIDIA Jetson Nano上でそれらの機能を分析する。 画像分類と映像行動検出のための推論速度の観点から最適化されたモデルの有効性を評価する。 実験の結果、平均して最適化されたモデルでは、最適化されていないモデルよりも16.11%の速度改善が見られた。 このことは、モデル開発とデプロイメントにおけるハードウェアの制約と環境の持続可能性を考えることの重要性を強調するだけでなく、AI支援技術のリソース制約のある計算システムへの展開を可能にする上で、モデル最適化が重要な役割を担っていることも強調している。 また、ハードウェア固有のモデル最適化の優先順位付けは、エネルギー消費と炭素フットプリントを大幅に減少させる効率的でスケーラブルなソリューションにつながるという証明としても機能する。

The proliferation of complex deep learning (DL) models has revolutionized various applications, including computer vision-based solutions, prompting their integration into real-time systems. However, the resource-intensive nature of these models poses challenges for deployment on low-computational power and low-memory devices, like embedded and edge devices. This work empirically investigates the optimization of such complex DL models to analyze their functionality on an embedded device, particularly on the NVIDIA Jetson Nano. It evaluates the effectiveness of the optimized models in terms of their inference speed for image classification and video action detection. The experimental results reveal that, on average, optimized models exhibit a 16.11% speed improvement over their non-optimized counterparts. This not only emphasizes the critical need to consider hardware constraints and environmental sustainability in model development and deployment but also underscores the pivotal role of model optimization in enabling the widespread deployment of AI-assisted technologies on resource-constrained computational systems. It also serves as proof that prioritizing hardware-specific model optimization leads to efficient and scalable solutions that substantially decrease energy consumption and carbon footprint.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# 小結晶の接地状態と接地状態の分離

Fast Ground State to Ground State Separation of Small Ion Crystals ( http://arxiv.org/abs/2406.17750v1 )

ライセンス: Link先を確認
Tyler H. Guglielmo, Dietrich Leibfried, Stephen B. Libby, Daniel H. Slichter, (参考訳) 捕捉されたイオンの線形結晶を異なるサブセットに素早く分離することは、捕捉されたイオン量子コンピューティングアーキテクチャを実現する上で重要である。 我々は,同種結晶と混合種結晶のより小さな部分集合への分離を記述するのに使用できる一般的な理論的枠組みを紹介する。 この枠組みは二次ハミルトニアンの下でのガウス運動状態の進化の効率的な記述に依存しており、時間依存の応用ポテンシャルとイオンの相互クーロン反発の影響の下で量子進化を記述するために、イオンの古典的な運動方程式の特別な解のみを必要とする。 本研究では, 混合種3イオン結晶の分離に適した時間依存性応用電位について, クーロン反発による自由膨張と同様の時間スケールで示し, 結晶軸に沿った全てのモードが基底状態に近づき, 終了することを示す。 3つの分離された混合種イオンは、この分離過程の時間反転によってエネルギーのゲインなしで1つの井戸に保持される結晶に結合することができる。

Rapid separation of linear crystals of trapped ions into different subsets is critical for realizing trapped ion quantum computing architectures where ions are rearranged in trap arrays to achieve all-to-all connectivity between qubits. We introduce a general theoretical framework that can be used to describe the separation of same-species and mixed-species crystals into smaller subsets. The framework relies on an efficient description of the evolution of Gaussian motional states under quadratic Hamiltonians that only requires a special solution of the classical equations of motion of the ions to describe their quantum evolution under the influence of a time-dependent applied potential and the ions' mutual Coulomb repulsion. We provide time-dependent applied potentials suitable for separation of a mixed species three-ion crystal on timescales similar to that of free expansion driven by Coulomb repulsion, with all modes along the crystal axis starting and ending close to their ground states. Three separately-confined mixed species ions can be combined into a crystal held in a single well without energy gain by time-reversal of this separation process.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# 説得力のある言語を生成するための大規模言語モデルの能力の測定とベンチマーク

Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language ( http://arxiv.org/abs/2406.17753v1 )

ライセンス: Link先を確認
Amalie Brogaard Pauli, Isabelle Augenstein, Ira Assent, (参考訳) 私たちは、ティーザーメッセージ、議論、政治的枠付きニュース、プロパガンダなど、説得力のある言葉を使うような、私たちに影響を与えるような多くの情報にさらされています。 近年,Large Language Models (LLMs) への関心が高まっている。 特定のドメインやタイプの説得に焦点を当てた以前の研究とは対照的に、LLMがいかに説得力のあるテキストを生成するかを測り、ベンチマークするために、様々なドメインにわたって一般的な研究を行う。 そこで我々は,LLMによって書き直された短文と短文からなるペアからなる新しいデータセットPersuasive-Pairsを構築し,説得言語を増幅または縮小する。 説得力のある言語に対して、ペアを相対的なスケールでマルチアノテートする。 このデータ自体が貴重なリソースであるだけでなく、回帰モデルをトレーニングしてテキストペア間の説得力のある言語のスコアを予測できることも示しています。 このモデルは、ドメイン間で新しいLLMをスコアし、ベンチマークし、異なるLLMの比較を容易にする。 最後に、異なるシステムプロンプトで観測された効果について議論する。 特に、LLaMA3のシステムプロンプトの異なる「ペルソナ」が、パラフレーズのみを指示しても、文章中の説得言語を大きく変えることが判明した。 これらの知見は, LLM 生成テキストにおける説得言語調査の重要性を浮き彫りにした。

We are exposed to much information trying to influence us, such as teaser messages, debates, politically framed news, and propaganda - all of which use persuasive language. With the recent interest in Large Language Models (LLMs), we study the ability of LLMs to produce persuasive text. As opposed to prior work which focuses on particular domains or types of persuasion, we conduct a general study across various domains to measure and benchmark to what degree LLMs produce persuasive text - both when explicitly instructed to rewrite text to be more or less persuasive and when only instructed to paraphrase. To this end, we construct a new dataset, Persuasive-Pairs, of pairs each consisting of a short text and of a text rewritten by an LLM to amplify or diminish persuasive language. We multi-annotate the pairs on a relative scale for persuasive language. This data is not only a valuable resource in itself, but we also show that it can be used to train a regression model to predict a score of persuasive language between text pairs. This model can score and benchmark new LLMs across domains, thereby facilitating the comparison of different LLMs. Finally, we discuss effects observed for different system prompts. Notably, we find that different 'personas' in the system prompt of LLaMA3 change the persuasive language in the text substantially, even when only instructed to paraphrase. These findings underscore the importance of investigating persuasive language in LLM generated text.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# 大規模言語モデルを用いた臨床エビデンス生成の高速化

Accelerating Clinical Evidence Synthesis with Large Language Models ( http://arxiv.org/abs/2406.17755v1 )

ライセンス: Link先を確認
Zifeng Wang, Lang Cao, Benjamin Danek, Yichi Zhang, Qiao Jin, Zhiyong Lu, Jimeng Sun, (参考訳) AIによる自動医療発見は多くの人の夢です。 その目標に向かっている1つのステップは、臨床研究を理解し、文献から臨床証拠を合成するAIモデルを作ることだ。 臨床エビデンス合成は、現在、臨床試験の体系的レビューと医学文献の振り返り分析に依存している。 しかし、出版物の急速な拡大は、証拠を効率的に特定し、要約し、更新することの難しさを示している。 我々はTrialMindを紹介した。TrialMindは、医学的体系的なレビューを行うための生成AIベースのパイプラインで、検索、スクリーニング、データ抽出フェーズを含む。 大規模な言語モデル(LLM)を使用してパイプラインの各コンポーネントを駆動し、エラーを最小限に抑えるために人間の専門家の監視を取り入れます。 評価を容易にするために,25のメタアナリシス論文から870の注釈付き臨床研究を行うカスタムデータセットであるTrialReviewBenchも作成した。 その結果,TrialMindは文献レビュープロセスを大幅に改善し,2000万以上のPubMed研究からの検索において高いリコール率(0.897-1.000)を達成し,従来の言語モデルを用いたスクリーニング手法よりも優れていた(0.227-0.246 vs. 0.000-0.102のRecall@20)。 さらに,提案手法は,0.65から0.84までの精度で直接GPT-4性能を上回る結果を得た。 また、GPT-4ベースラインよりもTrialMindを好んだ8人のアノテーターが、関連するレビューで62.5%-100%の勝利率で評価したように、森林プロットの臨床的エビデンス合成を支持している。 以上の結果から,TrialMindのようなLCMベースの臨床エビデンス合成アプローチにより,信頼性の高い高品質な臨床エビデンス合成が可能となり,臨床研究効率が向上することが示唆された。

Automatic medical discovery by AI is a dream of many. One step toward that goal is to create an AI model to understand clinical studies and synthesize clinical evidence from the literature. Clinical evidence synthesis currently relies on systematic reviews of clinical trials and retrospective analyses from medical literature. However, the rapid expansion of publications presents challenges in efficiently identifying, summarizing, and updating evidence. We introduce TrialMind, a generative AI-based pipeline for conducting medical systematic reviews, encompassing study search, screening, and data extraction phases. We utilize large language models (LLMs) to drive each pipeline component while incorporating human expert oversight to minimize errors. To facilitate evaluation, we also create a benchmark dataset TrialReviewBench, a custom dataset with 870 annotated clinical studies from 25 meta-analysis papers across various medical treatments. Our results demonstrate that TrialMind significantly improves the literature review process, achieving high recall rates (0.897-1.000) in study searching from over 20 million PubMed studies and outperforming traditional language model embeddings-based methods in screening (Recall@20 of 0.227-0.246 vs. 0.000-0.102). Furthermore, our approach surpasses direct GPT-4 performance in result extraction, with accuracy ranging from 0.65 to 0.84. We also support clinical evidence synthesis in forest plots, as validated by eight human annotators who preferred TrialMind over the GPT-4 baseline with a winning rate of 62.5%-100% across the involved reviews. Our findings suggest that an LLM-based clinical evidence synthesis approach, such as TrialMind, can enable reliable and high-quality clinical evidence synthesis to improve clinical research efficiency.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# MotionBooth:モーション対応のテキスト・ビデオ・ジェネレーション

MotionBooth: Motion-Aware Customized Text-to-Video Generation ( http://arxiv.org/abs/2406.17758v1 )

ライセンス: Link先を確認
Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen, (参考訳) 本研究では、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーション化するための革新的なフレームワークであるMotionBoothを紹介する。 物体の形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率よく微調整する。 提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を,カスタマイズした被写体とモーションコントロール信号を統合するために,被写体トークンのクロスアテンション損失とともに提示する。 さらに,推論中の被写体とカメラの動きを管理するためのトレーニングフリー手法を提案する。 特に、クロスアテンションマップの操作を利用して被写体の動きを制御し、カメラの動き制御のための新しい潜時シフトモジュールを導入する。 MotionBoothは、生成したビデオの動作を同時に制御しながら、被写体を保護している。 定量的および定性的評価は,本手法の優位性と有効性を示すものである。 私たちのプロジェクトページはhttps://jianzongwu.github.io/projects/motionboothです。

In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video model to capture the object's shape and attributes accurately. Our approach presents subject region loss and video preservation loss to enhance the subject's learning performance, along with a subject token cross-attention loss to integrate the customized subject with motion control signals. Additionally, we propose training-free techniques for managing subject and camera motions during inference. In particular, we utilize cross-attention map manipulation to govern subject motion and introduce a novel latent shift module for camera movement control as well. MotionBooth excels in preserving the appearance of subjects while simultaneously controlling the motions in generated videos. Extensive quantitative and qualitative evaluations demonstrate the superiority and effectiveness of our method. Our project page is at https://jianzongwu.github.io/projects/motionbooth
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# スパースオートエンコーダによる注意層出力の解釈

Interpreting Attention Layer Outputs with Sparse Autoencoders ( http://arxiv.org/abs/2406.17759v1 )

ライセンス: Link先を確認
Connor Kissane, Robert Krzyzanowski, Joseph Isaac Bloom, Arthur Conmy, Neel Nanda, (参考訳) モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。 スパースオートエンコーダ(SAE)は、訓練されたトランスフォーマーの内部活性化をスパースで解釈可能な特徴に分解する一般的な方法であり、MLP層や残留ストリームに適用されている。 この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。 いくつかのモデルファミリと最大2Bパラメータの変換器でこれを実証する。 注意層によって計算された特徴の質的研究を行い、複数の家族(長距離コンテキスト、短距離コンテキスト、誘導特徴)を見つける。 我々は、GPT-2 Smallにおける全ての頭部の役割を質的に研究し、少なくとも90%の頭部が多意味である、すなわち複数の無関係な役割を持っていると推定する。 さらに、スパースオートエンコーダは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。 例えば、なぜモデルがこれほど多くの冗長な誘導ヘッドを持つのかというミステリーを探求し、SAEを用いて長い前置詞であるとする仮説を動機付け、他のものは短い前置詞であり、より厳密な分析によってこれを裏付ける。 我々は,間接物体同定回路 (Wang et al ) によって実行される計算をSAEを用いて解析し,SAEが因果的に意味のある中間変数を発見し,回路のセマンティクスの理解を深めることを検証する。 我々は、トレーニングされたSAEと、注意出力SAEのレンズを通して任意のプロンプトを探索するためのツールをオープンソース化する。

Decomposing model activations into interpretable components is a key open problem in mechanistic interpretability. Sparse autoencoders (SAEs) are a popular method for decomposing the internal activations of trained transformers into sparse, interpretable features, and have been applied to MLP layers and the residual stream. In this work we train SAEs on attention layer outputs and show that also here SAEs find a sparse, interpretable decomposition. We demonstrate this on transformers from several model families and up to 2B parameters. We perform a qualitative study of the features computed by attention layers, and find multiple families: long-range context, short-range context and induction features. We qualitatively study the role of every head in GPT-2 Small, and estimate that at least 90% of the heads are polysemantic, i.e. have multiple unrelated roles. Further, we show that Sparse Autoencoders are a useful tool that enable researchers to explain model behavior in greater detail than prior work. For example, we explore the mystery of why models have so many seemingly redundant induction heads, use SAEs to motivate the hypothesis that some are long-prefix whereas others are short-prefix, and confirm this with more rigorous analysis. We use our SAEs to analyze the computation performed by the Indirect Object Identification circuit (Wang et al.), validating that the SAEs find causally meaningful intermediate variables, and deepening our understanding of the semantics of the circuit. We open-source the trained SAEs and a tool for exploring arbitrary prompts through the lens of Attention Output SAEs.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# CaLMQA:23言語にまたがる文化的に特定の長文質問の探索

CaLMQA: Exploring culturally specific long-form question answering across 23 languages ( http://arxiv.org/abs/2406.17761v1 )

ライセンス: Link先を確認
Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi, (参考訳) 大規模言語モデル(LLM)は、長文の質問応答に一般的に用いられ、複雑な質問に対して段落長の回答を生成する必要がある。 長い形式のQAは、多くの異なるデータセットと評価指標を通して英語でよく研究されているが、この研究は、他のほとんどの言語をカバーするように拡張されていない。 このギャップを埋めるために、我々は23の言語にまたがる2.6Kの複雑な質問のコレクションであるCaLMQAを紹介した。 私たちのデータセットには、コミュニティWebフォーラムから自然に収集された質問だけでなく、ネイティブスピーカーによって書かれた質問も含まれています。 我々のプロセスは、文化的な話題(伝統、法律、ニュースなど)と母語話者の言語使用を反映した多様で複雑な質問をもたらす。 提案手法は,解答における誤り言語やトークンの繰り返しを検知し,LLM生成した回答の品質が低リソース言語で著しく低下するのを観察する。 我々は、モデルのサブセット上で人間による評価を行い、文化的な特定の質問に対して、文化的に無知な質問よりも、モデルのパフォーマンスが著しく悪化していることを確認する。 以上の結果から,LLM多言語機能と非英語LFQA評価のさらなる研究の必要性が示唆された。

Large language models (LLMs) are commonly used for long-form question answering, which requires them to generate paragraph-length answers to complex questions. While long-form QA has been well-studied in English via many different datasets and evaluation metrics, this research has not been extended to cover most other languages. To bridge this gap, we introduce CaLMQA, a collection of 2.6K complex questions spanning 23 languages, including under-resourced, rarely-studied languages such as Fijian and Kirundi. Our dataset includes both naturally-occurring questions collected from community web forums as well as questions written by native speakers, whom we hire for this purpose. Our process yields diverse, complex questions that reflect cultural topics (e.g. traditions, laws, news) and the language usage of native speakers. We conduct automatic evaluation across a suite of open- and closed-source models using our novel metric CaLMScore, which detects incorrect language and token repetitions in answers, and observe that the quality of LLM-generated answers degrades significantly for some low-resource languages. We perform human evaluation on a subset of models and see that model performance is significantly worse for culturally specific questions than for culturally agnostic questions. Our findings highlight the need for further research in LLM multilingual capabilities and non-English LFQA evaluation.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# InstantiationとStrategy Inventionによる難問の解決

Solving Hard Mizar Problems with Instantiation and Strategy Invention ( http://arxiv.org/abs/2406.17762v1 )

ライセンス: Link先を確認
Jan Jakubův, Mikoláš Janota, Josef Urban, (参考訳) 本研究では, ATP未承認ミザー/MPTP問題の3000以上をいくつかのATP法とAI法を用いて証明し, ATP未解決ミザー問題を75倍から80倍に増やした。 まず,従来Mizarに応用されていた重ね合わせ型システムとは異なるいくつかのインスタンス化ベースのヒューリスティックを用いて,cvc5 SMTソルバを実験し,多くの新しい解を加えた。 次に、自動戦略発明を用いて、難題におけるcvc5の性能を大幅に向上させるcvc5戦略を開発する。 特に、最も優れた発明された戦略は、これまで利用可能な最も優れたcvc5戦略よりも14\%以上の問題を解決している。 また,様々なクラリファイション手法が,このようなインスタンス化に基づく手法に高い影響を与え,多くの新しい解がもたらされることを示す。 この手法は、これまで未解決だった14163のハード・ミザー問題の3021(21.3\%)を解いた。 これはMizarの大規模理論ベンチマークに対する新たなマイルストーンであり、Mizarのハンマーメソッドの大幅な強化である。

In this work, we prove over 3000 previously ATP-unproved Mizar/MPTP problems by using several ATP and AI methods, raising the number of ATP-solved Mizar problems from 75\% to above 80\%. First, we start to experiment with the cvc5 SMT solver which uses several instantiation-based heuristics that differ from the superposition-based systems, that were previously applied to Mizar,and add many new solutions. Then we use automated strategy invention to develop cvc5 strategies that largely improve cvc5's performance on the hard problems. In particular, the best invented strategy solves over 14\% more problems than the best previously available cvc5 strategy. We also show that different clausification methods have a high impact on such instantiation-based methods, again producing many new solutions. In total, the methods solve 3021 (21.3\%) of the 14163 previously unsolved hard Mizar problems. This is a new milestone over the Mizar large-theory benchmark and a large strengthening of the hammer methods for Mizar.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# DiffusionPDE:部分観察によるPDE生成

DiffusionPDE: Generative PDE-Solving Under Partial Observation ( http://arxiv.org/abs/2406.17763v1 )

ライセンス: Link先を確認
Jiahe Huang, Guandao Yang, Zichen Wang, Jeong Joon Park, (参考訳) 生成拡散モデルを用いて偏微分方程式(PDE)を解くための一般的な枠組みを提案する。 特に,古典的解法の適用に必要な場面について,十分な知識を持っていないシナリオに注目した。 既存の PDE 手法の多くは、データや基礎となる係数の観測が不完全である場合、実際の測定では一般的な仮定である。 本研究では,解空間と係数空間の連成分布をモデル化することにより,不足情報を同時に満たし,PDEを解くことができるDiffusionPDEを提案する。 学習した生成先行は,部分的な観察下で多種多様なPDEを正確に解き,前向きと逆方向の両方で最先端の手法を著しく上回り,多種多様なPDEを高精度に解決する枠組みに導かれることを示す。

We introduce a general framework for solving partial differential equations (PDEs) using generative diffusion models. In particular, we focus on the scenarios where we do not have the full knowledge of the scene necessary to apply classical solvers. Most existing forward or inverse PDE approaches perform poorly when the observations on the data or the underlying coefficients are incomplete, which is a common assumption for real-world measurements. In this work, we propose DiffusionPDE that can simultaneously fill in the missing information and solve a PDE by modeling the joint distribution of the solution and coefficient spaces. We show that the learned generative priors lead to a versatile framework for accurately solving a wide range of PDEs under partial observation, significantly outperforming the state-of-the-art methods for both forward and inverse directions.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# BMIKE-53:インテクスト学習による言語間知識編集の検討

BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning ( http://arxiv.org/abs/2406.17764v1 )

ライセンス: Link先を確認
Ercong Nie, Bo Shao, Zifeng Ding, Mingyang Wang, Helmut Schmid, Hinrich Schütze, (参考訳) 大規模言語モデル (LLM) には幅広いパラメトリック知識があるが、この知識を新しい情報で更新することは困難である。 知識編集(KE)は、LLMの知識を全体的な性能を損なうことなく更新するための有効なソリューションとして登場した。 In-context Learning (ICL) にインスパイアされたオンザフライKE法は,LLMをブラックボックスとして扱えるようにした。 これまで、KEは主に英語の文脈で用いられてきたが、現在の英語中心のLLMにおける言語間KEの可能性は、完全には調査されていない。 そこで本研究では,3種類のKEタスクタイプにまたがる53言語における言語間KE評価のためのBMIKE-53ベンチマークを提案する。 また,MIKE(Multilingual In-context Knowledge Editing)と呼ばれる勾配のないKE手法を提案し,BMIKE-53で評価する。 本評価は,言語間知識伝達の信頼性,汎用性,局所性,可搬性に焦点をあて,言語間KE研究のための貴重な洞察と枠組みを提供する。 私たちのコードとデータは、https://anonymous.4open.science/r/MIKE.comの匿名リポジトリから公開されています。

Large language models (LLMs) possess extensive parametric knowledge, but this knowledge is difficult to update with new information because retraining is very expensive and infeasible for closed-source models. Knowledge editing (KE) has emerged as a viable solution for updating the knowledge of LLMs without compromising their overall performance. On-the-fly KE methods, inspired by in-context learning (ICL), have shown great promise and allow LLMs to be treated as black boxes. In the past, KE was primarily employed in English contexts, whereas the potential for cross-lingual KE in current English-centric LLMs has not been fully explored. To foster more research in this direction, we introduce the BMIKE-53 benchmark for evaluating cross-lingual KE on 53 diverse languages across three KE task types. We also propose a gradient-free KE method called Multilingual In-context Knowledge Editing (MIKE) and evaluate it on BMIKE-53. Our evaluation focuses on cross-lingual knowledge transfer in terms of reliability, generality, locality, and portability, offering valuable insights and a framework for future research in cross-lingual KE. Our code and data are publicly accessible via the anonymous repository at https://anonymous.4open.science/r/MIKE.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# EXTRACT:オフラインデータから移動ロボットスキルを抽出した効率的な政策学習

EXTRACT: Efficient Policy Learning by Extracting Transferrable Robot Skills from Offline Data ( http://arxiv.org/abs/2406.17768v1 )

ライセンス: Link先を確認
Jesse Zhang, Minho Heo, Zuxin Liu, Erdem Biyik, Joseph J Lim, Yao Liu, Rasool Fakoor, (参考訳) ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。 これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。 代わりに、低レベルのアクションよりも、実用的で時間的に拡張されたスキルで行動できるRLエージェントは、新しいタスクをより簡単に学習することができる。 スキルベースのRLの以前の作業は、スケールが難しい有用なスキルを定義するために専門家の監督を必要とするか、あるいは、スキルの適応性を制限したヒューリスティックで、オフラインデータからスキルスペースを学ぶことで、下流RLの移行が困難になる。 提案手法であるEXTRACTは、事前学習された視覚言語モデルを用いて、オフラインデータから意味論的に意味のある個別のスキルを抽出する。 このスキルパラメタライゼーションにより、ロボットは特定のスキルを選択するタイミングと、特定のタスクに対する引数の修正方法を学習するだけで、新しいタスクを学習することができる。 我々は,EXTRACTが従来の作業よりも早く新しいタスクを学習できる,スパースリワード,イメージベース,ロボット操作環境の実験を通じて,従来のスキルベースRLよりもサンプル効率と性能が大きく向上したことを示す。 https://www.jessezhang.net/projects/extract/.com

Most reinforcement learning (RL) methods focus on learning optimal policies over low-level action spaces. While these methods can perform well in their training environments, they lack the flexibility to transfer to new tasks. Instead, RL agents that can act over useful, temporally extended skills rather than low-level actions can learn new tasks more easily. Prior work in skill-based RL either requires expert supervision to define useful skills, which is hard to scale, or learns a skill-space from offline data with heuristics that limit the adaptability of the skills, making them difficult to transfer during downstream RL. Our approach, EXTRACT, instead utilizes pre-trained vision language models to extract a discrete set of semantically meaningful skills from offline data, each of which is parameterized by continuous arguments, without human supervision. This skill parameterization allows robots to learn new tasks by only needing to learn when to select a specific skill and how to modify its arguments for the specific task. We demonstrate through experiments in sparse-reward, image-based, robot manipulation environments that EXTRACT can more quickly learn new tasks than prior works, with major gains in sample efficiency and performance over prior skill-based RL. Website at https://www.jessezhang.net/projects/extract/.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# MG-LLaVA:マルチグラニュラリティビジュアルインストラクションチューニングを目指して

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning ( http://arxiv.org/abs/2406.17770v1 )

ライセンス: Link先を確認
Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang, (参考訳) MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。 しかし、これらのモデルのほとんどは低解像度画像の処理に制約されており、詳細な視覚情報を必要とする知覚タスクの有効性を制限している。 本研究では,低分解能,高分解能,オブジェクト中心の機能を備えた多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMであるMG-LLaVAを提案する。 本稿では,さらに高解像度のビジュアルエンコーダを統合することで,細かな細部をキャプチャし,それをConv-Gate融合ネットワークを介してベースビジュアル特徴と融合させる手法を提案する。 さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。 MG-LLaVAは、インストラクションチューニングを通じて、公開されているマルチモーダルデータのみに訓練されており、例外的な知覚能力を示している。 我々はMG-LLaVAを3.8Bから34Bまでの多種多様な言語エンコーダでインスタンス化し、モデルの性能を総合的に評価する。 複数のベンチマークにおいて、MG-LLaVAはパラメータサイズに匹敵する既存のMLLMよりも優れており、その顕著な有効性を示している。 コードはhttps://github.com/PhoenixZ810/MG-LLaVAで入手できる。

Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# 周波数領域解析を用いたマルチビューキャプチャーからの高速かつ不確実なSVBRDF回収

Fast and Uncertainty-Aware SVBRDF Recovery from Multi-View Capture using Frequency Domain Analysis ( http://arxiv.org/abs/2406.17774v1 )

ライセンス: Link先を確認
Ruben Wiersma, Julien Philip, Miloš Hašan, Krishna Mullia, Fujun Luan, Elmar Eisemann, Valentin Deschaintre, (参考訳) デジタルアセット作成を簡素化する上で、リライタブルなオブジェクト取得は重要な課題である。 オブジェクトの完全な再構築には、制御された照明の下で数百から数千枚の写真を取得する必要がある。 微分可能レンダリングの最近の進歩は、逆レンダリング最適化の品質とアクセシビリティを改善した。 それでも、制御されていない照明と非構造的な視点の下では、捕獲された物体の外観特性を再構築するのに十分な情報を含むという保証はない。 そこで我々は,信号処理の観点から,取得プロセスについて考察する。 物体の形状と照明環境を考慮し,物体表面の物質の性質を数秒で推定する。 周波数領域解析を利用して、材料特性の回復をデコンボリューションとして考慮し、高速な誤差推定を可能にする。 次に、利用可能なデータに基づいて、予測の不確実性を定量化し、取得品質を向上させるために、事前または追加サンプルが要求される領域を強調します。 提案手法を先行研究と比較し,その結果を定量的に評価し,結果の確実性について重要な情報を提供する。

Relightable object acquisition is a key challenge in simplifying digital asset creation. Complete reconstruction of an object typically requires capturing hundreds to thousands of photographs under controlled illumination, with specialized equipment. The recent progress in differentiable rendering improved the quality and accessibility of inverse rendering optimization. Nevertheless, under uncontrolled illumination and unstructured viewpoints, there is no guarantee that the observations contain enough information to reconstruct the appearance properties of the captured object. We thus propose to consider the acquisition process from a signal-processing perspective. Given an object's geometry and a lighting environment, we estimate the properties of the materials on the object's surface in seconds. We do so by leveraging frequency domain analysis, considering the recovery of material properties as a deconvolution, enabling fast error estimation. We then quantify the uncertainty of the estimation, based on the available data, highlighting the areas for which priors or additional samples would be required for improved acquisition quality. We compare our approach to previous work and quantitatively evaluate our results, showing similar quality as previous work in a fraction of the time, and providing key information about the certainty of the results.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# テキストアニメーション:制御可能なビジュアルテキスト映像生成

Text-Animator: Controllable Visual Text Video Generation ( http://arxiv.org/abs/2406.17777v1 )

ライセンス: Link先を確認
Lin Liu, Quande Liu, Shengju Qian, Yuan Zhou, Wengang Zhou, Houqiang Li, Lingxi Xie, Qi Tian, (参考訳) ビデオ生成は、ゲーム、eコマース、広告など、さまざまな業界において難しいが重要な課題である。 T2V内の重要な未解決の側面は、生成されたビデオ内のテキストを効果的に可視化することである。 Text-to-Video〜(T2V)生成で達成された進歩にもかかわらず、現在の手法では、主にセマンティックシーン情報の要約、理解、アクションの描写に重点を置いているため、ビデオ中のテキストを直接効果的に視覚化することはできない。 画像レベルのビジュアルテキスト生成の最近の進歩は、将来性を示しているが、これらのテクニックをビデオ領域に移行することは、特にテキストの忠実さとモーションコヒーレンスを維持する際に問題に直面している。 本稿では,ビジュアルテキスト映像生成のためのテキストアニメーションという革新的な手法を提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。 さらに、映像テキストの移動だけでなく、カメラの動きを制御して、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。 定量的および定性的な実験結果から,最先端のビデオ生成法よりも生成した視覚テキストの精度が優れていることが示された。 プロジェクトのページはhttps://laulampaul.github.io/text-animator.htmlにある。

Video generation is a challenging yet pivotal task in various industries, such as gaming, e-commerce, and advertising. One significant unresolved aspect within T2V is the effective visualization of text within generated videos. Despite the progress achieved in Text-to-Video~(T2V) generation, current methods still cannot effectively visualize texts in videos directly, as they mainly focus on summarizing semantic scene information, understanding, and depicting actions. While recent advances in image-level visual text generation show promise, transitioning these techniques into the video domain faces problems, notably in preserving textual fidelity and motion coherence. In this paper, we propose an innovative approach termed Text-Animator for visual text video generation. Text-Animator contains a text embedding injection module to precisely depict the structures of visual text in generated videos. Besides, we develop a camera control module and a text refinement module to improve the stability of generated visual text by controlling the camera movement as well as the motion of visualized text. Quantitative and qualitative experimental results demonstrate the superiority of our approach to the accuracy of generated visual text over state-of-the-art video generation methods. The project page can be found at https://laulampaul.github.io/text-animator.html.
翻訳日:2024-06-26 13:21:40 公開日:2024-06-25
# ランク不均一通信を用いたフェデレーション低ランク適応に向けて

Towards Federated Low-Rank Adaptation with Rank-Heterogeneous Communication ( http://arxiv.org/abs/2406.17477v1 )

ライセンス: Link先を確認
Yuji Byun, Jaeho Lee, (参考訳) 低ランク適応(LoRA)は、大きな事前訓練されたモデルのファインチューニングに全重量を適応させる魅力的な代替手段であり、メモリと通信の負担を大幅に軽減することができる。 原則として、フェデレートされたLoRAは、各クライアントのランクを調整することで、各クライアントに異なるリソースを割り当てる効果的な手段を提供することができる。 しかし,ロラの実証的な性能は,このような等級不均一性に対して極めて不安定であり,制約された全帯域幅のため,各クライアントに一様通信帯域を割り当てることが望ましい,あるいは必要となるシナリオに適用性に極めて制限があることが判明した。 この不安定性の根本原因は, 従来のロラフレームワークで採用されているゼロ・パディング・ベースのアグリゲーション戦略であり, 高位のクライアントからの情報を集約プロセス中に希釈する原因となっている。 この問題に対処するため、我々はレプリケーションベースの新しいパディング戦略を提案し、高品質なデータセットを持つクライアントからの情報をよりよく活用できるようにします。 この方法では、集約プロセス中に高階クライアントからの貴重な情報が保持され、収束速度が向上し、グローバルモデルの全体的な予測品質が向上する。

Low-rank adaptation (LoRA) is an attractive alternative of adapting full weights for the federated fine-tuning of large pretrained models, which can significantly reduce the memory and communication burden. In principle, federated LoRA can provide an effective mean to allocate different resources to each client by tuning ranks for each client, which can be useful in achieving a better communication-performance tradeoff. We find, however, that the empirical performance of LoRA is highly unstable with respect to such rank-heterogeneity, severely limiting the applicability to the scenarios where it is desirable or even required to allocate nonuniform communication bandwidth to each client due to constrained total bandwidth. Our investigation reveals that the root cause of this instability is the zero-padding-based aggregation strategy adopted in conventional federated LoRA frameworks, which causes the information from high rank clients to get diluted during the aggregation process. To address this issue, we propose a new replication-based padding strategy, which allows us to better leverage the information from clients with high-quality datasets. This method ensures that valuable information from high rank clients is retained during the aggregation process, accelerating the convergence speed and enhancing the overall prediction quality of the global model.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# BricksRL:LEGOによるロボティクスと強化学習の研究と教育を民主化するプラットフォーム

BricksRL: A Platform for Democratizing Robotics and Reinforcement Learning Research and Education with LEGO ( http://arxiv.org/abs/2406.17490v1 )

ライセンス: Link先を確認
Sebastian Dittert, Vincent Moens, Gianni De Fabritiis, (参考訳) 我々は、強化学習研究と教育のためのロボットへのアクセスを民主化するためのプラットフォームであるBricksRLを紹介する。 BricksRLは、強化学習エージェントのためのTorchRLライブラリと対話することで、現実世界でのカスタムLEGOロボットの作成、設計、訓練を容易にする。 TorchRLとLEGOハブの統合は、Bluetooth双方向通信を通じて、さまざまなLEGOビルド用のGPUに関する最先端の強化学習トレーニングを可能にする。 これにより、スケーリングのための柔軟でコスト効率のよいアプローチが提供され、ロボット環境とアルゴリズムのコミュニケーションのための堅牢なインフラストラクチャも提供されます。 タスクやロボット構成のさまざまな実験を行い、構築された計画とトレーニング結果を提供する。 さらに、安価なLEGOロボットは、通常のラップトップで通常120分以下で、簡単なタスクをこなすために、現実世界でエンドツーエンドにトレーニングすることができることを実証した。 さらに,非LEGOセンサをうまく統合することで,ユーザが機能を拡張する方法を示す。 ロボット工学と強化学習の両方へのアクセシビリティを高めることで、BricksRLは研究および教育環境におけるロボット学習の民主化のための強力な基盤を確立している。

We present BricksRL, a platform designed to democratize access to robotics for reinforcement learning research and education. BricksRL facilitates the creation, design, and training of custom LEGO robots in the real world by interfacing them with the TorchRL library for reinforcement learning agents. The integration of TorchRL with the LEGO hubs, via Bluetooth bidirectional communication, enables state-of-the-art reinforcement learning training on GPUs for a wide variety of LEGO builds. This offers a flexible and cost-efficient approach for scaling and also provides a robust infrastructure for robot-environment-algorithm communication. We present various experiments across tasks and robot configurations, providing built plans and training results. Furthermore, we demonstrate that inexpensive LEGO robots can be trained end-to-end in the real world to achieve simple tasks, with training times typically under 120 minutes on a normal laptop. Moreover, we show how users can extend the capabilities, exemplified by the successful integration of non-LEGO sensors. By enhancing accessibility to both robotics and reinforcement learning, BricksRL establishes a strong foundation for democratized robotic learning in research and educational settings.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# $\mathbb{Z}_2$格子ゲージ理論における閉じ込めのパーコレーション再正規化群解析

Percolation renormalization group analysis of confinement in $\mathbb{Z}_2$ lattice gauge theories ( http://arxiv.org/abs/2406.17515v1 )

ライセンス: Link先を確認
Gesa Dünnweber, Simon M. Linsel, Annabelle Bohrdt, Fabian Grusdt, (参考訳) 格子ゲージ理論(LGTs)における閉じ込めの分析は、現在でも難しい課題である。 閉じ込めに関する幾何学的な視点から、閉じ込め次数パラメータとしてパーコレーション確率を用いた$\mathbb{Z}_2$ LGTsに対する実空間再正規化群(RG)の定式化を開発する。 解析したRGフローはパーコレーション確率と結合パラメータの両方で構成する。 古典的な$\mathbb{Z}_2$ LGTを物質と熱ゆらぎを持つ2次元で考えると、閉じ込め相図を解析的に導出する。 数値および正確なベンチマーク結果とよく一致し、有限物質密度が、我々が考慮するモデルにおいて$T<\infty$で閉じ込めを強制することを確認する。 我々のRGスキームは、物質と量子ゆらぎを含む$\mathbb{Z}_2$ LGTの将来の分析研究を可能にする。

The analytical study of confinement in lattice gauge theories (LGTs) remains a difficult task to this day. Taking a geometric perspective on confinement, we develop a real-space renormalization group (RG) formalism for $\mathbb{Z}_2$ LGTs using percolation probability as a confinement order parameter. The RG flow we analyze is constituted by both the percolation probability and the coupling parameters. We consider a classical $\mathbb{Z}_2$ LGT in two dimensions, with matter and thermal fluctuations, and analytically derive the confinement phase diagram. We find good agreement with numerical and exact benchmark results and confirm that a finite matter density enforces confinement at $T<\infty$ in the model we consider. Our RG scheme enables future analytical studies of $\mathbb{Z}_2$ LGTs with matter and quantum fluctuations and beyond.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# Laminator: ハードウェアアシストによる検証によるMLプロパティカードの検証

Laminator: Verifiable ML Property Cards using Hardware-assisted Attestations ( http://arxiv.org/abs/2406.17548v1 )

ライセンス: Link先を確認
Vasisht Duddu, Oskari Järvinen, Lachlan J Gunn, N Asokan, (参考訳) 機械学習(ML)モデルプロバイダから、トレーニングデータ、トレーニングプロセス、推論中の結果モデルの振る舞いについて、さまざまな保証を求める規制が増えている。 透明性を高めるために、企業(HugingfaceやGoogleなど)は、トレーニングデータセットとモデルのさまざまな特性を記述するモデルカードとデータシートを採用した。 同じ静脈において、与えられた推論の特性(例えば、モデルとその対応する入力への結合出力)を記述するための推論カードの概念を導入する。 これをMLプロパティカードと呼ぶ。 悪意のあるモデルプロバイダは、MLプロパティカードに偽情報を含めることができるため、MLプロパティカードを検証する必要が生じる。 本稿では,証明者(例えばモデル提供者)が学習中に異なるML特性を証明し,検証者(例えば監査者)に推論する方法を示す。 しかし、純粋に暗号に基づく事前証明機構は、しばしば狭義に焦点が当てられ(汎用性を損なう)、非効率である。 MLモデルのトレーニングと推論パイプライン全体で、さまざまな型プロパティを効率よく検証する必要がある。 近年の進歩により、ハードウェア支援された信頼できる実行環境(TEE)内でモデルを実行およびトレーニングすることが可能になり、高い効率の検証が可能になる。 本稿では,ハードウェア支援MLプロパティ証明を用いたMLプロパティカードの検証のための最初のフレームワークであるLaminatorを提案する。 複数の検証器にスケールし、モデル構成とは独立している。

Regulations increasingly call for various assurances from machine learning (ML) model providers about their training data, training process, and the behavior of resulting models during inference. For better transparency, companies (e.g., Huggingface and Google) have adopted model cards and datasheets which describe different properties of the training datasets and models. In the same vein, we introduce the notion of an inference card to describe the properties of a given inference (e.g., binding output to the model and its corresponding input). We collectively refer to these as ML property cards. A malicious model provider can include false information in ML property cards, raising a need for verifiable ML property cards. We show how to realized them using property attestation, technical mechanisms by which a prover (e.g., a model provider) can attest different ML properties during training and inference to a verifier (e.g., an auditor). However, prior attestation mechanisms based purely on cryptography are often narrowly focused (lacking versatility) and inefficient. There is a need to efficiently attest different types properties across the ML model training and inference pipeline. Recent developments make it possible to run and even train models inside hardware-assisted trusted execution environments (TEEs), which can provide highly efficient attestation. We propose Laminator, the first framework for verifiable ML property cards using hardware-assisted ML property attestations to efficiently furnish attestations for various ML properties for training and inference. It scales to multiple verifiers, and is independent of the model configuration.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# ハイパーグラフにおけるモジュール性に基づくコミュニティ検出

Modularity Based Community Detection in Hypergraphs ( http://arxiv.org/abs/2406.17556v1 )

ライセンス: Link先を確認
Bogumił Kamiński, Paweł Misiorek, Paweł Prałat, François Théberge, (参考訳) 本稿では,ハイパーグラフモジュラリティ関数h-Louvainを用いたスケーラブルなコミュニティ検出アルゴリズムを提案する。 これは、ハイパーグラフの文脈における古典的なルーヴァンアルゴリズムの適応である。 ハイパーグラフのモジュラリティ関数を最適化するためのルービンアルゴリズムの直接的な応用は、しばしば意味のあるコミュニティを見つけるのに失敗する。 本稿では,対応する2区間グラフのグラフモジュラリティ関数と所望のハイパーグラフモジュラリティ関数の線形結合を慎重に動的に調整することで,アルゴリズムの初期段階を調整し,この問題に対する解決策を提案する。 このプロセスは,提案手法のハイパーパラメータのベイズ最適化によって導かれる。 合成および実世界のネットワークに関する様々な実験を行い、このプロセスは様々な状況において改善された結果をもたらすことを示した。

In this paper, we propose a scalable community detection algorithm using hypergraph modularity function, h-Louvain. It is an adaptation of the classical Louvain algorithm in the context of hypergraphs. We observe that a direct application of the Louvain algorithm to optimize the hypergraph modularity function often fails to find meaningful communities. We propose a solution to this issue by adjusting the initial stage of the algorithm via carefully and dynamically tuned linear combination of the graph modularity function of the corresponding two-section graph and the desired hypergraph modularity function. The process is guided by Bayesian optimization of the hyper-parameters of the proposed procedure. Various experiments on synthetic as well as real-world networks are performed showing that this process yields improved results in various regimes.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# データから動的ベイズネットワークを学習する:基礎、第一原理、数値比較

Learning Dynamic Bayesian Networks from Data: Foundations, First Principles and Numerical Comparisons ( http://arxiv.org/abs/2406.17585v1 )

ライセンス: Link先を確認
Vyacheslav Kungurtsev, Petr Rysavy, Fadwa Idlahcen, Pavel Rytir, Ales Wodecki, (参考訳) 本稿では,データからの動的ベイズネットワーク(DBN)の学習の基礎を,一定時間にわたって複数の軌跡のサンプルとして示す。 一般化の形式と、特定の変数分布に対する共通型DBNの集合について述べる。 本研究は,DBNモデルにおける構造と重みの相互依存性と,それらが学習に与える影響を包括的に議論する。 次に、最も重要な統計的特徴と、学習構造と重みの間の相互作用をどのように扱うかに基づいて、学習方法の概要を説明し、それらを分類する。 確率とベイズスコア関数の分析形式を与え、静的な場合との違いを強調した。 構造要求を強制するために最適化に使用される関数について論じる。 より複雑な拡張と表現について簡単に議論する。 最後に、各変種間で異なる異なるが代表的なアルゴリズムについて異なる設定で比較する。

In this paper, we present a guide to the foundations of learning Dynamic Bayesian Networks (DBNs) from data in the form of multiple samples of trajectories for some length of time. We present the formalism for a generic as well as a set of common types of DBNs for particular variable distributions. We present the analytical form of the models, with a comprehensive discussion on the interdependence between structure and weights in a DBN model and their implications for learning. Next, we give a broad overview of learning methods and describe and categorize them based on the most important statistical features, and how they treat the interplay between learning structure and weights. We give the analytical form of the likelihood and Bayesian score functions, emphasizing the distinction from the static case. We discuss functions used in optimization to enforce structural requirements. We briefly discuss more complex extensions and representations. Finally we present a set of comparisons in different settings for various distinct but representative algorithms across the variants.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# ベイズ逆問題に対する構造付きテンソル前駆体の構築

Constructing structured tensor priors for Bayesian inverse problems ( http://arxiv.org/abs/2406.17597v1 )

ライセンス: Link先を確認
Kim Batselier, (参考訳) 事前分布の特定はベイズ逆問題の解決に不可欠である。 前者は解の性質に関する信念を符号化し、この問題を正則化する。 この記事では、解が構造テンソルであるという信念をエンコードするガウス先行を、完全に特徴づける。 まず、(A,b)-制約テンソルの概念を定義し、それらがハンケル、サーキュラント、三角形、対称など、多種多様な構造を記述することを示す。 そして、その平均ベクトルと共分散行列を指定することにより、そのようなテンソルのガウス確率分布を完全に特徴づける。 さらに、成分が置換の下で不変であるテンソルの共分散行列に対して明示的な表現が証明される。 これらの結果は、ベイジアン逆問題に対する全く新しい前のクラスを解き放つ。 本稿では,いくつかの雑音測定からハンケル行列を完了し,手書き数字の画像分類器を学習する,2つのベイズ逆問題に対して,新しいカーネル関数を設計,効率的に計算し,その結果を適用する方法について述べる。 両問題に対して,提案手法の有効性が示された。 すべてのアプリケーションはJuliaのリアクティブPlutoノートブックとして実装されている。

Specifying a prior distribution is an essential part of solving Bayesian inverse problems. The prior encodes a belief on the nature of the solution and this regularizes the problem. In this article we completely characterize a Gaussian prior that encodes the belief that the solution is a structured tensor. We first define the notion of (A,b)-constrained tensors and show that they describe a large variety of different structures such as Hankel, circulant, triangular, symmetric, and so on. Then we completely characterize the Gaussian probability distribution of such tensors by specifying its mean vector and covariance matrix. Furthermore, explicit expressions are proved for the covariance matrix of tensors whose entries are invariant under a permutation. These results unlock a whole new class of priors for Bayesian inverse problems. We illustrate how new kernel functions can be designed and efficiently computed and apply our results on two particular Bayesian inverse problems: completing a Hankel matrix from a few noisy measurements and learning an image classifier of handwritten digits. The effectiveness of the proposed priors is demonstrated for both problems. All applications have been implemented as reactive Pluto notebooks in Julia.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# YAQQ: もう1つの量子量子化器 -- ノベルティ探索を用いた量子ゲートセットの設計空間探索

YAQQ: Yet Another Quantum Quantizer -- Design Space Exploration of Quantum Gate Sets using Novelty Search ( http://arxiv.org/abs/2406.17610v1 )

ライセンス: Link先を確認
Aritra Sarkar, Akash Kundu, Matthew Steinberg, Sibasish Mishra, Sebastiaan Fauquenot, Tamal Acharya, Jarosław A. Miszczak, Sebastian Feld, (参考訳) 量子計算の標準的な回路モデルでは、回路を構成する量子ゲートの数と品質が計算のランタイムと忠実性に影響を与える。 ユニタリ行列として表される量子アルゴリズムの分解の完全性は、境界深さ量子回路に対する分解ルーチンで利用可能なゲートの集合に強く依存する。 本研究は、離散量子ゲートセットの設計空間を探索し、その固有ゲートに基づく量子処理ユニットと制御プロトコルの比較分析を行うソフトウェアツールを提案する。 評価は、量子プロセッサ上のターゲットユースケースを表すユニタリ変換のセットに条件付けされる。 コスト関数には3つの重要な要素がある。 (i)分解回路の深さの統計分布 二 近似分解のためのプロセス忠実度の統計分布及び 三 上記プロパティの点で他のゲートセットと比較して門の相対的な新規性 開発されたソフトウェアYAQQ(Yet Another Quantum Quantizer)は、このチューニング可能なジョイントコスト関数を通じて、最適化された量子ゲートのセットを発見できる。 これらのゲートセットを同定するために、Qiskit量子シミュレータ環境内でYAQQを実装するために、新規探索アルゴリズム、回路分解手法、確率最適化を用いる。 YAQQは、概念的には量子アルゴリズム情報理論から派生した到達可能性トレードオフを利用する。 本研究は,量子アルゴリズムの表現において広く用いられる量子ゲート集合に有利なゲート集合を同定する実用的応用を実証するものである。 その結果,量子誤り訂正符号における横方向論理ゲートセットの比較,最適量子命令セットの設計,特定の量子プロセッサへのコンパイルにおいて,YAQQの実用例を示す。

In the standard circuit model of quantum computation, the number and quality of the quantum gates composing the circuit influence the runtime and fidelity of the computation. The fidelity of the decomposition of quantum algorithms, represented as unitary matrices, to bounded depth quantum circuits depends strongly on the set of gates available for the decomposition routine. To investigate this dependence, we explore the design space of discrete quantum gate sets and present a software tool for comparative analysis of quantum processing units and control protocols based on their native gates. The evaluation is conditioned on a set of unitary transformations representing target use cases on the quantum processors. The cost function considers three key factors: (i) the statistical distribution of the decomposed circuits' depth, (ii) the statistical distribution of process fidelities for the approximate decomposition, and (iii) the relative novelty of a gate set compared to other gate sets in terms of the aforementioned properties. The developed software, YAQQ (Yet Another Quantum Quantizer), enables the discovery of an optimized set of quantum gates through this tunable joint cost function. To identify these gate sets, we use the novelty search algorithm, circuit decomposition techniques, and stochastic optimization to implement YAQQ within the Qiskit quantum simulator environment. YAQQ exploits reachability tradeoffs conceptually derived from quantum algorithmic information theory. Our results demonstrate the pragmatic application of identifying gate sets that are advantageous to popularly used quantum gate sets in representing quantum algorithms. Consequently, we demonstrate pragmatic use cases of YAQQ in comparing transversal logical gate sets in quantum error correction codes, designing optimal quantum instruction sets, and compiling to specific quantum processors.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# 可変通信速度を有する大規模グラフニューラルネットワークの分散学習

Distributed Training of Large Graph Neural Networks with Variable Communication Rates ( http://arxiv.org/abs/2406.17611v1 )

ライセンス: Link先を確認
Juan Cervino, Md Asadullah Turja, Hesham Mostafa, Nageen Himayat, Alejandro Ribeiro, (参考訳) 大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。 グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。 しかし、グラフは一般に小さな非相互作用コンポーネントに分解できないため、トレーニングマシン間のデータ通信はトレーニング速度を急速に制限する。 通信ノードのアクティベーションを一定量圧縮することで、トレーニング速度が向上するが、トレーニングされたGNNの精度は低下する。 本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。 理論解析に基づいて,すべてのグラフ分割スキームに対して,全通信ケースに相当する解に収束する可変圧縮法を導出する。 実験結果から,本手法は全通信で得られた手法に匹敵する性能を示した。 通信予算の固定圧縮比で全通信を上回ります。

Training Graph Neural Networks (GNNs) on large graphs presents unique challenges due to the large memory and computing requirements. Distributed GNN training, where the graph is partitioned across multiple machines, is a common approach to training GNNs on large graphs. However, as the graph cannot generally be decomposed into small non-interacting components, data communication between the training machines quickly limits training speeds. Compressing the communicated node activations by a fixed amount improves the training speeds, but lowers the accuracy of the trained GNN. In this paper, we introduce a variable compression scheme for reducing the communication volume in distributed GNN training without compromising the accuracy of the learned model. Based on our theoretical analysis, we derive a variable compression method that converges to a solution equivalent to the full communication case, for all graph partitioning schemes. Our empirical results show that our method attains a comparable performance to the one obtained with full communication. We outperform full communication at any fixed compression ratio for any communication budget.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# シナリオプログラムによるラベル付き時系列データ検索

Querying Labeled Time Series Data with Scenario Programs ( http://arxiv.org/abs/2406.17627v1 )

ライセンス: Link先を確認
Devan Shanker, (参考訳) 自動運転車が道路上での展開に安全であることを保証するため、シミュレーションベースのテストは道路上でのテストに不可欠な補完となっている。 シミュレーションテストとバリデーションの上昇は、エッジケースシナリオにおいてさえ、AVの振る舞いが望ましい結果と一致していることを検証する必要性が高まっていることを反映している。 シミュレーションにおけるAV障害は、実際のテストから収集したデータとどの程度の程度で一致しているか? シミュレーションデータと実際のセンサーデータのギャップ(シミュレート・トゥ・リアル・ギャップ)の結果、シミュレーションの失敗は、刺激的(シミュレート・またはシミュレータ固有の問題)または関連する(安全クリティカルなAVシステム問題)である。 シミュレーションされた時系列障害が実世界の時系列センサデータと一致しているかどうかを検証する1つの可能な方法は、これらのシナリオにおけるAVパフォーマンスを理解するために、実世界の時系列データセットから障害シナリオのインスタンスを取得することである。 この戦略を採用することで、実世界のラベル付き時系列データ項目と、シミュレーション生成のためのSenseic Probabilistic Languageの断片から書かれたシミュレートシナリオとのマッチングを構成するものの公式な定義を提案する。 このマッチングの定義により、与えられたシナリオにマッチするラベル付き時系列データセットのサブセットを識別するクエリアルゴリズムを開発する。 このアプローチを他のサイバー物理システム(CPS)の安全性を検証するために,自律走行車領域を超えてスケーラブルにマッチングするための定義とアルゴリズムを提案する。 実験では、nuScenesの自律運転データセットから特定される困難で珍しい時系列シナリオのセットに対して、アルゴリズムの精度とスケーラビリティを実証した。 我々は、幅広いCPSで自由に利用できるクエリアルゴリズムの完全なシステム実装を含む。

In order to ensure autonomous vehicles are safe for on-road deployment, simulation-based testing has become an integral complement to on-road testing. The rise in simulation testing and validation reflects a growing need to verify that AV behavior is consistent with desired outcomes even in edge case scenarios $-$ which may seldom or never appear in on-road testing data. This raises a critical question: to what extent are AV failures in simulation consistent with data collected from real-world testing? As a result of the gap between simulated and real sensor data (sim-to-real gap), failures in simulation can either be spurious (simulation- or simulator-specific issues) or relevant (safety-critical AV system issues). One possible method for validating if simulated time series failures are consistent with real world time series sensor data could involve retrieving instances of the failure scenario from a real-world time series dataset, in order to understand AV performance in these scenarios. Adopting this strategy, we propose a formal definition of what constitutes a match between a real-world labeled time series data item and a simulated scenario written from a fragment of the Scenic probabilistic programming language for simulation generation. With this definition of a match, we develop a querying algorithm that identifies the subset of a labeled time series dataset matching a given scenario. To allow this approach to be used to verify the safety of other cyber-physical systems (CPS), we present a definition and algorithm for matching scalable beyond the autonomous vehicles domain. Experiments demonstrate the precision and scalability of the algorithm for a set of challenging and uncommon time series scenarios identified from the nuScenes autonomous driving dataset. We include a full system implementation of the querying algorithm freely available for use across a wide range of CPS.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# 時間変化エクストリームグラフ

Time-varying Extremum Graphs ( http://arxiv.org/abs/2406.17652v1 )

ライセンス: Link先を確認
Somenath Das, Raghavendra Sridharamurthy, Vijay Natarajan, (参考訳) 時間変化スカラー場の可視化と解析を支援するトポロジ構造である時間変化エクストリームグラフ(TVEG)を導入する。 極値グラフはモース・スモール複体の部分構造である。 スカラーフィールドのモース分解における細胞間の隣接関係を捉える。 我々は,TVEGを極端グラフの時間変化拡張として定義し,動的スカラー場内での有能な特徴トラックの捉え方を示した。 本稿では,最適化問題としてTVEGの構成を定式化し,その計算アルゴリズムについて述べる。 また, 粘性指と3D von K\'arm\'an vortex ストリートデータセットを含む包括的ケーススタディにより, 動的スカラーフィールド内での削除, 生成, 分割, マージなどのトポロジ的事象の同定と探索の能力を示す。

We introduce time-varying extremum graph (TVEG), a topological structure to support visualization and analysis of a time-varying scalar field. The extremum graph is a substructure of the Morse-Smale complex. It captures the adjacency relationship between cells in the Morse decomposition of a scalar field. We define the TVEG as a time-varying extension of the extremum graph and demonstrate how it captures salient feature tracks within a dynamic scalar field. We formulate the construction of the TVEG as an optimization problem and describe an algorithm for computing the graph. We also demonstrate the capabilities of \TVEG towards identification and exploration of topological events such as deletion, generation, split, and merge within a dynamic scalar field via comprehensive case studies including a viscous fingers and a 3D von K\'arm\'an vortex street dataset.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# ブロックチェーン支援エビデンス生成による「私のデータの使用停止」の保護

Protecting the 'Stop Using My Data' Right through Blockchain-assisted Evidence Generation ( http://arxiv.org/abs/2406.17694v1 )

ライセンス: Link先を確認
Fan Zhang, Peng Liu, (参考訳) ユーザに対してパーソナライズされたサービスを提供するために、インターネットベースのプラットフォームは、ユーザ生成の行動データを収集し、利用する。 個人が個人データをオンラインプラットフォームで利用できないように要求できる基本データ権利であるべきだが、既存の予防的データ保護措置(暗号データ排除、差分プライバシーなど)は残念ながら適用できない。 この研究は、買収後のデータを正しく違反しないようにするための最初のエビデンス生成フレームワークを開発することを目的としている。 そこで我々は,「忘れられる権利」という多面的概念の曖昧な面を捉えた「私のデータを使った停止」問題を定式化した。 私たちは、最初のブロックチェーン支援システムを設計し、実装しました。 本システムでは,新たに提案されたLemmaにより有効性が保証される新しい2段階のエビデンス生成プロトコルを採用している。 提案手法の有効性を検証するために,実世界の2つのデータセットを用いたシステム評価実験を行い,その成功率を99%以上とした。

In order to provide personalized services to users, Internet-based platforms collect and utilize user-generated behavioral data. Although the 'stop using my data' right should be a fundamental data right, which allows individuals to request their personal data to be no longer utilized by online platforms, the existing preventive data protection measures (e.g., cryptographic data elimination, differential privacy) are unfortunately not applicable. This work aims to develop the first Evidence Generation Framework for deterring post-acquisition data right violations. We formulated the 'stop using my data' problem, which captures a vantage facet of the multi-faceted notion of 'right to be forgotten'. We designed and implemented the first blockchain-assisted system to generate evidence for deterring the violations of the 'stop using my data' right. Our system employs a novel two-stage evidence generation protocol whose efficacy is ensured by a newly proposed Lemma. To validate our framework, we conducted a case study on recommendation systems with systematic evaluation experiments using two real-world datasets: the measured success rate exceeds 99%.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# インディペンデント・メトロポリスはモンテカルロに勝てるのか?

Can independent Metropolis beat crude Monte Carlo? ( http://arxiv.org/abs/2406.17699v1 )

ライセンス: Link先を確認
Siran Liu, Petros Dellaportas, Michalis K. Titsias, (参考訳) 密度$\pi$に関して関数の期待値$F$を推定したいと仮定する。 提案密度が$q$で$\pi$からサンプルを得る独立メトロポリスサンプル推定器である$q$は、制御変数に基づく分散還元計算戦略に富み、粗モンテカルロ推定器のそれよりも小さな漸近分散が得られることを証明した。 制御変数の構成は余分な計算作業を必要としないが、$$$q$以下の期待値が解析的に利用可能であると仮定する。 本研究は, 線形回帰モデルにおいて, 衝突前と非共役前との差分確率を計算し, この結果について述べる。 さらに、ターゲットとのKLの発散が減少するように、提案密度に適応する適応独立メトロポリスアルゴリズムを提案する。 ベイズ的ロジスティックおよびガウス的プロセス回帰問題に適用可能性を示し、容易に検証可能で本質的に最小限の条件下で漸近的議論を厳格に正当化する。

Assume that we would like to estimate the expected value of a function $F$ with respect to a density $\pi$. We prove that if $\pi$ is close enough under KL divergence to another density $q$, an independent Metropolis sampler estimator that obtains samples from $\pi$ with proposal density $q$, enriched with a variance reduction computational strategy based on control variates, achieves smaller asymptotic variance than that of the crude Monte Carlo estimator. The control variates construction requires no extra computational effort but assumes that the expected value of $F$ under $q$ is analytically available. We illustrate this result by calculating the marginal likelihood in a linear regression model with prior-likelihood conflict and a non-conjugate prior. Furthermore, we propose an adaptive independent Metropolis algorithm that adapts the proposal density such that its KL divergence with the target is being reduced. We demonstrate its applicability in a Bayesian logistic and Gaussian process regression problems and we rigorously justify our asymptotic arguments under easily verifiable and essentially minimal conditions.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# Mask-Guided Attention U-Netによる新生児脳の抽出と画像前処理

Mask-Guided Attention U-Net for Enhanced Neonatal Brain Extraction and Image Preprocessing ( http://arxiv.org/abs/2406.17709v1 )

ライセンス: Link先を確認
Bahram Jafrasteh, Simon Pedro Lubian-Lopez, Emiliano Trimarco, Macarena Roman Ruiz, Carmen Rodriguez Barrios, Yolanda Marin Almagro, Isabel Benavente-Fernandez, (参考訳) 本研究では,新しいマスク誘導型注意神経ネットワークであるMGA-Netを紹介する。 MGA-Netは、他の構造から脳を抽出し、高品質な脳画像の再構築を目的としている。 ネットワークは共通のエンコーダと2つのデコーダを使用し、1つは脳マスク抽出用、もう1つは脳領域再構築用である。 MGA-Netの重要な特徴は、高レベルのマスク誘導アテンションモジュールで、脳マスクデコーダの機能を活用して画像再構成を強化する。 同じエンコーダとデコーダがMRIと超音波の両方の画像を処理できるようにするため、MGA-Netは正弦波位置符号化を統合している。 この符号化はMRIとUSの画像に異なる位置値を割り当て、モデルが両方のモダリティから効果的に学習できるようにする。 その結果、単一のモダリティから学習した特徴は、米国のような少ないデータでモダリティを学ぶのに役立つ。 今回提案したMGA-Netを,様々な臨床設定と新生児年齢群から得られた多様なデータセットで広範囲に検証した。 画像分割におけるDICEの類似度係数,リコール,精度,画像再構成における構造的類似度,および3次元超音波画像からの総脳容積推定におけるルート平均2乗誤差について評価した。 以上の結果から,MGA-Netは画像再構成や容積解析において高い精度を達成しつつ,脳の抽出やセグメンテーションにおいて優れた性能を実現し,従来の手法よりも優れていたことが示唆された。 したがって、MGA-NetはMRIと3D超音波画像のための堅牢で効果的な前処理ツールであり、新生児期以降の研究と臨床診断の両方を増強する神経画像の大幅な進歩を示している。

In this study, we introduce MGA-Net, a novel mask-guided attention neural network, which extends the U-net model for precision neonatal brain imaging. MGA-Net is designed to extract the brain from other structures and reconstruct high-quality brain images. The network employs a common encoder and two decoders: one for brain mask extraction and the other for brain region reconstruction. A key feature of MGA-Net is its high-level mask-guided attention module, which leverages features from the brain mask decoder to enhance image reconstruction. To enable the same encoder and decoder to process both MRI and ultrasound (US) images, MGA-Net integrates sinusoidal positional encoding. This encoding assigns distinct positional values to MRI and US images, allowing the model to effectively learn from both modalities. Consequently, features learned from a single modality can aid in learning a modality with less available data, such as US. We extensively validated the proposed MGA-Net on diverse datasets from varied clinical settings and neonatal age groups. The metrics used for assessment included the DICE similarity coefficient, recall, and accuracy for image segmentation; structural similarity for image reconstruction; and root mean squared error for total brain volume estimation from 3D ultrasound images. Our results demonstrate that MGA-Net significantly outperforms traditional methods, offering superior performance in brain extraction and segmentation while achieving high precision in image reconstruction and volumetric analysis. Thus, MGA-Net represents a robust and effective preprocessing tool for MRI and 3D ultrasound images, marking a significant advance in neuroimaging that enhances both research and clinical diagnostics in the neonatal period and beyond.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# 電子商取引検索におけるCTR予測のための軽量エンドツーエンドグラフ関心ネットワーク

Light-weight End-to-End Graph Interest Network for CTR Prediction in E-commerce Search ( http://arxiv.org/abs/2406.17745v1 )

ライセンス: Link先を確認
Pai Peng, Quanxiang Jia, Ziqiang Zhou, Shuang Hong, Zichong Xiao, (参考訳) クリックスルーレート(CTR)予測は,eコマース検索におけるユーザエクスペリエンスと収益の改善に重要な影響を与える。 深層学習の発展に伴い,ユーザ行動やその他の情報から抽出されたグラフ構造を利用して,学習の埋め込みを支援するグラフベースの手法がよく利用される。 しかし、従来のグラフベースの手法のほとんどは主にレコメンデーションシナリオに重点を置いているため、そのグラフ構造は、クエリのシーケンシャル信号やクエリ-イム相関を無視して、ユーザの行動からアイテムのシーケンシャル情報に大きく依存する。 本稿では,ユーザの検索関心を効果的にマイニングし,過去の課題に取り組むために,ライトウェイト・エンド・エンド・エンド・グラフ・インテンシブ・ネットワーク(EGIN)という新しいアプローチを提案する。 (i)EGINは,検索システムからのクエリと項目の相関とシーケンシャル情報を利用して,eコマース検索におけるCTR予測を改善するヘテロジニアスグラフを構築する。 (II)EGINのグラフ埋め込み学習は、同じトレーニング入力を共有し、CTR予測と共同でトレーニングされており、エンドツーエンドのフレームワークが大規模検索システムにデプロイされるのを困難にしている。 提案するEGINは,問合せ項目のヘテロジニアスグラフ,軽量グラフサンプリング,多目的ネットワークという3つの部分から構成される。 提案した軽量グラフサンプリングにより,クエリと項目の相関とシーケンシャル情報を効率的に取得する。 この多目的ネットワークは、グラフ埋め込みを利用して、クエリとアイテム間の様々な類似性関係をキャプチャし、最終的なCTR予測を強化するように設計されている。 提案したEGINの有効性を実証するため,公立および工業用両方のデータセットについて広範な実験を行った。 同時に、グラフ学習のトレーニングコストは、メインのCTR予測タスクと比較して比較的低く、実用的な応用における効率性を確保することができる。

Click-through-rate (CTR) prediction has an essential impact on improving user experience and revenue in e-commerce search. With the development of deep learning, graph-based methods are well exploited to utilize graph structure extracted from user behaviors and other information to help embedding learning. However, most of the previous graph-based methods mainly focus on recommendation scenarios, and therefore their graph structures highly depend on item's sequential information from user behaviors, ignoring query's sequential signal and query-item correlation. In this paper, we propose a new approach named Light-weight End-to-End Graph Interest Network (EGIN) to effectively mine users' search interests and tackle previous challenges. (i) EGIN utilizes query and item's correlation and sequential information from the search system to build a heterogeneous graph for better CTR prediction in e-commerce search. (ii) EGIN's graph embedding learning shares the same training input and is jointly trained with CTR prediction, making the end-to-end framework effortless to deploy in large-scale search systems. The proposed EGIN is composed of three parts: query-item heterogeneous graph, light-weight graph sampling, and multi-interest network. The query-item heterogeneous graph captures correlation and sequential information of query and item efficiently by the proposed light-weight graph sampling. The multi-interest network is well designed to utilize graph embedding to capture various similarity relationships between query and item to enhance the final CTR prediction. We conduct extensive experiments on both public and industrial datasets to demonstrate the effectiveness of the proposed EGIN. At the same time, the training cost of graph learning is relatively low compared with the main CTR prediction task, ensuring efficiency in practical applications.
翻訳日:2024-06-26 13:11:55 公開日:2024-06-25
# AudioBench: オーディオ大言語モデルのためのユニバーサルベンチマーク

AudioBench: A Universal Benchmark for Audio Large Language Models ( http://arxiv.org/abs/2406.16020v2 )

ライセンス: Link先を確認
Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu, Wenyu Zhang, Zhengyuan Liu, AiTi Aw, Nancy F. Chen, (参考訳) 音声大言語モデル(AudioLLMs)を評価するために設計された新しいベンチマークであるAudioBenchを紹介する。 AudioBenchは、音声理解、音声解釈、音声シーン理解に焦点を当て、8つの異なるタスクと26の慎重に選択された、または新しく訓練されたデータセットを含んでいる。 マルチモーダルバージョンを含む大規模言語モデルの急速な進歩にもかかわらず、その能力を徹底的に評価するための包括的なベンチマークには大きなギャップがある。 AudioBenchは、関連するデータセットと評価メトリクスを提供することで、このギャップに対処する。 そこで本研究では,4つのモデルの諸側面における能力評価を行い,各タスクに一貫した1つのモデルが存在しないことを示した。 我々は、AudioLLMsの研究見通しを概説し、私たちのオープンソースコード、データ、およびリーダーボードが将来のモデル開発のための堅牢なテストベッドを提供することを期待しています。

We introduce AudioBench, a new benchmark designed to evaluate audio large language models (AudioLLMs). AudioBench encompasses 8 distinct tasks and 26 carefully selected or newly curated datasets, focusing on speech understanding, voice interpretation, and audio scene understanding. Despite the rapid advancement of large language models, including multimodal versions, a significant gap exists in comprehensive benchmarks for thoroughly evaluating their capabilities. AudioBench addresses this gap by providing relevant datasets and evaluation metrics. In our study, we evaluated the capabilities of four models across various aspects and found that no single model excels consistently across all tasks. We outline the research outlook for AudioLLMs and anticipate that our open-source code, data, and leaderboard will offer a robust testbed for future model developments.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# CEST-KAN:CEST MRIデータ解析のためのコルモゴロフ・アルノルドネットワーク

CEST-KAN: Kolmogorov-Arnold Networks for CEST MRI Data Analysis ( http://arxiv.org/abs/2406.16026v2 )

ライセンス: Link先を確認
Jiawen Wang, Pei Cai, Ziyan Wang, Huabin Zhang, Jianpan Huang, (参考訳) 目的:本研究は,CEST MRIデータ解析(CEST-KAN)におけるKAN(Kolmogorov-Arnold Network)の有用性について検討することを目的としている。 方法: CEST MRIは健常者12名から3Tで取得した。 10人の被験者からのデータが訓練に使われ、残りの2人は試験に使用された。 マルチ層パーセプトロン(MLP)とKANモデルの性能評価を行い,アミド,リレート核オーバーハウザー効果(rNOE),磁化移動(MT)を含む複数のCESTコントラストと水の生成における従来のマルチプールローレンツアンフィッティング(MPLF)法と比較した。 結果:MPLPとKANで生成した水とCESTマップはMPLFと視覚的に比較した。 しかし、KANモデルは、トレーニング中の検証損失が小さく、テスト中の絶対誤差が小さいことから、CEST適合度を外挿する際の精度が高かった。 Voxel-wise correlation analysisにより,kan が生成した4つの CEST 適合度は MLP よりも高いPearson 係数を示し,優れた性能を示した。 さらに、KANモデルはトレーニング時間が長いにもかかわらず、様々な隠蔽層数でMLPモデルより一貫して優れていた。 結論:本研究は,CEST MRIデータ解析におけるkanの有用性を初めて実証し,この課題におけるMLPの優位性を強調した。 以上の結果から,CEST-KANは臨床環境でのCEST MRIの堅牢かつ信頼性の高い分析ツールである可能性が示唆された。

Purpose: This study aims to propose and investigate the feasibility of using Kolmogorov-Arnold Network (KAN) for CEST MRI data analysis (CEST-KAN). Methods: CEST MRI data were acquired from twelve healthy volunteers at 3T. Data from ten subjects were used for training, while the remaining two were reserved for testing. The performance of multi-layer perceptron (MLP) and KAN models with the same network settings were evaluated and compared to the conventional multi-pool Lorentzian fitting (MPLF) method in generating water and multiple CEST contrasts, including amide, relayed nuclear Overhauser effect (rNOE), and magnetization transfer (MT). Results: The water and CEST maps generated by both MLP and KAN were visually comparable to the MPLF results. However, the KAN model demonstrated higher accuracy in extrapolating the CEST fitting metrics, as evidenced by the smaller validation loss during training and smaller absolute error during testing. Voxel-wise correlation analysis showed that all four CEST fitting metrics generated by KAN consistently exhibited higher Pearson coefficients than the MLP results, indicating superior performance. Moreover, the KAN models consistently outperformed the MLP models in varying hidden layer numbers despite longer training time. Conclusion: In this study, we demonstrated for the first time the feasibility of utilizing KAN for CEST MRI data analysis, highlighting its superiority over MLP in this task. The findings suggest that CEST-KAN has the potential to be a robust and reliable post-analysis tool for CEST MRI in clinical settings.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# X線CTPA:2次元X線コンディショニングから3次元CTPAスキャンを生成する

X-ray2CTPA: Generating 3D CTPA scans from 2D X-ray conditioning ( http://arxiv.org/abs/2406.16109v2 )

ライセンス: Link先を確認
Noa Cahan, Eyal Klang, Galit Aviram, Yiftach Barash, Eli Konen, Raja Giryes, Hayit Greenspan, (参考訳) 胸部X線または胸部X線撮影(CXR)は、一般的にCTスキャンと比較して限られた画像撮影が可能であり、特にCTPA(CT lung Angiography)のような造影スキャンにより、より詳細に正確な3次元データを提供する。 しかし、CTスキャンはコストが高く、放射線被曝が大きく、CXRよりもアクセスしにくい。 本研究では,2次元低コントラスト分解能X線入力から3次元高コントラスト・空間分解能CTPAスキャンへのクロスモーダル変換について検討する。 生成AIの最近の進歩により、我々はこのタスクに新しい拡散に基づくアプローチを導入する。 測定値と放射線技師からの定性的フィードバックの両方を用いてモデル性能を評価し, 生成した画像の診断的妥当性を保証した。 さらに, 合成した3D画像を分類フレームワークに採用し, 最初のCXR入力を用いて, PE分類タスクにおいて改良されたAUCを示す。 提案手法は一般化可能であり,医療画像に付加的なモダリティ変換を行うことができる。 よりアクセシブルで費用対効果の高い高度な診断ツールの道を開くかもしれない。 プロジェクトのコードは、https://github.com/NoaCahan/X-ray2CTPA である。

Chest X-rays or chest radiography (CXR), commonly used for medical diagnostics, typically enables limited imaging compared to computed tomography (CT) scans, which offer more detailed and accurate three-dimensional data, particularly contrast-enhanced scans like CT Pulmonary Angiography (CTPA). However, CT scans entail higher costs, greater radiation exposure, and are less accessible than CXRs. In this work we explore cross-modal translation from a 2D low contrast-resolution X-ray input to a 3D high contrast and spatial-resolution CTPA scan. Driven by recent advances in generative AI, we introduce a novel diffusion-based approach to this task. We evaluate the models performance using both quantitative metrics and qualitative feedback from radiologists, ensuring diagnostic relevance of the generated images. Furthermore, we employ the synthesized 3D images in a classification framework and show improved AUC in a PE categorization task, using the initial CXR input. The proposed method is generalizable and capable of performing additional cross-modality translations in medical imaging. It may pave the way for more accessible and cost-effective advanced diagnostic tools. The code for this project is available: https://github.com/NoaCahan/X-ray2CTPA .
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# テキストからテストへ:材料科学機器のためのAI生成制御ソフトウェア

From Text to Test: AI-Generated Control Software for Materials Science Instruments ( http://arxiv.org/abs/2406.16224v2 )

ライセンス: Link先を確認
Davi M Fébba, Kingsley Egbo, William A. Callahan, Andriy Zakutayev, (参考訳) 大規模言語モデル(LLM)は、化学と材料科学の風景を変えつつある。 LLM加速実験の最近の例では、文献から合成レシピを解析する仮想アシスタントや、抽出した知識を用いて合成とキャラクタリゼーションをガイドする。 これらの進歩にもかかわらず、それらの応用は自動化された機器と制御ソフトウェアを持つ研究室に制限されており、多くの材料は手動のプロセスに依存している。 ここでは,ChatGPT-4を用いたKeithley 2400電気源測定ユニットのためのPythonベースの制御モジュールの迅速な展開を実演する。 反復的改善により,人間の介入を最小限に抑え,効果的な楽器管理を実現した。 さらに、ユーザフレンドリーなグラフィカルユーザインタフェース(GUI)が作成され、すべての機器制御をインタラクティブなスクリーン要素に効果的にリンクする。 最後に,このAIを用いた機器制御ソフトウェアを高性能確率最適化アルゴリズムに統合し,電流電圧(IV)測定データから半導体電荷輸送機構に関連する電子機器パラメータの迅速かつ自動抽出を容易にする。 この統合により、IV曲線測定を用いた半導体デバイスの特性評価と解析のための包括的なオープンソースツールキットが実現された。 Pt/Cr$_2$O$_3$:Mg/$\beta$-Ga$_2$O$_3$ヘテロ接合ダイオードからIVデータを取得し,解析し,パラメータ化することにより,これらのツールの応用を実証する。 このアプローチは、LLMと科学調査のための機器の開発の間の強力な相乗効果を浮き彫りにし、材料科学のさらなる加速の道を示すものである。

Large language models (LLMs) are transforming the landscape of chemistry and materials science. Recent examples of LLM-accelerated experimental research include virtual assistants for parsing synthesis recipes from the literature, or using the extracted knowledge to guide synthesis and characterization. Despite these advancements, their application is constrained to labs with automated instruments and control software, leaving much of materials science reliant on manual processes. Here, we demonstrate the rapid deployment of a Python-based control module for a Keithley 2400 electrical source measure unit using ChatGPT-4. Through iterative refinement, we achieved effective instrument management with minimal human intervention. Additionally, a user-friendly graphical user interface (GUI) was created, effectively linking all instrument controls to interactive screen elements. Finally, we integrated this AI-crafted instrument control software with a high-performance stochastic optimization algorithm to facilitate rapid and automated extraction of electronic device parameters related to semiconductor charge transport mechanisms from current-voltage (IV) measurement data. This integration resulted in a comprehensive open-source toolkit for semiconductor device characterization and analysis using IV curve measurements. We demonstrate the application of these tools by acquiring, analyzing, and parameterizing IV data from a Pt/Cr$_2$O$_3$:Mg/$\beta$-Ga$_2$O$_3$ heterojunction diode, a novel stack for high-power and high-temperature electronic devices. This approach underscores the powerful synergy between LLMs and the development of instruments for scientific inquiry, showcasing a path for further acceleration in materials science.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# パーソナライズされたヘルスインサイトのためのグラフ強化LDM:睡眠分析の事例研究

Graph-Augmented LLMs for Personalized Health Insights: A Case Study in Sleep Analysis ( http://arxiv.org/abs/2406.16252v2 )

ライセンス: Link先を確認
Ajan Subramanian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani, (参考訳) 健康モニタリングシステムは、予防措置や早期健康介入に不可欠な生理的・行動的データを継続的に収集することで、現代医療に革命をもたらした。 このデータをLLM(Large Language Models)と統合することは、インタラクティブなヘルスアドバイスを提供する上で有望であることを示しているが、Retrieval-Augmented Generation(RAG)やファインチューニングといった従来の手法では、ウェアラブルデバイスからの複雑で多次元で時間的に関連するデータを十分に活用できないことが多い。 これらの従来のアプローチは、多様な健康データストリームを動的に統合し解釈する能力が不十分なため、限られた行動可能でパーソナライズされた健康上の洞察を提供するのが一般的である。 そこで本研究では,健康意識のパーソナライズと明確さを著しく向上するグラフ拡張LDMフレームワークを提案する。 階層的なグラフ構造を用いることで、このフレームワークは患者間の関係を捕捉し、ランダムフォレストモデルから得られる動的な特徴重要度スコアをLLMプロンプトに富ませる。 このアプローチの有効性は、新型コロナウイルスロックダウン中の20人の大学生を対象にした睡眠分析ケーススタディを通じて実証され、効果的かつパーソナライズされた健康情報を生成するためのモデルの可能性を強調した。 関連性、包括性、行動可能性、パーソナライズに関する洞察を評価するために、我々は、複雑な健康データを効果的に処理し解釈するモデルに対する重要なニーズに対処するために、別のLCMを活用します。 以上の結果から,フレームワークの強化による4つの基準の大幅な改善が示唆された。 フレームワークを通じて、特定の患者に合わせて、より巧みに作り上げられた、より思慮深い反応を導き出すことができます。

Health monitoring systems have revolutionized modern healthcare by enabling the continuous capture of physiological and behavioral data, essential for preventive measures and early health intervention. While integrating this data with Large Language Models (LLMs) has shown promise in delivering interactive health advice, traditional methods like Retrieval-Augmented Generation (RAG) and fine-tuning often fail to fully utilize the complex, multi-dimensional, and temporally relevant data from wearable devices. These conventional approaches typically provide limited actionable and personalized health insights due to their inadequate capacity to dynamically integrate and interpret diverse health data streams. In response, this paper introduces a graph-augmented LLM framework designed to significantly enhance the personalization and clarity of health insights. Utilizing a hierarchical graph structure, the framework captures inter and intra-patient relationships, enriching LLM prompts with dynamic feature importance scores derived from a Random Forest Model. The effectiveness of this approach is demonstrated through a sleep analysis case study involving 20 college students during the COVID-19 lockdown, highlighting the potential of our model to generate actionable and personalized health insights efficiently. We leverage another LLM to evaluate the insights for relevance, comprehensiveness, actionability, and personalization, addressing the critical need for models that process and interpret complex health data effectively. Our findings show that augmenting prompts with our framework yields significant improvements in all 4 criteria. Through our framework, we can elicit well-crafted, more thoughtful responses tailored to a specific patient.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# MIRReS: 貯留層サンプリングを用いたマルチバウンス逆レンダリング

MIRReS: Multi-bounce Inverse Rendering using Reservoir Sampling ( http://arxiv.org/abs/2406.16360v2 )

ライセンス: Link先を確認
Yuxin Dai, Qi Wang, Jingsen Zhu, Dianbing Xi, Yuchi Huo, Chen Qian, Ying He, (参考訳) MIRReSは、2段階の逆レンダリングフレームワークであり、多視点画像から明示的な幾何学、材料、照明を共同で再構築し、最適化する。 暗黙的な照度場や簡易な経路追跡アルゴリズムに依存する従来の手法とは異なり,本手法はステージ1で明示的な幾何(三角形メッシュ)を抽出し,マルチバウンスパストレースとモンテカルロ積分を利用したより現実的な逆レンダリングモデルを導入する。 マルチバウンス・パス・トレースを利用して, 自己整形や内部反射を含む間接照明を効果的に推定し, 形状, 材料, 照明の内在的な分解を改善する。 さらに,モンテカルロ積分のノイズに対処するため,貯留層サンプリングを我々のフレームワークに組み込み,収束性を高め,低いサンプル数で勾配に基づく最適化を容易にする。 複雑な影を持つ難解なシナリオの質的,定量的な評価を通じて,本手法が解析結果の最先端性を実現することを実証する。 さらに、最適化された明示的幾何により、シーン編集、リライティング、モダングラフィックスエンジンやCADソフトウェアによるマテリアル編集などの応用が可能になる。 ソースコードはhttps://brabbitdousha.github.io/MIRReS/で入手できる。

We present MIRReS, a novel two-stage inverse rendering framework that jointly reconstructs and optimizes the explicit geometry, material, and lighting from multi-view images. Unlike previous methods that rely on implicit irradiance fields or simplified path tracing algorithms, our method extracts an explicit geometry (triangular mesh) in stage one, and introduces a more realistic physically-based inverse rendering model that utilizes multi-bounce path tracing and Monte Carlo integration. By leveraging multi-bounce path tracing, our method effectively estimates indirect illumination, including self-shadowing and internal reflections, which improves the intrinsic decomposition of shape, material, and lighting. Moreover, we incorporate reservoir sampling into our framework to address the noise in Monte Carlo integration, enhancing convergence and facilitating gradient-based optimization with low sample counts. Through qualitative and quantitative evaluation of several scenarios, especially in challenging scenarios with complex shadows, we demonstrate that our method achieves state-of-the-art performance on decomposition results. Additionally, our optimized explicit geometry enables applications such as scene editing, relighting, and material editing with modern graphics engines or CAD software. The source code is available at https://brabbitdousha.github.io/MIRReS/
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# 連続的に変化する環境における物体検出のためのテスト時間適応の探索

Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments ( http://arxiv.org/abs/2406.16439v2 )

ライセンス: Link先を確認
Shilei Cao, Yan Liu, Juepeng Zheng, Weijia Li, Runmin Dong, Haohuan Fu, (参考訳) 現実世界のアプリケーションでは、ニューラルネットワークモデルは、ターゲットドメインの分布が時間的変化を受ける動的環境に一般的にデプロイされる。 最近CTTA(Continuous Test-Time Adaptation)が、継続的に変化するターゲットドメインから引き出されたデータに対して、ソース学習されたモデルを徐々に適応させる、有望なテクニックとして登場した。 近年のCTTA対応の進歩にもかかわらず,2つの重要な課題が残っている。 1)既存手法における疑似ラベルの固定しきい値の使用は,モデル信頼性がカテゴリやドメインによって異なるため,低品質な擬似ラベルの生成につながる。 2) 現状の解法では, 確率的パラメータ復元を用いて破滅的忘れを軽減しているが, 臨界情報の保存能力は本質的なランダム性によって損なわれている。 これらの課題に対処するため,CTTAシナリオにおける検出モデルの性能向上を目的としたCTAODを提案する。 CTAODは従来のCTTAの成果に触発されて,3つのコアコンポーネントを特徴とする平均教師フレームワーク上に構築されている。 まず、対象検出に適したオブジェクトレベルのコントラスト学習モジュールは、教師の関心領域を用いてオブジェクトレベルの特徴を抽出し、コントラスト学習を通じて最適化する。 第二に、動的しきい値戦略は、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新し、擬似ラベルの品質を向上させる。 最後に、ランダムマスク行列の重みとして勾配を用いて不活性パラメータを選択的にリセットし、本質的な知識の保持を確保するためのデータ駆動確率的復元機構を設計する。 CTAODは既存の手法よりも優れており,特にCityscapes-to-Cityscapes-C CTTAタスクの3.0mAP改善を実現している。

For real-world applications, neural network models are commonly deployed in dynamic environments, where the distribution of the target domain undergoes temporal changes. Continual Test-Time Adaptation (CTTA) has recently emerged as a promising technique to gradually adapt a source-trained model to test data drawn from a continually changing target domain. Despite recent advancements in addressing CTTA, two critical issues remain: 1) The use of a fixed threshold for pseudo-labeling in existing methodologies leads to the generation of low-quality pseudo-labels, as model confidence varies across categories and domains; 2) While current solutions utilize stochastic parameter restoration to mitigate catastrophic forgetting, their capacity to preserve critical information is undermined by its intrinsic randomness. To tackle these challenges, we present CTAOD, aiming to enhance the performance of detection models in CTTA scenarios. Inspired by prior CTTA works for effective adaptation, CTAOD is founded on the mean-teacher framework, characterized by three core components. Firstly, the object-level contrastive learning module tailored for object detection extracts object-level features using the teacher's region of interest features and optimizes them through contrastive learning. Secondly, the dynamic threshold strategy updates the category-specific threshold based on predicted confidence scores to improve the quality of pseudo-labels. Lastly, we design a data-driven stochastic restoration mechanism to selectively reset inactive parameters using the gradients as weights for a random mask matrix, thereby ensuring the retention of essential knowledge. We demonstrate the effectiveness of our approach on four CTTA tasks for object detection, where CTAOD outperforms existing methods, especially achieving a 3.0 mAP improvement on the Cityscapes-to-Cityscapes-C CTTA task.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# OTCE:ハイブリッドSSMとエキスパートのクロスドメイン混合によるオブザーバ・シンカー・コンシーバー・エクスプレッサーの構築

OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser ( http://arxiv.org/abs/2406.16495v2 )

ライセンス: Link先を確認
Jingze Shi, Ting Xie, Bingheng Wu, Chunjun Zheng, Kai Wang, (参考訳) 近年の研究では、言語モデリングタスクにおいて、MambaとTransformerアーキテクチャを組み合わせることで、MambaやTransformerアーキテクチャを単独で優れた性能を発揮することが示されている。 二次自己アテンション機構は、シーケンス内の任意の要素の長期的な依存関係を扱う際の選択状態空間の欠点を効果的に緩和する。 本稿では、選択状態空間モデルと二次的注意を結びつける位置情報注入法を提案し、これら2つのアーキテクチャをクロスシェアドメインを持つハイブリッド専門家と統合し、両者の利点を享受する。 我々は、よりバイオミメティックなアイデアを持つ新しいアーキテクチャを設計する: Observer-Thinker-Conceiver-Expresser (OTCE)。

Recent research has shown that combining Mamba with Transformer architecture, which has selective state space and quadratic self-attention mechanism, outperforms using Mamba or Transformer architecture alone in language modeling tasks. The quadratic self-attention mechanism effectively alleviates the shortcomings of selective state space in handling long-term dependencies of any element in the sequence. We propose a position information injection method that connects the selective state space model with the quadratic attention, and integrates these two architectures with hybrid experts with cross-sharing domains, so that we can enjoy the advantages of both. We design a new architecture with a more biomimetic idea: Observer-Thinker-Conceiver-Expresser (OTCE), which can compete with well-known medium-scale open-source language models on a small scale in language modeling tasks.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# 適応バランス探索に基づくデュアルチャネル粒子群最適化アルゴリズム

A Dual-Channel Particle Swarm Optimization Algorithm Based on Adaptive Balance Search ( http://arxiv.org/abs/2406.16500v2 )

ライセンス: Link先を確認
Zhenxing Zhang, Tianxian Zhang, Xiangliang Xu, Lingjiang Kong, Yi Han, Zicheng Wang, (参考訳) 探索(Er)と搾取(Ei)のバランスは、異なる問題に対する粒子群最適化(PSO)アルゴリズムの一般化性能を決定する。 地域最低限付近のグローバルベストによるバランス不足は広く研究されているが、PSOに存在する個人ベストポジション(P)とグローバルベストポジション(G)に関する2つの行動に体系的に注意を払っている学者は少ない。 1) P's uncontrollable-exploitation and involuntary-exploration guidance behavior。 2) Gのフルタイムおよびグローバルガイダンス行動はErとEiのバランスに悪影響を及ぼす。 これに関して、まずバランスに影響を与えるメカニズムを明らかにし、Er と Ei のバランスを改善するための3つの重要なポイントを指摘し、P と G の結合を排除し、P を制御可能な探索および自発的探索誘導行動で強化し、G のフルタイムおよびグローバルガイダンス行動を制御する。 次に、適応バランス探索(DCPSO-ABS)に基づく二重チャネルPSOアルゴリズムを提案する。 このアルゴリズムは、PとGの相互作用を緩和し、PとGの動作を制御し、一方、Pを自発的探索および制御可能な探索誘導行動で強化する適応バランス探索戦略と、Gのフルタイムおよびグローバルガイダンス動作を適応的に制御する。 最後に,57のベンチマーク関数に対する3種類の実験を行い,提案アルゴリズムが選択した最先端アルゴリズムよりも高い一般化性能を有することを示す。

The balance between exploration (Er) and exploitation (Ei) determines the generalization performance of the particle swarm optimization (PSO) algorithm on different problems. Although the insufficient balance caused by global best being located near a local minimum has been widely researched, few scholars have systematically paid attention to two behaviors about personal best position (P) and global best position (G) existing in PSO. 1) P's uncontrollable-exploitation and involuntary-exploration guidance behavior. 2) G's full-time and global guidance behavior, each of which negatively affects the balance of Er and Ei. With regards to this, we firstly discuss the two behaviors, unveiling the mechanisms by which they affect the balance, and further pinpoint three key points for better balancing Er and Ei: eliminating the coupling between P and G, empowering P with controllable-exploitation and voluntary-exploration guidance behavior, controlling G's full-time and global guidance behavior. Then, we present a dual-channel PSO algorithm based on adaptive balance search (DCPSO-ABS). This algorithm entails a dual-channel framework to mitigate the interaction of P and G, aiding in regulating the behaviors of P and G, and meanwhile an adaptive balance search strategy for empowering P with voluntary-exploration and controllable-exploitation guidance behavior as well as adaptively controlling G's full-time and global guidance behavior. Finally, three kinds of experiments on 57 benchmark functions are designed to demonstrate that our proposed algorithm has stronger generalization performance than selected state-of-the-art algorithms.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# OmAgent:タスク分割型複雑なビデオ理解のためのマルチモーダルエージェントフレームワーク

OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer ( http://arxiv.org/abs/2406.16620v2 )

ライセンス: Link先を確認
Lu Zhang, Tiancheng Zhao, Heting Ying, Yibo Ma, Kyusong Lee, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、包括的なビデオ理解を含むマルチモーダルなコンテキストにその能力を拡張している。 しかし,24時間CCTV映像やフル長フィルムなどの広帯域ビデオの処理は,膨大なデータと処理要求のために大きな課題を生んでいる。 キーフレームを抽出したり、フレームをテキストに変換するといった従来の手法は、しばしばかなりの情報損失をもたらす。 これらの欠点に対処するため、我々はOmAgentを開発し、ビデオの詳細な内容を保存し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。 さらにDivide-and-Conquer Loopは、自律的な推論、動的呼び出しAPIとクエリ処理と精度を高めるツールを備えている。 このアプローチにより、堅牢なビデオ理解が保証され、情報損失が大幅に減少する。 実験の結果、OmAgentが様々な種類のビデオや複雑なタスクを処理できることが確認された。 さらに、より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。

Recent advancements in Large Language Models (LLMs) have expanded their capabilities to multimodal contexts, including comprehensive video understanding. However, processing extensive videos such as 24-hour CCTV footage or full-length films presents significant challenges due to the vast data and processing demands. Traditional methods, like extracting key frames or converting frames to text, often result in substantial information loss. To address these shortcomings, we develop OmAgent, efficiently stores and retrieves relevant video frames for specific queries, preserving the detailed content of videos. Additionally, it features an Divide-and-Conquer Loop capable of autonomous reasoning, dynamically invoking APIs and tools to enhance query processing and accuracy. This approach ensures robust video understanding, significantly reducing information loss. Experimental results affirm OmAgent's efficacy in handling various types of videos and complex tasks. Moreover, we have endowed it with greater autonomy and a robust tool-calling system, enabling it to accomplish even more intricate tasks.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# ベイズ反転におけるサンプリング戦略--RTO法とLangevin法の検討

Sampling Strategies in Bayesian Inversion: A Study of RTO and Langevin Methods ( http://arxiv.org/abs/2406.16658v2 )

ライセンス: Link先を確認
Remi Laumont, Yiqiu Dong, Martin Skovgaard Andersen, (参考訳) 本稿では, 感度解析のルーツであるRandomize-Then-Optimize(RTO)とベイズフレームワークのルーツであるLangevin(Langevin)の2種類の逆問題の解法について検討する。 方法の2つのクラスは異なる仮定に対応し、異なる対象分布からサンプルを得る。 本稿では,2つのアプローチの主な概念的,理論的相違点を強調し,画像における2つの古典的逆問題(デブロアリングとインペインティング)に対処することにより,現実的な視点から比較する。 サンプリング手法の選択が再現の質に大きな影響を与え,RTO法がパラメータの選択に対してより堅牢であることを示す。

This paper studies two classes of sampling methods for the solution of inverse problems, namely Randomize-Then-Optimize (RTO), which is rooted in sensitivity analysis, and Langevin methods, which are rooted in the Bayesian framework. The two classes of methods correspond to different assumptions and yield samples from different target distributions. We highlight the main conceptual and theoretical differences between the two approaches and compare them from a practical point of view by tackling two classical inverse problems in imaging: deblurring and inpainting. We show that the choice of the sampling method has a significant impact on the quality of the reconstruction and that the RTO method is more robust to the choice of the parameters.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# 量子ノイズと$Δ_T$ノイズによるYu-Shiba-Rusinov状態の探索

Probing Yu-Shiba-Rusinov state via quantum noise and $Δ_T$ noise ( http://arxiv.org/abs/2406.16717v2 )

ライセンス: Link先を確認
Tusaradri Mohapatra, Sachiraj Mishra, Colin Benjamin, (参考訳) 最近の注目は、電荷電流が消えるときに$\Delta_T$のノイズが発生する温度勾配である。 この研究は、スピン偏極$\Delta T$ノイズと$\Delta_T$ショットノイズ、$\Delta_T$ホットノイズ、および金属/スピンフリップ/金属/絶縁体/超伝導接合体からなる1次元(1次元)構造における量子ノイズ(ショットノイズと熱ノイズの両方)を併用して、YSR(Yu-Shiba-Rusinov)境界状態を探索する。 超伝導体の超伝導ギャップ内の局在状態であるYSR結合状態はスピンフリップとして働く磁気不純物によって誘導される。 YSR境界状態はマヨラナ境界状態(MBS)と区別されるべきであり、これは超伝導体上の磁気的不純物、例えば磁性原子との相互作用によっても起こりうる。 この作業の主な目的は、YSRバウンドステートにユニークなシグネチャを提供することによって、これを明確化することである。 本稿では、量子ノイズと最近発見された$\Delta_T$ノイズを用いて、特にスピン輸送に焦点を当てたYSR境界状態を効果的に探索できることを示す。 スピン$\Delta_T$ノイズは、YSR境界状態のプローブとしての$\Delta_T$ノイズよりも優れたツールである。 さらに、量子ノイズの解析により、$\Delta_T$ノイズと同様、スピン量子ノイズはYSR境界状態を検出する際の電荷量子ノイズよりも効果的であることが明らかとなった。

Recent attention has been drawn to temperature gradient generated $\Delta_T$ noise at vanishing charge current. This study delves into examining the properties of spin-polarised $\Delta T$ noise in conjunction with $\Delta_T$-shot noise, $\Delta_T$-thermal noise, and quantum noise (again both shot and thermal noise) in a one-dimensional (1D) structure comprising metal/spin-flipper/metal/insulator/superconductor junction to probe Yu-Shiba-Rusinov (YSR) bound states. YSR bound states, which are localized states within the superconducting gap of a superconductor are induced by a magnetic impurity acting as a spin-flipper. A YSR bound state should be distinguished from a Majorana bound state (MBS), which too can occur due to interaction with magnetic impurities, e.g., magnetic adatoms on superconductors, and this can lead to false positives in detecting MBS. Clarifying this by providing a unique signature for the YSR-bound state is the main aim of this work. In this paper, we show that YSR bound states can be effectively probed using quantum noise and the recently discovered $\Delta_T$ noise, with a focus on especially spin transport. We see that the spin $\Delta_T$ noise is a superior tool compared to the charge $\Delta_T$ noise as a probe for YSR bound states. Additionally, our analysis of quantum noise reveals that similar to $\Delta_T$ noise, spin quantum noise is more effective than charge quantum noise in detecting YSR bound states.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# アラビア方言のゼロショットテキスト音声化に向けて

Towards Zero-Shot Text-To-Speech for Arabic Dialects ( http://arxiv.org/abs/2406.16751v2 )

ライセンス: Link先を確認
Khai Duy Doan, Abdul Waheed, Muhammad Abdul-Mageed, (参考訳) ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。 このギャップに対処するアラビア語は、4億5000万人以上の母語話者の言語で、まず、音声合成のニーズに合う大きさの既存のデータセットを適用します。 さらに、アラビア語の方言識別モデルを用いて、事前定義された方言ラベルが多方言環境でのZS-TTSモデルの改善に与える影響を探索する。 XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} は、オープンソースのアーキテクチャである。 次に、31人の未確認話者と、社内の方言データセットからなるデータセット上で、我々のモデルを評価した。 自動評価と人的評価の結果は、方言音声を生成でき、説得力のある性能を示す。 我々の研究は、アラビア語におけるこの新たな研究領域の改善の可能性を強調している。

Zero-shot multi-speaker text-to-speech (ZS-TTS) systems have advanced for English, however, it still lags behind due to insufficient resources. We address this gap for Arabic, a language of more than 450 million native speakers, by first adapting a sizeable existing dataset to suit the needs of speech synthesis. Additionally, we employ a set of Arabic dialect identification models to explore the impact of pre-defined dialect labels on improving the ZS-TTS model in a multi-dialect setting. Subsequently, we fine-tune the XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af7391 4db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} model, an open-source architecture. We then evaluate our models on a dataset comprising 31 unseen speakers and an in-house dialectal dataset. Our automated and human evaluation results show convincing performance while capable of generating dialectal speech. Our study highlights significant potential for improvements in this emerging area of research in Arabic.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# Adam-mini: より少ない学習率でより多くのものを得る

Adam-mini: Use Fewer Learning Rates To Gain More ( http://arxiv.org/abs/2406.16793v2 )

ライセンス: Link先を確認
Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun, (参考訳) 我々は、メモリフットプリントを45%から50%削減したAdamWよりも、オンパーまたは優れたパフォーマンスを実現する最適化器Adam-miniを提案する。 Adam-miniは、1/\sqrt{v}$で各パラメータに個別の学習率を割り当てる代わりに、事前に定義されたパラメータブロック内の平均$v$をそのブロックの学習率として使用します。 このようなデザインは、2つの経験的な発見にインスパイアされている。 まず、変圧器のヘシアンは、密度の高いサブブロックの大きさの異なるほぼブロックの対角構造を示す。 第二に、これら高密度のサブブロックそれぞれに対して、Adamより優れた1つの高品質の学習速度が存在し、検索に十分なリソースが確保できる。 Adam-miniは、これらの優れた学習率を見つけ出し、Adamで90%$v$の$\geqをカットするコスト効率のよい方法を提供している。 実験により,Adam-mini が 125M から 7B までの大きさの様々な言語モデルにおいて,事前学習,教師付き微調整,RLHF に対して,Adam-mini がAdamW よりも同等以上の性能を示すことを確認した。 Adam-miniのメモリフットプリントの削減により、GPUとCPU間の通信オーバーヘッドが軽減され、スループットが向上する。 例えば、Adam-miniは2x A800-80GBのGPU上でのLlama2-7Bの事前トレーニングでAdamWよりも49.6%高いスループットを達成した。

We propose Adam-mini, an optimizer that achieves on-par or better performance than AdamW with 45% to 50% less memory footprint. Adam-mini reduces memory by cutting down the number of learning rates in Adam: Instead of assigning an individual learning rate for each parameter using $1/\sqrt{v}$, Adam-mini uses the average of $v$ within a pre-defined parameter block as the learning rate for that block. Such a design is inspired by two empirical findings. First, the Hessian of Transformers exhibits a near-block diagonal structure with different sizes of dense sub-blocks. Second, for each of these dense sub-blocks, there exists a single high-quality learning rate that can outperform Adam, provided that sufficient resources are available to search it out. Adam-mini provides one cost-effective way to find these good learning rates and manage to cut down $\geq$ 90% $v$ in Adam. Empirically, we verify that Adam-mini performs on par or better than AdamW on various language models sized from 125M to 7B for pre-training, supervised fine-tuning, and RLHF. The reduced memory footprint of Adam-mini also alleviates communication overheads among GPUs and CPUs, thereby increasing throughput. For instance, Adam-mini achieves 49.6% higher throughput than AdamW when pre-training Llama2-7B on 2x A800-80GB GPUs, which saves 33% wall-clock time for pre-training.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25
# Lottery Ticket Adaptation: LLMにおける破壊的干渉の軽減

Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs ( http://arxiv.org/abs/2406.16797v2 )

ライセンス: Link先を確認
Ashwinee Panda, Berivan Isik, Xiangyu Qi, Sanmi Koyejo, Tsachy Weissman, Prateek Mittal, (参考訳) 大規模言語モデル(LLM)を新しいタスクに適用するための既存の方法は、すべてのモデルの重みを変更するため、マルチタスク適応には適していない。 初期のタスクの破滅的な忘れなど、結果として生じる影響は、複数のタスクで優れたパフォーマンスを得るのを同時に困難にしている。 これを軽減するために,モデルのスパースサブネットワークのみを特定し最適化するスパース適応法であるLottery Ticket Adaptation (LoTA)を提案する。 我々はLoTAを命令追従、推論、数学、要約といった幅広い課題に対して評価する。 LoTAは完全な微調整と低ランク適応(LoRA)よりも優れたパフォーマンスを実現し、他のタスクをトレーニングしても優れたパフォーマンスを維持する。 宝くじ(またはスパースタスクベクトル)を抽出して微調整することにより、LoTAは、非常に異なるタスクをモデルマージすることを可能にする。 私たちのコードはhttps://github.com/kiddyboots216/lottery-tket-adaptationで公開されています。

Existing methods for adapting large language models (LLMs) to new tasks are not suited to multi-task adaptation because they modify all the model weights -- causing destructive interference between tasks. The resulting effects, such as catastrophic forgetting of earlier tasks, make it challenging to obtain good performance on multiple tasks at the same time. To mitigate this, we propose Lottery Ticket Adaptation (LoTA), a sparse adaptation method that identifies and optimizes only a sparse subnetwork of the model. We evaluate LoTA on a wide range of challenging tasks such as instruction following, reasoning, math, and summarization. LoTA obtains better performance than full fine-tuning and low-rank adaptation (LoRA), and maintains good performance even after training on other tasks -- thus, avoiding catastrophic forgetting. By extracting and fine-tuning over lottery tickets (or sparse task vectors), LoTA also enables model merging over highly dissimilar tasks. Our code is made publicly available at https://github.com/kiddyboots216/lottery-ticket-adaptation.
翻訳日:2024-06-26 13:02:11 公開日:2024-06-25