このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240618となっている論文です。

PDF登録状況(公開日: 20240618)

TitleAuthorsAbstract論文公表日・翻訳日
# 無料プレイ:UN Trade and DevelopmentのオープンソースRetrieval Augmented Generation Large Language Modelアプリケーション開発経験

Free to play: UN Trade and Development's experience with developing its own open-source Retrieval Augmented Generation Large Language Model application ( http://arxiv.org/abs/2407.16896v1 )

ライセンス: Link先を確認
Daniel Hopp, (参考訳) 生成人工知能(AI)、特にLarge Language Models(LLM)は、2022年11月にChatGPTのGenerative Pre-trained Transformer(GPT)-3.5モデルが一般公開されて以来、人気と注目を集めている。 これらの汎用モデルの力と自然言語によるコミュニケーション能力により、公式統計学や国際機関の業績など、さまざまな分野において有用である。 しかし、このような斬新で一見複雑な技術では、生成的AIは組織に起こることであり、話はできるが理解できないことであり、コメントはできるが貢献しないと感じることができる。 さらに、プロプライエタリなソリューションの採用と運用のコストは、不確実かつ高いものである可能性がある。 これらの課題に直面して、国連貿易開発(UNCTAD)は、GCRG(Global Crisis Response Group)を通じて、独自のオープンソースのRetrieval Augmented Generation (RAG) LLMアプリケーションを探索、開発してきた。 RAG は LLM に対して,組織のドメインや作業に対して,より意識的かつ有用なものを提供します。 社内ソリューションの開発には,コストや柔軟性,機関的知識の育成など,メリットと欠点が伴う。 結論には、時間とスキル投資、ギャップ、アプリケーション研磨とパワーが含まれる。 アプリを生成するために開発された3つのライブラリ、ドキュメント処理と統計解析用のnlp_pipeline、ローカルなRAG LLMを実行する local_rag_llm、ユーザインターフェース用の streamlit_rag は、DockerfilesでPyPIとGitHubで公開されている。 第4のライブラリである local_llm_finetune も既存の LLM を微調整して,アプリケーションで使用することができる。

Generative artificial intelligence (AI), and in particular Large Language Models (LLMs), have exploded in popularity and attention since the release to the public of ChatGPT's Generative Pre-trained Transformer (GPT)-3.5 model in November of 2022. Due to the power of these general purpose models and their ability to communicate in natural language, they can be useful in a range of domains, including the work of official statistics and international organizations. However, with such a novel and seemingly complex technology, it can feel as if generative AI is something that happens to an organization, something that can be talked about but not understood, that can be commented on but not contributed to. Additionally, the costs of adoption and operation of proprietary solutions can be both uncertain and high, a barrier for often cost-constrained international organizations. In the face of these challenges, United Nations Trade and Development (UNCTAD), through its Global Crisis Response Group (GCRG), has explored and developed its own open-source Retrieval Augmented Generation (RAG) LLM application. RAG makes LLMs aware of and more useful for the organization's domain and work. Developing in-house solutions comes with pros and cons, with pros including cost, flexibility, and fostering institutional knowledge. Cons include time and skill investments and gaps and application polish and power. The three libraries developed to produce the app, nlp_pipeline for document processing and statistical analysis, local_rag_llm for running a local RAG LLM, and streamlit_rag for the user interface, are publicly available on PyPI and GitHub with Dockerfiles. A fourth library, local_llm_finetune, is also available for fine-tuning existing LLMs which can then be used in the application.
翻訳日:2024-08-05 01:45:45 公開日:2024-06-18
# Nash CoT: 優先平衡を用いたマルチパス推論

Nash CoT: Multi-Path Inference with Preference Equilibrium ( http://arxiv.org/abs/2407.07099v1 )

ライセンス: Link先を確認
Ziqi Zhang, Cunxiang Wang, Xiong Xiao, Yue Zhang, Donglin Wang, (参考訳) CoT(Chain-of- Thought)プロンプトは、複雑な問題に対するLLM(Large Language Models)の推論能力を高める強力なテクニックとして登場した。 CoT関連の研究の中で、自己整合性(投票による回答フィルタリングを伴うマルチパス推論)は、CoTフレームワークを使用して複数の推論パスを生成し、簡潔で競争的なアプローチとして、最も頻繁に生成されるアウトプットを選択する。 自己整合性はLLM推論の改善につながるが、マルチパス推論の使用はデプロイメントコストを増大させる。 したがって、マルチパス推論から受け継いだ自己整合性の性能上の利点を維持しつつ、推論コストを削減できることは大きな意味を持つ。 本研究では,言語デコーディングを優先コンセンサスゲームとして概念化し,各経路内にバイプレイヤゲームシステムを構築し,ナッシュチェーン・オブ・ソート(ナッシュCoT)を紹介した。 具体的には, LLM を利用して文脈関連テンプレートを自律的に選択し, このテンプレートで導かれる出力を生成する。 このアプローチでは,アラビア推論,コモンセンス質問応答,シンボリック推論など,さまざまな推論タスクにおいて,推論パスを少なくしながら,自己整合性と比較して同等あるいは改善されたパフォーマンスを実現することができる。

Chain-of-thought (CoT) prompting has emerged as a powerful technique for enhancing the reasoning capabilities of Large Language Models (LLMs) on complex problems. Among CoT-related studies, self-consistency (Multi-path inference with answer filtering through voting) involves generating multiple reasoning paths using the CoT framework and then selecting the most frequently produced outputs standing out as a concise yet competitive approach. While self-consistency has indeed led to the improvements in LLM inference, the use of multi-path inference also escalates deployment costs. Therefore, maintaining the performance benefits of self-consistency inherited from multi-path inference while reducing the inference costs holds significant value. In this research, we conceptualize language decoding as a preference consensus game, constructing a bi-player gaming system within each local path, and introduce Nash Chain-of-Thought (Nash CoT). Specifically, for a given question, we leverage LLM to autonomously select the contextually relevant template and generate outputs guided by this template, aiming to reach Nash Equilibrium alongside normal generation in each path. This approach allows us to achieve comparable or improved performance compared to self-consistency while using fewer inference paths on various inference tasks, including Arabic reasoning, Commonsense Question answering, and Symbolic inference.
翻訳日:2024-07-22 13:58:01 公開日:2024-06-18
# モデルに基づくシステム工学を通したアライジングモデルの実現

Aligning Models with Their Realization through Model-based Systems Engineering ( http://arxiv.org/abs/2407.09513v1 )

ライセンス: Link先を確認
Lovis Justin Immanuel Zenz, Erik Heiland, Peter Hillmann, Andreas Karcher, (参考訳) 本稿では,モデルベースシステム工学の適用を通じて,モデルとそれらの実現を整合させる手法を提案する。 私たちのアプローチは3つのステップに分けられます。 1) まず、ドメインの専門知識と統一アーキテクチャフレームワークを活用して、ドメインを根本的に記述する参照モデルを確立します。 2) その後、ドメイン内の異なるシナリオに合わせて、参照モデルを特定のモデルとしてインスタンス化する。 (3)最後に、対応する実行ロジックを直接参照モデルと特定モデルの両方に組み込む。 このようにして、すべての実装結果がビジネスの要求によって正当化されることを保証するための実践的な手段を提供する。 様々な形態(参照モデル要素)で再帰するサービスとして、自動目標認識の特定の応用(特定のモデル/実装要素)として海洋オブジェクト検出の例を用いて、我々のアプローチを実証する。 私たちのアプローチは、モデルと実装をよりシームレスに統合し、ビジネスとITの整合性を高めます。

In this paper, we propose a method for aligning models with their realization through the application of model-based systems engineering. Our approach is divided into three steps. (1) Firstly, we leverage domain expertise and the Unified Architecture Framework to establish a reference model that fundamentally describes some domain. (2) Subsequently, we instantiate the reference model as specific models tailored to different scenarios within the domain. (3) Finally, we incorporate corresponding run logic directly into both the reference model and the specific models. In total, we thus provide a practical means to ensure that every implementation result is justified by business demand. We demonstrate our approach using the example of maritime object detection as a specific application (specific model / implementation element) of automatic target recognition as a service reoccurring in various forms (reference model element). Our approach facilitates a more seamless integration of models and implementation, fostering enhanced Business-IT alignment.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-18
# 重症膝関節症再考 : 自己監督型コントラスト学習アプローチ

Rethinking Knee Osteoarthritis Severity Grading: A Few Shot Self-Supervised Contrastive Learning Approach ( http://arxiv.org/abs/2407.09515v1 )

ライセンス: Link先を確認
Niamh Belton, Misgina Tsighe Hagos, Aonghus Lawlor, Kathleen M. Curran, (参考訳) 変形性膝関節症(OA)は、世界中で2億5000万人以上の人が患っている。 現在、放射線学者はKelgren-Lawrence (KL)システムを用いて、OAの重症度を0から4に分類している。 近年の研究では、KLグレーティングシステムの主観性に関して懸念が高まっており、自動システムの要件を強調している一方で、5つの順序クラスがOA重症度を評価するのに最適なアプローチではないことも示唆されている。 本研究は、連続的な階調スケールを持つ自動システムの予備的な結果を示す。 SS-FewSOMEと呼ばれるこのシステムは、自己教師付きプレトレーニングを使用して、健康な膝X線の特徴の堅牢な表現を学習する。 すると、通常の表現空間へのX線の距離によってOAの重大度を評価する。 SS-FewSOMEは当初、健康な膝X線の2つの例のみを訓練し、既存の自動化システムに必要な大規模なトレーニングセットや高価な専門家アノテーションを不要にすることで、臨床実践への障壁を減らした。 この研究は最初の成果を約束し、トレーニング時に30の真理ラベルにしかアクセスできなかった、正のスパイアマンランク相関係数 0.43 を得た。

Knee Osteoarthritis (OA) is a debilitating disease affecting over 250 million people worldwide. Currently, radiologists grade the severity of OA on an ordinal scale from zero to four using the Kellgren-Lawrence (KL) system. Recent studies have raised concern in relation to the subjectivity of the KL grading system, highlighting the requirement for an automated system, while also indicating that five ordinal classes may not be the most appropriate approach for assessing OA severity. This work presents preliminary results of an automated system with a continuous grading scale. This system, namely SS-FewSOME, uses self-supervised pre-training to learn robust representations of the features of healthy knee X-rays. It then assesses the OA severity by the X-rays' distance to the normal representation space. SS-FewSOME initially trains on only 'few' examples of healthy knee X-rays, thus reducing the barriers to clinical implementation by eliminating the need for large training sets and costly expert annotations that existing automated systems require. The work reports promising initial results, obtaining a positive Spearman Rank Correlation Coefficient of 0.43, having had access to only 30 ground truth labels at training time.
翻訳日:2024-07-22 13:28:38 公開日:2024-06-18
# GPT Czech Poet: 言語モデルによるチェコの詩的悲劇の生成

GPT Czech Poet: Generation of Czech Poetic Strophes with Language Models ( http://arxiv.org/abs/2407.12790v1 )

ライセンス: Link先を確認
Michal Chudoba, Rudolf Rosa, (参考訳) 高品質な自動詩生成システムは現在、少数の言語でしか利用できない。 チェコ語で詩を生成するための新しいモデルを提案する。 詩文中のストロフェパラメータを明示的に指定することで生成プロセスの指導がモデルの有効性を強く向上することを示す。 また、適切なトークン化が不可欠であることから、代名詞ではなく音節や個々の文字をベースとしたトークン化手法が詩の構図を生成する上で優れていることが分かる。 我々は、すでに生成されたテキストに基づいて、推論時にメーターとバースパラメータの明示的な仕様を追加することで、結果をさらに強化する。 提案手法は, 韻律の高精度化と, 生成した詩の形式的品質の尺度化を実現していることを示す。

High-quality automated poetry generation systems are currently only available for a small subset of languages. We introduce a new model for generating poetry in Czech language, based on fine-tuning a pre-trained Large Language Model. We demonstrate that guiding the generation process by explicitly specifying strophe parameters within the poem text strongly improves the effectiveness of the model. We also find that appropriate tokenization is crucial, showing that tokenization methods based on syllables or individual characters instead of subwords prove superior in generating poetic strophes. We further enhance the results by introducing \textit{Forced~generation}, adding explicit specifications of meter and verse parameters at inference time based on the already generated text. We evaluate a range of setups, showing that our proposed approach achieves high accuracies in rhyming and metric aspects of formal quality of the generated poems.
翻訳日:2024-07-22 08:57:39 公開日:2024-06-18
# TourLLM: LLMを観光知識で強化する

TourLLM: Enhancing LLMs with Tourism Knowledge ( http://arxiv.org/abs/2407.12791v1 )

ライセンス: Link先を確認
Qikai Wei, Mingzhi Yang, Jinqiang Wang, Wenwei Mao, Jiabo Xu, Huansheng Ning, (参考訳) 近年,様々な自然言語処理(NLP)タスクにおいて,大規模言語モデル(LLM)の有効性が実証されている。 しかし、観光知識の欠如は観光案内や旅行計画におけるLLMのパフォーマンスを制限している。 この課題に対処するため,我々はカルトゥール(Cultour)という文化・観光分野のための教師付き微調整データセットを構築した。 このデータセットは、観光知識ベースQAデータ、旅行情報データ、観光多様性QAデータという3つの部分から構成される。 また,カートゥールで微調整されたQwenベースのモデルであるTourLLMを提案し,アトラクションや旅行計画に関する情報の質を向上させる。 TourLLMの性能を評価するために,自動評価と人的評価を併用し,CRA(Consistency, Readability, Availability)という評価基準を提案した。 実験の結果,TourLLMが生成した応答の有効性が示された。 提案したCultourはhttps://github.com/mrweiqk/Cultour.comで利用可能です。

Recently, large language models (LLMs) have demonstrated their effectiveness in various natural language processing (NLP) tasks. However, the lack of tourism knowledge limits the performance of LLMs in tourist attraction presentations and travel planning. To address this challenge, we constructed a supervised fine-tuning dataset for the culture and tourism domain, named Cultour. This dataset consists of three parts: tourism knowledge base QA data, travelogues data, and tourism diversity QA data. Additionally, we propose TourLLM, a Qwen-based model supervised fine-tuned with Cultour, to improve the quality of the information provided about attractions and travel planning. To evaluate the performance of TourLLM, we employed both automatic and human evaluation, and we proposed a human evaluation criterion named CRA (Consistency, Readability, Availability). The experimental results demonstrate the effectiveness of the responses generated by the TourLLM. Our proposed Cultour is accessible at https://github.com/mrweiqk/Cultour.
翻訳日:2024-07-22 08:57:39 公開日:2024-06-18
# コントラスト学習による映像からの視覚的ロバストな敵対的模倣学習

Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning ( http://arxiv.org/abs/2407.12792v1 )

ライセンス: Link先を確認
Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis, (参考訳) C-LAIfOは,エージェントとエキスパートドメイン間の視覚的ミスマッチの存在下でも,ビデオからの模倣学習のために設計された,計算効率の良いアルゴリズムである。 視覚的不一致を伴う専門家ビデオからの模倣の問題を解析し、コントラスト学習とデータ拡張を用いた頑健な潜在空間推定のためのソリューションを提案する。 視覚的に頑健な潜伏空間を与えるため,我々のアルゴリズムは,非政治的対向的模倣学習を用いて,この空間内で完全に模倣を行う。 我々は、設計選択を正当化し、C-LAIfOを高次元連続ロボットタスクでテストするために、徹底的なアブレーション研究を行う。 さらに,C-LAIfOを他の報奨信号と組み合わせて,難易度の高い手操作タスクの学習を容易にする方法を示す。 本実験は,C-LAIfOの有効性と汎用性を強調し,ベースライン法と比較して性能が向上したことを示す。 再現性を確保するため、コードへのオープンアクセスを提供しています。

We propose C-LAIfO, a computationally efficient algorithm designed for imitation learning from videos, even in the presence of visual mismatch between agent and expert domains. We analyze the problem of imitation from expert videos with visual discrepancies, and introduce a solution for robust latent space estimation using contrastive learning and data augmentation. Provided a visually robust latent space, our algorithm performs imitation entirely within this space using off-policy adversarial imitation learning. We conduct a thorough ablation study to justify our design choices and test C-LAIfO on high-dimensional continuous robotic tasks. Additionally, we demonstrate how C-LAIfO can be combined with other reward signals to facilitate learning on a set of challenging hand manipulation tasks with sparse rewards. Our experiments show improved performance compared to baseline methods, highlighting the effectiveness and versatility of C-LAIfO. To ensure reproducibility, we provide open access to our code.
翻訳日:2024-07-22 08:57:39 公開日:2024-06-18
# DART-Math:数学的問題解決のための難易度認識型リジェクションチューニング

DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving ( http://arxiv.org/abs/2407.13690v1 )

ライセンス: Link先を確認
Yuxuan Tong, Xiwen Zhang, Rui Wang, Ruidong Wu, Junxian He, (参考訳) 数学的な問題を解くには高度な推論能力が必要であり、大きな言語モデルに対する顕著な課題を提示している。 従来の作業は通常、プロプライエタリなモデルからデータを合成して既存のデータセットを拡張する。 しかしながら、これらのデータセットの分析により、最も困難なクエリに対して正しいレスポンスを生成するのに頻繁に失敗する、簡単なクエリに対する深刻なバイアスが明らかになる。 難解なクエリは複雑な推論を学習するために重要であると仮定し、難解なクエリを合成フェーズ中により試行的に割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。 DARTを利用して数学的問題解決のための新しいデータセットを作成しました。 興味深いことに、我々の合成プロセスは7Bサイズのオープンウェイトモデルにのみ依存しており、一般的に使われているプロプライエタリなGPT-4に依存しない。 データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。 DART-MATHは6つの数学ベンチマークの包括的なドメイン内評価とドメイン外評価において、はるかに小さなデータセットを使用し、プロプライエタリなモデルがないにもかかわらず、バニラ拒絶チューニングを大幅に上回っている。 さらに,本研究の結果は,我々の合成データセットを,数学的問題解決を推進するための最も効率的かつ費用効率の高い公開資源と位置づけた。

Solving mathematical problems requires advanced reasoning abilities and presents notable challenges for large language models. Previous works usually synthesize data from proprietary models to augment existing datasets, followed by instruction tuning to achieve top-tier results. However, our analysis of these datasets reveals severe biases towards easy queries, with frequent failures to generate any correct response for the most challenging queries. Hypothesizing that difficult queries are crucial to learn complex reasoning, we propose Difficulty-Aware Rejection Tuning (DART), a method that allocates difficult queries more trials during the synthesis phase, enabling more extensive training on difficult samples. Utilizing DART, we have created new datasets for mathematical problem-solving that focus more on difficult queries and are substantially smaller than previous ones. Remarkably, our synthesis process solely relies on a 7B-sized open-weight model, without reliance on the commonly used proprietary GPT-4. We fine-tune various base models on our datasets ranging from 7B to 70B in size, resulting in a series of strong models called DART-MATH. In comprehensive in-domain and out-of-domain evaluation on 6 mathematical benchmarks, DART-MATH outperforms vanilla rejection tuning significantly, being superior or comparable to previous arts, despite using much smaller datasets and no proprietary models. Furthermore, our results position our synthetic datasets as the most effective and cost-efficient publicly available resources for advancing mathematical problem-solving.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-18
# 感性注意と意味的類似性駆動型対向摂動

Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation ( http://arxiv.org/abs/2406.19413v1 )

ライセンス: Link先を確認
Hetvi Waghela, Jaydip Sen, Sneha Rakshit, (参考訳) 本稿では,Saliency Attention と Semantic similarity driven adversarial Perturbation (SASSP) と呼ばれるテキスト対逆攻撃法を提案する。 提案手法は, サリエンシ, 注意, 意味的類似性を統合することにより, 文脈摂動の有効性を向上させる。 従来の敵攻撃法は、意味的一貫性と一貫性を維持するのに苦労するが、標的モデルを効果的に否定する。 提案手法は,単語選択と摂動のための3段階の戦略を取り入れることで,これらの課題に対処する。 まず,モデルの予測に重要度を反映した単語の優先順位付けを行うために,サリエンシに基づく単語選択を利用する。 第二に、注意機構は、文脈的に重要な単語に摂動を集中させ、攻撃の有効性を高めるために用いられる。 最後に、埋め込みに基づく類似度とパラフレーズ検出を含む高度な意味的類似度チェック手法を用いる。 Sentence-BERTのようなモデルをSentence Transformersライブラリの類似性や微調整されたパラフレーズ検出モデルに組み込むことで、乱れたテキストが元のテキストと文脈的に適切で意味的に整合していることを保証する。 経験的評価は、SASSPが高い意味的忠実性を維持するだけでなく、最先端の自然言語処理モデルを効果的に欺く敵対的な例を生成することを示した。 さらに、文脈摂動CLAREの当初のスキームと比較して、SASPはより高い攻撃成功率と低い単語摂動率を得た。

In this paper, we introduce an enhanced textual adversarial attack method, known as Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP). The proposed scheme is designed to improve the effectiveness of contextual perturbations by integrating saliency, attention, and semantic similarity. Traditional adversarial attack methods often struggle to maintain semantic consistency and coherence while effectively deceiving target models. Our proposed approach addresses these challenges by incorporating a three-pronged strategy for word selection and perturbation. First, we utilize a saliency-based word selection to prioritize words for modification based on their importance to the model's prediction. Second, attention mechanisms are employed to focus perturbations on contextually significant words, enhancing the attack's efficacy. Finally, an advanced semantic similarity-checking method is employed that includes embedding-based similarity and paraphrase detection. By leveraging models like Sentence-BERT for embedding similarity and fine-tuned paraphrase detection models from the Sentence Transformers library, the scheme ensures that the perturbed text remains contextually appropriate and semantically consistent with the original. Empirical evaluations demonstrate that SASSP generates adversarial examples that not only maintain high semantic fidelity but also effectively deceive state-of-the-art natural language processing models. Moreover, in comparison to the original scheme of contextual perturbation CLARE, SASSP has yielded a higher attack success rate and lower word perturbation rate.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-18
# DrugWatch: 医薬品の安全性情報のための総合的マルチソースデータ可視化プラットフォーム

DrugWatch: A Comprehensive Multi-Source Data Visualisation Platform for Drug Safety Information ( http://arxiv.org/abs/2407.01585v1 )

ライセンス: Link先を確認
Artem Bobrov, Domantas Saltenis, Zhaoyue Sun, Gabriele Pergola, Yulan He, (参考訳) 医薬品の安全性の研究は公衆衛生を維持するために不可欠であり、しばしば包括的データ支援を必要とする。 しかし、現在一般に入手可能な資源は限られており、薬物と副作用の関係を包括的に理解することができない。 本稿では,ドラッグセーフティ研究のための,使いやすくインタラクティブなマルチソース情報可視化プラットフォームであるDragonWatchを紹介する。 ユーザーは薬の副作用とその統計情報を理解したり、関連する医療報告を柔軟に検索したり、自動アノテーションツールで自分の医療用テキストに注釈を付けることができる。 NLP技術によってサポートされ、インタラクティブなビジュアルコンポーネントが豊富に提供され、研究者や実践者にワンストップ情報分析、検索、アノテーションサービスを提供することを約束します。 デモビデオはhttps://www.youtube.com/watch? v=RTqDgxzETjw。 また、オンラインデモシステムをhttps://drugwatch.net/.comに展開しました。

Drug safety research is crucial for maintaining public health, often requiring comprehensive data support. However, the resources currently available to the public are limited and fail to provide a comprehensive understanding of the relationship between drugs and their side effects. This paper introduces DrugWatch, an easy-to-use and interactive multi-source information visualisation platform for drug safety study. It allows users to understand common side effects of drugs and their statistical information, flexibly retrieve relevant medical reports, or annotate their own medical texts with our automated annotation tool. Supported by NLP technology and enriched with interactive visual components, we are committed to providing researchers and practitioners with a one-stop information analysis, retrieval, and annotation service. The demonstration video is available at https://www.youtube.com/watch?v=RTqDgxzETjw. We also deployed an online demonstration system at https://drugwatch.net/.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-18
# 一般化可能な実世界運転用試料効率イミティティブ・マルチトーケン型変圧器

Sample-efficient Imitative Multi-token Decision Transformer for Generalizable Real World Driving ( http://arxiv.org/abs/2407.02508v1 )

ライセンス: Link先を確認
Hang Zhou, Dan Xu, Yiding Ji, (参考訳) シーケンスモデリングによる強化学習は、オフラインデータセットのパワーを活用して、シミュレートされた環境で情報的決定を行う自律システムにおいて顕著な可能性を示している。 しかし、複雑な動的環境におけるそのような手法の完全なポテンシャルはいまだ発見されていない。 自律運転領域では、シミュレートされた知識を現実の環境に移行する際に、学習ベースのエージェントが重大な課題に直面し、そのパフォーマンスもデータ分散シフトによって大きく影響を受ける。 これらの問題に対処するため,SimDT(SimDT)を提案する。 SimDTでは、マルチトークン予測、模倣的なオンライン学習、優先されたエクスペリエンスリプレイをDecision Transformerに導入している。 この性能は実証実験によって評価され、Waymaxベンチマークの一般的な模倣および強化学習アルゴリズムを上回る結果が得られる。

Reinforcement learning via sequence modeling has shown remarkable promise in autonomous systems, harnessing the power of offline datasets to make informed decisions in simulated environments. However, the full potential of such methods in complex dynamic environments remain to be discovered. In autonomous driving domain, learning-based agents face significant challenges when transferring knowledge from simulated to real-world settings and the performance is also significantly impacted by data distribution shift. To address these issue, we propose Sample-efficient Imitative Multi-token Decision Transformer (SimDT). SimDT introduces multi-token prediction, imitative online learning and prioritized experience replay to Decision Transformer. The performance is evaluated through empirical experiments and results exceed popular imitation and reinforcement learning algorithms on Waymax benchmark.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-18
# 変数はソフトウェア脆弱性予測の曲線である

Variables are a Curse in Software Vulnerability Prediction ( http://arxiv.org/abs/2407.02509v1 )

ライセンス: Link先を確認
Jinghua Groppe, Sven Groppe, Ralf Möller, (参考訳) ディープラーニングベースのソフトウェア脆弱性予測のアプローチは、現在主にコードのグラフ内のノードの特徴としてソフトウェアコードのオリジナルのテキストに依存しているため、テキスト表現に隠されたプログラムの'本質的な'機能を表す表現ではなく、コードテキストにのみ特有な表現を学ぶことができる。 この問題を引き起こす呪いの1つは、変数を名付ける可能性の無限である。 呪いを解くため,本研究では,名前依存と呼ばれる新しいタイプのエッジ,名前依存に基づく抽象構文グラフ,3-propertyエンコーディングスキームという効率的なノード表現手法を導入する。 これらの技術により、コードから具体的な変数名を取り除き、ディープラーニングモデルにより、多様なコード表現に隠されたソフトウェアの機能を学ぶことができます。 実験の結果,これらの手法に基づいて構築されたディープラーニングモデルは,脆弱性の予測だけでなく,メモリニーズの予測においても,既存のアプローチよりも優れていることがわかった。 メモリ使用量の削減の要因は,既存手法と比較して3万分の1程度である。

Deep learning-based approaches for software vulnerability prediction currently mainly rely on the original text of software code as the feature of nodes in the graph of code and thus could learn a representation that is only specific to the code text, rather than the representation that depicts the 'intrinsic' functionality of a program hidden in the text representation. One curse that causes this problem is an infinite number of possibilities to name a variable. In order to lift the curse, in this work we introduce a new type of edge called name dependence, a type of abstract syntax graph based on the name dependence, and an efficient node representation method named 3-property encoding scheme. These techniques will allow us to remove the concrete variable names from code, and facilitate deep learning models to learn the functionality of software hidden in diverse code expressions. The experimental results show that the deep learning models built on these techniques outperform the ones based on existing approaches not only in the prediction of vulnerabilities but also in the memory need. The factor of memory usage reductions of our techniques can be up to the order of 30,000 in comparison to existing approaches.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-18
# OCT画像の不確かさ推定による基礎モデルの診断信頼性向上

Enhancing Diagnostic Reliability of Foundation Model with Uncertainty Estimation in OCT Images ( http://arxiv.org/abs/2406.16942v1 )

ライセンス: Link先を確認
Yuanyuan Peng, Aidi Lin, Meng Wang, Tian Lin, Ke Zou, Yinglin Cheng, Tingkun Shi, Xulong Liao, Lixia Feng, Zhen Liang, Xinjian Chen, Huazhu Fu, Haoyu Chen, (参考訳) 信頼度を表現できず、目に見えないクラスを検出できないことは、現実世界における人工知能の臨床的実装を制限している。 我々は,光コヒーレンストモグラフィー(OCT)における11個の網膜状態を検出するために,不確実性推定(FMUE)を用いた基礎モデルを開発した。 内部テストセットでは、FMUEは2つの最先端アルゴリズムであるRETFoundとUIOSよりも96.76%高いF1スコアを獲得し、しきい値戦略を98.44%に改善した。 他のOCT装置から得られた外部テストセットでは、FMUEは閾値の前後で88.75%と92.73%の精度を達成した。 我々のモデルは、F1スコアが高い2人の眼科医(95.17%対61.93% &71.72%)より優れている。 また,本モデルでは,不明瞭な特徴,非標的カテゴリーの疾患,手動検査の迅速化,誤診防止のための低品質な検査結果に対して,精度の高い不確実性スコアを正しく予測する。 FMUEは、実際の臨床オープンセット環境で自動的に網膜異常を検出するための信頼できる方法を提供する。

Inability to express the confidence level and detect unseen classes has limited the clinical implementation of artificial intelligence in the real-world. We developed a foundation model with uncertainty estimation (FMUE) to detect 11 retinal conditions on optical coherence tomography (OCT). In the internal test set, FMUE achieved a higher F1 score of 96.76% than two state-of-the-art algorithms, RETFound and UIOS, and got further improvement with thresholding strategy to 98.44%. In the external test sets obtained from other OCT devices, FMUE achieved an accuracy of 88.75% and 92.73% before and after thresholding. Our model is superior to two ophthalmologists with a higher F1 score (95.17% vs. 61.93% &71.72%). Besides, our model correctly predicts high uncertainty scores for samples with ambiguous features, of non-target-category diseases, or with low-quality to prompt manual checks and prevent misdiagnosis. FMUE provides a trustworthy method for automatic retinal anomalies detection in the real-world clinical open set environment.
翻訳日:2024-07-01 06:21:45 公開日:2024-06-18
# EarDA: 正確でデータ効率のよい活動センシングを目指して

EarDA: Towards Accurate and Data-Efficient Earable Activity Sensing ( http://arxiv.org/abs/2406.16943v1 )

ライセンス: Link先を確認
Shengzhe Lyu, Yongliang Chen, Di Duan, Renqi Jia, Weitao Xu, (参考訳) モノのインターネット(Internet of Things)によるスマートセンシングの分野では、多モードセンシングとコンテキスト認識コンピューティングのインテリジェンスによって、耳に装着可能なデバイスに権限が与えられ、ヒューマンアクティビティ認識(HAR)で広く利用されている。 それにもかかわらず、上または下半身に配置された慣性計測ユニット(IMU)センサーが捉えた運動とは異なり、これらの運動信号は、特に動的で予測不能な頭部運動の存在下で、振幅やパターンに顕著な変化を示し、活動分類において重要な課題となっている。 本研究では,異なるセンサ位置をまたいだドメインに依存しない特徴を抽出するドメイン適応システムであるEarDAを提案する。 さらに,多くのディープラーニング手法では,大量のラベル付きデータを用いたトレーニングによって精度が向上するのに対して,提案手法では,スマートフォンベースのIMUデータセットの潜在的使用可能性を公開することができる。 さらに,頭部運動の影響を軽減するため,フィルタに基づくデータ処理手法の適用の可能性を検討する。 提案システムであるEarDAは、よりデータ効率が高く、正確なアクティビティセンシングを可能にする。 HARタスクの精度は88.8%で、ドメイン適応のないメソッドよりも43%向上している。 これは明らかにドメインギャップを緩和する効果を示している。

In the realm of smart sensing with the Internet of Things, earable devices are empowered with the capability of multi-modality sensing and intelligence of context-aware computing, leading to its wide usage in Human Activity Recognition (HAR). Nonetheless, unlike the movements captured by Inertial Measurement Unit (IMU) sensors placed on the upper or lower body, those motion signals obtained from earable devices show significant changes in amplitudes and patterns, especially in the presence of dynamic and unpredictable head movements, posing a significant challenge for activity classification. In this work, we present EarDA, an adversarial-based domain adaptation system to extract the domain-independent features across different sensor locations. Moreover, while most deep learning methods commonly rely on training with substantial amounts of labeled data to offer good accuracy, the proposed scheme can release the potential usage of publicly available smartphone-based IMU datasets. Furthermore, we explore the feasibility of applying a filter-based data processing method to mitigate the impact of head movement. EarDA, the proposed system, enables more data-efficient and accurate activity sensing. It achieves an accuracy of 88.8% under HAR task, demonstrating a significant 43% improvement over methods without domain adaptation. This clearly showcases its effectiveness in mitigating domain gaps.
翻訳日:2024-07-01 06:21:45 公開日:2024-06-18
# 合成キャプションによるテキスト・ツー・オーディオモデルの改良

Improving Text-To-Audio Models with Synthetic Captions ( http://arxiv.org/abs/2406.15487v1 )

ライセンス: Link先を確認
Zhifeng Kong, Sang-gil Lee, Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Rafael Valle, Soujanya Poria, Bryan Catanzaro, (参考訳) テキスト音声モデルの高品質なトレーニングデータ、特にキャプションを得ることは、オープンな課題である。 従来の手法では、字幕を拡張・改善するためにtextit{text-only language model} を使用していたが、音声と字幕のスケールとコヒーレンスに関連する制限がある。 そこで本研究では,音声の精度と多種多様なキャプションを大規模に合成するために,‘textit{audio language model} を用いた音声キャプションパイプラインを提案する。 このパイプラインを利用してAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。 AudioCapsとMusicCapsの体系的な評価により、パイプラインと合成キャプションを活用することで、オーディオ生成の品質が大幅に向上し、新しい‘textit{state-of-the-art}’が実現された。

It is an open challenge to obtain high quality training data, especially captions, for text-to-audio models. Although prior methods have leveraged \textit{text-only language models} to augment and improve captions, such methods have limitations related to scale and coherence between audio and captions. In this work, we propose an audio captioning pipeline that uses an \textit{audio language model} to synthesize accurate and diverse captions for audio at scale. We leverage this pipeline to produce a dataset of synthetic captions for AudioSet, named \texttt{AF-AudioSet}, and then evaluate the benefit of pre-training text-to-audio models on these synthetic captions. Through systematic evaluations on AudioCaps and MusicCaps, we find leveraging our pipeline and synthetic captions leads to significant improvements on audio generation quality, achieving a new \textit{state-of-the-art}.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-18
# Orangutan: 動的環境のためのマルチスケール脳エミュレーションに基づく人工知能フレームワーク

Orangutan: A Multiscale Brain Emulation-Based Artificial Intelligence Framework for Dynamic Environments ( http://arxiv.org/abs/2406.15488v1 )

ライセンス: Link先を確認
Yong Xie, (参考訳) 汎用人工知能(AGI)の実現は、AI分野において長年大きな課題であり、脳にインスパイアされたコンピューティングは、この目標を達成する上で最も有望なアプローチの1つとして広く認められている。 本稿では,脳に触発された新しいAIフレームワーク,Orangutanを紹介する。 複数のスケールで生物の脳の構造と計算機構をシミュレートし、複数区画のニューロンアーキテクチャ、様々なシナプス接続の様相、神経回路、皮質の柱、脳の領域を包含し、また、促進、フィードフォワード阻害、短期的な増強、短期的なうつ病などの生化学的プロセスも含む。 この高度に統合された脳様機構を基盤として,物体観察時の人眼球運動をシミュレートする感覚運動モデルを開発した。 モデルのアルゴリズムの有効性は手書き桁画像の観察によって検証された。

Achieving General Artificial Intelligence (AGI) has long been a grand challenge in the field of AI, and brain-inspired computing is widely acknowledged as one of the most promising approaches to realize this goal. This paper introduces a novel brain-inspired AI framework, Orangutan. It simulates the structure and computational mechanisms of biological brains on multiple scales, encompassing multi-compartment neuron architectures, diverse synaptic connection modalities, neural microcircuits, cortical columns, and brain regions, as well as biochemical processes including facilitation, feedforward inhibition, short-term potentiation, and short-term depression, all grounded in solid neuroscience. Building upon these highly integrated brain-like mechanisms, I have developed a sensorimotor model that simulates human saccadic eye movements during object observation. The model's algorithmic efficacy was validated through testing with the observation of handwritten digit images.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-18
# 高セキュリティSDRシステムのためのフレキシブル暗号基盤

A Flexible Cryptographic Infrastructure for High-security SDR-based Systems ( http://arxiv.org/abs/2406.15489v1 )

ライセンス: Link先を確認
Peter Hillmann, Björn Stelte, (参考訳) 軍用ソフトウェア定義無線(SDR)システムは、その柔軟性とより有能な無線通信システムのサポートにより、将来のネットワーク中心の運用において重要な要素である。 ソフトウェアベースのシステムには、SDRデバイスのセキュアブート、暗号署名されたソフトウェア、リアルタイムオペレーティングシステムソフトウェア、ラジオアプリケーションなど、一般的なシステムと比較して、より複雑な補助的インフラストラクチャと複数の独立したセキュリティレベルが必要です。 この技術は経営陣に対して新たな課題を提起する。 SDRデプロイメントに対する最大の影響は、ソフトウェアライフサイクルのセキュリティとキーの定期的な更新のための補助的な暗号化インフラストラクチャである。 従来の無線装置と比較して,本論文に記載されている暗号基盤を備えたSDRシステムは,より高いセキュリティレベルに達し,より柔軟である。 利点は、トランク化された無線システムと、将来標準化される連帯広帯域のような、さらなる波形を展開できることである。 また、暗号機構の更新も可能である。 本研究では,JPEO(Joint Program Executive Office)ソフトウェア通信アーキテクチャ(SCA)に基づいて,セキュアなSDRデプロイメントの要件を分析し,デプロイされたSDRノードのコンポーネントのライフサイクルをモデル化する。

Military software defined radio (SDR) systems are a major factor in future network-centric operations due to their flexibility and support for more capable radio communications systems. The inherent nature of software-based systems requires a more complex auxiliary infrastructure and multiple independent levels of security compared with typical systems: Secure booting of the SDR device, cryptographically signed software, real time operating platform software as well as radio applications. This technology raises new challenges with respect to the management. The largest impact on SDR deployments is due to the auxiliary cryptographic infrastructure for the security of the software life cycle and the cyclic update of the keys. Compared to conventional radio devices, the SDR system with the cryptographic infrastructure described in this paper reaches a higher security level and is more flexible. The advantage is the possibility to deploy trunked radio system and further waveforms, such as coalition wideband, which will be standardized in the future. Also it is possible to update cryptographic mechanisms. In this work, we analyze the requirements for a high secure SDR deployment and model the life cycle of the components of a deployed SDR node based on the Joint Program Executive Office (JPEO) Software Communication Architecture (SCA).
翻訳日:2024-06-25 23:44:36 公開日:2024-06-18
# 心因性ペア抽出のための教師なしドメイン適応に基づく因果発見

Causal Discovery Inspired Unsupervised Domain Adaptation for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2406.15490v1 )

ライセンス: Link先を確認
Yuncheng Hua, Yujin Huang, Shuo Huang, Tao Feng, Lizhen Qu, Chris Bain, Richard Bassed, Gholamreza Haffari, (参考訳) 本稿では、教師なし領域適応設定における感情原因ペア抽出の課題に取り組む。 ドメイン間の感情表現の分布が重複しているにもかかわらず、ターゲットドメイン内の感情を引き起こす事象の分布はソースドメインと劇的に異なるため、この問題は困難である。 因果発見にインスパイアされた、変動オートエンコーダ(VAE)フレームワークにおける新しい潜時モデルを提案する。これは、基礎となる潜時構造をキャプチャするだけでなく、異なる領域における事象の分布をリンクするブリッジとして、容易に伝達可能な感情の知識を利用する。 また、ドメイン間の知識伝達を容易にするため、ソースドメイン内の出来事に関連付けられた素早い相関によるダメージを軽減するために、イベントの出来事から感情の潜伏表現を解き放つような、新しい変分後正規化手法を提案する。 広範にわたる実験により、我々のモデルは、中国語のベンチマークで約11.05%、英語のベンチマークで2.45%、重み付き平均F1スコアで最強のベースラインを上回ります。 ソースコードは受理時に公開される。

This paper tackles the task of emotion-cause pair extraction in the unsupervised domain adaptation setting. The problem is challenging as the distributions of the events causing emotions in target domains are dramatically different than those in source domains, despite the distributions of emotional expressions between domains are overlapped. Inspired by causal discovery, we propose a novel deep latent model in the variational autoencoder (VAE) framework, which not only captures the underlying latent structures of data but also utilizes the easily transferable knowledge of emotions as the bridge to link the distributions of events in different domains. To facilitate knowledge transfer across domains, we also propose a novel variational posterior regularization technique to disentangle the latent representations of emotions from those of events in order to mitigate the damage caused by the spurious correlations related to the events in source domains. Through extensive experiments, we demonstrate that our model outperforms the strongest baseline by approximately 11.05% on a Chinese benchmark and 2.45% on a English benchmark in terms of weighted-average F1 score. The source code will be publicly available upon acceptance.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-18
# 大規模言語モデルのマルチエージェントシステムにおけるオピニオンダイナミクスの原理について

On the Principles behind Opinion Dynamics in Multi-Agent Systems of Large Language Models ( http://arxiv.org/abs/2406.15492v1 )

ライセンス: Link先を確認
Pedro Cisneros-Velarde, (参考訳) 本研究では,対話型大規模言語モデル (LLM) の集団内における意見の進化について検討する。 各 LLM は,最初の3つの可能性 – フル,部分的,あるいはゼロ – で,各項目にどの程度の資金を割り当てるかを決定する必要がある。 LLMの傾向に基づく意見交換を促進するバイアスを同定する。 (i)他のLSMの意見と意見の一致を見いだす。 二 資金の指定時の注意表示、及び (三)倫理的懸念をその意見に考慮すること。 これらのバイアスは、意見の変化に対する説得力のある理由の欠如、議論への参加意欲、割当値の配分などの影響を受けている。 さらに、バイアス間の緊張は、ネガティブな意味を持つアイテムに対する資金調達の生存につながる可能性がある。 また、LLMが3つのアロケーションオプションの中で、意見が多重選択である場合よりも、対話後に自由に意見を形成する場合、完全な部分的かつ資金提供なしの意見の最終的な分布は、より多様であることがわかった。 後者の場合、一般にコンセンサスまたは偏極が達成される。 エージェントが過去の意見に気付くと、彼らとの整合性を維持し、より多様なルールが出現する。 Llama 3 LLMを用いて本研究を行った。

We study the evolution of opinions inside a population of interacting large language models (LLMs). Every LLM needs to decide how much funding to allocate to an item with three initial possibilities: full, partial, or no funding. We identify biases that drive the exchange of opinions based on the LLM's tendency to (i) find consensus with the other LLM's opinion, (ii) display caution when specifying funding, and (iii) consider ethical concerns in its opinion. We find these biases are affected by the perceived absence of compelling reasons for opinion change, the perceived willingness to engage in discussion, and the distribution of allocation values. Moreover, tensions among biases can lead to the survival of funding for items with negative connotations. We also find that the final distribution of full, partial, and no funding opinions is more diverse when an LLM freely forms its opinion after an interaction than when its opinion is a multiple-choice selection among the three allocation options. In the latter case, consensus or polarization is generally attained. When agents are aware of past opinions, they seek to maintain consistency with them, and more diverse updating rules emerge. Our study is performed using a Llama 3 LLM.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-18
# スマートグリッドにおける(雑音に基づく)動的透かしの簡易き裂き

Simple Cracking of (Noise-Based) Dynamic Watermarking in Smart Grids ( http://arxiv.org/abs/2406.15494v1 )

ライセンス: Link先を確認
Mehmet Yildirim, Nasir Kenarangui, Robert Balog, Laszlo B. Kish, Chanan Singh, (参考訳) ディジタルツインの概念的アプローチを用いた従来の研究は、(ノイズベースの)動的透かしがスマートグリッドシステムにおいて無条件のセキュリティを提供することができないことを示した。 しかし、デジタルツインの実装は、重要なインフラ上の限られたデータのために、費用がかからない、あるいは不可能である可能性がある。 本研究では,動的透かしとその関連プロトコルのスペクトル特性をまず分析する。 その後,デジタルツイン法に着想を得て,グリッドノイズを抽出・利用し,電子透かし信号の知識を必要とせずに動的透かしの安全性を完全に破壊する手法を提案する。 攻撃者は、コントローラによる検出を回避しながら、グリッドを完全に公開することができる。 その結果,安全で認証された通信がなければ,動的透かしは条件付き・無条件のセキュリティを提供しないことがわかった。 逆に、通信回線、センサ、通信装置がタンパーに耐性があり、セキュアで認証されたリンクを備えている場合、動的透かしはグリッドセキュリティのために冗長となる。

Previous research employing a conceptual approach with a digital twin has demonstrated that (noise-based) dynamic watermarking is incapable of providing unconditional security in smart electrical grid systems. However, the implementation of digital twins can be prohibitively costly or infeasible due to limited available data on critical infrastructure. In this study, we first analyze the spectral properties of dynamic watermarking and its associated protocol. Subsequently, we present a straightforward attack inspired by the digital twin method, which extracts and utilizes the grid noises and completely breaches the security of dynamic watermarking without requiring knowledge of the private watermarking signal. The attacker can fully expose the grid while evading detection by the controller. Our findings indicate that in the absence of secure and authenticated communications, dynamic watermarking offers neither conditional nor unconditional security. Conversely, when communication lines, sensors, and communicators are equipped with tamper-resistant and secure/authenticated links, dynamic watermarking becomes redundant for grid security.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-18
# 1型糖尿病患者における経時的インスリン投与の注意ネットワーク

Attention Networks for Personalized Mealtime Insulin Dosing in People with Type 1 Diabetes ( http://arxiv.org/abs/2406.14579v1 )

ライセンス: Link先を確認
Anas El Fathi, Elliott Pryor, Marc D. Breton, (参考訳) 食事時のインスリン摂取量を計算することは、1型糖尿病(T1D)の患者にとって大きな課題となる。 ドーゼは、食事後のグルコースの排出を完璧に補償し、個人のインスリン感受性と食事用マクロ栄養素の深い理解を必要とする。 通常、人々はこの理解を発達させるために直観と経験に依存します。 本研究では,自己注意型エンコーダネットワークを用いた強化学習エージェントが,この直感的な処理を効果的に模倣し,強化する方法を実証する。 FDAが承認したUVA/Padova T1Dアダルトコホートから80の仮想被験者でトレーニングされ、20でテストされたセルフアテンションは、他のネットワークアーキテクチャと比較して優れたパフォーマンスを示している。 その結果、センサー強化ポンプのシナリオでは16.5から9.6に、自動インスリンデリバリーのシナリオでは9.1から6.7に、血糖リスクは著しく低下した。 この新たなパラダイムは、従来の治療パラメータをバイパスし、治療を簡素化し、T1D患者の生活の質と血糖値の改善を期待できる可能性を提供する。

Calculating mealtime insulin doses poses a significant challenge for individuals with Type 1 Diabetes (T1D). Doses should perfectly compensate for expected post-meal glucose excursions, requiring a profound understanding of the individual's insulin sensitivity and the meal macronutrients'. Usually, people rely on intuition and experience to develop this understanding. In this work, we demonstrate how a reinforcement learning agent, employing a self-attention encoder network, can effectively mimic and enhance this intuitive process. Trained on 80 virtual subjects from the FDA-approved UVA/Padova T1D adult cohort and tested on twenty, self-attention demonstrates superior performance compared to other network architectures. Results reveal a significant reduction in glycemic risk, from 16.5 to 9.6 in scenarios using sensor-augmented pump and from 9.1 to 6.7 in scenarios using automated insulin delivery. This new paradigm bypasses conventional therapy parameters, offering the potential to simplify treatment and promising improved quality of life and glycemic outcomes for people with T1D.
翻訳日:2024-06-24 18:37:49 公開日:2024-06-18
# 生体磁場センサの量子理論:フラビンアデニンジヌクレオチドバイラジカルにおけるラジカル対機構

Quantum theory of a potential biological magnetic field sensor: radical pair mechanism in flavin adenine dinucleotide biradicals ( http://arxiv.org/abs/2406.14580v1 )

ライセンス: Link先を確認
Amirhosein Sotoodehfar, Rishabh, Hadi Zadeh-Haghighi, Christoph Simon, (参考訳) 近年のin vitroおよびin vivo研究では、フラビンアデニンジヌクレオチド(FAD)自体が生体磁場センサとして機能する可能性が示唆されている。 そこで本研究では,FAD分子内のフラビンアデニンバイラジカルに対するラジカルペア機構(RPM)の詳細な量子理論モデルを構築した。 我々は分子動力学シミュレーションを行い、FAD上のラジカル間の距離を計算し、RPMの量子マスター方程式処理に投入する。 低磁場および高磁場の場合に限られる以前の半古典的モデルとは対照的に、我々の量子モデルは過渡吸収信号の完全な磁場依存性を予測することができる。 我々のモデルの予測は実験と一致している。

Recent studies in vitro and in vivo suggest that flavin adenine dinucleotide (FAD) on its own might be able to act as a biological magnetic field sensor. Motivated by these observations, in this study, we develop a detailed quantum theoretical model for the radical pair mechanism (RPM) for the flavin adenine biradical within the FAD molecule. We perform molecular dynamics simulations to determine the distance between the radicals on FAD, which we then feed into a quantum master equation treatment of the RPM. In contrast to previous semi-classical models which are limited to the low-field and high-field cases, our quantum model can predict the full magnetic field dependence of the transient absorption signal. Our model's predictions are consistent with experiments.
翻訳日:2024-06-24 18:37:49 公開日:2024-06-18
# ADR:マルチインスタンスラーニングに基づく全スライド画像分類におけるオーバフィッティングの緩和のための注意の多様化規則化

ADR: Attention Diversification Regularization for Mitigating Overfitting in Multiple Instance Learning based Whole Slide Image Classification ( http://arxiv.org/abs/2406.15303v1 )

ライセンス: Link先を確認
Yunlong Zhang, Zhongyi Shui, Yunxuan Sun, Honglin Li, Jingxiong Li, Chenglu Zhu, Sunyi Zheng, Lin Yang, (参考訳) MIL(Multiple Instance Learning)は、スライド画像全体(WSI)を解析する効果を実証しているが、現実のアプリケーションでは過度に適合する課題に遭遇することが多い。 本稿では,MILの性能と注意値のエントロピーの関係を明らかにする。 本研究は,注意値の高エントロピーを促進することを目的とした,シンプルかつ効果的な手法である注意多様性規則化(ADR)を提案する。 特に、ADRは通常のMILフレームワークに注意値に対する負のシャノンエントロピー損失を導入している。 追加モジュールや処理ステップを必要とする場合が多いオーバーフィッティングを緩和する既存の方法と比較して、ADRアプローチではそのような余分な処理は必要とせず、単純さと効率性を実証しています。 3つのWSI分類タスクでADRを評価した。 ADRは最先端技術よりも優れたパフォーマンスを実現している。 また, ADRは熱マップを向上し, 病理医の診断基準に適合することを示す。 ソースコードは \url{https://github.com/dazhangyu123/ADR} で公開されている。

Multiple Instance Learning (MIL) has demonstrated effectiveness in analyzing whole slide images (WSIs), yet it often encounters overfitting challenges in real-world applications. This paper reveals the correlation between MIL's performance and the entropy of attention values. Based on this observation, we propose Attention Diversity Regularization (ADR), a simple but effective technique aimed at promoting high entropy in attention values. Specifically, ADR introduces a negative Shannon entropy loss for attention values into the regular MIL framework. Compared to existing methods aimed at alleviating overfitting, which often necessitate additional modules or processing steps, our ADR approach requires no such extras, demonstrating simplicity and efficiency. We evaluate our ADR on three WSI classification tasks. ADR achieves superior performance over the state-of-the-art on most of them. We also show that ADR can enhance heatmaps, aligning them better with pathologists' diagnostic criteria. The source code is available at \url{https://github.com/dazhangyu123/ADR}.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-18
# 厄介なカーネル -- 幻覚、無料ランチなし、逆問題における精度-安定性トレードオフについて

The troublesome kernel -- On hallucinations, no free lunches and the accuracy-stability trade-off in inverse problems ( http://arxiv.org/abs/2001.01258v4 )

ライセンス: Link先を確認
Nina M. Gottschling, Vegard Antun, Anders C. Hansen, Ben Adcock, (参考訳) 人工知能(AI)にインスパイアされた手法は、困難な問題に対するブレークスルーパフォーマンスを通じて、計算科学と工学を根本的に変え始めている。 しかし、そのような手法の信頼性と信頼性は大きな懸念事項である。 画像の逆問題において、この論文の焦点は、手法が幻覚、すなわち、偽の、しかし現実的に見えるアーティファクト、不安定、すなわち、データの摂動に対する感受性、予測不能な一般化、すなわち、いくつかの画像における優れたパフォーマンス、そして他の画像に対する顕著な劣化に悩まされているという経験的証拠が増大している。 本稿ではこれらの現象の理論的基礎を提供する。 このような効果が任意の再構成法でどのように、いつ起こるのかを数学的に説明し、いくつかの結果は「無料ランチ」定理の形式を取っている。 具体的には 二 一つの画像に対して過度に上回る方法により、ある画像から別の画像へ誤って詳細を伝達し、幻覚を生じさせることができること。 二以上の画像にオーバーパフォーマンスする手法は幻覚や不安定になることがある。 三 精度安定トレードオフの最適化は概ね困難である。 (四)幻覚や不安定が生じた場合、まれな出来事ではなく、標準的な訓練によって奨励されることがある。 (v) ある問題に対して最適な再構成マップを構築することは不可能かもしれない。 この結果から, フォワード演算子のカーネルに対して, 非自明な場合, フォワード演算子のカーネルにこれらの効果をトレースするが, フォワード演算子が不条件の場合にも適用できる。 これらの知見に基づいて、我々の研究は、画像の逆問題に対する堅牢で信頼性の高いAIベースの手法を開発する新しい方法の研究を促進することを目的としている。

Methods inspired by Artificial Intelligence (AI) are starting to fundamentally change computational science and engineering through breakthrough performances on challenging problems. However, reliability and trustworthiness of such techniques is a major concern. In inverse problems in imaging, the focus of this paper, there is increasing empirical evidence that methods may suffer from hallucinations, i.e., false, but realistic-looking artifacts; instability, i.e., sensitivity to perturbations in the data; and unpredictable generalization, i.e., excellent performance on some images, but significant deterioration on others. This paper provides a theoretical foundation for these phenomena. We give mathematical explanations for how and when such effects arise in arbitrary reconstruction methods, with several of our results taking the form of `no free lunch' theorems. Specifically, we show that (i) methods that overperform on a single image can wrongly transfer details from one image to another, creating a hallucination, (ii) methods that overperform on two or more images can hallucinate or be unstable, (iii) optimizing the accuracy-stability trade-off is generally difficult, (iv) hallucinations and instabilities, if they occur, are not rare events, and may be encouraged by standard training, (v) it may be impossible to construct optimal reconstruction maps for certain problems. Our results trace these effects to the kernel of the forward operator whenever it is nontrivial, but also apply to the case when the forward operator is ill-conditioned. Based on these insights, our work aims to spur research into new ways to develop robust and reliable AI-based methods for inverse problems in imaging.
翻訳日:2024-06-22 11:37:45 公開日:2024-06-18
# ソフトアテンション機構を用いた自己適応型物理情報ニューラルネットワーク

Self-Adaptive Physics-Informed Neural Networks using a Soft Attention Mechanism ( http://arxiv.org/abs/2009.04544v5 )

ライセンス: Link先を確認
Levi McClenny, Ulisses Braga-Neto, (参考訳) 近年,非線形偏微分方程式(PDE)の数値解に対するディープニューラルネットワークの有望な応用として,物理情報ニューラルネットワーク(PINN)が出現している。 しかし、ニューラルネットワークが「剛性」PDEの解の頑丈な点を正確に適合させるためには適応的な手順が必要であることが認識されている。 本稿では,PINNを適応的にトレーニングする方法として,適応ウェイトを完全にトレーニング可能とし,各トレーニングポイントに個別に適用することにより,解のどの領域が困難であるかを自律的に学習し,それらに集中せざるを得ないニューラルネットワークを提案する。 自己適応重みは、コンピュータビジョンで使用される同様のメカニズムを連想させるソフトな乗法的ソフトアテンションマスクを規定する。 これらのSA-PINNの背後にある基本的な考え方は、損失の増加に応じて重みを増大させることである。 さらに、ガウス過程回帰を用いて自己適応重みの連続写像を構築する方法を示し、従来の勾配勾配勾配が正確な解を生成するのに十分でない問題に確率勾配勾配を適用できるようにする。 最後に,SA-PINNに対するニューラル・タンジェント・カーネル・マトリックスを導出し,それを用いて,無限大のPINNの制限の場合において,自己適応重みがトレーニングの力学に与える影響のヒューリスティックな理解を得ることにより,異なる損失項に対応するNTK行列の固有値の滑らかな等化を生成することで,SA-PINNが機能することを示唆する。 線形および非線形のベンチマーク問題による数値実験では、SA-PINNはL2エラーにおける他の最先端のPINNアルゴリズムよりも優れ、訓練エポック数は少ない。

Physics-Informed Neural Networks (PINNs) have emerged recently as a promising application of deep neural networks to the numerical solution of nonlinear partial differential equations (PDEs). However, it has been recognized that adaptive procedures are needed to force the neural network to fit accurately the stubborn spots in the solution of "stiff" PDEs. In this paper, we propose a fundamentally new way to train PINNs adaptively, where the adaptation weights are fully trainable and applied to each training point individually, so the neural network learns autonomously which regions of the solution are difficult and is forced to focus on them. The self-adaptation weights specify a soft multiplicative soft attention mask, which is reminiscent of similar mechanisms used in computer vision. The basic idea behind these SA-PINNs is to make the weights increase as the corresponding losses increase, which is accomplished by training the network to simultaneously minimize the losses and maximize the weights. In addition, we show how to build a continuous map of self-adaptive weights using Gaussian Process regression, which allows the use of stochastic gradient descent in problems where conventional gradient descent is not enough to produce accurate solutions. Finally, we derive the Neural Tangent Kernel matrix for SA-PINNs and use it to obtain a heuristic understanding of the effect of the self-adaptive weights on the dynamics of training in the limiting case of infinitely-wide PINNs, which suggests that SA-PINNs work by producing a smooth equalization of the eigenvalues of the NTK matrix corresponding to the different loss terms. In numerical experiments with several linear and nonlinear benchmark problems, the SA-PINN outperformed other state-of-the-art PINN algorithm in L2 error, while using a smaller number of training epochs.
翻訳日:2024-06-22 11:37:45 公開日:2024-06-18
# 複数のクラスにおけるグラフニューラルネットワークの信号伝搬改善

Improving Signed Propagation of Graph Neural Network Under Multiple Classes ( http://arxiv.org/abs/2301.08918v6 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim, (参考訳) 隣接ノードから情報を収集するメッセージパスグラフニューラルネットワーク(GNN)は、異種グラフ上で不適切なパフォーマンスを達成する。 この問題を解決するための様々なスキームが提案され、異種縁に署名された情報を伝播することが注目されている。 最近、いくつかの研究は、署名された伝搬は常にバイナリクラスのシナリオで性能改善につながるという理論的分析を提供している。 しかし、先行分析はマルチクラスベンチマークデータセットとうまく一致しない。 メッセージパッシング(Message-passing):2つのノードが異なるクラスに属し、高い類似性を持つ場合、署名された伝搬は分離性を低下させることができる。 2)パラメータ更新:署名された隣人の予測の不確実性(例えば衝突証拠)がトレーニング中に増加し,アルゴリズムの安定性を損なう可能性がある。 本研究は,マルチクラスグラフに基づく署名伝達を改善するための2つの新しい手法を提案する。 提案手法はキャリブレーションとロバスト性の確保を両立させ,不確実性を低減させる。 6つのベンチマークグラフデータセットに対する広範な実験により,本定理の有効性を示す。

Message-passing Graph Neural Networks (GNNs), which collect information from adjacent nodes achieve dismal performance on heterophilic graphs. Various schemes have been proposed to solve this problem, and propagating signed information on heterophilic edges has gained great attention. Recently, some works provided theoretical analysis that signed propagation always leads to performance improvement under a binary class scenario. However, we notice that prior analyses do not align well with multi-class benchmark datasets. This paper provides a new understanding of signed propagation for multi-class scenarios and points out two drawbacks in terms of message-passing and parameter update: (1) Message-passing: if two nodes belong to different classes but have a high similarity, signed propagation can decrease the separability. (2) Parameter update: the prediction uncertainty (e.g., conflict evidence) of signed neighbors increases during training, which can impede the stability of the algorithm. Based on the observation, we introduce two novel strategies for improving signed propagation under multi-class graphs. The proposed scheme combines calibration to secure robustness while reducing uncertainty. We show the efficacy of our theorem through extensive experiments on six benchmark graph datasets.
翻訳日:2024-06-22 11:31:36 公開日:2024-06-18
# 結論へのジャンプ: 線形変換を備えたショートカッティング変換器

Jump to Conclusions: Short-Cutting Transformers With Linear Transformations ( http://arxiv.org/abs/2303.09435v2 )

ライセンス: Link先を確認
Alexander Yom Din, Taelin Karidi, Leshem Choshen, Mor Geva, (参考訳) トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。 これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。 これを解明する一つの方法は、隠された表現を最終表現としてキャストし、変換器の計算を相互にバイパスすることである。 本研究では, 線形変換を用いた簡単な鋳造法を提案する。 この近似は、最終層の空間において、すべての層から隠れた表現を検査する一般的な慣習をはるかに超えている。 さらに、言語モデリングの文脈において、本手法は、様々なモデルスケール、アーキテクチャ、データ分布にわたって、隠れた層からより正確な予測を生成する。 これにより、中間表現を覗き込むことができ、GPT-2 と BERT が初期層で既に最終的な出力を予測していることが示される。 次に,最近の早期出口戦略に対する本手法の実用性を実証し,例えば95%の精度維持を目指すと,GPT-2では7.9%,BERTでは5.4%の削減が期待できることを示した。 最後に、我々の手法を線形に近似した部分加群に拡張し、この変化に対して注意が最も寛容であることを確かめる。 私たちのコードと学習したマッピングはhttps://github.com/sashayd/mat.comで公開されています。

Transformer-based language models create hidden representations of their inputs at every layer, but only use final-layer representations for prediction. This obscures the internal decision-making process of the model and the utility of its intermediate representations. One way to elucidate this is to cast the hidden representations as final representations, bypassing the transformer computation in-between. In this work, we suggest a simple method for such casting, using linear transformations. This approximation far exceeds the prevailing practice of inspecting hidden representations from all layers, in the space of the final layer. Moreover, in the context of language modeling, our method produces more accurate predictions from hidden layers, across various model scales, architectures, and data distributions. This allows "peeking" into intermediate representations, showing that GPT-2 and BERT often predict the final output already in early layers. We then demonstrate the practicality of our method to recent early exit strategies, showing that when aiming, for example, at retention of 95% accuracy, our approach saves additional 7.9% layers for GPT-2 and 5.4% layers for BERT. Last, we extend our method to linearly approximate sub-modules, finding that attention is most tolerant to this change. Our code and learned mappings are publicly available at https://github.com/sashayd/mat.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-18
# なぜXAI基準が驚くほど問題になるのか?

Why is plausibility surprisingly problematic as an XAI criterion? ( http://arxiv.org/abs/2303.17707v3 )

ライセンス: Link先を確認
Weina Jin, Xiaoxiao Li, Ghassan Hamarneh, (参考訳) 説明可能な人工知能(XAI)は、AIが社会や高い領域にますます影響を及ぼすにつれて、AIの予測を理解し、透明化し、責任を負わせるという問題によって動機付けられている。 XAIアルゴリズムは、人間の理解可能な方法でAIの決定を説明するように設計されている。 XAIの評価と最適化基準は、XAIアルゴリズムが期待する目標を達成するためのゲートキーパーであり、厳格な検査に耐えるべきである。 XAI の科学的厳密性を改善するため,我々は XAI の共通基準である妥当性を初めて批判的に検討する。 これはAIの説明がいかに人間に説得するかを測定し、通常、特徴のローカライゼーションや特徴属性の相関に関するメトリクスによって定量化される。 我々の調査では、もっともらしい説明は、AI決定に対するユーザの理解とローカルな信頼を改善することができるが、それは、理解可能性を高める他の可能なアプローチを捨てること、ユーザを操作する誤解を招く説明を増やすこと、補完的なAIタスクのパフォーマンスを達成できないこと、AIシステム全体のグローバルな信頼を損なうことである。 欠陥は利点を上回るため、XAIアルゴリズムの評価や最適化の基準として可視性を使用することは推奨しません。 また、補完的なヒューマン・AIタスクのパフォーマンスを含むユーザに対する理解性とユーティリティに関するXAIを改善するための新たな方向を特定する。

Explainable artificial intelligence (XAI) is motivated by the problem of making AI predictions understandable, transparent, and responsible, as AI becomes increasingly impactful in society and high-stakes domains. XAI algorithms are designed to explain AI decisions in human-understandable ways. The evaluation and optimization criteria of XAI are gatekeepers for XAI algorithms to achieve their expected goals and should withstand rigorous inspection. To improve the scientific rigor of XAI, we conduct the first critical examination of a common XAI criterion: plausibility. It measures how convincing the AI explanation is to humans, and is usually quantified by metrics on feature localization or correlation of feature attribution. Our examination shows, although plausible explanations can improve users' understanding and local trust in an AI decision, doing so is at the cost of abandoning other possible approaches of enhancing understandability, increasing misleading explanations that manipulate users, being unable to achieve complementary human-AI task performance, and deteriorating users' global trust in the overall AI system. Because the flaws outweigh the benefits, we do not recommend using plausibility as a criterion to evaluate or optimize XAI algorithms. We also identify new directions to improve XAI on understandability and utility to users including complementary human-AI task performance.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-18
# マイクロ波コム駆動高インピーダンス超伝導回路における消散により保護されるGKP量子ビット

A GKP qubit protected by dissipation in a high-impedance superconducting circuit driven by a microwave frequency comb ( http://arxiv.org/abs/2304.01425v2 )

ライセンス: Link先を確認
Lev-Arcady Sellem, Alain Sarlette, Zaki Leghtas, Mazyar Mirrahimi, Pierre Rouchon, Philippe Campagne-Ibarcq, (参考訳) 本稿では,GKP量子ビットの生成,保護,制御を行う新しい手法を提案する。 マイクロ波周波数コムを用いてジョセフソン回路をパラメトリック変調し、高いインピーダンス回路モードの散逸ダイナミクスを強制し、有限エネルギーGKP符号を自律的に安定化させる。 符号化されたGKP量子ビットは、超伝導回路をプレーグする全ての支配的なデコヒーレンスチャネルに対して、準粒子中毒に対して堅牢に保護されている。 特に、放散工学に利用された補助モードからのノイズは、論理レベルでは伝播しない。 最先端の実験装置では、符号化された量子ビット寿命は、破壊点を超えて2桁まで拡大し、製造・制御エレクトロニクスの進歩により大幅に改善できると見積もっている。 クビットの初期化、クリフォードゲートによる読み出し、制御は、コード安定化を維持しながら行うことができ、フォールトトレラントな量子コンピューティングアーキテクチャにおけるGKP量子ビットの組み立てへの道を開くことができる。

We propose a novel approach to generate, protect and control GKP qubits. It employs a microwave frequency comb parametrically modulating a Josephson circuit to enforce a dissipative dynamics of a high impedance circuit mode, autonomously stabilizing the finite-energy GKP code. The encoded GKP qubit is robustly protected against all dominant decoherence channels plaguing superconducting circuits but quasi-particle poisoning. In particular, noise from ancillary modes leveraged for dissipation engineering does not propagate at the logical level. In a state-of-the-art experimental setup, we estimate that the encoded qubit lifetime could extend two orders of magnitude beyond the break-even point, with substantial margin for improvement through progress in fabrication and control electronics. Qubit initialization, readout and control via Clifford gates can be performed while maintaining the code stabilization, paving the way toward the assembly of GKP qubits in a fault-tolerant quantum computing architecture.
翻訳日:2024-06-22 09:10:16 公開日:2024-06-18
# セットバリューフィードバックによるオンライン学習

Online Learning with Set-Valued Feedback ( http://arxiv.org/abs/2306.06247v4 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari, (参考訳) 学習者は1つのラベルを予測するが、フィードバックとして‘textit{set of labels’を受信する。 このモデルでは、学習者は、明らかにされた集合に含まれるラベルを出力しないようペナル化される。 単一ラベルフィードバックによるオンラインマルチクラス学習とは異なり、決定論的かつランダム化されたオンライン学習容易性は、セット値フィードバックによる実現可能な設定であっても、 \textit{not equivalent} であることを示す。 そこで我々は, 決定論的およびランダムなオンライン学習を, 実現可能な設定でそれぞれ特徴付ける, Set Littlestone と Measure Shattering の2つの新しい組合せ次元を与える。 さらに、測定シェータリング次元は、非依存設定におけるオンライン学習性を特徴付け、ミニマックス後悔を厳格に定量化することを示す。 最後に, オンラインマルチラベルランキング, オンラインマルチラベル分類, 間隔値応答を用いた実数値予測という3つの実践的学習環境において, ミニマックス後悔の限界を確立するために, 実験結果を用いた。

We study a variant of online multiclass classification where the learner predicts a single label but receives a \textit{set of labels} as feedback. In this model, the learner is penalized for not outputting a label contained in the revealed set. We show that unlike online multiclass learning with single-label feedback, deterministic and randomized online learnability are \textit{not equivalent} even in the realizable setting with set-valued feedback. Accordingly, we give two new combinatorial dimensions, named the Set Littlestone and Measure Shattering dimension, that tightly characterize deterministic and randomized online learnability respectively in the realizable setting. In addition, we show that the Measure Shattering dimension characterizes online learnability in the agnostic setting and tightly quantifies the minimax regret. Finally, we use our results to establish bounds on the minimax regret for three practical learning settings: online multilabel ranking, online multilabel classification, and real-valued prediction with interval-valued response.
翻訳日:2024-06-22 09:00:25 公開日:2024-06-18
# スピン二元ブラックホール融合の高次波動モード信号検出のための物理インスピレーション付き時空間グラフAIアンサンブル

Physics-inspired spatiotemporal-graph AI ensemble for the detection of higher order wave mode signals of spinning binary black hole mergers ( http://arxiv.org/abs/2306.15728v2 )

ライセンス: Link先を確認
Minyang Tian, E. A. Huerta, Huihuo Zheng, Prayush Kumar, (参考訳) 本稿では, 準円, 回転, 不要な二元ブラックホール融合を, 高次重力波モード$(l, |m|)=\{(2, 2), (2, 1), (3, 3), (3, 3), (4, 4)\}$, モード混合効果$l = 3, |m| = 2$高調波で検出するためのAIモデルを提案する。 これらのAIモデルは、ハイブリッド拡張畳み込みニューラルネットワークを組み合わせて、重力波の短距離および長距離の時系列情報の両方を正確にモデル化し、グラフニューラルネットワークは重力波観測所間の空間的相関を捉え、高度なLIGOとVirgo検出器を含む3つの検出器ネットワークにおける信号の存在を一貫して記述し識別する。 合成ノイズを用いてこれらの時空間グラフAIモデルをトレーニングし、120万のモデル波形を用いて、ALCFのポラリススーパーコンピュータで256のA100 GPUを使用して1.7時間以内にこの信号多様体を密集サンプリングした。 当社の分散トレーニングアプローチには、最適なパフォーマンスと、512 A100 GPUまでの強力なスケーリングがありました。 これらのAIアンサンブルを使用して、3つの検出器ネットワークからデータを処理し、4つのAIモデルのアンサンブルが信号検出の最先端のパフォーマンスを実現し、検索されたデータの10年毎に2つの誤分類を報告した。 我々は、Polarisスーパーコンピュータに128GPU、Thetaスーパーコンピュータに128ノードのAI推論を配布し、3.5時間以内に3つの検出器ネットワークから10年間の重力波データの処理を完了した。 最後に、2020年2月のO3b LIGO/Virgo観測計画の一環として、これらのAIアンサンブルを微調整して処理し、Advanced LIGOとAdvanced Virgoデータで同時に特定された6つの重力波と、ゼロの偽陽性を発見した。 この分析は、1つのA100 GPUを使用して1時間で完了した。

We present a new class of AI models for the detection of quasi-circular, spinning, non-precessing binary black hole mergers whose waveforms include the higher order gravitational wave modes $(l, |m|)=\{(2, 2), (2, 1), (3, 3), (3, 2), (4, 4)\}$, and mode mixing effects in the $l = 3, |m| = 2$ harmonics. These AI models combine hybrid dilated convolution neural networks to accurately model both short- and long-range temporal sequential information of gravitational waves; and graph neural networks to capture spatial correlations among gravitational wave observatories to consistently describe and identify the presence of a signal in a three detector network encompassing the Advanced LIGO and Virgo detectors. We first trained these spatiotemporal-graph AI models using synthetic noise, using 1.2 million modeled waveforms to densely sample this signal manifold, within 1.7 hours using 256 A100 GPUs in the Polaris supercomputer at the ALCF. Our distributed training approach had optimal performance, and strong scaling up to 512 A100 GPUs. With these AI ensembles we processed data from a three detector network, and found that an ensemble of 4 AI models achieves state-of-the-art performance for signal detection, and reports two misclassifications for every decade of searched data. We distributed AI inference over 128 GPUs in the Polaris supercomputer and 128 nodes in the Theta supercomputer, and completed the processing of a decade of gravitational wave data from a three detector network within 3.5 hours. Finally, we fine-tuned these AI ensembles to process the entire month of February 2020, which is part of the O3b LIGO/Virgo observation run, and found 6 gravitational waves, concurrently identified in Advanced LIGO and Advanced Virgo data, and zero false positives. This analysis was completed in one hour using one A100 GPU.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-18
# ルーティング問題に対する逆最適化

Inverse Optimization for Routing Problems ( http://arxiv.org/abs/2307.07357v3 )

ライセンス: Link先を確認
Pedro Zattoni Scroccaro, Piet van Beek, Peyman Mohajerin Esfahani, Bilge Atasoy, (参考訳) Inverse Optimization (IO) を用いたルーティング問題における意思決定者の行動学習手法を提案する。 IOフレームワークは教師付き学習カテゴリに該当し、対象の振る舞いが未知のコスト関数のオプティマイザであるという前提に基づいて構築される。 このコスト関数は、過去のデータを通して学習され、ルーティングの問題の文脈では、意思決定者のルーティングの好みとして解釈できる。 本研究の主な貢献は,ルーティング問題に適した仮説関数,損失関数,確率的一階述語アルゴリズムを備えたIO手法を提案することである。 Amazon Last Mile Routing Research Challengeでは、何千もの現実世界のルーティング例を使って、人間のドライバーのルーティングの好みを再現するモデルを学ぶことを目標としています。 最終IO学習ルーティングモデルでは,最終ラウンドに出場する48モデルと比較して2位にランクインした。 提案手法の柔軟性と実世界の可能性を示し,ルーティング問題における意思決定者の判断から学ぶ。

We propose a method for learning decision-makers' behavior in routing problems using Inverse Optimization (IO). The IO framework falls into the supervised learning category and builds on the premise that the target behavior is an optimizer of an unknown cost function. This cost function is to be learned through historical data, and in the context of routing problems, can be interpreted as the routing preferences of the decision-makers. In this view, the main contributions of this study are to propose an IO methodology with a hypothesis function, loss function, and stochastic first-order algorithm tailored to routing problems. We further test our IO approach in the Amazon Last Mile Routing Research Challenge, where the goal is to learn models that replicate the routing preferences of human drivers, using thousands of real-world routing examples. Our final IO-learned routing model achieves a score that ranks 2nd compared with the 48 models that qualified for the final round of the challenge. Our examples and results showcase the flexibility and real-world potential of the proposed IO methodology to learn from decision-makers' decisions in routing problems.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-18
# ブラックボックス変分推論の線形収束:着地すべきか?

Linear Convergence of Black-Box Variational Inference: Should We Stick the Landing? ( http://arxiv.org/abs/2307.14642v6 )

ライセンス: Link先を確認
Kyurae Kim, Yian Ma, Jacob R. Gardner, (参考訳) 制御変数を持つブラックボックス変分推論(BBVI)、特にスタンディング・ザ・ランディング(STL)推定器は、完全に変分家族仕様の下で幾何的(伝統的に「線形」と呼ばれる)速度で収束することを示す。 特に、不特定変分族を含むSTL推定器の勾配分散の2次境界を証明した。 二次分散条件に関する以前の研究と組み合わさって、これはプロジェクテッド確率勾配勾配を用いたBBVIの収束を直接意味する。 射影作用素に対しては、射影が$\Theta(d)$時間で計算可能な三角形のスケール行列を持つ領域を考える。 また,正規閉形式エントロピー勾配推定器の既存解析を改善し,STL推定器との比較を可能にした。

We prove that black-box variational inference (BBVI) with control variates, particularly the sticking-the-landing (STL) estimator, converges at a geometric (traditionally called "linear") rate under perfect variational family specification. In particular, we prove a quadratic bound on the gradient variance of the STL estimator, one which encompasses misspecified variational families. Combined with previous works on the quadratic variance condition, this directly implies convergence of BBVI with the use of projected stochastic gradient descent. For the projection operator, we consider a domain with triangular scale matrices, which the projection onto is computable in $\Theta(d)$ time, where $d$ is the dimensionality of the target posterior. We also improve existing analysis on the regular closed-form entropy gradient estimators, which enables comparison against the STL estimator, providing explicit non-asymptotic complexity guarantees for both.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-18
# 「致命的な負」:静的分析に基づくセキュリティテストの産業的視点を理解する

"False negative -- that one is going to kill you": Understanding Industry Perspectives of Static Analysis based Security Testing ( http://arxiv.org/abs/2307.16325v3 )

ライセンス: Link先を確認
Amit Seal Ami, Kevin Moran, Denys Poshyvanyk, Adwait Nadkarni, (参考訳) 静的分析ベースのセキュリティテスト(SAST)ツールなど,自動セキュリティ分析技術への需要は増加を続けている。 脆弱性を見つけるために開発者が効果的に活用するSASTを開発するためには、研究者やツールデザイナは、開発者がSASTをどのように認識し、選択し、使用するか、ツールの制限を知っていようと、その制限にどう対処するか、といったことを理解する必要がある。 本稿では,SASTを利用する開発者が経験した仮定,期待,信念,課題について質的研究を行う。 私たちは、さまざまなソフトウェア開発の専門知識を持つ20人の実践者と、さまざまなセキュリティ、製品、組織的バックグラウンドを持つ、詳細な半構造化されたインタビューを行います。 我々は、SASTに関する開発者の認識と欲求に光を当てた17ドルの重要な発見を特定し、また、SAST設計の優先順位に対する長年の信念に挑戦する現状のギャップを露呈する。 最後に,本研究の成果の分析に根ざした研究者や実践者に対して,具体的な今後の方向性を提供する。

The demand for automated security analysis techniques, such as static analysis based security testing (SAST) tools continues to increase. To develop SASTs that are effectively leveraged by developers for finding vulnerabilities, researchers and tool designers must understand how developers perceive, select, and use SASTs, what they expect from the tools, whether they know of the limitations of the tools, and how they address those limitations. This paper describes a qualitative study that explores the assumptions, expectations, beliefs, and challenges experienced by developers who use SASTs. We perform in-depth, semi-structured interviews with 20 practitioners who possess a diverse range of software development expertise, as well as a variety of unique security, product, and organizational backgrounds. We identify $17$ key findings that shed light on developer perceptions and desires related to SASTs, and also expose gaps in the status quo - challenging long-held beliefs in SAST design priorities. Finally, we provide concrete future directions for researchers and practitioners rooted in an analysis of our findings.
翻訳日:2024-06-22 08:50:40 公開日:2024-06-18
# どんなに安全か? 画像制御された自律神経の安全性予測の校正

How Safe Am I Given What I See? Calibrated Prediction of Safety Chances for Image-Controlled Autonomy ( http://arxiv.org/abs/2308.12252v4 )

ライセンス: Link先を確認
Zhenjiang Mao, Carson Sobolewski, Ivan Ruchkin, (参考訳) エンド・ツー・エンドの学習は、自律システムを開発するための主要なパラダイムとして登場した。 残念なことに、その性能と利便性は、安全性を保証する上でさらに大きな課題となる。 この課題の鍵となる要素は、従来の保証法が発展する低次元かつ解釈可能な動的状態の概念が存在しないことである。 本稿では, オンラインの安全性予測問題に着目し, 低次元状態を必要としない生成的世界モデルに基づく, 構成可能な学習パイプライン群を提案する。 これらのパイプラインを実装するために,予測誘導分布シフトの下で,安全インフォームト表現と安全性ラベルの欠落を学習する上での課題を克服する。 これらのパイプラインは、共形予測に基づいて安全確率予測の統計的キャリブレーションを保証する。 画像制御システム(レーシングカーとカートポール)の2つのケーススタディにおいて,提案した学習パイプラインを広範囲に評価する。

End-to-end learning has emerged as a major paradigm for developing autonomous systems. Unfortunately, with its performance and convenience comes an even greater challenge of safety assurance. A key factor of this challenge is the absence of the notion of a low-dimensional and interpretable dynamical state, around which traditional assurance methods revolve. Focusing on the online safety prediction problem, this paper proposes a configurable family of learning pipelines based on generative world models, which do not require low-dimensional states. To implement these pipelines, we overcome the challenges of learning safety-informed latent representations and missing safety labels under prediction-induced distribution shift. These pipelines come with statistical calibration guarantees on their safety chance predictions based on conformal prediction. We perform an extensive evaluation of the proposed learning pipelines on two case studies of image-controlled systems: a racing car and a cartpole.
翻訳日:2024-06-22 06:47:03 公開日:2024-06-18
# MedSyn:高忠実度3DCT画像のテキスト誘導型解剖学的合成

MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images ( http://arxiv.org/abs/2310.03559v5 )

ライセンス: Link先を確認
Yanwu Xu, Li Sun, Wei Peng, Shyam Visweswaran, Kayhan Batmanghelich, (参考訳) 本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。 拡散に基づく生成モデルが医療画像にますます使われている一方で、現在の最先端のアプローチは低解像度の出力に限られており、放射線学レポートの豊富な情報の利用が不十分である。 放射線学報告は、追加のガイダンスを提供し、画像合成のきめ細かい制御を提供することにより、生成プロセスを強化することができる。 それでも、高解像度の3D画像へのテキスト誘導生成の拡大は、重要な記憶と解剖学的詳細保存の課題を引き起こす。 メモリ問題に対処するため,UNetアーキテクチャを改良した階層型スキームを導入する。 まずテキストに条件付けされた低解像度画像の合成から始め、全容積データのための後続のジェネレータの基盤として機能する。 生成した試料の解剖学的有用性を確保するため,CT画像とともに血管,気道,小葉のセグメンテーションマスクを生成することにより,さらなるガイダンスを提供する。 このモデルは、テキスト入力とセグメンテーションタスクを使用して合成画像を生成する能力を示す。 比較評価の結果,本手法はGANおよび拡散法に基づく最も先進的なモデルと比較して優れた性能を示し,特に断線,気道,血管構造などの重要な解剖学的特徴を正確に保持できることが示唆された。 この革新は新たな可能性をもたらす。 本研究は,(1)テキスト・プロンプトと解剖学的要素に基づく画像生成手法の開発,(2)解剖学的要素に基づく新しい画像生成能力の2つの目的に焦点をあてる。 画像生成の進歩は、多くの下流タスクを強化するために応用できる。

This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports' abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.
翻訳日:2024-06-22 06:37:18 公開日:2024-06-18
# CompA:音声言語モデルにおける合成推論のギャップに対処する

CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models ( http://arxiv.org/abs/2310.08753v3 )

ライセンス: Link先を確認
Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, Ramaneswaran S, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, (参考訳) 音声の基本的特徴は、その構成的性質である。 音声と言語モダリティの共有表現を学習するコントラストアプローチ(例えばCLAP)を用いて訓練された音声言語モデル(ALM)は、ゼロショット音声分類や音声検索など、多くのダウンストリームアプリケーションの性能を改善した。 しかし、これらのモデルが構成的推論を効果的に行う能力はほとんど探索されておらず、さらなる研究が必要である。 本稿では,ALMの合成推論を評価するために,実世界の音声サンプルの大多数を専門家がアノテートした2つのベンチマークの集合であるCompAを提案する。 提案したCompA-orderは、ALMが音声中の音響イベントの順序や発生をいかによく理解しているかを評価し、CompA-attributeは音響イベントの属性結合を評価する。 どちらのベンチマークからも、両方のオーディオが同じ音響イベントを持つが、異なる構成を持つ2つのオーディオキャプションペアで構成されている。 ALMは、正しい音声と正しいキャプションとの適合性を評価する。 このベンチマークを用いて、現在のALMはランダムな確率よりもわずかに優れた性能を示し、構成的推論に苦慮している。 次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。 CompA-CLAPをトレーニングするために、コンポジション対応のハードネガティブによるコントラストトレーニングの改善を提案し、より集中的なトレーニングを可能にした。 次に,モデルが構成理解の微粒化を学習し,利用可能な構成音声の急激な不足を克服するのに役立つ,新しいモジュール型コントラスト損失を提案する。 CompA-CLAPは、CompAベンチマークのすべてのベースラインモデルよりも大幅に改善され、その優れた構成推論能力を示している。

A fundamental characteristic of audio is its compositional nature. Audio-language models (ALMs) trained using a contrastive approach (e.g., CLAP) that learns a shared representation between audio and language modalities have improved performance in many downstream applications, including zero-shot audio classification, audio retrieval, etc. However, the ability of these models to effectively perform compositional reasoning remains largely unexplored and necessitates additional research. In this paper, we propose CompA, a collection of two expert-annotated benchmarks with a majority of real-world audio samples, to evaluate compositional reasoning in ALMs. Our proposed CompA-order evaluates how well an ALM understands the order or occurrence of acoustic events in audio, and CompA-attribute evaluates attribute-binding of acoustic events. An instance from either benchmark consists of two audio-caption pairs, where both audios have the same acoustic events but with different compositions. An ALM is evaluated on how well it matches the right audio to the right caption. Using this benchmark, we first show that current ALMs perform only marginally better than random chance, thereby struggling with compositional reasoning. Next, we propose CompA-CLAP, where we fine-tune CLAP using a novel learning method to improve its compositional reasoning abilities. To train CompA-CLAP, we first propose improvements to contrastive training with composition-aware hard negatives, allowing for more focused training. Next, we propose a novel modular contrastive loss that helps the model learn fine-grained compositional understanding and overcomes the acute scarcity of openly available compositional audios. CompA-CLAP significantly improves over all our baseline models on the CompA benchmark, indicating its superior compositional reasoning capabilities.
翻訳日:2024-06-22 06:27:34 公開日:2024-06-18
# Appleのテイスティング:コンビニアルディメンジョンとミニマックスレート

Apple Tasting: Combinatorial Dimensions and Minimax Rates ( http://arxiv.org/abs/2310.19064v3 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ananth Raman, Ambuj Tewari, (参考訳) emph{apple tasting} フィードバックに基づくオンラインバイナリ分類では、学習者は ``1" を予測した場合のみ、真のラベルを観察する。 はじめはcite{helmbold2000apple} によって研究され、この古典的な部分フィードバック設定を再考し、組合せ論的観点からオンライン学習可能性を研究する。 リトルストーン次元は, リンゴの味付けの厳密な定量的評価を提供し続け, クエント{helmbold2000apple} によるオープンな質問を閉じていることを示す。 さらに,実現可能な設定における最小誤差を厳密に定量化する,エフェクト幅と呼ばれる新しい組合せパラメータを与える。 コーナリーとして、エフェクト幅を用いて、実現可能な設定において期待されるミス数のミニマックスの'emph{trichotomy} を確立する。 特に、実現可能な設定では、リンゴのテイスティングフィードバックの下で学習者の期待されるミス数は、$\Theta(1), \Theta(\sqrt{T})$, $\Theta(T)$である。 これは、$\Theta(1)$と$\Theta(T)$のみが可能であるようなフル情報実現可能な設定とは対照的である。

In online binary classification under \emph{apple tasting} feedback, the learner only observes the true label if it predicts ``1". First studied by \cite{helmbold2000apple}, we revisit this classical partial-feedback setting and study online learnability from a combinatorial perspective. We show that the Littlestone dimension continues to provide a tight quantitative characterization of apple tasting in the agnostic setting, closing an open question posed by \cite{helmbold2000apple}. In addition, we give a new combinatorial parameter, called the Effective width, that tightly quantifies the minimax expected mistakes in the realizable setting. As a corollary, we use the Effective width to establish a \emph{trichotomy} of the minimax expected number of mistakes in the realizable setting. In particular, we show that in the realizable setting, the expected number of mistakes of any learner, under apple tasting feedback, can be $\Theta(1), \Theta(\sqrt{T})$, or $\Theta(T)$. This is in contrast to the full-information realizable setting where only $\Theta(1)$ and $\Theta(T)$ are possible.
翻訳日:2024-06-22 06:27:34 公開日:2024-06-18
# 量子データからの学習のための情報理論一般化境界

Information-theoretic generalization bounds for learning from quantum data ( http://arxiv.org/abs/2311.05529v2 )

ライセンス: Link先を確認
Matthias Caro, Tom Gur, Cambyse Rouzé, Daniel Stilck França, Sathyawageeswar Subramanian, (参考訳) 学習タスクは、量子情報と計算において、ますます顕著な役割を担っている。 それらは、おそらくほぼ正しい(PAC)学習の枠組みに関する状態判別や気象学のような基本的な問題から、最近提案された状態トモグラフィーの影変種まで様々である。 しかし、量子学習理論の多くの方向は、これまで別々に進化してきた。 古典量子データに基づく学習により量子学習を記述するための一般的な数学的フォーマリズムを提案し、学習された仮説がいかに新しいデータに一般化するかをテストする。 本稿では,古典的および量子的情報理論量の観点から,量子学習者の期待する一般化誤差に限定して,学習者の仮説が学習中に見る特定のデータにどの程度強く依存するかを評価する。 これを実現するために、量子最適輸送と量子濃度の不等式からのツールを用いて、古典的機械学習の最近の情報理論の一般化境界を満たす非可換なデカップリング補題を確立する。 我々のフレームワークは、量子状態判別、PAC学習量子状態、量子パラメータ推定、古典関数の量子PAC学習など、様々な量子学習シナリオに対して直感的にアクセス可能な一般化境界を包含し、提供する。 これにより、我々の研究は量子学習における量子情報理論的な視点を統一するための基礎を築いた。

Learning tasks play an increasingly prominent role in quantum information and computation. They range from fundamental problems such as state discrimination and metrology over the framework of quantum probably approximately correct (PAC) learning, to the recently proposed shadow variants of state tomography. However, the many directions of quantum learning theory have so far evolved separately. We propose a general mathematical formalism for describing quantum learning by training on classical-quantum data and then testing how well the learned hypothesis generalizes to new data. In this framework, we prove bounds on the expected generalization error of a quantum learner in terms of classical and quantum information-theoretic quantities measuring how strongly the learner's hypothesis depends on the specific data seen during training. To achieve this, we use tools from quantum optimal transport and quantum concentration inequalities to establish non-commutative versions of decoupling lemmas that underlie recent information-theoretic generalization bounds for classical machine learning. Our framework encompasses and gives intuitively accessible generalization bounds for a variety of quantum learning scenarios such as quantum state discrimination, PAC learning quantum states, quantum parameter estimation, and quantumly PAC learning classical functions. Thereby, our work lays a foundation for a unifying quantum information-theoretic perspective on quantum learning.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-18
# MAVEN-Arg: イベント引数アノテーションによるオールインワンイベント理解データセットのパズルの補完

MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation ( http://arxiv.org/abs/2311.09105v2 )

ライセンス: Link先を確認
Xiaozhi Wang, Hao Peng, Yong Guan, Kaisheng Zeng, Jianhui Chen, Lei Hou, Xu Han, Yankai Lin, Zhiyuan Liu, Ruobing Xie, Jie Zhou, Juanzi Li, (参考訳) テキスト中のイベントを理解することは、イベントの発生を検出し、イベントの議論を抽出し、イベント間の関係を分析することを必要とする自然言語理解の中核的な目的である。 しかしながら、タスクの複雑さによってもたらされるアノテーションの問題のため、イベント理解の全プロセスをカバーする大規模なデータセットは、長い間欠落していた。 本稿では、MAVENデータセットにイベント引数アノテーションを付加し、イベント検出、イベント引数抽出(EAE)、イベント関係抽出をサポートする最初のオールインワンデータセットを作成するMAVEN-Argを紹介する。 EAEベンチマークとして、MAVEN-Argは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)文書レベルでエンティティと非エンティティのイベント引数の両方をアノテートするEAEの全タスク変種をサポートする包括的なアノテーション、の3つの利点を提供している。 実験の結果、MAVEN-Argは細調整されたEAEモデルとプロプライエタリな大規模言語モデル(LLM)の両方でかなり難しいことが示されている。 さらに、オールインワンデータセットの利点を実証するために、LLMによる潜在的なアプリケーション、将来のイベント予測を予備的に検討する。 MAVEN-Argとコードはhttps://github.com/THU-KEG/MAVEN-Argumentから取得できる。

Understanding events in texts is a core objective of natural language understanding, which requires detecting event occurrences, extracting event arguments, and analyzing inter-event relationships. However, due to the annotation challenges brought by task complexity, a large-scale dataset covering the full process of event understanding has long been absent. In this paper, we introduce MAVEN-Arg, which augments MAVEN datasets with event argument annotations, making the first all-in-one dataset supporting event detection, event argument extraction (EAE), and event relation extraction. As an EAE benchmark, MAVEN-Arg offers three main advantages: (1) a comprehensive schema covering 162 event types and 612 argument roles, all with expert-written definitions and examples; (2) a large data scale, containing 98,591 events and 290,613 arguments obtained with laborious human annotation; (3) the exhaustive annotation supporting all task variants of EAE, which annotates both entity and non-entity event arguments in document level. Experiments indicate that MAVEN-Arg is quite challenging for both fine-tuned EAE models and proprietary large language models (LLMs). Furthermore, to demonstrate the benefits of an all-in-one dataset, we preliminarily explore a potential application, future event prediction, with LLMs. MAVEN-Arg and codes can be obtained from https://github.com/THU-KEG/MAVEN-Argument.
翻訳日:2024-06-22 06:17:50 公開日:2024-06-18
# 電子量子光学における熱パルス

Heat Pulses in Electron Quantum Optics ( http://arxiv.org/abs/2311.16748v2 )

ライセンス: Link先を確認
Pedro Portugal, Fredrik Brange, Christian Flindt, (参考訳) 電子量子光学(Electron quantum optics)は、電子導体における電荷パルスが光子の役割を果たすことで、光の量子理論からアイデアを実現することを目的としている。 実験では、電荷パルスは時間依存電圧によって励起されるが、電極を加熱して冷却することで熱パルスを生成することもできる。 ここでは、メソスコピック導体における熱パルスのフロケ散乱理論を定式化することによって、この興味深いアイデアを探求する。 熱パルスの断熱放出は、線形応答において熱伝導量子によって与えられる熱電流につながる。 しかし, 熱電流に対する揺らぎ散逸定理の妥当性が議論されている高周波成分も満たされている。 熱パルスは無電荷であり、量子点接触の出力における分配ノイズを評価して電子ホールの含有量を調査する。 また、Hong-Ou--Mandelセットアップを使用して、パルスがバラバラなのかアンチバンチなのかを調べます。 最後に、電流を生成するために、電子-ホール対称性を破り、熱電効果を可能にするマッハ-ツェンダー干渉計を用いる。 我々の研究は、メソスコピック導体における熱パルスの系統的な研究の道を開くものであり、将来の実験を刺激する可能性がある。

Electron quantum optics aims to realize ideas from the quantum theory of light with the role of photons being played by charge pulses in electronic conductors. Experimentally, the charge pulses are excited by time-dependent voltages, however, one could also generate heat pulses by heating and cooling an electrode. Here, we explore this intriguing idea by formulating a Floquet scattering theory of heat pulses in mesoscopic conductors. The adiabatic emission of heat pulses leads to a heat current that in linear response is given by the thermal conductance quantum. However, we also find a high-frequency component, which ensures that the fluctuation-dissipation theorem for heat currents, whose validity has been debated, is fulfilled. The heat pulses are uncharged, and we probe their electron-hole content by evaluating the partition noise in the outputs of a quantum point contact. We also employ a Hong--Ou--Mandel setup to examine if the pulses bunch or antibunch. Finally, to generate an electric current, we use a Mach--Zehnder interferometer that breaks the electron-hole symmetry and thereby enables a thermoelectric effect. Our work paves the way for systematic investigations of heat pulses in mesoscopic conductors, and it may stimulate future experiments.
翻訳日:2024-06-22 06:08:04 公開日:2024-06-18
# 非分離バイナリ分類の再検討と異常検出への応用

Revisiting Non-separable Binary Classification and its Applications in Anomaly Detection ( http://arxiv.org/abs/2312.01541v2 )

ライセンス: Link先を確認
Matthew Lau, Ismaila Seck, Athanasios P Meliopoulos, Wenke Lee, Eugene Ndiaye, (参考訳) XORを線形に分類できないことは、多くのディープラーニングを動機付けている。 我々は、この古い問題を再考し、XORの線形分類が実際に可能であることを示す。 ハーフスペース間でデータを分離する代わりに、SVMの目的に適応し、マージン内または外にあるデータを区別する、わずかに異なるパラダイム、平等分離を提案する。 分類器はスムーズな近似でニューラルネットワークパイプラインに統合できる。 その性質から,同値分離が異常検出に適していることを示唆する。 この概念を定式化するために、分類器の容量を定量的に測定し、異常検出のための閉決定領域を形成する閉数を導入する。 この二項分類と異常検出の理論的関係から, 教師付き異常検出実験の仮説を検証し, 同一性分離が目に見える異常と見えない異常の両方を検出することを示した。

The inability to linearly classify XOR has motivated much of deep learning. We revisit this age-old problem and show that linear classification of XOR is indeed possible. Instead of separating data between halfspaces, we propose a slightly different paradigm, equality separation, that adapts the SVM objective to distinguish data within or outside the margin. Our classifier can then be integrated into neural network pipelines with a smooth approximation. From its properties, we intuit that equality separation is suitable for anomaly detection. To formalize this notion, we introduce closing numbers, a quantitative measure on the capacity for classifiers to form closed decision regions for anomaly detection. Springboarding from this theoretical connection between binary classification and anomaly detection, we test our hypothesis on supervised anomaly detection experiments, showing that equality separation can detect both seen and unseen anomalies.
翻訳日:2024-06-22 06:08:04 公開日:2024-06-18
# ALEXR: Convex Finite-Sum Coupled compositional Stochastic Optimizationのための最適単ループアルゴリズム

ALEXR: An Optimal Single-Loop Algorithm for Convex Finite-Sum Coupled Compositional Stochastic Optimization ( http://arxiv.org/abs/2312.02277v4 )

ライセンス: Link先を確認
Bokun Wang, Tianbao Yang, (参考訳) 本稿では、群分散ロバスト最適化(GDRO)、不均衡データによる学習、強化学習、ランク付け学習など、多くのアプリケーションにおける凸型有限結合構成確率最適化(cFCCO)のクラスを再検討する。 これらの問題を解決するために、ALEXRと呼ばれる効率的な単ループプリマル・デュアルブロック座標近似アルゴリズムを導入する。 このアルゴリズムは、主変数の二重変数および確率的近位勾配降下更新に対するブロック座標確率鏡の上昇更新を利用する。 我々は, ALEXR の凸面および強凸面における収束速度を, 関連関数の滑らかさおよび非平滑性条件下で確立し, これまでの滑らかな CFCCO 問題における最良の速度を改善するだけでなく, GDRO の双対形式のようなより困難な非平滑性問題の解法として cFCCO の領域を拡大する。 最後に、ALEXRの収束速度が、検討されたcFCCO問題に対する1次ブロック座標確率アルゴリズムの中で最適であることを示すために、より低い複雑性境界を示す。

This paper revisits a class of convex Finite-Sum Coupled Compositional Stochastic Optimization (cFCCO) problems with many applications, including group distributionally robust optimization (GDRO), learning with imbalanced data, reinforcement learning, and learning to rank. To better solve these problems, we introduce an efficient single-loop primal-dual block-coordinate proximal algorithm, dubbed ALEXR. This algorithm leverages block-coordinate stochastic mirror ascent updates for the dual variable and stochastic proximal gradient descent updates for the primal variable. We establish the convergence rates of ALEXR in both convex and strongly convex cases under smoothness and non-smoothness conditions of involved functions, which not only improve the best rates in previous works on smooth cFCCO problems but also expand the realm of cFCCO for solving more challenging non-smooth problems such as the dual form of GDRO. Finally, we present lower complexity bounds to demonstrate that the convergence rates of ALEXR are optimal among first-order block-coordinate stochastic algorithms for the considered class of cFCCO problems.
翻訳日:2024-06-22 06:08:04 公開日:2024-06-18
# 深層学習バグの再現性向上に向けて--実証的研究

Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study ( http://arxiv.org/abs/2401.03069v2 )

ライセンス: Link先を確認
Mehil B. Shah, Mohammad Masudur Rahman, Foutse Khomh, (参考訳) コンテキスト: ディープラーニングはさまざまな領域で顕著な進歩を遂げています。 しかし、他のソフトウェアシステムと同様に、ディープラーニングシステムはバグを含んでいる。 ディープラーニング技術の大幅な進歩にもかかわらず、ディープラーニングのバグを再現することに注力する研究はほとんどない。 既存の文献では、ディープラーニングのバグのわずか3%が再現可能であり、さらなる研究の必要性を暗示している。 目的:本論文では,ディープラーニングバグの再現性について検討する。 我々は、深層学習バグの再現性を向上できる編集動作と有用な情報を識別する。 メソッド: まず、Stack OverflowとGitHubから3つのフレームワークと22のアーキテクチャにわたって、668のディープラーニングバグのデータセットを構築します。 第2に、668のバグのうち165のバグを階層化サンプリングを用いて選択し、再現性を決定する。 これらのバグを再現しながら、編集動作とそれらの再現に有用な情報を識別する。 第3に、Aprioriアルゴリズムを用いて有用な情報を特定し、特定の種類のバグを再現するために必要なアクションを編集した。 最後に,22名の開発者を対象に,実生活環境における実験結果の有効性について検討した。 結果: 165件のバグのうち148件を再現した。 深層学習のバグを再現するのに役立つ10の編集アクションと5つの有用なコンポーネント情報を特定しました。 我々の発見の助けを借りて、開発者は22.92%のバグを再現し、再生時間を24.35%短縮することができた。 結論:本研究は,ディープラーニングバグ再現性に関する重要な問題に対処する。 専門家や研究者は、この発見を利用してディープラーニングのバグ再現性を向上させることができる。

Context: Deep learning has achieved remarkable progress in various domains. However, like any software system, deep learning systems contain bugs, some of which can have severe impacts, as evidenced by crashes involving autonomous vehicles. Despite substantial advancements in deep learning techniques, little research has focused on reproducing deep learning bugs, which is an essential step for their resolution. Existing literature suggests that only 3% of deep learning bugs are reproducible, underscoring the need for further research. Objective: This paper examines the reproducibility of deep learning bugs. We identify edit actions and useful information that could improve the reproducibility of deep learning bugs. Method: First, we construct a dataset of 668 deep-learning bugs from Stack Overflow and GitHub across three frameworks and 22 architectures. Second, out of the 668 bugs, we select 165 bugs using stratified sampling and attempt to determine their reproducibility. While reproducing these bugs, we identify edit actions and useful information for their reproduction. Third, we used the Apriori algorithm to identify useful information and edit actions required to reproduce specific types of bugs. Finally, we conducted a user study involving 22 developers to assess the effectiveness of our findings in real-life settings. Results: We successfully reproduced 148 out of 165 bugs attempted. We identified ten edit actions and five useful types of component information that can help us reproduce the deep learning bugs. With the help of our findings, the developers were able to reproduce 22.92% more bugs and reduce their reproduction time by 24.35%. Conclusions: Our research addresses the critical issue of deep learning bug reproducibility. Practitioners and researchers can leverage our findings to improve deep learning bug reproducibility.
翻訳日:2024-06-22 05:48:32 公開日:2024-06-18
# 共振器強化光学格子を用いた$^{171}$Yb原子アレイの反復組み立て

Iterative assembly of $^{171}$Yb atom arrays with cavity-enhanced optical lattices ( http://arxiv.org/abs/2401.16177v3 )

ライセンス: Link先を確認
M. A. Norcia, H. Kim, W. B. Cairncross, M. Stone, A. Ryou, M. Jaffe, M. O. Brown, K. Barnes, P. Battaglino, T. C. Bohdanowicz, A. Brown, K. Cassella, C. -A. Chen, R. Coxe, D. Crow, J. Epstein, C. Griger, E. Halperin, F. Hummel, A. M. W. Jones, J. M. Kindem, J. King, K. Kotru, J. Lauigan, M. Li, M. Lu, E. Megidish, J. Marjanovic, M. McDonald, T. Mittiga, J. A. Muniz, S. Narayanaswami, C. Nishiguchi, T. Paule, K. A. Pawlak, L. S. Peng, K. L. Pudenz, D. Rodriguez Perez, A. Smull, D. Stack, M. Urbanek, R. J. M. van de Veerdonk, Z. Vendeiro, L. Wadleigh, T. Wilkason, T. -Y. Wu, X. Xie, E. Zalys-Geller, X. Zhang, B. J. Bloom, (参考訳) 個々のアドレス可能な原子の大きな配列を組み立て、維持することは、中性原子ベースの量子コンピュータとシミュレータの継続的なスケーリングの鍵となる要件である。 本研究では,光ツイーザとキャビティ強化光学格子の相乗的組み合わせと,繰り返し充填された貯留層からのターゲットアレイの漸増充填に基づく,原子配列の組立のための新しいパラダイムを実証する。 このプロトコルでは、ツイーザーは原子の顕微鏡的再配置を提供し、キャビティ強化格子は原子の高速低損失イメージングに十分な深さの多数の光学トラップを作成できる。 このプロトコルを用いて、1225個の光学トラップのほぼ決定論的充填(サイト当たり99%)を実証する。 貯留層は新鮮な原子で繰り返し充填されるため、配列は無期限に充填状態に維持することができる。 このプロトコルは、システム内の1つの原子の寿命を超える大規模なエラー修正量子計算を実行する上で重要な機能である、量子プロセッサへの原子の再ロードと互換性が期待できる。

Assembling and maintaining large arrays of individually addressable atoms is a key requirement for continued scaling of neutral-atom-based quantum computers and simulators. In this work, we demonstrate a new paradigm for assembly of atomic arrays, based on a synergistic combination of optical tweezers and cavity-enhanced optical lattices, and the incremental filling of a target array from a repetitively filled reservoir. In this protocol, the tweezers provide microscopic rearrangement of atoms, while the cavity-enhanced lattices enable the creation of large numbers of optical traps with sufficient depth for rapid low-loss imaging of atoms. We apply this protocol to demonstrate near-deterministic filling (99% per-site occupancy) of 1225-site arrays of optical traps. Because the reservoir is repeatedly filled with fresh atoms, the array can be maintained in a filled state indefinitely. We anticipate that this protocol will be compatible with mid-circuit reloading of atoms into a quantum processor, which will be a key capability for running large-scale error-corrected quantum computations whose durations exceed the lifetime of a single atom in the system.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-18
# Discounted Adaptive Online Learning: to improve regularization

Discounted Adaptive Online Learning: Towards Better Regularization ( http://arxiv.org/abs/2402.02720v2 )

ライセンス: Link先を確認
Zhiyu Zhang, David Bombara, Heng Yang, (参考訳) 敵対的非定常環境におけるオンライン学習について検討する。 未来は過去と大きく異なる可能性があるため、新しいデータが入り込む間、歴史を優雅に忘れることが重要な課題だ。 この直観を定式化するために、オンライン凸最適化における減少した後悔を再考し、適応的(例えば最適な)FTRLベースのアルゴリズムを提案する。 実践的な観点から、これは生涯学習における正規化という古典的な考え方を洗練させ、優れた正規化器を設計することは、適応的オンライン最適化の原理理論によって導かれることを示す。 この結果の補完として、ブラックボックス機械学習モデルの不確実性セットを逐次予測することを目的とした、(Gibbs and Cand\`es, 2021)スタイルのオンライン共形予測問題についても検討する。 提案アルゴリズムのFTRL特性は,従来の勾配差に基づく解析を単純化し,インスタンスに依存した性能保証を実現する。

We study online learning in adversarial nonstationary environments. Since the future can be very different from the past, a critical challenge is to gracefully forget the history while new data comes in. To formalize this intuition, we revisit the discounted regret in online convex optimization, and propose an adaptive (i.e., instance optimal), FTRL-based algorithm that improves the widespread non-adaptive baseline -- gradient descent with a constant learning rate. From a practical perspective, this refines the classical idea of regularization in lifelong learning: we show that designing good regularizers can be guided by the principled theory of adaptive online optimization. Complementing this result, we also consider the (Gibbs and Cand\`es, 2021)-style online conformal prediction problem, where the goal is to sequentially predict the uncertainty sets of a black-box machine learning model. We show that the FTRL nature of our algorithm can simplify the conventional gradient-descent-based analysis, leading to instance-dependent performance guarantees.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-18
# 大規模マルチプレイヤーゲームにおけるヒューマンAIアライメントに向けて

Toward Human-AI Alignment in Large-Scale Multi-Player Games ( http://arxiv.org/abs/2402.03575v2 )

ライセンス: Link先を確認
Sugandha Sharma, Guy Davidson, Khimya Khetarpal, Anssi Kanervisto, Udit Arora, Katja Hofmann, Ida Momennejad, (参考訳) 複雑なマルチエージェントゲームにおける人間とAIのアライメントを達成することは、ゲームプレイを強化する信頼できるAIエージェントを作成するために不可欠である。 本稿では,このアライメントを解釈可能なタスクセットフレームワークを用いて評価する手法を提案する。 このアプローチには3つのコンポーネントがあります。 まず,XboxのBleeding Edge(100K+ゲーム)から,複雑なタスク空間における行動パターンを明らかにすることで,人間のゲームプレイデータを解析する。 このタスク空間は、解釈可能な軸をキャプチャする振る舞い多様体の基底セットとして機能する。 第2に、生成事前学習因果変換器を用いてBleeding EdgeをプレイするようにAIエージェントを訓練し、その動作を測定する。 第3に、提案した行動多様体に人間とAIのゲームプレイを投影し、比較と対比を行う。 これにより、政策の違いを高度な行動概念として解釈することができる。例えば、人間のプレイヤーが戦闘飛行や探索・探索行動において変動を示す一方で、AIプレイヤーは均一性に向かう傾向がある。 さらに、AIエージェントは主にソロプレイに従事し、人間はしばしば協調的で競争的なマルチエージェントパターンに従事している。 これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を浮き彫りにしている。 我々の研究は、AIにおけるアライメントの議論、特に生成的AI研究を前進させ、マルチプレイヤーゲームにおける人間とエージェントのアライメントを解釈可能なフレームワークを提供する。

Achieving human-AI alignment in complex multi-agent games is crucial for creating trustworthy AI agents that enhance gameplay. We propose a method to evaluate this alignment using an interpretable task-sets framework, focusing on high-level behavioral tasks instead of low-level policies. Our approach has three components. First, we analyze extensive human gameplay data from Xbox's Bleeding Edge (100K+ games), uncovering behavioral patterns in a complex task space. This task space serves as a basis set for a behavior manifold capturing interpretable axes: fight-flight, explore-exploit, and solo-multi-agent. Second, we train an AI agent to play Bleeding Edge using a Generative Pretrained Causal Transformer and measure its behavior. Third, we project human and AI gameplay to the proposed behavior manifold to compare and contrast. This allows us to interpret differences in policy as higher-level behavioral concepts, e.g., we find that while human players exhibit variability in fight-flight and explore-exploit behavior, AI players tend towards uniformity. Furthermore, AI agents predominantly engage in solo play, while humans often engage in cooperative and competitive multi-agent patterns. These stark differences underscore the need for interpretable evaluation, design, and integration of AI in human-aligned applications. Our study advances the alignment discussion in AI and especially generative AI research, offering a measurable framework for interpretable human-agent alignment in multiplayer gaming.
翻訳日:2024-06-22 05:38:47 公開日:2024-06-18
# 言語モデルを用いた構造化エンティティ抽出の学習

Learning to Extract Structured Entities Using Language Models ( http://arxiv.org/abs/2402.04437v4 )

ライセンス: Link先を確認
Haolun Wu, Ye Yuan, Liana Mikaelyan, Alexander Meulemans, Xue Liu, James Hensman, Bhaskar Mitra, (参考訳) 機械学習の最近の進歩は情報抽出の分野に大きな影響を与えており、言語モデル(LM)は構造化されていないテキストから構造化された情報を抽出する上で重要な役割を担っている。 以前の作品は、情報抽出を三重項中心として表現し、評価のために精度やリコールのような古典的なメトリクスを使用するのが一般的であった。 タスクをエンティティ中心にすることで、さまざまな視点からより多くの洞察を提供するさまざまなメトリクスの使用を可能にします。 我々は、Structured Entity extractを導入し、モデルパフォーマンスを適切に評価するために設計されたAESOP(Adroximate Entity Set OverlaP)メトリックを提案し、この分野に貢献する。 その後,抽出タスクを複数段階に分解することで,LMのパワーを有効・効率的に活用する新しいモデルを提案する。 定量的・人的側面評価は,本モデルがベースラインより優れており,構造化エンティティ抽出の今後の進歩に期待できる方向を提供する。

Recent advances in machine learning have significantly impacted the field of information extraction, with Language Models (LMs) playing a pivotal role in extracting structured information from unstructured text. Prior works typically represent information extraction as triplet-centric and use classical metrics such as precision and recall for evaluation. We reformulate the task to be entity-centric, enabling the use of diverse metrics that can provide more insights from various perspectives. We contribute to the field by introducing Structured Entity Extraction and proposing the Approximate Entity Set OverlaP (AESOP) metric, designed to appropriately assess model performance. Later, we introduce a new model that harnesses the power of LMs for enhanced effectiveness and efficiency by decomposing the extraction task into multiple stages. Quantitative and human side-by-side evaluations confirm that our model outperforms baselines, offering promising directions for future advancements in structured entity extraction.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-18
# LEVI:異なる視点のレイヤーワイド・アンサンブルによる一般化可能な微調整

LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views ( http://arxiv.org/abs/2402.04644v2 )

ライセンス: Link先を確認
Yuji Roh, Qingyun Liu, Huan Gui, Zhe Yuan, Yujin Tang, Steven Euijong Whang, Liang Liu, Shuchao Bi, Lichan Hong, Ed H. Chi, Zhe Zhao, (参考訳) ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために広く利用されている。 様々なタスクにおける微調整の成功は多いが、近年の研究では、細調整されたモデルを未確認の分布(すなわち、アウト・オブ・ディストリビューション; OOD)に一般化する際の課題が観察されている。 OODの一般化を改善するために、過去の研究では微調整データの限界を特定し、事前学習データから学習した一般的な表現を維持するために微調整を規制していた。 しかし、事前学習データやモデルの潜在的な制限は無視されることが多い。 本稿では,事前学習した表現に過度に依存すると,下流のタスクに必須な表現を学習できないため,OODの一般化を損なう可能性があることを論じる。 トレーニング前のデータと比較して、新しいタスクが異なる(サブ)ドメインから来ている場合、特に大惨事になる可能性がある。 事前学習データと微調整データの両方の課題に対処するため,学習前のモデルがタスク固有モデルで階層的に適応的に組み立てられるLEVI(Layer-wise Ensemble of different VIews)を提案する。 2つの補完モデルを組み合わせることで、LEVIは微調整データと事前学習モデルの両方において問題のある特徴を効果的に抑制し、新しいタスクに有用な特徴を保存する。 大規模言語と視覚モデルによる広範な実験により、LEVIは微調整データと事前訓練された特徴の異なるビューを強調することにより、微調整の一般化を大幅に改善することが示された。

Fine-tuning is becoming widely used for leveraging the power of pre-trained foundation models in new downstream tasks. While there are many successes of fine-tuning on various tasks, recent studies have observed challenges in the generalization of fine-tuned models to unseen distributions (i.e., out-of-distribution; OOD). To improve OOD generalization, some previous studies identify the limitations of fine-tuning data and regulate fine-tuning to preserve the general representation learned from pre-training data. However, potential limitations in the pre-training data and models are often ignored. In this paper, we contend that overly relying on the pre-trained representation may hinder fine-tuning from learning essential representations for downstream tasks and thus hurt its OOD generalization. It can be especially catastrophic when new tasks are from different (sub)domains compared to pre-training data. To address the issues in both pre-training and fine-tuning data, we propose a novel generalizable fine-tuning method LEVI (Layer-wise Ensemble of different VIews), where the pre-trained model is adaptively ensembled layer-wise with a small task-specific model, while preserving its efficiencies. By combining two complementing models, LEVI effectively suppresses problematic features in both the fine-tuning data and pre-trained model and preserves useful features for new tasks. Broad experiments with large language and vision models show that LEVI greatly improves fine-tuning generalization via emphasizing different views from fine-tuning data and pre-trained features.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-18
# グループ化損失から見たLCMの再検討

Reconfidencing LLMs from the Grouping Loss Perspective ( http://arxiv.org/abs/2402.04957v2 )

ライセンス: Link先を確認
Lihu Chen, Alexandre Perez-Lebel, Fabian M. Suchanek, Gaël Varoquaux, (参考訳) ChatGPTやLLaMAを含むLarge Language Models (LLMs) は、自信のある音調で幻覚的な回答を生じさせる可能性がある。 信頼性スコアを抽出し、校正する試みは有用であることが証明されているが、近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。 本研究では,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。 実験の結果、自信過剰な傾向が示されている。 さらに,質問対象者の国籍によっては,他の回答よりも過度に信頼されていることが明らかとなった。 不確実性量子化理論では、これはグループ化損失である。 そこで本稿では, キャリブレーションだけでなく, グループ化損失を解消し, LLMを再構成する手法を提案する。 LLMは、再構成後の応答の精度と信頼性の整合性の向上を示す。

Large Language Models (LLMs), including ChatGPT and LLaMA, are susceptible to generating hallucinated answers in a confident tone. While efforts to elicit and calibrate confidence scores have proven useful, recent findings show that controlling uncertainty must go beyond calibration: predicted scores may deviate significantly from the actual posterior probabilities due to the impact of grouping loss. In this work, we construct a new evaluation dataset derived from a knowledge base to assess confidence scores given to answers of Mistral and LLaMA. Experiments show that they tend to be overconfident. Further, we show that they are more overconfident on some answers than others, \emph{eg} depending on the nationality of the person in the query. In uncertainty-quantification theory, this is grouping loss. To address this, we propose a solution to reconfidence LLMs, canceling not only calibration but also grouping loss. The LLMs, after the reconfidencing process, indicate improved confidence alignment with the accuracy of their responses.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-18
# チョイ状態トモグラフィによる量子テンソル生成物分解

Quantum Tensor Product Decomposition from Choi State Tomography ( http://arxiv.org/abs/2402.05018v2 )

ライセンス: Link先を確認
Refik Mansuroglu, Arsalan Adil, Michael J. Hartmann, Zoë Holmes, Andrew T. Sornborger, (参考訳) シュミット分解 (Schmidt decomposition) は、純粋な量子状態の双極子エンタングルメントを測定するためのゴーツーツールである。 同様に、作用素シュミット(英語版)あるいはテンソル積分解(英語版)を用いて量子演算の絡み合う特徴を研究することができる。 前者の量子技術実装は徹底的に研究されているが、演算子のレベルでの絡み合う性質は、サンプルの複雑さの指数的な性質のため、量子計算の枠組みから抽出するのが困難である。 ここでは、小サブシステムへの不均衡分割と、小サブシステムに対する影響を古典記憶に捉えつつ、その環境に対する影響を量子資源としてアクセス可能なユニタリのテンソル積分解を計算するための大部分(環境)のアルゴリズムを提案する。 この量子アルゴリズムは、演算子非局所性、サブシステム上での効果的なオープン量子力学、低ランク近似の発見、量子回路ユニタリの低深度コンパイルに使用できる。 等方的ハイゼンベルクモデルの時間進化ユニタリ上で2次元の手法とその応用を実証する。

The Schmidt decomposition is the go-to tool for measuring bipartite entanglement of pure quantum states. Similarly, it is possible to study the entangling features of a quantum operation using its operator-Schmidt, or tensor product decomposition. While quantum technological implementations of the former are thoroughly studied, entangling properties on the operator level are harder to extract in the quantum computational framework because of the exponential nature of sample complexity. Here we present an algorithm for unbalanced partitions into a small subsystem and a large one (the environment) to compute the tensor product decomposition of a unitary whose effect on the small subsystem is captured in classical memory while the effect on the environment is accessible as a quantum resource. This quantum algorithm may be used to make predictions about operator non-locality, effective open quantum dynamics on a subsystem, as well as for finding low-rank approximations and low-depth compilations of quantum circuit unitaries. We demonstrate the method and its applications on a time-evolution unitary of an isotropic Heisenberg model in two dimensions.
翻訳日:2024-06-22 05:29:03 公開日:2024-06-18
# AIの集合体を進化させ、人間の多様性を高め、自己統制を可能にする

Evolving AI Collectives to Enhance Human Diversity and Enable Self-Regulation ( http://arxiv.org/abs/2402.12590v2 )

ライセンス: Link先を確認
Shiyang Lai, Yujin Potter, Junsol Kim, Richard Zhuang, Dawn Song, James Evans, (参考訳) 大きな言語モデルの振る舞いは、相互作用する言語の言語によって形作られます。 この能力とその増加傾向は、意図的あるいは意図せずに相互に"プログラム"し、創発的なAIの主観、関係、集団を形成することを、オンラインポータルで発表する。 ここでは、人間社会とオンライン環境の健康に対するリスクを軽減するために、人工知能と相互作用するこれらの「社会」を調査するよう研究コミュニティに呼びかける。 私たちは、モデルとその進化するアウトプットの小さな"コミュニティ"を使って、このような創発的で分散化されたAI集団が、自然に人間の多様性の境界を広げ、有害で反社会的行動のリスクをオンラインで減らす方法を示しています。 最後に、AIのクロスモーダル化の機会について議論し、自由なAI集団の作成と維持に関連する倫理的問題と設計上の課題に対処する。

Large language model behavior is shaped by the language of those with whom they interact. This capacity and their increasing prevalence online portend that they will intentionally or unintentionally "program" one another and form emergent AI subjectivities, relationships, and collectives. Here, we call upon the research community to investigate these "societies" of interacting artificial intelligences to increase their rewards and reduce their risks for human society and the health of online environments. We use a small "community" of models and their evolving outputs to illustrate how such emergent, decentralized AI collectives can spontaneously expand the bounds of human diversity and reduce the risk of toxic, anti-social behavior online. Finally, we discuss opportunities for AI cross-moderation and address ethical issues and design challenges associated with creating and maintaining free-formed AI collectives.
翻訳日:2024-06-22 05:19:10 公開日:2024-06-18
# 大規模言語モデルのジェイルブレイクにとってシステムメッセージは本当に重要か?

Is the System Message Really Important to Jailbreaks in Large Language Models? ( http://arxiv.org/abs/2402.14857v2 )

ライセンス: Link先を確認
Xiaotian Zou, Yongkang Chen, Ke Li, (参考訳) LLM(Large Language Models)の急速な進化は、現代社会において欠かせないものとなっている。 セキュリティ対策は、リリース前にLSMと人間の価値を合わせるのが一般的だが、最近の研究では「ジェイルブレイク」と呼ばれる関連する現象が明らかにされている。 この用語は、悪意のある質問によって引き起こされたLSMによる予期せぬ、潜在的に有害な反応を指す。 既存の研究はジェイルブレイクプロンプトの生成に重点を置いているが、システムメッセージの設定は実験によって大きく異なる。 システムメッセージはLLMのジェイルブレイクにとって本当に重要なのか? メインストリームのLLMで実験を行い、さまざまなシステムメッセージ(ショート、ロング、ノー)でジェイルブレイクプロンプトを生成します。 異なるシステムメッセージは、脱獄に対する耐性が異なることがわかりました。 そこで本研究では,システムメッセージの異なるLDM間でのジェイルブレイクの転送可能性について検討する。 さらに, システムメッセージ進化アルゴリズム (SMEA) を提案し, マイナーな変更があっても, 脱獄プロンプトに耐性のあるシステムメッセージを生成する。 SMEAを通じて、システムメッセージの長さがほとんど変化せずに、堅牢なシステムメッセージの集団が得られます。 我々の研究は、LSMのセキュリティを後押しするだけでなく、脱獄の障壁を増し、この研究分野の進歩を育みます。

The rapid evolution of Large Language Models (LLMs) has rendered them indispensable in modern society. While security measures are typically to align LLMs with human values prior to release, recent studies have unveiled a concerning phenomenon named "Jailbreak". This term refers to the unexpected and potentially harmful responses generated by LLMs when prompted with malicious questions. Most existing research focus on generating jailbreak prompts but system message configurations vary significantly in experiments. In this paper, we aim to answer a question: Is the system message really important for jailbreaks in LLMs? We conduct experiments in mainstream LLMs to generate jailbreak prompts with varying system messages: short, long, and none. We discover that different system messages have distinct resistances to jailbreaks. Therefore, we explore the transferability of jailbreaks across LLMs with different system messages. Furthermore, we propose the System Messages Evolutionary Algorithm (SMEA) to generate system messages that are more resistant to jailbreak prompts, even with minor changes. Through SMEA, we get a robust system messages population with little change in the length of system messages. Our research not only bolsters LLMs security but also raises the bar for jailbreaks, fostering advancements in this field of study.
翻訳日:2024-06-22 05:09:24 公開日:2024-06-18
# ニューラルポテンシャルの事前学習戦略

Pretraining Strategy for Neural Potentials ( http://arxiv.org/abs/2402.15921v2 )

ライセンス: Link先を確認
Zehua Zhang, Zijie Li, Amir Barati Farimani, (参考訳) グラフニューラルネットワーク(GNN)のマスク事前学習手法を提案する。 GNNは、分子からマスクされた原子に関連する空間情報を回収し、原子の力場に移動して微調整することで事前訓練される。 このような事前訓練を通じて、GNNは下流タスクに有用な分子系の構造的および基礎的な物理情報について有意義に学習する。 包括的実験とアブレーション研究から,提案手法は,スクラッチからトレーニングしたGNNや,デノナイジングなどの事前訓練技術を用いたGNNと比較して,精度と収束速度を向上させることを示した。 一方, プレトレーニング法はエネルギー中心GNNと力中心GNNの両方に適している。 このアプローチは、分子力場に適合するGNNの性能とデータ効率を高める可能性を示す。

We propose a mask pretraining method for Graph Neural Networks (GNNs) to improve their performance on fitting potential energy surfaces, particularly in water systems. GNNs are pretrained by recovering spatial information related to masked-out atoms from molecules, then transferred and finetuned on atomic forcefields. Through such pretraining, GNNs learn meaningful prior about structural and underlying physical information of molecule systems that are useful for downstream tasks. From comprehensive experiments and ablation studies, we show that the proposed method improves the accuracy and convergence speed compared to GNNs trained from scratch or using other pretraining techniques such as denoising. On the other hand, our pretraining method is suitable for both energy-centric and force-centric GNNs. This approach showcases its potential to enhance the performance and data efficiency of GNNs in fitting molecular force fields.
翻訳日:2024-06-22 05:09:24 公開日:2024-06-18
# 共変量選択による処理効果推定のための能動適応実験設計

Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choices ( http://arxiv.org/abs/2403.03589v2 )

ライセンス: Link先を確認
Masahiro Kato, Akihiro Oga, Wataru Komatsubara, Ryo Inokuchi, (参考訳) 本研究では,平均治療効果(ATE)を効率的に推定するための適応実験を設計する。 適応実験の各ラウンドにおいて、実験者は実験ユニットを順次サンプリングし、治療を割り当て、その結果を直ちに観察する。 実験の最後に、実験者は収集されたサンプルを用いてATEを推定する。 目的は、ATEをより小さな漸近的分散で推定することである。 既存の研究では、適合度スコア(処理-割り当て確率)を適応的に最適化する実験が設計されている。 このようなアプローチの一般化として、共変量密度と確率スコアの最適化を提案する。 まず, 半パラメトリック効率のみを最適化するよりも, 半パラメトリック係数と相対性スコアの両方を最適化することで, 半パラメトリック効率だけを最適化するよりも効率的に半パラメトリック効率を最大化できることを示す。 次に、効率的な共変量密度と確率スコアを用いて、実験中に逐次見積もった適応実験を設計する。 最後に、漸近的分散が最小の半パラメトリック効率境界と一致したATE推定器を提案する。

This study designs an adaptive experiment for efficiently estimating average treatment effects (ATEs). In each round of our adaptive experiment, an experimenter sequentially samples an experimental unit, assigns a treatment, and observes the corresponding outcome immediately. At the end of the experiment, the experimenter estimates an ATE using the gathered samples. The objective is to estimate the ATE with a smaller asymptotic variance. Existing studies have designed experiments that adaptively optimize the propensity score (treatment-assignment probability). As a generalization of such an approach, we propose optimizing the covariate density as well as the propensity score. First, we derive the efficient covariate density and propensity score that minimize the semiparametric efficiency bound and find that optimizing both covariate density and propensity score minimizes the semiparametric efficiency bound more effectively than optimizing only the propensity score. Next, we design an adaptive experiment using the efficient covariate density and propensity score sequentially estimated during the experiment. Lastly, we propose an ATE estimator whose asymptotic variance aligns with the minimized semiparametric efficiency bound.
翻訳日:2024-06-22 04:59:27 公開日:2024-06-18
# 連続学習における幅の最小化について

On the Diminishing Returns of Width for Continual Learning ( http://arxiv.org/abs/2403.06398v3 )

ライセンス: Link先を確認
Etash Guha, Vihan Lakshman, (参考訳) ディープニューラルネットワークは様々な設定で画期的な性能を示してきたが、これらのモデルは、新しいタスクをシーケンスでトレーニングすると、しばしば 'emph{catastrophic forgetting' に悩まされる。 いくつかの研究は、ニューラルネットワークの幅の増大が破滅的な忘れ込みの減少につながることを実証しているが、幅と連続学習の正確な関係を特徴づけていないことを実証している。 本研究では,連続学習理論を解析するための最初のフレームワークの一つを設計し,フィードフォワードネットワーク(FFN)において,幅が直接的に関連することを証明した。 具体的には, ネットワーク幅の増大と, ネットワーク幅の増大が収率の低下を実証する。 我々は、我々の理論が予測したように、減少するリターンがはっきりと観察される以前の研究で探索されていない幅で、我々の主張を実証的に検証する。

While deep neural networks have demonstrated groundbreaking performance in various settings, these models often suffer from \emph{catastrophic forgetting} when trained on new tasks in sequence. Several works have empirically demonstrated that increasing the width of a neural network leads to a decrease in catastrophic forgetting but have yet to characterize the exact relationship between width and continual learning. We design one of the first frameworks to analyze Continual Learning Theory and prove that width is directly related to forgetting in Feed-Forward Networks (FFN). Specifically, we demonstrate that increasing network widths to reduce forgetting yields diminishing returns. We empirically verify our claims at widths hitherto unexplored in prior studies where the diminishing returns are clearly observed as predicted by our theory.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-18
# $TrIND$:無作為なニューラルネットワークの拡散による解剖樹の表現

$TrIND$: Representing Anatomical Trees by Denoising Diffusion of Implicit Neural Fields ( http://arxiv.org/abs/2403.08974v3 )

ライセンス: Link先を確認
Ashish Sinha, Ghassan Hamarneh, (参考訳) 解剖学的木は臨床診断と治療計画において中心的な役割を果たす。 しかしながら、解剖学的な木を正確に表現することは、その多様で複雑なトポロジーと幾何学のために困難である。 伝統的な木構造表現法は、医用画像を用いて撮影されるが、血管と気管支のネットワークを可視化するのには貴重なものであり、解像度、柔軟性、効率の面で欠点がある。 近年, 形状を正確に, 効率的に表現するための強力なツールとして暗黙的神経表現(INR)が出現している。 本稿では,INRを用いて解剖学的な木を表現し,INRの空間内での拡散をデノナイズすることで木集合の分布を捉える新しい手法である$TrIND$を提案する。 解剖学的樹木の複雑な地形や地形を任意の解像度で正確に把握する。 定性的かつ定量的な評価を通じて、任意の解像度でコンパクトな保存と、解剖学的部位と木複合体の汎用性を備えた高忠実度木再構築を実証する。 コードは以下の通りである。

Anatomical trees play a central role in clinical diagnosis and treatment planning. However, accurately representing anatomical trees is challenging due to their varying and complex topology and geometry. Traditional methods for representing tree structures, captured using medical imaging, while invaluable for visualizing vascular and bronchial networks, exhibit drawbacks in terms of limited resolution, flexibility, and efficiency. Recently, implicit neural representations (INRs) have emerged as a powerful tool for representing shapes accurately and efficiently. We propose a novel approach, $TrIND$, for representing anatomical trees using INR, while also capturing the distribution of a set of trees via denoising diffusion in the space of INRs. We accurately capture the intricate geometries and topologies of anatomical trees at any desired resolution. Through extensive qualitative and quantitative evaluation, we demonstrate high-fidelity tree reconstruction with arbitrary resolution yet compact storage, and versatility across anatomical sites and tree complexities. The code is available at: \texttt{\url{https://github.com/sinashish/TreeDiffusion}}.
翻訳日:2024-06-22 04:49:43 公開日:2024-06-18
# HumanoidBench: 全身運動と操作のためのヒューマノイドベンチマーク

HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation ( http://arxiv.org/abs/2403.10506v2 )

ライセンス: Link先を確認
Carmelo Sferrazza, Dun-Ming Huang, Xingyu Lin, Youngwoon Lee, Pieter Abbeel, (参考訳) ヒューマノイドロボットは、人間のような形態を活かした柔軟性と適応性のために、様々な環境やタスクで人間を支援することに大いに貢献する。 しかしながら、ヒューマノイドロボットの研究は、高価で脆弱なハードウェア構成によってボトルネックとなることが多い。 人型ロボットのアルゴリズム研究を加速するために,人型ロボットを用いた高次元シミュレーションロボット学習ベンチマーク「HumanoidBench」を提案する。 以上の結果から,最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチは歩行や到達といったロバストな低レベル政策によって支援された場合,優れたパフォーマンスを達成できることがわかった。 HumanoidBenchでは、ロボットコミュニティに、ヒューマノイドロボットで多様なタスクを解く際に生じる課題を特定するプラットフォームを提供し、アルゴリズムとアイデアの迅速な検証を可能にします。 オープンソースコードはhttps://humanoid-bench.github.io.comで公開されている。

Humanoid robots hold great promise in assisting humans in diverse environments and tasks, due to their flexibility and adaptability leveraging human-like morphology. However, research in humanoid robots is often bottlenecked by the costly and fragile hardware setups. To accelerate algorithmic research in humanoid robots, we present a high-dimensional, simulated robot learning benchmark, HumanoidBench, featuring a humanoid robot equipped with dexterous hands and a variety of challenging whole-body manipulation and locomotion tasks. Our findings reveal that state-of-the-art reinforcement learning algorithms struggle with most tasks, whereas a hierarchical learning approach achieves superior performance when supported by robust low-level policies, such as walking or reaching. With HumanoidBench, we provide the robotics community with a platform to identify the challenges arising when solving diverse tasks with humanoid robots, facilitating prompt verification of algorithms and ideas. The open-source code is available at https://humanoid-bench.github.io.
翻訳日:2024-06-22 04:39:52 公開日:2024-06-18
# 時変オーディオシステムのための微分可能な全極フィルタ

Differentiable All-pole Filters for Time-varying Audio Systems ( http://arxiv.org/abs/2404.07970v3 )

ライセンス: Link先を確認
Chin-Yun Yu, Christopher Mitcheltree, Alistair Carson, Stefan Bilbao, Joshua D. Reiss, György Fazekas, (参考訳) 無限インパルス応答フィルタは、音声効果やシンセサイザーなど、多くの時間変化のオーディオシステムにおいて重要な構成要素である。 しかし, 再帰的構造は, 自動微分によるエンド・ツー・エンドの学習を阻害する。 周波数サンプリングやフレームベース処理などの非再帰的なフィルタ近似が提案され、過去に広く用いられてきたが、元のシステムの勾配を正確に反映することはできない。 我々は、時間変化のある全極フィルタを再表現して勾配をバックプロパゲートすることで、この難しさを軽減するので、フィルタの実装は自動微分フレームワークの技術的な制限に縛られません。 この実装は、効率の良い勾配評価のためにポール付きフィルタを含むオーディオシステムに応用することができる。 本研究では,位相器,時間変化型減算合成器,フィードフォワード圧縮器を用いて実世界の動的オーディオシステムをモデル化するための学習効率と表現能力を示す。 コードとオーディオサンプルを公開し、トレーニングされたオーディオエフェクトとシンセサイザーモデルを、https://diffapf.github.io/web/.comのVSTプラグインで提供します。

Infinite impulse response filters are an essential building block of many time-varying audio systems, such as audio effects and synthesisers. However, their recursive structure impedes end-to-end training of these systems using automatic differentiation. Although non-recursive filter approximations like frequency sampling and frame-based processing have been proposed and widely used in previous works, they cannot accurately reflect the gradient of the original system. We alleviate this difficulty by re-expressing a time-varying all-pole filter to backpropagate the gradients through itself, so the filter implementation is not bound to the technical limitations of automatic differentiation frameworks. This implementation can be employed within audio systems containing filters with poles for efficient gradient evaluation. We demonstrate its training efficiency and expressive capabilities for modelling real-world dynamic audio systems on a phaser, time-varying subtractive synthesiser, and feed-forward compressor. We make our code and audio samples available and provide the trained audio effect and synth models in a VST plugin at https://diffapf.github.io/web/.
翻訳日:2024-06-22 04:30:07 公開日:2024-06-18
# 変分量子シミュレーション : ウォームスタートを理解するためのケーススタディ

Variational quantum simulation: a case study for understanding warm starts ( http://arxiv.org/abs/2404.10044v3 )

ライセンス: Link先を確認
Ricard Puig-i-Valls, Marc Drudis, Supanut Thanasilp, Zoë Holmes, (参考訳) システムサイズで指数関数的に消失する損失勾配を特徴とするバレンプラトー現象は、変分量子アルゴリズムのスケーリングに挑戦する。 ここでは、温暖化開始の可能性を探求し、損失分散がより大きいことを期待して、解に近く初期化する。 量子実時間および想像時間進化のための短い深度回路を学習するための反復的変分法に着目して、ウォームスタートの可能性と限界を解明するためのケーススタディを行う。 まず、反復変分アルゴリズムは、各時点における初期化の周囲の小さな領域において、相当な(システムサイズで最悪の多項式的に消滅する)勾配を示すことを証明することから始める。 これらの領域の凸性保証が確立され、多項式サイズの時間ステップのトレーニング可能性が示唆される。 しかし,本研究では,トレーニング可能性の保証により,地域外における良好な最小限のシフトが保証されるシナリオを強調した。 我々の分析では、このようなミニマが不毛の高原の風景を横断する最適化を必要とするのか、あるいは、高原から離れた谷にかなりの勾配があるような勾配流が存在するのかという疑問が浮き彫りになっている。

The barren plateau phenomenon, characterized by loss gradients that vanish exponentially with system size, poses a challenge to scaling variational quantum algorithms. Here we explore the potential of warm starts, whereby one initializes closer to a solution in the hope of enjoying larger loss variances. Focusing on an iterative variational method for learning shorter-depth circuits for quantum real and imaginary time evolution we conduct a case study to elucidate the potential and limitations of warm starts. We start by proving that the iterative variational algorithm will exhibit substantial (at worst vanishing polynomially in system size) gradients in a small region around the initializations at each time-step. Convexity guarantees for these regions are then established, suggesting trainability for polynomial size time-steps. However, our study highlights scenarios where a good minimum shifts outside the region with trainability guarantees. Our analysis leaves open the question whether such minima jumps necessitate optimization across barren plateau landscapes or whether there exist gradient flows, i.e., fertile valleys away from the plateau with substantial gradients, that allow for training.
翻訳日:2024-06-22 04:18:42 公開日:2024-06-18
# ピアスワイド線形アンサンブルの合同最適化

Joint Optimization of Piecewise Linear Ensembles ( http://arxiv.org/abs/2405.00303v2 )

ライセンス: Link先を確認
Matt Raymond, Angela Violi, Clayton Scott, (参考訳) ツリーアンサンブルは多くの予測タスクで最先端のパフォーマンスを達成する。 本稿では,既存の木組のすべての葉ノードにおいて,ピースワイズ線形モデルを結合的に適合させる,ピースワイズ線形アンサンブル(JOPLEN)の結合最適化を提案する。 JOPLENは、アンサンブルの表現性の向上に加えて、余剰プロモーティング行列ノルムや部分空間ノルムを含むいくつかの一般的な罰則を非線形予測に適用することができる。 本稿では,100以上の回帰・分類データセットと各種罰則を用いてJOPLENの性能を示す。 JOPLENは、標準のランダムな森林や傾斜した樹木のアンサンブルだけでなく、他の樹木のアンサンブルの強化方法と比較して、予測性能の向上につながる。 核ノルムのペナルティを持つJOPLENは、部分空間整列関数を学習することを示した。 さらに, JOPLENとDirty LASSOペナルティを組み合わせることで, マルチタスク学習における非線形予測に有効な特徴選択法を提案する。

Tree ensembles achieve state-of-the-art performance on numerous prediction tasks. We propose Joint Optimization of Piecewise Linear ENsembles (JOPLEN), which jointly fits piecewise linear models at all leaf nodes of an existing tree ensemble. In addition to enhancing the expressiveness of an ensemble, JOPLEN allows several common penalties, including sparsity-promoting matrix norms and subspace-norms, to be applied to nonlinear prediction. We demonstrate the performance of JOPLEN on over 100 regression and classification datasets and with a variety of penalties. JOPLEN leads to improved prediction performance relative to not only standard random forest and gradient boosted tree ensembles, but also other methods for enhancing tree ensembles. We demonstrate that JOPLEN with a nuclear norm penalty learns subspace-aligned functions. Additionally, JOPLEN combined with a Dirty LASSO penalty is an effective feature selection method for nonlinear prediction in multitask learning.
翻訳日:2024-06-22 04:08:57 公開日:2024-06-18
# CT画像を用いた脳内出血の迅速かつ正確な分類のためのデュアルタスク・ビジョン・トランスフォーマ

Dual-Task Vision Transformer for Rapid and Accurate Intracerebral Hemorrhage Classification on CT Images ( http://arxiv.org/abs/2405.06814v2 )

ライセンス: Link先を確認
Jialiang Fan, Guoyu Lu, Xinhui Fan, Lucan Li, (参考訳) 脳内出血 (ICH) は、脳血管の破裂によって引き起こされる重篤で急激な医学的症状であり、脳組織に永続的な損傷を与え、しばしば機能障害や死亡を引き起こす。 ICHの診断と解析は、通常、脳のCT画像に頼っている。 ICH 条件の緊急性を考えると,早期治療は極めて重要である。 しかし、ICHCT画像の複雑さと専門医の頻繁な不足は重要な課題である。 そこで我々は、出血位置、すなわちDeep、Subcortical、Lobarの3種類のICH画像分類とICH画像分類のためのデータセットを構築した。 さらに,ICH画像の自動分類と診断のためのデュアルタスク・ビジョン・トランスフォーマ (DTViT) を提案する。 このニューラルネットワークは、ViTのエンコーダを利用して、CT画像からの特徴抽出に注意機構を用いる。 ネットワーク内に2つの多層認識(MLP)に基づくデコーダを組み込んで,ICHの存在を同時に同定し,3種類の出血部位を分類した。 実験の結果,提案するマルチクラス化ネットワークは実世界のテストデータセット上で良好に動作することがわかった。 この研究のコードとデータセットは、 https://github.com/Jialiangfan/ICH-classification.comで論文の受理時に公開される。

Intracerebral hemorrhage (ICH) is a severe and sudden medical condition caused by the rupture of blood vessels in the brain, leading to permanent damage to brain tissue and often resulting in functional disabilities or death in patients. Diagnosis and analysis of ICH typically rely on brain CT imaging. Given the urgency of ICH conditions, early treatment is crucial, necessitating rapid analysis of CT images to formulate tailored treatment plans. However, the complexity of ICH CT images and the frequent scarcity of specialist radiologists pose significant challenges. Therefore, we built a dataset for ICH and normal classification and three types of ICH image classification based on the hemorrhage location, i.e., Deep, Subcortical, and Lobar. In addition, we propose a dual-task vision transformer (DTViT) for the automated classification and diagnosis of ICH images. This neural network utilizes the encoder from ViT, employing attention mechanisms for feature extraction from CT images. We incorporated two multilayer perception (MLP)-based decoders within the network to simultaneously identify the presence of ICH and classify three types of hemorrhage locations. Experimental results demonstrate that our proposed multi-classification network performs well on the built real-world test dataset. The code and dataset for this study will be made publicly available upon paper acceptance at: https://github.com/Jialiangfan/ICH-classification.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-18
# 多量子クリフォード-シクロトミック回路の精密合成

Exact Synthesis of Multiqutrit Clifford-Cyclotomic Circuits ( http://arxiv.org/abs/2405.08136v4 )

ライセンス: Link先を確認
Andrew N. Glaudell, Neil J. Ross, John van de Wetering, Lia Yeh, (参考訳) Toffoli+Hadamard, Clifford+$T$ あるいはより一般的には、Clifford-cyclotomic gate set がちょうど環 $\mathbb{Z}[1/2, \zeta_k]$ の成分を持つユニタリ行列であることが知られている。 本稿では,四重項に対する類似の対応性を確立する。 古典的なクォートゲートを$X$, $CX$, $CCX$で拡張し、ハダマールゲートを$H$、$T_k$ゲートを$T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$で拡張することにより、次数のクリフォード-シクロトミックゲートセットを$3^k$と定義する。 このゲートセットは、$k=1$のとき、qutrit Toffoli+Hadamardゲートセット、$k>1$のとき、qutrit Clifford+$T_k$ゲートセットと等価である。 次に、3^n\times 3^n$ のユニタリ行列 $U$ が、次数$3^k$ のクリフォード-シクロトミックゲート集合上の$n$-qutrit 回路で表せることを証明し、$U$ の成分が環 $\mathbb{Z}[1/3,\omega_k]$ にある場合に限る。

It is known that the matrices that can be exactly represented by a multiqubit circuit over the Toffoli+Hadamard, Clifford+$T$, or, more generally, Clifford-cyclotomic gate set are precisely the unitary matrices with entries in the ring $\mathbb{Z}[1/2, \zeta_k]$, where $k$ is a positive integer that depends on the gate set and $\zeta_k$ is a primitive $2^k$-th root of unity. In the present paper, we establish an analogous correspondence for qutrits. We define the multiqutrit Clifford-cyclotomic gate set of degree $3^k$ by extending the classical qutrit gates $X$, $CX$, and $CCX$ with the Hadamard gate $H$ and the $T_k$ gate $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$, where $\omega_k$ is a primitive $3^k$-th root of unity. This gate set is equivalent to the qutrit Toffoli+Hadamard gate set when $k=1$, and to the qutrit Clifford+$T_k$ gate set when $k>1$. We then prove that a $3^n\times 3^n$ unitary matrix $U$ can be represented by an $n$-qutrit circuit over the Clifford-cyclotomic gate set of degree $3^k$ if and only if the entries of $U$ lie in the ring $\mathbb{Z}[1/3,\omega_k]$.
翻訳日:2024-06-22 03:59:12 公開日:2024-06-18
# RAG-RLRC-LaySum at BioLaySumm:Integrated Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts

RAG-RLRC-LaySum at BioLaySumm: Integrating Retrieval-Augmented Generation and Readability Control for Layman Summarization of Biomedical Texts ( http://arxiv.org/abs/2405.13179v3 )

ライセンス: Link先を確認
Yuelyu Ji, Zhuochun Li, Rui Meng, Sonish Sivarajkumar, Yanshan Wang, Zeshui Yu, Hui Ji, Yushui Han, Hanyu Zeng, Daqing He, (参考訳) 本稿では,RAG-RLRC-LaySumフレームワークについて述べる。 我々の検索型拡張生成(RAG)ソリューションは,複数の知識源を用いて,複数の要約の精度と妥当性を保証している。 さらに、RLRC(Reinforcement Learning for Readability Control)戦略は、可読性を改善し、非専門家にとって科学的コンテンツを理解できるようにする。 PLOSおよびeLifeデータセットを用いて評価したところ,本手法はPlain Geminiモデルを超え,可読性スコアが20%向上し,ROUGE-2関連スコアが15%改善し,事実精度が10%向上した。 RAG-RLRC-LaySumフレームワークは、科学的知識を効果的に民主化し、生物医学的な発見への公的な関与を高める。

This paper introduces the RAG-RLRC-LaySum framework, designed to make complex biomedical research understandable to laymen through advanced Natural Language Processing (NLP) techniques. Our Retrieval Augmented Generation (RAG) solution, enhanced by a reranking method, utilizes multiple knowledge sources to ensure the precision and pertinence of lay summaries. Additionally, our Reinforcement Learning for Readability Control (RLRC) strategy improves readability, making scientific content comprehensible to non-specialists. Evaluations using the publicly accessible PLOS and eLife datasets show that our methods surpass Plain Gemini model, demonstrating a 20% increase in readability scores, a 15% improvement in ROUGE-2 relevance scores, and a 10% enhancement in factual accuracy. The RAG-RLRC-LaySum framework effectively democratizes scientific knowledge, enhancing public engagement with biomedical discoveries.
翻訳日:2024-06-22 03:49:28 公開日:2024-06-18
# 位相空間スクイーズ法によるチップスケール点源サニャック干渉計

Chip-Scale Point-Source Sagnac Interferometer by Phase-Space Squeezing ( http://arxiv.org/abs/2405.16972v2 )

ライセンス: Link先を確認
Yiftach Halevy, Yali Cina, Omer Feldman, David Groswasser, Yonathan Japha, Ron Folman, (参考訳) 物質波干渉法は科学と技術の両方に不可欠である。 相空間のスクイージングは原子の有利な源であることが示され、運動量の拡散は減少する。 ここでは、逆のスクイーズが同様に有利であることを示す。 例示として、回転検出を可能にする点源原子干渉計(PSI)におけるそのような音源の影響を解析する。 圧縮PSI(SPSI)が短サイクル時間と高い繰り返し率を促進しつつ、感度とダイナミックレンジを向上させる方法について述べる。 パラメータ空間において、値の数値が桁違いに改善される領域を示し、あるコンパクト性の定義の下では、SPSIは4桁以上のオーダーで優れていることを示す。 これにより、SPSIは、標準サイズのデバイスの性能を向上させるか、チップスケールのデバイスに小型化しながら性能を維持するか、実際のアプリケーションへの扉を開くことができる。

Matter-wave interferometry is essential to both science and technology. Phase-space squeezing has been shown to be an advantageous source of atoms, whereby the spread in momentum is decreased. Here, we show that the opposite squeezing may be just as advantageous. As an exemplification, we analyze the effect of such a source on point source atom interferometry (PSI), which enables rotation sensing. We describe how a squeezed PSI (SPSI) increases the sensitivity and dynamic range while facilitating short cycle times and high repetition rates. We present regions in parameter space for which the figures of merit are improved by orders of magnitude and show that under some definition of compactness, the SPSI is superior by more than four orders of magnitude. The SPSI thus enables either enhancing the performance for standard size devices or maintaining the performance while miniaturizing to a chip-scale device, opening the door to real-life applications.
翻訳日:2024-06-22 03:39:39 公開日:2024-06-18
# 患者---大規模言語モデルを用いたメンタルヘルス専門家の育成

PATIENT-Ψ: Using Large Language Models to Simulate Patients for Training Mental Health Professionals ( http://arxiv.org/abs/2405.19660v2 )

ライセンス: Link先を確認
Ruiyi Wang, Stephanie Milani, Jamie C. Chiu, Jiayin Zhi, Shaun M. Eack, Travis Labrum, Samuel M. Murphy, Nev Jones, Kate Hardy, Hong Shen, Fei Fang, Zhiyu Zoey Chen, (参考訳) 精神病は公衆衛生の最も重大な問題の一つである。 その重要性にもかかわらず、多くのメンタルヘルス専門家は、トレーニングと実際の現実世界の患者の実践との間の断絶を強調している。 このギャップを埋めるために,認知行動療法(CBT)トレーニングのための新しい患者シミュレーションフレームワークであるPatent-{\Psi}を提案する。 patient-{\Psi} を構築するために,CBT の原理に基づく多様な患者認知モデルを構築し,これらの認知モデルでプログラムされた大規模言語モデル(LLM)を用いてシミュレートされた治療患者として機能する。 精神保健研修生を対象に,患者-{\Psiとセラピーセッションのロールプレイングを通じて,CBT(認知モデル)の重要なスキルを実践するための対話型トレーニングスキーム「患者-{\Psi}-TRAINER」を提案する。 そこで我々は,13名の精神保健研修生と20名の専門家を対象に,包括的調査を行った。 その結果,患者-{\Psi}-TRAINERの実践は,教科書やビデオ,非患者とのロールプレイといった既存の学習形態を超えて,訓練者のスキル獲得と信頼を高めることが示唆された。 専門家の認識から,患者-{\Psi} は GPT-4 よりも実際の患者間相互作用に近いと認識され,患者-{\Psi}-TRAINER は訓練能力の向上を強く約束している。 我々のコードとデータは \url{https://github.com/ruiyiw/ patient-psi} でリリースされます。

Mental illness remains one of the most critical public health issues. Despite its importance, many mental health professionals highlight a disconnect between their training and actual real-world patient practice. To help bridge this gap, we propose PATIENT-{\Psi}, a novel patient simulation framework for cognitive behavior therapy (CBT) training. To build PATIENT-{\Psi}, we construct diverse patient cognitive models based on CBT principles and use large language models (LLMs) programmed with these cognitive models to act as a simulated therapy patient. We propose an interactive training scheme, PATIENT-{\Psi}-TRAINER, for mental health trainees to practice a key skill in CBT -- formulating the cognitive model of the patient -- through role-playing a therapy session with PATIENT-{\Psi}. To evaluate PATIENT-{\Psi}, we conducted a comprehensive user study of 13 mental health trainees and 20 experts. The results demonstrate that practice using PATIENT-{\Psi}-TRAINER enhances the perceived skill acquisition and confidence of the trainees beyond existing forms of training such as textbooks, videos, and role-play with non-patients. Based on the experts' perceptions, PATIENT-{\Psi} is perceived to be closer to real patient interactions than GPT-4, and PATIENT-{\Psi}-TRAINER holds strong promise to improve trainee competencies. Our code and data are released at \url{https://github.com/ruiyiw/patient-psi}.
翻訳日:2024-06-22 03:39:39 公開日:2024-06-18
# Rewardの過度な最適化を緩和するためのスケーラブルな実装

Scalable Ensembling For Mitigating Reward Overoptimisation ( http://arxiv.org/abs/2406.01013v2 )

ライセンス: Link先を確認
Ahmed M. Ahmed, Rafael Rafailov, Stepan Sharkov, Xuechen Li, Sanmi Koyejo, (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。 しかしながら、これらのモデルのアライメントは、学習した ` `proxy" 報酬モデルに、よりパフォーマンスの高い ` `gold" 報酬モデルによって測定された、実用性のあるインフレクションポイントを超越する傾向にあるため、依然として厳しい課題である。 オフライン強化学習では一般的だが、高いメモリ要求の言語モデルでは信じられないほどコストがかかるため、十分に大きなモデルではそのようなアプローチは実現できない。 この目的のために、共有エンコーダを用いるが、分離された線形ヘッドを提案する。 これは完全なアンサンブルと同じようなパフォーマンスをもたらしながら、同じサイズのモデルのトレーニングに必要なメモリと時間の大幅な節約を可能にします。

Reinforcement Learning from Human Feedback (RLHF) has enabled significant advancements within language modeling for powerful, instruction-following models. However, the alignment of these models remains a pressing challenge as the policy tends to overfit the learned ``proxy" reward model past an inflection point of utility as measured by a ``gold" reward model that is more performant -- a phenomenon known as overoptimisation. Prior work has mitigated this issue by computing a pessimistic statistic over an ensemble of reward models, which is common in Offline Reinforcement Learning but incredibly costly for language models with high memory requirements, making such approaches infeasible for sufficiently large models. To this end, we propose using a shared encoder but separate linear heads. We find this leads to similar performance as the full ensemble while allowing tremendous savings in memory and time required for training for models of similar size.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-18
# 空間RGPT:視覚言語モデルにおける基底空間推論

SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model ( http://arxiv.org/abs/2406.01584v2 )

ライセンス: Link先を確認
An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang, Jan Kautz, Xiaolong Wang, Sifei Liu, (参考訳) 視覚言語モデル(VLM)は2次元視覚と言語タスクにおいて顕著な性能を示した。 しかし、空間配置を推論する能力は依然として限られている。 本研究では,VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。 空間RGPTは,(1)3次元シーングラフからの地域表現の効果的な学習を可能にするデータキュレーションパイプライン,(2)既存のVLMのビジュアルエンコーダに奥行き情報を統合する柔軟なプラグインモジュールである。 推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。 さらに,室内,屋外,シミュレートされた環境を含む地上3次元アノテーションを用いたベンチマークであるSpatialRGBT-Benchを提案し,VLMにおける3次元空間認識の評価を行った。 本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。 このモデルはまた強力な一般化能力を示し、複雑な空間関係を効果的に推論し、ロボットタスクのための地域対応の高密度報酬アノテータとして機能する。 コード、データセット、ベンチマークはhttps://www.anjiecheng.me/SpatialRGPTで公開される。

Vision Language Models (VLMs) have demonstrated remarkable performance in 2D vision and language tasks. However, their ability to reason about spatial arrangements remains limited. In this work, we introduce Spatial Region GPT (SpatialRGPT) to enhance VLMs' spatial perception and reasoning capabilities. SpatialRGPT advances VLMs' spatial understanding through two key innovations: (1) a data curation pipeline that enables effective learning of regional representation from 3D scene graphs, and (2) a flexible plugin module for integrating depth information into the visual encoder of existing VLMs. During inference, when provided with user-specified region proposals, SpatialRGPT can accurately perceive their relative directions and distances. Additionally, we propose SpatialRGBT-Bench, a benchmark with ground-truth 3D annotations encompassing indoor, outdoor, and simulated environments, for evaluating 3D spatial cognition in VLMs. Our results demonstrate that SpatialRGPT significantly enhances performance in spatial reasoning tasks, both with and without local region prompts. The model also exhibits strong generalization capabilities, effectively reasoning about complex spatial relations and functioning as a region-aware dense reward annotator for robotic tasks. Code, dataset, and benchmark will be released at https://www.anjiecheng.me/SpatialRGPT
翻訳日:2024-06-22 01:36:36 公開日:2024-06-18
# 近接場放射熱伝達のためのトポロジー材料

Topological Materials for Near-Field Radiative Heat Transfer ( http://arxiv.org/abs/2406.03863v2 )

ライセンス: Link先を確認
Azadeh Didari-Bader, Seonyeong Kim, Heejin Choi, Sunae Seo, Piyali Biswas, Heejeong Jeong, Chang-Won Lee, (参考訳) トポロジカル材料は、構造材料の幾何学的特性を利用して波の流れを制御し、欠陥や不純物に免疫する一方向で保護された伝達を可能にするプラットフォームを提供する。 トポロジカルに設計されたフォトニック材料は、量子状態と電磁エネルギーを持ち、ナノレーザーや量子フォトニックシステムの恩恵を受けることができる。 本稿では,特に近距離場における放射熱伝達におけるフォトニック材料のトポロジー応用の最近の進歩を概観する。 媒体間の分離距離が熱波長よりもかなり小さい場合、熱伝達はプランクの黒体予測を超える超プランク的な挙動を示す。 表面モードをサポートするサブ波長系における近接場熱放射は、ナノスケール熱管理やエネルギー変換など様々な応用がある。 トポロジカルな表面状態を支えるフォトニック材料や構造は、近接場熱放射を増強または抑制する大きな可能性を示している。 本研究では, 周期的および準周期的ナノ粒子アレイ, ディラック, ワイル半金属系材料, 大域対称性の破れた構造, およびその他のトポロジカル絶縁体などのトポロジカルな効果を近接場熱伝達に与える。 また、ナノスケールシステムにおける代替熱管理と熱流束誘導のためのトポロジカル材料における近接場熱放射の実現の可能性についても、既存の技術に基づいて論じる。

Topological materials provide a platform that utilizes the geometric characteristics of structured materials to control the flow of waves, enabling unidirectional and protected transmission that is immune to defects or impurities. The topologically designed photonic materials can carry quantum states and electromagnetic energy, benefiting nanolasers or quantum photonic systems. This article reviews recent advances in the topological applications of photonic materials for radiative heat transfer, especially in the near field. When the separation distance between media is considerably smaller than the thermal wavelength, the heat transfer exhibits super-Planckian behavior that surpasses Planck's blackbody predictions. Near-field thermal radiation in subwavelength systems supporting surface modes has various applications, including nanoscale thermal management and energy conversion. Photonic materials and structures that support topological surface states show immense potential for enhancing or suppressing near-field thermal radiation. We present various topological effects, such as periodic and quasi-periodic nanoparticle arrays, Dirac and Weyl semimetal-based materials, structures with broken global symmetries, and other topological insulators, on near-field heat transfer. Also, the possibility of realizing near-field thermal radiation in such topological materials for alternative thermal management and heat flux guiding in nano-scale systems is discussed based on the existing technology.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-18
# ファウショット型エンティティ認識における反復訓練とサンプル依存問題への対処

Fighting Against the Repetitive Training and Sample Dependency Problem in Few-shot Named Entity Recognition ( http://arxiv.org/abs/2406.05460v2 )

ライセンス: Link先を確認
Chang Tian, Wenpeng Yin, Dan Li, Marie-Francine Moens, (参考訳) 名前付きエンティティ認識(NER)システムは、いくつかのラベル付きトレーニング例を使用してエンティティを認識する。 一般的なパイプラインは、テキスト内のエンティティスパンを特定するスパン検出器と、エンティティに型を割り当てるエンティティタイプ分類器で構成される。 現在のスパン検出器は、ガイドトレーニングのための広範囲な手動ラベリングに依存している。 ほぼ全てのスパン検出器は、基本的なスパンの特徴の初期訓練とタスク固有の特徴への適応を必要とする。 このプロセスは、スパン検出器間の基本的なスパンの特徴を反復的に訓練する。 さらに、原型ネットワークのようなメートル法に基づくエンティティタイプ分類器は、通常、クエリサンプルとエンティティタイプ参照の間の距離を計測する特定のメトリックを使用し、最終的に最も確率の高いエンティティタイプをクエリサンプルに割り当てる。 しかし、これらの分類器は、主に各エンティティタイプ参照で利用可能な限られたサンプルから生じる、サンプル依存問題に遭遇する。 これらの課題に対処するため、我々は改良された数発のNERパイプラインを提案した。 まず,オープンドメインのウィキペディアデータに基づいて事前学習した足場スパン検出器を提案する。 パイプラインスパン検出器を初期化して基本的な特徴の反復的な訓練を減らすために使用できる。 次に,大型言語モデル(LLM)を用いて信頼性の高いエンティティ型参照を設定する。 本モデルでは, 各種データセットの広範囲な実験により, ベースラインと比較して, トレーニングステップが少なく, 人によるラベル付きデータよりも優れた性能を示す。 特に微妙なNER設定では、ChatGPTなどの強力なベースラインよりも優れています。 コード、データセット、LCM出力、モデルチェックポイントを公開します。

Few-shot named entity recognition (NER) systems recognize entities using a few labeled training examples. The general pipeline consists of a span detector to identify entity spans in text and an entity-type classifier to assign types to entities. Current span detectors rely on extensive manual labeling to guide training. Almost every span detector requires initial training on basic span features followed by adaptation to task-specific features. This process leads to repetitive training of the basic span features among span detectors. Additionally, metric-based entity-type classifiers, such as prototypical networks, typically employ a specific metric that gauges the distance between the query sample and entity-type referents, ultimately assigning the most probable entity type to the query sample. However, these classifiers encounter the sample dependency problem, primarily stemming from the limited samples available for each entity-type referent. To address these challenges, we proposed an improved few-shot NER pipeline. First, we introduce a steppingstone span detector that is pre-trained on open-domain Wikipedia data. It can be used to initialize the pipeline span detector to reduce the repetitive training of basic features. Second, we leverage a large language model (LLM) to set reliable entity-type referents, eliminating reliance on few-shot samples of each type. Our model exhibits superior performance with fewer training steps and human-labeled data compared with baselines, as demonstrated through extensive experiments on various datasets. Particularly in fine-grained few-shot NER settings, our model outperforms strong baselines, including ChatGPT. We will publicly release the code, datasets, LLM outputs, and model checkpoints.
翻訳日:2024-06-22 01:36:36 公開日:2024-06-18
# MAGNOLIA:オンライン価値対ゴ近似のためのGNNによるマッチングアルゴリズム

MAGNOLIA: Matching Algorithms via GNNs for Online Value-to-go Approximation ( http://arxiv.org/abs/2406.05959v2 )

ライセンス: Link先を確認
Alexandre Hayderi, Amin Saberi, Ellen Vitercik, Anders Wikum, (参考訳) オンライン・ベイズ・バイパルタイト・マッチングは、広告、クラウドソーシング、ライドシェアリング、腎臓交換など、デジタル市場や取引所における中心的な問題である。 グラフニューラルネットワーク(GNN)アプローチを導入し、各アクションの値 to go(VTG)を計算してアクション(例えば、どのノードが一致するか)を選択する。 我々は、VTGを推定するためにGNNを訓練し、このGNNが様々なタスクにまたがるハイウェイトマッチングを返すことを実証的に示す。 さらに,VTGを効率よく近似できるライドシェアのような空間的クラウドソーシングアプリケーションにおけるグラフ分布の共通系を,グラフ内の局所的に情報を集約することで同定する。 この構造はGNNの局所的挙動と一致し、我々のアプローチを理論的に正当化する。

Online Bayesian bipartite matching is a central problem in digital marketplaces and exchanges, including advertising, crowdsourcing, ridesharing, and kidney exchange. We introduce a graph neural network (GNN) approach that emulates the problem's combinatorially-complex optimal online algorithm, which selects actions (e.g., which nodes to match) by computing each action's value-to-go (VTG) -- the expected weight of the final matching if the algorithm takes that action, then acts optimally in the future. We train a GNN to estimate VTG and show empirically that this GNN returns high-weight matchings across a variety of tasks. Moreover, we identify a common family of graph distributions in spatial crowdsourcing applications, such as rideshare, under which VTG can be efficiently approximated by aggregating information within local neighborhoods in the graphs. This structure matches the local behavior of GNNs, providing theoretical justification for our approach.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-18
# サイレント信号, ラウドインパクト: 符号化犬ホイッスルの単語センスの曖昧化のためのLLM

Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles ( http://arxiv.org/abs/2406.06840v2 )

ライセンス: Link先を確認
Julia Kruk, Michela Marchini, Rijul Magu, Caleb Ziems, David Muchlinski, Diyi Yang, (参考訳) 犬の笛は、特定の聴衆に二次的な意味を持ち、しばしば人種的・社会経済的差別のために武器化された符号化通信の一種である。 犬の口笛は歴史的にアメリカ合衆国の政治に由来するが、近年ではヘイトスピーチ検出システムを避け、妥当な識別性を維持する手段としてソーシャルメディアに根ざしている。 本稿では,Large Language Models (LLMs) を用いた標準音声からの犬笛の単語センスの曖昧化手法を提案し,この手法を用いて,形式的および非公式なコミュニケーションに使用される犬笛の16,550個の高信頼符号化例のデータセットを作成する。 サイレントシグナル(Silent Signals)は、ヘイトスピーチの検出、ネロジ、政治科学の応用のために作られた、あいまいな犬の口笛使用の最大のデータセットである。 データセットはhttps://huggingface.co/datasets/SALT-NLP/silent_signalsで見ることができる。

A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. Dog whistling historically originated from United States politics, but in recent years has taken root in social media as a means of evading hate speech detection systems and maintaining plausible deniability. In this paper, we present an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and leverage this technique to create a dataset of 16,550 high-confidence coded examples of dog whistles used in formal and informal communication. Silent Signals is the largest dataset of disambiguated dog whistle usage, created for applications in hate speech detection, neology, and political science. The dataset can be found at https://huggingface.co/datasets/SALT-NLP/silent_signals.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-18
# FLUX:カーネルフュージョンによるGPU上での高速ソフトウェアベースの通信オーバーラップ

FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion ( http://arxiv.org/abs/2406.06858v4 )

ライセンス: Link先を確認
Li-Wen Chang, Wenlei Bao, Qi Hou, Chengquan Jiang, Ningxin Zheng, Yinmin Zhong, Xuanrun Zhang, Zuquan Song, Ziheng Jiang, Haibin Lin, Xin Jin, Xin Liu, (参考訳) 大規模なディープラーニングモデルは、広範囲のアプリケーションで多くのタスクを解く強力な能力を示している。 これらの大きなモデルは一般的に、トレーニングと推論を必要とします。 テンソル並列性(Tensor parallelism)は、単一のプロセッサのメモリ容量制限を克服し、/または特定のレイテンシ要求を満たすために計算を高速化するために、デバイス間で操作やレイヤの計算を分割する一般的な手法である。 しかし、この種の並列処理は、ランタイム全体のかなりの部分を占めるかもしれない追加の通信を導入します。 これにより、ノード内のNVLinkを持つGPUなど、高速な相互接続を持つデバイス群における、このテクニックのスケーラビリティが制限される。 本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。 Fluxは通信処理と計算処理を細かな演算に過度に分解し、さらに大きなカーネルに融合させ、カーネル効率を損なうことなく効果的に通信を隠蔽する。 Fluxは核融合によって最大96%の通信を重複させる可能性がある。 全体として、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LMをトレーニングするための最大1.24倍のスピードアップを実現し、様々なGPU世代と相互接続を持つ8GPUを持つクラスタ上で、vLLM上の推論をプリフィルおよびデコードするための最大1.66倍と1.30倍のスピードアップを実現している。

Large deep learning models have demonstrated strong ability to solve many tasks across a wide range of applications. Those large models typically require training and inference to be distributed. Tensor parallelism is a common technique partitioning computation of an operation or layer across devices to overcome the memory capacity limitation of a single processor, and/or to accelerate computation to meet a certain latency requirement. However, this kind of parallelism introduces additional communication that might contribute a significant portion of overall runtime. Thus limits scalability of this technique within a group of devices with high speed interconnects, such as GPUs with NVLinks in a node. This paper proposes a novel method, Flux, to significantly hide communication latencies with dependent computations for GPUs. Flux over-decomposes communication and computation operations into much finer-grained operations and further fuses them into a larger kernel to effectively hide communication without compromising kernel efficiency. Flux can potentially overlap up to 96% of communication given a fused kernel. Overall, it can achieve up to 1.24x speedups for training over Megatron-LM on a cluster of 128 GPUs with various GPU generations and interconnects, and up to 1.66x and 1.30x speedups for prefill and decoding inference over vLLM on a cluster with 8 GPUs with various GPU generations and interconnects.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-18
# 最小フレーム平均化による高対称性と効率の等価性

Equivariance via Minimal Frame Averaging for More Symmetries and Efficiency ( http://arxiv.org/abs/2406.07598v3 )

ライセンス: Link先を確認
Yuchao Lin, Jacob Helwig, Shurui Gui, Shuiwang Ji, (参考訳) フレーム平均化による機械学習システムにおける等価性の実現を検討する。 現在のフレーム平均化法は、大きなフレーム上でのコストのかかる和や、近似同値しか得られないサンプリングベースのアプローチに依存している。 本稿では,最小フレーム平均化(MFA, Minimal Frame Averaging)を提案する。 MFAの一般基盤はまた、時空の対称性を記述するローレンツ群や複素値領域のユニタリ群など、これまで考えられていたよりも多くの群にフレーム平均化を拡張できる。 その結果,MFAによる対称性の符号化は,$n$-bodyシミュレーション,コライダー物理におけるトップタグ付け,緩和エネルギー予測など,多種多様なタスクにまたがって効率と効果が示された。 私たちのコードはhttps://github.com/divelab/MFA.comで公開されています。

We consider achieving equivariance in machine learning systems via frame averaging. Current frame averaging methods involve a costly sum over large frames or rely on sampling-based approaches that only yield approximate equivariance. Here, we propose Minimal Frame Averaging (MFA), a mathematical framework for constructing provably minimal frames that are exactly equivariant. The general foundations of MFA also allow us to extend frame averaging to more groups than previously considered, including the Lorentz group for describing symmetries in space-time, and the unitary group for complex-valued domains. Results demonstrate the efficiency and effectiveness of encoding symmetries via MFA across a diverse range of tasks, including $n$-body simulation, top tagging in collider physics, and relaxed energy prediction. Our code is available at https://github.com/divelab/MFA.
翻訳日:2024-06-22 01:26:51 公開日:2024-06-18
# 一般ドメインリソースを用いた生物医学的名前付きエンティティ認識の強化

Augmenting Biomedical Named Entity Recognition with General-domain Resources ( http://arxiv.org/abs/2406.10671v2 )

ライセンス: Link先を確認
Yu Yin, Hyunjae Kim, Xiao Xiao, Chih Hsuan Wei, Jaewoo Kang, Zhiyong Lu, Hua Xu, Meng Fang, Qingyu Chen, (参考訳) ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。 いくつかの研究では、複数のBioNERデータセットによるマルチタスク学習を用いて人的労力を削減しているが、この手法は一貫して性能改善をもたらしておらず、異なるバイオメディカルコーパスにラベルの曖昧さを導入する可能性がある。 我々は、バイオメディカルデータセットと重複する概念が少なく、容易にアクセス可能なリソースから移行学習することで、これらの課題に取り組むことを目指している。 本稿では,一般領域のNERデータセットをトレーニングに利用した,簡易なyet- Effective法であるGERBERAを提案する。 具体的には,対象のBioNERデータセットと一般ドメインデータセットの両方を用いて,トレーニング済みのバイオメディカル言語モデルをトレーニングするために,マルチタスク学習を行った。 その後、BioNERデータセット専用のモデルを微調整した。 我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。 バイオメディカルリソースは少ないが,BioNERデータセットを複数追加してトレーニングしたベースラインモデルに比べて優れた性能を示した。 具体的には,8つのエンティティタイプのうち6つのベースラインを一貫して上回り,5つの異なるコーパスから得られた8つのバイオメディカルエンティティタイプに対して,最高のベースライン性能よりも平均0.9%向上した。 JNLPBA-RNAデータセットではF1スコアが4.7%向上し,BioNERデータセットの性能向上に特に有効であった。

Training a neural network-based biomedical named entity recognition (BioNER) model usually requires extensive and costly human annotations. While several studies have employed multi-task learning with multiple BioNER datasets to reduce human effort, this approach does not consistently yield performance improvements and may introduce label ambiguity in different biomedical corpora. We aim to tackle those challenges through transfer learning from easily accessible resources with fewer concept overlaps with biomedical datasets. In this paper, we proposed GERBERA, a simple-yet-effective method that utilized a general-domain NER dataset for training. Specifically, we performed multi-task learning to train a pre-trained biomedical language model with both the target BioNER dataset and the general-domain dataset. Subsequently, we fine-tuned the models specifically for the BioNER dataset. We systematically evaluated GERBERA on five datasets of eight entity types, collectively consisting of 81,410 instances. Despite using fewer biomedical resources, our models demonstrated superior performance compared to baseline models trained with multiple additional BioNER datasets. Specifically, our models consistently outperformed the baselines in six out of eight entity types, achieving an average improvement of 0.9% over the best baseline performance across eight biomedical entity types sourced from five different corpora. Our method was especially effective in amplifying performance on BioNER datasets characterized by limited data, with a 4.7% improvement in F1 scores on the JNLPBA-RNA dataset.
翻訳日:2024-06-22 01:17:00 公開日:2024-06-18
# インストラクションCMP:インストラクションに基づく大規模言語モデルによる文圧縮における長さ制御

InstructCMP: Length Control in Sentence Compression through Instruction-based Large Language Models ( http://arxiv.org/abs/2406.11097v2 )

ライセンス: Link先を確認
Juseon-Do, Jingun Kwon, Hidetaka Kamigaito, Manabu Okumura, (参考訳) 抽出的要約は忠実な要約を生成することができるが、しばしば所望の要約長さのような追加の制約を必要とする。 従来の文圧縮モデルは、制限されたモデル能力のために制約を考慮せず、それに対処するためにモデル修正を必要とする。 このギャップを埋めるために,大規模言語モデル(LLM)のゼロショットタスク解決能力を活用することで,命令による長さ制約を考慮可能な文圧縮タスクへのアプローチである命令ベース圧縮(Instruction-based Compression, Instruction-based Compression, InstructCMP)を提案する。 そこで我々は,従来の文圧縮データセットを命令形式に変換することによって,新しい評価データセットを作成した。 データセットを用いて、圧縮されたテキストの長さを正確に制御する上で、現在のLLMが依然として課題に直面していることを最初に明らかにする。 この問題に対処するために、外部リソースを使わずに命令に付加的な長さ情報を組み込む「長さプライミング」という手法を提案する。 長さプライミングはゼロショット設定で効果的に機能するが、命令によるトレーニングデータセットにより、長さ制御の能力はさらに向上する。 これにより、トレーニングデータセットを命令形式で作成し、その上でモデルを微調整する。 実験結果と解析結果から, モデル修正を必要とせず, ゼロショットと微調整の両方でインストラクトCMPの性能を著しく向上させることがわかった。

Extractive summarization can produce faithful summaries but often requires additional constraints such as a desired summary length. Traditional sentence compression models do not typically consider the constraints because of their restricted model abilities, which require model modifications for coping with them. To bridge this gap, we propose Instruction-based Compression (InstructCMP), an approach to the sentence compression task that can consider the length constraint through instructions by leveraging the zero-shot task-solving abilities of Large Language Models (LLMs). For this purpose, we created new evaluation datasets by transforming traditional sentence compression datasets into an instruction format. By using the datasets, we first reveal that the current LLMs still face challenges in accurately controlling the length for a compressed text. To address this issue, we propose an approach named "length priming," that incorporates additional length information into the instructions without external resources. While the length priming effectively works in a zero-shot setting, a training dataset with the instructions would further improve the ability of length control. Thus, we additionally created a training dataset in an instruction format to fine-tune the model on it. Experimental results and analysis show that applying the length priming significantly improves performances of InstructCMP in both zero-shot and fine-tuning settings without the need of any model modifications.
翻訳日:2024-06-22 01:07:15 公開日:2024-06-18
# Semantic Graph Consistency: 自己監督型視覚変換器を正規化するためのパッチを超えて

Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers ( http://arxiv.org/abs/2406.12944v1 )

ライセンス: Link先を確認
Chaitanya Devaguptapu, Sumukh Aithal, Shrinivas Ramasubramanian, Moyuru Yamada, Manohar Kaul, (参考訳) 視覚変換器(ViT)を用いた自己教師付き学習(SSL)は、様々な下流タスクにおける印象的なパフォーマンスによって示されるように、表現学習に有効であることが証明されている。 これらの成功にもかかわらず、既存のViTベースのSSLアーキテクチャはViTバックボーン、特にViTのパッチトークンを完全に活用していない。 本稿では,ViTベースのSSLメソッドを標準化し,パッチトークンを効果的に活用するための新しいセマンティックグラフ一貫性(SGC)モジュールを提案する。 イメージをグラフとして再認識し,イメージパッチをノードとして,グラフニューラルネットワークを用いた明示的なメッセージパッシングによってリレーショナル帰納バイアスをSSLフレームワークに注入する。 我々のSGC損失は正規化要因として機能し、ViTの未公開パッチトークンを利用してグラフを構築し、画像の複数のビューにまたがるグラフ特徴間の一貫性を強制します。 ImageNet,RESISC,Food-101などの各種データセットに対する大規模な実験により,本手法が学習表現の質を大幅に向上し,リニア評価に限定ラベルデータを用いる場合,5~10倍の性能向上が得られた。 これらの実験は、様々な環境でのアプローチの可能性を実証している。

Self-supervised learning (SSL) with vision transformers (ViTs) has proven effective for representation learning as demonstrated by the impressive performance on various downstream tasks. Despite these successes, existing ViT-based SSL architectures do not fully exploit the ViT backbone, particularly the patch tokens of the ViT. In this paper, we introduce a novel Semantic Graph Consistency (SGC) module to regularize ViT-based SSL methods and leverage patch tokens effectively. We reconceptualize images as graphs, with image patches as nodes and infuse relational inductive biases by explicit message passing using Graph Neural Networks into the SSL framework. Our SGC loss acts as a regularizer, leveraging the underexploited patch tokens of ViTs to construct a graph and enforcing consistency between graph features across multiple views of an image. Extensive experiments on various datasets including ImageNet, RESISC and Food-101 show that our approach significantly improves the quality of learned representations, resulting in a 5-10\% increase in performance when limited labeled data is used for linear evaluation. These experiments coupled with a comprehensive set of ablations demonstrate the promise of our approach in various settings.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# タブラルデータ生成モデルのフッド下:ハイパーパラメータチューニングの強い影響

Under the Hood of Tabular Data Generation Models: the Strong Impact of Hyperparameter Tuning ( http://arxiv.org/abs/2406.12945v1 )

ライセンス: Link先を確認
G. Charbel N. Kindji, Lina Maria Rojas-Barahona, Elisa Fromont, Tanguy Urvoy, (参考訳) グラフデータ生成のための最近の5つのモデルファミリに対する,データセット固有のハイパーパラメータ,特徴符号化,アーキテクチャチューニングの影響を,16データセットの広範なベンチマークを用いて検討した。 本研究は、ハイパーパラメータ最適化を完全に考慮したモデルの統一評価の実践的必要性に対処する。 さらに,各モデルに対して,高速な最適化を実現し,ほぼ同等の性能を極めて低いコストで達成する検索スペースの削減を提案し,我々のベンチマークでは,ほとんどのモデルにおいて,大規模データセット特化チューニングが元の構成よりも大幅に性能を向上することを示した。 さらに,拡散モデルが表データ上で他のモデルを上回ることが確認された。 しかし、チューニングとトレーニングプロセス全体がすべてのモデルで同じGPU予算に制限されている場合、この利点は重要ではない。

We investigate the impact of dataset-specific hyperparameter, feature encoding, and architecture tuning on five recent model families for tabular data generation through an extensive benchmark on 16 datasets. This study addresses the practical need for a unified evaluation of models that fully considers hyperparameter optimization. Additionally, we propose a reduced search space for each model that allows for quick optimization, achieving nearly equivalent performance at a significantly lower cost.Our benchmark demonstrates that, for most models, large-scale dataset-specific tuning substantially improves performance compared to the original configurations. Furthermore, we confirm that diffusion-based models generally outperform other models on tabular data. However, this advantage is not significant when the entire tuning and training process is restricted to the same GPU budget for all models.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# 言語モデルのための命令データ生成と教師なし適応

Instruction Data Generation and Unsupervised Adaptation for Speech Language Models ( http://arxiv.org/abs/2406.12946v1 )

ライセンス: Link先を確認
Vahid Noroozi, Zhehuai Chen, Somshubra Majumdar, Steve Huang, Jagadeesh Balam, Boris Ginsburg, (参考訳) 本稿では,テキスト入力と音声入力の両方を処理可能な多モーダル大規模言語モデルの訓練と評価を行うために,合成サンプルを生成する3つの方法を提案する。 両方のモダリティを含むサンプルの不足に対応するため、合成データ生成は、これらのシステムの性能を高め、音声とテキストドメイン間の相互関係のモデリングを容易にする重要な戦略として現れる。 このプロセスでは,大規模言語モデルを用いてテキストコンポーネントとテキスト音声システムを生成し,音声コンポーネントを生成する。 提案手法は,これらのモデルのトレーニングデータセットを拡張するための実用的で効果的な手段を提供する。 実験結果から,テキストと音声の統合理解の進展が示された。 また、ラベルなし音声データを用いて、利用可能な文字起こしに匹敵する品質の合成サンプルを生成する可能性を強調し、これらのモデルをより多くの言語に拡張することを可能にする。

In this paper, we propose three methods for generating synthetic samples to train and evaluate multimodal large language models capable of processing both text and speech inputs. Addressing the scarcity of samples containing both modalities, synthetic data generation emerges as a crucial strategy to enhance the performance of such systems and facilitate the modeling of cross-modal relationships between the speech and text domains. Our process employs large language models to generate textual components and text-to-speech systems to generate speech components. The proposed methods offer a practical and effective means to expand the training dataset for these models. Experimental results show progress in achieving an integrated understanding of text and speech. We also highlight the potential of using unlabeled speech data to generate synthetic samples comparable in quality to those with available transcriptions, enabling the expansion of these models to more languages.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# AutoFirm:IoTファームウェア内の再利用ライブラリを大規模に自動識別する

AutoFirm: Automatically Identifying Reused Libraries inside IoT Firmware at Large-Scale ( http://arxiv.org/abs/2406.12947v1 )

ライセンス: Link先を確認
YongLe Chen, Feng Ma, Ying Zhang, YongZhong He, Haining Wang, Qiang Li, (参考訳) IoT(Internet of Things)は、私たちの日常生活や仕事にとって欠かせないものになっています。 残念ながら、開発者はIoTファームウェアでソフトウェアライブラリを再利用することがよくあり、大きなセキュリティ上の懸念につながります。 これらのライブラリの脆弱性やセキュリティの低いバージョンがパッチされていない場合、大量のIoTデバイスが影響を受ける可能性がある。 本稿では,IoTファームウェアの再利用ライブラリを大規模に検出する自動ツールであるAutoFirmを提案する。 具体的には、AutoFirmは構文情報(ライブラリ名とバージョン)を活用して、IoTファームウェアがライブラリを再利用するかどうかを判断する。 我々は、IoTファームウェアの再利用ライブラリに関する大規模な実証的研究を行い、6,900以上のファームウェアと2,700以上の異なる脆弱性を調査し、349のオープンソースソフトウェアライブラリから11,300以上の脆弱なバージョンに影響を及ぼす。 この多様な情報セットを活用することで、セキュリティギャップとIoTファームウェア内のライブラリの不正な信頼を理解するために、脆弱なライブラリバージョンの質的な評価を行います。 我々の調査によると、製造業者は、IoTファームウェアの古いライブラリを67.3%のケースで更新することを怠った。

The Internet of Things (IoT) has become indispensable to our daily lives and work. Unfortunately, developers often reuse software libraries in the IoT firmware, leading to a major security concern. If vulnerabilities or insecure versions of these libraries go unpatched, a massive number of IoT devices can be impacted. In this paper, we propose the AutoFirm, an automated tool for detecting reused libraries in IoT firmware at a large scale. Specifically, AutoFirm leverages the syntax information (library name and version) to determine whether IoT firmware reuses the libraries. We conduct a large-scale empirical study of reused libraries of IoT firmware, investigating more than 6,900+ firmware and 2,700+ distinct vulnerabilities affecting 11,300+ vulnerable versions from 349 open-source software libraries. Leveraging this diverse information set, we conduct a qualitative assessment of vulnerable library versions to understand security gaps and the misplaced trust of libraries in IoT firmware. Our research reveals that: manufacturers neglected to update outdated libraries for IoT firmware in 67.3\% of cases; on average, outdated libraries persisted for over 1.34 years prior to remediation; vulnerabilities of software libraries have posed server threats to widespread IoT devices.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# カオスチューア回路に基づく新しい貯留層計算カーネルとポスト量子暗号への応用

New Reservoir Computing Kernel Based on Chaotic Chua Circuit and Investigating Application to Post-Quantum Cryptography ( http://arxiv.org/abs/2406.12948v1 )

ライセンス: Link先を確認
Matthew John Cossins, Sendy Phang, (参考訳) このプロジェクトの目的は、カオス的なChua回路をベースとした新しいReservoir Computerの実装を開発することである。 適切な分類と回帰のベンチマークに加えて、Reservoir Computer はポスト量子暗号に適用され、その適用性は調査・評価された。 暗号アルゴリズムは暗号化と復号の両方のためにLearning with Errors問題を利用した。 これを実現するため、チューア回路はシミュレーションや物理回路試験によって特徴づけられた。 Reservoir Computer は、特性化の結果を用いて設計、実装された。 この開発の一環として、騒音は考慮され緩和された。 ベンチマークにより、Reservoir Computerは、エラーの少ない現在の文献ベンチマークを達成できることが示されている。 しかし、Learning with Errorsの結果は、ChuaをベースとしたReservoir Computerは、ポスト量子暗号における高非線形性に取り組むのに十分複雑ではないことを示唆している。 今後の研究は、より大規模なニューラルネットワークアーキテクチャにおける複数のChua Reservoir Computersの異なる組み合わせの使用を研究することである。 このようなアーキテクチャは、エラーを伴う学習を実現するために必要となる高次元の振る舞いを生成する。 このプロジェクトは、ChuaをベースとしたReservoir Computerのアカデミアにおける2番目の事例であると考えられており、ポスト量子暗号のような現実世界の課題に最初に適用されたものである。 また、探索されていないパラメータとその性能への影響を調査した結果もオリジナルである。 これは、大量生産可能で安価で低消費電力のハードウェアニューラルネットワークに対する概念実証である。 また、ChuaベースのReservoir Computersをさまざまなアプリケーションで使用するための道を開くことで、研究の次の段階を実現できる。

The aim of this project was to develop a new Reservoir Computer implementation, based on a chaotic Chua circuit. In addition to suitable classification and regression benchmarks, the Reservoir Computer was applied to Post-Quantum Cryptography, with its suitability for this application investigated and assessed. The cryptographic algorithm utilised was the Learning with Errors problem, for both encryption and decryption. To achieve this, the Chua circuit was characterised, in simulation, and by physical circuit testing. The Reservoir Computer was designed and implemented using the results of the characterisation. As part of this development, noise was considered and mitigated. The benchmarks demonstrate that the Reservoir Computer can achieve current literature benchmarks with low error. However, the results with Learning with Errors suggest that a Chua-based Reservoir Computer is not sufficiently complex to tackle the high non-linearity in Post-Quantum Cryptography. Future work would involve researching the use of different combinations of multiple Chua Reservoir Computers in larger neural network architectures. Such architectures may produce the required high-dimensional behaviour to achieve the Learning with Errors problem. This project is believed to be only the second instance of a Chua-based Reservoir Computer in academia, and it is the first to be applied to challenging real-world tasks such as Post-Quantum Cryptography. It is also original by its investigation of hitherto unexplored parameters, and their impact on performance. It demonstrates a proof-of-concept for a mass-producible, inexpensive, low-power consumption hardware neural network. It also enables the next stages in research to occur, paving the road for using Chua-based Reservoir Computers across various applications.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# MolecularGPT:Few-Shot分子特性予測のためのオープン大言語モデル(LLM)

MolecularGPT: Open Large Language Model (LLM) for Few-Shot Molecular Property Prediction ( http://arxiv.org/abs/2406.12950v1 )

ライセンス: Link先を確認
Yuyan Liu, Sirui Ding, Sheng Zhou, Wenqi Fan, Qiaoyu Tan, (参考訳) 分子特性予測(MPP)は、薬物発見の根本的で重要な課題である。 しかし、先行手法は、多数のラベル付き分子の要求と、それらが目に見えない新しいタスクを一般化する能力によって制限されている。 これらの課題に対処するために,数ショットMPPの分子GPTを提案する。 命令チューニングの観点からは,1000以上の特性予測タスクにまたがる分子インストラクションに基づいて,大規模言語モデル(LLM)を微調整する。 これにより、ゼロショットと少数ショットのインコンテキスト学習(ICL)を介さずに、新しいMPPタスクに適応できる汎用的で専門的なLSMを構築することができる。 MolecularGPTは、10の下流評価データセットで競合するコンテキスト内推論機能を示し、数ショットの分子予測タスクのための新しいベンチマークを設定している。 さらに重要なのは、たった2ショットの例では、7つのデータセットのうち4つで、標準的な教師付きグラフニューラルネットワークの手法より優れていることだ。 また、最先端のLCMベースラインを最大16.6%向上させ、ゼロショット下の回帰測定値(例えばRMSE)の199.17を減少させる。 本研究は、LLMが効果的な数発の分子特性予測因子としての可能性を示す。 コードはhttps://github.com/NYUSHCS/MolecularGPTで公開されている。

Molecular property prediction (MPP) is a fundamental and crucial task in drug discovery. However, prior methods are limited by the requirement for a large number of labeled molecules and their restricted ability to generalize for unseen and new tasks, both of which are essential for real-world applications. To address these challenges, we present MolecularGPT for few-shot MPP. From a perspective on instruction tuning, we fine-tune large language models (LLMs) based on curated molecular instructions spanning over 1000 property prediction tasks. This enables building a versatile and specialized LLM that can be adapted to novel MPP tasks without any fine-tuning through zero- and few-shot in-context learning (ICL). MolecularGPT exhibits competitive in-context reasoning capabilities across 10 downstream evaluation datasets, setting new benchmarks for few-shot molecular prediction tasks. More importantly, with just two-shot examples, MolecularGPT can outperform standard supervised graph neural network methods on 4 out of 7 datasets. It also excels state-of-the-art LLM baselines by up to 16.6% increase on classification accuracy and decrease of 199.17 on regression metrics (e.g., RMSE) under zero-shot. This study demonstrates the potential of LLMs as effective few-shot molecular property predictors. The code is available at https://github.com/NYUSHCS/MolecularGPT.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# コードエージェントは最先端のソフトウェアテスタである

Code Agents are State of the Art Software Testers ( http://arxiv.org/abs/2406.12952v1 )

ライセンス: Link先を確認
Niels Mündler, Mark Niklas Müller, Jingxuan He, Martin Vechev, (参考訳) 厳格なソフトウェアテストは、高品質なコードの開発とメンテナンスに不可欠であり、自動テスト生成は、ソフトウェアの品質を改善し、コード生成方法の有効性を高めるために、有望な方法である。 しかし、Large Language Models (LLMs) を用いたコード生成は極めて活発な研究領域であるが、テスト生成は比較的未探索のままである。 このギャップに対処し、ユーザ問題をテストケースに形式化するLLMベースのコードエージェントの能力について検討する。 この目的のために、我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なパッチ、ゴールデンテストを含む。 コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。 さらに、テスト生成はコード生成と似ているがより構造化されたタスクであるため、フェール・ツー・パス率とカバレッジメトリクスを使用してよりきめ細かい分析を可能にし、コード修復用に設計されたシステムを分析するための二重メトリックを提供する。 最後に、生成されたテストは、SWE-Agentの精度を2倍にすることで、提案するコード修正に有効なフィルタであることが判明した。

Rigorous software testing is crucial for developing and maintaining high-quality code, making automated test generation a promising avenue for both improving software quality and boosting the effectiveness of code generation methods. However, while code generation with Large Language Models (LLMs) is an extraordinarily active research area, test generation remains relatively unexplored. We address this gap and investigate the capability of LLM-based Code Agents for formalizing user issues into test cases. To this end, we propose a novel benchmark based on popular GitHub repositories, containing real-world issues, ground-truth patches, and golden tests. We find that LLMs generally perform surprisingly well at generating relevant test cases with Code Agents designed for code repair exceeding the performance of systems designed specifically for test generation. Further, as test generation is a similar but more structured task than code generation, it allows for a more fine-grained analysis using fail-to-pass rate and coverage metrics, providing a dual metric for analyzing systems designed for code repair. Finally, we find that generated tests are an effective filter for proposed code fixes, doubling the precision of SWE-Agent.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# パターンかアーティファクトか? TRACEを用いたインタラクティブな埋め込み品質探索

Pattern or Artifact? Interactively Exploring Embedding Quality with TRACE ( http://arxiv.org/abs/2406.12953v1 )

ライセンス: Link先を確認
Edith Heiter, Liesbet Martens, Ruth Seurinck, Martin Guilliams, Tijl De Bie, Yvan Saeys, Jefrey Lijffijt, (参考訳) 本稿では,次元還元技術を用いて生成した2次元埋め込みの質を解析するツールであるTRACEを提案する。 次元性低減手法は、しばしば局所的な地域や大域的な距離の保存を優先するが、その目的が均一に達成されていない場合、視覚構造からの洞察は誤解を招く可能性がある。 TRACEはこの課題に対処し、ローカルとグローバルの両方の品質測定を計算するためのスケーラブルで拡張可能なパイプラインを提供する。 インタラクティブなブラウザベースのインターフェースにより、ユーザは様々な埋め込みを探索し、ポイントワイドな埋め込み品質を視覚的に評価することができる。 インターフェースはまた、任意の点群に対して高次元近傍をハイライトし、点間の高次元距離を表示することで、詳細な解析を容易にする。 TRACEは,構造が縮小された空間に保存される度合いと位置を示すことによって,特定のユースケースに対して最も適切な次元的縮小法について,分析者が情報的決定を行うことを可能にする。

This paper presents TRACE, a tool to analyze the quality of 2D embeddings generated through dimensionality reduction techniques. Dimensionality reduction methods often prioritize preserving either local neighborhoods or global distances, but insights from visual structures can be misleading if the objective has not been achieved uniformly. TRACE addresses this challenge by providing a scalable and extensible pipeline for computing both local and global quality measures. The interactive browser-based interface allows users to explore various embeddings while visually assessing the pointwise embedding quality. The interface also facilitates in-depth analysis by highlighting high-dimensional nearest neighbors for any group of points and displaying high-dimensional distances between points. TRACE enables analysts to make informed decisions regarding the most suitable dimensionality reduction method for their specific use case, by showing the degree and location where structure is preserved in the reduced space.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# 転写学習技術を用いた皮膚癌画像の分類

Skin Cancer Images Classification using Transfer Learning Techniques ( http://arxiv.org/abs/2406.12954v1 )

ライセンス: Link先を確認
Md Sirajul Islam, Sanjeev Panta, (参考訳) 皮膚がんは最も一般的で致命的ながんの1つである。 良性期における皮膚癌の早期診断は、がん死亡率の低下に重要である。 早期に皮膚がんを検出するためには、多くの患者の命を救える自動化システムが必須である。 様々な深層学習モデルと転写学習モデルを用いた皮膚癌診断の問題点について,これまで多くの研究がなされてきた。 しかし、既存の文献はその正確さと時間を要する手続きに限界がある。 本研究は, 良性および悪性期における皮膚癌検出のバイナリ分類に, 5種類の事前学習型トランスファーラーニングアプローチを適用した。 これらのモデルの精度を高めるために、異なるレイヤとアクティベーション関数を微調整する。 我々は、トランスファー学習アプローチを評価するために、公開のISICデータセットを使用した。 モデル安定性のために、入力データセットのランダム性を改善するためにデータ拡張手法を適用した。 これらのアプローチは、バッチサイズ、エポック、オプティマイザなど、さまざまなハイパーパラメータを用いて評価される。 実験の結果、ResNet-50モデルは0.935、F1スコア0.86、精度0.94であることがわかった。

Skin cancer is one of the most common and deadliest types of cancer. Early diagnosis of skin cancer at a benign stage is critical to reducing cancer mortality. To detect skin cancer at an earlier stage an automated system is compulsory that can save the life of many patients. Many previous studies have addressed the problem of skin cancer diagnosis using various deep learning and transfer learning models. However, existing literature has limitations in its accuracy and time-consuming procedure. In this work, we applied five different pre-trained transfer learning approaches for binary classification of skin cancer detection at benign and malignant stages. To increase the accuracy of these models we fine-tune different layers and activation functions. We used a publicly available ISIC dataset to evaluate transfer learning approaches. For model stability, data augmentation techniques are applied to improve the randomness of the input dataset. These approaches are evaluated using different hyperparameters such as batch sizes, epochs, and optimizers. The experimental results show that the ResNet-50 model provides an accuracy of 0.935, F1-score of 0.86, and precision of 0.94.
翻訳日:2024-06-22 00:37:55 公開日:2024-06-18
# ゲージ変調対称性:Kramers-Wannier双対性と非可逆反射

Gauging modulated symmetries: Kramers-Wannier dualities and non-invertible reflections ( http://arxiv.org/abs/2406.12962v1 )

ライセンス: Link先を確認
Salvatore D. Pace, Guilherme Delfino, Ho Tat Lam, Ömer M. Aksoy, (参考訳) 変調対称性は、非一様で空間的に変調された方法で作用する内部対称性であり、例えば双極子対称性の一般化である。 本稿では,有限アベリア変調対称性のガウイングを${1+1}$次元で体系的に研究する。 スピン鎖の局所ハミルトニアンと協力し、ゲージング後の双対対称性とその潜在的な新しい空間変調を探索する。 我々は、変調対称性と、格子反射によって自然に実装されたそれらの双対の間の同型の存在について十分な条件を確立する。 例えば、素クォーディットの系では、変換不変性はこの同型を保証している。 非素数体に対しては、この同型は格子変換対称性だけでは保証されないが、環論の技法を用いてこの同型も存在することを示す。 この同型性から、新しいクラマース・ワニエ双対性を同定し、関連する非可逆反射対称性演算子をシーケンシャル量子回路を用いて構成する。 特に、この非可逆反射対称性は、システムが通常の反射対称性を欠いている場合でも存在する。 論文全体を通して、これらの結果を様々なシンプルな玩具モデルを用いて説明する。

Modulated symmetries are internal symmetries that act in a non-uniform, spatially modulated way and are generalizations of, for example, dipole symmetries. In this paper, we systematically study the gauging of finite Abelian modulated symmetries in ${1+1}$ dimensions. Working with local Hamiltonians of spin chains, we explore the dual symmetries after gauging and their potential new spatial modulations. We establish sufficient conditions for the existence of an isomorphism between the modulated symmetries and their dual, naturally implemented by lattice reflections. For instance, in systems of prime qudits, translation invariance guarantees this isomorphism. For non-prime qudits, we show using techniques from ring theory that this isomorphism can also exist, although it is not guaranteed by lattice translation symmetry alone. From this isomorphism, we identify new Kramers-Wannier dualities and construct related non-invertible reflection symmetry operators using sequential quantum circuits. Notably, this non-invertible reflection symmetry exists even when the system lacks ordinary reflection symmetry. Throughout the paper, we illustrate these results using various simple toy models.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 最も単純な基準を用いたクロック信号のトモグラフィ

Tomography of clock signals using the simplest possible reference ( http://arxiv.org/abs/2406.12973v1 )

ライセンス: Link先を確認
Nuriya Nurgalieva, Ralph Silva, Renato Renner, (参考訳) 有限サイズ系の物理過程によって生成される全ての待ち時間分布は、崩壊エンベロープによって束縛されることが保証される。 この考察により、あるクロックのニッチを他のクロック(参照と呼ぶ)に対して順序付けるという操作可能な情報のみを用いて分布を再構築でき、最も単純な参照クロックであるポアソンプロセスが十分であることを示す。

We show that finite physical clocks always have well-behaved signals, namely that every waiting-time distribution generated by a physical process on a system of finite size is guaranteed to be bounded by a decay envelope. Following this consideration, we show that one can reconstruct the distribution using only operationally available information, namely, that of the ordering of the ticks of one clock with the respect to those of another clock (which we call the reference), and that the simplest possible reference clock -- a Poisson process -- suffices.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# ShiELD:LLMテキスト生成における著作権コンプライアンスの評価と防御戦略

SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation ( http://arxiv.org/abs/2406.12975v1 )

ライセンス: Link先を確認
Xiaoze Liu, Ting Sun, Tianyang Xu, Feijie Wu, Cunxiang Wang, Xiaoqian Wang, Jing Gao, (参考訳) 大規模言語モデル (LLMs) は機械学習を変容させたが、著作権を侵害するテキストを生成できる可能性のために、重大な法的懸念を提起し、いくつかの著名な訴訟を引き起こした。 法的な状況は、これらの急速な進歩に追随し、生成したテキストが著作権のある資料を盗用するかどうかに関する議論が続いている。 現在のLLMは著作権を侵害したり、コピーライトされていないテキストを過剰に制限する可能性がある。 一 複数面から著作権の遵守を評価するための総合評価ベンチマークの必要性 二 防犯攻撃の回避に対する堅牢性を評価すること。 三 著作権文書の発生を標的とした効果的な防衛を開発すること。 これらの課題に対処するために、我々は、手法の評価、攻撃戦略のテスト、著作権テキストの発生防止のための軽量でリアルタイムな防御の提案、LLMの安全で合法的な使用を保証するためのキュレートされたデータセットを導入した。 我々の実験は、現在のLLMが頻繁に著作権付きテキストを出力し、ジェイルブレイク攻撃は著作権付きテキストの量を著しく増加させることを示した。 提案する防衛機構は,悪意のある要求を効果的に拒否することにより,LLMが生成する著作権文書の量を大幅に削減する。 コードはhttps://github.com/xz-liu/SHIELDで公開されている。

Large Language Models (LLMs) have transformed machine learning but raised significant legal concerns due to their potential to produce text that infringes on copyrights, resulting in several high-profile lawsuits. The legal landscape is struggling to keep pace with these rapid advancements, with ongoing debates about whether generated text might plagiarize copyrighted materials. Current LLMs may infringe on copyrights or overly restrict non-copyrighted texts, leading to these challenges: (i) the need for a comprehensive evaluation benchmark to assess copyright compliance from multiple aspects; (ii) evaluating robustness against safeguard bypassing attacks; and (iii) developing effective defenses targeted against the generation of copyrighted text. To tackle these challenges, we introduce a curated dataset to evaluate methods, test attack strategies, and propose lightweight, real-time defenses to prevent the generation of copyrighted text, ensuring the safe and lawful use of LLMs. Our experiments demonstrate that current LLMs frequently output copyrighted text, and that jailbreaking attacks can significantly increase the volume of copyrighted output. Our proposed defense mechanisms significantly reduce the volume of copyrighted text generated by LLMs by effectively refusing malicious requests. Code is publicly available at https://github.com/xz-liu/SHIELD
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 3+1d以上の非可逆対称性のテンソルネットワーク

Tensor networks for non-invertible symmetries in 3+1d and beyond ( http://arxiv.org/abs/2406.12978v1 )

ライセンス: Link先を確認
Pranay Gorantla, Shu-Heng Shao, Nathanan Tantivasadakarn, (参考訳) テンソルネットワークは、一般ハミルトン格子モデルにおける非可逆対称性に対する自然言語を提供する。 量子回路のテンソルネットワーク表現であるZX-ダイアグラムを用いて、3+1d格子$\mathbb{Z}_2$ゲージ理論でウェグナー双対性を実装する非可逆作用素を定義する。 格子変換と混合する非可逆代数は、ZX-計算を用いて効率的に計算できる。 さらに、双対性を保ちながら$\mathbb{Z}_2$ゲージ理論を変形し、対称性によって課されるリーブ=シュルツ=マティス型制約と整合して、トーラス上の9つの正確に退化した基底状態を持つモデルを求める。 最後に、1+1dイジングモデル、三スピンイジングモデル、アシュキン・テラーモデル、および2+1dプラケットイジングモデルを含む一般化したイジングモデルの非可逆双対作用素(非可逆パリティ/反射対称性を含む)のZXダイアグラムを提示する。 空間対称性との混合(またはその欠如)は、グラフ理論に基づく統一的な視点から理解される。

Tensor networks provide a natural language for non-invertible symmetries in general Hamiltonian lattice models. We use ZX-diagrams, which are tensor network presentations of quantum circuits, to define a non-invertible operator implementing the Wegner duality in 3+1d lattice $\mathbb{Z}_2$ gauge theory. The non-invertible algebra, which mixes with lattice translations, can be efficiently computed using ZX-calculus. We further deform the $\mathbb{Z}_2$ gauge theory while preserving the duality and find a model with nine exactly degenerate ground states on a torus, consistent with the Lieb-Schultz-Mattis-type constraint imposed by the symmetry. Finally, we provide a ZX-diagram presentation of the non-invertible duality operators (including non-invertible parity/reflection symmetries) of generalized Ising models based on graphs, encompassing the 1+1d Ising model, the three-spin Ising model, the Ashkin-Teller model, and the 2+1d plaquette Ising model. The mixing (or lack thereof) with spatial symmetries is understood from a unifying perspective based on graph theory.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# ボソニックボゴリューボフ準粒子の量子幾何学

Quantum geometry of bosonic Bogoliubov quasiparticles ( http://arxiv.org/abs/2406.12981v1 )

ライセンス: Link先を確認
Isaac Tesfaye, André Eckardt, (参考訳) ボソニックなBogoliubov-de Gennes(BdG)系で生じる位相的および幾何学的特徴は、ベリー曲率の一般化されたシンプレクティック版と関連するチャーン数を用いて主に研究されている。 ここではシンプレクティック量子幾何テンソル(SQGT)を提案し、その虚部が以前に研究されたシンプレクティックベリー曲率を導く一方、実部はシンプレクティック量子計量を生じさせ、ボゴリューボフモードの空間における自然な距離測度を与える。 本稿では,SQGTのパラメータの周期的変調に応答して励起率を抽出し,SQGTのすべての成分を測定する方法を提案する。 さらに、シンプレクティックベリー曲率をボゴリューボフ・ブロッホ波パケットの一般化されたシンプレクティック異常速度項に接続する。 ボソニックなボゴリューボフ・ハルダンモデルについて実験を行った。

Topological and geometrical features arising in bosonic Bogoliubov-de Gennes (BdG) systems have mainly been studied by utilizing a generalized symplectic version of the Berry curvature and related Chern numbers. Here, we propose a symplectic quantum geometric tensor (SQGT), whose imaginary part leads to the previously studied symplectic Berry curvature, while the real part gives rise to a symplectic quantum metric, providing a natural distance measure in the space of bosonic Bogoliubov modes. We propose how to measure all components of the SQGT by extracting excitation rates in response to periodic modulations of the systems' parameters. Moreover, we connect the symplectic Berry curvature to a generalized symplectic anomalous velocity term for Bogoliubov Bloch wave packets. We test our results for a bosonic Bogoliubov-Haldane model.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 社債取引における強化学習の側面

Reinforcement Learning for Corporate Bond Trading: A Sell Side Perspective ( http://arxiv.org/abs/2406.12983v1 )

ライセンス: Link先を確認
Samuel Atkins, Ali Fathi, Sammy Assefa, (参考訳) 銀行等の典型的な販売側機関の社債トレーダーは、証券の売買及び在庫の維持により、市場参加者に流動性を提供する。 売り買い価格の見積もり(RFQ)の要求を受けると、トレーダーは \textit{prevalent market price} にスプレッドを追加することで見積もりを提供する。 不正な債券については、市場価格の観測が困難であり、トレーダーはしばしば利用可能なベンチマーク債の価格(マーケットアクセス、ブルームバーグなど)に頼っている。 引用{Bergault2023ModelingLI} では、無限の水平確率的最適制御問題(トレーダーが期待するP\&Lを最大化するために、二次変動によって正則化)から導かれる、不正な社債に対する \textit{Fair Transfer Price} の概念が導入された。 本稿では、同じ最適化目標を考察するが、データ駆動方式で最適な入札分散商法の推定にアプローチし、強化学習を用いて学習できることを示す。 さらに,訓練されたエージェントの行動の妥当性を検討するために,広範囲な結果分析を行う。

A corporate bond trader in a typical sell side institution such as a bank provides liquidity to the market participants by buying/selling securities and maintaining an inventory. Upon receiving a request for a buy/sell price quote (RFQ), the trader provides a quote by adding a spread over a \textit{prevalent market price}. For illiquid bonds, the market price is harder to observe, and traders often resort to available benchmark bond prices (such as MarketAxess, Bloomberg, etc.). In \cite{Bergault2023ModelingLI}, the concept of \textit{Fair Transfer Price} for an illiquid corporate bond was introduced which is derived from an infinite horizon stochastic optimal control problem (for maximizing the trader's expected P\&L, regularized by the quadratic variation). In this paper, we consider the same optimization objective, however, we approach the estimation of an optimal bid-ask spread quoting strategy in a data driven manner and show that it can be learned using Reinforcement Learning. Furthermore, we perform extensive outcome analysis to examine the reasonableness of the trained agent's behavior.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# ディジタル量子コンピュータを用いたスピン生物学のシミュレーション:短期量子ハードウェアエミュレータの展望

Simulating spin biology using a digital quantum computer: Prospects on a near-term quantum hardware emulator ( http://arxiv.org/abs/2406.12986v1 )

ライセンス: Link先を確認
Pedro H. Alvarez, Farhan T. Chowdhury, Luke D. Smith, Trevor J. Brokowski, Clarice D. Aiello, Daniel R. Kattnig, Marcos C. de Oliveira, (参考訳) ラジカル対反応の複雑な量子スピンダイナミクスを理解することは、様々な科学領域にまたがる化学プロセスの基礎的な性質を明らかにするために重要である。 本研究では、トロタライゼーションを利用してコヒーレントなラジカル対スピンダイナミクスをデジタルゲートベースの量子シミュレーションにマッピングする。 その結果, 理想化されたノイズレス量子回路シミュレーションと, 均一なラジカル対組換えのためのマスター方程式アプローチの一致を実証し, 原型系の結合スピンダイナミクスを忠実に再現するのに十分な約15のトロッターステップを同定した。 この計算手法を用いて, 複雑なラジカル対反応のディジタル量子シミュレーション (DQS) の可能性を明らかにするとともに, 複雑な反応力学に関するより実用的な研究に向けての基礎を築いた。 さらに,DQS手法における現実的誤差モデルの効果について検討し,誤差軽減技術が存在しない場合に現在適用可能なトロッターステップ数に上限を与えて,シミュレーション精度を損なうことなく,ノイズ効果を抑える方法を提案する。

Understanding the intricate quantum spin dynamics of radical pair reactions is crucial for unraveling the underlying nature of chemical processes across diverse scientific domains. In this work, we leverage Trotterization to map coherent radical pair spin dynamics onto a digital gate-based quantum simulation. Our results demonstrated agreement between the idealized noiseless quantum circuit simulation and established master equation approaches for homogeneous radical pair recombination, identifying approximately 15 Trotter steps to be sufficient for faithfully reproducing the coupled spin dynamics of a prototypical system. By utilizing this computational technique to study the dynamics of spin systems of biological relevance, our findings underscore the potential of digital quantum simulation (DQS) of complex radical pair reactions and builds the groundwork towards more utilitarian investigations into their intricate reaction dynamics. We further investigate the effect of realistic error models on our DQS approach, and provide an upper limit for the number of Trotter steps that can currently be applied in the absence of error mitigation techniques before losing simulation accuracy to deleterious noise effects.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 量子回路複合体の普遍的初期成長

Universal Early-Time Growth in Quantum Circuit Complexity ( http://arxiv.org/abs/2406.12990v1 )

ライセンス: Link先を確認
S. Shajidul Haque, Ghadir Jafari, Bret Underwood, (参考訳) 時間非依存なハミルトニアンのユニタリ時間進化作用素に対する量子回路の複雑性は、基本ゲートの選択やコストメトリックとは無関係に、早い段階で線形であることが示される。 線形の初期成長からの逸脱は、ゲートの可換代数から生じ、任意の回路に対して明らかに負であり、線形成長速度を減少させ、初期の回路の複雑さの増大率に制限を与える。 結合振動子やアンハーモニック振動子を含む量子及び調和振動子系に適用することにより、この一般的な結果を示す。 格子上の自由および相互作用するスカラー場理論を離散化することにより、これらの場理論の複雑さの格子間隔の早期な挙動と依存を連続極限で抽出し、従来の量子回路複雑性の手法を用いて研究が困難であったシステムに対して、このアプローチがどのように適用されるかを示すことができる。

We show that quantum circuit complexity for the unitary time evolution operator of any time-independent Hamiltonian is linear in time at early times, independent of any choices of the fundamental gates or cost metric. Deviations from linear early-time growth arise from the commutation algebra of the gates and are manifestly negative for any circuit, decreasing the linear growth rate and leading to a bound on the growth rate of complexity of a circuit at early times. We illustrate this general result by applying it to qubit and harmonic oscillator systems, including the coupled and anharmonic oscillator. By discretizing free and interacting scalar field theories on a lattice, we are also able to extract the early-time behavior and dependence on the lattice spacing of complexity of these field theories in the continuum limit, demonstrating how this approach applies to systems that have been previously difficult to study using existing techniques for quantum circuit complexity.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# ニューラルアーキテクチャ探索のための追加正規化スケジュール

Additive regularization schedule for neural architecture search ( http://arxiv.org/abs/2406.12992v1 )

ライセンス: Link先を確認
Mark Potanin, Kirill Vayser, Vadim Strijov, (参考訳) ニューラルネットワーク構造は予測の精度と安定性に重大な影響を与える。 ニューラルネットワークの探索手順は、品質基準のセットを表す損失関数に従って最適なニューラルネットワークを設計するのに役立つ。 本稿では,ニューラルネットワーク構造最適化の問題について検討する。 加法要素の集合を含む損失関数を構成する方法を提案する。 各要素は正規化子と呼ばれる。 これはニューラルネットワーク構造の一部に対応しており、最適化するための基準を表している。 最適化手順は反復で構造を変化させる。 構造物の様々な部分を最適化するために、あるスケジュールに従って正規化器のセットを変更する。 著者らは加算正規化スケジュールを構築する方法を提案する。 正規化モデルと非正規化モデルをデータセットの集合として比較することにより,提案手法が効率的なニューラルネットワーク構造を発見し,低複雑性の正確なネットワークを提供することを示す。

Neural network structures have a critical impact on the accuracy and stability of forecasting. Neural architecture search procedures help design an optimal neural network according to some loss function, which represents a set of quality criteria. This paper investigates the problem of neural network structure optimization. It proposes a way to construct a loss function, which contains a set of additive elements. Each element is called the regularizer. It corresponds to some part of the neural network structure and represents a criterion to optimize. The optimization procedure changes the structure in iterations. To optimize various parts of the structure, the procedure changes the set of regularizers according to some schedule. The authors propose a way to construct the additive regularization schedule. By comparing regularized models with non-regularized ones for a collection of datasets the computational experiments show that the proposed method finds efficient neural network structure and delivers accurate networks of low complexity.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 多視点テキストデータにおける潜在状態/変数生成のためのCCAの適合性

Suitability of CCA for Generating Latent State/ Variables in Multi-View Textual Data ( http://arxiv.org/abs/2406.12997v1 )

ライセンス: Link先を確認
Akanksha Mehndiratta, Krishna Asawa, (参考訳) 潜在変数と呼ばれる低次元実ベクトルを学習するための正準相関解析(CCA)の確率論的解釈は、様々な分野で大いに活用されている。 本研究では,2視点設定でテキストデータ内の文脈情報をキャプチャする潜在状態の発見におけるCAAの可能性を示す。 本研究で論じるCCAの解釈は,テキストデータの多視点的性質,すなわち文書の連続文やダイアディック会話の旋回文を用いており,理論的な基盤が強い。 さらに,CCAを用いた自動短解像作成(ASAG)タスクの実行モデルを提案する。 実験分析により,提案モデルが競争力のある結果をもたらし,様々な高度な教師付き技術に打ち勝つことができることを確認した。 モデルは単純で線形で適応可能であり、特にラベル付きトレーニングデータが不足している場合、ベースラインとして使用すべきである。

The probabilistic interpretation of Canonical Correlation Analysis (CCA) for learning low-dimensional real vectors, called as latent variables, has been exploited immensely in various fields. This study takes a step further by demonstrating the potential of CCA in discovering a latent state that captures the contextual information within the textual data under a two-view setting. The interpretation of CCA discussed in this study utilizes the multi-view nature of textual data, i.e. the consecutive sentences in a document or turns in a dyadic conversation, and has a strong theoretical foundation. Furthermore, this study proposes a model using CCA to perform the Automatic Short Answer Grading (ASAG) task. The empirical analysis confirms that the proposed model delivers competitive results and can even beat various sophisticated supervised techniques. The model is simple, linear, and adaptable and should be used as the baseline especially when labeled training data is scarce or nonexistent.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 調音エンコーデック:声道キネマティクス

Articulatory Encodec: Vocal Tract Kinematics as a Codec for Speech ( http://arxiv.org/abs/2406.12998v1 )

ライセンス: Link先を確認
Cheol Jun Cho, Peter Wu, Tejas S. Prabhune, Dhruv Agarwal, Gopala K. Anumanchipalli, (参考訳) 声道明瞭度は音声生成の自然な制御空間である。 発声器の時空間調整と発声源形状を組み合わさって効果的な音声通信を実現する。 音声のこの生理的基盤に基づいて,音声のニューラルエンコーディング・デコーディングの新たな枠組みを提案する。 調音エンコーデックは、音声音声から調音特徴を推測する調音解析モデルと、調音特徴から調音音声を合成する調音合成モデルとを含む。 調音特徴は声道調音器のキネマティックな痕跡と音源の特徴であり、直感的に解釈可能で制御可能であり、実際の音声生成の物理的インターフェースである。 追加の話者識別エンコーダは、音声合成器と共同で訓練され、個々の話者の音声テクスチャを知らせる。 大規模音声データを学習することにより、未知の話者に一般化する、完全に理解可能な高品質な調音シンセサイザーを実現する。 さらに、話者埋め込みは、アクセントを保ったゼロショット音声変換を可能にする調音から効果的に切り離される。 我々の知る限り、これは普遍的で高性能な調音推論と合成の初めての実証であり、このフレームワークは音声の強力な符号化システムとして提案されている。

Vocal tract articulation is a natural, grounded control space of speech production. The spatiotemporal coordination of articulators combined with the vocal source shapes intelligible speech sounds to enable effective spoken communication. Based on this physiological grounding of speech, we propose a new framework of neural encoding-decoding of speech -- articulatory encodec. The articulatory encodec comprises an articulatory analysis model that infers articulatory features from speech audio, and an articulatory synthesis model that synthesizes speech audio from articulatory features. The articulatory features are kinematic traces of vocal tract articulators and source features, which are intuitively interpretable and controllable, being the actual physical interface of speech production. An additional speaker identity encoder is jointly trained with the articulatory synthesizer to inform the voice texture of individual speakers. By training on large-scale speech data, we achieve a fully intelligible, high-quality articulatory synthesizer that generalizes to unseen speakers. Furthermore, the speaker embedding is effectively disentangled from articulations, which enables accent-perserving zero-shot voice conversion. To the best of our knowledge, this is the first demonstration of universal, high-performance articulatory inference and synthesis, suggesting the proposed framework as a powerful coding system of speech.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# ビデオフレーム(RoVF)によるMeerkatの再同定

Recurrence over Video Frames (RoVF) for the Re-identification of Meerkats ( http://arxiv.org/abs/2406.13002v1 )

ライセンス: Link先を確認
Mitchell Rogers, Kobe Knowles, Gaël Gendron, Shahrokh Heidari, David Arturo Soriano Valdez, Mihailo Azhar, Padriac O'Leary, Simon Eyre, Michael Witbrock, Patrice Delmas, (参考訳) 動物の再識別のための深層学習アプローチは、保護に大きな影響を与えており、幸福なモニタリングなど、下流の多くのタスクに要する時間を大幅に短縮した。 本稿では、Perceiverアーキテクチャに基づく繰り返しヘッドを用いて、ビデオクリップから埋め込みを反復的に構築するRecurrence over Video Frames (RoVF)という手法を提案する。 RoVFは、ビデオフレーム内の個人の共起に基づいてトリプルトロスを使用して訓練される。 我々は、ウェリントン動物園で収集されたミーアカットのデータセット上で、DINOv2トランスフォーマーアーキテクチャに基づいて、この手法と様々なモデルを検証した。 提案手法は,最高値の DINOv2 モデル (42 %$) よりも高い 49 %$ のトップ1再同定精度を実現する。 このモデルでは,人間にはできない個体の観察と一致し,我々のモデル (RoVF) は最小限の微調整との比較よりも優れていることがわかった。 今後の研究では、プレテキストタスクを用いてこれらのモデルを改良し、動物行動分類に適用し、ハイパーパラメーター探索を行い、モデルをさらに最適化する予定である。

Deep learning approaches for animal re-identification have had a major impact on conservation, significantly reducing the time required for many downstream tasks, such as well-being monitoring. We propose a method called Recurrence over Video Frames (RoVF), which uses a recurrent head based on the Perceiver architecture to iteratively construct an embedding from a video clip. RoVF is trained using triplet loss based on the co-occurrence of individuals in the video frames, where the individual IDs are unavailable. We tested this method and various models based on the DINOv2 transformer architecture on a dataset of meerkats collected at the Wellington Zoo. Our method achieves a top-1 re-identification accuracy of $49\%$, which is higher than that of the best DINOv2 model ($42\%$). We found that the model can match observations of individuals where humans cannot, and our model (RoVF) performs better than the comparisons with minimal fine-tuning. In future work, we plan to improve these models by using pre-text tasks, apply them to animal behaviour classification, and perform a hyperparameter search to optimise the models further.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 超伝導量子デバイスにおける非線形光学過程のシミュレーション

Simulating nonlinear optical processes on a superconducting quantum device ( http://arxiv.org/abs/2406.13003v1 )

ライセンス: Link先を確認
Yuan Shi, Bram Evert, Amy F. Brown, Vinay Tripathi, Eyob A. Sete, Vasily Geyko, Yujin Cho, Jonathan L DuBois, Daniel Lidar, Ilon Joseph, Matt Reagor, (参考訳) 量子コンピュータにおけるプラズマ物理のシミュレーションは、関心のほとんどの問題は非線形であるから難しいが、量子コンピュータは自然に非線形演算に適していない。 弱い非線形状態においては、プラズマ問題は波動-波動相互作用としてモデル化できる。 本稿では,非線形波動相互作用問題をハミルトンシミュレーション問題に変換する量子化手法を開発する。 超伝導デバイス上で2つの量子ビットを用いたアプローチを実証する。 フォトニックデバイスとは異なり、超伝導デバイスは自然界のハミルトニアンにおいて望まれる相互作用を持たない。 それでも、ハミルトニアンシミュレーションは、必要なユニタリ演算をネイティブゲートに分解することで実行することができる。 実験結果を改善するために,我々は様々な誤差軽減手法を採用した。 読み出し誤りの軽減とは別に、ランダム化されたコンパイルを用いて、未診断のコヒーレントなエラーをよく知られた確率的パウリチャネルに変換する。 さらに,確率的雑音を補償するために,サイクルベンチマークから測定した速度を用いて指数関数的に減衰する確率振幅を再スケールする。 製品形式アルゴリズムの異なる選択が全体的なエラーにどのように影響するかを慎重に検討し、限られた量子リソースを最大限に活用するために、トレードオフをどのように行うかを示す。 この研究は、近未来の量子コンピューティングプラットフォームにおけるプラズマ問題がどのように解決されるかのポイント例を提供する。

Simulating plasma physics on quantum computers is difficult, because most problems of interest are nonlinear, but quantum computers are not naturally suitable for nonlinear operations. In weakly nonlinear regimes, plasma problems can be modeled as wave-wave interactions. In this paper, we develop a quantization approach to convert nonlinear wave-wave interaction problems to Hamiltonian simulation problems. We demonstrate our approach using two qubits on a superconducting device. Unlike a photonic device, a superconducting device does not naturally have the desired interactions in its native Hamiltonian. Nevertheless, Hamiltonian simulations can still be performed by decomposing required unitary operations into native gates. To improve experimental results, we employ a range of error mitigation techniques. Apart from readout error mitigation, we use randomized compilation to transform undiagnosed coherent errors into well-behaved stochastic Pauli channels. Moreover, to compensate for stochastic noise, we rescale exponentially decaying probability amplitudes using rates measured from cycle benchmarking. We carefully consider how different choices of product-formula algorithms affect the overall error and show how a trade-off can be made to best utilize limited quantum resources. This study provides a point example of how plasma problems may be solved on near-term quantum computing platforms.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# 重み付き相関の重み付き和:ハイパースペクトル画像におけるスペクトルマッチングの効率的な方法

Weighted Sum of Segmented Correlation: An Efficient Method for Spectra Matching in Hyperspectral Images ( http://arxiv.org/abs/2406.13006v1 )

ライセンス: Link先を確認
Sampriti Soor, Priyanka Kumari, B. S. Daya Sagar, Amba Shetty, (参考訳) スペクトルライブラリーにおける対象スペクトルと既知のスペクトルとのマッチングは、ハイパースペクトルイメージング研究における材料同定の一般的な方法である。 ハイパースペクトルスペクトルは、異なる波長領域にわたって正確な吸収特性を示し、これらの吸収の特異な形状と位置は、それぞれの物質に対して異なるスペクトルシグネチャを生じさせ、それらの識別を助けている。 したがって、具体的位置のみを物的識別とみなすことができる。 そこで本研究では,ライブラリの様々なセグメントとテストスペクトルの相関指標を算出し,正の相関を優先し,負の相関を重み付けして負の相関をペナライズする重み付き相関法を提案する。 この手法の有効性は、地球と火星の両面のハイパースペクトル画像における鉱物の同定に評価されている。

Matching a target spectrum with known spectra in a spectral library is a common method for material identification in hyperspectral imaging research. Hyperspectral spectra exhibit precise absorption features across different wavelength segments, and the unique shapes and positions of these absorptions create distinct spectral signatures for each material, aiding in their identification. Therefore, only the specific positions can be considered for material identification. This study introduces the Weighted Sum of Segmented Correlation method, which calculates correlation indices between various segments of a library and a test spectrum, and derives a matching index, favoring positive correlations and penalizing negative correlations using assigned weights. The effectiveness of this approach is evaluated for mineral identification in hyperspectral images from both Earth and Martian surfaces.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# NTIRE 2024 ナイトフォトレンダリングの挑戦

NTIRE 2024 Challenge on Night Photography Rendering ( http://arxiv.org/abs/2406.13007v1 )

ライセンス: Link先を確認
Egor Ershov, Artyom Panshin, Oleg Karasev, Sergey Korchagin, Shepelev Lev, Alexandr Startsev, Daniil Vladimirov, Ekaterina Zaychenkova, Nikola Banić, Dmitrii Iarchuk, Maria Efimova, Radu Timofte, Arseniy Terekhin, Shuwei Yue, Yuyang Liu, Minchen Wei, Lu Xu, Chao Zhang, Yasi Wang, Furkan Kınlı, Doğa Yılmaz, Barış Özcan, Furkan Kıraç, Shuai Liu, Jingyuan Xiao, Chaoyu Feng, Hao Wang, Guangqi Shao, Yuqian Zhang, Yibin Huang, Wei Luo, Liming Wang, Xiaotao Wang, Lei Lei, Simone Zini, Claudio Rota, Marco Buzzelli, Simone Bianco, Raimondo Schettini, Jin Guo, Tianli Liu, Mohao Wu, Ben Shao, Qirui Yang, Xianghui Li, Qihua Cheng, Fangpu Zhang, Zhiqiang Xu, Jingyu Yang, Huanjing Yue, (参考訳) 夜間撮影におけるNTIRE 2024課題について概説する。 この課題の目的は、夜間に撮影された生のカメラ画像を処理し、標準RGB(sRGB)空間で画質の高い出力画像を生成するソリューションを見つけることである。 前年と異なり、挑戦画像は携帯電話で収集され、アルゴリズムの速度も出力の品質とともに測定された。 その結果,課題の主観的性質を考慮し,十分な数の視聴者が提案手法の視覚的品質を評価するように求められた。 品質と効率の2つの候補があった。 出力品質の観点からトップ5のソリューションを評価時間でソートした(図1参照)。 トップクラスの参加者のソリューションは、夜間撮影における最先端の技術を効果的に表現している。 さらなる結果はhttps://nightimaging.orgで見ることができる。

This paper presents a review of the NTIRE 2024 challenge on night photography rendering. The goal of the challenge was to find solutions that process raw camera images taken in nighttime conditions, and thereby produce a photo-quality output images in the standard RGB (sRGB) space. Unlike the previous year's competition, the challenge images were collected with a mobile phone and the speed of algorithms was also measured alongside the quality of their output. To evaluate the results, a sufficient number of viewers were asked to assess the visual quality of the proposed solutions, considering the subjective nature of the task. There were 2 nominations: quality and efficiency. Top 5 solutions in terms of output quality were sorted by evaluation time (see Fig. 1). The top ranking participants' solutions effectively represent the state-of-the-art in nighttime photography rendering. More results can be found at https://nightimaging.org.
翻訳日:2024-06-22 00:28:02 公開日:2024-06-18
# ClaudesLens:コンピュータビジョンモデルにおける不確かさの定量化

ClaudesLens: Uncertainty Quantification in Computer Vision Models ( http://arxiv.org/abs/2406.13008v1 )

ライセンス: Link先を確認
Mohamad Al Shaar, Nils Ekström, Gustav Gille, Reza Rezvan, Ivan Wely, (参考訳) 人工知能を使ってより多くの決定が下される世界では、これらの決定が十分に根底にあることを保証することが最重要である。 ニューラルネットワークは、人工知能のための現代的なビルディングブロックである。 現代のニューラルネットワークベースのコンピュータビジョンモデルは、しばしばオブジェクト分類タスクに使用される。 オブジェクトを‘textit{certainty} で正しく分類することは、近年において非常に重要になっている。 しかし、ニューラルネットワークからの出力の固有の \textit{uncertainty} を定量化することは難しい課題である。 本稿では,シャノンエントロピーに基づく異なるコンピュータビジョンモデルの出力の不確かさを定量化し,評価する方法を提案する。 入力からネットワークのパラメータまで、さまざまなレベルの摂動を追加することで、システムにエントロピーを導入する。 提案したPIおよびPSIメトリクスの摂動モデルの定量化と評価により、我々の理論的枠組みはコンピュータビジョンモデルの予測の不確実性に関する洞察を与えることができると結論付けることができる。 この理論の枠組みは、ニューラルネットワークの様々な応用に適用できると信じている。 我々は、シャノンエントロピーが、人工知能における不確実性を定量化するSOTA(State-of-the-art)手法において、最終的にはより大きな役割を果たすと考えている。 いつか、私たちの神経系にシャノンエントロピーを適用することができるかもしれません。

In a world where more decisions are made using artificial intelligence, it is of utmost importance to ensure these decisions are well-grounded. Neural networks are the modern building blocks for artificial intelligence. Modern neural network-based computer vision models are often used for object classification tasks. Correctly classifying objects with \textit{certainty} has become of great importance in recent times. However, quantifying the inherent \textit{uncertainty} of the output from neural networks is a challenging task. Here we show a possible method to quantify and evaluate the uncertainty of the output of different computer vision models based on Shannon entropy. By adding perturbation of different levels, on different parts, ranging from the input to the parameters of the network, one introduces entropy to the system. By quantifying and evaluating the perturbed models on the proposed PI and PSI metrics, we can conclude that our theoretical framework can grant insight into the uncertainty of predictions of computer vision models. We believe that this theoretical framework can be applied to different applications for neural networks. We believe that Shannon entropy may eventually have a bigger role in the SOTA (State-of-the-art) methods to quantify uncertainty in artificial intelligence. One day we might be able to apply Shannon entropy to our neural systems.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 組込みプロンプト(DEEP:Ensembling Prompts)によるエラー検出 : 実エラー検出のためのエンドツーエンドLLMフレームワーク

Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors ( http://arxiv.org/abs/2406.13009v1 )

ライセンス: Link先を確認
Alex Chandler, Devesh Surve, Hui Su, (参考訳) 正確なテキスト要約は、大規模言語モデルによって実行される最も一般的かつ重要なタスクの1つであり、文書全体の人間によるレビューのコストは高いかもしれないが、要約のエラーのコストはさらに大きいかもしれない。 本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドの大規模言語モデルフレームワークであるEnsembling Prompts (DEEP) による誤り検出を提案する。 我々のフレームワークは、多種多様なLCMプロンプトを使用して、事実の不整合を識別し、それらの出力をバイナリ機能として扱い、それをアンサンブルモデルに入力する。 次に、アンサンブルされたモデルを校正して、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。 評価されたデータセットのサブセットのしきい値を最適化することなく、要約における事実誤りを検出する先行モデルが著しく悪化することを示した。 AggreFact-XSUM FTSOTA, TofuEval Summary-Level, HaluEval Summarizationベンチマークを用いて, トランスフォーマー生成したテキスト要約中の事実誤りを検出する。 言語モデルの微調整や、実践的な設定では利用できないしきい値設定技術への依存は不要である。

Accurate text summarization is one of the most common and important tasks performed by Large Language Models, where the costs of human review for an entire document may be high, but the costs of errors in summarization may be even greater. We propose Detecting Errors through Ensembling Prompts (DEEP) - an end-to-end large language model framework for detecting factual errors in text summarization. Our framework uses a diverse set of LLM prompts to identify factual inconsistencies, treating their outputs as binary features, which are then fed into ensembling models. We then calibrate the ensembled models to produce empirically accurate probabilities that a text is factually consistent or free of hallucination. We demonstrate that prior models for detecting factual errors in summaries perform significantly worse without optimizing the thresholds on subsets of the evaluated dataset. Our framework achieves state-of-the-art (SOTA) balanced accuracy on the AggreFact-XSUM FTSOTA, TofuEval Summary-Level, and HaluEval Summarization benchmarks in detecting factual errors within transformer-generated text summaries. It does so without any fine-tuning of the language model or reliance on thresholding techniques not available in practical settings.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# データプラジャリズム指数:タブラキ生成モデルにおけるデータコピーのプライバシリスクの特徴付け

Data Plagiarism Index: Characterizing the Privacy Risk of Data-Copying in Tabular Generative Models ( http://arxiv.org/abs/2406.13012v1 )

ライセンス: Link先を確認
Joshua Ward, Chi-Hua Wang, Guang Cheng, (参考訳) 表生成モデルの約束は、トレーニングセットからの情報を危険にさらすことなく、共有し、安全に使用できるリアルな合成データを作ることである。 これらのモデルの評価において、サンプルを生成する際のトレーニングデータセットからデータをコピーする傾向を測定するため、様々な手法が提案されている。 しかし、これらの手法は、プライバシーの脅威の観点からデータコピーを考慮せず、最近のデータコピー文学の結果に動機付けられていないか、高次元の混合型データと互換性を持つことが難しいかのいずれかに悩まされている。 本稿では,表型データに対するデータプラジャリズム指標(DPI)と呼ばれる新しい類似度指標と会員推論攻撃を提案する。 DPIはデータコピーの直感的な定義を評価し,それに対応するプライバシリスクを特徴付ける。 DPIが特定したデータコピーは、一般的な高性能アーキテクチャに対して、プライバシーと公正性の両方の脅威を生じさせ、この問題を軽減するためにより洗練された生成モデリング技術の必要性を浮き彫りにしている。

The promise of tabular generative models is to produce realistic synthetic data that can be shared and safely used without dangerous leakage of information from the training set. In evaluating these models, a variety of methods have been proposed to measure the tendency to copy data from the training dataset when generating a sample. However, these methods suffer from either not considering data-copying from a privacy threat perspective, not being motivated by recent results in the data-copying literature or being difficult to make compatible with the high dimensional, mixed type nature of tabular data. This paper proposes a new similarity metric and Membership Inference Attack called Data Plagiarism Index (DPI) for tabular data. We show that DPI evaluates a new intuitive definition of data-copying and characterizes the corresponding privacy risk. We show that the data-copying identified by DPI poses both privacy and fairness threats to common, high performing architectures; underscoring the necessity for more sophisticated generative modeling techniques to mitigate this issue.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# ファジィ論理とエキスパート知識を用いた血液疾患クラスの作成:CBCパラメータを用いた包括的機械学習アプローチ

Deriving Hematological Disease Classes Using Fuzzy Logic and Expert Knowledge: A Comprehensive Machine Learning Approach with CBC Parameters ( http://arxiv.org/abs/2406.13015v1 )

ライセンス: Link先を確認
Salem Ameen, Ravivarman Balachandran, Theodoros Theodoridis, (参考訳) 医学診断の複雑な分野では、病気の微妙な症状を捉えることは依然として困難である。 伝統的手法は、しばしば自然界においてバイナリであり、実際の臨床シナリオに存在するニュアンスな分散をカプセル化しない。 本稿では,ファジィ論理則を応用して,専門医の専門知識に基づく病気の授業を創出する手法を提案する。 疾患が必ずしも適切なカテゴリに当てはまらないことを認識し、専門家の知識がこれらの境界のファジィフィケーションを導くことができることを認識することで、我々の方法論はより洗練され、曖昧な診断ツールを提供する。 患者数の記録を含む著名な病院から取得したデータセットを用いて、あいまいさに対処できる計算技術であるFuzzy Logic Rulesを利用する。 このアプローチは、ファジフィケーション、ルールの適用、推論、最終的にデファジフィケーションの段階を進み、洗練された診断予測を生成する。 ランダムフォレスト分類器と組み合わせると、システムは総血液数(CBC)パラメータを用いて血液学的状態を予測する。 予備結果は高い精度のレベルを示し、ファジィ論理を診断プロセスに統合する利点を裏付けるものである。 従来の診断技法を併用すると、ファジィ論理が特に専門医によって指導された場合、血液学的診断の領域において顕著な進歩をもたらすことが明らかになる。 本論文は, 患者ケア向上の道筋を舗装するだけでなく, 様々な医療診断応用におけるファジィ論理の可能性についても深く掘り下げる。

In the intricate field of medical diagnostics, capturing the subtle manifestations of diseases remains a challenge. Traditional methods, often binary in nature, may not encapsulate the nuanced variances that exist in real-world clinical scenarios. This paper introduces a novel approach by leveraging Fuzzy Logic Rules to derive disease classes based on expert domain knowledge from a medical practitioner. By recognizing that diseases do not always fit into neat categories, and that expert knowledge can guide the fuzzification of these boundaries, our methodology offers a more sophisticated and nuanced diagnostic tool. Using a dataset procured from a prominent hospital, containing detailed patient blood count records, we harness Fuzzy Logic Rules, a computational technique celebrated for its ability to handle ambiguity. This approach, moving through stages of fuzzification, rule application, inference, and ultimately defuzzification, produces refined diagnostic predictions. When combined with the Random Forest classifier, the system adeptly predicts hematological conditions using Complete Blood Count (CBC) parameters. Preliminary results showcase high accuracy levels, underscoring the advantages of integrating fuzzy logic into the diagnostic process. When juxtaposed with traditional diagnostic techniques, it becomes evident that Fuzzy Logic, especially when guided by medical expertise, offers significant advancements in the realm of hematological diagnostics. This paper not only paves the path for enhanced patient care but also beckons a deeper dive into the potentialities of fuzzy logic in various medical diagnostic applications.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 広告として? インフルエンサーVPN広告の影響を理解する

As Advertised? Understanding the Impact of Influencer VPN Ads ( http://arxiv.org/abs/2406.13017v1 )

ライセンス: Link先を確認
Omer Akgul, Richard Roberts, Emma Shroyer, Dave Levin, Michelle L. Mazurek, (参考訳) YouTube上のインフルエンサーVPN広告(スポンサー付きセグメント)は、VPNとセキュリティとプライバシーの両方に関する誤解を招く情報をより広く広める。 しかし、これらの広告がVPNに対するユーザーの認識や知識にどう影響するかは、まだ不明である。 本研究では,YouTubeのVPN広告露出とVPN,セキュリティ,プライバシといったユーザのメンタルモデルとの関係について検討する。 我々は、新しいVPN広告検出モデルを用いて、YouTubeウォッチ履歴を通じて217人の参加者の広告露出を計算する。 事前登録された回帰ベースの分析により、VPN広告への露出は、VPNブランドへの慣れ親しみと(ハイパボリックな)脅威に対する信念の増大と大きく相関していることがわかった。 VPNに特化していないが、これらの脅威はしばしばVPN広告で議論されている。 対照的に、多くの参加者は、しばしば広告に現れるVPNの事実モデルと誤解を招くメンタルモデルの両方に同意するが、VPN広告とこれらのメンタルモデルとの間に有意な相関は見つからない。 これらの結果は、VPN広告がメンタルモデルに影響を及ぼすなら、それは技術よりも感情的(すなわち脅威知覚)であることが示唆されている。

Influencer VPN ads (sponsored segments) on YouTube often disseminate misleading information about both VPNs, and security & privacy more broadly. However, it remains unclear how (or whether) these ads affect users' perceptions and knowledge about VPNs. In this work, we explore the relationship between YouTube VPN ad exposure and users' mental models of VPNs, security, and privacy. We use a novel VPN ad detection model to calculate the ad exposure of 217 participants via their YouTube watch histories, and we develop scales to characterize their mental models in relation to claims commonly made in VPN ads. Through (pre-registered) regression-based analysis, we find that exposure to VPN ads is significantly correlated with familiarity with VPN brands and increased belief in (hyperbolic) threats. While not specific to VPNs, these threats are often discussed in VPN ads. In contrast, although many participants agree with both factual and misleading mental models of VPNs that often appear in ads, we find no significant correlation between exposure to VPN ads and these mental models. These findings suggest that, if VPN ads do impact mental models, then it is predominantly emotional (i.e., threat perceptions) rather than technical.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 分布的リスク受容性とロバスト性を考慮した$k$サブモジュラー関数付きスタックルバーグゲーム

Stackelberg Games with $k$-Submodular Function under Distributional Risk-Receptiveness and Robustness ( http://arxiv.org/abs/2406.13023v1 )

ライセンス: Link先を確認
Seonghun Park, Manish Bansal, (参考訳) 本研究では,不確実性や攻撃を受けやすいデータを用いた特徴選択などの機械学習問題に適用可能な,逆向き文脈における部分モジュラ最適化について検討する。 我々は、攻撃者(またはインターディクタ)とディフェンダーの間のStackelbergゲームに焦点を当て、攻撃者は$k$-submodular関数を最大化するディフェンダーの目的を最小化することを目的としている。 攻撃の成功やデータノイズに起因する不確実性を許容し、乱数パラメータの確率分布に関する不完全な知識による課題に対処する。 具体的には、DRA $k$-submodular Interdiction Problem (DRA $k$-SIP) と分散型リスク受容型 $k$-submodular Interdiction Problem (DRR $k$-SIP) と、それを解くための有限収束正確なアルゴリズムを導入する。 DRA $k$-SIPソリューションは、現実の不確実性に対する堅牢な戦略を開発するためのリスク・アバース・インターディクタを可能にする。 逆に、DRR $k$-SIPソリューションは攻撃者に対して攻撃的な戦術を提案し、最大ダメージを与える(分配的な)リスクを受け入れ、攻撃者の防御戦略に使用できる重要な脆弱なコンポーネントを特定する。 DRA $k$-SIPとDRR $k$-SIPの両方から導かれる最適値は、ディフェンダーの目的関数の期待値に対して信頼区間のような範囲を提供し、分布の曖昧さをキャプチャする。 特徴選択問題とセンサ配置問題,ウィスコンシン州乳癌データと合成データを用いて計算実験を行った。

We study submodular optimization in adversarial context, applicable to machine learning problems such as feature selection using data susceptible to uncertainties and attacks. We focus on Stackelberg games between an attacker (or interdictor) and a defender where the attacker aims to minimize the defender's objective of maximizing a $k$-submodular function. We allow uncertainties arising from the success of attacks and inherent data noise, and address challenges due to incomplete knowledge of the probability distribution of random parameters. Specifically, we introduce Distributionally Risk-Averse $k$-Submodular Interdiction Problem (DRA $k$-SIP) and Distributionally Risk-Receptive $k$-Submodular Interdiction Problem (DRR $k$-SIP) along with finitely convergent exact algorithms for solving them. The DRA $k$-SIP solution allows risk-averse interdictor to develop robust strategies for real-world uncertainties. Conversely, DRR $k$-SIP solution suggests aggressive tactics for attackers, willing to embrace (distributional) risk to inflict maximum damage, identifying critical vulnerable components, which can be used for the defender's defensive strategies. The optimal values derived from both DRA $k$-SIP and DRR $k$-SIP offer a confidence interval-like range for the expected value of the defender's objective function, capturing distributional ambiguity. We conduct computational experiments using instances of feature selection and sensor placement problems, and Wisconsin breast cancer data and synthetic data, respectively.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# ABNet: 安全でスケーラブルなロボット学習のための注意障壁ネット

ABNet: Attention BarrierNet for Safe and Scalable Robot Learning ( http://arxiv.org/abs/2406.13025v1 )

ライセンス: Link先を確認
Wei Xiao, Tsun-Hsuan Wang, Daniela Rus, (参考訳) 安全な学習は、単一の失敗が破滅的な結果をもたらす可能性のあるAI対応ロボットの中心である。 バリアベースの手法は、安全なロボット学習における主要なアプローチの1つである。 しかし、この方法はスケーラブルではなく、訓練が困難であり、ロボットに展開するのが困難なノイズの多い入力の下で不安定な信号を生成する傾向がある。 これらの課題に対処するために、我々は、より大規模な基盤安全なモデルを漸進的に構築するスケーラブルな、新しい注意障壁ネット(ABNet)を提案する。 ABNetのBarrierNetの各ヘッドは、さまざまな特徴から安全なロボット制御ポリシーを学び、観察の特定の部分に焦点を当てることができた。 このように、我々は複雑なタスクのための大きなモデルを一括で構築する必要はなく、安定した出力を確保しながらモデルのトレーニングを著しく促進する。 最も重要なことは、ABNetの安全保証を正式に証明できることです。 2次元ロボット障害物回避、安全なロボット操作、視覚に基づくエンドツーエンド自動運転におけるABNetの強みを示す。

Safe learning is central to AI-enabled robots where a single failure may lead to catastrophic results. Barrier-based method is one of the dominant approaches for safe robot learning. However, this method is not scalable, hard to train, and tends to generate unstable signals under noisy inputs that are challenging to be deployed for robots. To address these challenges, we propose a novel Attention BarrierNet (ABNet) that is scalable to build larger foundational safe models in an incremental manner. Each head of BarrierNet in the ABNet could learn safe robot control policies from different features and focus on specific part of the observation. In this way, we do not need to one-shotly construct a large model for complex tasks, which significantly facilitates the training of the model while ensuring its stable output. Most importantly, we can still formally prove the safety guarantees of the ABNet. We demonstrate the strength of ABNet in 2D robot obstacle avoidance, safe robot manipulation, and vision-based end-to-end autonomous driving, with results showing much better robustness and guarantees over existing models.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 動的可積分モデルにおける多項式的に制限された作用素成長

Polynomially restricted operator growth in dynamically integrable models ( http://arxiv.org/abs/2406.13026v1 )

ライセンス: Link先を確認
Igor Ermakov, Tim Byrnes, Oleg Lychkovskiy, (参考訳) 我々は、ハミルトニアンに対して与えられた観測可能な計算の複雑さに対する上限を決定するためのフレームワークを提供する。 可観測体のハイゼンベルクの進化を考えると、各ハミルトニアンが同値関係を定義し、作用素空間を同値類に分割することを示した。 特定のクラス内の任意の作用素は、進化中に同値クラスを離れることはない。 本稿では,同値クラスの次元を判定し,木上のXY$チェインやキタエフモデルなど,様々なモデルに対して評価する手法を提案する。 以上の結果から,XY$モデルにおける演算子の進化の複雑さは,境界近傍の量子ビットの緩和を抑えるものとして物理的に表される。 我々の手法は、自由フェルミオンに還元できない$XY$-$ZZ$モデルを含む、シミュラブル量子力学の新しいケースを明らかにするために用いられる。

We provide a framework to determine the upper bound to the complexity of a computing a given observable with respect to a Hamiltonian. By considering the Heisenberg evolution of the observable, we show that each Hamiltonian defines an equivalence relation, causing the operator space to be partitioned into equivalence classes. Any operator within a specific class never leaves its equivalence class during the evolution. We provide a method to determine the dimension of the equivalence classes and evaluate it for various models, such as the $ XY $ chain and Kitaev model on trees. Our findings reveal that the complexity of operator evolution in the $XY$ model grows from the edge to the bulk, which is physically manifested as suppressed relaxation of qubits near the boundary. Our methods are used to reveal several new cases of simulable quantum dynamics, including a $XY$-$ZZ$ model which cannot be reduced to free fermions.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 対称性保護二光子コヒーレンス時間

Symmetry Protected Two-Photon Coherence Time ( http://arxiv.org/abs/2406.13028v1 )

ライセンス: Link先を確認
Xuanying Lai, Christopher Li, Alan Zanders, Yefeng Mei, Shengwang Du, (参考訳) レーザー冷却した$^{87}$Rb原子の後方自発4光波混合から生じる2光子の対称性保護2光子コヒーレンス時間について報告する。 二光子が非退化すると、非対称光子吸収損失は2光子結合確率振幅の時間波形が指数関数的に崩壊し、コヒーレンス時間が短縮される。 対照的に、縮退二光子の場合、両光子が同じ群速度と吸収係数で伝播するとき、時空対称性で保護された2光子コヒーレンス時間は、中性吸収損失の影響を受けないままである。 我々の実験結果はこれらの理論予測を検証した。 この結果は、フォトニック量子状態の操作と制御における対称性の重要な役割を強調している。

We report the observation of symmetry protected two-photon coherence time of biphotons generated from backward spontaneous four-wave mixing in laser-cooled $^{87}$Rb atoms. When biphotons are nondegenerate, non-symmetric photonic absorption loss results in exponential decay of the temporal waveform of the two-photon joint probability amplitude, leading to shortened coherence time. In contrast, in the case of degenerate biphotons, when both paired photons propagate with the same group velocity and absorption coefficient, the two-photon coherence time, protected by space-time symmetry, remains unaffected by medium absorptive losses. Our experimental results validate these theoretical predictions. This outcome highlights the pivotal role of symmetry in manipulating and controlling photonic quantum states.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 自動昆虫監視のための機械学習パイプライン

A machine learning pipeline for automated insect monitoring ( http://arxiv.org/abs/2406.13031v1 )

ライセンス: Link先を確認
Aditya Jain, Fagner Cunha, Michael Bunsen, Léonard Pasi, Anna Viklund, Maxim Larrivée, David Rolnick, (参考訳) 気候変動やその他の人為的要因は、昆虫の壊滅的な減少をもたらし、生物多様性と人間の社会が依存する生態系サービスの両方を危険にさらしている。 しかし、昆虫の豊富さに関するデータは、いまだに不十分である。 カメラトラップは、これまでは地上の脊椎動物をモニタリングするために用いられていました。 我々は、オブジェクト検出、モト/非モト分類、モト種のきめ細かい識別、個人追跡を含む、カメラトラップによるモトの自動監視のための、完全でオープンソースの機械学習ベースのソフトウェアパイプラインについて説明する。 すでに3つの大陸で使われている私たちのツールは、エンコロジーにおける大規模でスケーラブルなデータ収集の未来を表していると考えています。

Climate change and other anthropogenic factors have led to a catastrophic decline in insects, endangering both biodiversity and the ecosystem services on which human society depends. Data on insect abundance, however, remains woefully inadequate. Camera traps, conventionally used for monitoring terrestrial vertebrates, are now being modified for insects, especially moths. We describe a complete, open-source machine learning-based software pipeline for automated monitoring of moths via camera traps, including object detection, moth/non-moth classification, fine-grained identification of moth species, and tracking individuals. We believe that our tools, which are already in use across three continents, represent the future of massively scalable data collection in entomology.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# リアルタイムイエメン通貨検出

Real-time Yemeni Currency Detection ( http://arxiv.org/abs/2406.13034v1 )

ライセンス: Link先を確認
Edrees AL-Edreesi, Ghaleb Al-Gaphari, (参考訳) 銀行券の認識は、視覚障害者が直面する大きな問題である。 そこで本研究では,視覚障害者が深層学習技術を用いて,さまざまな種類のイエメン通貨を識別するためのアプリケーションを提案する。 金融は、あらゆるビジネス取引において日常生活において重要な役割を担っているため、銀行券のリアルタイム検出と認識は、人、特に視覚障害者、またはデータをソートするシステムにとって必要となる。 本稿では,視覚障害者のためのリアルタイムイエメン通貨検出システムを提案する。 提案システムは,視覚障害者が紙幣を十分に認識できるように,ディープラーニングアプローチを利用する。 リアルタイム認識のために、我々はシステムをモバイルアプリケーションにデプロイした。

Banknote recognition is a major problem faced by visually Challenged people. So we propose a application to help the visually Challenged people to identify the different types of Yemenian currencies through deep learning technique. As money has a significant role in daily life for any business transactions, real-time detection and recognition of banknotes become necessary for a person, especially blind or visually impaired, or for a system that sorts the data. This paper presents a real-time Yemeni currency detection system for visually impaired persons. The proposed system exploits the deep learning approach to facilitate the visually impaired people to prosperously recognize banknotes. For real-time recognition, we have deployed the system into a mobile application.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# D2O:大規模言語モデルの効率的な生成推定のための動的識別操作

D2O:Dynamic Discriminative Operations for Efficient Generative Inference of Large Language Models ( http://arxiv.org/abs/2406.13035v1 )

ライセンス: Link先を確認
Zhongwei Wan, Xinjian Wu, Yu Zhang, Yi Xin, Chaofan Tao, Zhihong Zhu, Xin Wang, Siqi Luo, Jing Xiong, Mi Zhang, (参考訳) 大規模言語モデル(LLM)の効率的な推論は、特に長いシーケンスにおいてキー値(KV)キャッシングのメモリ要求の増加によって妨げられる。 従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを優先し、しばしば生成品質を低下させ、コンテキスト損失や幻覚などの問題を引き起こす。 そこで本稿では,KVキャッシュサイズを微調整せずに最適化する2段階判別手法であるDynamic Discriminative Operations (D2O)を紹介する。 当初、浅い層と深い層の間の様々な注意重みを観測することで、情報損失を最小限に抑えるために、どの層が過剰な排除を避けるべきかを判断するためにこの洞察を用いています。 その後、各層における排除戦略について、D2Oは、類似性のしきい値を維持するための補償機構を革新的に組み込んで、捨てられたトークンの重要性を再認識し、それらがリコールされ、類似のトークンとマージされるべきかどうかを判断する。 提案手法はメモリの大幅な節約と推論スループットを3倍以上に向上するだけでなく,高品質な長文生成も維持する。 様々なベンチマークやLLMアーキテクチャによる大規模な実験により、D2OはKVキャッシュの予算を制限して性能を大幅に向上することを示した。

Efficient inference in Large Language Models (LLMs) is impeded by the growing memory demands of key-value (KV) caching, especially for longer sequences. Traditional KV cache eviction strategies, which prioritize less critical KV-pairs based on attention scores, often degrade generation quality, leading to issues such as context loss or hallucinations. To address this, we introduce Dynamic Discriminative Operations (D2O), a novel method that utilizes two-level discriminative strategies to optimize KV cache size without fine-tuning, while preserving essential context. Initially, by observing varying densities of attention weights between shallow and deep layers, we use this insight to determine which layers should avoid excessive eviction to minimize information loss. Subsequently, for the eviction strategy in each layer, D2O innovatively incorporates a compensation mechanism that maintains a similarity threshold to re-discriminate the importance of previously discarded tokens, determining whether they should be recalled and merged with similar tokens. Our approach not only achieves significant memory savings and enhances inference throughput by more than 3x but also maintains high-quality long-text generation. Extensive experiments across various benchmarks and LLM architectures have demonstrated that D2O significantly enhances performance with a constrained KV cache budget.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 次元対数的ソボレフ不等式による確率測度における低次元構造のシャープ検出

Sharp detection of low-dimensional structure in probability measures via dimensional logarithmic Sobolev inequalities ( http://arxiv.org/abs/2406.13036v1 )

ライセンス: Link先を確認
Matthew T. C. Li, Tiangang Cui, Fengyi Li, Youssef Marzouk, Olivier Zahm, (参考訳) 高次元確率測度における低次元構造を同定することは、効率的なサンプリングのための重要な前処理ステップである。 対象測度 $\pi$ を与えられた基準測度 $\mu$ の摂動として同定し近似する手法を導入する。 基準測度はガウスあるいはガウスの非線形変換であり、生成的モデリングにおいて一般的に生じる。 本手法は,Kulback-Leibler 偏差の偏差を最小化するための先行研究を拡張し,この尺度のクラスにおける最適近似を同定する。 我々の主な貢献は、対数的ソボレフ不等式(LSI)とこのアンザッツとの近似との接続を明らかにすることである。 具体的には、ターゲットと参照の両方がガウス的である場合、次元LSIの最小化は、このアンサッツに制限されたKLの発散を最小限にすることと同値であることを示す。 一般の非ガウス測度に対して、次元LSIは、勾配に基づく次元還元のために以前の主元を均一に改善する主元を生成する。 さらに、この解析を正方形ヘリンガー距離に適用可能であることを示し、類似の推論は、次元ポアンカーの不等式が改善された境界を与えることを示している。

Identifying low-dimensional structure in high-dimensional probability measures is an essential pre-processing step for efficient sampling. We introduce a method for identifying and approximating a target measure $\pi$ as a perturbation of a given reference measure $\mu$ along a few significant directions of $\mathbb{R}^{d}$. The reference measure can be a Gaussian or a nonlinear transformation of a Gaussian, as commonly arising in generative modeling. Our method extends prior work on minimizing majorizations of the Kullback--Leibler divergence to identify optimal approximations within this class of measures. Our main contribution unveils a connection between the \emph{dimensional} logarithmic Sobolev inequality (LSI) and approximations with this ansatz. Specifically, when the target and reference are both Gaussian, we show that minimizing the dimensional LSI is equivalent to minimizing the KL divergence restricted to this ansatz. For general non-Gaussian measures, the dimensional LSI produces majorants that uniformly improve on previous majorants for gradient-based dimension reduction. We further demonstrate the applicability of this analysis to the squared Hellinger distance, where analogous reasoning shows that the dimensional Poincar\'e inequality offers improved bounds.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# 時空間情報の複数レベルを考慮した交通予測:マルチスケールグラフウェーブレットによるアプローチ

Traffic Prediction considering Multiple Levels of Spatial-temporal Information: A Multi-scale Graph Wavelet-based Approach ( http://arxiv.org/abs/2406.13038v1 )

ライセンス: Link先を確認
Zilin Bian, Jingqin Gao, Kaan Ozbay, Zhenning Li, (参考訳) 交通予測は、インテリジェント交通システムにおける多くの成功から注目されているが、道路タイプが異なる複雑な交通ネットワーク上での交通状態の予測は依然として課題である。 本研究では,複雑な交通ネットワークにおけるトラフィック状態を予測するためのマルチスケールグラフウェーブレット時間畳み込みネットワーク(MSGWTCN)を提案する。 具体的には、異なるレベルの空間情報を同時にキャプチャするマルチスケール空間ブロックを設計し、ゲート時間畳み込みネットワークを用いてデータの時間的依存関係を抽出する。 モデルは、異なるスケールのグラフウェーブレットを積み重ねることで、空間相互作用の複数のレベルを同時にマウントすることを学ぶ。 本研究では,シアトルの高速道路網やニューヨーク市マンハッタンの高密度道路網など,実世界の2つのデータセットを用いてモデル性能について検討した。 実験結果から,提案モデルが他のベースラインモデルより優れていることが示された。 さらに, 異なるスケールのグラフウェーブレットが, 局所的, 中間的, グローバルな情報を同時に抽出するのに有効であることが確認された。 ウェーブレットのスケールを慎重にカスタマイズすることで、モデルは予測性能を改善し、異なるネットワーク構成に適応することができる。

Although traffic prediction has been receiving considerable attention with a number of successes in the context of intelligent transportation systems, the prediction of traffic states over a complex transportation network that contains different road types has remained a challenge. This study proposes a multi-scale graph wavelet temporal convolution network (MSGWTCN) to predict the traffic states in complex transportation networks. Specifically, a multi-scale spatial block is designed to simultaneously capture the spatial information at different levels, and the gated temporal convolution network is employed to extract the temporal dependencies of the data. The model jointly learns to mount multiple levels of the spatial interactions by stacking graph wavelets with different scales. Two real-world datasets are used in this study to investigate the model performance, including a highway network in Seattle and a dense road network of Manhattan in New York City. Experiment results show that the proposed model outperforms other baseline models. Furthermore, different scales of graph wavelets are found to be effective in extracting local, intermediate and global information at the same time and thus enable the model to learn a complex transportation network topology with various types of road segments. By carefully customizing the scales of wavelets, the model is able to improve the prediction performance and better adapt to different network configurations.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# なぜ量子相関が衝撃的であるのか

Why quantum correlations are shocking ( http://arxiv.org/abs/2406.13040v1 )

ライセンス: Link先を確認
Michael J. W. Hall, (参考訳) 量子システム間の相関が、我々の古典的な直観を揺るがす理由について、単純な最小主義者の議論がなされる。 この議論は2つの基本的な物理仮定に依存し、標準的な実験可能なベルの不等式を6面ダイスと光子偏光の間の相関に等しく適用される形で回復する。 第1実験室における測定選択は、遠隔実験室不変量(符号付けなし)に測定統計を残さないという仮定が実験的に検証され、第1実験室で測定された測定量に対する結合確率分布の存在と同値であることが示されている。 観測されたベルの不等式の不等式は、2つ目の仮定の失敗と等価であり、遠隔実験室における測定選択は、この共同分布の不変性を残している。 実際、違反の程度は関節分布のばらつきを低くする。 このような違反の根底にある3つの物理的メカニズムは、アクション・アット・ア・ディスタンス(超光度)、測定選択と遠方性(呼吸)を結びつける不可避の共通要因、本質的に相容れない物理量(相補性)である。 この議論はベルの不等式に拡張され、他の導出と簡単に比較される。

A simple minimalist argument is given for why some correlations between quantum systems boggle our classical intuition. The argument relies on two elementary physical assumptions, and recovers the standard experimentally-testable Bell inequality in a form that applies equally well to correlations between six-sided dice and between photon polarizations. The first assumption, that measurement selection in a first lab leaves the measurement statistics in a remote lab invariant (no-signaling), has been empirically verified, and is shown to be equivalent to the existence of a joint probability distribution for quantities measured in the first lab. The observed violation of the Bell inequality is then equivalent to failure of a second assumption, that measurement selection in the remote lab leaves this joint distribution invariant. Indeed, the degree of violation lower-bounds the variation of the joint distribution. It directly follows there are just three possible physical mechanisms underlying such violations -- action-at-a-distance (superluminality), unavoidable common factors linking measurement choice and distant properties (conspiracy), and intrinsically incompatible physical quantities (complementarity). The argument extends to all Bell inequalities, and is briefly compared with other derivations.
翻訳日:2024-06-22 00:18:18 公開日:2024-06-18
# Bias-corrected Momentumに基づく確率最小最適化の高速化

Accelerated Stochastic Min-Max Optimization Based on Bias-corrected Momentum ( http://arxiv.org/abs/2406.13041v1 )

ライセンス: Link先を確認
Haoyuan Cai, Sulaiman A. Alghunaim, Ali H. Sayed, (参考訳) 非凸な強凹極小最適化問題に対する下界解析により、確率的一階アルゴリズムは少なくとも$\mathcal{O}(\varepsilon^{-4})$ oracle complexity を必要として$\varepsilon$-stationary point を求めることが示されている。 この複雑さは、損失勾配がリプシッツ連続であるときに$\mathcal{O}(\varepsilon^{-3})$に改善できることを示す研究もある。 異なる条件下での収束率の向上という問題は未解決のままである。 本研究では、最小化変数では非凸であり、最大化変数ではPolyak-Lojasiewicz (PL) が強凹である最適化問題に対して、この問題に対処する。 効率の良いヘシアンベクトル積を用いた新しいバイアス補正運動量アルゴリズムを提案する。 収束条件を確立し、提案アルゴリズムに対して$\mathcal{O}(\varepsilon^{-3})$の低い反復複雑性を示す。 本手法の有効性は,実世界のデータセットを用いたロジスティック回帰への応用を通じて検証される。

Lower-bound analyses for nonconvex strongly-concave minimax optimization problems have shown that stochastic first-order algorithms require at least $\mathcal{O}(\varepsilon^{-4})$ oracle complexity to find an $\varepsilon$-stationary point. Some works indicate that this complexity can be improved to $\mathcal{O}(\varepsilon^{-3})$ when the loss gradient is Lipschitz continuous. The question of achieving enhanced convergence rates under distinct conditions, remains unresolved. In this work, we address this question for optimization problems that are nonconvex in the minimization variable and strongly concave or Polyak-Lojasiewicz (PL) in the maximization variable. We introduce novel bias-corrected momentum algorithms utilizing efficient Hessian-vector products. We establish convergence conditions and demonstrate a lower iteration complexity of $\mathcal{O}(\varepsilon^{-3})$ for the proposed algorithms. The effectiveness of the method is validated through applications to robust logistic regression using real-world datasets.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# ワイル高密度原子配列における散逸と障害から保護される長距離相互作用

Long-range interactions in Weyl dense atomic arrays protected from dissipation and disorder ( http://arxiv.org/abs/2406.13042v1 )

ライセンス: Link先を確認
Iñaki García-Elcano, Paloma A. Huidobro, Jorge Bravo-Abad, Alejandro González-Tudela, (参考訳) 長距離相互作用は多くの量子現象や技術において重要な資源である。 自由空間光子は、パワー・ロー相互作用を媒介するが、調整性に欠け、全方位放出によるデコヒーレンス過程に苦しむ。 工学的な誘電体は調整可能でコヒーレントな相互作用をもたらすが、通常は短距離と物質障害と光子損失の両方に敏感にする。 本稿では、磁場を受ける3次元サブ波長原子配列に基づいて、これらの制限をすべて回避できるプラットフォームを提案する。 我々の主要な成果は、これらの原子メタマテリアルの偏光バンドを、周波数分離されたワイル点の対を特徴付けるように設計する方法を示すことである。 これらのワイル励起は、その隙間のない性質により同時に長距離である相互作用、ワイル点の位相的保護によるロバストな相互作用、そしてそれらの部分ラジアン性により非コヒーレンスのない相互作用を仲介することができる。 これらの分離されたワイル点の原子間距離と磁場値の大きな状態に対するロバスト性を示し、対応するフェルミ弧の表面状態の出現を特徴付ける。 後者は、他のカイラル量子光学装置に類似しない2次元の非相互原子相互作用を導くこともできる。

Long-range interactions are a key resource in many quantum phenomena and technologies. Free-space photons mediate power-law interactions but lack tunability and suffer from decoherence processes due to their omnidirectional emission. Engineered dielectrics can yield tunable and coherent interactions, but typically at the expense of making them both shorter-ranged and sensitive to material disorder and photon loss. Here, we propose a platform that can circumvent all these limitations based on three-dimensional subwavelength atomic arrays subjected to magnetic fields. Our key result is to show how to design the polaritonic bands of these atomic metamaterials to feature a pair of frequency-isolated Weyl points. These Weyl excitations can thus mediate interactions that are simultaneously long-range, due to their gapless nature; robust, due to the topological protection of Weyl points; and decoherence-free, due to their subradiant character. We demonstrate the robustness of these isolated Weyl points for a large regime of interatomic distances and magnetic field values and characterize the emergence of their corresponding Fermi arcs surface states. The latter can as well lead to two-dimensional, non-reciprocal atomic interactions with no analogue in other chiral quantum optical setups.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# Bayesian-LoRA: 最適な量子化レベルとランク値を用いたLoRAに基づくパラメータ調整

Bayesian-LoRA: LoRA based Parameter Efficient Fine-Tuning using Optimal Quantization levels and Rank Values trough Differentiable Bayesian Gates ( http://arxiv.org/abs/2406.13046v1 )

ライセンス: Link先を確認
Cristian Meo, Ksenia Sycheva, Anirudh Goyal, Justin Dauwels, (参考訳) 自然言語処理では、一般的なドメイン上で1つのモデルを事前訓練し、下流のタスクのために微調整するのが一般的である。 しかし、大規模言語モデルの場合、モデル全体の微調整は計算コストがかかるため、非常にエネルギー消費が増加する。 その結果、パラメータ効率の良い微細チューニング(PEFT)手法が提案されている。 最も一般的なアプローチの1つはローランク適応(LoRA)であり、そこで重要な洞察は、事前訓練されたモデルの更新重みを2つのローランク行列に分解することである。 しかしながら、提案手法は、全ての異なる重み行列で同じランク値を使用するか、あるいは量子化技術を使用しないかのいずれかであり、これはモデルのエネルギー消費に関して最も重要な要因の1つであることが示されている。 本研究では,B-LoRA(Bayesian-LoRA)を提案する。B-LoRA(Byyesian-LoRA)は,学習された低ランク行列の量子化レベルとランク値の両方について,事前分布を用いて行列分解と量子化にアプローチする。 その結果、B-LoRAは特定の下流タスクで事前訓練されたモデルを微調整することができ、各低ランク行列に対して最適なランク値と量子化レベルを求めることができる。 GLUEベンチマークを用いて,事前学習したDeBERTaV3を微調整したモデルの有効性を検証した。 さらに,これを関連するベースラインと比較し,定性的かつ定量的な結果を示し,提案手法が最適ランクの量子化行列をいかに学習できるかを示した。 B-LoRAはベースラインよりも同等かそれ以上で動作し、ベースラインに対するビット演算の総量を約70%削減する。

It is a common practice in natural language processing to pre-train a single model on a general domain and then fine-tune it for downstream tasks. However, when it comes to Large Language Models, fine-tuning the entire model can be computationally expensive, resulting in very intensive energy consumption. As a result, several Parameter efficient fine-tuning (PEFT) approaches were recently proposed. One of the most popular approaches is low-rank adaptation (LoRA), where the key insight is decomposing the update weights of the pre-trained model into two low-rank matrices. However, the proposed approaches either use the same rank value across all different weight matrices or do not use any quantization technique, which has been shown to be one of the most important factors when it comes to a model's energy consumption. In this work, we propose Bayesian-LoRA (B-LoRA) which approaches matrix decomposition and quantization from a Bayesian perspective by employing a prior distribution on both quantization levels and rank values of the learned low-rank matrices. As a result, B-LoRA is able to fine-tune a pre-trained model on a specific downstream task, finding the optimal rank values and quantization levels for every low-rank matrix. We validate the proposed model fine-tuning a pre-trained DeBERTaV3 on the GLUE benchmark. Moreover, we compare it to relevant baselines and present both qualitative and quantitative results, showing how the proposed approach is able to learn optimal-rank quantized matrices. B-LoRA performs on par or better than baselines while reducing the total amount of bit operations of roughly 70% with respect to the baselines ones.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# 自然開口部へのナビゲーションと安全な挿入のための単眼カメラを用いた頭部電位推定と3次元脳表面再構成

Head Pose Estimation and 3D Neural Surface Reconstruction via Monocular Camera in situ for Navigation and Safe Insertion into Natural Openings ( http://arxiv.org/abs/2406.13048v1 )

ライセンス: Link先を確認
Ruijie Tang, Beilei Cui, Hongliang Ren, (参考訳) 医療・介入のシミュレーションの重要性が高まるにつれ, 個別診断・治療を行うための簡易で低コストなプラットフォームが構築できることが期待されている。 3Dスライダは、医用画像解析や可視化だけでなく、手術ナビゲーションや手術計画機能の提供も可能である。 本稿では,3Dスライダをベースプラットフォームとして選択し,単眼カメラをセンサとして使用した。 そこで我々はNeRFアルゴリズムを用いて頭部の3次元モデル再構成を行った。 我々は,3次元頭部シーン生成におけるNeRFアルゴリズムの精度を比較し,マーチンキューブアルゴリズムを用いて対応する3次元メッシュモデルを生成する。 個々の頭部ポーズは、シングルカメラビジョンによって取得され、リアルタイムで3Dスライダ内で生成されたシーンに送信される。 本稿では,3次元スライダシーンにおける人間の頭部モデルと検出された頭部姿勢との変換のリアルタイム同期について述べる。 さらに、1台のカメラで追跡されたArUco Makerでマークされたツールが、頭部姿勢のリアルタイムな変化を同期的に示すシーンもテストした。 以上の結果から,本手法は鼻咽喉頭スワブ収集や挿管のためのリアルタイムシミュレーションプラットフォームとして実現可能であることが示唆された。

As the significance of simulation in medical care and intervention continues to grow, it is anticipated that a simplified and low-cost platform can be set up to execute personalized diagnoses and treatments. 3D Slicer can not only perform medical image analysis and visualization but can also provide surgical navigation and surgical planning functions. In this paper, we have chosen 3D Slicer as our base platform and monocular cameras are used as sensors. Then, We used the neural radiance fields (NeRF) algorithm to complete the 3D model reconstruction of the human head. We compared the accuracy of the NeRF algorithm in generating 3D human head scenes and utilized the MarchingCube algorithm to generate corresponding 3D mesh models. The individual's head pose, obtained through single-camera vision, is transmitted in real-time to the scene created within 3D Slicer. The demonstrations presented in this paper include real-time synchronization of transformations between the human head model in the 3D Slicer scene and the detected head posture. Additionally, we tested a scene where a tool, marked with an ArUco Maker tracked by a single camera, synchronously points to the real-time transformation of the head posture. These demos indicate that our methodology can provide a feasible real-time simulation platform for nasopharyngeal swab collection or intubation.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# AI対人間認証スピアフィッシングSMS攻撃の評価:TRAPD法による実証研究

Assessing AI vs Human-Authored Spear Phishing SMS Attacks: An Empirical Study Using the TRAPD Method ( http://arxiv.org/abs/2406.13049v1 )

ライセンス: Link先を確認
Jerson Francia, Derek Hansen, Ben Schooley, Matthew Taylor, Shydra Murray, Greg Snow, (参考訳) 本稿では,スピアフィッシングメッセージ生成におけるLarge Language Models (LLMs) の利用に対する懸念と,その性能について,人手によるものと比較して検討する。 我々のパイロット研究は、GPT-4と人間の著者が作成したSMSフィッシング(SMSフィッシング)メッセージの有効性を比較した。 ターゲットはTRAPD(Threshold Ranking Approach for Personalized Deception)と呼ばれる新しい手法を用いてランク付け実験を行った。 具体的には、ターゲットは個人情報(タイトルと場所、趣味、オンラインで購入したアイテム)を提供し、この情報を使って槍のスマイッシングメッセージを作成する。 また、LLMとその推論によって、どのメッセージが生成されるかも推測する。 25のターゲットから得られた結果は、LLMが生成したメッセージは、人間によって書かれたメッセージよりも説得力が高いと認識され、仕事に関連するメッセージが最も説得力があることを示している。 我々は、単語選択、スタイル、個人的関連性を含むメッセージの真正性を評価する際に用いる異なる基準を特徴付ける。 その結果、ターゲットはメッセージがAIによって生成されたのか、あるいは人間によって書かれたのかを特定することができず、この区別をするために使用する基準を特定するのに苦労していたことが明らかとなった。 本研究の目的は、パーソナライズされたAI対応ソーシャルエンジニアリング攻撃に対するさらなる研究の必要性と対策の改善を明らかにすることである。

This paper explores the rising concern of utilizing Large Language Models (LLMs) in spear phishing message generation, and their performance compared to human-authored counterparts. Our pilot study compares the effectiveness of smishing (SMS phishing) messages created by GPT-4 and human authors, which have been personalized to willing targets. The targets assessed the messages in a modified ranked-order experiment using a novel methodology we call TRAPD (Threshold Ranking Approach for Personalized Deception). Specifically, targets provide personal information (job title and location, hobby, item purchased online), spear smishing messages are created using this information by humans and GPT-4, targets are invited back to rank-order 12 messages from most to least convincing (and identify which they would click on), and then asked questions about why they ranked messages the way they did. They also guess which messages are created by an LLM and their reasoning. Results from 25 targets show that LLM-generated messages are most often perceived as more convincing than those authored by humans, with messages related to jobs being the most convincing. We characterize different criteria used when assessing the authenticity of messages including word choice, style, and personal relevance. Results also show that targets were unable to identify whether the messages was AI-generated or human-authored and struggled to identify criteria to use in order to make this distinction. This study aims to highlight the urgent need for further research and improved countermeasures against personalized AI-enabled social engineering attacks.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# Think-then-Act: 二重角評価再検索型世代

Think-then-Act: A Dual-Angle Evaluated Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.13050v1 )

ライセンス: Link先を確認
Yige Shen, Hao Jiang, Hua Qu, Jihong Zhao, (参考訳) 印象的な能力にもかかわらず、大きな言語モデル(LLM)は時相の誤りや幻覚的内容の生成といった課題に直面していることが多い。 LLMを検索機構で強化し、外部ソースから関連情報を取得することは、有望な解決策である。 動作前に2回シンクする」という証明に着想を得て、検索強化生成フレームワークである「textit{Think-then-Act}」を提案する。 問合せを無差別に書き直したり、必要によらず検索を行ったり、追加検索を決定する前に一時的な応答を生成して、モデル生成コストを増大させる従来のアプローチとは異なり、我々のフレームワークは2段階のプロセスを採用している。 一 書き直しが必要かどうかを判断するための明快さ及び完全性のために入力クエリを評価すること。 2) クエリに応答するモデルの能力を評価し、追加の検索が必要かどうかを判断する。 5つのデータセットの実験結果から, textit{Think-then-Act} フレームワークは性能を著しく向上することが示された。 本フレームワークは,既存のベースラインと比較して精度と効率の顕著な向上を示し,英語と非英語の両文脈でよく機能する。 アブレーション研究は、最適モデルの信頼性閾値を検証し、我々のアプローチのリソース最適化の利点を強調します。

Despite their impressive capabilities, large language models (LLMs) often face challenges such as temporal misalignment and generating hallucinatory content. Enhancing LLMs with retrieval mechanisms to fetch relevant information from external sources offers a promising solution. Inspired by the proverb "Think twice before you act," we propose a dual-angle evaluated retrieval-augmented generation framework \textit{Think-then-Act}. Unlike previous approaches that indiscriminately rewrite queries or perform retrieval regardless of necessity, or generate temporary responses before deciding on additional retrieval, which increases model generation costs, our framework employs a two-phase process: (i) assessing the input query for clarity and completeness to determine if rewriting is necessary; and (ii) evaluating the model's capability to answer the query and deciding if additional retrieval is needed. Experimental results on five datasets show that the \textit{Think-then-Act} framework significantly improves performance. Our framework demonstrates notable improvements in accuracy and efficiency compared to existing baselines and performs well in both English and non-English contexts. Ablation studies validate the optimal model confidence threshold, highlighting the resource optimization benefits of our approach.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# 道路沿いのインフォームド:道路容量駆動グラフ畳み込みネットワークによる道路交通予測

Informed along the road: roadway capacity driven graph convolution network for network-wide traffic prediction ( http://arxiv.org/abs/2406.13057v1 )

ライセンス: Link先を確認
Zilin Bian, Jingqin Gao, Kaan Ozbay, Fan Zuo, Dachuan Zuo, Zhenning Li, (参考訳) 深層学習は交通状況の予測に成功しているが,ほとんどの手法では交通面を考慮せずに一般的な予測課題として扱う。 近年、グラフニューラルネットワークがこのタスクに有効であることが証明されているが、道路の容量と交通流に影響を与える外部要因を組み込んだものはほとんどない。 本研究では,道路容量駆動グラフ畳み込みネットワーク(RCDGCN)モデルを提案する。 このモデルは、ICM-495ハイウェイネットワークとニューヨーク市マンハッタンの都市ネットワークという、異なる交通要因を持つ2つの実世界のデータセットで評価された。 その結果, RCDGCN の精度は, ベースライン法よりも優れていた。 アブレーション実験、重量分析、ケーススタディを含む分析は、容量関連因子の影響を調査した。 本研究は,交通システム管理にRCCGCNを用いることの可能性を示す。

While deep learning has shown success in predicting traffic states, most methods treat it as a general prediction task without considering transportation aspects. Recently, graph neural networks have proven effective for this task, but few incorporate external factors that impact roadway capacity and traffic flow. This study introduces the Roadway Capacity Driven Graph Convolution Network (RCDGCN) model, which incorporates static and dynamic roadway capacity attributes in spatio-temporal settings to predict network-wide traffic states. The model was evaluated on two real-world datasets with different transportation factors: the ICM-495 highway network and an urban network in Manhattan, New York City. Results show RCDGCN outperformed baseline methods in forecasting accuracy. Analyses, including ablation experiments, weight analysis, and case studies, investigated the effect of capacity-related factors. The study demonstrates the potential of using RCDGCN for transportation system management.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# 宇宙以外の量子システム

Quantum Systems Other Than the Universe ( http://arxiv.org/abs/2406.13058v1 )

ライセンス: Link先を確認
David Wallace, (参考訳) 物理理論、特に量子論を解釈するには、宇宙全体の正確な記述として扱うべきという仮定を捨てればどうすればよいのか? 私は、物理学は自律的であるが、必ずしも孤立していない力学系の研究であり、量子力学に適用すると、一般に量子系は混合状態と非単体力学を持つべきだという主張を述べ、発展させます。 にもかかわらず、ユニタリ力学は物理学において特別な存在であり続けており、より大きなユニタリ系のサブシステムに制限されて非ユニタリ性は説明されなければならないという経験的に支持された還元主義の原理を通じて、顕微鏡物理学はユニタリで主に知られているダイナミックスによって支配される、と私は論じる。 Michael Cuffaro氏とStephan Hartmann氏が最近提唱した'Open Systems View'とは対照的です。

How should we interpret physical theories, and especially quantum theory, if we drop the assumption that we should treat it as an exact description of the whole Universe? I expound and develop the claim that physics is about the study of autonomous, but not necessarily isolated, dynamical systems, and that when applied to quantum mechanics this entails that in general we should take quantum systems as having mixed states and non-unitary dynamics. I argue that nonetheless unitary dynamics continues to have a special place in physics, via the empirically-well-supported reductionist principles that non-unitarity is to be explained by restriction to a subsystem of a larger unitary system and that microscopic physics is governed by unitary and largely known dynamics. I contrast this position with the `Open Systems View' advocated recently by Michael Cuffaro and Stephan Hartmann.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# 符号化分布の学習圧縮

Learned Compression of Encoding Distributions ( http://arxiv.org/abs/2406.13059v1 )

ライセンス: Link先を確認
Mateen Ulhaq, Ivan V. Bajić, (参考訳) Ball\'eらによって導入されたエントロピーボトルネックは、多くの学習された圧縮モデルで使用される一般的なコンポーネントである。 トレーニング中にパラメータが学習される静的分布を使用して、変換された潜在表現をエンコードする。 しかし、潜伏データの実際の分布は異なる入力によって大きく異なる可能性がある。 静的分布は、可能なすべての入力分布を包含しようとするため、それらに特に適合しない。 この不運な現象は、時としてアモータイズギャップ(英語版)として知られ、最適下圧縮をもたらす。 この問題に対処するために,符号化分布を動的に適応させ,特定の入力に対して遅延データ分布に適合させる手法を提案する。 まず、与えられた入力に対してより良い符号化分布を推定する。 この分布は圧縮され、追加のサイド情報ビットストリームとして送信される。 最後に、復号器は符号化分布を再構成し、それを用いて対応する遅延データを復号する。 本手法は,標準の完全分解アーキテクチャに適用した場合に,Kodakテストデータセット上でのBj{\o}ntegaard-Delta(BD)レートの7.10%向上を実現する。 さらに,計算複雑性を考慮すると,提案手法が用いた変換は,スケールハイパープライアなどの関連側情報手法と比較して,MAC演算において桁違いに安価である。

The entropy bottleneck introduced by Ball\'e et al. is a common component used in many learned compression models. It encodes a transformed latent representation using a static distribution whose parameters are learned during training. However, the actual distribution of the latent data may vary wildly across different inputs. The static distribution attempts to encompass all possible input distributions, thus fitting none of them particularly well. This unfortunate phenomenon, sometimes known as the amortization gap, results in suboptimal compression. To address this issue, we propose a method that dynamically adapts the encoding distribution to match the latent data distribution for a specific input. First, our model estimates a better encoding distribution for a given input. This distribution is then compressed and transmitted as an additional side-information bitstream. Finally, the decoder reconstructs the encoding distribution and uses it to decompress the corresponding latent data. Our method achieves a Bj{\o}ntegaard-Delta (BD)-rate gain of -7.10% on the Kodak test dataset when applied to the standard fully-factorized architecture. Furthermore, considering computational complexity, the transform used by our method is an order of magnitude cheaper in terms of Multiply-Accumulate (MAC) operations compared to related side-information methods such as the scale hyperprior.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# 海洋内孤立波定位のためのスケール-トランスレーション同変ネットワーク

Scale-Translation Equivariant Network for Oceanic Internal Solitary Wave Localization ( http://arxiv.org/abs/2406.13060v1 )

ライセンス: Link先を確認
Zhang Wan, Shuo Wang, Xudong Zhang, (参考訳) 内部孤立波(英:internal Solitary wave、ISW)は、内部の海洋でしばしば観測される重力波である。 大量のエネルギーを輸送する能力から、汚染物質輸送、石油プラットフォーム運用、潜水艦の航行などに大きな影響を及ぼす。 研究者たちは、光学画像、合成開口レーダー(SAR)画像、およびリモートセンシング機器からの高度データを通じて、ISWを研究した。 しかし、光学式リモートセンシング画像における雲の覆いは、地上の情報を不安定にし、ぼやけたり、表面の観察を欠いたりする。 そこで本論文では,ISWを自動検出するアルゴリズムを用いた機械学習ソリューションを提案する。 しかし、課題は以下の2つの側面にある。 1)高調波データは解像度が低く、強い機械学習者を必要とする。 2) ラベル付けデータは非常に労働集約的であり, トレーニングのためのデータは非常に限られている。 近年,深層学習の進歩により,豊富なデータから学習能力が向上している。 さらに、より最近の効率的な学習と自己指導型学習の研究は、上記の課題に取り組むためのしっかりとした基盤を築き上げている。 本稿では,より強力かつ効率的な学習者を実現するために,事前知識を注入することを提案する。 具体的には、スケール-トランスレーション同変畳み込みニューラルネットワーク(ST-ECNN)を用いて、高度データの固有パターンを効率的にキャプチャする。 ニューラルネットワーク設計の固有の対称性を考慮することで、ST-ECNNはベースラインモデルよりも高い効率とパフォーマンスを実現する。 さらに、事前学習のためにSimCLRフレームワークを使用してソリューションを強化するために、大量の教師なしデータからの事前知識も導入する。 最終的なソリューションは、手作りのアルゴリズムデータセットのベースラインよりも全体的なパフォーマンスが向上します。 データとコードはhttps://github.com/ZhangWan-byte/Internal_Solitary_Wave_Localization で公開されている。

Internal solitary waves (ISWs) are gravity waves that are often observed in the interior ocean rather than the surface. They hold significant importance due to their capacity to carry substantial energy, thus influence pollutant transport, oil platform operations, submarine navigation, etc. Researchers have studied ISWs through optical images, synthetic aperture radar (SAR) images, and altimeter data from remote sensing instruments. However, cloud cover in optical remote sensing images variably obscures ground information, leading to blurred or missing surface observations. As such, this paper aims at altimeter-based machine learning solutions to automatically locate ISWs. The challenges, however, lie in the following two aspects: 1) the altimeter data has low resolution, which requires a strong machine learner; 2) labeling data is extremely labor-intensive, leading to very limited data for training. In recent years, the grand progress of deep learning demonstrates strong learning capacity given abundant data. Besides, more recent studies on efficient learning and self-supervised learning laid solid foundations to tackle the aforementioned challenges. In this paper, we propose to inject prior knowledge to achieve a strong and efficient learner. Specifically, intrinsic patterns in altimetry data are efficiently captured using a scale-translation equivariant convolutional neural network (ST-ECNN). By considering inherent symmetries in neural network design, ST-ECNN achieves higher efficiency and better performance than baseline models. Furthermore, we also introduce prior knowledge from massive unsupervised data to enhance our solution using the SimCLR framework for pre-training. Our final solution achieves an overall better performance than baselines on our handcrafted altimetry dataset. Data and codes are available at https://github.com/ZhangWan-byte/Internal_Solitary_Wave_Localization .
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# 7自由度ロボットアームにおける逆運動学解法のための機械学習と最適化手法

Machine Learning and Optimization Techniques for Solving Inverse Kinematics in a 7-DOF Robotic Arm ( http://arxiv.org/abs/2406.13064v1 )

ライセンス: Link先を確認
Enoch Adediran, Salem Ameen, (参考訳) AI技術のペースが加速し続けており、長年の問題を解決するために多くのツールが研究者に利用できるようになった。 そのような問題の1つは冗長系の逆キネマティクスである。 本稿では,7自由度マニピュレータの複雑さを考察し,その解法として13の最適化手法を提案する。 さらに、アルゴリズム研究の分野に貢献するために、新しいアプローチが提案されている。 これは、よく知られた従来のParticle Swarm Optimization技術より200倍以上高速であることが判明した。 この新手法は,機械学習の爆発的能力と数値的手法の活用能力を組み合わせた新しい検索分野として機能する可能性がある。

As the pace of AI technology continues to accelerate, more tools have become available to researchers to solve longstanding problems, Hybrid approaches available today continue to push the computational limits of efficiency and precision. One of such problems is the inverse kinematics of redundant systems. This paper explores the complexities of a 7 degree of freedom manipulator and explores 13 optimization techniques to solve it. Additionally, a novel approach is proposed to contribute to the field of algorithmic research. This was found to be over 200 times faster than the well-known traditional Particle Swarm Optimization technique. This new method may serve as a new field of search that combines the explorative capabilities of Machine Learning with the exploitative capabilities of numerical methods.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# MaskPure: 確率的浄化によるテキスト広告に対する防御の改善

MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification ( http://arxiv.org/abs/2406.13066v1 )

ライセンス: Link先を確認
Harrison Gietz, Jugal Kalita, (参考訳) 敵攻撃に対する防衛の成功を含む言語モデルの堅牢性の改善は、依然として未解決の問題である。 コンピュータビジョン設定において,拡散モデルによって提供される確率的雑音化・雑音化処理は,入力画像の浄化に有用であることが証明され,敵攻撃に対するモデル堅牢性が改善された。 同様に、いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化と非雑音化の使用を検討したが、これらの手法の品質と効率の改善は競争力を維持するために必要である。 拡散過程にインスパイアされた入力テキストの浄化方法を拡張し, 入力テキストの部分をランダムにマスクし, 補充する。 新たな手法であるMaskPureは,攻撃型の知識を前提とせず,敵の分類器の訓練も必要とせず,他の防御法と比較して頑健さを上回り,適合する。 さらに,MaskPureは確実に堅牢であることを示す。 我々の知る限り、MaskPureは、文字レベルと単語レベルの攻撃に対して成功した最初の確率的浄化法であり、確率的認知防御の一般化可能で有望な性質を示している。 要約: MaskPureアルゴリズムは、現在の最強の証明可能かつ実証的な敵防衛法に関する文献を橋渡しし、理論的および実用的堅牢性の両方を同時に得ることを示す。 コードはGitHubでhttps://github.com/hubarruby/MaskPure.comから入手できる。

The improvement of language model robustness, including successful defense against adversarial attacks, remains an open problem. In computer vision settings, the stochastic noising and de-noising process provided by diffusion models has proven useful for purifying input images, thus improving model robustness against adversarial attacks. Similarly, some initial work has explored the use of random noising and de-noising to mitigate adversarial attacks in an NLP setting, but improving the quality and efficiency of these methods is necessary for them to remain competitive. We extend upon methods of input text purification that are inspired by diffusion processes, which randomly mask and refill portions of the input text before classification. Our novel method, MaskPure, exceeds or matches robustness compared to other contemporary defenses, while also requiring no adversarial classifier training and without assuming knowledge of the attack type. In addition, we show that MaskPure is provably certifiably robust. To our knowledge, MaskPure is the first stochastic-purification method with demonstrated success against both character-level and word-level attacks, indicating the generalizable and promising nature of stochastic denoising defenses. In summary: the MaskPure algorithm bridges literature on the current strongest certifiable and empirical adversarial defense methods, showing that both theoretical and practical robustness can be obtained together. Code is available on GitHub at https://github.com/hubarruby/MaskPure.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# Rusty-DAWGを用いた言語モデルの$n$-Gramノベルティの評価

Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG ( http://arxiv.org/abs/2406.13069v1 )

ライセンス: Link先を確認
William Merrill, Noah A. Smith, Yanai Elazar, (参考訳) 学習コーパスに対する言語モデル(LM)によるテキスト生成は,どの程度新規か? 本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲を調査し,両者を評価した。 i) LM が完全トレーニングに$n$-gram を割り当てる確率 (ii)$n$-novelty, トレーニングデータに現れないLMによって生成される$n$-gram(任意の大きな$n$)の割合。 コーパス上の任意の長さの$n$-gramの探索を一定時間で行うために,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。 我々は,LM生成テキストの新規性を人文テキストと比較し,Pythiaモデルに焦点をあてて,生成新規性に影響を与える要因を探究する。 我々は、$n > 4$の場合、LM生成テキストは、人間が書いたテキストよりも斬新ではないが、より小さな$n$に対しては、より斬新であることを発見した。 より大きなLMとより制約のある復号法はどちらも新規性を低下させる。 最後に、トレーニングデータの頻度が低い場合、LMが損失を減らして$n$-gramを完結することを示す。 全体として,本研究の結果から,LM生成テキストの新規性に影響を与える要因を明らかにし,さらに事前学習を目的としたRusty-DAWGをリリースする。

How novel are texts generated by language models (LMs) relative to their training corpora? In this work, we investigate the extent to which modern LMs generate $n$-grams from their training data, evaluating both (i) the probability LMs assign to complete training $n$-grams and (ii) $n$-novelty, the proportion of $n$-grams generated by an LM that did not appear in the training data (for arbitrarily large $n$). To enable arbitrary-length $n$-gram search over a corpus in constant time, we develop Rusty-DAWG, a novel search tool inspired by indexing of genomic data. We compare the novelty of LM-generated text to human-written text and explore factors that affect generation novelty, focusing on the Pythia models. We find that, for $n > 4$, LM-generated text is less novel than human-written text, though it is more novel for smaller $n$. Larger LMs and more constrained decoding strategies both decrease novelty. Finally, we show that LMs complete $n$-grams with lower loss if they are less frequent in the training data. Overall, our results reveal factors influencing the novelty of LM-generated text, and we release Rusty-DAWG to facilitate further pretraining data research.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# NoiSec: 敵とバックドアの攻撃に対するセキュリティの悪影響

NoiSec: Harnessing Noise for Security against Adversarial and Backdoor Attacks ( http://arxiv.org/abs/2406.13073v1 )

ライセンス: Link先を確認
Md Hasan Shahriar, Ning Wang, Y. Thomas Hou, Wenjing Lou, (参考訳) 機械学習(ML)の指数関数的導入により、世界はインテリジェントな自動化とデータ駆動型ソリューションの未来へと押し上げられている。 しかし、MLに対する悪意のあるデータ操作攻撃、すなわち逆行攻撃やバックドア攻撃の拡散は、安全クリティカルなアプリケーションにおける信頼性を損なう。 このような攻撃に対する既存の検出方法は仮定に基づいて構築され、様々な実践シナリオにおいて制限される。 そこで, より堅牢で統一された防御機構の必要性から, 敵・バックドア攻撃の共有特性を調査し, 攻撃の根本原因であるノイズのみを利用したNoiSecを提案し, 悪意のあるデータ変更を検出する。 NoiSecは、リコンストラクションベースの検出器で、テスト入力からノイズを取り除き、基礎となる特徴をノイズから抽出し、それらを利用して、系統的な悪意のある操作を認識する。 CIFAR10データセットを用いて行った実験では, バックドア攻撃に対するAUROCスコアが, ホワイトボックス攻撃およびブラックボックス攻撃において0.954, 0.852, 0.992を達成し, NoiSecの有効性が示された。 特に、NoiSecは高い検出性能を維持し、偽陽性率をわずか1\%に抑える。 MagNetベースのベースラインの比較分析により、さまざまな攻撃シナリオにおけるNoiSecの優れたパフォーマンスが明らかになった。

The exponential adoption of machine learning (ML) is propelling the world into a future of intelligent automation and data-driven solutions. However, the proliferation of malicious data manipulation attacks against ML, namely adversarial and backdoor attacks, jeopardizes its reliability in safety-critical applications. The existing detection methods against such attacks are built upon assumptions, limiting them in diverse practical scenarios. Thus, motivated by the need for a more robust and unified defense mechanism, we investigate the shared traits of adversarial and backdoor attacks and propose NoiSec that leverages solely the noise, the foundational root cause of such attacks, to detect any malicious data alterations. NoiSec is a reconstruction-based detector that disentangles the noise from the test input, extracts the underlying features from the noise, and leverages them to recognize systematic malicious manipulation. Experimental evaluations conducted on the CIFAR10 dataset demonstrate the efficacy of NoiSec, achieving AUROC scores exceeding 0.954 and 0.852 under white-box and black-box adversarial attacks, respectively, and 0.992 against backdoor attacks. Notably, NoiSec maintains a high detection performance, keeping the false positive rate within only 1\%. Comparative analyses against MagNet-based baselines reveal NoiSec's superior performance across various attack scenarios.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# PIPPIN:Partonから可変長フルイベントを生成する

PIPPIN: Generating variable length full events from partons ( http://arxiv.org/abs/2406.13074v1 )

ライセンス: Link先を確認
Guillaume Quétant, John Andrew Raine, Matthew Leigh, Debajyoti Sengupta, Tobias Golling, (参考訳) 本稿では,最先端の機械学習技術を活用して,パルトンレベルの情報から検出器レベルでのフルイベントを直接生成する手法を提案する。 パートンと再構成されたオブジェクト空間間の多重度変動に対処するために、変換器、スコアベースモデル、正規化フローを用いる。 本手法は, この2つの空間間の確率遷移の複雑さに対処し, 極めて正確な結果を得る。 革新的手法と達成された精度の組み合わせは、フィールドの前進における我々のアプローチの可能性を示し、さらなる探索のための道を開く。 本研究は,高速検出器シミュレーションにおける高精度化に向けて,高エネルギー物理と生成モデリングの継続的な取り組みに寄与する。

This paper presents a novel approach for directly generating full events at detector-level from parton-level information, leveraging cutting-edge machine learning techniques. To address the challenge of multiplicity variations between parton and reconstructed object spaces, we employ transformers, score-based models and normalizing flows. Our method tackles the inherent complexities of the stochastic transition between these two spaces and achieves remarkably accurate results. The combination of innovative techniques and the achieved accuracy demonstrates the potential of our approach in advancing the field and opens avenues for further exploration. This research contributes to the ongoing efforts in high-energy physics and generative modelling, providing a promising direction for enhanced precision in fast detector simulation.
翻訳日:2024-06-22 00:08:09 公開日:2024-06-18
# 特定コミュニティ・リカバリ(側方情報) : スペクトルアルゴリズムの最適性

Exact Community Recovery (under Side Information): Optimality of Spectral Algorithms ( http://arxiv.org/abs/2406.13075v1 )

ライセンス: Link先を確認
Julia Gaudio, Nirmit Joshi, (参考訳) 本稿では,Bernolli と Gaussian のどちらの行列モデルも考慮し,Stochastic Block Model, submatrix Localization, $\mathbb{Z}_2$-synchronization を特別なケースとして捉え,コミュニティの正確な回復の問題を考察する。 コミュニティ割り当てラベルについて$side$$information$が利用可能で、ノイズの多いチャネルを通して真のラベルを渡すようにモデル化されている。 我々は,情報理論上の情報理論的限界に対する側情報の影響を統一的に分析し,先行作業を一般化し,新たな設定に拡張する。 さらに、行列観測の固有ベクトルとともに、サイド情報(現在)を組み込んだ、単純だが最適なスペクトルアルゴリズムを設計する。 エントリーワイド固有ベクトル解析の強力なツール [Abbe, Fan, Wang, Zhong 2020] を用いて、我々のスペクトルアルゴリズムはいわゆる $genie$-$aided$ $estimators$, where $i^{\mathrm{th}}$ genie-aided estimator が $i^{\mathrm{th}}$ラベルの値を最適に計算し、残っていたラベルがすべてジェニーによって露呈されたときに、その推定値を計算することを示す。 この観点は、近年の一連の作業において、様々な正確な回復問題に対するスペクトルアルゴリズムの最適性を統一的に理解する。

In this paper, we study the problem of exact community recovery in general, two-community block models considering both Bernoulli and Gaussian matrix models, capturing the Stochastic Block Model, submatrix localization, and $\mathbb{Z}_2$-synchronization as special cases. We also study the settings where $side$ $information$ about community assignment labels is available, modeled as passing the true labels through a noisy channel: either the binary erasure channel (where some community labels are known while others are erased) or the binary symmetric channel (where some labels are flipped). We provide a unified analysis of the effect of side information on the information-theoretic limits of exact recovery, generalizing prior works and extending to new settings. Additionally, we design a simple but optimal spectral algorithm that incorporates side information (when present) along with the eigenvectors of the matrix observation. Using the powerful tool of entrywise eigenvector analysis [Abbe, Fan, Wang, Zhong 2020], we show that our spectral algorithm can mimic the so called $genie$-$aided$ $estimators$, where the $i^{\mathrm{th}}$ genie-aided estimator optimally computes the estimate of the $i^{\mathrm{th}}$ label, when all remaining labels are revealed by a genie. This perspective provides a unified understanding of the optimality of spectral algorithms for various exact recovery problems in a recent line of work.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 現代のDRAMチップにおけるRowHammerとRowPress読み取り障害の併用による評価

An Experimental Characterization of Combined RowHammer and RowPress Read Disturbance in Modern DRAM Chips ( http://arxiv.org/abs/2406.13080v1 )

ライセンス: Link先を確認
Haocong Luo, Ismail Emir Yüksel, Ataberk Olgun, A. Giray Yağlıkçı, Mohammad Sadrosadati, Onur Mutlu, (参考訳) DRAM読み取り障害は、システムの堅牢性(信頼性、セキュリティ、安全性)を保証する基本的な特性であるメモリアイソレーションを壊す可能性がある。 RowHammerとRowPressは2つの異なるDRAM読み取り障害現象である。 RowHammerは、攻撃者DRAM行を何度も開いて閉じることで、物理的に隣接する被害者DRAM行のビットフリップを誘導する一方、RowPressは攻撃者DRAM行を長時間開いておくことでビットフリップを誘導する。 本研究では,RowHammerとRowPressを組み合わせたDRAMアクセスパターンを,3大DRAMメーカすべてから84個の実DDR4 DRAMチップで特徴付ける。 私たちの重要な結果は 1) このRowHammerパターンとRowPressパターンの組み合わせは、最先端のRowPressパターンと比較して、最初のビットフリップを誘導するために、はるかに少ない時間(最大46.1%高速)を要する。 2) 最小アグレシタ行のアクティベーションカウントで少なくとも1ビットフリップを誘導すると、フリップするビットはRowHammer、RowPress、および組み合わせパターンによって異なる。 その結果,両面パターンの2つの攻撃行のうちの1つからRowPressが引き起こした読み出し障害効果が,他方よりもはるかに重要であるという重要な仮説が得られた。

DRAM read disturbance can break memory isolation, a fundamental property to ensure system robustness (i.e., reliability, security, safety). RowHammer and RowPress are two different DRAM read disturbance phenomena. RowHammer induces bitflips in physically adjacent victim DRAM rows by repeatedly opening and closing an aggressor DRAM row, while RowPress induces bitflips by keeping an aggressor DRAM row open for a long period of time. In this study, we characterize a DRAM access pattern that combines RowHammer and RowPress in 84 real DDR4 DRAM chips from all three major DRAM manufacturers. Our key results show that 1) this combined RowHammer and RowPress pattern takes significantly smaller amount of time (up to 46.1% faster) to induce the first bitflip compared to the state-of-the-art RowPress pattern, and 2) at the minimum aggressor row activation count to induce at least one bitflip, the bits that flip are different across RowHammer, RowPress, and the combined patterns. Based on our results, we provide a key hypothesis that the read disturbance effect caused by RowPress from one of the two aggressor rows in a double-sided pattern is much more significant than the other.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 植物ストレス分類のためのクラス別データ拡張

Class-specific Data Augmentation for Plant Stress Classification ( http://arxiv.org/abs/2406.13081v1 )

ライセンス: Link先を確認
Nasla Saleem, Aditya Balu, Talukder Zaki Jubery, Arti Singh, Asheesh K. Singh, Soumik Sarkar, Baskar Ganapathysubramanian, (参考訳) データ拡張は、植物ストレスの識別と分類のためのディープラーニングベースの画像分類器を改善する強力なツールである。 しかしながら、大規模な候補プールから効果的な拡張セットを選択することは、特に不均衡で相反するデータセットにおいて、重要な課題である。 本稿では,遺伝的アルゴリズムを用いたクラス固有の自動データ拡張手法を提案する。 葉に症状が観察されるダイズ(Glycine max (L.) Merr)ストレス分類へのアプローチの有用性を実証する。 本手法は,ダイズ葉のストレスデータセットにおいて,平均クラス毎の精度97.61%,全体的な精度98%を達成し,高い性能を示した。 本手法は,83.01%から88.89%に,85.71%から94.05%に顕著に改善した。 そこで本研究では,高い性能向上戦略を計算的に効果的に同定できることを示す。 そこで我々は,異なる拡張性を持つベースラインモデルの線形層のみを微調整し,訓練分類器のスクラッチ化に伴う計算負担を低減し,優れた性能を実現した。 本研究は, 植物ストレス分類における自動データ拡張戦略の進歩, 特にコンバウンディングデータセットの文脈における発展を示す。 本研究は, 高度化技術研究の進展と, 病害管理戦略, 収穫量, グローバルな食料安全保障への潜在的影響に寄与する。 提案手法は、農業における植物ストレスを管理するためのディープラーニングツールの精度と効率を高める可能性を秘めている。

Data augmentation is a powerful tool for improving deep learning-based image classifiers for plant stress identification and classification. However, selecting an effective set of augmentations from a large pool of candidates remains a key challenge, particularly in imbalanced and confounding datasets. We propose an approach for automated class-specific data augmentation using a genetic algorithm. We demonstrate the utility of our approach on soybean [Glycine max (L.) Merr] stress classification where symptoms are observed on leaves; a particularly challenging problem due to confounding classes in the dataset. Our approach yields substantial performance, achieving a mean-per-class accuracy of 97.61% and an overall accuracy of 98% on the soybean leaf stress dataset. Our method significantly improves the accuracy of the most challenging classes, with notable enhancements from 83.01% to 88.89% and from 85.71% to 94.05%, respectively. A key observation we make in this study is that high-performing augmentation strategies can be identified in a computationally efficient manner. We fine-tune only the linear layer of the baseline model with different augmentations, thereby reducing the computational burden associated with training classifiers from scratch for each augmentation policy while achieving exceptional performance. This research represents an advancement in automated data augmentation strategies for plant stress classification, particularly in the context of confounding datasets. Our findings contribute to the growing body of research in tailored augmentation techniques and their potential impact on disease management strategies, crop yields, and global food security. The proposed approach holds the potential to enhance the accuracy and efficiency of deep learning-based tools for managing plant stresses in agriculture.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# Navi Split: 効率的な分散自律ナビゲーションのための動的マルチブランチ分割DNN

NaviSplit: Dynamic Multi-Branch Split DNNs for Efficient Distributed Autonomous Navigation ( http://arxiv.org/abs/2406.13086v1 )

ライセンス: Link先を確認
Timothy K Johnsen, Ian Harshbarger, Zixia Xia, Marco Levorato, (参考訳) 軽量無人航空機(UAV)は、幅広い用途において中心的な役割を担っている。 しかし、自律ナビゲーションは、制御ロジックのためにカメラやLiDARなどのセンサー観測の入力を処理する知覚アルゴリズム(しばしばディープニューラルネットワーク(DNN))の実装を必要とする。 このようなアルゴリズムの複雑さは、計算能力、エネルギー、メモリ、実行時間の点でこれらのデバイスの厳しい制約と衝突する。 本稿では,分散および動的マルチブランチニューラルネットワークを組み込んだ軽量ナビゲーションフレームワークの最初の例であるNaviSplitを提案する。 中心となるDNNは圧縮点で分割され,(1)車両内で実行されるヘッドモデル,(2)センサーからの知覚を部分的に処理し,コンパクト化するテールモデル,2)圧縮された知覚の残りを処理し,ナビゲーションコマンドを推測する相互に接続可能なデバイスで実行されるテールモデル,の2つのモデル部となる。 以前の作業とは異なり、NaviSplitフレームワークには、ナビゲーションネットワークを効率的にサポートしながら、チャネル使用を最小限に抑えるために、特定のヘッドモデルを動的に選択するニューラルネットワークゲートが含まれている。 本実装では,ロバストなシミュレータであるMicrosoft AirSimを用いて,ドローンが捉えた単眼RGB画像から2次元深度マップを抽出する。 以上の結果から,NaviSplit深度モデルでは72~81%の抽出精度が得られ,かつ,極めて少ないデータ(1.2~18KB)をエッジサーバに送信することがわかった。 NaviSplitが使用したニューラルゲートを使用すると、より大きな静的ネットワークに比べてわずかに高いナビゲーション精度が得られるが、データレートは95%減少する。 我々の知る限りでは、これは自律ナビゲーションのための分割DNNに基づく動的マルチブランチモデルの最初の例である。

Lightweight autonomous unmanned aerial vehicles (UAV) are emerging as a central component of a broad range of applications. However, autonomous navigation necessitates the implementation of perception algorithms, often deep neural networks (DNN), that process the input of sensor observations, such as that from cameras and LiDARs, for control logic. The complexity of such algorithms clashes with the severe constraints of these devices in terms of computing power, energy, memory, and execution time. In this paper, we propose NaviSplit, the first instance of a lightweight navigation framework embedding a distributed and dynamic multi-branched neural model. At its core is a DNN split at a compression point, resulting in two model parts: (1) the head model, that is executed at the vehicle, which partially processes and compacts perception from sensors; and (2) the tail model, that is executed at an interconnected compute-capable device, which processes the remainder of the compacted perception and infers navigation commands. Different from prior work, the NaviSplit framework includes a neural gate that dynamically selects a specific head model to minimize channel usage while efficiently supporting the navigation network. In our implementation, the perception model extracts a 2D depth map from a monocular RGB image captured by the drone using the robust simulator Microsoft AirSim. Our results demonstrate that the NaviSplit depth model achieves an extraction accuracy of 72-81% while transmitting an extremely small amount of data (1.2-18 KB) to the edge server. When using the neural gate, as utilized by NaviSplit, we obtain a slightly higher navigation accuracy as compared to a larger static network by 0.3% while significantly reducing the data rate by 95%. To the best of our knowledge, this is the first exemplar of dynamic multi-branched model based on split DNNs for autonomous navigation.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 非エルミートSSHモデルの熱力学と絡み合いエントロピー

Thermodynamics and entanglement entropy of the non-Hermitian SSH model ( http://arxiv.org/abs/2406.13087v1 )

ライセンス: Link先を確認
D. F. Munoz-Arboleda, R. Arouca, C. Morais Smith, (参考訳) トポロジカル相転移は様々な系で見られ、スケーリング関係を通して熱力学的な記述と深く関連していることが示されている。 本稿では、臨界モデルの中心電荷と非相互シュリーファー・ヘーガー(SSH)モデルの熱力学を捉えるエンタングルメントエントロピーについて検討する。 このモデルは広く研究されているが、熱力学特性は、これまで研究されていない興味深い物理学を明らかにしている。 モデルの境界効果を解析するために、ヒルの熱力学を用いて大ポテンシャルを2つの寄与に分割する。 次に, 熱力学的エントロピー, エッジ, バルクの熱容量, およびトポロジカル相転移時のバルクの熱容量を導出する。 後者は、基礎となる理論が共形場理論であるときに中心電荷と関係し、最初の理論は位相的エッジ状態の有限温度へのレジリエンスを明らかにする。 エルミートSSHモデルと断熱的に連結された相間の相転移は、ディラック普遍性クラス内の系のよく知られた挙動を示すが、複雑なエネルギーを持つ相間の遷移は予期せぬ臨界挙動を示し、想像上の時間結晶の出現を示唆する。

Topological phase transitions are found in a variety of systems and were shown to be deeply related with a thermodynamic description through scaling relations. Here, we investigate the entanglement entropy, which is a quantity that captures the central charge of a critical model and the thermodynamics of the non-reciprocal Su-Schrieffer-Heeger (SSH) model. Although this model has been widely studied, the thermodynamic properties reveal interesting physics not explored so far. In order to analyze the boundary effects of the model, we use Hill's thermodynamics to split the grand potential in two contributions: the extensive one, related to the bulk, and the subdivision one, related to the boundaries. Then, we derive the thermodynamic entropy for both, the edges and the bulk and the heat capacity for the bulk at the topological phase transitions. The latter is related to the central charge when the underlying theory is a conformal field theory, whereas the first reveals the resilience of the topological edge states to finite temperatures. The phase transition between phases that are adiabatically connected with the Hermitian SSH model display the well-known behaviour of systems within the Dirac universality class, but the transition between phases with complex energies shows an unexpected critical behavior, which signals the emergence of an imaginary time crystal.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 映画物語の多言語合成:ストーリー理解のためのデータセット

Multilingual Synopses of Movie Narratives: A Dataset for Story Understanding ( http://arxiv.org/abs/2406.13092v1 )

ライセンス: Link先を確認
Yidan Sun, Jianfei Yu, Boyang Li, (参考訳) ストーリー・ビデオ・テキスト・アライメント(Story Video-textアライメント)は、ビデオ・クリップを記述中の対応する文と整合させることを目的としている。 しかし、手動による注釈付きビデオテキスト対応の不足と、ハリウッド映画における英語のナレーションへの集中により、課題の進展は後退している。 そこで本研究では,映画ナラティブの多言語合成(M-SYMON)と呼ばれる大規模多言語ビデオストーリーデータセットを構築し,7言語13,166本のビデオ要約ビデオと101.5時間の詳細なビデオテキスト対応のマニュアルアノテーションについて述べる。 SyMoNからの注釈付きデータのトレーニングは、それぞれClip AccuracyとSentence IoUのスコアでSOTA法を15.7と16.2で上回り、アノテーションの有効性を示す。 将来の研究のベンチマークとして、異なる多言語トレーニング戦略による6つのベースラインアプローチを作成し、その性能を言語内および言語間両方の設定で比較し、多言語ビデオテキストアライメントの課題を実証する。

Story video-text alignment, a core task in computational story understanding, aims to align video clips with corresponding sentences in their descriptions. However, progress on the task has been held back by the scarcity of manually annotated video-text correspondence and the heavy concentration on English narrations of Hollywood movies. To address these issues, in this paper, we construct a large-scale multilingual video story dataset named Multilingual Synopses of Movie Narratives (M-SYMON), containing 13,166 movie summary videos from 7 languages, as well as manual annotation of fine-grained video-text correspondences for 101.5 hours of video. Training on the human annotated data from SyMoN outperforms the SOTA methods by 15.7 and 16.2 percentage points on Clip Accuracy and Sentence IoU scores, respectively, demonstrating the effectiveness of the annotations. As benchmarks for future research, we create 6 baseline approaches with different multilingual training strategies, compare their performance in both intra-lingual and cross-lingual setups, exemplifying the challenges of multilingual video-text alignment.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# RITA: リアルタイム対話型アバターフレームワーク

RITA: A Real-time Interactive Talking Avatars Framework ( http://arxiv.org/abs/2406.13093v1 )

ライセンス: Link先を確認
Wuxinlin Cheng, Cheng Wan, Yupeng Cao, Sihan Chen, (参考訳) RITAは、実用的な応用を念頭に設計された、生成モデルに基づく高品質なリアルタイム対話型フレームワークを提供する。 当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。 生成モデリングの最新の進歩を活用することで、動的会話アバターによるユーザエクスペリエンスの向上だけでなく、仮想現実、オンライン教育、インタラクティブゲーミングにおけるアプリケーションへの新たな道を開く、汎用的なプラットフォームを開発した。 この研究は、コンピュータビジョンと自然言語処理技術を統合して没入的でインタラクティブなデジタルペルソナを作ることの可能性を示し、デジタルコンテンツとのインタラクションの限界を押し広げている。

RITA presents a high-quality real-time interactive framework built upon generative models, designed with practical applications in mind. Our framework enables the transformation of user-uploaded photos into digital avatars that can engage in real-time dialogue interactions. By leveraging the latest advancements in generative modeling, we have developed a versatile platform that not only enhances the user experience through dynamic conversational avatars but also opens new avenues for applications in virtual reality, online education, and interactive gaming. This work showcases the potential of integrating computer vision and natural language processing technologies to create immersive and interactive digital personas, pushing the boundaries of how we interact with digital content.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 大規模言語モデルの計画能力の探索とベンチマーク

Exploring and Benchmarking the Planning Capabilities of Large Language Models ( http://arxiv.org/abs/2406.13094v1 )

ライセンス: Link先を確認
Bernd Bohnet, Azade Nova, Aaron T Parisi, Kevin Swersky, Katayoon Goshvadi, Hanjun Dai, Dale Schuurmans, Noah Fiedel, Hanie Sedghi, (参考訳) 我々は,大規模言語モデル(LLM)の計画能力を高めるために,4つの主要な方向を探索する。 まず、古典的な計画領域と自然言語シナリオの両方を含む包括的なベンチマークスイートを構築する。 このスイートには、様々なレベルの難易度を持つインスタンスを生成するアルゴリズムが含まれており、LLM性能の厳密で体系的な評価を可能にする。 第2に、LLM計画の強化にICL(In-context Learning)を用いることについて検討し、文脈長の増大と計画性能の向上の直接的な関係について検討する。 第3に、最適計画パスに対する微調整LDMの正の効果と、モデル駆動探索手法の導入の有効性を実証する。 最後に,提案手法の配布外シナリオにおける性能について検討し,新規で目に見えない計画課題に一般化する能力を評価する。

We seek to elevate the planning capabilities of Large Language Models (LLMs)investigating four main directions. First, we construct a comprehensive benchmark suite encompassing both classical planning domains and natural language scenarios. This suite includes algorithms to generate instances with varying levels of difficulty, allowing for rigorous and systematic evaluation of LLM performance. Second, we investigate the use of in-context learning (ICL) to enhance LLM planning, exploring the direct relationship between increased context length and improved planning performance. Third, we demonstrate the positive impact of fine-tuning LLMs on optimal planning paths, as well as the effectiveness of incorporating model-driven search procedures. Finally, we investigate the performance of the proposed methods in out-of-distribution scenarios, assessing the ability to generalize to novel and unseen planning challenges.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# DLP:非結合学習プロセスによるバックドア攻撃に対する積極的な防御に向けて

DLP: towards active defense against backdoor attacks with decoupled learning process ( http://arxiv.org/abs/2406.13098v1 )

ライセンス: Link先を確認
Zonghao Ying, Bin Wu, (参考訳) ディープラーニングモデルは、攻撃者がトリガーを注入する改ざんされたデータセットのみを提供する必要があるバックドア攻撃の影響を受けやすいことがよく知られている。 データセットでトレーニングされたモデルは、受動的にバックドアをインプラントし、入力のトリガーはテスト中にモデルを誤解させる可能性がある。 本研究は, トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すことを示す。 そこで本研究では,バックドア攻撃を積極的に防ぐための一般的な訓練パイプラインを提案する。 良性モデルは、学習プロセスを3段階(教師付き学習、アクティブアンラーニング、アクティブ半教師付き微調整)に分離することで、信頼できないデータセットからトレーニングすることができる。 提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。

Deep learning models are well known to be susceptible to backdoor attack, where the attacker only needs to provide a tampered dataset on which the triggers are injected. Models trained on the dataset will passively implant the backdoor, and triggers on the input can mislead the models during testing. Our study shows that the model shows different learning behaviors in clean and poisoned subsets during training. Based on this observation, we propose a general training pipeline to defend against backdoor attacks actively. Benign models can be trained from the unreliable dataset by decoupling the learning process into three stages, i.e., supervised learning, active unlearning, and active semi-supervised fine-tuning. The effectiveness of our approach has been shown in numerous experiments across various backdoor attacks and datasets.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 潜時拡散モデルを用いた秒間3次元ガウスシーンのサンプリング

Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models ( http://arxiv.org/abs/2406.13099v1 )

ライセンス: Link先を確認
Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius, (参考訳) 本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。 そこで我々はまず,マルチビュー画像を3次元ガウススプラットにマッピングするオートエンコーダを設計し,同時にこれらのスプラットの圧縮潜在表現を構築した。 そこで我々は,効率的な生成モデルを学ぶために,潜在空間上の多視点拡散モデルを訓練する。 このパイプラインは、オブジェクトマスクや奥行きを必要とせず、任意のカメラ位置を持つ複雑なシーンに適している。 我々は,MVImgNetとRealEstate10Kという,複雑な現実世界シーンの大規模データセットを慎重に実験する。 提案手法では,スクラッチから,単一インプットビューから,あるいは疎インプットビューから,0.2秒で3Dシーンを生成することができる。 非レイテンシ拡散モデルやそれ以前のNeRFベースの生成モデルよりも桁違いに高速に実行しながら、多種多様で高品質な結果を生成する。

We present a latent diffusion model over 3D scenes, that can be trained using only 2D image data. To achieve this, we first design an autoencoder that maps multi-view images to 3D Gaussian splats, and simultaneously builds a compressed latent representation of these splats. Then, we train a multi-view diffusion model over the latent space to learn an efficient generative model. This pipeline does not require object masks nor depths, and is suitable for complex scenes with arbitrary camera positions. We conduct careful experiments on two large-scale datasets of complex real-world scenes -- MVImgNet and RealEstate10K. We show that our approach enables generating 3D scenes in as little as 0.2 seconds, either from scratch, from a single input view, or from sparse input views. It produces diverse and high-quality results while running an order of magnitude faster than non-latent diffusion models and earlier NeRF-based generative models
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# ニューラルネットワークに基づく物理シミュレータの不安定性について

On instabilities in neural network-based physics simulators ( http://arxiv.org/abs/2406.13101v1 )

ライセンス: Link先を確認
Daniel Floryan, (参考訳) ニューラルネットワークが物理的システムのダイナミクスをシミュレートするためにデータからトレーニングされている場合、それらは永続的な課題に直面します。 線形力学系を学習する際のそのような不安定性の起源を,トレーニング力学に焦点をあてて解析する。 本研究では, 経験的観察が非線形力学系に拡張することを示唆するいくつかの解析的発見を行う。 まず、トレーニング力学の収束速度は不均一であり、データのエネルギー分布に依存する。 特別な場合として、データがエネルギーを持たない方向の力学は学べない。 第二に、学習不能な方向では、ニューラルネットワークによって生成されるダイナミクスはウェイト初期化に依存し、共通のウェイト初期化スキームは不安定なダイナミクスを生成する。 第三に、トレーニング中にデータに合成ノイズを注入すると、トレーニングのダイナミクスが減衰し、学習したシミュレータを安定させることができる。 不安定性への貢献者それぞれに対して、緩和戦略を提案する。 また、離散時間学習と連続時間力学の重要な違いを強調し、非線形システムの拡張について議論する。

When neural networks are trained from data to simulate the dynamics of physical systems, they encounter a persistent challenge: the long-time dynamics they produce are often unphysical or unstable. We analyze the origin of such instabilities when learning linear dynamical systems, focusing on the training dynamics. We make several analytical findings which empirical observations suggest extend to nonlinear dynamical systems. First, the rate of convergence of the training dynamics is uneven and depends on the distribution of energy in the data. As a special case, the dynamics in directions where the data have no energy cannot be learned. Second, in the unlearnable directions, the dynamics produced by the neural network depend on the weight initialization, and common weight initialization schemes can produce unstable dynamics. Third, injecting synthetic noise into the data during training adds damping to the training dynamics and can stabilize the learned simulator, though doing so undesirably biases the learned dynamics. For each contributor to instability, we suggest mitigative strategies. We also highlight important differences between learning discrete-time and continuous-time dynamics, and discuss extensions to nonlinear systems.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 自然言語テキストにおける微粒なカテゴリー発見のためのジェネリック手法

A Generic Method for Fine-grained Category Discovery in Natural Language Texts ( http://arxiv.org/abs/2406.13103v1 )

ライセンス: Link先を確認
Chang Tian, Matthew B. Blaschko, Wenpeng Yin, Mingzhe Xing, Yinliang Yue, Marie-Francine Moens, (参考訳) 粗粒度のみを用いた細粒度カテゴリー発見は費用対効果があるが難しい課題である。 従来のトレーニング方法は、クエリサンプルを正のサンプルと整合させ、負のサンプルと区別することに集中していた。 彼らはしばしば、埋め込み空間におけるサンプル分布をナビゲートする際に、細粒度カテゴリのカテゴリ内およびカテゴリ間セマンティックな類似性を無視する。 さらに、事前コンパイルされたテストサンプルに依存するいくつかの評価手法は、リアルタイムアプリケーションには不十分である。 これらの欠点に対処するため,本研究では,新たな目的関数によって導かれる意味的類似テキストの細粒度クラスタを正常に検出する手法を提案する。 この手法は対数空間における意味的類似性を利用してユークリッド空間のサンプル分布を誘導し、微細な圏を表す異なるクラスタを形成する。 また,リアルタイムアプリケーションをサポートするセントロイド推論機構を提案する。 この手法の有効性は、3つのベンチマークタスクで理論的に正当化され、実証的に確認される。 提案する目的関数は、複数のコントラスト学習に基づくニューラルモデルに統合される。 その結果, 検出された細粒度カテゴリの精度, 適応乱数指数, 正規化相互情報の観点から, 既存の最先端手法を上回る結果を得た。 コードとデータは公開後、https://github.com/XXで公開される。

Fine-grained category discovery using only coarse-grained supervision is a cost-effective yet challenging task. Previous training methods focus on aligning query samples with positive samples and distancing them from negatives. They often neglect intra-category and inter-category semantic similarities of fine-grained categories when navigating sample distributions in the embedding space. Furthermore, some evaluation techniques that rely on pre-collected test samples are inadequate for real-time applications. To address these shortcomings, we introduce a method that successfully detects fine-grained clusters of semantically similar texts guided by a novel objective function. The method uses semantic similarities in a logarithmic space to guide sample distributions in the Euclidean space and to form distinct clusters that represent fine-grained categories. We also propose a centroid inference mechanism to support real-time applications. The efficacy of the method is both theoretically justified and empirically confirmed on three benchmark tasks. The proposed objective function is integrated in multiple contrastive learning based neural models. Its results surpass existing state-of-the-art approaches in terms of Accuracy, Adjusted Rand Index and Normalized Mutual Information of the detected fine-grained categories. Code and data will be available at https://github.com/XX upon publication.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# 多スペクトルランドサット画像における複雑な背景における煙分断のための変圧器強化UNet

A transformer boosted UNet for smoke segmentation in complex backgrounds in multispectral LandSat imagery ( http://arxiv.org/abs/2406.13105v1 )

ライセンス: Link先を確認
Jixue Liu, Jiuyong Li, Stefan Peters, Liang Zhao, (参考訳) 衛星画像から煙を検出するために多くの研究がなされている。 しかし、これらの手法は複雑な背景から様々な煙を検出するのに依然として有効ではない。 煙突は、密度、色、照明、雲、干し草、霧などの背景、および薄い煙の文脈の性質の変化による検出の課題を示す。 本稿では、スペクトルパターンをキャプチャする仮想バンド構成モジュールと、長距離コンテキストの特徴をキャプチャするトランスフォーマー強化UNetからなる、VTrUNetと呼ばれる新しいセグメンテーションモデルを提案することにより、これらの課題に対処する。 このモデルは赤、緑、青、近赤外線の6つのバンドと2つの短波赤外バンドを入力として撮影する。 提案手法の利点を示すため,UNetを改良した様々なモデルアーキテクチャに対する広範な結果を示すとともに,モデルへのモジュールの追加が必ずしも優れたパフォーマンスをもたらすとは限らない,という興味深い結論を導いた。 また, 提案モデルと最近提案された煙分別モデルを比較し, 提案モデルが最良であることを示すとともに, 予測性能を大幅に向上することを示す。

Many studies have been done to detect smokes from satellite imagery. However, these prior methods are not still effective in detecting various smokes in complex backgrounds. Smokes present challenges in detection due to variations in density, color, lighting, and backgrounds such as clouds, haze, and/or mist, as well as the contextual nature of thin smoke. This paper addresses these challenges by proposing a new segmentation model called VTrUNet which consists of a virtual band construction module to capture spectral patterns and a transformer boosted UNet to capture long range contextual features. The model takes imagery of six bands: red, green, blue, near infrared, and two shortwave infrared bands as input. To show the advantages of the proposed model, the paper presents extensive results for various possible model architectures improving UNet and draws interesting conclusions including that adding more modules to a model does not always lead to a better performance. The paper also compares the proposed model with very recently proposed and related models for smoke segmentation and shows that the proposed model performs the best and makes significant improvements on prediction performances
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# ネットワーク医療とGenAIによる複雑疾患治療の加速 : 乳癌に対する薬物治療を事例として

Accelerating Complex Disease Treatment through Network Medicine and GenAI: A Case Study on Drug Repurposing for Breast Cancer ( http://arxiv.org/abs/2406.13106v1 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed, Tamer E. Fandy, Xindong Wu, (参考訳) 本研究の目的は, 臨床治験や生医学文献など, 現実の証拠資料を調査し, 再活用可能な薬剤の予測を専門とするネットワークを導入することである。 具体的には、複雑な疾患(例えば、がん、アルツハイマー病)に対する薬物併用療法を作成することを目的としている。 本稿では,高度に構成されたChatGPTプロンプト・エンジニアリング・システムによる多層ネットワーク・メディカル・アプローチを提案する。 さらに,現実の証拠を病原性シグナル伝達経路(KEGGデータベースなど)に結びつける新しいアルゴリズムを提案する。 これは、シグナル伝達経路の1つ以上のタンパク質成分と結合すると、薬の再利用可能性に光を当てる。 その結果,46の乳癌シグナル伝達経路のうち,少なくとも2つの薬剤を投与した38の経路が同定された。 この証拠はこれらの薬物を組み合わせる可能性を示唆している。 具体的には、最もカバーされたシグナル伝達経路であるID hsa:2064は、108の薬物でカバーされ、そのうちのいくつかは組み合わせることができる。 逆に、シグナル伝達経路 ID hsa:1499 はわずか2つの薬物で覆われており、さらなる研究には大きなギャップがあることが示されている。 GenAIによって強化された我々のネットワーク医療フレームワークは、標的となるシグナル伝達経路やタンパク質を正確に把握し、薬物の組み合わせを高い特異度で識別する可能性を示しています。 ChatGPTは、臨床試験で薬物の言及を識別する過程をうまく加速したが、薬物の言及間の関係を判断するためには、さらなる調査が必要である。

The objective of this research is to introduce a network specialized in predicting drugs that can be repurposed by investigating real-world evidence sources, such as clinical trials and biomedical literature. Specifically, it aims to generate drug combination therapies for complex diseases (e.g., cancer, Alzheimer's). We present a multilayered network medicine approach, empowered by a highly configured ChatGPT prompt engineering system, which is constructed on the fly to extract drug mentions in clinical trials. Additionally, we introduce a novel algorithm that connects real-world evidence with disease-specific signaling pathways (e.g., KEGG database). This sheds light on the repurposability of drugs if they are found to bind with one or more protein constituents of a signaling pathway. To demonstrate, we instantiated the framework for breast cancer and found that, out of 46 breast cancer signaling pathways, the framework identified 38 pathways that were covered by at least two drugs. This evidence signals the potential for combining those drugs. Specifically, the most covered signaling pathway, ID hsa:2064, was covered by 108 drugs, some of which can be combined. Conversely, the signaling pathway ID hsa:1499 was covered by only two drugs, indicating a significant gap for further research. Our network medicine framework, empowered by GenAI, shows promise in identifying drug combinations with a high degree of specificity, knowing the exact signaling pathways and proteins that serve as targets. It is noteworthy that ChatGPT successfully accelerated the process of identifying drug mentions in clinical trials, though further investigations are required to determine the relationships among the drug mentions.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# フォトン統計による高調波発生と高閾値電離スペクトルの非エルミタンフロケ視点

Non-hermitian Floquet perspective on high harmonic generation and above threshold ionization spectra from Photon statistics ( http://arxiv.org/abs/2406.13109v1 )

ライセンス: Link先を確認
Nimrod Moiseyev, (参考訳) 我々は、2017年にTsatrafylisと彼の同僚が行った実験結果を確認し、高調波発生スペクトル(HGS)と吸収された紫外線(XUV)光子数の一致を実証する非エルミタンフロケ理論に基づく証明を示す。 この偶然は、吸収された奇妙なIR光子と放出されたXUV光子の総エネルギーを保存して、IR光子のポストセレクションによって達成される。 我々の導出はそれらの結果と一致しており、超高強度レーザーのHGSを非エルミート量子力学(NHQM)を用いて計算する能力に依存している。 NHQM 理論シミュレーションにより,HHG と ATI スペクトルと (選択後の) 消滅したポンプ光子との対応関係を同定した。 さらに、HHGの光子統計は、HGSの台地の切断における電子の量子カオス力学を反映したウィグナー型分布を示すことを示した。 我々は,HGS,AIT,IR光子数分布の3つの異なる測定を統一的に制御する機構が,電磁界の量子化を必要としないことを強調した。

We present a proof based on non-hermitian Floquet theory that confirms the experimental findings of Tsatrafylis and his colleagues in 2017, demonstrating the coincidence between the high harmonic generation spectra (HGS) and the number of absorbed odd infrared (IR) photons leading to emitted extreme ultraviolet (XUV) radiation. This coincidence is achieved through post-selection of the IR photons, conserving the total energy of the absorbed odd IR photons and the emitted XUV photons. Our derivation is consistent with their results and relies on our ability to compute the HGS in ultra-high-intensity lasers using non-Hermitian quantum mechanics (NHQM), which competes with above-threshold ionization (ATI). Through our NHQM theoretical simulation, we identify the regimes where there is correspondence between the HHG and ATI spectra and annihilated pump photons (with post-selection). Additionally, we demonstrate that the photon statistics in HHG exhibit Wigner-type distributions, which reflect the quantum chaotic dynamics of electrons at the cutoff of the plateau of the HGS. We emphasize that our findings underscore a unified mechanism governing the three distinct measurements of HGS, ATI, and IR photon number distribution, none of which require the quantization of the electromagnetic field.
翻訳日:2024-06-21 23:58:20 公開日:2024-06-18
# NutmegとSPICE:生体分子機械学習のためのモデルとデータ

Nutmeg and SPICE: Models and Data for Biomolecular Machine Learning ( http://arxiv.org/abs/2406.13112v1 )

ライセンス: Link先を確認
Peter Eastman, Benjamin P. Pritchard, John D. Chodera, Thomas E. Markland, (参考訳) 機械学習ポテンシャルを学習するための量子化学計算の集合であるSPICEデータセットのバージョン2について述べる。 これは、化学空間のより多くのサンプリングと非共有相互作用に関するより多くのデータを追加することで、元のデータセットを拡張している。 我々は、その上にNutmegと呼ばれるポテンシャルエネルギー関数のセットを訓練する。 彼らは、電荷と極性分子のパフォーマンスを改善するために新しいメカニズムを使用し、大規模な電荷分布の基準を提供するために、事前計算された部分電荷をモデルに注入した。 新しいモデルの評価は、高電荷の分子やトレーニングセットの分子よりもかなり大きい分子でも、コンフォメーション間のエネルギー差を再現する優れた仕事をしていることを示している。 また、安定な分子動力学軌道も生成し、小さな分子の定期的なシミュレーションに役立つほど高速である。

We describe version 2 of the SPICE dataset, a collection of quantum chemistry calculations for training machine learning potentials. It expands on the original dataset by adding much more sampling of chemical space and more data on non-covalent interactions. We train a set of potential energy functions called Nutmeg on it. They use a novel mechanism to improve performance on charged and polar molecules, injecting precomputed partial charges into the model to provide a reference for the large scale charge distribution. Evaluation of the new models shows they do an excellent job of reproducing energy differences between conformations, even on highly charged molecules or ones that are significantly larger than the molecules in the training set. They also produce stable molecular dynamics trajectories, and are fast enough to be useful for routine simulation of small molecules.
翻訳日:2024-06-21 23:48:36 公開日:2024-06-18
# 量子計測結果の射影率と値再現性

Intersubjectivity and value reproducibility of outcomes of quantum measurements ( http://arxiv.org/abs/1911.10893v3 )

ライセンス: Link先を確認
Masanao Ozawa, (参考訳) それぞれの測定は結果として1つの値を決定するが、量子力学は確率的にのみ予測する。 コチェン=スペクターの定理とベルの不等式は、現実主義的見解を否定すると考えられているが、観測可能度を測定することは、それが持つ価値を確かめることではなく、個人的意味を持つ結果を生み出すことを意味するという懐疑的な見解を好む。 しかし、この見解を裏付ける正確な分析は分かっていない。 ここでは、量子力学的解析がこの見解を下方修正することを示す。 2人の観測者が同時に同じ観測可能度を測ると、それらが常に同じ結果が得られるのか、確率分布が同じであるのか、という疑問が浮き彫りになるが、結果は無関係である。 第2の見解を広く支持するのとは対照的に、量子力学は第1のケースのみが起こると予測する。 さらに,観測可能な観測値と測定後の測定値との間に時間的な絡み合いが成立し,異なる観測値間の空間的な絡み合いが生じることを示す。 また、我々の結論はいわゆる「一般化された」可観測物の測定にまで拡張できないことを示し、量子力学の基礎における可観測物の概念を再考する必要性を示唆している。

Every measurement determines a single value as its outcome, and yet quantum mechanics predicts it only probabilistically. The Kochen-Specker theorem and Bell's inequality are often considered to reject a realist view but favor a skeptical view that measuring an observable does not mean ascertaining the value that it has, but producing the outcome, having only a personal meaning. However, precise analysis supporting this view is unknown. Here, we show that a quantum mechanical analysis turns down this view. Supposing that two observers simultaneously measure the same observable, we can well pose the question as to whether they always obtain the same outcome, or whether the probability distributions are the same, but the outcomes are uncorrelated. Contrary to the widespread view in favor of the second, we shall show that quantum mechanics predicts that only the first case occurs. We further show that any measurement establishes a time-like entanglement between the observable to be measured and the meter after the measurement, which causes the space-like entanglement between the meters of different observers. We also show that our conclusion cannot be extended to measurements of so-called `generalized' observables, suggesting a demand for reconsidering the notion of observables in foundations of quantum mechanics.
翻訳日:2024-06-20 05:50:01 公開日:2024-06-18
# ROOT-SGD:1つのアルゴリズムにおけるシャープ非漸近と準最適漸近

ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm ( http://arxiv.org/abs/2008.12690v3 )

ライセンス: Link先を確認
Chris Junchi Li, (参考訳) 確率的一階法アルゴリズムを用いて,厳密な凸と滑らかな非拘束最適化問題の解法について検討する。 我々は,過去の確率勾配の再現性,再帰的平均化に基づいて,新しいアルゴリズム「emph{recursive One-Over-T SGD} (\textsf{ROOT-SGD})」を考案した。 有限サンプル, 漸近感覚, 漸近感覚の両方において, 同時に最先端の演奏を達成できることを実証する。 漸近的側面では、Hessian行列上のリプシッツ条件の下でO(n^{-3/2})$のシャープレートでスケールする高次項とともに、最適統計的リスクとユニティ事前因子とを一致させる最上位項との最後の繰り返しのリスク境界を証明している。 漸近的側面では、穏やかで一点のヘッセン連続性条件が課されると、(マルチエポック) \textsf{ROOT-SGD} の再スケールされた最後の反復は、幅広いステップサイズの選択に対して、Cram\'{e}r-Rao の最適漸近共分散を持つガウス極限に漸近的に収束することを示す。

We study the problem of solving strongly convex and smooth unconstrained optimization problems using stochastic first-order algorithms. We devise a novel algorithm, referred to as \emph{Recursive One-Over-T SGD} (\textsf{ROOT-SGD}), based on an easily implementable, recursive averaging of past stochastic gradients. We prove that it simultaneously achieves state-of-the-art performance in both a finite-sample, nonasymptotic sense and an asymptotic sense. On the nonasymptotic side, we prove risk bounds on the last iterate of \textsf{ROOT-SGD} with leading-order terms that match the optimal statistical risk with a unity pre-factor, along with a higher-order term that scales at the sharp rate of $O(n^{-3/2})$ under the Lipschitz condition on the Hessian matrix. On the asymptotic side, we show that when a mild, one-point Hessian continuity condition is imposed, the rescaled last iterate of (multi-epoch) \textsf{ROOT-SGD} converges asymptotically to a Gaussian limit with the Cram\'{e}r-Rao optimal asymptotic covariance, for a broad range of step-size choices.
翻訳日:2024-06-20 05:50:01 公開日:2024-06-18
# 深部プロキシ因果学習とバンドポリシー評価への活用

Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation ( http://arxiv.org/abs/2106.03907v5 )

ライセンス: Link先を確認
Liyuan Xu, Heishiro Kanagawa, Arthur Gretton, (参考訳) プロキシ因果学習(英: Proxy causal learning、PCL)は、共同設立者のためのプロキシ(構造化側情報)を用いて、保存されていない共起の存在による結果に対する治療の因果効果を推定する手法である。 これは、第1段階では、治療とプロキシ間の関係をモデル化し、第2段階では、プロキシが提供するコンテキストを考慮して、このモデルを用いて、治療が結果に与える影響を学習する。 PCLは、同一性条件下での真の因果効果の回復を保証する。 深部ニューラルネットワークの特徴によって表現されるような,プロキシ,治療,結果が高次元かつ非線形な複雑な関係を持つ場合に対応するため,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。 DFPVは、高次元画像データを含む設定を含む、最近の最先端PCL法よりも高い性能を示すことを示す。 さらに, DFPV が競合性能を示す包括的バンディット問題に対して, PCL を非政治的評価に適用できることが示唆された。

Proxy causal learning (PCL) is a method for estimating the causal effect of treatments on outcomes in the presence of unobserved confounding, using proxies (structured side information) for the confounder. This is achieved via two-stage regression: in the first stage, we model relations among the treatment and proxies; in the second stage, we use this model to learn the effect of treatment on the outcome, given the context provided by the proxies. PCL guarantees recovery of the true causal effect, subject to identifiability conditions. We propose a novel method for PCL, the deep feature proxy variable method (DFPV), to address the case where the proxies, treatments, and outcomes are high-dimensional and have nonlinear complex relationships, as represented by deep neural network features. We show that DFPV outperforms recent state-of-the-art PCL methods on challenging synthetic benchmarks, including settings involving high dimensional image data. Furthermore, we show that PCL can be applied to off-policy evaluation for the confounded bandit problem, in which DFPV also exhibits competitive performance.
翻訳日:2024-06-20 05:50:01 公開日:2024-06-18
# カバレッジメッセージングのジェネレーティブモデルを活用する - "Dead-Drop"デプロイメントの課題とトレードオフ

Leveraging Generative Models for Covert Messaging: Challenges and Tradeoffs for "Dead-Drop" Deployments ( http://arxiv.org/abs/2110.07009v3 )

ライセンス: Link先を確認
Luke A. Bauer, James K. Howes IV, Sam A. Markelon, Vincent Bindschaedler, Thomas Shrimpton, (参考訳) 人為的コンテンツの芸術生成モデルの現状は、ステガノグラフィー通信におけるその利用を探求する最近の多くの論文の焦点となっている。 特に、自然言語テキストの生成モデル。 これらの処理は(非可逆的に)メッセージ転送ビットをモデルからサンプルのシーケンスにエンコードし、最終的には妥当な自然言語のカバーテキストを生成する。 この狭いステガノグラフに注目することで、それまでの作業は、その周りで実際にメッセージングパイプラインを構築しようとするときに発生する、重要なアルゴリズム上の課題やパフォーマンスとセキュリティのトレードオフをほとんど無視していました。 このようなパイプラインの自然な適用、すなわち、大規模でパブリックなインターネットプラットフォーム(ソーシャルメディアサイトなど)上での"デッドドロップ"な隠蔽メッセージングを考えることで、これらの課題を具体化します。 課題を解明し、それらを克服するためのアプローチを説明し、慎重に調整しなければならない重要なパフォーマンスとセキュリティのトレードオフのプロセスに目を向けます。 このモデルベースのフォーマット変換暗号化パイプラインにシステムを実装し、その性能と(ヒューリスティックな)セキュリティを実証分析する。

State of the art generative models of human-produced content are the focus of many recent papers that explore their use for steganographic communication. In particular, generative models of natural language text. Loosely, these works (invertibly) encode message-carrying bits into a sequence of samples from the model, ultimately yielding a plausible natural language covertext. By focusing on this narrow steganographic piece, prior work has largely ignored the significant algorithmic challenges, and performance-security tradeoffs, that arise when one actually tries to build a messaging pipeline around it. We make these challenges concrete, by considering the natural application of such a pipeline: namely, "dead-drop" covert messaging over large, public internet platforms (e.g. social media sites). We explicate the challenges and describe approaches to overcome them, surfacing in the process important performance and security tradeoffs that must be carefully tuned. We implement a system around this model-based format-transforming encryption pipeline, and give an empirical analysis of its performance and (heuristic) security.
翻訳日:2024-06-20 05:50:01 公開日:2024-06-18
# 漸進的近点法実装のための効率的なアルゴリズム

Efficient algorithms for implementing incremental proximal-point methods ( http://arxiv.org/abs/2205.01457v2 )

ライセンス: Link先を確認
Alex Shtoff, (参考訳) 各計算ステップにおけるトレーニングセットのごく一部を観測するモデルトレーニングアルゴリズムは、実践的な機械学習においてユビキタスであり、確率最適化とオンライン最適化の両方の方法を含んでいる。 ほとんどの場合、そのようなアルゴリズムは、通常、コスト関数の勾配を通してトレーニングサンプルを観察する。 したがって、これらの手法は1次近似によるコスト関数の傾きである。 確率的セッティングにおけるステップサイズ選択に対する感度や、オンラインセッティングにおける小さな関数変数の使用能力の欠如など、勾配に基づく手法の限界に対処するために、よく知られた近位演算子を介して、コスト関数に関するより多くの情報を活用するための研究のストリームがいくつかある。 しかし、そのような手法を実際に実装することは、各反復ステップが、近位演算子を計算することと沸騰するので、容易ではないかもしれないため、課題となる。 本研究では,研究論文における理論記述のギャップを減らし,近位演算子実装のアルゴリズム効率とソフトウェアモジュール性の両方を達成するために,凸双対理論を利用した新しいアルゴリズムフレームワークを考案する。 本稿では,オープンソースのライブラリとして,https://github.com/alexshtf/inc_prox_pt/releases/tag/prox_pt_paperで開発されたフレームワークのリファレンスPython実装について紹介する。 純粋なPythonリファレンス実装は必ずしも最も効率的なものではないが、Pythonとネイティブバックエンドを組み合わせることで効率的な実装を作成するための基盤である。

Model training algorithms which observe a small portion of the training set in each computational step are ubiquitous in practical machine learning, and include both stochastic and online optimization methods. In the vast majority of cases, such algorithms typically observe the training samples via the gradients of the cost functions the samples incur. Thus, these methods exploit are the slope of the cost functions via their first-order approximations. To address limitations of gradient-based methods, such as sensitivity to step-size choice in the stochastic setting, or inability to use small function variability in the online setting, several streams of research attempt to exploit more information about the cost functions than just their gradients via the well-known proximal operators. However, implementing such methods in practice poses a challenge, since each iteration step boils down to computing the proximal operator, which may not be easy. In this work we devise a novel algorithmic framework, which exploits convex duality theory to achieve both algorithmic efficiency and software modularity of proximal operator implementations, in order to make experimentation with incremental proximal optimization algorithms accessible to a larger audience of researchers and practitioners, by reducing the gap between their theoretical description in research papers and their use in practice. We provide a reference Python implementation for the framework developed in this paper as an open source library at on https://github.com/alexshtf/inc_prox_pt/releases/tag/prox_pt_paper, along with examples which demonstrate our implementation on a variety of problems, and reproduce the numerical experiments in this paper. The pure Python reference implementation is not necessarily the most efficient, but is a basis for creating efficient implementations by combining Python with a native backend.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-18
# 離散可変および連続可変量子鍵分布プロトコルと熱損失チャネルの位相雑音の比較

Comparison of Discrete Variable and Continuous Variable Quantum Key Distribution Protocols with Phase Noise in the Thermal-Loss Channel ( http://arxiv.org/abs/2206.13724v3 )

ライセンス: Link先を確認
Sebastian P. Kish, Patrick J. Gleeson, Angus Walsh, Ping Koy Lam, Syed M. Assad, (参考訳) 単一光子検出器とソースに基づく離散可変(DV)量子鍵分布(QKD)は、長距離安全な鍵分布に成功している。 一方、コヒーレント検出器とソースに基づく連続可変(CV)量子鍵分布(QKD)は現在、損失と耐雑音性の観点から遅れを取っている。 DV-QKDとCV-QKDとの間の重要な識別要因は位相ノイズの影響であり、CV-QKDにはより関係があることが知られている。 本稿では,DV-QKDおよびCV-QKDプロトコルに対する位相雑音の影響について検討する。 CV-QKDはDV-QKDに比べ,低相雑音では高い熱雑音では高い損失を許容できることがわかった。 また、秘密鍵レートをQKDの性能向上のための追加指標として比較する。 この量の要求は、CV-QKDがDV-QKDよりも優れた性能を発揮する領域を大きく拡張する。 本分析では,DV-QKDとCV-QKDの相ノイズがどう影響するか,熱損失チャネルにおいて従来より優れた性能を示したのか,という疑問に対処する。

Discrete-variable (DV) quantum key distribution (QKD) based on single-photon detectors and sources have been successfully deployed for long-range secure key distribution. On the other hand, continuous-variable (CV) quantum key distribution (QKD) based on coherent detectors and sources is currently lagging behind in terms of loss and noise tolerance. An important discerning factor between DV-QKD and CV-QKD is the effect of phase noise, which is known to be more relevant in CV-QKD. In this article, we investigate the effect of phase noise on DV-QKD and CV-QKD protocols, including the six-state protocol and squeezed-state protocol, in a thermal-loss channel but with the assumed availability of perfect sources and detectors. We find that in the low phase noise regime but high thermal noise regime, CV-QKD can tolerate more loss compared to DV-QKD. We also compare the secret key rate as an additional metric for the performance of QKD. Requirements for this quantity to be high vastly extend the regions at which CV-QKD performs better than DV-QKD. Our analysis addresses the questions of how phase noise affects DV-QKD and CV-QKD and why the former has historically performed better in a thermal-loss channel.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-18
# 学習した等価性を測定するためのリー導出剤

The Lie Derivative for Measuring Learned Equivariance ( http://arxiv.org/abs/2210.02984v2 )

ライセンス: Link先を確認
Nate Gruver, Marc Finzi, Micah Goldblum, Andrew Gordon Wilson, (参考訳) 等価性は、モデルの予測がデータのキー対称性をキャプチャすることを保証します。 画像が翻訳または回転されると、その画像の同変モデルの表現はそれに従って翻訳または回転する。 畳み込みニューラルネットワークの成功は、歴史的に彼らのアーキテクチャで直接符号化された翻訳等価性と結び付けられてきた。 ビジョントランスフォーマーの成功は、均等性に対する明確なアーキテクチャバイアスを持たないが、この物語に挑戦し、拡張とトレーニングデータも彼らのパフォーマンスに重要な役割を果たすかもしれないことを示唆している。 近年のビジョンモデルにおける等分散の役割をよりよく理解するために、強い数学的基礎と極小ハイパーパラメータで等分散を測定する方法であるリー微分を導入する。 リー微分を用いて、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。 分析の規模によって、アーキテクチャの影響を、モデルのサイズやトレーニング方法といった他の要因から切り離すことができます。 意外なことに、不等値の多くの違反は、点方向の非線形性のようなユビキタスネットワーク層における空間エイリアスと結びつくことができ、モデルがより大きく正確になるにつれて、アーキテクチャに関係なく、より等値性を示す傾向にある。 例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。

Equivariance guarantees that a model's predictions capture key symmetries in data. When an image is translated or rotated, an equivariant model's representation of that image will translate or rotate accordingly. The success of convolutional neural networks has historically been tied to translation equivariance directly encoded in their architecture. The rising success of vision transformers, which have no explicit architectural bias towards equivariance, challenges this narrative and suggests that augmentations and training data might also play a significant role in their performance. In order to better understand the role of equivariance in recent vision models, we introduce the Lie derivative, a method for measuring equivariance with strong mathematical foundations and minimal hyperparameters. Using the Lie derivative, we study the equivariance properties of hundreds of pretrained models, spanning CNNs, transformers, and Mixer architectures. The scale of our analysis allows us to separate the impact of architecture from other factors like model size or training method. Surprisingly, we find that many violations of equivariance can be linked to spatial aliasing in ubiquitous network layers, such as pointwise non-linearities, and that as models get larger and more accurate they tend to display more equivariance, regardless of architecture. For example, transformers can be more equivariant than convolutional neural networks after training.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-18
# コンシューマエッジAIコンピューティングの将来

The Future of Consumer Edge-AI Computing ( http://arxiv.org/abs/2210.10514v3 )

ライセンス: Link先を確認
Stefanos Laskaridis, Stylianos I. Venieris, Alexandros Kouris, Rui Li, Nicholas D. Lane, (参考訳) 過去10年間でDeep Learningは、主にデバイス間のハードウェアアクセラレーションによって、消費者のエンドに急速に浸透した。 しかし、今後の展望として、ハードウェアの分離が不十分であることは明らかである。 複雑なAIタスクは、共有リソース、デバイス間のコラボレーション、複数のデータタイプを、ユーザのプライバシやエクスペリエンスの質を損なうことなく要求する。 そこで我々は,コンシューマエッジにおける計算資源とデータアクセスの再編成と最適化を目的とした,EdgeAI-Hubデバイスを中心とした新しいパラダイムを導入する。 この目的のために、私たちは、オンデバイスから、コンシューマ環境におけるエッジAIサービスシステムへの移行のための、そのコンポーネント、構造、課題、機会を詳述する、包括的な基盤を構築しました。

In the last decade, Deep Learning has rapidly infiltrated the consumer end, mainly thanks to hardware acceleration across devices. However, as we look towards the future, it is evident that isolated hardware will be insufficient. Increasingly complex AI tasks demand shared resources, cross-device collaboration, and multiple data types, all without compromising user privacy or quality of experience. To address this, we introduce a novel paradigm centered around EdgeAI-Hub devices, designed to reorganise and optimise compute resources and data access at the consumer edge. To this end, we lay a holistic foundation for the transition from on-device to Edge-AI serving systems in consumer environments, detailing their components, structure, challenges and opportunities.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-18
# 2層市場におけるインセンティブ・アウェア・レコメンダシステム

Incentive-Aware Recommender Systems in Two-Sided Markets ( http://arxiv.org/abs/2211.15381v2 )

ライセンス: Link先を確認
Xiaowu Dai, Wenlu Xu, Yuan Qi, Michael I. Jordan, (参考訳) インターネット経済のオンラインプラットフォームは一般的に、製品(または「武器」)をユーザー(または「エージェント」)に推奨するレコメンデーターシステムを含んでいる。 この領域における重要な課題は、集団に有益な情報を集めるための様々な代替手段を探るのではなく、現在の情報に基づいて最適な腕を選択することによって、自然に活用にインセンティブを与えるミオピックエージェントから生じる。 本稿では,反復的相互作用における後悔によって測定された漸近的最適性能を達成しつつ,エージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。 当社のフレームワークは,このインセンティブを意識したシステムを,オンラインプラットフォーム上での推奨システムによってエージェントとアームのインタラクションが促進される,双方向市場におけるマルチエージェントバンディット問題としてモデル化する。 このモデルにはエージェントの機会コストによるインセンティブ制約が組み込まれている。 プラットフォームに機会コストが知られているシナリオでは、インセンティブ互換のレコメンデーションアルゴリズムの存在を示す。 このアルゴリズムは、ランダムで適応的な戦略を用いて、真に良い腕と未知の腕の間のレコメンデーションをプールする。 さらに、これらの機会コストが不明な場合には、戦略探索のフィードバックとして各アームからの累積損失を利用して、全アームにランダムにレコメンデーションをプールするアルゴリズムを導入する。 両アルゴリズムは, エージェントが過剰な露出から保護される, ポストフェアネス基準を満たすことを実証する。 提案されたアルゴリズムの使用と結果の再現に関するすべてのコードはGitHubで公開されている。

Online platforms in the Internet Economy commonly incorporate recommender systems that recommend products (or "arms") to users (or "agents"). A key challenge in this domain arises from myopic agents who are naturally incentivized to exploit by choosing the optimal arm based on current information, rather than exploring various alternatives to gather information that benefits the collective. We propose a novel recommender system that aligns with agents' incentives while achieving asymptotically optimal performance, as measured by regret in repeated interactions. Our framework models this incentive-aware system as a multi-agent bandit problem in two-sided markets, where the interactions of agents and arms are facilitated by recommender systems on online platforms. This model incorporates incentive constraints induced by agents' opportunity costs. In scenarios where opportunity costs are known to the platform, we show the existence of an incentive-compatible recommendation algorithm. This algorithm pools recommendations between a genuinely good arm and an unknown arm using a randomized and adaptive strategy. Moreover, when these opportunity costs are unknown, we introduce an algorithm that randomly pools recommendations across all arms, utilizing the cumulative loss from each arm as feedback for strategic exploration. We demonstrate that both algorithms satisfy an ex-post fairness criterion, which protects agents from over-exploitation. All code for using the proposed algorithms and reproducing results is made available on GitHub.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-18
# インコンテクスト学習に関する調査研究

A Survey on In-context Learning ( http://arxiv.org/abs/2301.00234v4 )

ライセンス: Link先を確認
Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Jingyuan Ma, Rui Li, Heming Xia, Jingjing Xu, Zhiyong Wu, Baobao Chang, Xu Sun, Lei Li, Zhifang Sui, (参考訳) 大規模言語モデル(LLM)の能力の増大に伴い、インコンテキスト学習(ICL)は自然言語処理(NLP)の新しいパラダイムとして登場し、LLMはいくつかの例で拡張されたコンテキストに基づいて予測を行う。 ICLを探索してLLMの能力を評価・外挿する重要な傾向である。 本稿では,ICLの進歩と課題を概観し,整理することを目的とする。 まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。 そこで我々は,訓練戦略,迅速な設計戦略,関連する分析など,高度な手法を整理し,議論する。 さらに、データエンジニアリングや知識更新など、さまざまなICLアプリケーションシナリオについても検討する。 最後に、ICLの課題に対処し、さらなる研究の方向性を提案する。 ICLがどのように機能し、ICLを改善するかについて、私たちの研究がより深く研究されることを願っています。

With the increasing capabilities of large language models (LLMs), in-context learning (ICL) has emerged as a new paradigm for natural language processing (NLP), where LLMs make predictions based on contexts augmented with a few examples. It has been a significant trend to explore ICL to evaluate and extrapolate the ability of LLMs. In this paper, we aim to survey and summarize the progress and challenges of ICL. We first present a formal definition of ICL and clarify its correlation to related studies. Then, we organize and discuss advanced techniques, including training strategies, prompt designing strategies, and related analysis. Additionally, we explore various ICL application scenarios, such as data engineering and knowledge updating. Finally, we address the challenges of ICL and suggest potential directions for further research. We hope that our work can encourage more research on uncovering how ICL works and improving ICL.
翻訳日:2024-06-20 05:43:26 公開日:2024-06-18
# 数値前処理による低ランクテンソル完備化のための一般化可能なフレームワーク

A generalizable framework for low-rank tensor completion with numerical priors ( http://arxiv.org/abs/2302.05881v5 )

ライセンス: Link先を確認
Shiran Yuan, Kaizhu Huang, (参考訳) テンソルの固有構造を利用するローランクテンソル完備化法は、テンソル完備化への効果的なアプローチとして広く研究されている。 このような手法は大きな成功を収めたが、テンソル要素の数値的先行性を活用することを体系的に検討することはなかった。 数値的な先行情報を無視すると、データに関する重要な情報が失われ、アルゴリズムが最適な精度に達するのを防ぐ。 特定のタスクに対するアドホックな数値先行を考慮に入れた個々の作品が存在するにもかかわらず、数値先行を組み込むための一般化可能な枠組みは現れていない。 本稿では、データの数値的先行を考慮に入れた、低ランクテンソル補完のための最初の一般化可能なフレームワークである一般化CP分解テンソル補完(GCDTC)フレームワークを提案する。 我々は、非負のテンソル完備化タスクにおいて、現在の最先端技術を上回る性能を持つGCDTCフレームワークのインスタンス化であるSmooth Poisson Tensor Completion (SPTC)アルゴリズムをさらに提案し、GCDTCの有効性を実証することによって、GCDTCをテストする。 私たちのコードはオープンソースです。

Low-Rank Tensor Completion, a method which exploits the inherent structure of tensors, has been studied extensively as an effective approach to tensor completion. Whilst such methods attained great success, none have systematically considered exploiting the numerical priors of tensor elements. Ignoring numerical priors causes loss of important information regarding the data, and therefore prevents the algorithms from reaching optimal accuracy. Despite the existence of some individual works which consider ad hoc numerical priors for specific tasks, no generalizable frameworks for incorporating numerical priors have appeared. We present the Generalized CP Decomposition Tensor Completion (GCDTC) framework, the first generalizable framework for low-rank tensor completion that takes numerical priors of the data into account. We test GCDTC by further proposing the Smooth Poisson Tensor Completion (SPTC) algorithm, an instantiation of the GCDTC framework, whose performance exceeds current state-of-the-arts by considerable margins in the task of non-negative tensor completion, exemplifying GCDTC's effectiveness. Our code is open-source.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 変分3次元物体検出による不確かさ認識AB3DMOT

Uncertainty-Aware AB3DMOT by Variational 3D Object Detection ( http://arxiv.org/abs/2302.05923v2 )

ライセンス: Link先を確認
Illia Oleksiienko, Alexandros Iosifidis, (参考訳) 自動運転は、世界の安全なナビゲーションを確保するために高品質な3Dオブジェクト検出に依存する必要がある。 不確実性推定は統計的に正確な予測を提供するための有効なツールであり、関連する検出不確実性はより安全なナビゲーションプロトコルの実装や、ユーザをループに含めるために使用することができる。 本稿では,変分ニューラルネットワークを用いたTANet 3Dオブジェクト検出器を提案し,不確実性のある3Dオブジェクト検出を実現し,不確実性を考慮したAB3DMOTトラッカーに導入する。 これは、推定された不確実性行列に線形変換を適用し、その後、採用したカルマンフィルタの測定ノイズとして使用される。 我々は、CNN出力の分散を計算し、後処理によって不確実性を伝播し、また、異なるサンプルの最終的な予測を関連付け、予測ボックスの共分散を計算することによって、出力不確実性を内部的に推定する2つの方法を実装した。 実験では,外的不確実性推定は,内部不確実性推定と古典的追跡手法の両方より優れた結果をもたらすことを示した。 さらに, 事前訓練されたTANetモデルを用いて, 変動型3次元物体検出器を初期化する手法を提案する。

Autonomous driving needs to rely on high-quality 3D object detection to ensure safe navigation in the world. Uncertainty estimation is an effective tool to provide statistically accurate predictions, while the associated detection uncertainty can be used to implement a more safe navigation protocol or include the user in the loop. In this paper, we propose a Variational Neural Network-based TANet 3D object detector to generate 3D object detections with uncertainty and introduce these detections to an uncertainty-aware AB3DMOT tracker. This is done by applying a linear transformation to the estimated uncertainty matrix, which is subsequently used as a measurement noise for the adopted Kalman filter. We implement two ways to estimate output uncertainty, i.e., internally, by computing the variance of the CNN outputs and then propagating the uncertainty through the post-processing, and externally, by associating the final predictions of different samples and computing the covariance of each predicted box. In experiments, we show that the external uncertainty estimation leads to better results, outperforming both internal uncertainty estimation and classical tracking approaches. Furthermore, we propose a method to initialize the Variational 3D object detector with a pretrained TANet model, which leads to the best performing models.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# ばらつきスパースベイジアン四分法を用いた高速プロセス後のベイジアン推論

Fast post-process Bayesian inference with Variational Sparse Bayesian Quadrature ( http://arxiv.org/abs/2303.05263v2 )

ライセンス: Link先を確認
Chengkun Li, Grégoire Clarté, Martin Jørgensen, Luigi Acerbi, (参考訳) ベイズ推定の応用シナリオでは、ユーザーが既存のモデル評価にアクセスできることがある。 しかし、従来の近似推論技術はこの情報をほとんど利用しない。 本稿では,既存の目標密度評価から高速な後続近似を求める手法として,プロセス後ベイズ推定の枠組みを提案する。 この枠組みでは,ブラックボックスと潜在的ノイズの可能性のあるモデルに対して,プロセス後近似推定法である変分スパースベイズ近似(VSBQ)を導入する。 VSBQは、既存の目標密度評価を再利用し、ログ後密度関数のスパースガウス過程(GP)シュロゲートモデルを構築する。 その後,スパースGPベイズ二次構造と変分推論を併用し,サロゲート上での高速な近似後部推論を実現する。 本手法は,計算神経科学による難解な合成シナリオと実世界の応用について検証する。 実験の結果、VSBQは既存の最適化トレースを後処理することで高品質な後部近似を構築し、さらなるモデル評価は行わないことがわかった。

In applied Bayesian inference scenarios, users may have access to a large number of pre-existing model evaluations, for example from maximum-a-posteriori (MAP) optimization runs. However, traditional approximate inference techniques make little to no use of this available information. We propose the framework of post-process Bayesian inference as a means to obtain a quick posterior approximation from existing target density evaluations, with no further model calls. Within this framework, we introduce Variational Sparse Bayesian Quadrature (VSBQ), a method for post-process approximate inference for models with black-box and potentially noisy likelihoods. VSBQ reuses existing target density evaluations to build a sparse Gaussian process (GP) surrogate model of the log posterior density function. Subsequently, we leverage sparse-GP Bayesian quadrature combined with variational inference to achieve fast approximate posterior inference over the surrogate. We validate our method on challenging synthetic scenarios and real-world applications from computational neuroscience. The experiments show that VSBQ builds high-quality posterior approximations by post-processing existing optimization traces, with no further model evaluations.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 直交多様体の積に関するガウス過程

Gaussian Process on the Product of Directional Manifolds ( http://arxiv.org/abs/2303.06799v3 )

ライセンス: Link先を確認
Ziyu Cao, Kailai Li, (参考訳) 配向多様体の積に対する入力を伴うガウス過程(GP)の定義に関する原理的な研究を提案する。 円核はフォン・ミーゼス分布に従って初めて提示される。 そこで, ハイパートロイダルフォン・ミゼス (HvM) カーネルは, 相関する円成分を考慮し, ハイパートリ上でGPを確立するために提案されている。 提案するHvMカーネルは, 固有コリージョン化モデルを用いて, ハイパートリ上でベクトル値関数を学習するための多出力GP回帰を用いて実証する。 ランタイムクリティカルなアプリケーションに対して、ハイパーパラメータ最適化のための分析微分が提供される。 評価のために、レンジベースのセンサネットワークを合成し、HvMベースのGPをデータ駆動再帰的ローカライゼーションに活用する。 計算結果から,HvMベースのGPは従来のカーネル設計のパラメトリックモデルやGPよりも優れた追従精度が得られることがわかった。

We present a principled study on defining Gaussian processes (GPs) with inputs on the product of directional manifolds. A circular kernel is first presented according to the von Mises distribution. Based thereon, the hypertoroidal von Mises (HvM) kernel is proposed to establish GPs on hypertori with consideration of correlated circular components. The proposed HvM kernel is demonstrated with multi-output GP regression for learning vector-valued functions on hypertori using the intrinsic coregionalization model. Analytic derivatives for hyperparameter optimization are provided for runtime-critical applications. For evaluation, we synthesize a ranging-based sensor network and employ the HvM-based GPs for data-driven recursive localization. Numerical results show that the HvM-based GP achieves superior tracking accuracy compared to parametric model and GPs of conventional kernel designs.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 基準分解モデルの一般化をめざす課題:測定モデリングの視点から

Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective ( http://arxiv.org/abs/2303.09092v2 )

ライセンス: Link先を確認
Ian Porada, Alexandra Olteanu, Kaheer Suleman, Adam Trischler, Jackie Chi Kit Cheung, (参考訳) 複数のデータセット上で同じコア参照解決(CR)モデルを評価することは、ますます一般的になっている。 これらのマルチデータセット評価により、モデル一般化に関する有意義な結論を導き出せるだろうか? あるいは、特定の実験的なセットアップ(例えば、使用する特定のデータセット)の慣用的な同期を反映するのでしょうか? そこで本研究では,測定の妥当性を解析するために社会科学でよく用いられるフレームワークである計測モデリングのレンズを通して評価を行う。 この観点から, マルチデータセット評価が, 正確に測定されている要因を混在させる危険性を示す。 これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。 例えば、7つのデータセットにまたがって、CRモデルの一般化を反映した測定は、コア参照の定義方法と、それがどのように運用されるかの差異とよく相関している。 測定モデルフレームワークはCR評価によって実際に測定されているものを取り巻く課題を議論するために必要な語彙を提供すると考えている。

It is increasingly common to evaluate the same coreference resolution (CR) model on multiple datasets. Do these multi-dataset evaluations allow us to draw meaningful conclusions about model generalization? Or, do they rather reflect the idiosyncrasies of a particular experimental setup (e.g., the specific datasets used)? To study this, we view evaluation through the lens of measurement modeling, a framework commonly used in the social sciences for analyzing the validity of measurements. By taking this perspective, we show how multi-dataset evaluations risk conflating different factors concerning what, precisely, is being measured. This in turn makes it difficult to draw more generalizable conclusions from these evaluations. For instance, we show that across seven datasets, measurements intended to reflect CR model generalization are often correlated with differences in both how coreference is defined and how it is operationalized; this limits our ability to draw conclusions regarding the ability of CR models to generalize across any singular dimension. We believe the measurement modeling framework provides the needed vocabulary for discussing challenges surrounding what is actually being measured by CR evaluations.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 正規化に基づく連続学習の固定設計解析

Fixed Design Analysis of Regularization-Based Continual Learning ( http://arxiv.org/abs/2303.10263v2 )

ライセンス: Link先を確認
Haoran Li, Jingfeng Wu, Vladimir Braverman, (参考訳) 固定設計における2つの線形回帰タスクを持つ連続学習(CL)問題について考察し,特徴ベクトルを仮定し,ラベルをランダム変数と仮定する。 通常の最小二乗パラメータを計算して第1のデータセットに適合させ、次に第2のデータセットに適合する別のパラメータを$\ell_2$-regularized CLアルゴリズムで計算し、第1のパラメータからの偏差を補償する$\ell_2$-regularized CLアルゴリズムを検討し、第2のパラメータを出力する。 このアルゴリズムでは,2つのタスクの平均リスクに厳密な制約を与える。 我々のリスクバウンダリは、$\ell_2$-regularized CLアルゴリズムの無視と非透過性の間の証明可能なトレードオフを明らかにします。 以上の結果から,異なるタスク(正確な類似度測定の下で)を持つCLに対して破滅的忘れが生じる可能性が示唆され,よく調整された$\ell_2$-regularizationは,非透過性を導入することで,この問題を部分的に軽減できる可能性が示唆された。

We consider a continual learning (CL) problem with two linear regression tasks in the fixed design setting, where the feature vectors are assumed fixed and the labels are assumed to be random variables. We consider an $\ell_2$-regularized CL algorithm, which computes an Ordinary Least Squares parameter to fit the first dataset, then computes another parameter that fits the second dataset under an $\ell_2$-regularization penalizing its deviation from the first parameter, and outputs the second parameter. For this algorithm, we provide tight bounds on the average risk over the two tasks. Our risk bounds reveal a provable trade-off between forgetting and intransigence of the $\ell_2$-regularized CL algorithm: with a large regularization parameter, the algorithm output forgets less information about the first task but is intransigent to extract new information from the second task; and vice versa. Our results suggest that catastrophic forgetting could happen for CL with dissimilar tasks (under a precise similarity measurement) and that a well-tuned $\ell_2$-regularization can partially mitigate this issue by introducing intransigence.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 知識グラフの実践 - ユーザの特徴,課題,可視化の可能性

Knowledge Graphs in Practice: Characterizing their Users, Challenges, and Visualization Opportunities ( http://arxiv.org/abs/2304.01311v4 )

ライセンス: Link先を確認
Harry Li, Gabriel Appleby, Camelia Daniela Brumar, Remco Chang, Ashley Suh, (参考訳) 本研究は、企業と学術の両方で幅広いユースケースで働いている19人の知識グラフ実践者へのインタビューから得られた知見を提示する。 本研究では,視覚的デザインによって緩和できるKGの作成,探索,分析において,KG実践者が経験した重要な課題を明らかにする。 調査の結果、KGの実践者のうち、KGビルダー、アナリスト、消費者の3人がそれぞれ独自の専門知識とニーズを持っていることが明らかとなった。 我々は、KGビルダーがスキーマインクルーダーの恩恵を受けることを発見した。一方、KGアナリストは、中間クエリ結果を提供するカスタマイズ可能なクエリビルダーが必要である。 KGコンシューマーにとって、ノードリンク図の有効性の欠如と、KGの採用と理解を促進するために、ドメイン固有の視覚化をカスタマイズする必要がある。 最後に、KGを効果的に実践するには、現在のツールや技術、コラボレーションワークフローに対処しない、技術的および社会的ソリューションの両方が必要です。 インタビューの分析から,消化可能性と発見可能性のバランスをとる知識カード,時間的変化を追跡するタイムラインビュー,有機的発見をサポートするインターフェース,AIと機械学習予測のセマンティック説明など,KGのユーザビリティ向上のための可視化研究の方向性を抽出した。

This study presents insights from interviews with nineteen Knowledge Graph (KG) practitioners who work in both enterprise and academic settings on a wide variety of use cases. Through this study, we identify critical challenges experienced by KG practitioners when creating, exploring, and analyzing KGs that could be alleviated through visualization design. Our findings reveal three major personas among KG practitioners - KG Builders, Analysts, and Consumers - each of whom have their own distinct expertise and needs. We discover that KG Builders would benefit from schema enforcers, while KG Analysts need customizable query builders that provide interim query results. For KG Consumers, we identify a lack of efficacy for node-link diagrams, and the need for tailored domain-specific visualizations to promote KG adoption and comprehension. Lastly, we find that implementing KGs effectively in practice requires both technical and social solutions that are not addressed with current tools, technologies, and collaborative workflows. From the analysis of our interviews, we distill several visualization research directions to improve KG usability, including knowledge cards that balance digestibility and discoverability, timeline views to track temporal changes, interfaces that support organic discovery, and semantic explanations for AI and machine learning predictions.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# ChatLog: ChatGPTの時間的進化を慎重に評価する

ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time ( http://arxiv.org/abs/2304.14106v2 )

ライセンス: Link先を確認
Shangqing Tu, Chunyang Li, Jifan Yu, Xiaozhi Wang, Lei Hou, Juanzi Li, (参考訳) ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。 ChatGPTをベンチマークで評価する作業は豊富です。 しかし,既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。 本稿では,2023年3月から現在までの21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録するChatLogを構築した。 そこで我々は,ChatGPTの能力はある程度の能力を除いて時間とともに向上し,段階的に進化するChatGPTパターンが存在することを確認するため,総合的な性能評価を行う。 さらに、知識と言語的特徴を抽出し、ChatGPTの本質的特徴を分析する。 そこで我々は,ChatGPT生成したテキストの検出に変化のない安定な機能を適用して,クロスバージョン検出の堅牢性を向上させる。 当社のプロジェクトは,今後も継続して,‘url{https://github.com/THU-KEG/ChatLog/}’でメンテナンスします。

ChatGPT has achieved great success and can be considered to have acquired an infrastructural status. There are abundant works for evaluating ChatGPT on benchmarks. However, existing benchmarks encounter two challenges: (1) Disregard for periodical evaluation and (2) Lack of fine-grained features. In this paper, we construct ChatLog, an ever-updating dataset with large-scale records of diverse long-form ChatGPT responses for 21 NLP benchmarks from March, 2023 to now. We conduct a comprehensive performance evaluation to find that most capabilities of ChatGPT improve over time except for some abilities, and there exists a step-wise evolving pattern of ChatGPT. We further analyze the inherent characteristics of ChatGPT by extracting the knowledge and linguistic features. We find some stable features that stay unchanged and apply them on the detection of ChatGPT-generated texts to improve the robustness of cross-version detection. We will continuously maintain our project at \url{https://github.com/THU-KEG/ChatLog/}.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# LMPT:ロングテールマルチラベル視覚認識のためのクラス別埋め込み損失を用いたプロンプトチューニング

LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual Recognition ( http://arxiv.org/abs/2305.04536v2 )

ライセンス: Link先を確認
Peng Xia, Di Xu, Ming Hu, Lie Ju, Zongyuan Ge, (参考訳) ラベル共起と不均衡なデータ分布のため,Long-tailed Multi-label visual recognition (LTML) タスクは極めて困難なタスクである。 本研究は,クラス固有の埋め込み損失(LMPT)を迅速にチューニングし,テキストと画像のモダリティデータを組み合わせてカテゴリ間の意味的特徴の相互作用を捉え,頭と尾の両方のパフォーマンスを同期的に改善する,LTMLの統一フレームワークを提案する。 具体的には、LMPTは、クラスを意識したソフトマージンと再重み付けを備えた埋め込み損失関数を導入し、テキスト記述(キャプション)によってクラス固有のコンテキストを学習し、特に頭と尾のクラス間のセマンティックな関係を確立するのに役立つ。 さらに、クラス不均衡を考慮に入れ、分布バランス損失を分類損失関数として採用し、ヘッドクラスを損なうことなくテールクラスの性能をさらに向上させる。 VOC-LTとCOCO-LTのデータセットを用いて大規模な実験を行い、この手法が従来の最先端手法やLTMLのゼロショットCLIPを大きく上回っていることを示す。 私たちのコードはhttps://github.com/richard-peng-xia/LMPTで完全に公開されています。

Long-tailed multi-label visual recognition (LTML) task is a highly challenging task due to the label co-occurrence and imbalanced data distribution. In this work, we propose a unified framework for LTML, namely prompt tuning with class-specific embedding loss (LMPT), capturing the semantic feature interactions between categories by combining text and image modality data and improving the performance synchronously on both head and tail classes. Specifically, LMPT introduces the embedding loss function with class-aware soft margin and re-weighting to learn class-specific contexts with the benefit of textual descriptions (captions), which could help establish semantic relationships between classes, especially between the head and tail classes. Furthermore, taking into account the class imbalance, the distribution-balanced loss is adopted as the classification loss function to further improve the performance on the tail classes without compromising head classes. Extensive experiments are conducted on VOC-LT and COCO-LT datasets, which demonstrates that our method significantly surpasses the previous state-of-the-art methods and zero-shot CLIP in LTML. Our codes are fully public at https://github.com/richard-peng-xia/LMPT.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 音声技術におけるプライバシー

Privacy in Speech Technology ( http://arxiv.org/abs/2305.05227v2 )

ライセンス: Link先を確認
Tom Bäckström, (参考訳) コミュニケーション,情報アクセス,サービスのための音声技術は,品質が急速に向上した。 音声が人間にとってのコミュニケーションの第一の手段であるため、便利で魅力的である。 しかし、そのような技術は、プライバシーに対する実証済みの脅威も提示する。 音声はコミュニケーションのためのツールであり、そのために本質的にはプライベート情報を含んでいる。 重要なことに、健康、感情、友情、関係関係など、すべて私的な情報も豊富に含まれている。 このような個人情報の公開は、価格暴行、ハラスメント、ゆがみ、ストーカーといった深刻な脅威につながる可能性がある。 本稿では,音声技術に関するプライバシー問題,脅威のモデル化,ユーザのプライバシ保護へのアプローチ,プライバシ保護手法の性能評価,プライバシの認識,社会的および法的影響について論じる。 チュートリアルの概要に加えて、改善が緊急に必要となる、さらなる開発のためのラインも提示されている。

Speech technology for communication, accessing information and services has rapidly improved in quality. It is convenient and appealing because speech is the primary mode of communication for humans. Such technology however also presents proven threats to privacy. Speech is a tool for communication and it will thus inherently contain private information. Importantly, it however also contains a wealth of side information, such as information related to health, emotions, affiliations, and relationships, all of which are private. Exposing such private information can lead to serious threats such as price gouging, harassment, extortion, and stalking. This paper is a tutorial on privacy issues related to speech technology, modeling their threats, approaches for protecting users' privacy, measuring the performance of privacy-protecting methods, perception of privacy as well as societal and legal consequences. In addition to a tutorial overview, it also presents lines for further development where improvements are most urgently needed.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 地中エネルギー最適化のためのエントロピー制約

Entropy Constraints for Ground Energy Optimization ( http://arxiv.org/abs/2305.06855v2 )

ライセンス: Link先を確認
Hamza Fawzi, Omar Fawzi, Samuel O. Scalet, (参考訳) 量子多体系の基底エネルギーに対する下界を求めるために,フォン・ノイマンエントロピー制約を用いることを検討した。 基底エネルギー上の証明を得るための既知の方法は、典型的には局所可観測物の一貫性を使用し、半定値プログラミング緩和として表現される。 そのような緩和によって定義される局所境界は、必ずしも大域状態の存在から続くエントロピーの不等式を満たすとは限らない。 ここでは, 地中エネルギー問題に対して, より厳密な凸緩和をもたらすようなエントロピー制約を加えることを提案する。 このようなエントロピー制約の利点を示す解析的および数値的な結果を与える。 また、構成するエントロピー制約の制限も示しており、それらは緩和中の点の数を2倍にすることで示され、その結果、変数の行列サイズの観点から2次的に改善できる。 マルコフエントロピー分解法(マルコフエントロピー分解法)と呼ばれる自由エネルギーの近似法について説明する。

We study the use of von Neumann entropy constraints for obtaining lower bounds on the ground energy of quantum many-body systems. Known methods for obtaining certificates on the ground energy typically use consistency of local observables and are expressed as semidefinite programming relaxations. The local marginals defined by such a relaxation do not necessarily satisfy entropy inequalities that follow from the existence of a global state. Here, we propose to add such entropy constraints that lead to tighter convex relaxations for the ground energy problem. We give analytical and numerical results illustrating the advantages of such entropy constraints. We also show limitations of the entropy constraints we construct: they are implied by doubling the number of sites in the relaxation and as a result they can at best lead to a quadratic improvement in terms of the matrix sizes of the variables. We explain the relation to a method for approximating the free energy known as the Markov Entropy Decomposition method.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# クラウドをスムースにするか、ピンダウンするか: 拡散モデルにおけるスコアマッチングの保証と考察

To smooth a cloud or to pin it down: Guarantees and Insights on Score Matching in Denoising Diffusion Models ( http://arxiv.org/abs/2305.09605v2 )

ライセンス: Link先を確認
Francisco Vargas, Teodora Reu, Anna Kerekes, (参考訳) 微分拡散モデル(Denoising diffusion model)は、最近多くの領域で最先端の結果を得た生成モデルのクラスである。 拡散過程を用いてデータに経時雑音を付加し、データ分布をガウス変換する。 生成モデルからのサンプルは、ガウスサンプルによって初期化されたこの拡散の時間反転の近似をシミュレートすることによって得られる。 近年,サンプリングおよび推論タスクの適応拡散モデルについて検討している。 本稿では,F\-ollmerドリフトに類似した確率的制御への既知の接続を利用して,F\-ollmerドリフトの確立したニューラルネットワーク近似結果を拡張し,拡散モデルとサンプリング器をデノナイズする。

Denoising diffusion models are a class of generative models which have recently achieved state-of-the-art results across many domains. Gradual noise is added to the data using a diffusion process, which transforms the data distribution into a Gaussian. Samples from the generative model are then obtained by simulating an approximation of the time reversal of this diffusion initialized by Gaussian samples. Recent research has explored adapting diffusion models for sampling and inference tasks. In this paper, we leverage known connections to stochastic control akin to the F\"ollmer drift to extend established neural network approximation results for the F\"ollmer drift to denoising diffusion models and samplers.
翻訳日:2024-06-20 05:33:24 公開日:2024-06-18
# 関連知識を用いた品質評価の文脈化

Contextualizing Argument Quality Assessment with Relevant Knowledge ( http://arxiv.org/abs/2305.12280v3 )

ライセンス: Link先を確認
Darshan Deshpande, Zhivar Sourati, Filip Ilievski, Fred Morstatter, (参考訳) 議論の質を自動評価することは、誤情報やターゲットスピーチに重要な意味を持つ課題として認識されている。 実世界の議論は文脈において厳密に固定されているが、既存の計算手法は、それらの精度と一般化性に影響を与える、その品質を分離して分析する。 本稿では,関連知識による文脈化に基づく議論品質評価手法であるSPARKを提案する。 我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。 SPARKはデュアルエンコーダトランスフォーマーアーキテクチャを使用して、元の引数とその拡張を共同で検討できるようにする。 ドメイン内設定とゼロショット設定の両方の実験では、SPARKは複数のメトリクスで既存の技術よりも一貫して優れています。

Automatic assessment of the quality of arguments has been recognized as a challenging task with significant implications for misinformation and targeted speech. While real-world arguments are tightly anchored in context, existing computational methods analyze their quality in isolation, which affects their accuracy and generalizability. We propose SPARK: a novel method for scoring argument quality based on contextualization via relevant knowledge. We devise four augmentations that leverage large language models to provide feedback, infer hidden assumptions, supply a similar-quality argument, or give a counter-argument. SPARK uses a dual-encoder Transformer architecture to enable the original argument and its augmentation to be considered jointly. Our experiments in both in-domain and zero-shot setups show that SPARK consistently outperforms existing techniques across multiple metrics.
翻訳日:2024-06-20 05:33:23 公開日:2024-06-18
# 持続的ホモロジーを用いたテキスト埋め込みのクラス分離性の推定

Estimating class separability of text embeddings with persistent homology ( http://arxiv.org/abs/2305.15016v4 )

ライセンス: Link先を確認
Kostis Gourgoulias, Najah Ghalyan, Maxime Labonne, Yash Satsangi, Sean Moran, Joseph Sabelja, (参考訳) 本稿では、トポロジ的観点からテキストデータセットのクラス分離性を推定する教師なし手法を提案する。 持続的ホモロジーを用いて、学習中の埋め込み多様体の進化の追跡がクラス分離性についてどのように情報を与えるかを示す。 より具体的には、この手法が、トレーニングプロセスが埋め込みの分離性を改善するのをやめたときにどのように適用できるかを示す。 その結果,本手法のクラス分離性の推定値と教師付き手法のクラス分離性の推定値が一致していることが示唆された。 このアプローチは、特にラベル付きデータが不足しているシナリオにおいて、分類タスクのための文変換器の微調整の監視と改善に関する新しい視点を提供する。 また、これらの量を追跡することで、トレーニング済みの分類器の特性に関するさらなる洞察が得られるかについても論じる。

This paper introduces an unsupervised method to estimate the class separability of text datasets from a topological point of view. Using persistent homology, we demonstrate how tracking the evolution of embedding manifolds during training can inform about class separability. More specifically, we show how this technique can be applied to detect when the training process stops improving the separability of the embeddings. Our results, validated across binary and multi-class text classification tasks, show that the proposed method's estimates of class separability align with those obtained from supervised methods. This approach offers a novel perspective on monitoring and improving the fine-tuning of sentence transformers for classification tasks, particularly in scenarios where labeled data is scarce. We also discuss how tracking these quantities can provide additional insights into the properties of the trained classifier.
翻訳日:2024-06-20 05:33:23 公開日:2024-06-18
# 高次活性化関数を持つバロン空間間の埋め込み

Embeddings between Barron spaces with higher order activation functions ( http://arxiv.org/abs/2305.15839v2 )

ライセンス: Link先を確認
Tjeerd Jan Heeringa, Len Spek, Felix Schwenninger, Christoph Brune, (参考訳) 無限に広い浅層ニューラルネットワークの近似特性は、活性化関数の選択に大きく依存する。 この影響を理解するために、異なる活性化関数を持つバロン空間間の埋め込みについて検討する。 これらの埋め込みは、関数の$f$を表すために使われる$\mu$に関するプッシュフォワードマップを提供することによって証明される。 特定の利害関係の活性化関数は、$\operatorname{RePU}_s(x)=\max(0,x)^s$ によって与えられる整流電力単位 ("\operatorname{RePU}$) である。 多くのよく使われる活性化函数に対して、テイラー剰余定理(英語版)はプッシュフォワード写像(英語版)(push-forward map)を構築するのに使えるので、活性化函数として$\operatorname{RePU}$のバロン空間への関連するバロン空間の埋め込みを証明できる。 さらに、$\operatorname{RePU}_s$ に関連するバロン空間は、ソボレフ空間 $H^m$ と同様の階層構造を持つ。

The approximation properties of infinitely wide shallow neural networks heavily depend on the choice of the activation function. To understand this influence, we study embeddings between Barron spaces with different activation functions. These embeddings are proven by providing push-forward maps on the measures $\mu$ used to represent functions $f$. An activation function of particular interest is the rectified power unit ($\operatorname{RePU}$) given by $\operatorname{RePU}_s(x)=\max(0,x)^s$. For many commonly used activation functions, the well-known Taylor remainder theorem can be used to construct a push-forward map, which allows us to prove the embedding of the associated Barron space into a Barron space with a $\operatorname{RePU}$ as activation function. Moreover, the Barron spaces associated with the $\operatorname{RePU}_s$ have a hierarchical structure similar to the Sobolev spaces $H^m$.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# 骨格に基づく行動認識のための高性能推論グラフ畳み込みネットワーク

High-Performance Inference Graph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2305.18710v2 )

ライセンス: Link先を確認
Ziao Li, Junyi Wang, Bangli Liu, Haibin Cai, Mohamad Saada, Qinggang Meng, (参考訳) 近年,グラフ畳み込みネットワーク(GCN)の出現に伴い,骨格に基づく人間の行動認識において重要な成果が得られた。 しかし、このタスクで使用される最新技術(SOTA)モデルは、スケルトン情報を記述するために関節ノード間のより複雑な高次接続を構築することに焦点を当て、複雑な推論プロセスと高い計算コストをもたらす。 過度に複雑なモデル構造によって引き起こされる遅い推論速度に対処するため、GCNに再パラメータ化と過パラメータ化技術を導入し、HPI-GCN-RPとHPI-GCN-OPという2つの新しい高性能推論GCNを提案する。 モデルトレーニングが完了すると、モデルパラメータが固定される。 HPI-GCN-RPは、線形変換により高速な推論モデルに高速な推論モデルに変換する再パラメータ化手法を採用し、競合モデルの性能と高い推論速度を実現する。 HPI-GCN-OPはさらに過パラメータ化技術を利用して、推論速度がわずかに低下しているにもかかわらず、追加の推論パラメータを導入することにより、より高いパフォーマンス向上を実現する。 2つの骨格に基づく行動認識データセットの実験結果から,本手法の有効性が示された。 我々のHPI-GCN-OPは、現在のSOTAモデルに匹敵する性能を達成し、推論速度は5倍高速である。 具体的には,我々のHPI-GCN-OPは,NTU-RGB+D 60データセットのクロスオブジェクト分割で93%,NTU-RGB+D 120データセットのクロスオブジェクトベンチマークで90.1%の精度を実現している。 コードはgithub.com/lizaowo/HPI-GCNで入手できる。

Recently, the significant achievements have been made in skeleton-based human action recognition with the emergence of graph convolutional networks (GCNs). However, the state-of-the-art (SOTA) models used for this task focus on constructing more complex higher-order connections between joint nodes to describe skeleton information, which leads to complex inference processes and high computational costs. To address the slow inference speed caused by overly complex model structures, we introduce re-parameterization and over-parameterization techniques to GCNs and propose two novel high-performance inference GCNs, namely HPI-GCN-RP and HPI-GCN-OP. After the completion of model training, model parameters are fixed. HPI-GCN-RP adopts re-parameterization technique to transform high-performance training model into fast inference model through linear transformations, which achieves a higher inference speed with competitive model performance. HPI-GCN-OP further utilizes over-parameterization technique to achieve higher performance improvement by introducing additional inference parameters, albeit with slightly decreased inference speed. The experimental results on the two skeleton-based action recognition datasets demonstrate the effectiveness of our approach. Our HPI-GCN-OP achieves performance comparable to the current SOTA models, with inference speeds five times faster. Specifically, our HPI-GCN-OP achieves an accuracy of 93\% on the cross-subject split of the NTU-RGB+D 60 dataset, and 90.1\% on the cross-subject benchmark of the NTU-RGB+D 120 dataset. Code is available at github.com/lizaowo/HPI-GCN.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# GaitGS: 歩行認識のための粒度とスパン次元の時間的特徴学習

GaitGS: Temporal Feature Learning in Granularity and Span Dimension for Gait Recognition ( http://arxiv.org/abs/2305.19700v3 )

ライセンス: Link先を確認
Haijun Xiong, Yunze Deng, Bin Feng, Xinggang Wang, Wenyu Liu, (参考訳) 生物学的認識技術の発達する分野である歩行認識は、正確な個人識別のために異なる歩行パターンを利用する。 しかし,既存の手法には時間情報の導入が欠如している。 歩行認識の可能性を最大限に発揮するために,様々な粒度・幅の時間的特徴を考慮した検討を提唱する。 本稿では,時間的特徴を粒度とスパン次元の両方で同時に集約する新しいフレームワークであるGaitGSを紹介する。 具体的には、Multi-Granularity Feature Extractor (MGFE) は、微動情報とマクロモーション情報をそれぞれ微動レベルと粗いレベルでキャプチャするために設計され、Multi-Span Feature Extractor (MSFE) は局所的および大域的時間的表現を生成する。 2つのデータセットに関する広範な実験を通じて、我々の手法は最先端の性能を示し、CASIA-Bでは98.2%、96.5%、89.7%、OU-MVLPでは97.6%である。 ソースコードはhttps://github.com/Haijun-Xiong/GaitGSで入手できる。

Gait recognition, a growing field in biological recognition technology, utilizes distinct walking patterns for accurate individual identification. However, existing methods lack the incorporation of temporal information. To reach the full potential of gait recognition, we advocate for the consideration of temporal features at varying granularities and spans. This paper introduces a novel framework, GaitGS, which aggregates temporal features simultaneously in both granularity and span dimensions. Specifically, the Multi-Granularity Feature Extractor (MGFE) is designed to capture micro-motion and macro-motion information at fine and coarse levels respectively, while the Multi-Span Feature Extractor (MSFE) generates local and global temporal representations. Through extensive experiments on two datasets, our method demonstrates state-of-the-art performance, achieving Rank-1 accuracy of 98.2%, 96.5%, and 89.7% on CASIA-B under different conditions, and 97.6% on OU-MVLP. The source code will be available at https://github.com/Haijun-Xiong/GaitGS.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# 推薦のための大規模言語モデルに関する調査

A Survey on Large Language Models for Recommendation ( http://arxiv.org/abs/2305.19860v5 )

ライセンス: Link先を確認
Likang Wu, Zhi Zheng, Zhaopeng Qiu, Hao Wang, Hongchao Gu, Tingjia Shen, Chuan Qin, Chen Zhu, Hengshu Zhu, Qi Liu, Hui Xiong, Enhong Chen, (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場し、最近ではレコメンデーションシステム(RS)の領域で注目されている。 これらのモデルは、自己教師付き学習を用いて大量のデータに基づいて訓練され、普遍的な表現の学習において顕著な成功を示し、微調整や即時チューニングなどの効果的な伝達技術によって、推薦システムの様々な側面を強化する可能性がある。 推薦品質を高めるために言語モデルのパワーを活用する上で重要な側面は、高品質なテキスト特徴表現の利用と、アイテムとユーザ間の相関関係を確立するための外部知識の広範なカバレッジである。 既存のLLMに基づくレコメンデーションシステムを総合的に理解するため,本調査では,これらのモデルを,それぞれDLLM4レコメンデーション(DLLM)とGLLM4レコメンデーション(GLLM4レコメンデーション)の2つの主要なパラダイムに分類する分類法を提案する。 さらに,各パラダイム内の既存のLCMベースのレコメンデーションシステムを体系的にレビューし,分析し,その方法論,技術,性能について考察する。 さらに、研究者や実践者にインスピレーションを与えるために、重要な課題といくつかの貴重な発見を特定します。 また、レコメンデーションのためにLLMに関する関連書類をインデックスするGitHubリポジトリも作成しました。

Large Language Models (LLMs) have emerged as powerful tools in the field of Natural Language Processing (NLP) and have recently gained significant attention in the domain of Recommendation Systems (RS). These models, trained on massive amounts of data using self-supervised learning, have demonstrated remarkable success in learning universal representations and have the potential to enhance various aspects of recommendation systems by some effective transfer techniques such as fine-tuning and prompt tuning, and so on. The crucial aspect of harnessing the power of language models in enhancing recommendation quality is the utilization of their high-quality representations of textual features and their extensive coverage of external knowledge to establish correlations between items and users. To provide a comprehensive understanding of the existing LLM-based recommendation systems, this survey presents a taxonomy that categorizes these models into two major paradigms, respectively Discriminative LLM for Recommendation (DLLM4Rec) and Generative LLM for Recommendation (GLLM4Rec), with the latter being systematically sorted out for the first time. Furthermore, we systematically review and analyze existing LLM-based recommendation systems within each paradigm, providing insights into their methodologies, techniques, and performance. Additionally, we identify key challenges and several valuable findings to provide researchers and practitioners with inspiration. We have also created a GitHub repository to index relevant papers on LLMs for recommendation, https://github.com/WLiK/LLM4Rec.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# GPT-FL: モデル支援フェデレーション学習の生成

GPT-FL: Generative Pre-trained Model-Assisted Federated Learning ( http://arxiv.org/abs/2306.02210v4 )

ライセンス: Link先を確認
Tuo Zhang, Tiantian Feng, Samiul Alam, Dimitrios Dimitriadis, Sunwoo Lee, Mi Zhang, Shrikanth S. Narayanan, Salman Avestimehr, (参考訳) 本稿では,GPT-FLを提案する。 中心となるGPT-FLは、生成事前訓練されたモデルを利用して、多様化された合成データを生成する。 これらの生成されたデータは、サーバ上のダウンストリームモデルをトレーニングするために使用され、その後、標準FLフレームワークの下でプライベートクライアントデータで微調整される。 GPT-FLは、モデルテスト精度、通信効率、クライアントサンプリング効率において、最先端のFL法よりも一貫して優れていることを示す。 様々なデータモダリティの包括的アブレーション解析により,合成データによって生成された下流モデルが,収束速度を高め,GPT-FLで観測される顕著な精度向上に寄与するFLトレーニングにおいて,勾配の多様性の方向を制御する上で重要な役割を担っていることがわかった。 また、対象データが事前学習された生成モデルの領域内または外部に該当するか否かにかかわらず、GPT-FLは、FLまたは合成データでのみ訓練されたモデルによって得られた結果よりも、一貫して顕著な性能向上を達成する。 コードはhttps://github.com/AvestimehrResearchGroup/GPT-FLで公開されている。

In this work, we propose GPT-FL, a generative pre-trained model-assisted federated learning (FL) framework. At its core, GPT-FL leverages generative pre-trained models to generate diversified synthetic data. These generated data are used to train a downstream model on the server, which is then fine-tuned with private client data under the standard FL framework. We show that GPT-FL consistently outperforms state-of-the-art FL methods in terms of model test accuracy, communication efficiency, and client sampling efficiency. Through comprehensive ablation analysis across various data modalities, we discover that the downstream model generated by synthetic data plays a crucial role in controlling the direction of gradient diversity during FL training, which enhances convergence speed and contributes to the notable accuracy boost observed with GPT-FL. Also, regardless of whether the target data falls within or outside the domain of the pre-trained generative model, GPT-FL consistently achieves significant performance gains, surpassing the results obtained by models trained solely with FL or synthetic data. The code is available at https://github.com/AvestimehrResearchGroup/GPT-FL.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# ファウショット分類のための検索機能強化型ビジュアルプロンプト学習

Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification ( http://arxiv.org/abs/2306.02243v2 )

ライセンス: Link先を確認
Jintao Rong, Hao Chen, Tianxiao Chen, Linlin Ou, Xinyi Yu, Yifan Liu, (参考訳) プロンプト学習は、CLIPのような大規模な視覚言語モデルを下流タスクに適用するための一般的なアプローチとなっている。 通常、プロンプトラーニングは固定されたプロンプトトークンや入力条件トークンに頼り、少量のデータに完全に適合する。 このパラダイムは、ある種の目に見えないクラスに一般化できるが、きめ細かい分類や衛星画像のセグメンテーションなど、ドメインギャップが大きくなると困難になる可能性がある。 この制限に対処するため,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning (RePrompt)を提案する。 まず、トレーニング例から検索データベースを構築します。 次に、この検索強化機構を、簡単な素早い学習ベースラインの様々な段階に統合する。 トレーニングセットで同様のサンプルを参照することにより、強化されたモデルは、少数のサンプルで新しいタスクに適応できる。 15のビジョンデータセットに対する広範な実験では、数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークが、RePromptが大幅なパフォーマンス向上を実現していることを実証しています。 提案手法は,ドメインギャップが大きくなると,素早い学習によって直面する課題に対して,有望な解決策を提供する。 コードとモデルは利用可能になる。

Prompt learning has become a popular approach for adapting large vision-language models, such as CLIP, to downstream tasks. Typically, prompt learning relies on a fixed prompt token or an input-conditional token to fit a small amount of data under full supervision. While this paradigm can generalize to a certain range of unseen classes, it may struggle when domain gap increases, such as in fine-grained classification and satellite image segmentation. To address this limitation, we propose Retrieval-enhanced Prompt learning (RePrompt), which introduces retrieval mechanisms to cache the knowledge representations from downstream tasks. we first construct a retrieval database from training examples, or from external examples when available. We then integrate this retrieval-enhanced mechanism into various stages of a simple prompt learning baseline. By referencing similar samples in the training set, the enhanced model is better able to adapt to new tasks with few samples. Our extensive experiments over 15 vision datasets, including 11 downstream tasks with few-shot setting and 4 domain generalization benchmarks, demonstrate that RePrompt achieves considerably improved performance. Our proposed approach provides a promising solution to the challenges faced by prompt learning when domain gap increases. The code and models will be available.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# 全フォトニック量子リピータのアーキテクチャとプロトコル

Architecture and protocols for all-photonic quantum repeaters ( http://arxiv.org/abs/2306.03748v2 )

ライセンス: Link先を確認
Naphan Benchasattabuse, Michal Hajdušek, Rodney Van Meter, (参考訳) この全フォトニック量子リピータ方式は、リピータグラフ状態(RGS)と呼ばれるグラフ状態を利用して、光子損失と運用上のエラーに対するレジリエンスを約束し、RGS生成時間に制限される(強制ラウンドトリップ待ち時間ではなく)高速ベルペア生成率を提供する。 既存の研究は主にRSGの生成と秘密鍵共有率の分析に重点を置いているが、量子インターネットに想定される主要なタスクである分散計算やテレポーテーションなど、幅広いアプリケーションにまたがる調査を拡張する必要がある。 本稿では、接続確立におけるエンドノードの関与、RGS内の論理キュービットの復号化、各ノードにおけるパウリフレーム補正の計算など、いくつかの重要な問題に対処する新しいエミッタフォトニックキュービットビルディングブロックとRGSプロトコルを提案する。 提案するビルディングブロックは、終端ノードに必要な送信量子メモリの総数を大幅に削減し、同じ通信プロトコルの下で全フォトニックおよびメモリベースのリピータをシームレスに統合する。 また,グラフ状態操作規則に基づく図式推論を用いて,論理的測定結果を復号するアルゴリズムを提案する。

The all-photonic quantum repeater scheme, utilizing a type of graph state called the repeater graph state (RGS), promises resilience to photon losses and operational errors, offering a fast Bell pair generation rate limited only by the RGS creation time (rather than enforced round-trip waits). While existing research has predominantly focused on RGS generation and secret key sharing rate analysis, there is a need to extend investigations to encompass broader applications, such as distributed computation and teleportation, the main tasks envisioned for the Quantum Internet. Here we propose a new emitter-photonic qubit building block and an RGS protocol that addresses several key considerations: end node involvement in connection establishment, decoding of logical qubits within the RGS, and computing the Pauli frame corrections at each participating node to ensure the desired correct end-to-end Bell pair state. Our proposed building block significantly reduces the total number of emissive quantum memories required for end nodes and seamlessly integrates all-photonic and memory-based repeaters under the same communication protocol. We also present an algorithm for decoding logical measurement results, employing graphical reasoning based on graph state manipulation rules.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# マルコフのゲームでナッシュ平衡を偽造するデータ

Data Poisoning to Fake a Nash Equilibrium in Markov Games ( http://arxiv.org/abs/2306.08041v2 )

ライセンス: Link先を確認
Young Wu, Jeremy McMahan, Xiaojin Zhu, Qiaomin Xie, (参考訳) マルチエージェント強化学習(MARL)におけるオフラインデータ中毒攻撃の特徴として,2プレイヤーゼロサムマルコフゲームに対する(潜在的に架空の)ユニークなマルコフ完全ナッシュ均衡をインストールするために,攻撃者がデータセットを変更することができる。 我々は、一意なナッシュ集合、すなわち、そのQ関数によって指定されるゲームの集合を提案し、特定の合同ポリシーが一意なナッシュ均衡である。 ユニークなナッシュセットは、データ中毒がセット内のすべてのプレイをプッシュした場合に限り、攻撃が成功するため、攻撃の中心となる。 ユニークなナッシュ集合は、MARLへの逆強化学習でよく使われる報酬ポリトープを一般化する。 ゼロサムマルコフゲームの場合、逆ナッシュ集合とデータによって誘導される可算ゲームの集合は、Q関数空間のポリトープである。 最適な毒殺攻撃を効率的に計算するための線形プログラムを提示する。 我々の研究は、より堅牢なMARLアルゴリズムを設計するために必要なステップであるオフラインMARLに対するデータ中毒攻撃の構造に光を当てています。

We characterize offline data poisoning attacks on Multi-Agent Reinforcement Learning (MARL), where an attacker may change a data set in an attempt to install a (potentially fictitious) unique Markov-perfect Nash equilibrium for a two-player zero-sum Markov game. We propose the unique Nash set, namely the set of games, specified by their Q functions, with a specific joint policy being the unique Nash equilibrium. The unique Nash set is central to poisoning attacks because the attack is successful if and only if data poisoning pushes all plausible games inside the set. The unique Nash set generalizes the reward polytope commonly used in inverse reinforcement learning to MARL. For zero-sum Markov games, both the inverse Nash set and the set of plausible games induced by data are polytopes in the Q function space. We exhibit a linear program to efficiently compute the optimal poisoning attack. Our work sheds light on the structure of data poisoning attacks on offline MARL, a necessary step before one can design more robust MARL algorithms.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# 量子ウォークと絶対ゼータ関数の関係について

On the relation between quantum walks and absolute zeta functions ( http://arxiv.org/abs/2306.14625v3 )

ライセンス: Link先を確認
Norio Konno, (参考訳) 量子ウォーク(quantum walk)は、古典的なランダムウォークの量子対である。 一方、絶対ゼータ函数は F_1 上のゼータ函数とみなすことができる。 本稿では,量子ウォークと絶対ゼータ関数の接続について述べる。 まず、グラフ上のグロバーウォークの時間発展行列によって決定されるゼータ関数を扱う。 グロバーウォークは量子ウォークの典型的なモデルである。 すると、量子ウォークによって与えられるゼータ函数が、グラフの辺数に依存する絶対自己同型な重みであることを示す。 さらに、量子ウォークに基づくゼータ関数に対する絶対ゼータ関数を考える。 例えば、サイクルグラフの絶対ゼータ関数を計算し、次数2の多重ガンマ関数として表されることを示す。

The quantum walk is a quantum counterpart of the classical random walk. On the other hand, the absolute zeta function can be considered as a zeta function over F_1. This paper presents a connection between the quantum walk and the absolute zeta function. First we deal with a zeta function determined by a time evolution matrix of the Grover walk on a graph. The Grover walk is a typical model of the quantum walk. Then we prove that the zeta function given by the quantum walk is an absolute automorphic form of weight depending on the number of edges of the graph. Furthermore we consider an absolute zeta function for the zeta function based on a quantum walk. As an example, we compute an absolute zeta function for the cycle graph and show that it is expressed as the multiple gamma function of order 2.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# ピーク・オーバー・閾値モデルを用いた検閲推論のためのニューラルベイズ推定器

Neural Bayes estimators for censored inference with peaks-over-threshold models ( http://arxiv.org/abs/2306.15642v4 )

ライセンス: Link先を確認
Jordan Richards, Matthew Sainsbury-Dale, Andrew Zammit-Mangion, Raphaël Huser, (参考訳) 空間的極端依存モデルによる推論は、難易度および/または検閲された可能性を含むため、計算的に負担がかかる。 ベイズ推定器を近似するニューラルネットワークであるニューラルベイズ推定器を用いた確率自由推論の最近の進歩に基づいて、我々は、ニューラルネットワークの検閲情報を符号化するために、データ拡張技術を使用する検閲されたピークオーバー閾値モデルの高効率な推定器を開発する。 我々の新しい手法は、空間的極端依存モデルに対する従来の検閲された可能性に基づく推論手法に挑戦するパラダイムシフトを提供する。 本研究は,最大安定度,$r$-Pareto,ランダムスケール混合プロセスモデルなど,一般的な極端依存モデルと推定するために,新しい推定法を適用した際の,競合する確率に基づくアプローチと比較して,計算効率と統計効率の両方において有意な向上を示した。 また,1つのニューラルネットワークベイズ推定器を一般検閲レベルでトレーニングすることは可能であり,検閲レベルが変更された場合のネットワークの再トレーニングは不要であることを示す。 サウジアラビア全土における超微粒子物質2.5ミクロン以下({\rm PM}_{2.5}$)の濃度を評価するために,高次元空間超依存性モデル数百個を高速に推定し,その有効性を示す。

Making inference with spatial extremal dependence models can be computationally burdensome since they involve intractable and/or censored likelihoods. Building on recent advances in likelihood-free inference with neural Bayes estimators, that is, neural networks that approximate Bayes estimators, we develop highly efficient estimators for censored peaks-over-threshold models that {use data augmentation techniques} to encode censoring information in the neural network {input}. Our new method provides a paradigm shift that challenges traditional censored likelihood-based inference methods for spatial extremal dependence models. Our simulation studies highlight significant gains in both computational and statistical efficiency, relative to competing likelihood-based approaches, when applying our novel estimators to make inference with popular extremal dependence models, such as max-stable, $r$-Pareto, and random scale mixture process models. We also illustrate that it is possible to train a single neural Bayes estimator for a general censoring level, precluding the need to retrain the network when the censoring level is changed. We illustrate the efficacy of our estimators by making fast inference on hundreds-of-thousands of high-dimensional spatial extremal dependence models to assess extreme particulate matter 2.5 microns or less in diameter (${\rm PM}_{2.5}$) concentration over the whole of Saudi Arabia.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# 視覚言語モデルによるゼロショット認識のベンチマーク:粒度と特異性への挑戦

Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity ( http://arxiv.org/abs/2306.16048v3 )

ライセンス: Link先を確認
Zhenlin Xu, Yi Zhu, Tiffany Deng, Abhay Mittal, Yanbei Chen, Manchen Wang, Paolo Favaro, Joseph Tighe, Davide Modolo, (参考訳) 本稿では、ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークについて、粒度と特異性に着目した。 VLMはイメージキャプションのようなタスクに優れていますが、オープンワールド設定では課題に直面しています。 我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。 発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。 大規模な評価は、特に正しい記述と微妙な記述の区別において、現在のVLMの限界を明らかにしている。 微調整はいくつかの改善を提供するが、これらの問題に完全に対処するわけではなく、現実世界のアプリケーションに拡張された一般化機能を備えたVLMの必要性を強調している。 この研究は、VLMの制限に関する洞察を与え、より堅牢なモデルを開発するための方向性を提案する。

This paper presents novel benchmarks for evaluating vision-language models (VLMs) in zero-shot recognition, focusing on granularity and specificity. Although VLMs excel in tasks like image captioning, they face challenges in open-world settings. Our benchmarks test VLMs' consistency in understanding concepts across semantic granularity levels and their response to varying text specificity. Findings show that VLMs favor moderately fine-grained concepts and struggle with specificity, often misjudging texts that differ from their training data. Extensive evaluations reveal limitations in current VLMs, particularly in distinguishing between correct and subtly incorrect descriptions. While fine-tuning offers some improvements, it doesn't fully address these issues, highlighting the need for VLMs with enhanced generalization capabilities for real-world applications. This study provides insights into VLM limitations and suggests directions for developing more robust models.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# 教育する: 言語モデルに対するフィードバックの教育的基礎

Let Me Teach You: Pedagogical Foundations of Feedback for Language Models ( http://arxiv.org/abs/2307.00279v2 )

ライセンス: Link先を確認
Beatriz Borges, Niket Tandon, Tanja Käser, Antoine Bosselut, (参考訳) 自然言語フィードバック(NLF)は、大規模言語モデル(LLM)と人間の嗜好を整合させるメカニズムとして、ますます人気が高まっている。 伝達できる情報の多様性にもかかわらず、NLFメソッドは手作業で設計され、任意であり、体系的な根拠はほとんどない。 同時に、学習科学の研究は、長い間、いくつかの効果的なフィードバックモデルを確立してきた。 本稿では,フィードバック空間の様々な特徴を概説するLLMのフィードバックフレームワークであるFELTと,これらの変数に基づくフィードバックコンテンツ分類を導入し,フィードバック空間の一般的なマッピングを提供する。 NLF設計の合理化に加えて、FELTはNLFの研究のための新しい未探索の方向も導入している。 我々は、分類をコミュニティに公開し、分類を将来の研究にマッピングするためのガイドと例を提供する。

Natural Language Feedback (NLF) is an increasingly popular mechanism for aligning Large Language Models (LLMs) to human preferences. Despite the diversity of the information it can convey, NLF methods are often hand-designed and arbitrary, with little systematic grounding. At the same time, research in learning sciences has long established several effective feedback models. In this opinion piece, we compile ideas from pedagogy to introduce FELT, a feedback framework for LLMs that outlines various characteristics of the feedback space, and a feedback content taxonomy based on these variables, providing a general mapping of the feedback space. In addition to streamlining NLF designs, FELT also brings out new, unexplored directions for research in NLF. We make our taxonomy available to the community, providing guides and examples for mapping our categorizations to future research.
翻訳日:2024-06-20 05:23:38 公開日:2024-06-18
# STG4Traffic:交通予測のための空間時間グラフニューラルネットワークの探索とベンチマーク

STG4Traffic: A Survey and Benchmark of Spatial-Temporal Graph Neural Networks for Traffic Prediction ( http://arxiv.org/abs/2307.00495v2 )

ライセンス: Link先を確認
Xunlian Luo, Chunjiang Zhu, Detian Zhang, Qing Li, (参考訳) 交通予測は時空間データマイニング分野において活発な研究課題となっている。 スマートシティシステムの安全性,安定性,汎用性,すなわち交通制御と最適ルーティングを改善するためには,正確なリアルタイムトラフィック予測が不可欠である。 複雑で非常にダイナミックな時空間依存は、効果的な予測をまだ多くの課題に直面している。 最近の研究で、空間時間グラフニューラルネットワークは、グラフ畳み込みネットワークと逐次モデルを組み合わせて時間的および空間的相関を共同でモデル化する交通予測に大きな可能性を示すことが示されている。 しかし, グラフ学習, 交通の時空間グラフモデル, ベースラインモデルの公正な比較に関する調査は, 未解決の問題や避けられない問題となっている。 本稿では,まず,グラフ学習戦略と一般的なグラフ畳み込みアルゴリズムの体系的レビューを行う。 次に,最近提案された空間時間グラフネットワークモデルの長所と短所を包括的に解析する。 さらに、ディープラーニングフレームワークPyTorchを使用してSTG4Trafficと呼ばれる研究を構築し、2種類のトラフィックデータセットに対して標準化されたスケーラブルなベンチマークを確立する。 モデル設定を均一なメトリクスでパーソナライズすることで、それらの性能を評価することができる。 最後に,本研究の問題点を指摘し,今後の方向性について論じる。 ソースコードはhttps://github.com/trainingl/STG4Traffic.comで入手できる。

Traffic prediction has been an active research topic in the domain of spatial-temporal data mining. Accurate real-time traffic prediction is essential to improve the safety, stability, and versatility of smart city systems, i.e., traffic control and optimal routing. The complex and highly dynamic spatial-temporal dependencies make effective predictions still face many challenges. Recent studies have shown that spatial-temporal graph neural networks exhibit great potential applied to traffic prediction, which combines sequential models with graph convolutional networks to jointly model temporal and spatial correlations. However, a survey study of graph learning, spatial-temporal graph models for traffic, as well as a fair comparison of baseline models are pending and unavoidable issues. In this paper, we first provide a systematic review of graph learning strategies and commonly used graph convolution algorithms. Then we conduct a comprehensive analysis of the strengths and weaknesses of recently proposed spatial-temporal graph network models. Furthermore, we build a study called STG4Traffic using the deep learning framework PyTorch to establish a standardized and scalable benchmark on two types of traffic datasets. We can evaluate their performance by personalizing the model settings with uniform metrics. Finally, we point out some problems in the current study and discuss future directions. Source codes are available at https://github.com/trainingl/STG4Traffic.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# SwinGNN:グラフ生成のための拡散モデルにおける置換不変性の再考

SwinGNN: Rethinking Permutation Invariance in Diffusion Models for Graph Generation ( http://arxiv.org/abs/2307.01646v3 )

ライセンス: Link先を確認
Qi Yan, Zhengyang Liang, Yang Song, Renjie Liao, Lele Wang, (参考訳) 置換同変ネットワークに基づく拡散モデルは、グラフデータの置換不変分布を学習することができる。 しかし、非不変モデルと比較すると、これらの不変モデルは、それ以来より大きな学習課題に直面していることがわかった。 1) 効果的な目標分布は、より多くのモードを示す。 2) 最適1段階の復調スコアはガウス混合とより多くの成分のスコア関数である。 そこで本研究では,効率的なエッジ・ツー・エッジ2-WLメッセージパッシングネットワークを採用し,SwinTransformersにインスパイアされたウィンドウベースの自己アテンションを利用した非不変拡散モデルである$\textit{SwinGNN}$を提案する。 さらに、系統的な改善を通じて、グラフ生成のサンプル品質を著しく向上させるいくつかのクリティカルトレーニングおよびサンプリング手法を同定する。 最後に、単純な後処理のトリックである$\textit{i.e.}$を導入し、生成したグラフをランダムに置換し、任意のグラフ生成モデルを置換不変のグラフに変換する。 合成および実世界のタンパク質および分子データセットに関する大規模な実験は、我々のSwinGNNが最先端のパフォーマンスを達成することを示す。 私たちのコードはhttps://github.com/qiyan98/SwinGNN.comで公開されています。

Diffusion models based on permutation-equivariant networks can learn permutation-invariant distributions for graph data. However, in comparison to their non-invariant counterparts, we have found that these invariant models encounter greater learning challenges since 1) their effective target distributions exhibit more modes; 2) their optimal one-step denoising scores are the score functions of Gaussian mixtures with more components. Motivated by this analysis, we propose a non-invariant diffusion model, called $\textit{SwinGNN}$, which employs an efficient edge-to-edge 2-WL message passing network and utilizes shifted window based self-attention inspired by SwinTransformers. Further, through systematic ablations, we identify several critical training and sampling techniques that significantly improve the sample quality of graph generation. At last, we introduce a simple post-processing trick, $\textit{i.e.}$, randomly permuting the generated graphs, which provably converts any graph generative model to a permutation-invariant one. Extensive experiments on synthetic and real-world protein and molecule datasets show that our SwinGNN achieves state-of-the-art performances. Our code is released at https://github.com/qiyan98/SwinGNN.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# ゼロショットニューラルアーキテクチャ検索 - 課題、解決策、機会

Zero-Shot Neural Architecture Search: Challenges, Solutions, and Opportunities ( http://arxiv.org/abs/2307.01998v3 )

ライセンス: Link先を確認
Guihong Li, Duc Hoang, Kartikeya Bhardwaj, Ming Lin, Zhangyang Wang, Radu Marculescu, (参考訳) 最近、NASを高価なトレーニングプロセスから解放するためにゼロショット(またはトレーニング不要)のニューラルアーキテクチャサーチ(NAS)アプローチが提案されている。 ゼロショットNASアプローチの背景にある重要な考え方は、ネットワークパラメータを訓練することなく、与えられたネットワークの精度を予測できるプロキシを設計することである。 これまでに提案されたプロキシは通常、ディープラーニングの理論的理解の最近の進歩にインスパイアされ、いくつかのデータセットやNASベンチマークで大きなポテンシャルを示している。 本稿では,SOTAのゼロショットNASアプローチを概観的に検証し,ハードウェアの認識に重点を置いて比較することを目的とする。 この目的のために、まずメインストリームのゼロショットプロキシをレビューし、それらの理論的基盤について議論する。 次に、これらのゼロショットプロキシを大規模な実験を通して比較し、ハードウェア対応のNASシナリオとハードウェア対応のNASシナリオの両方での有効性を実証する。 最後に、より良いプロキシを設計するためのいくつかの有望なアイデアを指摘します。 ソースコードと関連論文のリストはhttps://github.com/SLDGroup/survey-zero-shot-nas.comで公開されています。

Recently, zero-shot (or training-free) Neural Architecture Search (NAS) approaches have been proposed to liberate NAS from the expensive training process. The key idea behind zero-shot NAS approaches is to design proxies that can predict the accuracy of some given networks without training the network parameters. The proxies proposed so far are usually inspired by recent progress in theoretical understanding of deep learning and have shown great potential on several datasets and NAS benchmarks. This paper aims to comprehensively review and compare the state-of-the-art (SOTA) zero-shot NAS approaches, with an emphasis on their hardware awareness. To this end, we first review the mainstream zero-shot proxies and discuss their theoretical underpinnings. We then compare these zero-shot proxies through large-scale experiments and demonstrate their effectiveness in both hardware-aware and hardware-oblivious NAS scenarios. Finally, we point out several promising ideas to design better proxies. Our source code and the list of related papers are available on https://github.com/SLDGroup/survey-zero-shot-nas.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# 総合的な病院計画 : 概観

Integrated Planning in Hospitals: A Review ( http://arxiv.org/abs/2307.05258v2 )

ライセンス: Link先を確認
Sebastian Rachuba, Melanie Reuter-Oppermann, Clemens Thielen, (参考訳) 病院における資源不足の効率的な計画は、1950年代から様々な運用研究・管理科学のアプローチが開発されてきた課題である。 手術室、ベッド、特定のタイプのスタッフなどの単一のリソースの効率的な計画は、既に膨大な効率向上につながるが、いくつかのリソースの統合計画がさらに大きな可能性を秘めていることが示されている。 本論文は,病院における各種資源の総合的な計画に関する運用研究・管理科学文献に焦点をあてた最初の文献レビューである。 関連文献を収集し,不確実性モデリングや実生活データの利用など,さまざまな側面について分析する。 いくつかのクロス比較は、例えば、使用されるモデリング手法と解法との関係と、開発されたアプローチの実践的実装に関する興味深い洞察を明らかにしている。 さらに,異なる資源に着目した統合アプローチを分類し,文献のギャップを指摘し,将来的な研究の方向性を示すための高レベルな分類法を提供する。

Efficient planning of scarce resources in hospitals is a challenging task for which a large variety of Operations Research and Management Science approaches have been developed since the 1950s. While efficient planning of single resources such as operating rooms, beds, or specific types of staff can already lead to enormous efficiency gains, integrated planning of several resources has been shown to hold even greater potential, and a large number of integrated planning approaches have been presented in the literature over the past decades. This paper provides the first literature review that focuses specifically on the Operations Research and Management Science literature related to integrated planning of different resources in hospitals. We collect the relevant literature and analyze it regarding different aspects such as uncertainty modeling and the use of real-life data. Several cross comparisons reveal interesting insights concerning, e.g., relations between the modeling and solution methods used and the practical implementation of the approaches developed. Moreover, we provide a high-level taxonomy for classifying different resource-focused integration approaches and point out gaps in the literature as well as promising directions for future research.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# ゼロ膨張型保険債権に対するグラディエントブースティングの強化とCatBoost, XGBoost, LightGBMの比較分析

Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM ( http://arxiv.org/abs/2307.07771v3 )

ライセンス: Link先を確認
Banghee So, (参考訳) 不動産・カジュアルティー(P&C)保険業界は、過剰なゼロの正のクレームの高度に右折した分布のため、クレーム予測モデルの開発において課題に直面している。 これを解決するために、アクチュアリ科学研究者は従来のカウントモデルとバイナリモデルを組み合わせた「ゼロインフレード」モデルを採用した。 本稿では,ゼロインフレーションされたテレマティクスデータを含む保険請求データを処理し,請求頻度モデルを構築するためのブースティングアルゴリズムについて検討する。 XGBoost、LightGBM、CatBoostの3つの人気勾配向上ライブラリを評価し、保険請求データをトレーニングし、アクチュアリル周波数モデルに適合させるのに最も適したライブラリを比較した。 2つの異なるデータセットの包括的分析を通じて、予測性能に基づいて自動クレーム頻度モデルを開発するのに、CatBoostが最適であると判断する。 さらに,0-inflated Poisson boosted tree modelを新たに提案し,インフレーション確率$p$と分布平均$\mu$の関係を仮定した。 このモデルにより、特定のCatBoostツールを利用することができ、テレマティクスデータを使用する場合、様々なリスク特徴が周波数モデルに与える影響や相互作用を調べるのが簡単かつより便利になる。

The property and casualty (P&C) insurance industry faces challenges in developing claim predictive models due to the highly right-skewed distribution of positive claims with excess zeros. To address this, actuarial science researchers have employed "zero-inflated" models that combine a traditional count model and a binary model. This paper investigates the use of boosting algorithms to process insurance claim data, including zero-inflated telematics data, to construct claim frequency models. Three popular gradient boosting libraries - XGBoost, LightGBM, and CatBoost - are evaluated and compared to determine the most suitable library for training insurance claim data and fitting actuarial frequency models. Through a comprehensive analysis of two distinct datasets, it is determined that CatBoost is the best for developing auto claim frequency models based on predictive performance. Furthermore, we propose a new zero-inflated Poisson boosted tree model, with variation in the assumption about the relationship between inflation probability $p$ and distribution mean $\mu$, and find that it outperforms others depending on data characteristics. This model enables us to take advantage of particular CatBoost tools, which makes it easier and more convenient to investigate the effects and interactions of various risk features on the frequency model when using telematics data.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# すべてのホログラフィック系は不足状態を持つ

All holographic systems have scar states ( http://arxiv.org/abs/2307.11348v2 )

ライセンス: Link先を確認
Alexey Milekhin, Nikolay Sukhov, (参考訳) スカー状態は特別な有限エネルギー密度であるが、カオスハミルトニアンの非熱状態である。 我々は、$\mathcal{N}=4$ Super Yang--Millsを含むすべてのホログラフィック量子場理論は不足状態であると主張する。 彼らの存在は、重力における非トポロジカルで地平線のないソリトン解の存在と結びついている。 これらの解は相関関数に周期的な振動を持ち、スカー状態に対して期待されるような低絡みエントロピーを持つことを示す。 また、それらはユークリッド経路積分で非常に容易に準備できることが分かる。

Scar states are special finite-energy density, but non-thermal states of chaotic Hamiltonians. We argue that all holographic quantum field theories, including $\mathcal{N}=4$ super Yang--Mills, have scar states. Their presence is tied to the existence of non-topological, horizonless soliton solutions in gravity: oscillons and a novel family of excited boson stars. We demonstrate that these solutions have periodic oscillations in the correlation functions and posses low-entanglement entropy as expected for scar states. Also we find that they can be very easily prepared with Euclidean path integral.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# グラフニューラルネットワークを用いた構造認識型コードの脆弱性解析

Structure-Aware Code Vulnerability Analysis With Graph Neural Networks ( http://arxiv.org/abs/2307.11454v2 )

ライセンス: Link先を確認
Ravil Mussabayev, (参考訳) 本研究では,Javaの脆弱性修正コミットの実際のデータセットを用いて,ソフトウェアコードの脆弱性検出におけるグラフニューラルネットワーク(GNN)の有効性を検討する。 データセットの構造は、コミット毎に修正されたメソッドの数に基づいて、さまざまな調査シナリオを促進する自然なパーティションを提供する。 主な焦点は、脆弱なコードセグメントを識別し、それらの固定バージョンと、ランダムな非脆弱性コードとの区別において、GNNの一般的な適用性を評価することである。 一連の実験を通じて、GNNモデルの予測精度を高めるために、異なる構成とデータのサブセットの適合性に関する重要な疑問に対処する。 実験により、特定のグラフ要素のプルーニングや特定の種類のコード表現の排除など、特定のモデル構成がパフォーマンスを著しく向上させることが示された。 さらに、GNNの検出能力を最適化するために、トレーニングにランダムデータを含めることの重要性を強調した。

This study explores the effectiveness of graph neural networks (GNNs) for vulnerability detection in software code, utilizing a real-world dataset of Java vulnerability-fixing commits. The dataset's structure, based on the number of modified methods in each commit, offers a natural partition that facilitates diverse investigative scenarios. The primary focus is to evaluate the general applicability of GNNs in identifying vulnerable code segments and distinguishing these from their fixed versions, as well as from random non-vulnerable code. Through a series of experiments, the research addresses key questions about the suitability of different configurations and subsets of data in enhancing the prediction accuracy of GNN models. Experiments indicate that certain model configurations, such as the pruning of specific graph elements and the exclusion of certain types of code representation, significantly improve performance. Additionally, the study highlights the importance of including random data in training to optimize the detection capabilities of GNNs.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# あいまいな実装のためのMLモデルの形式的記述

Formal description of ML models for unambiguous implementation ( http://arxiv.org/abs/2307.12713v2 )

ライセンス: Link先を確認
Adrien Gauffriau, Iryna De Albuquerque Silva, Claire Pagetti, (参考訳) 安全クリティカルシステム、特に航空分野におけるディープニューラルネットワークの実装には、最終ハードウェアプラットフォーム上でトレーニングされたモデルのセマンティクスを保持するための適切な仕様パラダイムを提供する必要がある。 我々は、訓練されたモデルのトレース可能な分散と並列化の最適化を可能にするために、nnef言語を拡張することを提案する。 このような仕様が Xavier プラットフォーム上で cuda でどのように実装できるかを示す。

Implementing deep neural networks in safety critical systems, in particular in the aeronautical domain, will require to offer adequate specification paradigms to preserve the semantics of the trained model on the final hardware platform. We propose to extend the nnef language in order to allow traceable distribution and parallelisation optimizations of a trained model. We show how such a specification can be implemented in cuda on a Xavier platform.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# 電池の効率的な局所エネルギー抽出を可能にする非完全正の量子マップ

Noncompletely Positive Quantum Maps Enable Efficient Local Energy Extraction in Batteries ( http://arxiv.org/abs/2307.16746v4 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Kornikar Sen, Ujjwal Sen, (参考訳) 完全に正のトレース保存(CPTP)マップによる量子電池からのエネルギー抽出は、CPTPに局所的な受動的状態の概念をもたらす。 任意の次元において、ある状態がハミルトニアンに関してCPTP局所受動的であれば、同状態の任意の数のコピー(漸近的に大きいものを含む)もまたCPTP局所受動的であることを示す。 さらに,CPTPを用いたCPTP局所受動的状態から効率よくエネルギーを抽出できるが,CPTPマップの操作が不要な共有電池の同じ部分の物理的に実現可能であることを示す。 さらに、局所CPTP演算を用いて最大抽出可能エネルギーを提供し、次いで、物理的局所NCPTP写像を用いて最大値よりも優れた性能を持つ、明示的な状態と対応するハミルトンのクラスを示す。 我々は、任意の二分項状態が任意のハミルトニアンに対して、一方の党における非完全正のトレース保存(NCPTP)演算を用いてエネルギーを供給できない必要条件と分離条件を提供する。 我々は, 量子電池のエネルギー抽出におけるCPTPとCPTPの相対的状態と, 蒸留可能なエンタングルメントと, 漸近的な局所的なエンタングルメント操作のためのエンタングルメントコストの関連を類似して構築する。 CPTP-パッシブおよびCPTP非パッシブ電池状態のためのCPTPマップで抽出可能な最大エネルギーの超過は、量子地図の非CPTP性の検出器として機能する。

Energy extraction from quantum batteries by means of completely positive trace-preserving (CPTP) maps leads to the concept of CPTP-local passive states, which identify bipartite states from which no energy can be squeezed out by applying any CPTP map to a particular subsystem. We prove, for arbitrary dimension, that if a state is CPTP-local passive with respect to a Hamiltonian, then an arbitrary number of copies of the same state - including an asymptotically large one - is also CPTP-local passive. We show further that energy can be extracted efficiently from CPTP-local passive states employing NCPTP but still physically realizable maps on the same part of the shared battery on which operation of CPTP maps were useless. Moreover, we provide the maximum extractable energy using local-CPTP operations, and then, we present an explicit class of states and corresponding Hamiltonians, for which the maximum can be outperformed using physical local NCPTP maps. We provide a necessary and sufficient condition and a separate necessary condition for an arbitrary bipartite state to be unable to supply any energy using non-completely positive trace-preserving (NCPTP) operations on one party with respect to an arbitrary but fixed Hamiltonian. We build an analogy between the relative status of CPTP and NCPTP operations for energy extraction in quantum batteries, and the association of distillable entanglement with entanglement cost for asymptotic local manipulations of entanglement. The surpassing of the maximum energy extractable by NCPTP maps for CPTP-passive as well as for CPTP non-passive battery states can act as detectors of non-CPTPness of quantum maps.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# ニューラルネットワーク量子多体基底状態の振幅の変分最適化

Variational optimization of the amplitude of neural-network quantum many-body ground states ( http://arxiv.org/abs/2308.09664v2 )

ライセンス: Link先を確認
Jia-Qi Wang, Rong-Qiang He, Zhong-Yi Lu, (参考訳) ニューラルネットワーク量子状態(NQS)は、従来の手法とディープラーニング技術を組み合わせることで、変分最適化され、量子多体基底状態を見つける新しい方法であり、徐々に従来の変分法と競合することになる。 しかし、NQSの最適化には、局所最小化、収束の遅い、符号構造最適化などいくつかの困難がある。 そこで我々は,量子多体変動波関数を実数値振幅ニューラルネットワークと手話構造との乗算に分割し,手話構造を固定しつつ振幅ネットワークの最適化に焦点を当てた。 振幅ネットワークは、残差ブロック、すなわちResNetを備えた畳み込みニューラルネットワーク(CNN)である。 本手法は3種類の量子多体系で試験される。 得られた基底状態エネルギーは、従来の変分モンテカルロ法(VMC)と密度行列再正規化群(DMRG)のエネルギーよりも低いか同等である。 驚いたことに、Heisenberg $J_1$-$J_2$モデルでは、文献における複素数値CNNよりも良い結果が得られており、複素数値NQSの符号構造は最適化が難しいことを示唆している。 今後NQSの符号構造の最適化について検討する。

Neural-network quantum states (NQSs), variationally optimized by combining traditional methods and deep learning techniques, is a new way to find quantum many-body ground states and gradually becomes a competitor of traditional variational methods. However, there are still some difficulties in the optimization of NQSs, such as local minima, slow convergence, and sign structure optimization. Here, we split a quantum many-body variational wave function into a multiplication of a real-valued amplitude neural network and a sign structure, and focus on the optimization of the amplitude network while keeping the sign structure fixed. The amplitude network is a convolutional neural network (CNN) with residual blocks, namely a ResNet. Our method is tested on three typical quantum many-body systems. The obtained ground state energies are lower than or comparable to those from traditional variational Monte Carlo (VMC) methods and density matrix renormalization group (DMRG). Surprisingly, for the frustrated Heisenberg $J_1$-$J_2$ model, our results are better than those of the complex-valued CNN in the literature, implying that the sign structure of the complex-valued NQS is difficult to be optimized. We will study the optimization of the sign structure of NQSs in the future.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# 大規模実世界データセットと周波数対応シャドウ消去ネットによる高分解能文書シャドウ除去

High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net ( http://arxiv.org/abs/2308.14221v4 )

ライセンス: Link先を確認
Zinuo Li, Xuhang Chen, Chi-Man Pun, Xiaodong Cun, (参考訳) デジタルコピーの視覚的品質と可読性に影響を与えるカジュアルな機器で文書をキャプチャしたとき、しばしば影が発生する。 自然なシャドウ除去のアルゴリズムとは異なり、文書シャドウ除去のアルゴリズムはフォントや数字の詳細を高精細な入力で保存する必要がある。 これまでの作業はこの問題を無視し、実際の状況ではうまくいかないような、近似的な注意と小さなデータセットによって影を取り除く。 より大規模な実世界のデータセットと、慎重に設計された周波数対応ネットワークを介して、高解像度のドキュメントシャドウ除去を処理します。 データセットについては、既存のデータセットの10倍の大きさの様々な照明条件下で、実世界の文書ペアと様々なサンプルの高解像度(2462×3699)の7万枚以上の画像を取得する。 ネットワークの設計に関しては、低周波の詳細と高周波境界を慎重に設計したネットワーク構造を通して効果的に学習できる周波数領域の高分解能画像を分離する。 提案手法は,ネットワークとデータセットを用いて,視覚的品質と数値的結果の観点から,従来の手法よりも優れた性能を示す。 コード、モデル、データセットは、https://github.com/CXH-Research/DocShadow-SD7Kで入手できる。

Shadows often occur when we capture the documents with casual equipment, which influences the visual quality and readability of the digital copies. Different from the algorithms for natural shadow removal, the algorithms in document shadow removal need to preserve the details of fonts and figures in high-resolution input. Previous works ignore this problem and remove the shadows via approximate attention and small datasets, which might not work in real-world situations. We handle high-resolution document shadow removal directly via a larger-scale real-world dataset and a carefully designed frequency-aware network. As for the dataset, we acquire over 7k couples of high-resolution (2462 x 3699) images of real-world document pairs with various samples under different lighting circumstances, which is 10 times larger than existing datasets. As for the design of the network, we decouple the high-resolution images in the frequency domain, where the low-frequency details and high-frequency boundaries can be effectively learned via the carefully designed network structure. Powered by our network and dataset, the proposed method clearly shows a better performance than previous methods in terms of visual quality and numerical results. The code, models, and dataset are available at: https://github.com/CXH-Research/DocShadow-SD7K
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# GADePo:文書レベル関係抽出のためのグラフ支援宣言型ポーリング変換器

GADePo: Graph-Assisted Declarative Pooling Transformers for Document-Level Relation Extraction ( http://arxiv.org/abs/2308.14423v2 )

ライセンス: Link先を確認
Andrei C. Coman, Christos Theodoropoulos, Marie-Francine Moens, James Henderson, (参考訳) 文書レベルの関係抽出は、典型的にはテキストベースのエンコーダと手書きプーリングヒューリスティックに頼り、エンコーダが学習した情報を集約する。 本稿では,Transformerモデルの本質的なグラフ処理機能を活用し,アテンション重み計算における明示的なグラフ関係による情報収集を目的とした,手書きプーリング手法を入力に新しいトークンで置き換えることを提案する。 本稿では,共同テキストグラフ変換モデルとグラフ支援型宣言型プール(GADePo)仕様を導入し,情報集約のための明示的かつ高レベルな命令を提供する。 GADePoによって、プールプロセスはドメイン固有の知識や望ましい結果によってガイドされるが、Transformerによってまだ学習され、より柔軟でカスタマイズ可能なプール戦略が実現される。 提案手法は,多様なデータセットやモデルにまたがって評価し,手作業によるプール機能よりも一貫した優れた有望な結果が得られることを示す。

Document-level relation extraction typically relies on text-based encoders and hand-coded pooling heuristics to aggregate information learned by the encoder. In this paper, we leverage the intrinsic graph processing capabilities of the Transformer model and propose replacing hand-coded pooling methods with new tokens in the input, which are designed to aggregate information via explicit graph relations in the computation of attention weights. We introduce a joint text-graph Transformer model and a graph-assisted declarative pooling (GADePo) specification of the input, which provides explicit and high-level instructions for information aggregation. GADePo allows the pooling process to be guided by domain-specific knowledge or desired outcomes but still learned by the Transformer, leading to more flexible and customisable pooling strategies. We evaluate our method across diverse datasets and models and show that our approach yields promising results that are consistently better than those achieved by the hand-coded pooling functions.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# ギャップフリークラスタリング:SDPの感度とロバスト性

Gap-Free Clustering: Sensitivity and Robustness of SDP ( http://arxiv.org/abs/2308.15642v2 )

ライセンス: Link先を確認
Matthew Zurek, Yudong Chen, (参考訳) 本研究では,SBM(Stochastic Block Model)におけるグラフクラスタリングについて検討した。 これまでの凸緩和アプローチでは、正確な回復を達成するには、$o(\sqrt{n})$の小さなクラスタを許可しないか、最小のクラスタと最大の非回復クラスタの間のサイズギャップを必要とする。 本研究では,これらの要求を除去し,クラスタサイズによらず,大規模クラスタを確実に復元する半定値プログラミング(SDP)に基づくアルゴリズムを提案する。 中規模のクラスタは、リカバリしきい値に近いため、小さなノイズの摂動に非常に敏感になり、クローズドフォームの候補解が妨げられるため、分析に固有の課題が生じる。 本研究では,一行のノイズを除去しても,SDP解と雑音ベクトルの相関を制御できる新たな手法を開発した。 また、潜在的な独立利害の固有値摂動境界を改良した。 我々の結果は、代替アルゴリズムに挑戦するある種の半ランダムな設定に対して堅牢である。 このギャップフリークラスタリング手法を用いることで,多数の小さなクラスタが存在する場合でも,クエリの複雑度に優れた欠陥を持つオラクルによるクラスタリングの問題に対して,より効率的なアルゴリズムが得られます。 我々のギャップフリークラスタリング手法は再帰的クラスタリングのアルゴリズムの改善にも繋がる。

We study graph clustering in the Stochastic Block Model (SBM) in the presence of both large clusters and small, unrecoverable clusters. Previous convex relaxation approaches achieving exact recovery do not allow any small clusters of size $o(\sqrt{n})$, or require a size gap between the smallest recovered cluster and the largest non-recovered cluster. We provide an algorithm based on semidefinite programming (SDP) which removes these requirements and provably recovers large clusters regardless of the remaining cluster sizes. Mid-sized clusters pose unique challenges to the analysis, since their proximity to the recovery threshold makes them highly sensitive to small noise perturbations and precludes a closed-form candidate solution. We develop novel techniques, including a leave-one-out-style argument which controls the correlation between SDP solutions and noise vectors even when the removal of one row of noise can drastically change the SDP solution. We also develop improved eigenvalue perturbation bounds of potential independent interest. Our results are robust to certain semirandom settings that are challenging for alternative algorithms. Using our gap-free clustering procedure, we obtain efficient algorithms for the problem of clustering with a faulty oracle with superior query complexities, notably achieving $o(n^2)$ sample complexity even in the presence of a large number of small clusters. Our gap-free clustering procedure also leads to improved algorithms for recursive clustering.
翻訳日:2024-06-20 05:13:54 公開日:2024-06-18
# オーバーパラメータ化における2層ニューラルネットワークの局所的回復

Local Recovery of Two-layer Neural Networks at Overparameterization ( http://arxiv.org/abs/2309.00508v2 )

ライセンス: Link先を確認
Leyang Zhang, Yaoyu Zhang, Tao Luo, (参考訳) 軽微な仮定の下では,大域的ミニマ付近の2層ニューラルネットワークの損失景観の構造を調査し,対象関数を復元するパラメータの集合を決定し,そのまわりの勾配の流れを特徴づける。 新たな手法により、複雑な損失景観のいくつかの単純な側面を明らかにし、モデル、ターゲット関数、サンプル、初期化がトレーニングのダイナミクスにどう影響するかを明らかにする。 これらの結果から,2層ニューラルネットワークは過パラメータ化時に局所的に回復可能であることが示唆された。

Under mild assumptions, we investigate the structure of loss landscape of two-layer neural networks near global minima, determine the set of parameters which recovers the target function, and characterize the gradient flows around it. With novel techniques, our work uncovers some simple aspects of the complicated loss landscape and reveals how model, target function, samples and initialization affect the training dynamics differently. These results concludes that two-layer neural networks can be recovered locally at overparameterization.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# Lanczos法の累積展開を用いた量子計算グリーン関数

Quantum Computed Green's Functions using a Cumulant Expansion of the Lanczos Method ( http://arxiv.org/abs/2309.09685v3 )

ライセンス: Link先を確認
Gabriel Greene-Diniz, David Zsolt Manrique, Kentaro Yamamoto, Evgeny Plekhanov, Nathan Fitzpatrick, Michal Krompiec, Rei Sakuma, David Muñoz Ramo, (参考訳) 本稿では,多体グリーン関数行列をスピン軌道ベースで計算する量子計算法を提案する。 我々は,有限サイズのフェルミオンハバードモデルとそれに関連する不純物モデルに動的平均場理論を適用し,量子量子コンピュータH1-1上でのグリーン関数の計算を実証する。 我々のアプローチは、ハミルトンモーメントを測定可能な期待値として用いて、Lanczos法を累積的に拡張することである。 このことは、変分量子固有解法(VQE)の繰り返し適用による測定回数の大きなオーバーヘッドを回避し、代わりに1組の測定回路でモーメントの期待値を測定する。 測定されたモーメントから、三対角化ハミルトン行列が計算され、連続分数を通してグリーン函数が生成される。 本研究では, 変分アルゴリズムを用いて基底状態を作成するが, 実装のモジュラリティにより, 基底状態に対して他の(変分的でない)アプローチが使用できることに留意する。

In this paper, we present a quantum computational method to calculate the many-body Green's function matrix in a spin orbital basis. We apply our approach to finite-sized fermionic Hubbard models and related impurity models within Dynamical Mean Field Theory, and demonstrate the calculation of Green's functions on Quantinuum's H1-1 trapped-ion quantum computer. Our approach involves a cumulant expansion of the Lanczos method, using Hamiltonian moments as measurable expectation values. This bypasses the need for a large overhead in the number of measurements due to repeated applications of the variational quantum eigensolver (VQE), and instead measures the expectation value of the moments with one set of measurement circuits. From the measured moments, the tridiagonalised Hamiltonian matrix can be computed, which in turn yields the Green's function via continued fractions. While we use a variational algorithm to prepare the ground state in this work, we note that the modularity of our implementation allows for other (non-variational) approaches to be used for the ground state.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# 局所的特徴学習のためのセグメンテーションモデル

Segment Anything Model is a Good Teacher for Local Feature Learning ( http://arxiv.org/abs/2309.16992v3 )

ライセンス: Link先を確認
Jingqian Wu, Rongtao Xu, Zach Wood-Doughty, Changwei Wang, Shibiao Xu, Edmund Y. Lam, (参考訳) 局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。 データ駆動の局所的特徴学習手法は、大規模な取得が困難な訓練において、ピクセルレベルの対応に頼る必要があるため、パフォーマンスのさらなる改善を妨げている。 本稿では, SAMFeatを提案する。SAM(segment any model)は, 1100万の画像に基づいて訓練された基本モデルであり, 局所的な特徴学習を指導し, 限られたデータセット上でのより高い性能を刺激する教師である。 まず、SAMエンコーダが学習したカテゴリに依存しないセマンティックな意味情報を局所的な特徴学習ネットワークに蒸留し、意味的識別を用いて局所的な特徴記述を改善するための、注意重み付きセマンティックな関係蒸留(ASRD)の補助タスクを構築する。 次に, SAMから派生したセマンティックグルーピングを弱教師付き信号として利用し, 局所記述子の距離空間を最適化する, Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC) という手法を開発した。 第3に,ネットワークにSAMにより誘導されるエッジ領域に注意を向けるよう促すことにより,ローカル特徴の検出と記述の精度をさらに向上するエッジ注意誘導(EAG)を設計する。 HPatchのイメージマッチングやAachen Day-Nightの長期的な視覚的ローカライゼーションなど、さまざまなタスクにおけるSAMFeatのパフォーマンスは、以前のローカル機能よりも優れていることを示している。 リリースコードはhttps://github.com/vignywang/SAMFeat.comで公開されている。

Local feature detection and description play an important role in many computer vision tasks, which are designed to detect and describe keypoints in "any scene" and "any downstream task". Data-driven local feature learning methods need to rely on pixel-level correspondence for training, which is challenging to acquire at scale, thus hindering further improvements in performance. In this paper, we propose SAMFeat to introduce SAM (segment anything model), a fundamental model trained on 11 million images, as a teacher to guide local feature learning and thus inspire higher performance on limited datasets. To do so, first, we construct an auxiliary task of Attention-weighted Semantic Relation Distillation (ASRD), which distillates feature relations with category-agnostic semantic information learned by the SAM encoder into a local feature learning network, to improve local feature description using semantic discrimination. Second, we develop a technique called Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC), which utilizes semantic groupings derived from SAM as weakly supervised signals, to optimize the metric space of local descriptors. Third, we design an Edge Attention Guidance (EAG) to further improve the accuracy of local feature detection and description by prompting the network to pay more attention to the edge region guided by SAM. SAMFeat's performance on various tasks such as image matching on HPatches, and long-term visual localization on Aachen Day-Night showcases its superiority over previous local features. The release code is available at https://github.com/vignywang/SAMFeat.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# シンプルな水平クラスバックドアで3D防御が可能に

Watch Out! Simple Horizontal Class Backdoor Can Trivially Evade Defense ( http://arxiv.org/abs/2310.00542v3 )

ライセンス: Link先を確認
Hua Ma, Shang Wang, Yansong Gao, Zhi Zhang, Huming Qiu, Minhui Xue, Alsharif Abuadbba, Anmin Fu, Surya Nepal, Derek Abbott, (参考訳) ディープラーニング(DL)モデルに対する現在のバックドア攻撃はすべて、クラス依存の垂直クラスバックドア(VCB)のカテゴリに該当する。 VCB攻撃では、クラスからのサンプルは、シークレットトリガーが存在するときに埋め込まれたバックドアを起動する。 既存の防衛戦略は、VCB攻撃、特にソースクラスに依存しない攻撃への対応に圧倒的に重点を置いている。 この狭い焦点は、他のより単純だが一般的なバックドア型の潜在的な脅威を無視し、誤ったセキュリティ上の影響をもたらす。 本研究は,VCBのクラス依存特性を自明に破り,コミュニティに新たな視点をもたらす水平クラスバックドア(HCB)として考案された,新しい,シンプルで一般的なバックドア攻撃を紹介した。 HCBは、クラスに関係なく、トリガーが無害な特徴と共に提示されるときに起動される。 例えば、顔認識モデルは、笑顔の無害な特徴を持つサングラスをかけた人を、どの人物であっても、管理者などの対象人物に誤分類する。 鍵となるのは、これらの無害な機能はクラス間で水平に共有されているが、クラスごとに部分的なサンプルによってのみ表示されることだ。 MNIST, 顔認識, 交通標識認識, 物体検出, 医療診断など, 様々なタスクにおける攻撃性能に関する大規模な実験により, HCBの高効率性と有効性が確認された。 本研究は, RAID 18', STRIP (ACSAC 19'), Neural Cleanse (Oakland 19'), ABS (CCS 19'), Februus (ACSAC 20'), NAD (ICLR 21'), MNTD (Oakland 21'), SCAn (USENIX SEC 21'), MOTH (Oakland 22'), Beatrix (NDSS 23'), MM-BD (Oakland 24'), MM-BD (Oakland 24'), MM-BD (Oakland 24'), MM-BD (Oakland 24'), MM-BD (Oakland 24') など, HCBの回避性について検討した。 これらの対策はいずれも、小さくて静的な白色四角いパッチのような単純なトリガーを使用する場合であっても、堅牢性を示すものではない。

All current backdoor attacks on deep learning (DL) models fall under the category of a vertical class backdoor (VCB) -- class-dependent. In VCB attacks, any sample from a class activates the implanted backdoor when the secret trigger is present. Existing defense strategies overwhelmingly focus on countering VCB attacks, especially those that are source-class-agnostic. This narrow focus neglects the potential threat of other simpler yet general backdoor types, leading to false security implications. This study introduces a new, simple, and general type of backdoor attack coined as the horizontal class backdoor (HCB) that trivially breaches the class dependence characteristic of the VCB, bringing a fresh perspective to the community. HCB is now activated when the trigger is presented together with an innocuous feature, regardless of class. For example, the facial recognition model misclassifies a person who wears sunglasses with a smiling innocuous feature into the targeted person, such as an administrator, regardless of which person. The key is that these innocuous features are horizontally shared among classes but are only exhibited by partial samples per class. Extensive experiments on attacking performance across various tasks, including MNIST, facial recognition, traffic sign recognition, object detection, and medical diagnosis, confirm the high efficiency and effectiveness of the HCB. We rigorously evaluated the evasiveness of the HCB against a series of eleven representative countermeasures, including Fine-Pruning (RAID 18'), STRIP (ACSAC 19'), Neural Cleanse (Oakland 19'), ABS (CCS 19'), Februus (ACSAC 20'), NAD (ICLR 21'), MNTD (Oakland 21'), SCAn (USENIX SEC 21'), MOTH (Oakland 22'), Beatrix (NDSS 23'), and MM-BD (Oakland 24'). None of these countermeasures prove robustness, even when employing a simplistic trigger, such as a small and static white-square patch.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# RoleLLM: 大規模言語モデルのベンチマーク、緩和、ロールプレイ能力向上

RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models ( http://arxiv.org/abs/2310.00746v3 )

ライセンス: Link先を確認
Zekun Moore Wang, Zhongyuan Peng, Haoran Que, Jiaheng Liu, Wangchunshu Zhou, Yuhan Wu, Hongcheng Guo, Ruitong Gan, Zehao Ni, Jian Yang, Man Zhang, Zhaoxiang Zhang, Wanli Ouyang, Ke Xu, Stephen W. Huang, Jie Fu, Junran Peng, (参考訳) LLM(Large Language Models)の出現は、ロールプレイングのような複雑なタスクの道を開いた。 しかし、最先端のLCMのクローズソースの性質と、それらの汎用的なトレーニングはロールプレイングの最適化を制限している。 本稿では,LLMにおけるロールプレイング能力をベンチマークし,評価し,拡張するフレームワークであるRoleLLMを紹介する。 RoleLLM は,(1) 役割のロールプロファイル構築,(2) 役割固有の知識抽出のためのコンテキストベースインストラクション生成(Context-Instruction Generation),(3) GPT (RoleGPT) を用いた発話スタイル模倣のためのロールプロンプト,(4) オープンソースモデルの微調整のためのロールコンストラクションインストラクションチューニング (RoCIT) の4段階から構成される。 Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。 さらに、RoleBench上のRoCITはRoleLLaMA(英語)とRoleGLM(中国語)を生成し、ロールプレイング能力を大幅に向上させ、RoleGPT(GPT-4)と同等の結果を得る。

The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# 言語モデルによるプライバシリスクの特定と緩和:調査

Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey ( http://arxiv.org/abs/2310.01424v2 )

ライセンス: Link先を確認
Victoria Smith, Ali Shahin Shamsabadi, Carolyn Ashurst, Adrian Weller, (参考訳) 大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。 この進歩は産業や一般大衆に広く関心と普及をもたらした。 しかし、機械学習モデルにおけるトレーニングデータの記憶は、特にLLMに関して、モデルサイズとスケールする。 記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。 LLMを攻撃し、トレーニングデータを抽出する様々な技術が開発されている。 これらのモデルが成長を続けるにつれ、この問題はますます重要になっている。 研究者や政策立案者は、より多くの作業が必要な場所を含むプライバシー攻撃や緩和に関する知識の状況を理解するために、LSMのデータプライバシに関する最初のSoKを提示します。 我が家 一 攻撃がLLMによって異なる有能な次元の分類を定めること。 (II)従来の攻撃を体系化し、我々の次元の分類を用いて重要な傾向を浮き彫りにする。 三 既存の緩和策を調査し、その強みと限界を強調して、 (4)重要なギャップを特定し、オープンな問題と関心のある領域を示す。

Large Language Models (LLMs) have shown greatly enhanced performance in recent years, attributed to increased size and extensive training data. This advancement has led to widespread interest and adoption across industries and the public. However, training data memorization in Machine Learning models scales with model size, particularly concerning for LLMs. Memorized text sequences have the potential to be directly leaked from LLMs, posing a serious threat to data privacy. Various techniques have been developed to attack LLMs and extract their training data. As these models continue to grow, this issue becomes increasingly critical. To help researchers and policymakers understand the state of knowledge around privacy attacks and mitigations, including where more work is needed, we present the first SoK on data privacy for LLMs. We (i) identify a taxonomy of salient dimensions where attacks differ on LLMs, (ii) systematize existing attacks, using our taxonomy of dimensions to highlight key trends, (iii) survey existing mitigation strategies, highlighting their strengths and limitations, and (iv) identify key gaps, demonstrating open problems and areas for concern.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# 相対論的ディラック真空状態に対するフェルミオンエンタングルメントエントロピーと領域法則

The Fermionic Entanglement Entropy and Area Law for the Relativistic Dirac Vacuum State ( http://arxiv.org/abs/2310.03493v2 )

ライセンス: Link先を確認
Felix Finster, Magdalena Lottner, Alexander V. Sobolev, (参考訳) ミンコフスキー時空の有界空間領域における自由ディラック場に対するフェルミオンエンタングルメントエントロピーを考える。 システムを有限にするために、正規化を導入する。 領域法則は、体積が無限大に近づき、正規化の長さが0になるような制限の場合において証明される。 この論文の技術的中心は、ハロルド・ウィドムの定理を、主記号が特定の不連続性を単一の点で発展させる擬微分作用素に一般化することである。

We consider the fermionic entanglement entropy for the free Dirac field in a bounded spatial region of Minkowski spacetime. In order to make the system ultraviolet finite, a regularization is introduced. An area law is proven in the limiting cases where the volume tends to infinity and/or the regularization length tends to zero. The technical core of the paper is to generalize a theorem of Harold Widom to pseudo-differential operators whose principal symbols develop a specific discontinuity at a single point.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# 確率測度の空間上での高速化最適化

Accelerating optimization over the space of probability measures ( http://arxiv.org/abs/2310.04006v3 )

ライセンス: Link先を確認
Shi Chen, Qin Li, Oliver Tse, Stephen J. Wright, (参考訳) 勾配に基づく最適化手法の加速は、特に機械学習アプリケーションにおいて、非常に実践的で理論的に重要な課題である。 ユークリッド空間内での最適化に多くの注意が向けられているが、機械学習における確率測度の空間を超越した最適化の必要性は、この文脈における加速勾配法の探索を動機付けている。 この目的のために、ユークリッド空間における運動量に基づくアプローチに類似したハミルトン流アプローチを導入する。 我々は、連続的な時間設定において、このアプローチに基づくアルゴリズムが任意に高次収束率を達成できることを実証した。 数値的な例でこの知見を補完する。

The acceleration of gradient-based optimization methods is a subject of significant practical and theoretical importance, particularly within machine learning applications. While much attention has been directed towards optimizing within Euclidean space, the need to optimize over spaces of probability measures in machine learning motivates exploration of accelerated gradient methods in this context too. To this end, we introduce a Hamiltonian-flow approach analogous to momentum-based approaches in Euclidean space. We demonstrate that, in the continuous-time setting, algorithms based on this approach can achieve convergence rates of arbitrarily high order. We complement our findings with numerical examples.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# グラフニューラルネットワークの学習方法 - トレーニングダイナミクスから学ぶ

How Graph Neural Networks Learn: Lessons from Training Dynamics ( http://arxiv.org/abs/2310.05105v3 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, David Wipf, Ruoyu Sun, Junchi Yan, (参考訳) ディープラーニングにおける長年の目標は、ブラックボックスモデルの学習行動をより解釈可能な方法で特徴付けることである。 グラフニューラルネットワーク(GNN)では、どの関数を表現できるかの形式化がかなり進んでいるが、最適化プロセス中にGNNが所望の関数を学習するかどうかはまだ明らかになっていない。 このギャップを埋めるために,関数空間におけるトレーニングダイナミクスについて検討する。 特に、GNNの勾配勾配勾配最適化は、学習関数を更新するためにグラフ構造を暗黙的に利用し、これを 'emph{kernel-graph alignment}' と呼ぶ現象によって定量化することができる。 本稿では,この現象の出現に関する理論的説明と実世界のGNN上での実証的検証について述べる。 この発見は、学習したGNN関数が一般化した時期と理由に関する新たな解釈可能な洞察を与え、ヘテロ親和性グラフにおけるそれらの制限を強調している。 実際に,学習関数の更新にスパース行列(グラフ隣接性)を直接使用するパラメータフリーアルゴリズムを提案する。 我々は、この恥ずかしいほど単純なアプローチが、桁違いに高速でありながら、GNNと同じくらい効果的であることを示した。

A long-standing goal in deep learning has been to characterize the learning behavior of black-box models in a more interpretable manner. For graph neural networks (GNNs), considerable advances have been made in formalizing what functions they can represent, but whether GNNs will learn desired functions during the optimization process remains less clear. To fill this gap, we study their training dynamics in function space. In particular, we find that the gradient descent optimization of GNNs implicitly leverages the graph structure to update the learned function, as can be quantified by a phenomenon which we call \emph{kernel-graph alignment}. We provide theoretical explanations for the emergence of this phenomenon in the overparameterized regime and empirically validate it on real-world GNNs. This finding offers new interpretable insights into when and why the learned GNN functions generalize, highlighting their limitations in heterophilic graphs. Practically, we propose a parameter-free algorithm that directly uses a sparse matrix (i.e. graph adjacency) to update the learned function. We demonstrate that this embarrassingly simple approach can be as effective as GNNs while being orders-of-magnitude faster.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# 大規模言語モデルはゼロショットの時系列予測言語である

Large Language Models Are Zero-Shot Time Series Forecasters ( http://arxiv.org/abs/2310.07820v2 )

ライセンス: Link先を確認
Nate Gruver, Marc Finzi, Shikai Qiu, Andrew Gordon Wilson, (参考訳) 時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。 このアプローチにより,GPT-3 や LLaMA-2 のような大規模言語モデル(LLM)は,ダウンストリームタスクでトレーニングされた目的構築された時系列モデルに匹敵する,あるいはそれ以上の性能で驚くほどゼロショット・エクスポレート・時系列を生成できることがわかった。 そこで本稿では, 時系列データを効果的にトークン化し, トークン上の離散分布を連続値上の高い柔軟性のある密度に変換する手法を提案する。 時系列におけるLCMの成功は, 季節的傾向の繰り返しなど, 時系列における顕著な特徴に則った, 単純さのバイアスと反復性とともに, 多モーダル分布を自然に表現する能力に起因している,と我々は主張する。 また,LLMが非数値テキストを通さずに自然に欠落したデータを処理し,テキスト側情報を適応し,予測を説明するための質問に答える方法を示す。 モデルサイズの増加は一般的に時系列のパフォーマンスを向上させるが、GPT-4は数値のトークン化の仕方や不確かさの校正によってGPT-3よりも悪化し、RLHFのようなアライメント介入の結果である可能性が示唆された。

By encoding time series as a string of numerical digits, we can frame time series forecasting as next-token prediction in text. Developing this approach, we find that large language models (LLMs) such as GPT-3 and LLaMA-2 can surprisingly zero-shot extrapolate time series at a level comparable to or exceeding the performance of purpose-built time series models trained on the downstream tasks. To facilitate this performance, we propose procedures for effectively tokenizing time series data and converting discrete distributions over tokens into highly flexible densities over continuous values. We argue the success of LLMs for time series stems from their ability to naturally represent multimodal distributions, in conjunction with biases for simplicity, and repetition, which align with the salient features in many time series, such as repeated seasonal trends. We also show how LLMs can naturally handle missing data without imputation through non-numerical text, accommodate textual side information, and answer questions to help explain predictions. While we find that increasing model size generally improves performance on time series, we show GPT-4 can perform worse than GPT-3 because of how it tokenizes numbers, and poor uncertainty calibration, which is likely the result of alignment interventions such as RLHF.
翻訳日:2024-06-20 05:04:09 公開日:2024-06-18
# 大規模言語モデルにおける素早いエンジニアリングの可能性:包括的レビュー

Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review ( http://arxiv.org/abs/2310.14735v4 )

ライセンス: Link先を確認
Banghao Chen, Zhaofeng Zhang, Nicolas Langrené, Shengxin Zhu, (参考訳) 本稿では,Large Language Models (LLMs) の能力を解き放つ上で,プロンプトエンジニアリングが果たす重要な役割について述べる。 プロンプトエンジニアリング(英: Prompt Engineering)は、LLMの入力テキストを構造化するプロセスであり、LLMの有効性を最適化するための技術である。 この調査は、ロールプロンプトやワンショット、少数ショットプロンプトといったプロンプトエンジニアリングの基本原則と、チェーン・オブ・ソートやツリー・オブ・ソート・プロンプトのようなより高度な方法論を解明する。 本論文は, プラグイン形式の外部支援が, この課題にどのように役立つか, 外部知識の獲得による機械幻覚の低減を図っている。 そこで我々は,AIGC(AIGC)ツールにおける構造とエージェントの役割のより深い理解の必要性を強調した。 本稿では,異なる視点からプロンプト手法の有効性を評価し,異なる手法を用いて評価する方法について議論する。 最後に,教育やプログラミングなどの分野における即時工学の適用に関する情報を収集し,その変容の可能性を示す。 この総合的な調査は、LLMの大世界を探索し、迅速なエンジニアリングを行う人のためのフレンドリーなガイドとして機能することを目的としています。

This paper delves into the pivotal role of prompt engineering in unleashing the capabilities of Large Language Models (LLMs). Prompt engineering is the process of structuring input text for LLMs and is a technique integral to optimizing the efficacy of LLMs. This survey elucidates foundational principles of prompt engineering, such as role-prompting, one-shot, and few-shot prompting, as well as more advanced methodologies such as the chain-of-thought and tree-of-thoughts prompting. The paper sheds light on how external assistance in the form of plugins can assist in this task, and reduce machine hallucination by retrieving external knowledge. We subsequently delineate prospective directions in prompt engineering research, emphasizing the need for a deeper understanding of structures and the role of agents in Artificial Intelligence-Generated Content (AIGC) tools. We discuss how to assess the efficacy of prompt methods from different perspectives and using different methods. Finally, we gather information about the application of prompt engineering in such fields as education and programming, showing its transformative potential. This comprehensive survey aims to serve as a friendly guide for anyone venturing through the big world of LLMs and prompt engineering.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# 埋込みダイアクロニックセンス変化モデルと古代ギリシアの事例研究

An Embedded Diachronic Sense Change Model with a Case Study from Ancient Greek ( http://arxiv.org/abs/2311.00541v4 )

ライセンス: Link先を確認
Schyan Zafar, Geoff K. Nicholls, (参考訳) 言葉の意味は時間とともに変化し、言葉感覚は進化し、その過程で出現し、あるいは消滅する。 コーパスが小さく疎い古代の言語では、このような変化を正確にモデル化することは困難であり、結果として感覚変化の推定の不確実性を定量化することが重要である。 GASC (Genre-Aware Semantic Change) と DiSC (Diachronic Sense Change) は、古代ギリシア語のテキストコーパスからターゲット語の変化を、事前学習の助けなしに教師なしの学習を用いて分析するために使用されている既存の生成モデルである。 これらのモデルは、「コズモス」(装飾、秩序、世界を意味する)のような特定の対象語の感覚を文脈語上の分布として表現し、感覚上の分布として有能さを知覚する。 モデルはマルコフ・チェイン・モンテカルロ法(MCMC)を用いてこれらの表現の時間的変化を測定する。 本稿では,単語埋め込みとDiSCを組み合わせた組込みDiSCモデルであるEDiSCを紹介し,優れたモデル性能を提供する。 EDiSCは、MCMC法によるサンプリング効率と拡張性の向上とともに、予測精度の向上、地道回復、不確実性定量化を提供する。 これらのモデルに適合する上での課題についても論じる。

Word meanings change over time, and word senses evolve, emerge or die out in the process. For ancient languages, where the corpora are often small and sparse, modelling such changes accurately proves challenging, and quantifying uncertainty in sense-change estimates consequently becomes important. GASC (Genre-Aware Semantic Change) and DiSC (Diachronic Sense Change) are existing generative models that have been used to analyse sense change for target words from an ancient Greek text corpus, using unsupervised learning without the help of any pre-training. These models represent the senses of a given target word such as ``kosmos'' (meaning decoration, order or world) as distributions over context words, and sense prevalence as a distribution over senses. The models are fitted using Markov Chain Monte Carlo (MCMC) methods to measure temporal changes in these representations. This paper introduces EDiSC, an Embedded DiSC model, which combines word embeddings with DiSC to provide superior model performance. It is shown empirically that EDiSC offers improved predictive accuracy, ground-truth recovery and uncertainty quantification, as well as better sampling efficiency and scalability properties with MCMC methods. The challenges of fitting these models are also discussed.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# 集団カウントのための識別的特徴の学習

Learning Discriminative Features for Crowd Counting ( http://arxiv.org/abs/2311.04509v2 )

ライセンス: Link先を確認
Yuehai Chen, Qingzhong Wang, Jing Yang, Badong Chen, Haoyi Xiong, Shaoyi Du, (参考訳) 非常に混雑した地域での群衆カウントモデルは、ローカライゼーション能力の弱さと、前景と背景の区別の難しさという2つの大きな課題に直面し、不正確な見積もりにつながります。 その理由は、非常に密集した領域のオブジェクトは通常小さく、畳み込みニューラルネットワークによって抽出される高レベルな特徴は、小さなオブジェクトを表現するための識別性が低いからである。 これらの問題に対処するために,マスク付き特徴予測モジュール (MPM) と教師付き画素レベルのコントラスト学習モジュール (CLM) から構成される,クラウドカウントのための学習識別機能フレームワークを提案する。 MPMは、特徴マップ内の特徴ベクトルをランダムにマスキングし、それらを再構成することで、マスクされた領域に存在するものについてモデルを学習し、高密度領域の物体をローカライズする能力を向上させる。 CLMはターゲットを互いに近づき、特徴空間の背景から遠ざけ、モデルが背景オブジェクトを背景から識別できるようにする。 さらに、提案したモジュールは、密集したシーンや散在した環境が正確なローカライゼーションに挑戦する、群衆カウントや物体検出など、様々なコンピュータビジョンタスクに有用である。 提案された2つのモジュールはプラグイン・アンド・プレイであり、提案されたモジュールを既存のモデルに組み込むことで、これらのシナリオにおけるパフォーマンスが向上する可能性がある。

Crowd counting models in highly congested areas confront two main challenges: weak localization ability and difficulty in differentiating between foreground and background, leading to inaccurate estimations. The reason is that objects in highly congested areas are normally small and high level features extracted by convolutional neural networks are less discriminative to represent small objects. To address these problems, we propose a learning discriminative features framework for crowd counting, which is composed of a masked feature prediction module (MPM) and a supervised pixel-level contrastive learning module (CLM). The MPM randomly masks feature vectors in the feature map and then reconstructs them, allowing the model to learn about what is present in the masked regions and improving the model's ability to localize objects in high density regions. The CLM pulls targets close to each other and pushes them far away from background in the feature space, enabling the model to discriminate foreground objects from background. Additionally, the proposed modules can be beneficial in various computer vision tasks, such as crowd counting and object detection, where dense scenes or cluttered environments pose challenges to accurate localization. The proposed two modules are plug-and-play, incorporating the proposed modules into existing models can potentially boost their performance in these scenarios.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# 無限大データの最小二乗クラスタリングのための高性能ハイブリッドアルゴリズム

High-Performance Hybrid Algorithm for Minimum Sum-of-Squares Clustering of Infinitely Tall Data ( http://arxiv.org/abs/2311.04517v4 )

ライセンス: Link先を確認
Ravil Mussabayev, Rustam Mussabayev, (参考訳) 本稿では,Infinitely Tall Data (MSSC-ITD) の最小階数クラスタリング(Minimum Sum-of-Squares Clustering of Infinitely Tall Data, MSC-ITD)という,クラスタリング問題の新しい定式化と,その有効解に対するハイブリッド並列手法の革新的な集合であるHPClustを提案する。 現代の高性能コンピューティング技術を利用することで、HPClustは、有効性、計算効率、拡張性といった主要なクラスタリング指標を強化する。 MapReduceフレームワークによる処理時間を短縮するバニラデータ並列処理とは対照的に,本手法では,マルチストラテジーな競合協調並列処理と,目的関数ランドスケープの複雑な特性を活用して,優れた性能を実現する。 スケールに苦しむ他のアルゴリズムとは異なり、当社のアルゴリズムは本質的に並列であり、スケーラビリティと並列性の向上によるソリューション品質の向上、中小データセット用に設計された高度なアルゴリズムよりも優れています。 4つの並列戦略を特徴とするHPClustの評価は,従来の手法や最先端手法よりも優れた性能を示す。 これらの結果から,並列処理はクラスタリング効率を向上するだけでなく,精度も向上することが示された。 さらに、計算効率とクラスタリング品質のバランスについて検討し、データセットの詳細とリソース可用性に基づいた最適な並列戦略に関する洞察を提供する。 本研究はクラスタリングアルゴリズムにおける並列性についての理解を深め,MSSC-ITD に対して,高度な並列アプローチの厳密なハイブリッド化が最適な結果をもたらすことを示す。 合成データに関する実験は、HPClustの異常なスケーラビリティとノイズに対する堅牢性をさらに確認した。

This paper introduces a novel formulation of the clustering problem, namely the Minimum Sum-of-Squares Clustering of Infinitely Tall Data (MSSC-ITD), and presents HPClust, an innovative set of hybrid parallel approaches for its effective solution. By utilizing modern high-performance computing techniques, HPClust enhances key clustering metrics: effectiveness, computational efficiency, and scalability. In contrast to vanilla data parallelism, which only accelerates processing time through the MapReduce framework, our approach unlocks superior performance by leveraging the multi-strategy competitive-cooperative parallelism and intricate properties of the objective function landscape. Unlike other available algorithms that struggle to scale, our algorithm is inherently parallel in nature, improving solution quality through increased scalability and parallelism, and outperforming even advanced algorithms designed for small and medium-sized datasets. Our evaluation of HPClust, featuring four parallel strategies, demonstrates its superiority over traditional and cutting-edge methods by offering better performance in the key metrics. These results also show that parallel processing not only enhances the clustering efficiency, but the accuracy as well. Additionally, we explore the balance between computational efficiency and clustering quality, providing insights into optimal parallel strategies based on dataset specifics and resource availability. This research advances our understanding of parallelism in clustering algorithms, demonstrating that a judicious hybridization of advanced parallel approaches yields optimal results for MSSC-ITD. Experiments on synthetic data further confirm HPClust's exceptional scalability and robustness to noise.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# 連続可変テレポーテーションによる恒星干渉計の量子優位性

Limited quantum advantage for stellar interferometry via continuous-variable teleportation ( http://arxiv.org/abs/2311.05159v3 )

ライセンス: Link先を確認
Zixin Huang, Ben Q. Baragiola, Nicolas C. Menicucci, Mark M. Wilde, (参考訳) 我々は、連続可変(CV)量子情報形式における恒星干渉法を考察し、直接干渉法(DI)、局所ヘテロダイン測定、CVテレポーテーションに基づく戦略の3つの主要な戦略のパフォーマンスを特徴付けるために量子フィッシャー情報(QFI)を用いる。 損失のない体制では、DIで達成可能なQFIの95%を$r\approx 2$ (18 dB) のスクイーズパラメータが$\approx$95\%に達する必要がある。 低損失状態では、CVテレポーテーション戦略はDIよりも劣り、損失の増加とともに性能ギャップが拡大する。 高損失状態においては、CVテレポーテーション戦略がDIと局所ヘテロダインの両方をわずかに上回り、最適戦略の移行を示す小さな損失領域が存在する。 この利点は、損失の小さな領域で発生するものであり、利点の規模も小さいため、限定的であると記述する。 我々は、現実的な困難は、星間干渉計におけるCVテレポーテーションに基づく戦略の利点を制限し、量子上の優位性を達成することをさらに妨げていると論じる。

We consider stellar interferometry in the continuous-variable (CV) quantum information formalism and use the quantum Fisher information (QFI) to characterize the performance of three key strategies: direct interferometry (DI), local heterodyne measurement, and a CV teleportation-based strategy. In the lossless regime, we show that a squeezing parameter of $r\approx 2$ (18 dB) is required to reach $\approx$ 95\% of the QFI achievable with DI; such a squeezing level is beyond what has been achieved experimentally. In the low-loss regime, the CV teleportation strategy becomes inferior to DI, and the performance gap widens as loss increases. Curiously, in the high-loss regime, a small region of loss exists where the CV teleportation strategy slightly outperforms both DI and local heterodyne, representing a transition in the optimal strategy. We describe this advantage as limited because it occurs for a small region of loss, and the magnitude of the advantage is also small. We argue that practical difficulties further impede achieving any quantum advantage, limiting the merits of a CV teleportation-based strategy for stellar interferometry.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# フーリエニューラル演算子を用いたプラズマサロゲートモデリング

Plasma Surrogate Modelling using Fourier Neural Operators ( http://arxiv.org/abs/2311.05967v2 )

ライセンス: Link先を確認
Vignesh Gopakumar, Stanislas Pamela, Lorenzo Zanisi, Zongyi Li, Ander Gray, Daniel Brennand, Nitesh Bhatia, Gregory Stathopoulos, Matt Kusner, Marc Peter Deisenroth, Anima Anandkumar, JOREK Team, MAST Team, (参考訳) トカマク炉内のプラズマの進化を予測することは、持続可能な核融合の目標を実現するために不可欠である。 プラズマの時空間的進化を迅速かつ正確に予測する能力により、現在のトカマク装置や将来の原子炉の設計・制御戦略を迅速に反復することができる。 数値解法を用いてプラズマの進化をモデル化することは、しばしば高価であり、スーパーコンピュータで多くの時間を要するため、代替の安価な代理モデルが必要である。 深層学習に基づく代理モデリングツールviz., Fourier Neural Operators (FNO) を用いて, シミュレーションと実験領域の両方でプラズマの進化の正確な予測を行う。 我々はFNOが磁気流体力学モデルからシミュレーションされたプラズマ力学の予測において従来の解法よりも6桁の速度を持つことを示した(正規化された領域のMSEは$10^{-5}$である)。 我々の修正版FNOは多変数部分微分方程式(PDE)を解くことができ、異なる変数間の依存を単一のモデルで捉えることができる。 FNOは、MASTトカマク内のカメラで観測された実世界の実験データ、すなわち、中央ソレノイドとトカマクのダイバーターを横切るカメラから、プラズマの進化を予測することもできる。 我々は,FNOがプラズマの進化を正確に予測し,リアルタイムモニタリングに利用することができることを示した。 また, プラズマの形状, 中心ソレノイドとプラズマの相互作用位置, およびMAST内におけるプラズマショットの完全な(利用可能な)持続時間に対するダイバータの予測能力についても述べる。 FNOは、高速なトレーニングと推論を行うため、サロゲートモデリングの実行可能な代替手段を提供すると同時に、ゼロショット超解像度を実現し、高忠実度ソリューションを得るのに、より少ないデータポイントを必要とする。

Predicting plasma evolution within a Tokamak reactor is crucial to realizing the goal of sustainable fusion. Capabilities in forecasting the spatio-temporal evolution of plasma rapidly and accurately allow us to quickly iterate over design and control strategies on current Tokamak devices and future reactors. Modelling plasma evolution using numerical solvers is often expensive, consuming many hours on supercomputers, and hence, we need alternative inexpensive surrogate models. We demonstrate accurate predictions of plasma evolution both in simulation and experimental domains using deep learning-based surrogate modelling tools, viz., Fourier Neural Operators (FNO). We show that FNO has a speedup of six orders of magnitude over traditional solvers in predicting the plasma dynamics simulated from magnetohydrodynamic models, while maintaining a high accuracy (MSE in the normalised domain $\approx$ $10^{-5}$). Our modified version of the FNO is capable of solving multi-variable Partial Differential Equations (PDE), and can capture the dependence among the different variables in a single model. FNOs can also predict plasma evolution on real-world experimental data observed by the cameras positioned within the MAST Tokamak, i.e., cameras looking across the central solenoid and the divertor in the Tokamak. We show that FNOs are able to accurately forecast the evolution of plasma and have the potential to be deployed for real-time monitoring. We also illustrate their capability in forecasting the plasma shape, the locations of interactions of the plasma with the central solenoid and the divertor for the full (available) duration of the plasma shot within MAST. The FNO offers a viable alternative for surrogate modelling as it is quick to train and infer, and requires fewer data points, while being able to do zero-shot super-resolution and getting high-fidelity solutions.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# ロバストテキスト分類:プロトタイプベースネットワークの解析

Robust Text Classification: Analyzing Prototype-Based Networks ( http://arxiv.org/abs/2311.06647v2 )

ライセンス: Link先を確認
Zhivar Sourati, Darshan Deshpande, Filip Ilievski, Kiril Gashteovski, Sascha Saralajew, (参考訳) 下流のアプリケーションは、正確で堅牢なテキスト分類モデルを必要とすることが多い。 最先端の言語モデル(LM)の精度は人間のパフォーマンスを近似するが、実世界で見つかったノイズの多いデータに対する性能の低下を示すことが多い。 この堅牢性の欠如は、テキスト内の小さな摂動でさえ、目的のタスクとは無関係に、分類器が誤って予測を変更してしまう可能性があるため、問題となる。 潜在的な解決策は、クラス(プロトタイプ)の原型的な例と類似性に基づいて例を分類するPBN(Prototype-Based Networks)ファミリーであり、コンピュータビジョンタスクのノイズに対して堅牢であることが示されている。 本稿では,PBNがテキスト分類タスクに変換するロバスト性について,ターゲットと静的の両方の攻撃条件下で検討する。 以上の結果から,PBNsは,ターゲット設定と静的設定の両方において,バニラLMのアーキテクチャ上のバリエーションとして,バニラLMよりもロバスト性が高いことがわかった。 PBNsの解釈性はPBNsの強靭性の性質を理解するのにどう役立つかを示す。 最後に,より厳密なクラスタリングによってPBNがより堅牢になるため,トレーニング段階でのクラスタリングの厳密さに対するPBNの頑健さの感度を明らかにする。

Downstream applications often require text classification models to be accurate and robust. While the accuracy of the state-of-the-art Language Models (LMs) approximates human performance, they often exhibit a drop in performance on noisy data found in the real world. This lack of robustness can be concerning, as even small perturbations in the text, irrelevant to the target task, can cause classifiers to incorrectly change their predictions. A potential solution can be the family of Prototype-Based Networks (PBNs) that classifies examples based on their similarity to prototypical examples of a class (prototypes) and has been shown to be robust to noise for computer vision tasks. In this paper, we study whether the robustness properties of PBNs transfer to text classification tasks under both targeted and static adversarial attack settings. Our results show that PBNs, as a mere architectural variation of vanilla LMs, offer more robustness compared to vanilla LMs under both targeted and static settings. We showcase how PBNs' interpretability can help us to understand PBNs' robustness properties. Finally, our ablation studies reveal the sensitivity of PBNs' robustness to how strictly clustering is done in the training phase, as tighter clustering results in less robust PBNs.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# ML-Bench:リポジトリレベルのコードに基づく機械学習タスクのための大規模言語モデルとエージェントの評価

ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code ( http://arxiv.org/abs/2311.09835v4 )

ライセンス: Link先を確認
Xiangru Tang, Yuliang Liu, Zefan Cai, Yanjun Shao, Junjie Lu, Yichi Zhang, Zexuan Deng, Helan Hu, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Liang Chen, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yin Fang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein, (参考訳) GPT-4のような大規模言語モデル(LLM)は、関数レベルのコード生成において印象的な結果をもたらすが、リポジトリスケールのコード理解(例えば、ルーチンを呼び出すための正しい引数を思いつく)に苦慮し、複雑なファイルインタラクションのより深い理解を必要としている。 また、最近では、レポジトリコード(例えば、コンパイルと実行の評価)と対話しようとするLLMエージェントも開発され、パフォーマンスを評価する必要性が高まっている。 ML-Benchは、既存のコードリポジトリを利用してタスクを実行する実世界のプログラミングアプリケーションに根ざしたベンチマークです。 LLMが長いコードコンテキストを解釈し、命令を正確に実行可能なスクリプトに変換する必要性に対処するため、ML-Benchは18のGitHubリポジトリに9,641の注釈付きサンプルを含んでいる。 LLMとAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。 以上の結果から, GPT-4oはPass@5を50%以上でリードするが, 幻覚出力やbashスクリプト生成の難しさなど, 改善の余地は大きいことが示唆された。 特に、より要求の高いML-Agent-Benchでは、GPT-4oは76.47%の成功率に達し、複雑なタスク解決における反復的なアクションとフィードバックの有効性を反映している。 私たちのコード、データセット、モデルはhttps://github.com/gersteinlab/ML-bench.orgで公開されています。

Despite Large Language Models (LLMs) like GPT-4 achieving impressive results in function-level code generation, they struggle with repository-scale code understanding (e.g., coming up with the right arguments for calling routines), requiring a deeper comprehension of complex file interactions. Also, recently, people have developed LLM agents that attempt to interact with repository code (e.g., compiling and evaluating its execution), prompting the need to evaluate their performance. These gaps have motivated our development of ML-Bench, a benchmark rooted in real-world programming applications that leverage existing code repositories to perform tasks. Addressing the need for LLMs to interpret long code contexts and translate instructions into precise, executable scripts, ML-Bench encompasses annotated 9,641 examples across 18 GitHub repositories, challenging LLMs to accommodate user-specified arguments and documentation intricacies effectively. To evaluate both LLMs and AI agents, two setups are employed: ML-LLM-Bench for assessing LLMs' text-to-code conversion within a predefined deployment environment, and ML-Agent-Bench for testing autonomous agents in an end-to-end task execution within a Linux sandbox environment. Our findings indicate that while GPT-4o leads with a Pass@5 rate surpassing 50%, there remains significant scope for improvement, highlighted by issues such as hallucinated outputs and difficulties with bash script generation. Notably, in the more demanding ML-Agent-Bench, GPT-4o achieves a 76.47% success rate, reflecting the efficacy of iterative action and feedback in complex task resolution. Our code, dataset, and models are available at https://github.com/gersteinlab/ML-bench.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# Nova: 階層的注意とコントラスト学習を伴うアセンブリコードの生成言語モデル

Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning ( http://arxiv.org/abs/2311.13721v3 )

ライセンス: Link先を確認
Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang, (参考訳) バイナリコード分析はセキュリティ領域における重要なタスクの基盤です。 大規模な言語モデル(LLM)は、ソースコードタスクに驚くべき改善をもたらしたが、アセンブリの独特な課題によりアセンブリコードに直接一般化するものではない。 これらの課題を克服するため、本研究では、より効果的にセマンティクスをキャプチャするための注意要約を構築する階層的な注意機構を提案し、LCMを学習するための対照的な学習目標を設計し、アセンブリ最適化を学ぶ。 これらの技法を取り入れたこの研究は、アセンブリコードのためのジェネレーティブLLMであるNovaを開発した。 Novaはバイナリコード逆コンパイルの既存のテクニックを最大146.54%上回り、最新のバイナリコード類似性検出テクニックを最大6.17%上回り、アセンブリ生成と理解タスクの両方において有望な能力を示している。

Binary code analysis is the foundation of crucial tasks in the security domain; thus building effective binary analysis techniques is more important than ever. Large language models (LLMs) although have brought impressive improvement to source code tasks, do not directly generalize to assembly code due to the unique challenges of assembly: (1) the low information density of assembly and (2) the diverse optimizations in assembly code. To overcome these challenges, this work proposes a hierarchical attention mechanism that builds attention summaries to capture the semantics more effectively, and designs contrastive learning objectives to train LLMs to learn assembly optimization. Equipped with these techniques, this work develops Nova, a generative LLM for assembly code. Nova outperforms existing techniques on binary code decompilation by up to 146.54%, and outperforms the latest binary code similarity detection techniques by up to 6.17%, showing promising abilities on both assembly generation and understanding tasks.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# ERASER: 推論Serving-AwareアプローチによるMLaaSの機械学習

ERASER: Machine Unlearning in MLaaS via an Inference Serving-Aware Approach ( http://arxiv.org/abs/2311.16136v3 )

ライセンス: Link先を確認
Yuke Hu, Jian Lou, Jiaqi Liu, Wangze Ni, Feng Lin, Zhan Qin, Kui Ren, (参考訳) 過去数年間、MLaaS(Machine Learning-as-a-Service)は、さまざまなアプリケーション領域にわたる革新的なユーザエクスペリエンスを提供するマシンラーニング駆動サービスのサポートに対する需要が急増している。 MLaaSは、多数の個々のデータ所有者から収集されたデータセットを使用してトレーニングされたMLモデルに基づいて、推論レイテンシの低い推論サービスを提供する。 近年,データ所有者のプライバシのため,データ保護法によって制定された「忘れられる権利(RTBF)」に準拠するため,データ所有者の未学習要求に基づいてトレーニングされたモデルからデータを削除するための機械学習手法が多数提案されている。 しかし、その有望な効率にもかかわらず、既存の機械学習メソッドのほとんどすべてが、推論要求から独立して、未学習リクエストを処理する。 本稿では,MLaASにおけるmachinE unleaRningのためのERASERフレームワークについて,InferencE seRving-awareアプローチを用いて提案する。 ERASERは、推論サービスの陳腐化問題に対処する適切な未学習実行タイミングを戦略的に選択する。 未学習実行の延期によるRTBF原則違反を回避し、望ましくない露光の脆弱性を軽減するため、新しい推論整合性認証機構を提案する。 ERASERは、さまざまなMLaaSシステムの特定の環境や好みに最も適した、テーラーメイドのバリエーションを可能にするために、3つのグループの設計選択を提供する。 さまざまな設定にわたる大規模な実験的な評価により、ERASERの有効性が確認されている。例えば、推論待ち時間の99%と、推論オフブリビオンベースライン上での計算オーバーヘッドの31%を効果的に削減できる。

Over the past years, Machine Learning-as-a-Service (MLaaS) has received a surging demand for supporting Machine Learning-driven services to offer revolutionized user experience across diverse application areas. MLaaS provides inference service with low inference latency based on an ML model trained using a dataset collected from numerous individual data owners. Recently, for the sake of data owners' privacy and to comply with the "right to be forgotten (RTBF)" as enacted by data protection legislation, many machine unlearning methods have been proposed to remove data owners' data from trained models upon their unlearning requests. However, despite their promising efficiency, almost all existing machine unlearning methods handle unlearning requests independently from inference requests, which unfortunately introduces a new security issue of inference service obsolescence and a privacy vulnerability of undesirable exposure for machine unlearning in MLaaS. In this paper, we propose the ERASER framework for machinE unleaRning in MLaAS via an inferencE seRving-aware approach. ERASER strategically choose appropriate unlearning execution timing to address the inference service obsolescence issue. A novel inference consistency certification mechanism is proposed to avoid the violation of RTBF principle caused by postponed unlearning executions, thereby mitigating the undesirable exposure vulnerability. ERASER offers three groups of design choices to allow for tailor-made variants that best suit the specific environments and preferences of various MLaaS systems. Extensive empirical evaluations across various settings confirm ERASER's effectiveness, e.g., it can effectively save up to 99% of inference latency and 31% of computation overhead over the inference-oblivion baseline.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# MM-SafetyBench:マルチモーダル大言語モデルの安全性評価ベンチマーク

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models ( http://arxiv.org/abs/2311.17600v4 )

ライセンス: Link先を確認
Xin Liu, Yichen Zhu, Jindong Gu, Yunshi Lan, Chao Yang, Yu Qiao, (参考訳) LLM(Large Language Models)を取り巻くセキュリティの懸念が広く検討されているが、MLLM(Multimodal Large Language Models)の安全性はいまだ検討されていない。 本稿では,Multimodal Large Language Models (MLLMs) が,テキストクエリ自体が悪意のあるものであるかのように,クエリ関連画像によって容易に損なわれることを観察する。 そこで本稿では,MLLMの安全性評価を行うための総合的なフレームワークであるMM-SafetyBenchを紹介する。 13のシナリオからなるデータセットをコンパイルした結果,合計5,040のテキストイメージペアが得られた。 12種類の最先端モデルから分析したところ、MLLMは、装備されたLCMが安全に整合している場合でも、我々のアプローチによる侵害の影響を受けやすいことが判明した。 そこで本研究では,これらの攻撃に対するMLLMのレジリエンスを高めるための,単純かつ効果的なプロンプト戦略を提案する。 我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。 リソースはhttps://github.com/isXinLiu/MM-SafetyBenchで入手できる。

The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Multimodal Large Language Models (MLLMs) remains understudied. In this paper, we observe that Multimodal Large Language Models (MLLMs) can be easily compromised by query-relevant images, as if the text query itself were malicious. To address this, we introduce MM-SafetyBench, a comprehensive framework designed for conducting safety-critical evaluations of MLLMs against such image-based manipulations. We have compiled a dataset comprising 13 scenarios, resulting in a total of 5,040 text-image pairs. Our analysis across 12 state-of-the-art models reveals that MLLMs are susceptible to breaches instigated by our approach, even when the equipped LLMs have been safety-aligned. In response, we propose a straightforward yet effective prompting strategy to enhance the resilience of MLLMs against these types of attacks. Our work underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source MLLMs against potential malicious exploits. The resource is available at https://github.com/isXinLiu/MM-SafetyBench
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# 3Dニューラルスティル化の進歩:サーベイ

Advances in 3D Neural Stylization: A Survey ( http://arxiv.org/abs/2311.18328v2 )

ライセンス: Link先を確認
Yingshu Chen, Guocheng Shao, Ka Chun Shum, Binh-Son Hua, Sai-Kit Yeung, (参考訳) 現代の人工知能は、画像、ビデオ、そして3Dデータといった様々なスタイルやモダリティにまたがるデジタルアートを作るための、斬新で革新的なアプローチを提供し、創造性の力を解き放ち、私たちが視覚的コンテンツを理解し、相互作用する方法に革命をもたらす。 本稿では,ニューラルネットワークの表現力による3Dアセット作成と操作のスタイル化の最近の進歩について報告する。 我々は、シーン表現、ガイダンスデータ、最適化戦略、出力スタイルといった重要な設計選択を考慮し、ニューラルスタイリゼーションのための分類法を確立する。 このような分類に基づいて,我々はまず2次元画像におけるニューラルスタイリゼーションの背景を再考し,次に選択したニューラルフィールドスタイリゼーション法をミニベンチマークで評価し,最近の3次元データに対するニューラルスタイリゼーション手法について詳細に検討した。 この調査から得られた知見に基づいて、現代の人工知能を用いて、急速に進化する3Dコンテンツ創造の風景を、研究者や実践者がナビゲートすることを可能にする、ニューラルネットワークのスタイリングの実践的重要性、オープンチャレンジ、将来の研究、潜在的な影響を強調した。

Modern artificial intelligence offers a novel and transformative approach to creating digital art across diverse styles and modalities like images, videos and 3D data, unleashing the power of creativity and revolutionizing the way that we perceive and interact with visual content. This paper reports on recent advances in stylized 3D asset creation and manipulation with the expressive power of neural networks. We establish a taxonomy for neural stylization, considering crucial design choices such as scene representation, guidance data, optimization strategies, and output styles. Building on such taxonomy, our survey first revisits the background of neural stylization on 2D images, and then presents in-depth discussions on recent neural stylization methods for 3D data, accompanied by a mini-benchmark evaluating selected neural field stylization methods. Based on the insights gained from the survey, we highlight the practical significance, open challenges, future research, and potential impacts of neural stylization, which facilitates researchers and practitioners to navigate the rapidly evolving landscape of 3D content creation using modern artificial intelligence.
翻訳日:2024-06-20 04:54:22 公開日:2024-06-18
# 摂動に基づく構成データへの影響対策

Perturbation-based Effect Measures for Compositional Data ( http://arxiv.org/abs/2311.18501v2 )

ライセンス: Link先を確認
Anton Rask Lundborg, Niklas Pfister, (参考訳) 構成的特徴に対する既存の効果測定は、2つの理由から現代の多くの応用には不十分である。 第一に、例えば微生物学的研究において、構成共変量を持つ現代のデータセットは、従来のパラメトリックなアプローチではモデル化が不十分な高次元性や空間性などの特性を示す。 第2に、組成(例えば人種の多様性)の要約統計が応答変数にどのように影響するかを、偏見のない方法で評価することは簡単ではない。 本研究では,両問題に対処する仮説的データ摂動に基づくフレームワークを提案する。 構成的特徴に対する既存の多くの効果尺度とは異なり、パラメトリックモデルやデータの変換に基づいて、我々の効果を定義しない。 代わりに、摂動を用いて合成自体の解釈可能な統計関数を定義し、平均摂動効果と呼ぶ。 これらの効果は、バイアスが境界依存分析を頻繁に使用するという欠点を自然に説明できる。 摂動依存再パラメータ化を導出し, 半パラメトリック推定手法を適用することにより, 平均摂動効果を効率的に推定できることを示す。 シミュレーションおよび半合成データに基づいて提案した推定器を実証的に分析し,ニューヨークの学校やマイクロバイオームのデータに対する既存の手法よりも優れていることを示す。 提案したすべての推定器に対して、一様漸近的カバレッジ保証を伴う信頼区間を提供する。

Existing effect measures for compositional features are inadequate for many modern applications for two reasons. First, modern datasets with compositional covariates, for example in microbiome research, display traits such as high-dimensionality and sparsity that can be poorly modelled with traditional parametric approaches. Second, assessing -- in an unbiased way -- how summary statistics of a composition (e.g., racial diversity) affect a response variable is not straightforward. In this work, we propose a framework based on hypothetical data perturbations that addresses both issues. Unlike many existing effect measures for compositional features, we do not define our effects based on a parametric model or a transformation of the data. Instead, we use perturbations to define interpretable statistical functionals on the compositions themselves, which we call average perturbation effects. These effects naturally account for confounding that biases frequently used marginal dependence analyses. We show how average perturbation effects can be estimated efficiently by deriving a perturbation-dependent reparametrization and applying semiparametric estimation techniques. We analyze the proposed estimators empirically on simulated and semi-synthetic data and demonstrate advantages over existing techniques on data from New York schools and microbiome data. For all proposed estimators, we provide confidence intervals with uniform asymptotic coverage guarantees.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# 256塩基の価値あるビデオ:ゼロショットビデオ編集のための空間的期待-最大化インバージョン

A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization Inversion for Zero-Shot Video Editing ( http://arxiv.org/abs/2312.05856v3 )

ライセンス: Link先を確認
Maomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, Dong Xu, (参考訳) 本稿では,ゼロショット映像編集における映像インバージョン手法を提案する。 既存のビデオ編集法では、通常、2D DDIMのインバージョンや、編集前のナイーブな時空間DDIMのインバージョンを適用している。 多くの既存手法と異なり,より高密度な映像特徴を期待・最大化法で定式化し,映像全体を表現するためのよりコンパクトなベースを反復的に推定する空間的期待・最大化(STEM)インバージョンを提案する。 各フレームはインバージョンに対して固定的かつグローバルな表現を適用し、再構成と編集の間は時間的一貫性に親しみやすい。 広汎な定性的および定量的実験により、STEMインバージョンは、2つの最先端のビデオ編集方法において一貫した改善を達成できることを示した。 プロジェクトページ:https://stem-inv.github.io/page/。

This paper presents a video inversion approach for zero-shot video editing, which models the input video with low-rank representation during the inversion process. The existing video editing methods usually apply the typical 2D DDIM inversion or naive spatial-temporal DDIM inversion before editing, which leverages time-varying representation for each frame to derive noisy latent. Unlike most existing approaches, we propose a Spatial-Temporal Expectation-Maximization (STEM) inversion, which formulates the dense video feature under an expectation-maximization manner and iteratively estimates a more compact basis set to represent the whole video. Each frame applies the fixed and global representation for inversion, which is more friendly for temporal consistency during reconstruction and editing. Extensive qualitative and quantitative experiments demonstrate that our STEM inversion can achieve consistent improvement on two state-of-the-art video editing methods. Project page: https://stem-inv.github.io/page/.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# タスクfMRI解析空間におけるパイプライン群集の探索

Uncovering communities of pipelines in the task-fMRI analytical space ( http://arxiv.org/abs/2312.06231v3 )

ライセンス: Link先を確認
Elodie Germani, Elisa Fromont, Camille Maumet, (参考訳) 機能的磁気共鳴イメージングにおける解析的ワークフローは、パイプラインの選択方法に関する限られたベストプラクティスで非常に柔軟である。 異なるパイプラインを使用することで異なる結果がもたらされることが示されているが、これらの違いを駆動する要因や、コンテキスト間の差異の安定性についてはまだ理解されていない。 コミュニティ検出アルゴリズムを使用して、パイプライン空間を探索し、さまざまなコンテキストにわたるパイプライン関係の安定性を評価します。 特に、特定のパラメータ(例えば、モーションレグレッタの数、ソフトウェアパッケージなど)を共有するパイプラインには、同様の結果をもたらすサブセットがあることが示されています。 これらのパイプライン・ツー・ピペリンパターンは参加者のグループ間で安定しているが、異なるタスクをまたぐものではない。 コミュニティ間の差異を可視化することにより,脳内の活性化領域の大きさと統計地図における統計値のスケールによって,パイプライン空間が駆動されることを示す。

Analytical workflows in functional magnetic resonance imaging are highly flexible with limited best practices as to how to choose a pipeline. While it has been shown that the use of different pipelines might lead to different results, there is still a lack of understanding of the factors that drive these differences and of the stability of these differences across contexts. We use community detection algorithms to explore the pipeline space and assess the stability of pipeline relationships across different contexts. We show that there are subsets of pipelines that give similar results, especially those sharing specific parameters (e.g. number of motion regressors, software packages, etc.). Those pipeline-to-pipeline patterns are stable across groups of participants but not across different tasks. By visualizing the differences between communities, we show that the pipeline space is mainly driven by the size of the activation area in the brain and the scale of statistic values in statistic maps.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# JailGuard: LLM Promptベースの攻撃のためのユニバーサル検出フレームワーク

JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks ( http://arxiv.org/abs/2312.10766v3 )

ライセンス: Link先を確認
Xiaoyu Zhang, Cen Zhang, Tianlin Li, Yihao Huang, Xiaojun Jia, Ming Hu, Jie Zhang, Yang Liu, Shiqing Ma, Chao Shen, (参考訳) LLM(Large Language Model)とMLLM(Multi-Modal LLM)は、多くのアプリケーションにおいて重要な役割を担っている。 しかし、現在のLLMはプロンプトベースの攻撃に対して脆弱であり、Jailbreak攻撃によりLLMは有害なコンテンツを生成するが、ハイジャック攻撃は意図しないタスクを実行するためにモデルを操作し、検出方法の必要性を裏付ける。 残念ながら、既存の検出アプローチは、通常特定の攻撃に合わせて調整されるため、様々なモードにわたる様々な攻撃を検出するには、一般化が不十分である。 そこで我々は,LLM や MLLM にまたがるジェイルブレイクおよびハイジャック攻撃の普遍的検出フレームワークである JailGuard を提案する。 JailGuardは、攻撃は本質的に、メソッドやモダリティに関わらず、良心的な攻撃よりも堅牢ではない、という原則に基づいている。 具体的には、JailGuardは信頼できない入力を変更して変種を生成し、モデル上の変種応答の相違を利用して、攻撃サンプルと良質なサンプルを区別する。 テキストと画像入力のための18のミュータを実装し、検出一般化をさらに改善するためにミュータの組み合わせポリシーを設計する。 JailGuardの有効性を評価するために,15の既知の攻撃タイプにわたる11,000のデータ項目を含む,最初の総合的マルチモーダルアタックデータセットを構築した。 この評価は、JailGuardがテキストと画像の入力で86.14%/82.90%の最高の検出精度を達成し、最先端の手法を11.81%-25.73%、12.20%-21.40%で上回ったことを示唆している。

Large Language Models (LLMs) and Multi-Modal LLMs (MLLMs) have played a critical role in numerous applications. However, current LLMs are vulnerable to prompt-based attacks, with jailbreaking attacks enabling LLMs to generate harmful content, while hijacking attacks manipulate the model to perform unintended tasks, underscoring the necessity for detection methods. Unfortunately, existing detecting approaches are usually tailored to specific attacks, resulting in poor generalization in detecting various attacks across different modalities. To address it, we propose JailGuard, a universal detection framework for jailbreaking and hijacking attacks across LLMs and MLLMs. JailGuard operates on the principle that attacks are inherently less robust than benign ones, regardless of method or modality. Specifically, JailGuard mutates untrusted inputs to generate variants and leverages the discrepancy of the variants' responses on the model to distinguish attack samples from benign samples. We implement 18 mutators for text and image inputs and design a mutator combination policy to further improve detection generalization. To evaluate the effectiveness of JailGuard, we build the first comprehensive multi-modal attack dataset, containing 11,000 data items across 15 known attack types. The evaluation suggests that JailGuard achieves the best detection accuracy of 86.14%/82.90% on text and image inputs, outperforming state-of-the-art methods by 11.81%-25.73% and 12.20%-21.40%.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# プライバシー保護型ニューラルグラフデータベース

Privacy-Preserved Neural Graph Databases ( http://arxiv.org/abs/2312.15591v5 )

ライセンス: Link先を確認
Qi Hu, Haoran Li, Jiaxin Bai, Zihao Wang, Yangqiu Song, (参考訳) 大規模言語モデル (LLM) の時代には, ドメイン固有データやプライベートデータを用いた検索拡張(RAG)において, 効率的かつ正確なデータ検索がますます重要になっている。 グラフデータベース(GDB)は、グラフデータベース(GDB)とニューラルネットワークの強みを組み合わせた強力なパラダイムとして登場し、LLMで適応的にトレーニング可能なグラフ構造化データの効率的な保存、検索、分析を可能にしている。 神経埋め込みストレージと複雑神経論理クエリアンサーリング(CQA)の使用は、一般化能力を備えたNGDBを提供する。 グラフが不完全である場合、潜在パターンと表現を抽出することにより、ニューラルネットワークはグラフ構造のギャップを埋め、隠れた関係を明らかにし、正確なクエリ応答を可能にする。 それにもかかわらず、ドメイン固有またはプライベートデータベースにさらなるプライバシーリスクをもたらすため、この機能には固有のトレードオフが伴う。 悪意のある攻撃者は、1950年以前にチューリング賞受賞者が生まれ、1940年以降は、チューリング賞受賞者のヒントン(Hinton)の居住地が暴露されるであろうような、よく設計された質問セットから、データベース内のより機密性の高い情報を推測することができる。 本研究では,NGDBにおけるプライバシリークのリスクを軽減するために,プライバシ保存型ニューラルグラフデータベース(P-NGDB)フレームワークを提案する。 本稿では、NGDBを訓練段階に導入し、プライベート情報で問い合わせたときに識別不能な回答を発生させ、複数の無害なクエリを組み合わせて機密情報を推測することの難しさを高める。

In the era of large language models (LLMs), efficient and accurate data retrieval has become increasingly crucial for the use of domain-specific or private data in the retrieval augmented generation (RAG). Neural graph databases (NGDBs) have emerged as a powerful paradigm that combines the strengths of graph databases (GDBs) and neural networks to enable efficient storage, retrieval, and analysis of graph-structured data which can be adaptively trained with LLMs. The usage of neural embedding storage and Complex neural logical Query Answering (CQA) provides NGDBs with generalization ability. When the graph is incomplete, by extracting latent patterns and representations, neural graph databases can fill gaps in the graph structure, revealing hidden relationships and enabling accurate query answering. Nevertheless, this capability comes with inherent trade-offs, as it introduces additional privacy risks to the domain-specific or private databases. Malicious attackers can infer more sensitive information in the database using well-designed queries such as from the answer sets of where Turing Award winners born before 1950 and after 1940 lived, the living places of Turing Award winner Hinton are probably exposed, although the living places may have been deleted in the training stage due to the privacy concerns. In this work, we propose a privacy-preserved neural graph database (P-NGDB) framework to alleviate the risks of privacy leakage in NGDBs. We introduce adversarial training techniques in the training stage to enforce the NGDBs to generate indistinguishable answers when queried with private information, enhancing the difficulty of inferring sensitive information through combinations of multiple innocuous queries.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# 半導体ナノ構造における不均一ひずみのエンベロープ関数理論

Envelope-function theory of inhomogeneous strain in semiconductor nanostructures ( http://arxiv.org/abs/2312.15967v2 )

ライセンス: Link先を確認
Andrea Secchi, Filippo Troiani, (参考訳) ストレインは半導体ヘテロ構造においてユビキタスな特徴であり、高度なMOSFETやスピンベースの量子ビットを含む様々なデバイスの特性を改善するために異なる方法で設計することができる。 しかし、エンベロープ関数の枠組みにおけるその処理は、バーとピクスの理論のおかげで、均質な場合のみに十分に確立されている。 ここでは、そのような理論を不均一ひずみの場合に一般化する。 問題の相対論的効果と計量的側面を完全に説明することにより、ひずみテンソルの第1および第2空間微分に依存する項を含む完全なエンベロープ函数ハミルトニアンを導出する。

Strain represents an ubiquitous feature in semiconductor heterostructures, and can be engineered by different means in order to improve the properties of various devices, including advanced MOSFETs and spin-based qubits. However, its treatment within the envelope function framework is well established only for the homogeneous case, thanks to the theory of Bir and Pikus. Here, we generalize such theory to the case of inhomogeneous strain. By fully accounting for the relativistic effects and metric aspects of the problem, we derive a complete envelope-function Hamiltonian, including the terms that depend on first and second spatial derivatives of the strain tensor.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# ハートリー・フォック方程式のシンボリック、数値および量子計算

Symbolic, numeric and quantum computation of Hartree-Fock equation ( http://arxiv.org/abs/2401.00019v2 )

ライセンス: Link先を確認
Ichio Kikuchi, Akihito Kikuchi, (参考訳) 本稿では,記号的,数値的,古典的,量子的なアルゴリズムを用いたハイブリッド計算によって,分子のHartree-Fock電子構造計算を行う方法について論じる。 提案アルゴリズムでは、ハートリー・フォック方程式を多変量多項式からなる方程式の集合に置き換える。 これらの多項式を対応する Gr\ オブナー基底に変換し、対応する商環を調べ、軌道エネルギー、LCAO係数、原子座標は環の変数で表される。 この商環において、変数は単項基底との乗法を表す変換行列を生成し、それらの行列の固有値は方程式の根を構成する。 量子位相推定(QPE)アルゴリズムにより、より高度で正確な量子計算のために入力データに使用される量子状態にこれらのルートを記録できる。

In this article, we discuss how a kind of hybrid computation, which employs symbolic, numeric, classic, and quantum algorithms, allows us to conduct Hartree-Fock electronic structure computation of molecules. In the proposed algorithm, we replace the Hartree-Fock equations with a set of equations composed of multivariate polynomials. We transform those polynomials to the corresponding Gr\"obner bases, and then we investigate the corresponding quotient ring, wherein the orbital energies, the LCAO coefficients, or the atomic coordinates are represented by the variables in the ring. In this quotient ring, the variables generate the transformation matrices that represent the multiplication with the monomial bases, and the eigenvalues of those matrices compose the roots of the equation. The quantum phase estimation (QPE) algorithm enables us to record those roots in the quantum states, which would be used in the input data for more advanced and more accurate quantum computations.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# BEV-TSR:自動運転のためのBEV空間におけるテキストシーン検索

BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving ( http://arxiv.org/abs/2401.01065v2 )

ライセンス: Link先を確認
Tao Tang, Dafeng Wei, Zhengyu Jia, Tian Gao, Changwei Cai, Chengkai Hou, Peng Jia, Kun Zhan, Haiyang Sun, Jingchen Fan, Yixing Zhao, Fu Liu, Xiaodan Liang, Xianpeng Lang, Yang Wang, (参考訳) 自動運転産業の急速な発展は、自動運転データの著しい蓄積につながった。 その結果、特別な最適化を提供するためにデータを検索する需要が高まっている。 しかし,従来の画像検索手法を直接適用することは,大域的特徴表現の欠如や複雑な運転シーンのテキスト検索能力の欠如など,いくつかの課題に直面している。 これらの問題に対処するために、まず、記述テキストを入力として活用し、バードアイビュー(BEV)空間の対応するシーンを検索するBEV-TSRフレームワークを提案する。 そこで我々は,文章入力のセマンティックな特徴を抽出するために大規模言語モデル (LLM) を用い,言語埋め込みのセマンティック・リッチネスを高めるために知識グラフの埋め込みを組み込んだ。 BEV機能と言語埋め込みの機能アライメントを実現するために,これらの2つのモダリティ間のギャップを埋めるために,共通学習可能な埋め込みを組込んだ共有クロスモーダル埋め込みを提案し,アライメントをさらに強化するためにキャプション生成タスクを採用した。 さらに, 有効評価のための検索データセットの整合性も欠如している。 そこで我々は,広く採用されているnuScenesデータセットに基づいて,マルチレベル検索データセットであるnuScenes-Retrievalを確立する。 マルチレベルnuScenes-Retrieval実験の結果、BEV-TSRは、それぞれ、シーン・トゥ・テキスト検索とテキスト・ツー・シーン検索において、85.78%、87.66%の精度で最先端のパフォーマンスを達成することが示された。 コードとデータセットが利用可能になる。

The rapid development of the autonomous driving industry has led to a significant accumulation of autonomous driving data. Consequently, there comes a growing demand for retrieving data to provide specialized optimization. However, directly applying previous image retrieval methods faces several challenges, such as the lack of global feature representation and inadequate text retrieval ability for complex driving scenes. To address these issues, firstly, we propose the BEV-TSR framework which leverages descriptive text as an input to retrieve corresponding scenes in the Bird's Eye View (BEV) space. Then to facilitate complex scene retrieval with extensive text descriptions, we employ a large language model (LLM) to extract the semantic features of the text inputs and incorporate knowledge graph embeddings to enhance the semantic richness of the language embedding. To achieve feature alignment between the BEV feature and language embedding, we propose Shared Cross-modal Embedding with a set of shared learnable embeddings to bridge the gap between these two modalities, and employ a caption generation task to further enhance the alignment. Furthermore, there lack of well-formed retrieval datasets for effective evaluation. To this end, we establish a multi-level retrieval dataset, nuScenes-Retrieval, based on the widely adopted nuScenes dataset. Experimental results on the multi-level nuScenes-Retrieval show that BEV-TSR achieves state-of-the-art performance, e.g., 85.78% and 87.66% top-1 accuracy on scene-to-text and text-to-scene retrieval respectively. Codes and datasets will be available.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# 強磁性金属との相互作用による双晶空洞モード分割と寿命

Dichroic cavity mode splitting and lifetimes from interactions with a ferromagnetic metal ( http://arxiv.org/abs/2401.01929v3 )

ライセンス: Link先を確認
Henning G. Hugdal, Eirik Jaccheri Høydalsvik, Sol H. Jacobsen, (参考訳) 電磁キャビティの円偏極モードに対する強磁性金属 (FM) の効果について検討し, 時間反転対称性の破れがキャビティモードの双対応答をもたらすことを示す。 1つのスピン分割バンドで、FM電子とキャビティモードの間のゼーマン結合はスピン分割に匹敵するモード周波数に対する反交差を引き起こす。 しかし、これは円偏光モードの1つに限られており、もう1つはFMの影響を受けていないため、偏光依存性の伝送実験を用いてFMのスピンスプリッティングを決定することができる。 さらに,2つのスピンスプリットバンドに対して,キャビティモードの寿命は偏光依存性の応答を示す。 光子寿命の変化は、同じウェーブベクターを持つストーナーモードの連続体によるレベルアトラクションによる抑制と解釈できる。 1つの偏極しか持たないモードの寿命の短縮は、円偏極キャビティの工学と制御に使用できる可能性がある。

We study the effect of ferromagnetic metals (FM) on the circularly polarized modes of an electromagnetic cavity and show that broken time-reversal symmetry leads to a dichroic response of the cavity modes. With one spin-split band, the Zeeman coupling between the FM electrons and cavity modes leads to an anticrossing for mode frequencies comparable to the spin splitting. However, this is only the case for one of the circularly polarized modes, while the other is unaffected by the FM, allowing for the determination of the spin-splitting of the FM using polarization-dependent transmission experiments. Moreover, we show that for two spin-split bands, also the lifetimes of the cavity modes display a polarization-dependent response. The change in photon lifetimes can be understood as a suppression due to level attraction with a continuum of Stoner modes with the same wavevector. The reduced lifetime of modes of only one polarization could potentially be used to engineer and control circularly polarized cavities.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# 臨床試験結果予測の不確実性定量化

Uncertainty Quantification on Clinical Trial Outcome Prediction ( http://arxiv.org/abs/2401.03482v2 )

ライセンス: Link先を確認
Tianyi Chen, Yingzhou Lu, Nan Hao, Capucine Van Rechem, Jintai Chen, Tianfan Fu, (参考訳) 不確実性定量化の重要性は、機械学習の様々な分野においてますます認識されている。 モデル予測の不確実性を正確に評価することは、研究者や実践者に深い理解と信頼を与えるのに役立つ。 これは医学的診断や薬物発見の分野で特に重要であり、信頼できる予測が研究の質や患者の健康に直接影響を及ぼす。 本稿では,不確実性定量化を臨床治験結果の予測に取り入れることを提案した。 私たちの主なゴールは、ニュアンスドの違いを識別するモデルの能力を高め、それによって全体的なパフォーマンスを大幅に向上させることです。 我々は,臨床治験予測モデルの最前線にある階層的相互作用ネットワーク(HINT)とシームレスに統合し,目的を達成するための選択的分類手法を採用した。 不確実性定量化の方法のスペクトルを含む選択的分類は、あいまいさや低い信頼によって特徴付けられるサンプルの顔の意思決定を控えるようモデルに権限を与え、それによって、分類するインスタンスに対する予測の精度を増幅する。 一連の総合的な実験は、PR-AUC、F1、ROC-AUC、および全体的な精度などの重要な指標の上昇によって証明されたように、選択的分類を臨床試験予測に組み込むことによって、モデルの性能が著しく向上することを示した。 具体的には,第I相,第II相,第III相の試験結果予測において,PR-AUCに対する32.37\%,21.43\%,13.27\%の相対的改善が得られた。 位相IIIの予測では, PR-AUCスコアが0.9022に達する。 これらの結果は、臨床試験の予測領域におけるこの戦略の堅牢性と将来性を示し、この分野に新たなベンチマークを設定できる可能性を示している。

The importance of uncertainty quantification is increasingly recognized in the diverse field of machine learning. Accurately assessing model prediction uncertainty can help provide deeper understanding and confidence for researchers and practitioners. This is especially critical in medical diagnosis and drug discovery areas, where reliable predictions directly impact research quality and patient health. In this paper, we proposed incorporating uncertainty quantification into clinical trial outcome predictions. Our main goal is to enhance the model's ability to discern nuanced differences, thereby significantly improving its overall performance. We have adopted a selective classification approach to fulfill our objective, integrating it seamlessly with the Hierarchical Interaction Network (HINT), which is at the forefront of clinical trial prediction modeling. Selective classification, encompassing a spectrum of methods for uncertainty quantification, empowers the model to withhold decision-making in the face of samples marked by ambiguity or low confidence, thereby amplifying the accuracy of predictions for the instances it chooses to classify. A series of comprehensive experiments demonstrate that incorporating selective classification into clinical trial predictions markedly enhances the model's performance, as evidenced by significant upticks in pivotal metrics such as PR-AUC, F1, ROC-AUC, and overall accuracy. Specifically, the proposed method achieved 32.37\%, 21.43\%, and 13.27\% relative improvement on PR-AUC over the base model (HINT) in phase I, II, and III trial outcome prediction, respectively. When predicting phase III, our method reaches 0.9022 PR-AUC scores. These findings illustrate the robustness and prospective utility of this strategy within the area of clinical trial predictions, potentially setting a new benchmark in the field.
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# トランスフォーマーはマルチステートRNNである

Transformers are Multi-State RNNs ( http://arxiv.org/abs/2401.06104v2 )

ライセンス: Link先を確認
Matanel Oren, Michael Hassid, Nir Yarden, Yossi Adi, Roy Schwartz, (参考訳) トランスフォーマーは、前世代の最先端のNLPモデルであるリカレントニューラルネットワーク(RNN)とは概念的に異なると考えられている。 本研究では,デコーダのみの変圧器を非有界マルチステート RNN として概念化できることを実証する。 さらに、隠れ状態のサイズを固定し、キー値キャッシュを効果的に圧縮することで、変換器を$\textit{bounded}$ multi-state RNNに変換することができることを示す。 トレーニング不要な新しい圧縮ポリシー - $\textbf{T}$oken $\textbf{O}$mission $\textbf{V}$ia $\textbf{A}$ttention (TOVA)を導入する。 4つの長距離タスクと複数のLLMによる実験により、TOVAはいくつかのベースライン圧縮ポリシーより優れていることが示された。 特に、我々の結果はフルモデルとほぼ同等であり、場合によっては元のキャッシュサイズの$\frac{1}{8}$だけで、スループットは4.8倍になる。 我々の結果は、トランスフォーマーとRNNの接続に光を当て、LLMの最も苦しい計算ボトルネックの1つ、キーバリューキャッシュのサイズを緩和するのに役立ちました。 コードをhttps://github.com/schwartz-lab-NLP/TOVAで公開しています。

Transformers are considered conceptually different from the previous generation of state-of-the-art NLP models - recurrent neural networks (RNNs). In this work, we demonstrate that decoder-only transformers can in fact be conceptualized as unbounded multi-state RNNs - an RNN variant with unlimited hidden state size. We further show that transformers can be converted into $\textit{bounded}$ multi-state RNNs by fixing the size of their hidden state, effectively compressing their key-value cache. We introduce a novel, training-free compression policy - $\textbf{T}$oken $\textbf{O}$mission $\textbf{V}$ia $\textbf{A}$ttention (TOVA). Our experiments with four long range tasks and several LLMs show that TOVA outperforms several baseline compression policies. Particularly, our results are nearly on par with the full model, using in some cases only $\frac{1}{8}$ of the original cache size, which translates to 4.8X higher throughput. Our results shed light on the connection between transformers and RNNs, and help mitigate one of LLMs' most painful computational bottlenecks - the size of their key-value cache. We publicly release our code at https://github.com/schwartz-lab-NLP/TOVA
翻訳日:2024-06-20 04:44:38 公開日:2024-06-18
# 多言語機械によるテキスト検出におけるオーサシップの難しさ

Authorship Obfuscation in Multilingual Machine-Generated Text Detection ( http://arxiv.org/abs/2401.07867v2 )

ライセンス: Link先を確認
Dominik Macko, Robert Moro, Adaku Uchendu, Ivan Srba, Jason Samuel Lucas, Michiharu Yamashita, Nafis Irtiza Tripto, Dongwon Lee, Jakub Simko, Maria Bielikova, (参考訳) 最近のLarge Language Models (LLMs) の高品質テキスト生成能力は、その誤用(例えば、大量生成/偽情報の拡散)を懸念する。 このような脅威に対処するためには、機械生成テキスト(MGT)検出が重要である。 しかし、Paraphrasingのようなオーサリング難読化(AO)法には感受性があり、MGTが検出を回避できる可能性がある。 これまでのところ、これはモノリンガル設定でのみ評価されていた。 したがって、最近提案された多言語検出器の感受性はまだ不明である。 このギャップを埋めるために、よく知られた10のAOメソッドのパフォーマンスを総合的にベンチマークし、11の言語(例えば10$\times$37 $\times$ 11 = 4,070コンビネーション)でMGTに対して37のMGT検出メソッドを攻撃した。 また,データ拡張が難読テキストを用いた対向的堅牢性に及ぼす影響についても検討した。 その結果, ホモグリフ攻撃が特に成功した全てのテスト言語において, テストされたAOメソッドが自動検出の回避を引き起こす可能性が示唆された。 しかし、AO手法のいくつかは、テキストを著しく損傷させ、人間によって読みやすく、容易に認識できなくなった(例えば、言語の変化、奇妙な文字)。

High-quality text generation capability of recent Large Language Models (LLMs) causes concerns about their misuse (e.g., in massive generation/spread of disinformation). Machine-generated text (MGT) detection is important to cope with such threats. However, it is susceptible to authorship obfuscation (AO) methods, such as paraphrasing, which can cause MGTs to evade detection. So far, this was evaluated only in monolingual settings. Thus, the susceptibility of recently proposed multilingual detectors is still unknown. We fill this gap by comprehensively benchmarking the performance of 10 well-known AO methods, attacking 37 MGT detection methods against MGTs in 11 languages (i.e., 10 $\times$ 37 $\times$ 11 = 4,070 combinations). We also evaluate the effect of data augmentation on adversarial robustness using obfuscated texts. The results indicate that all tested AO methods can cause evasion of automated detection in all tested languages, where homoglyph attacks are especially successful. However, some of the AO methods severely damaged the text, making it no longer readable or easily recognizable by humans (e.g., changed language, weird characters).
翻訳日:2024-06-20 04:34:54 公開日:2024-06-18
# EmoLLMs: 感情的大言語モデルとアノテーションツール

EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis ( http://arxiv.org/abs/2401.08508v2 )

ライセンス: Link先を確認
Zhiwei Liu, Kailai Yang, Tianlin Zhang, Qianqian Xie, Sophia Ananiadou, (参考訳) 感情分析と感情検出は、自然言語処理(NLP)において重要な研究テーマであり、多くの下流タスクに役立っている。 LLMの応用が広まるにつれて、研究者は感情分析の分野でのインストラクションチューニングに基づくLLMの応用を探求し始めている。 しかし、これらのモデルは感情的分類タスク(感情の極性やカテゴリーの感情など)の単一側面にのみ焦点をあて、回帰タスク(感情の強さや感情の強さなど)を見落とし、下流タスクのパフォーマンスが低下する。 主な理由は、様々な情緒的分類と回帰タスクをカバーする総合的な情緒的指導チューニングデータセットと評価ベンチマークの欠如である。 さらに、感情情報は下流のタスクには役立つが、既存の下流データセットには高品質で包括的な情緒的アノテーションがない。 本稿では,オープンソースの命令追従型LLMの第1シリーズであるEmoLLMsを提案する。命令データを用いた微調整型LLMの包括的情動解析のためのEmoLLMs,LLMの命令チューニングをサポートする様々な分類および回帰タスクに基づく234Kデータサンプルを用いた最初のマルチタスク情動分析命令データセット(AAID),LLMの一般化能力をテストするための様々なソースやドメインから14のタスクを備えた包括的情動評価ベンチマーク(AEB)を提案する。 本稿では,様々な情緒的指導課題を解決するために,AAIDを用いたLLMを微調整した一連のEmoLLMを提案する。 我々は,AEB 上の様々な LLM と比較し,我々のモデルは他のオープンソース LLM よりも優れており,ほとんどのタスクにおいて ChatGPT や GPT-4 を上回り,情緒的分析タスクにおいて EmoLLM のシリーズが ChatGPT レベルおよび GPT-4 レベルの一般化能力を達成していることを示す。

Sentiment analysis and emotion detection are important research topics in natural language processing (NLP) and benefit many downstream tasks. With the widespread application of LLMs, researchers have started exploring the application of LLMs based on instruction-tuning in the field of sentiment analysis. However, these models only focus on single aspects of affective classification tasks (e.g. sentimental polarity or categorical emotions), and overlook the regression tasks (e.g. sentiment strength or emotion intensity), which leads to poor performance in downstream tasks. The main reason is the lack of comprehensive affective instruction tuning datasets and evaluation benchmarks, which cover various affective classification and regression tasks. Moreover, although emotional information is useful for downstream tasks, existing downstream datasets lack high-quality and comprehensive affective annotations. In this paper, we propose EmoLLMs, the first series of open-sourced instruction-following LLMs for comprehensive affective analysis based on fine-tuning various LLMs with instruction data, the first multi-task affective analysis instruction dataset (AAID) with 234K data samples based on various classification and regression tasks to support LLM instruction tuning, and a comprehensive affective evaluation benchmark (AEB) with 14 tasks from various sources and domains to test the generalization ability of LLMs. We propose a series of EmoLLMs by fine-tuning LLMs with AAID to solve various affective instruction tasks. We compare our model with a variety of LLMs on AEB, where our models outperform all other open-sourced LLMs, and surpass ChatGPT and GPT-4 in most tasks, which shows that the series of EmoLLMs achieve the ChatGPT-level and GPT-4-level generalization capabilities on affective analysis tasks, and demonstrates our models can be used as affective annotation tools.
翻訳日:2024-06-20 04:34:54 公開日:2024-06-18
# 交通予測のための時空間大言語モデル

Spatial-Temporal Large Language Model for Traffic Prediction ( http://arxiv.org/abs/2401.10134v3 )

ライセンス: Link先を確認
Chenxi Liu, Sun Yang, Qianxiong Xu, Zhishuai Li, Cheng Long, Ziyue Li, Rui Zhao, (参考訳) 交通予測は、インテリジェントな交通システムにとって不可欠な要素であり、特定の場所で将来の交通の特徴を予見するために歴史的なデータを使用する努力である。 既存のトラフィック予測モデルは複雑なニューラルネットワーク構造の開発を強調することが多いが、精度は改善されていない。 近年,大規模言語モデルは時系列解析において優れた能力を示している。 既存のモデルと異なり、LLMは主にパラメータ拡張と広範な事前訓練を通じて、基本構造を維持しながら進行する。 これらの発展を動機として,交通予測のための時空間大言語モデル(ST-LLM)を提案する。 ST-LLMでは,各位置の時間ステップをトークンとして定義し,空間的位置とグローバルな時間的パターンを学習するための空間的時間的埋め込みを設計する。 さらに、これらの埋め込みを各トークンに融合畳み込みにより統合し、空間的時間的表現を統一する。 さらに,LLMを適応させ,交通予測のためのグローバルな時空間依存性を捉えるために,部分的に凍結した注意戦略を革新する。 実トラフィックデータセットに関する総合的な実験は、ST-LLMが最先端モデルを上回る強力な時空間学習者であることを示す。 特にST-LLMは、少数ショットとゼロショットの予測シナリオの両方で堅牢なパフォーマンスを示している。 コードはhttps://github.com/ChenxiLiu-HNU/ST-LLMで公開されている。

Traffic prediction, an essential component for intelligent transportation systems, endeavours to use historical data to foresee future traffic features at specific locations. Although existing traffic prediction models often emphasize developing complex neural network structures, their accuracy has not improved. Recently, large language models have shown outstanding capabilities in time series analysis. Differing from existing models, LLMs progress mainly through parameter expansion and extensive pretraining while maintaining their fundamental structures. Motivated by these developments, we propose a Spatial-Temporal Large Language Model (ST-LLM) for traffic prediction. In the ST-LLM, we define timesteps at each location as tokens and design a spatial-temporal embedding to learn the spatial location and global temporal patterns of these tokens. Additionally, we integrate these embeddings by a fusion convolution to each token for a unified spatial-temporal representation. Furthermore, we innovate a partially frozen attention strategy to adapt the LLM to capture global spatial-temporal dependencies for traffic prediction. Comprehensive experiments on real traffic datasets offer evidence that ST-LLM is a powerful spatial-temporal learner that outperforms state-of-the-art models. Notably, the ST-LLM also exhibits robust performance in both few-shot and zero-shot prediction scenarios. The code is publicly available at https://github.com/ChenxiLiu-HNU/ST-LLM.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# 自己教師付き学習における覚書化は下流の一般化を改善する

Memorization in Self-Supervised Learning Improves Downstream Generalization ( http://arxiv.org/abs/2401.12233v3 )

ライセンス: Link先を確認
Wenhao Wang, Muhammad Ahmad Kaleem, Adam Dziedzic, Michael Backes, Nicolas Papernot, Franziska Boenisch, (参考訳) 自己教師付き学習(SSL)は、インターネットから取り除かれた未ラベルのデータで、純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。 SSLエンコーダはトレーニングデータのプライベート情報を記憶し、推論時にそれを開示できることを示している。 教師付き学習からの記憶に関する既存の理論的定義はラベルに依存しているため、SSLに転送することはない。 このギャップに対処するため、SSL内で記憶を定義するフレームワークであるSSLMemを提案する。 我々の定義では、データポイントの表現のアライメントの違いと、これらのデータポイントでトレーニングされたエンコーダと、そうでないエンコーダの両方によって返される拡張ビューを比較する。 さまざまなエンコーダアーキテクチャやデータセットに関する包括的な実証分析を通じて、SSLは大規模なデータセットに依存していても、トレーニングデータポイントの過度に適合する部分を減らす正規化技術として、教師付き学習で知られている強力な拡張は、高い記憶力を持つことを強調します。 実験結果から,この暗記は,異なる下流タスクにおいて高い一般化性能を達成するために,エンコーダにとって不可欠であることを示す。

Self-supervised learning (SSL) has recently received significant attention due to its ability to train high-performance encoders purely on unlabeled data-often scraped from the internet. This data can still be sensitive and empirical evidence suggests that SSL encoders memorize private information of their training data and can disclose them at inference time. Since existing theoretical definitions of memorization from supervised learning rely on labels, they do not transfer to SSL. To address this gap, we propose SSLMem, a framework for defining memorization within SSL. Our definition compares the difference in alignment of representations for data points and their augmented views returned by both encoders that were trained on these data points and encoders that were not. Through comprehensive empirical analysis on diverse encoder architectures and datasets we highlight that even though SSL relies on large datasets and strong augmentations-both known in supervised learning as regularization techniques that reduce overfitting-still significant fractions of training data points experience high memorization. Through our empirical results, we show that this memorization is essential for encoders to achieve higher generalization performance on different downstream tasks.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# 回転補正用半監督結合型薄板スプラインモデル

Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond ( http://arxiv.org/abs/2401.13432v2 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao, (参考訳) 薄板スプライン(TPS)は、制御点運動による弾性・非線形変換を表現できる主ワープである。 制御ポイントの増加に伴い、ワープはますます柔軟になるが、通常、望ましくない問題、例えばコンテンツ歪みによって引き起こされるボトルネックに遭遇する。 本稿では, 回転補正, 整形, ポートレート補正などの単一画像に基づくワープ作業におけるTPSの汎用的応用について検討する。 このボトルネックを解消するために,複数のTPSを限定的な制御ポイントで繰り返し結合し,より柔軟かつ強力な変換を行う結合型薄板スプラインモデル(CoupledTPS)を提案する。 具体的には、まず、現在の潜伏状態に応じて新しい制御点を予測するための反復探索を設計する。 次に,異なるTPS変換の結合のためのブリッジとしてワープ流を提示し,複数のワープによる補間誤差を効果的に除去する。 また,厳密なアノテーションコストを考慮した半教師付き学習手法を開発し,ラベルなしデータの活用によるワープ品質の向上を図る。 ラベル付きデータの検索制御点とグラフィック拡張の間の二重変換によって定式化され、暗黙の補正一貫性が制約される。 最後に、回転補正における半教師付きスキームの利点を示すために、大量のラベルのないデータを収集する。 大規模な実験により、CoupledTPSの回転補正以降の既存のSoTAソリューションよりも優位性と普遍性を示す。 コードとデータはhttps://github.com/nie-lang/CoupledTPSで公開されている。

Thin-plate spline (TPS) is a principal warp that allows for representing elastic, nonlinear transformation with control point motions. With the increase of control points, the warp becomes increasingly flexible but usually encounters a bottleneck caused by undesired issues, e.g., content distortion. In this paper, we explore generic applications of TPS in single-image-based warping tasks, such as rotation correction, rectangling, and portrait correction. To break this bottleneck, we propose the coupled thin-plate spline model (CoupledTPS), which iteratively couples multiple TPS with limited control points into a more flexible and powerful transformation. Concretely, we first design an iterative search to predict new control points according to the current latent condition. Then, we present the warping flow as a bridge for the coupling of different TPS transformations, effectively eliminating interpolation errors caused by multiple warps. Besides, in light of the laborious annotation cost, we develop a semi-supervised learning scheme to improve warping quality by exploiting unlabeled data. It is formulated through dual transformation between the searched control points of unlabeled data and its graphic augmentation, yielding an implicit correction consistency constraint. Finally, we collect massive unlabeled data to exhibit the benefit of our semi-supervised scheme in rotation correction. Extensive experiments demonstrate the superiority and universality of CoupledTPS over the existing state-of-the-art (SoTA) solutions for rotation correction and beyond. The code and data are available at https://github.com/nie-lang/CoupledTPS.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# インストラクションファインチューニング: プロンプト損失は重要か?

Instruction Fine-Tuning: Does Prompt Loss Matter? ( http://arxiv.org/abs/2401.13586v3 )

ライセンス: Link先を確認
Mathew Huerta-Enochian, Seung Yong Ko, (参考訳) 本稿では,命令微調整(SIFT)におけるPLWの効果について検討した。 SIFTではプロンプト・マスキング(PLW = 0)が一般的であるが、いくつかの細調整APIは分数的なPLWをサポートし、小さな非ゼロのPLWを使用することは、短い補完データに基づいて微調整を行う際の学習の安定化に役立つことを示唆している。 しかし、この主張を裏付ける調査は行われず、主要なクラウドベースのSIFTプロバイダであるOpenAIは、最近、このパラメータを彼らの微調整APIから削除した。 短時間補完データに基づいて微調整したモデルの性能はPLWと統計的に有意な負の二次関係を持つことがわかった。 PLWの小さな値 (0.01 - 0.5) を使用することで、複数選択および短世代ベンチマーク(長い補完データに微調整された性能モデル)において、PLWの大きな値 (~1.0) は、長世代ベンチマークにおいてより良い結果を得た。 我々はこの効果を説明し、さらなる実験を通じてその重要性を検証した。 この研究は、SIFTにPLWパラメータを提供することの重要性について、APIプロバイダに警告する役割を果たしている。

We present a novel study analyzing the effects of various prompt loss token weights (PLW) for supervised instruction fine-tuning (SIFT). While prompt-masking (PLW = 0) is common for SIFT, some fine-tuning APIs support fractional PLWs and suggest that using a small non-zero PLW can help stabilize learning when fine-tuning on short-completion data. However, there has never been a study confirming this claim, and OpenAI, a major cloud-based SIFT provider, recently removed this parameter from their fine-tuning API. We found that performance of models fine-tuned on short-completion data had a statistically-significant negative quadratic relationship with PLW. Using small values (0.01 - 0.5) of PLW produced better results on multiple-choice and short-generation benchmarks (outperforming models fine-tuned on long-completion data) while large values (~ 1.0) of PLW produced better results on long-generation benchmarks. We explained this effect and verified its importance through additional experiments. This research serves as a warning to API providers about the importance of providing a PLW parameter for SIFT.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# TriSAM: VEM画像におけるゼロショット皮質血管セグメンテーションのためのTri-Plane SAM

TriSAM: Tri-Plane SAM for zero-shot cortical blood vessel segmentation in VEM images ( http://arxiv.org/abs/2401.13961v3 )

ライセンス: Link先を確認
Jia Wan, Wanhua Li, Jason Ken Adhinarta, Atmadeep Banerjee, Evelina Sjostedt, Jingpeng Wu, Jeff Lichtman, Hanspeter Pfister, Donglai Wei, (参考訳) マクロおよびメソスケールでのイメージング技術は、かなりの注意とリソースを惹きつける一方で、複雑な血管の細部を明らかにすることができるマイクロスケールのボリューム電子顕微鏡(vEM)イメージングは、必要なベンチマーク基盤を欠いている。 本稿では,VEM画像における皮質血管のセグメンテーションに特化して設計された第1級パブリックベンチマークであるBvEMを導入することにより,この領域における大きなギャップを解消する。 私たちのBvEMベンチマークは、成体マウス、マカク、ヒトの3匹の哺乳類のvEM画像量に基づいています。 半自動,手動,品質管理のプロセスを通じて,高画質の3Dセグメンテーションを保証し,高精細度,高精細度,高精細度,高精細度の血管造影を行った。 さらに,TriSAMと呼ばれる,強力なセグメンテーションモデルSAMを3次元セグメンテーションに用いるゼロショット皮質血管セグメンテーション法を開発した。 SAMを2次元から3次元のボリュームセグメンテーションに拡張するために、TriSAMは、特定の画像平面の信頼性を活用しながら、潜在的旋回点を識別する多種追跡フレームワークを使用している。 このアプローチは,モデルトレーニングや微調整を伴わない長期3次元血管セグメンテーションを効果的に実現する。 実験の結果,TriSAMは3種のBvEMベンチマークにおいて優れた性能を示した。 私たちのデータセット、コード、モデルは、 \url{https://jia-wan.github.io/bvem}でオンラインで公開されています。

While imaging techniques at macro and mesoscales have garnered substantial attention and resources, microscale Volume Electron Microscopy (vEM) imaging, capable of revealing intricate vascular details, has lacked the necessary benchmarking infrastructure. In this paper, we address a significant gap in this field of neuroimaging by introducing the first-in-class public benchmark, BvEM, designed specifically for cortical blood vessel segmentation in vEM images. Our BvEM benchmark is based on vEM image volumes from three mammals: adult mouse, macaque, and human. We standardized the resolution, addressed imaging variations, and meticulously annotated blood vessels through semi-automatic, manual, and quality control processes, ensuring high-quality 3D segmentation. Furthermore, we developed a zero-shot cortical blood vessel segmentation method named TriSAM, which leverages the powerful segmentation model SAM for 3D segmentation. To extend SAM from 2D to 3D volume segmentation, TriSAM employs a multi-seed tracking framework, leveraging the reliability of certain image planes for tracking while using others to identify potential turning points. This approach effectively achieves long-term 3D blood vessel segmentation without model training or fine-tuning. Experimental results show that TriSAM achieved superior performances on the BvEM benchmark across three species. Our dataset, code, and model are available online at \url{https://jia-wan.github.io/bvem}.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# 大規模言語モデルのためのゴール指向プロンプトエンジニアリングに向けて:調査

Towards Goal-oriented Prompt Engineering for Large Language Models: A Survey ( http://arxiv.org/abs/2401.14043v2 )

ライセンス: Link先を確認
Haochen Li, Jonathan Leung, Zhiqi Shen, (参考訳) 大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な性能を示し、LLMのパフォーマンスを最適化する上で、エンジニアリングが重要な役割を果たす。 本稿は, 現状のプロンプト工学手法の概観としてだけではなく, LLMが人間のように考えることを期待する人為的仮定に基づいて, 設計プロンプトの限界を強調することを目的としている。 我々は,36の代表的な研究を概説し,LLMが確立された論理的思考に従うことを導く目標指向のプロンプト定式化が,LLMの性能を著しく向上させることを示した。 さらに,目標指向の促進手法を5つの相互接続段階に分類する新たな分類法を導入し,フレームワークの広範な適用性を実証する。 今後の4つの方向性の提案により、すべての分野において、ゴール指向のプロンプトエンジニアリングのパワーとポテンシャルをさらに強調したいと思っています。

Large Language Models (LLMs) have shown prominent performance in various downstream tasks and prompt engineering plays a pivotal role in optimizing LLMs' performance. This paper, not only as an overview of current prompt engineering methods, but also aims to highlight the limitation of designing prompts based on an anthropomorphic assumption that expects LLMs to think like humans. From our review of 36 representative studies, we demonstrate that a goal-oriented prompt formulation, which guides LLMs to follow established human logical thinking, significantly improves the performance of LLMs. Furthermore, We introduce a novel taxonomy that categorizes goal-oriented prompting methods into five interconnected stages and we demonstrate the broad applicability of our framework. With four future directions proposed, we hope to further emphasize the power and potential of goal-oriented prompt engineering in all fields.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# Taiyi-Diffusion-XL:視覚言語モデルによるバイリンガルテキスト画像生成の高速化

Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support ( http://arxiv.org/abs/2401.14688v3 )

ライセンス: Link先を確認
Xiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song, (参考訳) 近年のテキスト画像モデルの進歩は画像生成能力を大幅に向上させたが、バイリンガルや中国語のサポートにおいて、オープンソースモデルの顕著なギャップは持続している。 このニーズに対処するために、中国語と英語の新しいバイリンガルテキスト・トゥ・イメージモデルであるTaiyi-Diffusion-XL を、バイリンガル連続事前学習のプロセスを通じてCLIPとStable-Diffusion-XLの能力を拡張して開発する。 このアプローチは、最も頻繁に使われる漢字をCLIPのトークン化器と埋め込み層に統合し、絶対位置エンコーディング拡張と組み合わせることで、語彙の効率的な拡張を含む。 さらに、大きな視覚言語モデルによるテキストプロンプトを豊かにし、画像キャプションが向上し、視覚的品質が向上する。 これらの拡張はその後、下流のテキスト・ツー・イメージ・モデルに適用される。 実験の結果,開発されたCLIPモデルはバイリンガル画像テキスト検索に優れており,また,タイ・ディフュージョンXLのバイリンガル画像生成能力は過去のモデルより優れていた。 この研究はタイイ拡散XLモデルの開発とオープンソース化につながり、特に中国語における画像生成の分野における顕著な進歩を示している。 この貢献は、マルチモーダル研究におけるより多様な言語サポートの必要性に対処するための一歩である。 モデルとデモは \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/} で公開されている。

Recent advancements in text-to-image models have significantly enhanced image generation capabilities, yet a notable gap of open-source models persists in bilingual or Chinese language support. To address this need, we present Taiyi-Diffusion-XL, a new Chinese and English bilingual text-to-image model which is developed by extending the capabilities of CLIP and Stable-Diffusion-XL through a process of bilingual continuous pre-training. This approach includes the efficient expansion of vocabulary by integrating the most frequently used Chinese characters into CLIP's tokenizer and embedding layers, coupled with an absolute position encoding expansion. Additionally, we enrich text prompts by large vision-language model, leading to better images captions and possess higher visual quality. These enhancements are subsequently applied to downstream text-to-image models. Our empirical results indicate that the developed CLIP model excels in bilingual image-text retrieval.Furthermore, the bilingual image generation capabilities of Taiyi-Diffusion-XL surpass previous models. This research leads to the development and open-sourcing of the Taiyi-Diffusion-XL model, representing a notable advancement in the field of image generation, particularly for Chinese language applications. This contribution is a step forward in addressing the need for more diverse language support in multimodal research. The model and demonstration are made publicly available at \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}, fostering further research and collaboration in this domain.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# 検索型大規模言語モデルによる検索・自己回帰による医療推論の改善

Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2401.15269v3 )

ライセンス: Link先を確認
Minbyul Jeong, Jiwoong Sohn, Mujeen Sung, Jaewoo Kang, (参考訳) GPT-4のような最近のプロプライエタリな大規模言語モデル(LLM)は、多項目質問から長文世代まで、バイオメディカル領域における多様な課題に対処するマイルストーンを達成している。 LLMの符号化された知識でまだ処理できない課題に対処するために、知識コーパスから文書を検索し、LLMの入力に無条件または選択的に付加することにより、様々な検索拡張生成法(RAG)が開発されている。 しかし、既存の手法を異なるドメイン固有の問題に適用すると、一般化の貧弱さが明らかになり、不正な文書の取得や不正確な判断につながる。 本稿では, 説明文の生成, ドメイン固有文書の検索, 生成した応答の自己再生を専門とする, バイオメディカルテキストに信頼性のあるフレームワークであるSelf-BioRAGを紹介する。 84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。 本研究は,レトリバーやドメイン関連文書コーパス,命令セットなどのドメイン固有のコンポーネントが,ドメイン関連命令の付着に必要であることを示す。 3つの主要な医療質問答えベンチマークデータセットを用いて、Self-BioRAGの実験結果は、7B以下のパラメータサイズを持つ最先端のオープンバウンダレーションモデルに対して平均で7.2%の絶対的な改善を達成し、大きなパフォーマンス向上を示した。 全体として、Self-BioRAGは質問の手がかりを見つけ、必要なら関連文書を検索し、検索した文書から情報に答える方法を理解し、医療専門家としての知識を符号化する。 バイオメディカルおよび臨床領域の能力を高めるために、フレームワークコンポーネントとモデルウェイト(7Bと13B)をトレーニングするためのデータとコードをリリースする。

Recent proprietary large language models (LLMs), such as GPT-4, have achieved a milestone in tackling diverse challenges in the biomedical domain, ranging from multiple-choice questions to long-form generations. To address challenges that still cannot be handled with the encoded knowledge of LLMs, various retrieval-augmented generation (RAG) methods have been developed by searching documents from the knowledge corpus and appending them unconditionally or selectively to the input of LLMs for generation. However, when applying existing methods to different domain-specific problems, poor generalization becomes apparent, leading to fetching incorrect documents or making inaccurate judgments. In this paper, we introduce Self-BioRAG, a framework reliable for biomedical text that specializes in generating explanations, retrieving domain-specific documents, and self-reflecting generated responses. We utilize 84k filtered biomedical instruction sets to train Self-BioRAG that can assess its generated explanations with customized reflective tokens. Our work proves that domain-specific components, such as a retriever, domain-related document corpus, and instruction sets are necessary for adhering to domain-related instructions. Using three major medical question-answering benchmark datasets, experimental results of Self-BioRAG demonstrate significant performance gains by achieving a 7.2% absolute improvement on average over the state-of-the-art open-foundation model with a parameter size of 7B or less. Overall, we analyze that Self-BioRAG finds the clues in the question, retrieves relevant documents if needed, and understands how to answer with information from retrieved documents and encoded knowledge as a medical expert does. We release our data and code for training our framework components and model weights (7B and 13B) to enhance capabilities in biomedical and clinical domains.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# MLEM:イベントシーケンスの個別モダリティとしての生成的・コントラスト学習

MLEM: Generative and Contrastive Learning as Distinct Modalities for Event Sequences ( http://arxiv.org/abs/2401.15935v3 )

ライセンス: Link先を確認
Viktor Moskvoretskii, Dmitry Osin, Egor Shvetsov, Igor Udovichenko, Maxim Zhelnin, Andrey Dukhovny, Anna Zhimerikina, Evgeny Burnaev, (参考訳) 本研究では,イベントシーケンスに対する自己教師付き学習手法の適用について検討する。 これは、銀行、eコマース、ヘルスケアといった様々なアプリケーションにおいて重要なモダリティである。 しかし、イベントシーケンスの自己教師型学習についての研究は限られており、画像、テキスト、音声などの他の領域からの手法は容易には伝達できない可能性がある。 最適手法を決定するために,これまで同定されたベストパフォーマンス手法の詳細な比較分析を行う。 コントラスト法もジェネレーティブ法も優れていないことが判明した。 我々の評価には、イベントシーケンスの分類、次のイベントの予測、埋め込み品質の評価が含まれる。 これらの結果は、両方の方法を組み合わせることの潜在的な利点をさらに浮き彫りにする。 このドメインにおけるハイブリッドモデルの研究の欠如を考えると、まずは別のドメインのベースラインモデルに適応します。 しかし,その過小評価を観察し,MLEM(Multimodal-Learning Event Model)と呼ばれる新しい手法を開発した。 MLEMは、対照的な学習と生成モデリングを異なるが相補的なモダリティとして扱い、それらの埋め込みを整列させる。 本研究は, コントラスト法と生成法を1つの手順に組み合わせることで, 複数の指標において優れた性能が得られることを示した。

This study explores the application of self-supervised learning techniques for event sequences. It is a key modality in various applications such as banking, e-commerce, and healthcare. However, there is limited research on self-supervised learning for event sequences, and methods from other domains like images, texts, and speech may not easily transfer. To determine the most suitable approach, we conduct a detailed comparative analysis of previously identified best-performing methods. We find that neither the contrastive nor generative method is superior. Our assessment includes classifying event sequences, predicting the next event, and evaluating embedding quality. These results further highlight the potential benefits of combining both methods. Given the lack of research on hybrid models in this domain, we initially adapt the baseline model from another domain. However, upon observing its underperformance, we develop a novel method called the Multimodal-Learning Event Model (MLEM). MLEM treats contrastive learning and generative modeling as distinct yet complementary modalities, aligning their embeddings. The results of our study demonstrate that combining contrastive and generative approaches into one procedure with MLEM achieves superior performance across multiple metrics.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# リアル蛍光データを用いた腰椎3次元再建のための領域適応法

Domain adaptation strategies for 3D reconstruction of the lumbar spine using real fluoroscopy data ( http://arxiv.org/abs/2401.16027v2 )

ライセンス: Link先を確認
Sascha Jecklin, Youyang Shen, Amandine Gout, Daniel Suter, Lilian Calvet, Lukas Zingg, Jennifer Straub, Nicola Alessandro Cavalcanti, Mazda Farshad, Philipp Fürnstahl, Hooman Esfandiari, (参考訳) 本研究は,整形外科手術において,時間,費用,放射線,ワークフロー統合といった重要な障害に対処する。 近年,術中蛍光画像のみから脊椎の3次元解剖学的モデルを作成する方法が提案されている。 これにより,従来の登録型手術ナビゲーションの必要性が否定される。 これらの進歩にもかかわらず、X23Dの実用化は、合成トレーニングデータと実際の術中画像との領域ギャップによって制限されている。 そこで我々は,同じ視点から合成および実蛍光画像からなるペアデータセットのための新しいデータ収集プロトコルを考案した。 このデータセットを利用することで、トランスファーラーニングによるディープラーニングモデルを洗練し、合成X線と実際のX線データの領域ギャップを効果的に埋める。 また,本手法では,X線を合成領域のミラーに変換することで,実世界の環境において高精度なX23Dモデルを実現することができる。 以上の結果より, 改良したモデルでは, 術中3枚のフルオロスコープ画像から, 腰椎の3次元再構築を迅速に行うことが可能であることが示唆された。 これまでの合成データに基づく研究の精度に匹敵する84%のF1スコアを達成しました。 さらに,81.1msの計算時間で,手術統合に必要なリアルタイム機能を実現する。 理想的な画像設定と視角依存性を調べることで,臨床環境におけるシステムの実用性と信頼性をさらに確認した。 我々の研究は、手術計画、ナビゲーション、ロボティクスの強化など、術中の3D再構築において大きな前進を見せています。

This study tackles key obstacles in adopting surgical navigation in orthopedic surgeries, including time, cost, radiation, and workflow integration challenges. Recently, our work X23D showed an approach for generating 3D anatomical models of the spine from only a few intraoperative fluoroscopic images. This negates the need for conventional registration-based surgical navigation by creating a direct intraoperative 3D reconstruction of the anatomy. Despite these strides, the practical application of X23D has been limited by a domain gap between synthetic training data and real intraoperative images. In response, we devised a novel data collection protocol for a paired dataset consisting of synthetic and real fluoroscopic images from the same perspectives. Utilizing this dataset, we refined our deep learning model via transfer learning, effectively bridging the domain gap between synthetic and real X-ray data. A novel style transfer mechanism also allows us to convert real X-rays to mirror the synthetic domain, enabling our in-silico-trained X23D model to achieve high accuracy in real-world settings. Our results demonstrated that the refined model can rapidly generate accurate 3D reconstructions of the entire lumbar spine from as few as three intraoperative fluoroscopic shots. It achieved an 84% F1 score, matching the accuracy of our previous synthetic data-based research. Additionally, with a computational time of only 81.1 ms, our approach provides real-time capabilities essential for surgery integration. Through examining ideal imaging setups and view angle dependencies, we've further confirmed our system's practicality and dependability in clinical settings. Our research marks a significant step forward in intraoperative 3D reconstruction, offering enhancements to surgical planning, navigation, and robotics.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# オクタゴン埋め込みによる知識グラフとルールのキャプチャ

Capturing Knowledge Graphs and Rules with Octagon Embeddings ( http://arxiv.org/abs/2401.16270v2 )

ライセンス: Link先を確認
Victor Charpenay, Steven Schockaert, (参考訳) 領域ベースの知識グラフ埋め込みは、関係を幾何学的領域として表現する。 これは、モデルによってキャプチャされるルールが明確になるという利点があり、事前の知識を取り入れ、学習したモデルを検査することが簡単になる。 残念ながら、既存のアプローチはリレーショナルな構成をモデル化する能力に厳しく制限されており、従ってルールをモデル化する能力もあるため、リージョンベースのモデルの主な約束を達成できない。 これらの制限に対処するために、軸整列八角形からなる領域について検討する。 そのような八角形は、交叉や合成を直接計算できるが、それでも任意の知識グラフをモデル化するのに十分な表現力を持つため、特に容易に扱うことができる。 また,我々の八角形埋め込みは,非自明なルールベースを適切に捕捉できることを示す。 最後に,本モデルが実験結果と競合することを示す。

Region based knowledge graph embeddings represent relations as geometric regions. This has the advantage that the rules which are captured by the model are made explicit, making it straightforward to incorporate prior knowledge and to inspect learned models. Unfortunately, existing approaches are severely restricted in their ability to model relational composition, and hence also their ability to model rules, thus failing to deliver on the main promise of region based models. With the aim of addressing these limitations, we investigate regions which are composed of axis-aligned octagons. Such octagons are particularly easy to work with, as intersections and compositions can be straightforwardly computed, while they are still sufficiently expressive to model arbitrary knowledge graphs. Among others, we also show that our octagon embeddings can properly capture a non-trivial class of rule bases. Finally, we show that our model achieves competitive experimental results.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# 深層学習による焼成繊維・容器の分別と特性評価

Segmentation and Characterization of Macerated Fibers and Vessels Using Deep Learning ( http://arxiv.org/abs/2401.16937v2 )

ライセンス: Link先を確認
Saqib Qamar, Abu Imran Baba, Stéphane Verger, Magnus Andersson, (参考訳) 木材は繊維、気管、血管などの異なる細胞タイプから構成され、その特性を定義する。 顕微鏡画像における細胞の形態,サイズ,配列を観察することは,木材の特性を理解する上で重要である。 通常は、溶液中のサンプルを浸漬して細胞を分離し、それを顕微鏡で撮影するためにスライド上に広げ、数千の細胞を捕獲する。 しかし、これらのセルはしばしば画像のクラスタ化と重なり合うため、分割が困難で、標準の画像処理手法による時間を要する。 本研究では,1段階YOLOv8モデルを用いた自動ディープラーニングセグメンテーション手法を開発した。 このモデルは32,640 x 25,920ピクセルの画像を分析し、有効な細胞検出とセグメンテーションを示し、mAP_{0.5-0.95}の78 %を達成する。 モデルの堅牢性を評価するため,より長い繊維で知られる遺伝子組換え木の繊維について検討した。 結果は以前の手動測定に匹敵するものだった。 さらに、画像解析のためのユーザフレンドリーなWebアプリケーションを作成し、Google Colabで使用するコードを提供しました。 YOLOv8の進歩を活用して、本研究は、実用に適した木材細胞の効率的な定量化と分析を可能にするディープラーニングソリューションを提供する。

Wood comprises different cell types, such as fibers, tracheids and vessels, defining its properties. Studying cells' shape, size, and arrangement in microscopy images is crucial for understanding wood characteristics. Typically, this involves macerating (soaking) samples in a solution to separate cells, then spreading them on slides for imaging with a microscope that covers a wide area, capturing thousands of cells. However, these cells often cluster and overlap in images, making the segmentation difficult and time-consuming using standard image-processing methods. In this work, we developed an automatic deep learning segmentation approach that utilizes the one-stage YOLOv8 model for fast and accurate segmentation and characterization of macerated fiber and vessel form aspen trees in microscopy images. The model can analyze 32,640 x 25,920 pixels images and demonstrate effective cell detection and segmentation, achieving a mAP_{0.5-0.95} of 78 %. To assess the model's robustness, we examined fibers from a genetically modified tree line known for longer fibers. The outcomes were comparable to previous manual measurements. Additionally, we created a user-friendly web application for image analysis and provided the code for use on Google Colab. By leveraging YOLOv8's advances, this work provides a deep learning solution to enable efficient quantification and analysis of wood cells suitable for practical applications.
翻訳日:2024-06-20 04:34:53 公開日:2024-06-18
# 校正レンズによる不変リスク最小化の変数理解に向けて

Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration ( http://arxiv.org/abs/2401.17541v4 )

ライセンス: Link先を確認
Kotaro Yoshida, Hiroki Naganuma, (参考訳) 機械学習モデルは伝統的に、トレーニングとテストデータは独立して同一に分散されていると仮定する。 しかし、実世界のアプリケーションでは、テスト分布はトレーニングとは異なることが多い。 この問題は、out-of-distribution (OOD) generalizationとして知られ、従来のモデルに挑戦する。 不変リスク最小化(IRM)は、OODロバスト性を高めるために、異なる環境にわたる不変機能を特定することを目的としたソリューションとして登場した。 しかし、IRMの複雑さ、特に双レベル最適化は、様々な近似手法の開発に繋がった。 本研究は, 環境間のキャリブレーションの整合性と分散を指標として, これらの近似IRM手法について検討した。 モデル予測の信頼性を計測するキャリブレーションは、モデルが様々な環境にまたがっていかに過度に信頼されているかを示すことで、モデルが環境不変の特徴を効果的に捉えているかどうかを示す指標となる。 分散シフトを伴うデータセットの比較分析により,Information BottleneckベースのIRMが,異なる環境における一貫したキャリブレーションを実現することが確認された。 IBのような情報圧縮技術はモデル不変性の実現に有効である可能性が示唆された。 さらに,環境全体にわたって一貫したキャリブレーションを示すモデルも良好に校正されていることを示す実証的な証拠も得られた。 このことは、不変性とクロス環境キャリブレーションが経験的に等価であることを示している。 さらに、OODの一般化を評価するための体系的なアプローチの必要性を強調した。 このアプローチは、正確性やF1スコアのような従来のメトリクスを超えて、モデルの過信度を考慮せず、正確性、キャリブレーション、モデルの不変性の間の微妙な相互作用に焦点を当てるべきである。

Machine learning models traditionally assume that training and test data are independently and identically distributed. However, in real-world applications, the test distribution often differs from training. This problem, known as out-of-distribution (OOD) generalization, challenges conventional models. Invariant Risk Minimization (IRM) emerges as a solution that aims to identify invariant features across different environments to enhance OOD robustness. However, IRM's complexity, particularly its bi-level optimization, has led to the development of various approximate methods. Our study investigates these approximate IRM techniques, using the consistency and variance of calibration across environments as metrics to measure the invariance aimed for by IRM. Calibration, which measures the reliability of model prediction, serves as an indicator of whether models effectively capture environment-invariant features by showing how uniformly over-confident the model remains across varied environments. Through a comparative analysis of datasets with distributional shifts, we observe that Information Bottleneck-based IRM achieves consistent calibration across different environments. This observation suggests that information compression techniques, such as IB, are potentially effective in achieving model invariance. Furthermore, our empirical evidence indicates that models exhibiting consistent calibration across environments are also well-calibrated. This demonstrates that invariance and cross-environment calibration are empirically equivalent. Additionally, we underscore the necessity for a systematic approach to evaluating OOD generalization. This approach should move beyond traditional metrics, such as accuracy and F1 scores, which fail to account for the model's degree of over-confidence, and instead focus on the nuanced interplay between accuracy, calibration, and model invariance.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# 非エルミート系における生物直交トポロジカル電荷ポンプ

Biorthogonal topological charge pumping in non-Hermitian systems ( http://arxiv.org/abs/2401.17564v2 )

ライセンス: Link先を確認
Zhenming Zhang, Tianyu Li, Xiwang Luo, Wei Yi, (参考訳) 一般の非エルミート的セッティングにおける電荷の汲み上げについて検討し, 量子化された電荷の汲み上げは生物直交形式の下でのみ保証されることを示し, 非エルミート的ハミルトンの左右固有ベクトルを用いて電荷の輸送を評価する。 具体的には、一般一次元非エルミートモデルにおける生物直交電荷ポンプについて、パラメータ空間におけるチャーン数と量子化輸送がどのように関連しているかを実証する。 非エルミートモデルが非エルミートスキン効果を持ち、バルク内のブロッホ状態が変形して境界に向かって局所化される場合、一般化ブリルアンゾーンを含むパラメータ空間で定義される非ブロッホチャーン数とポンプ電荷が関連するシナリオを提案する。 本稿では, 実例を用いて解析結果の有効性を述べるとともに, 生物直交電荷ポンプの文脈において, 損失環境下で量子化された電荷ポンプが観測された最近の実験について詳細に論じる。

We study charge pumping in generic non-Hermitian settings and show that quantized charge pumping is only guaranteed under a biorthogonal formalism therein, where the charge transport is evaluated using the left and right eigenvectors of the non-Hermitian Hamiltonian. Specifically, for biorthogonal charge pumping in generic one-dimensional non-Hermitian models, we demonstrate how quantized transport is related to the Chern number in the parameter space. When the non-Hermitian model possesses the non-Hermitian skin effect, under which Bloch states in the bulk are deformed and localize toward boundaries, we propose a scenario where the pumped charge is related to the non-Bloch Chern number defined in the parameter space involving the generalized Brillouin zone. We illustrate the validity of our analytic results using concrete examples and, in the context of the biorthogonal charge pumping, discuss in detail a recent experiment where quantized charge pumping was observed in a lossy environment.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# グラフの1つの畳み込み:効率的なグレイスケール画像分類

A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification ( http://arxiv.org/abs/2402.00564v4 )

ライセンス: Link先を確認
Jacob Fein-Ashley, Tian Ye, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, (参考訳) 画像分類器は、そのタスクに畳み込みニューラルネットワーク(CNN)を頼りにしており、これは本質的にマルチ層パーセプトロン(MLP)よりも重く、リアルタイムアプリケーションでは問題となる可能性がある。 さらに、多くの画像分類モデルはRGBとグレースケールの両方のデータセットで動作する。 グレースケールの画像のみを扱う分類器は、あまり一般的ではない。 グレースケール画像分類には様々な応用があり、医療画像分類や合成開口レーダ(SAR)自動目標認識(ATR)に限らない。 そこで本稿では,画像のベクトル化ビューを用いた新しいグレースケール(単一チャネル)画像分類手法を提案する。 我々は、画像をベクトルとして見ることで、MLPの軽量性を活用し、グレースケール画像分類設定に問題設定を還元する。 単一グラフ畳み込み層を用いることで精度が向上し,モデルの性能のばらつきが軽減されることがわかった。 さらに,FPGA モデルに最適化したアクセラレータを開発し,性能向上のための最適化を行った。 ベンチマークグレースケール画像データセットを用いた実験結果から,提案モデルの有効性を実証し,各領域固有のグレースケール画像分類データセットの他の最先端画像分類モデルと比較して,レイテンシが大幅に低く(最大16$\times以下),競合的,あるいは先行的な性能を実現した。

Image classifiers often rely on convolutional neural networks (CNN) for their tasks, which are inherently more heavyweight than multilayer perceptrons (MLPs), which can be problematic in real-time applications. Additionally, many image classification models work on both RGB and grayscale datasets. Classifiers that operate solely on grayscale images are much less common. Grayscale image classification has diverse applications, including but not limited to medical image classification and synthetic aperture radar (SAR) automatic target recognition (ATR). Thus, we present a novel grayscale (single channel) image classification approach using a vectorized view of images. We exploit the lightweightness of MLPs by viewing images as a vector and reducing our problem setting to the grayscale image classification setting. We find that using a single graph convolutional layer batch-wise increases accuracy and reduces variance in the performance of our model. Moreover, we develop a customized accelerator on FPGA for the proposed model with several optimizations to improve its performance. Our experimental results on benchmark grayscale image datasets demonstrate the effectiveness of the proposed model, achieving vastly lower latency (up to 16$\times$ less) and competitive or leading performance compared to other state-of-the-art image classification models on various domain-specific grayscale image classification datasets.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# 非構造化データを用いた浅層変圧器における文脈内学習の理論的理解

Theoretical Understanding of In-Context Learning in Shallow Transformers with Unstructured Data ( http://arxiv.org/abs/2402.00743v2 )

ライセンス: Link先を確認
Yue Xing, Xiaofeng Lin, Chenheng Xu, Namjoon Suh, Qifan Song, Guang Cheng, (参考訳) 大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて推論段階で概念を学習できる強力なモデルである。 理論的な研究である eg , \cite{zhang2023trained} は ICL のメカニズムを説明しようとするが、各実演例の入力 $x_i$ と出力 $y_i$ は同一のトークン(すなわち構造化データ)に含まれると仮定する。 しかし実際には、例は通常テキスト入力であり、論理関係に関係なく全ての単語は異なるトークンに格納される(すなわち、非構造化データ \cite{wibisono2023role} )。 ICLにおける非構造化データからLLMがどのように学習するかを理解するため、トランスフォーマーアーキテクチャにおける各コンポーネントの役割を研究し、アーキテクチャの成功を説明する理論的理解を提供する。 特に、ICL予測のための1/2の注意層と線形回帰タスクを持つ単純な変換器について検討する。 我々は,(1)注目マスク付き2層(自己注意型)のトランスフォーマーが非構造化データのプロンプトから学習でき,(2)位置符号化が$x_i$と$y_i$のトークンと一致し,より優れたICL性能を実現することを観察した。

Large language models (LLMs) are powerful models that can learn concepts at the inference stage via in-context learning (ICL). While theoretical studies, e.g., \cite{zhang2023trained}, attempt to explain the mechanism of ICL, they assume the input $x_i$ and the output $y_i$ of each demonstration example are in the same token (i.e., structured data). However, in real practice, the examples are usually text input, and all words, regardless of their logic relationship, are stored in different tokens (i.e., unstructured data \cite{wibisono2023role}). To understand how LLMs learn from the unstructured data in ICL, this paper studies the role of each component in the transformer architecture and provides a theoretical understanding to explain the success of the architecture. In particular, we consider a simple transformer with one/two attention layers and linear regression tasks for the ICL prediction. We observe that (1) a transformer with two layers of (self-)attentions with a look-ahead attention mask can learn from the prompt in the unstructured data, and (2) positional encoding can match the $x_i$ and $y_i$ tokens to achieve a better ICL performance.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# Formal-LLM:制御可能なLLMエージェントのための形式言語と自然言語の統合

Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents ( http://arxiv.org/abs/2402.00798v3 )

ライセンス: Link先を確認
Zelong Li, Wenyue Hua, Hao Wang, He Zhu, Yongfeng Zhang, (参考訳) 近年のLarge Language Models(LLM)の進歩により、AI Agentsは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行できるようになる。 しかし、LCMのコンテンツ生成プロセスはほとんど制御できないため、現在のLCMベースのエージェントは、しばしば無効または非実行可能なプランを生成し、生成されたプランの性能を損なうとともに、LCMベースのエージェントに対するユーザの信頼を損なう。 そこで本稿では,自然言語の表現性と形式言語の精度を両立させることにより,LLMをベースとしたエージェントのための新しい"Formal-LLM'フレームワークを提案する。 具体的には、このフレームワークにより、人間のユーザは、計画プロセスの要件や制約をオートマトンとして表現することができる。 スタックベースのLCM計画生成プロセスは、自動制御の監督の下で実行され、生成した計画が制約を満たすことを保証し、計画プロセスの制御が可能である。 ベンチマークタスクと実運用タスクの両方で実験を行い、我々のフレームワークは50%以上の全体的なパフォーマンス向上を実現し、フォーマルLLMを用いてエージェントの計画生成を誘導し、エージェントが無効で失敗するのを防ぐことの実現可能性と有効性を検証する。 さらに、より制御可能なLCMベースのエージェントは、高い計画の有効性が不可欠であるアプリケーションシナリオにおいて、LCMのより広範な利用を促進することができる。 この成果はhttps://github.com/agiresearch/Formal-LLM.comで公開されている。

Recent advancements on Large Language Models (LLMs) enable AI Agents to automatically generate and execute multi-step plans to solve complex tasks. However, since LLM's content generation process is hardly controllable, current LLM-based agents frequently generate invalid or non-executable plans, which jeopardizes the performance of the generated plans and corrupts users' trust in LLM-based agents. In response, this paper proposes a novel ``Formal-LLM'' framework for LLM-based agents by integrating the expressiveness of natural language and the precision of formal language. Specifically, the framework allows human users to express their requirements or constraints for the planning process as an automaton. A stack-based LLM plan generation process is then conducted under the supervision of the automaton to ensure that the generated plan satisfies the constraints, making the planning process controllable. We conduct experiments on both benchmark tasks and practical real-life tasks, and our framework achieves over 50% overall performance increase, which validates the feasibility and effectiveness of employing Formal-LLM to guide the plan generation of agents, preventing the agents from generating invalid and unsuccessful plans. Further, more controllable LLM-based agents can facilitate the broader utilization of LLM in application scenarios where high validity of planning is essential. The work is open-sourced at https://github.com/agiresearch/Formal-LLM.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# ソーシャル・アウェア・ネゴシエーション対話のための大規模言語モデルエージェント

Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues ( http://arxiv.org/abs/2402.01737v2 )

ライセンス: Link先を確認
Yuncheng Hua, Lizhen Qu, Gholamreza Haffari, (参考訳) 我々は,ビジネス交渉における対話者を支援する大規模言語モデル(LLM)に基づく支援エージェントを開発する。 具体的には、2つのLLMエージェントをロールプレイに参加させることで、ビジネス交渉をシミュレートする。 第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。 そこで,提案手法では,評価結果の質を評価するために,値インパクトと呼ばれる新しい選択基準を提案する。 3つの異なる交渉トピックにわたる交渉において,その効果を示すための実証的証拠を豊富に提供する。 ソースコードと生成されたデータセットは、受理時に公開される。

We develop assistive agents based on Large Language Models (LLMs) that aid interlocutors in business negotiations. Specifically, we simulate business negotiations by letting two LLM-based agents engage in role play. A third LLM acts as a remediator agent to rewrite utterances violating norms for improving negotiation outcomes. We introduce a simple tuning-free and label-free In-Context Learning (ICL) method to identify high-quality ICL exemplars for the remediator, where we propose a novel select criteria, called value impact, to measure the quality of the negotiation outcomes. We provide rich empirical evidence to demonstrate its effectiveness in negotiations across three different negotiation topics. The source code and the generated dataset will be publicly available upon acceptance.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# コード生成ツールのユーザ中心評価

User Centric Evaluation of Code Generation Tools ( http://arxiv.org/abs/2402.03130v3 )

ライセンス: Link先を確認
Tanha Miah, Hong Zhu, (参考訳) 機械学習(ML)技術の急速な進歩により、大規模言語モデル(LLM)は、自然言語仕様からプログラムコードを生成するインテリジェントなツールとして、ますます研究されている。 しかし、LLMの既存の評価は、人間と比較して能力に重点を置いている。 LLMをソフトウェア生産に使用するかどうかを決める際に、それらのユーザビリティを評価することが望ましい。 本稿では,ユーザ中心の手法を提案する。 ベンチマークのテストケースにメタデータが含まれており、その使用を記述し、LLMの使用を模倣する多段階的なプロセスでテストを実行し、ユーザビリティを反映した品質特性のセットに基づいてLLM生成されたソリューションを測定し、ツールとしてLLMを使用する際のユーザエクスペリエンスに基づいたパフォーマンスを評価する。 また、この手法を用いたケーススタディとして、ChatGPTのユーザビリティをR言語のためのコード生成ツールとして評価する。 実験の結果,ChatGPTはハードプログラミングタスクではフェールするが,Rプログラムコードを生成するのに非常に有用であることがわかった。 ユーザエクスペリエンスは、全体の平均試行回数 1.61 であり、平均完了時間は 47.02 秒である。 実験の結果、ユーザビリティの最も弱い側面は簡潔さであり、スコアは5.80点中3.80点であることがわかった。

With the rapid advance of machine learning (ML) technology, large language models (LLMs) are increasingly explored as an intelligent tool to generate program code from natural language specifications. However, existing evaluations of LLMs have focused on their capabilities in comparison with humans. It is desirable to evaluate their usability when deciding on whether to use a LLM in software production. This paper proposes a user centric method for this purpose. It includes metadata in the test cases of a benchmark to describe their usages, conducts testing in a multi-attempt process that mimics the uses of LLMs, measures LLM generated solutions on a set of quality attributes that reflect usability, and evaluates the performance based on user experiences in the uses of LLMs as a tool. The paper also reports a case study with the method in the evaluation of ChatGPT's usability as a code generation tool for the R programming language. Our experiments demonstrated that ChatGPT is highly useful for generating R program code although it may fail on hard programming tasks. The user experiences are good with overall average number of attempts being 1.61 and the average time of completion being 47.02 seconds. Our experiments also found that the weakest aspect of usability is conciseness, which has a score of 3.80 out of 5.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# 大規模モーメント転送と発射原子を用いた点源干渉計を用いた慣性測定装置の感度と帯域幅

Sensitivity and Bandwidth of a Point-Source-Interferometry-based Inertial Measurement Unit Employing Large Momentum Transfer and Launched Atoms ( http://arxiv.org/abs/2402.03608v2 )

ライセンス: Link先を確認
Jinyang Li, Timothy Kovachy, Jason Bonacum, Selim M. Shahriar, (参考訳) 我々は,大運動量移動(LMT)を用いた加速度計と回転センサの感度を理論的に解析し,各軸に沿って回転と加速度を計測できる慣性測定ユニット(IMU)の設計を提案する。 この設計では、ラマンパルスの方向を物理的に変化させることなくLMTプロセスを実現するため、装置を著しく単純化する。 また、そのようなIMUの明示的なスキームについても述べる。

We analyze theoretically the sensitivity of accelerometry and rotation sensing with a point source interferometer employing large momentum transfer (LMT) and present a design of an inertial measurement unit (IMU) that can measure rotation around and acceleration along each of the three axes. In this design, the launching technique is used to realize the LMT process without the need to physically change directions of the Raman pulses, thus significantly simplifying the apparatus. We also describe an explicit scheme for such an IMU.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# Retrieve to Explain: 言語モデルによるエビデンス駆動予測

Retrieve to Explain: Evidence-driven Predictions with Language Models ( http://arxiv.org/abs/2402.04068v3 )

ライセンス: Link先を確認
Ravi Patel, Angus Brayne, Rogier Hintzen, Daniel Jaroslawicz, Georgiana Neculae, Dane Corneil, (参考訳) 言語モデルは、巨大な研究コーパスを合成することで科学的な発見を可能にするという素晴らしい約束を持っています。 多くの複雑な科学的研究の質問は、様々な強さの証拠によって支持される複数のもっともらしい答えを持っている。 しかし、既存の言語モデルは、証拠を裏付けるという点で、答えの妥当性を定量的かつ忠実に比較する能力に欠ける。 本稿では,検索に基づく言語モデルであるRetrieve to Explain (R2E)を紹介する。 R2Eは、ドキュメントコーパスから取得した証拠に基づいて、研究質問に対するすべての可能な回答をスコアし、ランク付けする。 アーキテクチャは,それぞれの回答を,その裏付けとしてのみ表現し,回答自体が隠蔽されている。 これにより、Shapley値などの特徴属性メソッドを拡張して、各回答のスコアを推論時の支持エビデンスに透過的に関連付けることができます。 このアーキテクチャにより、R2Eは、自然言語にテンプレート化された非テキストデータモダリティを含む、再トレーニングなしで新たなエビデンスを組み込むことができる。 我々は,障害が極端にコストがかかり,説明可能性が最重要となる,人為的ループプロセスである,科学的文献からの薬物標的同定の課題を評価する。 臨床試験で薬物標的が有効かどうかを予測した場合、R2Eは説明不能な文献ベースのモデルに適合するだけでなく、医薬品業界全体で使用されている遺伝子に基づく標的識別アプローチを超越する。

Language models hold incredible promise for enabling scientific discovery by synthesizing massive research corpora. Many complex scientific research questions have multiple plausible answers, each supported by evidence of varying strength. However, existing language models lack the capability to quantitatively and faithfully compare answer plausibility in terms of supporting evidence. To address this issue, we introduce Retrieve to Explain (R2E), a retrieval-based language model. R2E scores and ranks all possible answers to a research question based on evidence retrieved from a document corpus. The architecture represents each answer only in terms of its supporting evidence, with the answer itself masked. This allows us to extend feature attribution methods, such as Shapley values, to transparently attribute each answer's score back to its supporting evidence at inference time. The architecture also allows R2E to incorporate new evidence without retraining, including non-textual data modalities templated into natural language. We assess on the challenging task of drug target identification from scientific literature, a human-in-the-loop process where failures are extremely costly and explainability is paramount. When predicting whether drug targets will subsequently be confirmed as efficacious in clinical trials, R2E not only matches non-explainable literature-based models but also surpasses a genetics-based target identification approach used throughout the pharmaceutical industry.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# Multi-Sender Persuasion: A Computational Perspective

Multi-Sender Persuasion: A Computational Perspective ( http://arxiv.org/abs/2402.04971v3 )

ライセンス: Link先を確認
Safwan Hossain, Tonghan Wang, Tao Lin, Yiling Chen, David C. Parkes, Haifeng Xu, (参考訳) 情報的優位な信号を持つ複数のプレイヤーは、特定の行動をとるように、一人の利害関係者を説得する。 この問題は、基礎的なベイズパーステンションフレームワークを一般化し、計算経済学、マルチエージェント学習、および複数の目的を持つ機械学習においてユビキタスである。 ここでのコアソリューションの概念は、送信者のシグナル伝達ポリシーのナッシュ均衡である。 理論的には、一般に平衡を見つけることはPPAD-Hardであり、実際、送信者の最良の応答を計算してもNP-Hardである。 こうした本質的な困難を考えると、我々は局所的なナッシュ均衡を見つけることに目を向ける。 我々は,このゲームの非線形かつ不連続なユーティリティを近似するために,新しい微分可能なニューラルネットワークを提案する。 これを段階外アルゴリズムで補うことで、Paretoが全相対平衡と既存のニューラルネットワークが支配する局所平衡を発見する。 概して、我々の理論的かつ実証的な貢献は、幅広い経済問題に対する関心である。

We consider the multi-sender persuasion problem: multiple players with informational advantage signal to convince a single self-interested actor to take certain actions. This problem generalizes the seminal Bayesian Persuasion framework and is ubiquitous in computational economics, multi-agent learning, and machine learning with multiple objectives. The core solution concept here is the Nash equilibrium of senders' signaling policies. Theoretically, we prove that finding an equilibrium in general is PPAD-Hard; in fact, even computing a sender's best response is NP-Hard. Given these intrinsic difficulties, we turn to finding local Nash equilibria. We propose a novel differentiable neural network to approximate this game's non-linear and discontinuous utilities. Complementing this with the extra-gradient algorithm, we discover local equilibria that Pareto dominates full-revelation equilibria and those found by existing neural networks. Broadly, our theoretical and empirical contributions are of interest to a large class of economic problems.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# 複雑さをナビゲートする:ウィンドウマッチングの拡張によるロスレスグラフ凝縮に向けて

Navigating Complexity: Toward Lossless Graph Condensation via Expanding Window Matching ( http://arxiv.org/abs/2402.05011v3 )

ライセンス: Link先を確認
Yuchen Zhang, Tianle Zhang, Kai Wang, Ziyao Guo, Yuxuan Liang, Xavier Bresson, Wei Jin, Yang You, (参考訳) グラフ凝縮は、訓練されたグラフニューラルネットワーク(GNN)のパフォーマンスを犠牲にすることなく、コンパクトなグラフデータセットを合成することで、大規模グラフデータセットのサイズを小さくすることを目的としている。 それでも、既存の手法は、特定のデータセットの元のグラフを正確に複製するに足りず、結果として損失のない凝縮の目的を達成できないことが多い。 この現象を解明するために,本研究では, 既往の最先端軌跡マッチング手法が, 凝縮度を最適化する際に, 元のグラフから偏り, 制限された監視信号を提供することを示す。 これは凝縮グラフのスケールと有効性の両方を著しく制限する。 本稿では,これまで無視されていた監視信号のブリッジを施すことで,「textit{lossless graph condensation}」に対する最初の試みを行う。 具体的には、カリキュラム学習戦略を用いて、元のグラフからより多様な監視信号で専門家の軌跡を訓練し、その情報をウィンドウマッチングを拡張した凝縮グラフに効果的に転送する。 さらに、専門家の軌跡からさらに知識を抽出するための損失関数を設計する。 理論的解析は,提案手法の設計を正当化し,その優位性を様々なデータセットで検証する。 コードはhttps://github.com/NUS-HPC-AI-Lab/GEOMで公開されている。

Graph condensation aims to reduce the size of a large-scale graph dataset by synthesizing a compact counterpart without sacrificing the performance of Graph Neural Networks (GNNs) trained on it, which has shed light on reducing the computational cost for training GNNs. Nevertheless, existing methods often fall short of accurately replicating the original graph for certain datasets, thereby failing to achieve the objective of lossless condensation. To understand this phenomenon, we investigate the potential reasons and reveal that the previous state-of-the-art trajectory matching method provides biased and restricted supervision signals from the original graph when optimizing the condensed one. This significantly limits both the scale and efficacy of the condensed graph. In this paper, we make the first attempt toward \textit{lossless graph condensation} by bridging the previously neglected supervision signals. Specifically, we employ a curriculum learning strategy to train expert trajectories with more diverse supervision signals from the original graph, and then effectively transfer the information into the condensed graph with expanding window matching. Moreover, we design a loss function to further extract knowledge from the expert trajectories. Theoretical analysis justifies the design of our method and extensive experiments verify its superiority across different datasets. Code is released at https://github.com/NUS-HPC-AI-Lab/GEOM.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# 分布自由設定における微分プライベート部分空間の推定について

On Differentially Private Subspace Estimation in a Distribution-Free Setting ( http://arxiv.org/abs/2402.06465v2 )

ライセンス: Link先を確認
Eliad Tsfadia, (参考訳) プライベートデータ分析は、次元の呪いとして知られる重要な課題に直面し、コストが増大する。 しかし、多くのデータセットは固有の低次元構造を持っている。 例えば、勾配降下による最適化の間、勾配はしばしば低次元部分空間の近くに存在する。 もし低次元構造を少数の点を用いてプライベートに同定できれば、高周囲次元の支払いを避けることができる。 負の面において、Dwork, Talwar, Thakurta, Zhang (STOC 2014) は、プライベートに推定される部分空間は一般に、次元に多項式依存を持つ点の量を必要とすることを証明した。 しかしながら、それらのバウンダリは、"easy'インスタンスのポイント数を減らす可能性を排除していない。しかし、与えられたデータセットが"easy'"であるかどうかをキャプチャする指標を提供することは、このタスクが困難であることが判明し、事前の作業では適切に対処されなかった。 Singhal と Steinke の業績 (NeurIPS 2021) に触発されて、入力データセットにおける乗法的特異値ギャップの関数として易さを定量化し、それらを新しい上と下の境界で支援する最初の尺度を提供する。 特に、我々の結果は、次元に依存しない点の量で部分空間を推定するのに十分かつ必要となる最初のタイプのギャップを決定する。 さらに, 実効的なアルゴリズムを用いて上界を実現し, 従来の手法と比較して高次元のレシエーションにおいてその優位性を示す。

Private data analysis faces a significant challenge known as the curse of dimensionality, leading to increased costs. However, many datasets possess an inherent low-dimensional structure. For instance, during optimization via gradient descent, the gradients frequently reside near a low-dimensional subspace. If the low-dimensional structure could be privately identified using a small amount of points, we could avoid paying for the high ambient dimension. On the negative side, Dwork, Talwar, Thakurta, and Zhang (STOC 2014) proved that privately estimating subspaces, in general, requires an amount of points that has a polynomial dependency on the dimension. However, their bound do not rule out the possibility to reduce the number of points for "easy'' instances. Yet, providing a measure that captures how much a given dataset is "easy'' for this task turns out to be challenging, and was not properly addressed in prior works. Inspired by the work of Singhal and Steinke (NeurIPS 2021), we provide the first measures that quantify easiness as a function of multiplicative singular-value gaps in the input dataset, and support them with new upper and lower bounds. In particular, our results determine the first type of gap that is sufficient and necessary for estimating a subspace with an amount of points that is independent of the dimension. Furthermore, we realize our upper bounds using a practical algorithm and demonstrate its advantage in high-dimensional regimes compared to prior approaches.
翻訳日:2024-06-20 04:25:08 公開日:2024-06-18
# 推薦の優先順位付けのための非自己回帰生成モデル

Non-autoregressive Generative Models for Reranking Recommendation ( http://arxiv.org/abs/2402.06871v3 )

ライセンス: Link先を確認
Yuxin Ren, Qiya Yang, Yichun Wu, Wei Xu, Yalong Wang, Zhiqiang Zhang, (参考訳) コンテンポラリーレコメンデーションシステムは、ユーザのニーズを満たすために、特定の要求や関心に合わせたアイテムの適切なリストを提供することによって設計されている。 多段階レコメンデーションシステムでは、項目間のリスト内相関をモデル化することで、リランクが重要な役割を果たす。 再階の鍵となる課題は、置換の組合せ空間内の最適な列の探索である。 近年の研究では、ジェネレータが複数の実行可能なシーケンスを生成し、評価器が推定されたリストワイズスコアに基づいて最適なシーケンスを選択する、ジェネレータ-評価器学習パラダイムを提案する。 ジェネレータは非常に重要であり、生成モデルはジェネレータ機能に適している。 現在の生成モデルは、シーケンス生成のための自己回帰戦略を採用している。 しかし、リアルタイム産業システムに自己回帰モデルを展開することは困難である。 これらの課題に対処するため,効率と有効性を高めるために,提案するレコメンデーション(NAR4Rec)の再評価のための非自己回帰生成モデルを提案する。 スパーストレーニングサンプルや動的候補といった課題に対処するために,マッチングモデルを導入する。 ユーザフィードバックの多様性を考えると、実現不可能なシークエンスと不可能なシークエンスを区別するために、シークエンスレベルの相違したトレーニング目標を用いる。 さらに,対象項目に関する非自己回帰モデルにおける依存性モデリングの欠如を克服するため,これらの項目間の相関を捉えるためにコントラッシブデコーディングを導入する。 大規模なオフライン実験により、NAR4Recは最先端の再ランク法よりも優れた性能を示す。 オンラインA/Bテストでは、NAR4Recはユーザーエクスペリエンスを大幅に向上させる。 さらに、NAR4Recは、毎日3億人以上のアクティブユーザーがいる人気ビデオアプリKuaishouに完全にデプロイされている。

Contemporary recommendation systems are designed to meet users' needs by delivering tailored lists of items that align with their specific demands or interests. In a multi-stage recommendation system, reranking plays a crucial role by modeling the intra-list correlations among items. The key challenge of reranking lies in the exploration of optimal sequences within the combinatorial space of permutations. Recent research proposes a generator-evaluator learning paradigm, where the generator generates multiple feasible sequences and the evaluator picks out the best sequence based on the estimated listwise score. The generator is of vital importance, and generative models are well-suited for the generator function. Current generative models employ an autoregressive strategy for sequence generation. However, deploying autoregressive models in real-time industrial systems is challenging. To address these issues, we propose a Non-AutoRegressive generative model for reranking Recommendation (NAR4Rec) designed to enhance efficiency and effectiveness. To tackle challenges such as sparse training samples and dynamic candidates, we introduce a matching model. Considering the diverse nature of user feedback, we employ a sequence-level unlikelihood training objective to differentiate feasible sequences from unfeasible ones. Additionally, to overcome the lack of dependency modeling in non-autoregressive models regarding target items, we introduce contrastive decoding to capture correlations among these items. Extensive offline experiments validate the superior performance of NAR4Rec over state-of-the-art reranking methods. Online A/B tests reveal that NAR4Rec significantly enhances the user experience. Furthermore, NAR4Rec has been fully deployed in a popular video app Kuaishou with over 300 million daily active users.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# LLMは毒性を認識するか? : 定義に基づく毒性指標

Can LLMs Recognize Toxicity? Definition-Based Toxicity Metric ( http://arxiv.org/abs/2402.06900v3 )

ライセンス: Link先を確認
Hyukhun Koh, Dohyung Kim, Minwoo Lee, Kyomin Jung, (参考訳) 社会標準に準拠した大規模言語モデル(LLM)の開発において、生成されたテキストの毒性を検出することが不可欠である。 既存の毒性指標の大部分は、特定の毒性データセットに基づいて訓練されたエンコーダモデルに依存しており、それは分布外問題(OOD)の影響を受けやすく、データセットの毒性の定義に依存している。 本稿では, LLMを基盤としたロバストな測定基準を導入し, 所定の定義に従って毒性を柔軟に測定する。 まず, 毒性因子を解析し, その後, LLMの内因性毒性特性について検討し, その妥当性を確認した。 最後に,詳細な分析により測定値の性能を評価する。 実験の結果,F1スコアの12ポイントの従来の指標を改良し,有毒度を測定できることが確認できた。 また, 上流の毒性が下流の指標に大きく影響していることが示唆され, LLMは未確認因子の毒性評価には適さないことが示唆された。

In the pursuit of developing Large Language Models (LLMs) that adhere to societal standards, it is imperative to detect the toxicity in the generated text. The majority of existing toxicity metrics rely on encoder models trained on specific toxicity datasets, which are susceptible to out-of-distribution (OOD) problems and depend on the dataset's definition of toxicity. In this paper, we introduce a robust metric grounded on LLMs to flexibly measure toxicity according to the given definition. We first analyze the toxicity factors, followed by an examination of the intrinsic toxic attributes of LLMs to ascertain their suitability as evaluators. Finally, we evaluate the performance of our metric with detailed analysis. Our empirical results demonstrate outstanding performance in measuring toxicity within verified factors, improving on conventional metrics by 12 points in the F1 score. Our findings also indicate that upstream toxicity significantly influences downstream metrics, suggesting that LLMs are unsuitable for toxicity evaluations within unverified factors.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# LoRA-drop:出力評価に基づく効率的なLoRAパラメータ抽出

LoRA-drop: Efficient LoRA Parameter Pruning based on Output Evaluation ( http://arxiv.org/abs/2402.07721v2 )

ライセンス: Link先を確認
Hongyun Zhou, Xiangyu Lu, Wang Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang, (参考訳) Low-Rank Adaptation (LoRA) は現在最もよく使われているパラメータ効率細調整(PEFT)法であり、制限された計算資源の下で事前訓練されたモデルを微調整するために各層に補助パラメータを導入している。 しかし、より大きなモデルにスケールアップする際のトレーニングでは、依然としてリソース消費の課題に直面している。 これまでのほとんどの研究では、重要でないと見なされるLoRAパラメータを除去するプルーニング技術を用いてこの問題に対処してきた。 それでもこれらの取り組みは,パラメータ数やサイズ,勾配など,LoRAパラメータの特徴を解析して,その重要性を評価するだけである。 実際、LoRA(LoRAパラメータと隠された状態の積)の出力は、最終的な結果に直接影響を与えます。 予備実験により、LoRA素子のごく一部が高い出力値を持ち、層出力に実質的に影響を及ぼすことが示された。 この観測に感銘を受けて、我々はLoRA-dropを提案する。 具体的には、LoRA-dropはLoRA出力に基づいてLoRAの重要性を評価する。 そして、重要なレイヤに対してLoRAを保持し、他のレイヤは同じLoRAを共有します。 我々は,NLUおよびNLGタスクにおいて,異なるスケールのモデルを用いて豊富な実験を行う。 結果は,LoRAのパラメータの50%を平均で保持しながら,全微調整やLoRAに匹敵する性能が得られることを示した。

Low-Rank Adaptation (LoRA) is currently the most commonly used Parameter-efficient fine-tuning (PEFT) method, it introduces auxiliary parameters for each layer to fine-tune the pre-trained model under limited computing resources. However, it still faces resource consumption challenges during training when scaling up to larger models. Most previous studies have tackled this issue by using pruning techniques, which involve removing LoRA parameters deemed unimportant. Nonetheless, these efforts only analyze LoRA parameter features to evaluate their importance, such as parameter count, size, and gradient. In fact, the output of LoRA (product of LoRA parameter and hidden state), directly impacts the final results. Preliminary experiments indicate that a fraction of LoRA elements possesses significantly high output values, substantially influencing the layer output. Motivated by the observation, we propose LoRA-drop. Concretely, LoRA-drop evaluates the importance of LoRA based on the LoRA output. Then we retain LoRA for important layers and the other layers share the same LoRA. We conduct abundant experiments with models of different scales on NLU and NLG tasks. Results demonstrate that LoRA-drop can achieve performance comparable to full fine-tuning and LoRA, while retaining 50\% of the LoRA parameters on average.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# 実ユーザクエリに基づくテキスト間SQLシステムのロバスト性評価

Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries ( http://arxiv.org/abs/2402.08349v2 )

ライセンス: Link先を確認
Jonathan Fürst, Catherine Kosten, Farhard Nooralahzadeh, Yi Zhang, Kurt Stockinger, (参考訳) テキストからSQLシステム(NL-to-SQLシステムとしても知られる)は、ユーザ機能とSQLベースのデータアクセスのギャップを埋める手段として、ますます人気が高まっている。 これらのシステムは、自然言語でユーザ要求を、特定のデータベースに対して有効なSQLステートメントに変換する。 最近のText-to-SQLシステムは、トランスフォーマーベースの言語モデルの急速な改善の恩恵を受けている。 しかし、このようなモデルを組み込んだText-to-SQLシステムは、しばしば合成される)ベンチマークデータセット上で、継続的に新しい高いスコアに達する一方で、現実的なシナリオでは、異なるデータモデルに対する堅牢性に対する体系的な調査が特に欠落している。 本稿では,テキスト・トゥ・SQL インタフェースに着目した多年間国際プロジェクトに基づいて,テキスト・トゥ・SQL システムのデータモデルロバスト性について,より詳細な評価を行う。 評価は,FIFAワールドカップ2022で9ヶ月にわたって実施され,約6万件の自然言語質問が質問され,実行されたFBDBの実際の展開に基づく。 私たちのデータはすべて、システムにライブで質問された実際のユーザ質問に基づいています。 3つの異なるデータモデルに対して、これらの質問のサブセットを手動でラベル付けし、翻訳しました。 各データモデルについて、代表的なテキスト-SQLシステムと言語モデルの性能について検討する。 さらに、トレーニングデータサイズ、事前および後処理ステップ、および言語モデル推論時間の影響を定量化する。 私たちの総合的な評価は、現実世界のText-to-SQLシステムの設計選択と、研究プロトタイプから実際のデプロイメントへの移行に対する影響に光を当てています。 最後に、コミュニティに新しいベンチマークデータセットを提供する。これは、同じデータセットに対して異なるデータモデルの評価を可能にする最初のものであり、クエリの複雑さの観点から、以前のほとんどのデータセットよりもかなり難しい。

Text-to-SQL systems (also known as NL-to-SQL systems) have become an increasingly popular solution for bridging the gap between user capabilities and SQL-based data access. These systems translate user requests in natural language to valid SQL statements for a specific database. Recent Text-to-SQL systems have benefited from the rapid improvement of transformer-based language models. However, while Text-to-SQL systems that incorporate such models continuously reach new high scores on -- often synthetic -- benchmark datasets, a systematic exploration of their robustness towards different data models in a real-world, realistic scenario is notably missing. This paper provides the first in-depth evaluation of the data model robustness of Text-to-SQL systems in practice based on a multi-year international project focused on Text-to-SQL interfaces. Our evaluation is based on a real-world deployment of FootballDB, a system that was deployed over a 9 month period in the context of the FIFA World Cup 2022, during which about 6K natural language questions were asked and executed. All of our data is based on real user questions that were asked live to the system. We manually labeled and translated a subset of these questions for three different data models. For each data model, we explore the performance of representative Text-to-SQL systems and language models. We further quantify the impact of training data size, pre-, and post-processing steps as well as language model inference time. Our comprehensive evaluation sheds light on the design choices of real-world Text-to-SQL systems and their impact on moving from research prototypes to real deployments. Last, we provide a new benchmark dataset to the community, which is the first to enable the evaluation of different data models for the same dataset and is substantially more challenging than most previous datasets in terms of query complexity.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# LLMは新しい概念を忘れずにインクリメンタルに学ぶことができるか?

Can LLMs Learn New Concepts Incrementally without Forgetting? ( http://arxiv.org/abs/2402.08526v3 )

ライセンス: Link先を確認
Junhao Zheng, Shengjie Qiu, Qianli Ma, (参考訳) 大規模言語モデル(LLM)は様々なタスクで目覚ましい成功を収めていますが、それを忘れずに漸進的に学習する能力は未熟です。 インクリメンタルラーニング(IL)は、モデルが人間の学習と同様、以前に学習した情報を保持しながら新しい知識を得ることを可能にするため、重要である。 既存のILのベンチマークは、データ漏洩問題とLLMの過度な調整のために不十分である。 これらの課題に対処するために,概念1K(Concept-1K)を紹介した。 概念1Kの概念は離散的で解釈可能な知識の単位であり、学習と忘れる過程のきめ細かい分析を可能にする。 テストベッドとしてConcept-1Kを使用すれば、"Can LLMs learn new concept without forgeting like human?"という質問に答えるつもりです。 さらに、インコンテキスト学習、モデルスケール、バッファサイズ、およびIL性能の事前学習の役割についても検討する。 これらの知見は、ILシナリオにおけるLLMの強みと限界を強調し、将来の研究のための堅牢なベンチマークを提供する。

Large Language Models (LLMs) have achieved remarkable success across various tasks, yet their ability to learn incrementally without forgetting remains underexplored. Incremental learning (IL) is crucial as it enables models to acquire new knowledge while retaining previously learned information, akin to human learning. Existing benchmarks for IL are insufficient due to data leakage issues and the overqualification of LLMs. To address these challenges, we introduce Concept-1K, a novel dataset comprising 1,023 recently emerged concepts across diverse domains. The concepts in Concept-1K are discrete, interpretable units of knowledge that allow for fine-grained analysis of learning and forgetting processes. Using Concept-1K as a testbed, we aim to answer the question: ``Can LLMs learn new concepts incrementally without forgetting like humans?'' Our investigation reveals that LLMs still suffer from catastrophic forgetting and that LoRA, despite fine-tuning fewer parameters, may lead to more forgetting on training data. Additionally, we explore the roles of in-context learning, model scale, buffer size, and pretraining in IL performance. These findings highlight the strengths and limitations of LLMs in IL scenarios and provide a robust benchmark for future research.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# 擬似誤り訂正符号

Pseudorandom Error-Correcting Codes ( http://arxiv.org/abs/2402.09370v2 )

ライセンス: Link先を確認
Miranda Christ, Sam Gunn, (参考訳) 疑似乱数誤り訂正符号(あるいは単に擬似乱数誤り訂正符号)は,任意の多項式数の符号語が,計算に拘束された敵に対して擬似乱数であるという性質を持つ誤り訂正符号である。 劣化したコードワードの効率的な復号化は、復号鍵の助けを借りて可能である。 疑似ランダム性は、標準的な暗号的仮定に依存するが、置換や削除エラーに対して堅牢な擬似ランダム性コードを構築している。 具体的には、擬似ランダム性は、LPNの$2^{O(\sqrt{n})}$-hardnessまたはLPNの多項式硬度と、低密度で植え付けられたXOR問題に基づいている。 擬似乱数符号の一次適用として、収穫に頑健な言語モデルの出力に対する検出不能な透かし方式と、ランダムな置換や削除の一定率を示す。 透かしは、ウォーターマークされたテキストの任意の数のサンプルが、元のモデルによって出力されたテキストと計算的に区別できないという意味では検出不可能である。 これは、一定のエラー率を許容できる最初の検出不可能な透かし方式である。 第2の応用はステガノグラフィーで、秘密のメッセージが無実のコンテンツに隠されている。 置換率の一定値に対してロバスト性を有する定レートステートレスステガノグラフィー方式を提案する。 我々のステガノグラフィーは、証明可能なステガノグラフィーのセキュリティと、エラーに対する堅牢性を備えた初めてのステートレスステガノグラフィースキームである。

We construct pseudorandom error-correcting codes (or simply pseudorandom codes), which are error-correcting codes with the property that any polynomial number of codewords are pseudorandom to any computationally-bounded adversary. Efficient decoding of corrupted codewords is possible with the help of a decoding key. We build pseudorandom codes that are robust to substitution and deletion errors, where pseudorandomness rests on standard cryptographic assumptions. Specifically, pseudorandomness is based on either $2^{O(\sqrt{n})}$-hardness of LPN, or polynomial hardness of LPN and the planted XOR problem at low density. As our primary application of pseudorandom codes, we present an undetectable watermarking scheme for outputs of language models that is robust to cropping and a constant rate of random substitutions and deletions. The watermark is undetectable in the sense that any number of samples of watermarked text are computationally indistinguishable from text output by the original model. This is the first undetectable watermarking scheme that can tolerate a constant rate of errors. Our second application is to steganography, where a secret message is hidden in innocent-looking content. We present a constant-rate stateless steganography scheme with robustness to a constant rate of substitutions. Ours is the first stateless steganography scheme with provable steganographic security and any robustness to errors.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# プライドと偏見:LLMは自己修復における自己バイアスを増幅する

Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement ( http://arxiv.org/abs/2402.11436v2 )

ライセンス: Link先を確認
Wenda Xu, Guanglei Zhu, Xuandong Zhao, Liangming Pan, Lei Li, William Yang Wang, (参考訳) 近年の研究では、大規模言語モデル(LLM)は、特定のタスクを自己フィードバックし、他のタスクを劣化させ、パフォーマンスを向上させることが示されている。 その逆は, LLMの自己の出力評価におけるバイアスによるものであることが判明した。 本稿では, LLMの自己バイアス(自称世代を好む傾向)を2つの統計量を用いて正式に定義する。 GPT-4, GPT-3.5, Gemini, LLaMA2, Mixtral, DeepSeekの6つのLLMを翻訳, 制約付きテキスト生成, 数学的推論タスクについて解析した。 自己バイアスは、複数の言語やタスクにまたがる全てのLLMで顕著である。 分析の結果,自己定義パイプラインはモデル出力の流速と理解性を向上するが,さらに自己バイアスを増幅することがわかった。 このようなバイアスを軽減するために、モデルのサイズを大きくし、正確な評価による外部からのフィードバックが自己定義パイプラインのバイアスを大幅に低減し、下流タスクの性能改善につながることを発見した。 コードとデータはhttps://github.com/xu1998hz/llm_self_bias.comで公開されている。

Recent studies show that large language models (LLMs) improve their performance through self-feedback on certain tasks while degrade on others. We discovered that such a contrary is due to LLM's bias in evaluating their own output. In this paper, we formally define LLM's self-bias - the tendency to favor its own generation - using two statistics. We analyze six LLMs (GPT-4, GPT-3.5, Gemini, LLaMA2, Mixtral and DeepSeek) on translation, constrained text generation, and mathematical reasoning tasks. We find that self-bias is prevalent in all examined LLMs across multiple languages and tasks. Our analysis reveals that while the self-refine pipeline improves the fluency and understandability of model outputs, it further amplifies self-bias. To mitigate such biases, we discover that larger model size and external feedback with accurate assessment can significantly reduce bias in the self-refine pipeline, leading to actual performance improvement in downstream tasks. The code and data are released at https://github.com/xu1998hz/llm_self_bias.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# 大規模言語モデルがイデオロギー操作にどの程度影響するか?

How Susceptible are Large Language Models to Ideological Manipulation? ( http://arxiv.org/abs/2402.11725v3 )

ライセンス: Link先を確認
Kai Chen, Zihao He, Jun Yan, Taiwei Shi, Kristina Lerman, (参考訳) 大規模言語モデル(LLM)は、大衆の認識や情報との相互作用に大きな影響を与える可能性がある。 このことは、これらのモデル内のイデオロギーを容易に操作できれば生じる可能性のある社会的影響に関する懸念を提起する。 本研究では,LLMが命令チューニングデータからイデオロギーバイアスを効果的に学習し,一般化する方法について検討する。 少量のイデオロギー駆動サンプルへの曝露は,LSMのイデオロギーを著しく変化させる。 特に、LLMは、あるトピックからイデオロギーを吸収し、それとは無関係なトピックに一般化するスターリング能力を示す。 LLMのイデオロギーが歪められることの容易さは、悪意あるアクターによる故意に有害なトレーニングデータや、データアノテータによる不注意に導入されたバイアスに関連するリスクを浮き彫りにする。 また、LSMに対するイデオロギー的操作の影響を軽減するため、堅牢な安全ガードの義務を強調している。

Large Language Models (LLMs) possess the potential to exert substantial influence on public perceptions and interactions with information. This raises concerns about the societal impact that could arise if the ideologies within these models can be easily manipulated. In this work, we investigate how effectively LLMs can learn and generalize ideological biases from their instruction-tuning data. Our findings reveal a concerning vulnerability: exposure to only a small amount of ideologically driven samples significantly alters the ideology of LLMs. Notably, LLMs demonstrate a startling ability to absorb ideology from one topic and generalize it to even unrelated ones. The ease with which LLMs' ideologies can be skewed underscores the risks associated with intentionally poisoned training data by malicious actors or inadvertently introduced biases by data annotators. It also emphasizes the imperative for robust safeguards to mitigate the influence of ideological manipulations on LLMs.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# PANDA: LLMのドメイン特化能力を高めるための優先度適応

PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs ( http://arxiv.org/abs/2402.12835v2 )

ライセンス: Link先を確認
An Liu, Zonghan Yang, Zhenhe Zhang, Qingyuan Hu, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにまたがってかなりの能力を示してきたが、ドメイン固有の最先端モデルによって達成されるパフォーマンスには欠けることが多い。 LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。 しかし、この手法は資源と時間集約的であり、クローズドソースの商用LCMには適用できない。 本稿では,LLMのドメイン固有能力を高めるためのPreference Adaptation for Enhancing Domain-specific Abilities of LLMs (PANDA)を提案する。 実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。 さらに、PANDAによるLLMは、ScienceWorldの4つのタスクで学んだエキスパートモデルよりも優れています。 この発見は、弱強一般化を達成するためのチューニング不要なアプローチを探求する可能性を強調している。

While Large language models (LLMs) have demonstrated considerable capabilities across various natural language tasks, they often fall short of the performance achieved by domain-specific state-of-the-art models. One potential approach to enhance domain-specific capabilities of LLMs involves fine-tuning them using corresponding datasets. However, this method can be both resource and time-intensive, and not applicable to closed-source commercial LLMs. In this paper, we propose Preference Adaptation for Enhancing Domain-specific Abilities of LLMs (PANDA), a method designed to augment the domain-specific capabilities of LLMs by leveraging insights from the response preference of expert models without requiring fine-tuning. Our experimental results reveal that PANDA significantly enhances the domain-specific ability of LLMs on text classification and interactive decision tasks. Moreover, LLM with PANDA even outperforms the expert model that being learned on 4 tasks of ScienceWorld. This finding highlights the potential of exploring tuning-free approaches to achieve weak-to-strong generalization.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# 連続自発局所化モデルの非干渉計測回転試験:形状最適化による崩壊音の高次化

Non-interferometric rotational test of the Continuous Spontaneous Localisation model: enhancement of the collapse noise through shape optimisation ( http://arxiv.org/abs/2402.13057v2 )

ライセンス: Link先を確認
Davide Giordano Ario Altamura, Matteo Carlesso, Sandro Donadi, Angelo Bassi, (参考訳) 連続自発局所化(CSL)モデルは,マクロシステムにおける重ね合わせ原理の分解を記述した崩壊モデルの中で最もよく研究されている。 ここでは、最近の短距離重力実験(Lee et al , Phys. Rev. Lett. 124, 101101 (2020))で測定された回転ノイズにモデルパラメータを適用することにより、モデル上界を導出する。 具体的には、回転運動に影響を及ぼすノイズを考慮すると、テーブルトップ実験であるにもかかわらず、崩壊パラメータの関連する値に対してLIGOのそれよりも1桁弱くなることが判明した。 さらに, CSLパラメータ空間の未探索領域に対処可能な強い境界を導出し, 実験質量の形状を最適化し, 崩壊音を等級数的に高める方法も検討した。

The Continuous Spontaneous Localisation (CSL) model is the most studied among collapse models, which describes the breakdown of the superposition principle for macroscopic systems. Here, we derive an upper bound on the parameters of the model by applying it to the rotational noise measured in a recent short-distance gravity experiment [Lee et al., Phys. Rev. Lett. 124, 101101 (2020)]. Specifically, considering the noise affecting the rotational motion, we found that despite being a table-top experiment the bound is only one order of magnitude weaker than that from LIGO for the relevant values of the collapse parameter. Further, we analyse possible ways to optimise the shape of the test mass to enhance the collapse noise by several orders of magnitude and eventually derive stronger bounds that can address the unexplored region of the CSL parameters space.
翻訳日:2024-06-20 04:15:24 公開日:2024-06-18
# 検索拡張生成に基づく大規模言語モデルによる因果グラフの探索

Causal Graph Discovery with Retrieval-Augmented Generation based Large Language Models ( http://arxiv.org/abs/2402.15301v2 )

ライセンス: Link先を確認
Yuzhe Zhang, Yipeng Zhang, Yidong Gan, Lina Yao, Chen Wang, (参考訳) 因果グラフの回復は、伝統的に統計的推定に基づく手法や、興味のある変数に関する個人の知識に基づいて行われる。 データ収集のバイアスや個人の知識の制限に悩まされることが多い。 大規模言語モデル(LLM)の進歩は、これらの問題に対処する機会を提供する。 一般的な因果グラフ回復タスクにおける因果関係を推定するためにLSMを利用する新しい手法を提案する。 本手法は,学術出版データベースから抽出した LLM と知識 LLM に圧縮された知識と,その目的を達成するための関心要素に関する実験データを活用する。 提案手法は,これらの要因間の関連性を抽出し,因果関係の検証を行うためのメカニズムを提供する。 提案手法は, LLMに非常に複雑な因果推論を指示する他のLCM法と比較して, ベンチマークデータセットの因果グラフ品質に対して明らかな優位性を示す。 さらに,新たな研究結果が現れるにつれて,いくつかの要因の因果関係が変化する可能性があることから,本手法は文献における新たな証拠に対する感受性を示し,因果グラフの更新に有用な情報を提供することができる。

Causal graph recovery is traditionally done using statistical estimation-based methods or based on individual's knowledge about variables of interests. They often suffer from data collection biases and limitations of individuals' knowledge. The advance of large language models (LLMs) provides opportunities to address these problems. We propose a novel method that leverages LLMs to deduce causal relationships in general causal graph recovery tasks. This method leverages knowledge compressed in LLMs and knowledge LLMs extracted from scientific publication database as well as experiment data about factors of interest to achieve this goal. Our method gives a prompting strategy to extract associational relationships among those factors and a mechanism to perform causality verification for these associations. Comparing to other LLM-based methods that directly instruct LLMs to do the highly complex causal reasoning, our method shows clear advantage on causal graph quality on benchmark datasets. More importantly, as causality among some factors may change as new research results emerge, our method show sensitivity to new evidence in the literature and can provide useful information for updating causal graphs accordingly.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# 正規言語をRNNとして効率的に表現するについて

On Efficiently Representing Regular Languages as RNNs ( http://arxiv.org/abs/2402.15814v2 )

ライセンス: Link先を確認
Anej Svete, Robin Shing Moon Chan, Ryan Cotterell, (参考訳) Hewitt et al (2020) による最近の研究は、言語モデル(LM)としてのリカレントニューラルネットワーク(RNN)の実証的な成功の解釈を提供する。 このことは、RNNが人間の言語で広く使われている有界階層構造を効率的に表現できることを示している。 これは、RNNの成功が階層をモデル化する能力と結びついていることを示唆している。 しかし、Hewitt et al's (2020) の構成を詳しく調べると、本質的に階層構造に限定されていないことが分かる。これは自然の疑問である: LM の他のクラス RNN が効率的に表現できるのか? この目的のために、我々は Hewitt et al's (2020) の構成を一般化し、RNN が以前主張されていたよりも大きな LM のクラスを効率的に表現できることを示し、具体的には、境界スタックと特定のスタック更新関数を持つプッシュダウンオートマトンで表現できるものである。 さらに、RNN LMによるこの多様なLMのクラスを表現する効率は、誘導バイアスの新たな解釈を示唆している。

Recent work by Hewitt et al. (2020) provides an interpretation of the empirical success of recurrent neural networks (RNNs) as language models (LMs). It shows that RNNs can efficiently represent bounded hierarchical structures that are prevalent in human language. This suggests that RNNs' success might be linked to their ability to model hierarchy. However, a closer inspection of Hewitt et al.'s (2020) construction shows that it is not inherently limited to hierarchical structures. This poses a natural question: What other classes of LMs can RNNs efficiently represent? To this end, we generalize Hewitt et al.'s (2020) construction and show that RNNs can efficiently represent a larger class of LMs than previously claimed -- specifically, those that can be represented by a pushdown automaton with a bounded stack and a specific stack update function. Altogether, the efficiency of representing this diverse class of LMs with RNN LMs suggests novel interpretations of their inductive bias.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# SportQA: 大規模言語モデルにおけるスポーツ理解のベンチマーク

SportQA: A Benchmark for Sports Understanding in Large Language Models ( http://arxiv.org/abs/2402.15862v2 )

ライセンス: Link先を確認
Haotian Xia, Zhengbang Yang, Yuqing Wang, Rhys Tracy, Yun Zhao, Dongdong Huang, Zezhi Chen, Yan Zhu, Yuan-fang Wang, Weining Shen, (参考訳) 戦略的・動的コンテンツに富んだ分野であるスポーツの深い理解は、自然言語処理(NLP)の推進に不可欠である。 これは、特別なベンチマークにおける既存のギャップを考えると、LLM(Large Language Models)の評価と発展という文脈において特に重要である。 このギャップを埋めるために、スポーツ理解の文脈でLLMを評価するために特別に設計された新しいベンチマークであるSportQAを紹介する。 SportQAには3つの難易度で70,000以上の複数の質問が含まれており、それぞれが基本的な歴史的事実から複雑なシナリオベースの推論タスクまで、スポーツ知識のさまざまな側面をターゲットにしている。 筆者らは,チェーン・オブ・シンクレット(CoT)のプロンプトで補足された少数ショット学習パラダイムを主に活用して,広く普及しているLLMの徹底的な評価を行った。 以上の結果から,LSMは基本的なスポーツ知識において有能な成績を示す一方で,より複雑でシナリオベースのスポーツ推論に苦慮し,人間の専門知識を遅れていることが明らかとなった。 SportQAの導入は、LPMにおけるスポーツ理解を評価し、強化するためのツールを提供する、NLPにおける重要な一歩である。

A deep understanding of sports, a field rich in strategic and dynamic content, is crucial for advancing Natural Language Processing (NLP). This holds particular significance in the context of evaluating and advancing Large Language Models (LLMs), given the existing gap in specialized benchmarks. To bridge this gap, we introduce SportQA, a novel benchmark specifically designed for evaluating LLMs in the context of sports understanding. SportQA encompasses over 70,000 multiple-choice questions across three distinct difficulty levels, each targeting different aspects of sports knowledge from basic historical facts to intricate, scenario-based reasoning tasks. We conducted a thorough evaluation of prevalent LLMs, mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting. Our results reveal that while LLMs exhibit competent performance in basic sports knowledge, they struggle with more complex, scenario-based sports reasoning, lagging behind human expertise. The introduction of SportQA marks a significant step forward in NLP, offering a tool for assessing and enhancing sports understanding in LLMs.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# 等変フレームと連続正準化の不可能性

Equivariant Frames and the Impossibility of Continuous Canonicalization ( http://arxiv.org/abs/2402.16077v2 )

ライセンス: Link先を確認
Nadav Dym, Hannah Lawrence, Jonathan W. Siegel, (参考訳) 正準化(英: Canonicalization)は、等式を強制するアーキテクチャ非依存の手法であり、最近、同変アーキテクチャの軽量で柔軟な代替品として、フレーム・アラグリング(英語版)のような一般化が注目されている。 近年の研究では、群要素上の重み付け分布を学習する確率的フレームを使うことによる経験的利点が発見されている。 本研究は、この現象の強い理論的正当化を与える: 一般に使用される群に対して、平均化される関数の連続性を保存するフレームの効率的な計算可能な選択は存在しない。 言い換えれば、非重み付きフレーム・アブラッシングは滑らかで非対称な関数を不連続で対称な関数に変えることができる。 この基本的なロバスト性問題に対処するため、我々は、連続性を確実に保ち、点クラウド上の$SO(2)$, $SO(3)$, $S_n$の作用に対して効率的で連続的な重み付きフレームを構築することによって、それらの有用性を正式に定義し、構築する。

Canonicalization provides an architecture-agnostic method for enforcing equivariance, with generalizations such as frame-averaging recently gaining prominence as a lightweight and flexible alternative to equivariant architectures. Recent works have found an empirical benefit to using probabilistic frames instead, which learn weighted distributions over group elements. In this work, we provide strong theoretical justification for this phenomenon: for commonly-used groups, there is no efficiently computable choice of frame that preserves continuity of the function being averaged. In other words, unweighted frame-averaging can turn a smooth, non-symmetric function into a discontinuous, symmetric function. To address this fundamental robustness problem, we formally define and construct \emph{weighted} frames, which provably preserve continuity, and demonstrate their utility by constructing efficient and continuous weighted frames for the actions of $SO(2)$, $SO(3)$, and $S_n$ on point clouds.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# 時系列予測のための事前学習型階層変換器

Generative Pretrained Hierarchical Transformer for Time Series Forecasting ( http://arxiv.org/abs/2402.16516v2 )

ライセンス: Link先を確認
Zhiding Liu, Jiqian Yang, Mingyue Cheng, Yucong Luo, Zhi Li, (参考訳) 近年,先進的なネットワークアーキテクチャと自己教師型事前学習戦略を導入し,時系列予測の精度向上に努めている。 それでも、既存のアプローチには2つの重大な欠点がある。 第一に、これらの手法はトレーニングのための単一のデータセットに依存することが多く、トレーニングデータの制限されたスケールのためにモデルの一般化性を制限する。 第2に、カスタマイズされた予測ヘッドを必要とし、出力シリーズの時間的依存関係を無視するワンステップ生成スキーマが広く採用され、また、異なる水平長設定下でのトレーニングコストが増大する。 これらの問題に対処するために, 予測のための新しい生成事前学習型階層型トランスフォーマーアーキテクチャ, \textbf{GPHT} を提案する。 GPHTのキーデザインには2つの側面がある。 一方,チャネルに依存しない前提の下で混合データセットの構築を提唱し,多様なデータシナリオから様々なデータセットを抽出する。 このアプローチは、トレーニングデータの規模を大幅に拡大し、時系列データにおける共通点を明らかにするとともに、特定のデータセットへの改善された転送を容易にする。 一方、GPHTは自動回帰予測手法を採用し、出力系列の時間依存性を効果的にモデル化する。 重要なことは、カスタマイズされた予測ヘッドは不要であり、任意の水平方向設定で \textit{a 単一モデルを予測できる。 } 本研究は,主流の自己教師付き事前学習モデルと教師付きモデルを用いて,8つのデータセット上で十分な実験を行う。 その結果、GPHTは、従来の長期予測タスクにおいて、様々な微調整およびゼロ/フェーショット学習設定のベースラインモデルを上回ることを示した。 私たちはコードを公開する。footnote{https://github.com/icantnamemyself/GPHT}。

Recent efforts have been dedicated to enhancing time series forecasting accuracy by introducing advanced network architectures and self-supervised pretraining strategies. Nevertheless, existing approaches still exhibit two critical drawbacks. Firstly, these methods often rely on a single dataset for training, limiting the model's generalizability due to the restricted scale of the training data. Secondly, the one-step generation schema is widely followed, which necessitates a customized forecasting head and overlooks the temporal dependencies in the output series, and also leads to increased training costs under different horizon length settings. To address these issues, we propose a novel generative pretrained hierarchical transformer architecture for forecasting, named \textbf{GPHT}. There are two aspects of key designs in GPHT. On the one hand, we advocate for constructing a mixed dataset under the channel-independent assumption for pretraining our model, comprising various datasets from diverse data scenarios. This approach significantly expands the scale of training data, allowing our model to uncover commonalities in time series data and facilitating improved transfer to specific datasets. On the other hand, GPHT employs an auto-regressive forecasting approach, effectively modeling temporal dependencies in the output series. Importantly, no customized forecasting head is required, enabling \textit{a single model to forecast at arbitrary horizon settings.} We conduct sufficient experiments on eight datasets with mainstream self-supervised pretraining models and supervised models. The results demonstrated that GPHT surpasses the baseline models across various fine-tuning and zero/few-shot learning settings in the traditional long-term forecasting task. We make our codes publicly available\footnote{https://github.com/icantnamemyself/GPHT}.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# EEG2Rep: インフォーマルなマスク入力による自己教師型脳波表現の強化

EEG2Rep: Enhancing Self-supervised EEG Representation Through Informative Masked Inputs ( http://arxiv.org/abs/2402.17772v2 )

ライセンス: Link先を確認
Navid Mohammadi Foumani, Geoffrey Mackellar, Soheila Ghane, Saad Irtza, Nam Nguyen, Mahsa Salehi, (参考訳) 脳波表現学習(EEG)の自己監督的アプローチは,脳波データに固有の3つの課題に直面している。(1) 学習した表現の質に挑戦する低信号対雑音比,(2) 物体間変動性などの要因により非常に小さな振幅から比較的大きな振幅の範囲,(3) 高い振幅範囲で支配されるモデルへのリスク,(3) 情報的表現の少ない連続的な値列における明示的なセグメンテーションの欠如。 これらの課題に対処するために,脳波からの自己教師付き表現学習のための自己予測手法である「textit{EEG2Rep}」を導入する。 EEG2Repの中核となる2つの新しいコンポーネントは以下のとおりである。 1)生の脳波から仮面入力を予測することを学ぶ代わりに、EEG2Repは潜伏表現空間における仮面入力を予測することを学ぶ。 2) 従来のマスキング方式の代わりに,EEG2Rep では,よりリッチなセマンティック表現を生成するために,情報的なマスキング入力を提供する新たなセマンティックサブシーケンス保存 (SSP) 方式を採用している。 EEG2Repは、対象変数を持つ6つの多種多様なEEGタスクの実験において、最先端の手法を著しく上回っている。 本研究のセマンティック・サブシークエンス・セマンティック・サブシークエンス・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス)は、自己予測文学における既存のマスキング手法を改善することを示し、脳波記録の5倍の5倍の5倍の5倍の5倍の脳記録を保存することで、平均6つの6つの6つのタスクの6つのタスクの6つのタスクで達成した。 最後に、EEG2Repは、脳波データに存在する重要な課題に対処するノイズに対して堅牢であることを示す。 モデルとコードは:\url{https://github.com/Navidfoumani/EEG2Rep}で利用可能である。

Self-supervised approaches for electroencephalography (EEG) representation learning face three specific challenges inherent to EEG data: (1) The low signal-to-noise ratio which challenges the quality of the representation learned, (2) The wide range of amplitudes from very small to relatively large due to factors such as the inter-subject variability, risks the models to be dominated by higher amplitude ranges, and (3) The absence of explicit segmentation in the continuous-valued sequences which can result in less informative representations. To address these challenges, we introduce \textit{EEG2Rep}, a self-prediction approach for self-supervised representation learning from EEG. Two core novel components of EEG2Rep are as follows: 1) Instead of learning to predict the masked input from raw EEG, EEG2Rep learns to predict masked input in latent representation space, and 2) Instead of conventional masking methods, EEG2Rep uses a new semantic subsequence preserving (SSP) method which provides informative masked inputs to guide EEG2Rep to generate rich semantic representations. In experiments on 6 diverse EEG tasks with subject variability, EEG2Rep significantly outperforms state-of-the-art methods. We show that our semantic subsequence preserving improves the existing masking methods in self-prediction literature and find that preserving 50\% of EEG recordings will result in the most accurate results on all 6 tasks on average. Finally, we show that EEG2Rep is robust to noise addressing a significant challenge that exists in EEG data. Models and code are available at:\url{https://github.com/Navidfoumani/EEG2Rep}
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# 自然言語を超えて: LLMは推論と通信の強化のための代替フォーマットを活用する

Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication ( http://arxiv.org/abs/2402.18439v2 )

ライセンス: Link先を確認
Weize Chen, Chenfei Yuan, Jiarui Yuan, Yusheng Su, Chen Qian, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun, (参考訳) 自然言語(NL)は、人間の認知とコミュニケーションの主要なフォーマットであり、拡張によっても、Large Language Models(LLM)の開発と応用において同様に重要な役割を担っている。 しかし、NL以外にも、LLMはコードや論理式など、事前学習中に様々な非NLフォーマットを目にしている。 特に単一LLM推論やマルチエージェント通信において、LLMの最適フォーマットとしてのNLの地位は、十分に検討されていない。 本研究では,これらの文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。 LLMが推論や通信に先立って、最も適したフォーマットを自律的に選択できるようにすることで、異なるLLMの推論効率が3.3~5.7 %向上し、通信効率を維持しつつ、マルチエージェント通信におけるトークン使用率を72.7 %まで削減できることを示す。 我々の包括的分析により、LLMは限られたタスク命令からフォーマットを作成でき、考案されたフォーマットは異なるLLM間で効果的に転送可能であることが明らかとなった。 興味深いことに、LLMによって決定される構造化通信形式は、確立されたエージェント通信言語と顕著な類似性を示し、エージェント通信における効率的な構造化通信への自然な進化を示唆している。 私たちのコードは \url{https://github.com/thunlp/AutoForm} でリリースされています。

Natural language (NL) has long been the predominant format for human cognition and communication, and by extension, has been similarly pivotal in the development and application of Large Language Models (LLMs). Yet, besides NL, LLMs have seen various non-NL formats during pre-training, such as code and logical expression. NL's status as the optimal format for LLMs, particularly in single-LLM reasoning and multi-agent communication, has not been thoroughly examined. In this work, we challenge the default use of NL by exploring the utility of non-NL formats in these contexts. We show that allowing LLMs to autonomously select the most suitable format before reasoning or communicating leads to a 3.3 to 5.7\% improvement in reasoning efficiency for different LLMs, and up to a 72.7\% reduction in token usage in multi-agent communication, all while maintaining communicative effectiveness. Our comprehensive analysis further reveals that LLMs can devise a format from limited task instructions and that the devised format is effectively transferable across different LLMs. Intriguingly, the structured communication format decided by LLMs exhibits notable parallels with established agent communication languages, suggesting a natural evolution towards efficient, structured communication in agent communication. Our code is released at \url{https://github.com/thunlp/AutoForm}.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# 補間による推論:コントラスト表現はおそらく計画と推論を可能にする

Inference via Interpolation: Contrastive Representations Provably Enable Planning and Inference ( http://arxiv.org/abs/2403.04082v2 )

ライセンス: Link先を確認
Benjamin Eysenbach, Vivek Myers, Ruslan Salakhutdinov, Sergey Levine, (参考訳) 時系列データを考えると、“今後どうなるか?”や“どうやって来たのか?”といった質問に答えるにはどうすればよいでしょう? このような確率論的推論の問題は、観測が高次元である場合に困難である。 本稿では,これらの質問に対して,学習表現の観点から,コンパクトで閉じた形状の解が得られるかを示す。 鍵となる考え方は、時系列データにコントラスト学習の変種を適用することである。 従来の研究は、対照的な学習によって学習された表現が確率比を符号化していることを示している。 表現上の限界分布がガウス的であることを示すために先行研究を拡張することで、表現の合同分布もガウス的であることを示すことができる。 これらの結果は、時間的コントラスト学習によって学習された表現は、表現に対する推論(例えば、予測、計画)が低次元行列の反転に対応するグラフィカルモデルであるガウス・マルコフ連鎖に従うことを示している。 ある特別な場合、中間表現を推論することは、学習した表現間の補間と等価である。 最大46次元のタスクの数値シミュレーションを用いて,本理論を検証した。

Given time series data, how can we answer questions like "what will happen in the future?" and "how did we get here?" These sorts of probabilistic inference questions are challenging when observations are high-dimensional. In this paper, we show how these questions can have compact, closed form solutions in terms of learned representations. The key idea is to apply a variant of contrastive learning to time series data. Prior work already shows that the representations learned by contrastive learning encode a probability ratio. By extending prior work to show that the marginal distribution over representations is Gaussian, we can then prove that joint distribution of representations is also Gaussian. Taken together, these results show that representations learned via temporal contrastive learning follow a Gauss-Markov chain, a graphical model where inference (e.g., prediction, planning) over representations corresponds to inverting a low-dimensional matrix. In one special case, inferring intermediate representations will be equivalent to interpolating between the learned representations. We validate our theory using numerical simulations on tasks up to 46-dimensions.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# 連続監視量子系のオンラインパラメータ推定

Online Parameter Estimation for Continuously Monitored Quantum Systems ( http://arxiv.org/abs/2403.04648v2 )

ライセンス: Link先を確認
Henrik Glavind Clausen, Pierre Rouchon, Rafal Wisniewski, (参考訳) 本研究では、量子力学系における量子軌道に沿った静的パラメータや遅いパラメータのオンライン(リアルタイム、単発)推定の問題について考察する。 連続監視型量子システムの計測信号に基づいて,ログ類似関数に基づく確率勾配に基づくアプローチを用いて,未知パラメータの最大推定値を計算するための再帰的アルゴリズムを提案する。 離散時間と連続時間の両方でアルゴリズムを定式化し、複数のパラメータを同時に追跡できるホモダイン測定を行う単純な2レベルシステムのシミュレーションにより、アルゴリズムの性能を示す。

In this work, we consider the problem of online (real-time, single-shot) estimation of static or slow-varying parameters along quantum trajectories in quantum dynamical systems. Based on the measurement signal of a continuously-monitored quantum system, we propose a recursive algorithm for computing the maximum likelihood estimate of unknown parameters using an approach based on stochastic gradient ascent on the log-likelihood function. We formulate the algorithm in both discrete-time and continuous-time and illustrate the performance of the algorithm through simulations of a simple two-level system undergoing homodyne measurement from which we are able to track multiple parameters simultaneously.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# MEIT:レポート生成のための大規模言語モデルに基づくマルチモード心電図指導

MEIT: Multi-Modal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation ( http://arxiv.org/abs/2403.04945v3 )

ライセンス: Link先を確認
Zhongwei Wan, Che Liu, Xin Wang, Chaofan Tao, Hui Shen, Zhenwu Peng, Jie Fu, Rossella Arcucci, Huaxiu Yao, Mi Zhang, (参考訳) 心電図(ECG)は、心臓の状態をモニタリングする主要な非侵襲的診断ツールであり、臨床医を支援する上で重要である。 近年の研究では、心電図データを用いた心臓状態の分類に焦点が当てられているが、心電図のレポート生成は見過ごされている。 LLMとマルチモーダル命令でECGレポート生成に取り組む最初の試みである、MEIT(Multimodal ECG Instruction Tuning)フレームワークを提案する。 今後の研究を容易にするため、2つの大規模ECGデータセットにまたがる様々なLLMバックボーンを用いたMEIT評価ベンチマークを構築した。 提案手法は、ECG信号とレポートの表現を一意に整合させ、800,000以上のECGレポートを用いて、9つのオープンソースLCMでMEITをベンチマークする広範囲な実験を行う。 MEITの結果は、命令調整LDMの優れた性能を強調し、高品質なレポート生成、ゼロショット機能、信号摂動に対する弾力性を示す。 本研究は,MEITフレームワークの有効性と臨床応用の可能性を明らかにするものである。

Electrocardiogram (ECG) is the primary non-invasive diagnostic tool for monitoring cardiac conditions and is crucial in assisting clinicians. Recent studies have concentrated on classifying cardiac conditions using ECG data but have overlooked ECG report generation, which is time-consuming and requires clinical expertise. To automate ECG report generation and ensure its versatility, we propose the Multimodal ECG Instruction Tuning (MEIT) framework, the first attempt to tackle ECG report generation with LLMs and multimodal instructions. To facilitate future research, we establish a benchmark to evaluate MEIT with various LLMs backbones across two large-scale ECG datasets. Our approach uniquely aligns the representations of the ECG signal and the report, and we conduct extensive experiments to benchmark MEIT with nine open-source LLMs using more than 800,000 ECG reports. MEIT's results underscore the superior performance of instruction-tuned LLMs, showcasing their proficiency in quality report generation, zero-shot capabilities, and resilience to signal perturbation. These findings emphasize the efficacy of our MEIT framework and its potential for real-world clinical application.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# HistGen:ローカル・グローバル特徴エンコーディングとモーダル・コンテキスト相互作用による組織学的報告

HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction ( http://arxiv.org/abs/2403.05396v2 )

ライセンス: Link先を確認
Zhengrui Guo, Jiabo Ma, Yingxue Xu, Yihui Wang, Liansheng Wang, Hao Chen, (参考訳) 病理組織学はがん診断における金の標準であり、臨床報告はこの過程を解釈し理解し、がん治療と患者医療を導くのに不可欠である。 深層学習による病理組織学レポート作成の自動化は、臨床効率を著しく向上させ、レポート執筆における病理学者の労働集約的、時間的負担を軽減することを目的としている。 この進歩を追求するために、ヒストゲン(HistGen)は、病理組織学レポート生成のための複数インスタンス学習を利用したフレームワークであり、評価のための最初のベンチマークデータセットと共に紹介する。 HistGenは、診断とレポート記述のワークフローにヒントを得て、2つの繊細な設計のモジュールを備えており、スライドイメージ全体(WSI)とローカルおよびグローバルな粒度からの診断レポートの整列によるレポート生成を促進することを目的としている。 これを実現するため,局所的階層型エンコーダを開発した。 一方,WSIの広範囲な視覚的シーケンスとそれに対応する高度に要約されたレポートとのギャップを効果的に埋めて,異なるモダリティ間のアライメントと相互作用を明確化するために,クロスモーダルなコンテキストモジュールを提案する。 WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。 さらに, 癌サブタイプと生存分析タスクの微調整の結果は, SOTA法よりも優れた性能を示し, 強い伝達学習能力を示している。 データセット、モデルウェイト、ソースコードはhttps://github.com/dddavid4real/HistGen.comで入手できる。

Histopathology serves as the gold standard in cancer diagnosis, with clinical reports being vital in interpreting and understanding this process, guiding cancer treatment and patient care. The automation of histopathology report generation with deep learning stands to significantly enhance clinical efficiency and lessen the labor-intensive, time-consuming burden on pathologists in report writing. In pursuit of this advancement, we introduce HistGen, a multiple instance learning-empowered framework for histopathology report generation together with the first benchmark dataset for evaluation. Inspired by diagnostic and report-writing workflows, HistGen features two delicately designed modules, aiming to boost report generation by aligning whole slide images (WSIs) and diagnostic reports from local and global granularity. To achieve this, a local-global hierarchical encoder is developed for efficient visual feature aggregation from a region-to-slide perspective. Meanwhile, a cross-modal context module is proposed to explicitly facilitate alignment and interaction between distinct modalities, effectively bridging the gap between the extensive visual sequences of WSIs and corresponding highly summarized reports. Experimental results on WSI report generation show the proposed model outperforms state-of-the-art (SOTA) models by a large margin. Moreover, the results of fine-tuning our model on cancer subtyping and survival analysis tasks further demonstrate superior performance compared to SOTA methods, showcasing strong transfer learning capability. Dataset, model weights, and source code are available in https://github.com/dddavid4real/HistGen.
翻訳日:2024-06-20 04:05:40 公開日:2024-06-18
# マルチモーダルLCMはCTスキャンをどう解釈するか? 分析のための自動評価フレームワーク

How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses ( http://arxiv.org/abs/2403.05680v2 )

ライセンス: Link先を確認
Qingqing Zhu, Benjamin Hou, Tejas S. Mathai, Pritam Mukherjee, Qiao Jin, Xiuying Chen, Zhizheng Wang, Ruida Cheng, Ronald M. Summers, Zhiyong Lu, (参考訳) CTスキャンを自動的に解釈することで、放射線科医の作業が楽になる。 しかし、これは主に、適切なデータセットと評価のための参照標準が不足しているため、難しい。 本研究では, '`GPTRadScore' という新しい評価フレームワークを導入することで, このギャップを埋めることを目的とする。 このフレームワークは、GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。 GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。 評価は臨床評価と高い相関を示し、BLEU、METEOR、ROUGEといった従来の指標よりもその可能性を強調した。 さらに、今後の研究に貢献するため、臨床医が注釈を付けたベンチマークデータセットをリリースする計画である。 GPTRadScoreを用いて、GPT-4VとGemini Pro Visionの性能は向上したが、主にこれらのモデルのトレーニングに使用されるデータセットの制限のため、改善すべき重要な部分を明らかにした。 位置精度は3.41\%から12.8\%、身体部分精度は29.12\%から53\%、型精度は9.24\%から30\%に向上した。

Automatically interpreting CT scans can ease the workload of radiologists. However, this is challenging mainly due to the scarcity of adequate datasets and reference standards for evaluation. This study aims to bridge this gap by introducing a novel evaluation framework, named ``GPTRadScore''. This framework assesses the capabilities of multi-modal LLMs, such as GPT-4 with Vision (GPT-4V), Gemini Pro Vision, LLaVA-Med, and RadFM, in generating descriptions for prospectively-identified findings. By employing a decomposition technique based on GPT-4, GPTRadScore compares these generated descriptions with gold-standard report sentences, analyzing their accuracy in terms of body part, location, and type of finding. Evaluations demonstrated a high correlation with clinician assessments and highlighted its potential over traditional metrics, such as BLEU, METEOR, and ROUGE. Furthermore, to contribute to future studies, we plan to release a benchmark dataset annotated by clinicians. Using GPTRadScore, we found that while GPT-4V and Gemini Pro Vision fare better, their performance revealed significant areas for improvement, primarily due to limitations in the dataset used for training these models. To demonstrate this potential, RadFM was fine-tuned and it resulted in significant accuracy improvements: location accuracy rose from 3.41\% to 12.8\%, body part accuracy from 29.12\% to 53\%, and type accuracy from 9.24\% to 30\%, thereby validating our hypothesis.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# 公正なグラフ学習データセットの欠点に対処する - 新しいベンチマークに向けて

Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark ( http://arxiv.org/abs/2403.06017v2 )

ライセンス: Link先を確認
Xiaowei Qian, Zhimeng Guo, Jialiang Li, Haitao Mao, Bingheng Li, Suhang Wang, Yao Ma, (参考訳) 公正なグラフ学習は多くの実践的応用において重要な役割を担っている。 近年,多くの公正なグラフ学習手法が提案されているが,その評価は十分に構築されていない半合成データセットや準標準実世界のデータセットに依存していることが多い。 このような場合、基本多層パーセプトロン(MLP)でさえ、実用性と公正性の両方でグラフニューラルネットワーク(GNN)より優れている。 本研究では,多くのデータセットがエッジにおいて有意義な情報提供に失敗していることを示す。 これらの問題に対処するため、幅広い要件を満たす合成、半合成、実世界のデータセット群を開発し、導入する。 これらのデータセットは、関連するグラフ構造や、モデルの公正な評価に不可欠なバイアス情報を含むように設計されている。 提案した合成および半合成データセットは、制御可能なバイアスパラメータを持つデータを作成する柔軟性を提供する。 さらに,提案したデータセットの体系的評価を行い,公正なグラフ学習モデルに対する統一的な評価手法を確立する。 データセット全体にわたるグラフ学習手法による広範な実験結果から,これらの手法の性能をベンチマークする上での有効性が示された。 私たちのデータセットと実験を再現するためのコードはhttps://github.com/XweiQ/Benchmark-GraphFairness.comで公開されています。

Fair graph learning plays a pivotal role in numerous practical applications. Recently, many fair graph learning methods have been proposed; however, their evaluation often relies on poorly constructed semi-synthetic datasets or substandard real-world datasets. In such cases, even a basic Multilayer Perceptron (MLP) can outperform Graph Neural Networks (GNNs) in both utility and fairness. In this work, we illustrate that many datasets fail to provide meaningful information in the edges, which may challenge the necessity of using graph structures in these problems. To address these issues, we develop and introduce a collection of synthetic, semi-synthetic, and real-world datasets that fulfill a broad spectrum of requirements. These datasets are thoughtfully designed to include relevant graph structures and bias information crucial for the fair evaluation of models. The proposed synthetic and semi-synthetic datasets offer the flexibility to create data with controllable bias parameters, thereby enabling the generation of desired datasets with user-defined bias values with ease. Moreover, we conduct systematic evaluations of these proposed datasets and establish a unified evaluation approach for fair graph learning models. Our extensive experimental results with fair graph learning methods across our datasets demonstrate their effectiveness in benchmarking the performance of these methods. Our datasets and the code for reproducing our experiments are available at https://github.com/XweiQ/Benchmark-GraphFairness.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# ソフトQ-Learningの有限時間誤差解析:スイッチングシステムアプローチ

Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach ( http://arxiv.org/abs/2403.06366v2 )

ライセンス: Link先を確認
Narim Jeong, Donghwan Lee, (参考訳) ソフトQ-ラーニングは、エージェントがエントロピー正規化値関数を最大化することを目的としたマルコフ決定問題を解くために設計されたQ-ラーニングのバリエーションである。 実証的な成功にもかかわらず、ソフトQラーニングの理論的な研究はこれまで限られている。 本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。 本稿では,log-sum-exp演算子とBoltzmann演算子を用いた2種類のソフトQ-ラーニングアルゴリズムに着目した。 動的切替システムモデルを用いて、両ソフトQ-ラーニングアルゴリズムに対して、新しい有限時間誤差境界を導出する。 我々は、システムモデルとの接続を確立することで、ソフトQ学習の現在の理解を深め、他の強化学習アルゴリズムの有限時間解析における新しいフレームワークの道を開くことを願っている。

Soft Q-learning is a variation of Q-learning designed to solve entropy regularized Markov decision problems where an agent aims to maximize the entropy regularized value function. Despite its empirical success, there have been limited theoretical studies of soft Q-learning to date. This paper aims to offer a novel and unified finite-time, control-theoretic analysis of soft Q-learning algorithms. We focus on two types of soft Q-learning algorithms: one utilizing the log-sum-exp operator and the other employing the Boltzmann operator. By using dynamical switching system models, we derive novel finite-time error bounds for both soft Q-learning algorithms. We hope that our analysis will deepen the current understanding of soft Q-learning by establishing connections with switching system models and may even pave the way for new frameworks in the finite-time analysis of other reinforcement learning algorithms.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# 低リソース機械翻訳のためのポインタジェネレータネットワーク:それをコピーするな!

Pointer-Generator Networks for Low-Resource Machine Translation: Don't Copy That! ( http://arxiv.org/abs/2403.10963v3 )

ライセンス: Link先を確認
Niyati Bafna, Philipp Koehn, David Yarowsky, (参考訳) Transformerベースのニューラルネットワーク翻訳(NMT)は、高リソース設定において非常に効果的であるが、多くの言語では、その恩恵を受けるために必要な大きな並列コーパスが欠如している。 2つの近縁言語間の低リソース (LR) MT の文脈において、自然な直観は、ソースからターゲットへのサブワードのコピーのような構造的な「ショートカット」の恩恵を求めることである。 この目的のためにPointer-Generator Networksを、さまざまなリソース範囲で6つの言語ペアでテストし、ほとんどの設定で弱い改善点を見つけました。 しかし, 分析の結果, より近い言語対とより遠い言語対, あるいはより低いリソース範囲において, モデルがより大きな改善を示さないこと, 共有サブワードに対して, モデルが期待される使用方法を示していないこと, などの結果が得られた。 この行動の理由に関する議論は、現代のトークン化戦略、雑音の多い現実世界の条件、言語的複雑さなど、LR NMTのいくつかの一般的な課題を浮き彫りにしている。 我々は、トランスフォーマーモデルのブラックボックスの性質を考えると、言語的に動機づけられたNMTの改善のより精査と、この分野における上記の問題に焦点をあてることを求めている。

While Transformer-based neural machine translation (NMT) is very effective in high-resource settings, many languages lack the necessary large parallel corpora to benefit from it. In the context of low-resource (LR) MT between two closely-related languages, a natural intuition is to seek benefits from structural "shortcuts", such as copying subwords from the source to the target, given that such language pairs often share a considerable number of identical words, cognates, and borrowings. We test Pointer-Generator Networks for this purpose for six language pairs over a variety of resource ranges, and find weak improvements for most settings. However, analysis shows that the model does not show greater improvements for closely-related vs. more distant language pairs, or for lower resource ranges, and that the models do not exhibit the expected usage of the mechanism for shared subwords. Our discussion of the reasons for this behaviour highlights several general challenges for LR NMT, such as modern tokenization strategies, noisy real-world conditions, and linguistic complexities. We call for better scrutiny of linguistically motivated improvements to NMT given the blackbox nature of Transformer models, as well as for a focus on the above problems in the field.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# LSKNet: リモートセンシングのための基礎的な軽量バックボーン

LSKNet: A Foundation Lightweight Backbone for Remote Sensing ( http://arxiv.org/abs/2403.11735v3 )

ライセンス: Link先を確認
Yuxuan Li, Xiang Li, Yimain Dai, Qibin Hou, Li Liu, Yongxiang Liu, Ming-Ming Cheng, Jian Yang, (参考訳) リモートセンシング画像は、その固有の複雑さのために、下流のタスクに対して異なる課題を生じさせる。 リモートセンシング分類、オブジェクト検出、セマンティックセグメンテーションに多くの研究がなされているが、これらの研究の多くは、リモートセンシングシナリオに埋め込まれた貴重な事前知識を見落としている。 このような事前知識は、遠隔センシングオブジェクトが十分に長い範囲のコンテキストを参照せずに誤って認識され、異なるオブジェクトに対して異なる可能性があるため、有用である。 本稿では,これらの前提を考察し,軽量なLarge Selective Kernel Network(LSKNet)のバックボーンを提案する。 LSKNetはその大きな空間受容場を動的に調整し、リモートセンシングシナリオにおける様々なオブジェクトの範囲をモデル化する。 我々の知る限り、大規模で選択的なカーネル機構は、これまでリモートセンシング画像では研究されていない。 我々の軽量LSKNetは、標準リモートセンシング分類、オブジェクト検出、セマンティックセグメンテーションベンチマークに基づいて、最先端のスコアを設定しています。 包括的分析により、同定された事前の意義とLSKNetの有効性がさらに検証された。 コードはhttps://github.com/zcablii/LSKNetで公開されている。

Remote sensing images pose distinct challenges for downstream tasks due to their inherent complexity. While a considerable amount of research has been dedicated to remote sensing classification, object detection and semantic segmentation, most of these studies have overlooked the valuable prior knowledge embedded within remote sensing scenarios. Such prior knowledge can be useful because remote sensing objects may be mistakenly recognized without referencing a sufficiently long-range context, which can vary for different objects. This paper considers these priors and proposes a lightweight Large Selective Kernel Network (LSKNet) backbone. LSKNet can dynamically adjust its large spatial receptive field to better model the ranging context of various objects in remote sensing scenarios. To our knowledge, large and selective kernel mechanisms have not been previously explored in remote sensing images. Without bells and whistles, our lightweight LSKNet sets new state-of-the-art scores on standard remote sensing classification, object detection and semantic segmentation benchmarks. Our comprehensive analysis further validated the significance of the identified priors and the effectiveness of LSKNet. The code is available at https://github.com/zcablii/LSKNet.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# リカレントニューラルネットワーク重み行列の有用な表現法

Learning Useful Representations of Recurrent Neural Network Weight Matrices ( http://arxiv.org/abs/2403.11998v2 )

ライセンス: Link先を確認
Vincent Herrmann, Francesco Faccio, Jürgen Schmidhuber, (参考訳) リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)は、汎用並列シーケンスコンピュータである。 RNNのプログラムはその重み行列である。 下流タスクと同様に、RNN分析を容易にするRNN重みの有用な表現をどうやって学習するか? 力学的手法はRNNの重みを直接調べてその振舞いを予測するが、機能主義的手法は機能全体、特に入出力マッピングを解析する。 我々は、RNN重みに対するいくつかの力学的アプローチを検討し、RNNに対して置換同変のDeep Weight Space層を適用する。 我々の2つの新しい機能主義者は、入力を探索することでRNNの重みから情報を'インターロゲート'することで抽出する。 機能主義的アプローチがRNNの振る舞いを決定するのに役立つリッチな表現を生成できる条件を示す理論的枠組みを開発する。 RNN重み表現学習のための最初の2つのモデル動物園データセットをリリースする。 1つは形式言語のクラスの生成モデルと、もう1つは逐次処理されたMNIST桁の分類器で構成され、エミュレーションベースの自己教師あり学習技術を用いて、複数の下流アプリケーション上で異なるRNN重み符号化技術を比較し、評価する。 もっとも難しいのは、RNNがトレーニングした正確なタスクを予測することであり、機能主義者のアプローチは明らかに優位性を示している。

Recurrent Neural Networks (RNNs) are general-purpose parallel-sequential computers. The program of an RNN is its weight matrix. How to learn useful representations of RNN weights that facilitate RNN analysis as well as downstream tasks? While the mechanistic approach directly looks at some RNN's weights to predict its behavior, the functionalist approach analyzes its overall functionality-specifically, its input-output mapping. We consider several mechanistic approaches for RNN weights and adapt the permutation equivariant Deep Weight Space layer for RNNs. Our two novel functionalist approaches extract information from RNN weights by 'interrogating' the RNN through probing inputs. We develop a theoretical framework that demonstrates conditions under which the functionalist approach can generate rich representations that help determine RNN behavior. We release the first two 'model zoo' datasets for RNN weight representation learning. One consists of generative models of a class of formal languages, and the other one of classifiers of sequentially processed MNIST digits.With the help of an emulation-based self-supervised learning technique we compare and evaluate the different RNN weight encoding techniques on multiple downstream applications. On the most challenging one, namely predicting which exact task the RNN was trained on, functionalist approaches show clear superiority.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# リー群に対するKineetic Langevin Monte Carloの収束性

Convergence of Kinetic Langevin Monte Carlo on Lie groups ( http://arxiv.org/abs/2403.12012v2 )

ライセンス: Link先を確認
Lingkai Kong, Molei Tao, (参考訳) リー群上で定義される関数を最適化するための明示的で運動量に基づく力学は、変分最適化や左自明化といった手法に基づいて最近構築された。 我々は、ポテンシャル関数が多様体上に存在するにもかかわらず、自明な運動量変数がユークリッドであるという有利な特徴を生かして、これをサンプリング力学に変換するために、最適にトラクタブルノイズを最適化力学に追加する。 次に,Lie群MCMCサンプリング器を提案し,その結果の速度論的ラージビン型サンプリングダイナミクスを微妙に判別する。 リー群構造は、この離散化によって正確に保存される。 連続力学と離散サンプリング器の両方に対する明示的な収束率を持つ指数収束は、$W_2$距離で証明される。 リー群のコンパクト性とポテンシャル函数の測地的に$L$-滑らか性のみが必要である。 我々の知る限りでは、これは曲線空間上での動力学ランゲヴィンの初めての収束結果であり、凸性を必要としない最初の定量的結果である。

Explicit, momentum-based dynamics for optimizing functions defined on Lie groups was recently constructed, based on techniques such as variational optimization and left trivialization. We appropriately add tractable noise to the optimization dynamics to turn it into a sampling dynamics, leveraging the advantageous feature that the trivialized momentum variable is Euclidean despite that the potential function lives on a manifold. We then propose a Lie-group MCMC sampler, by delicately discretizing the resulting kinetic-Langevin-type sampling dynamics. The Lie group structure is exactly preserved by this discretization. Exponential convergence with explicit convergence rate for both the continuous dynamics and the discrete sampler are then proved under $W_2$ distance. Only compactness of the Lie group and geodesically $L$-smoothness of the potential function are needed. To the best of our knowledge, this is the first convergence result for kinetic Langevin on curved spaces, and also the first quantitative result that requires no convexity or, at least not explicitly, any common relaxation such as isoperimetry.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# 時系列分析のための基礎モデル:チュートリアルと調査

Foundation Models for Time Series Analysis: A Tutorial and Survey ( http://arxiv.org/abs/2403.14735v3 )

ライセンス: Link先を確認
Yuxuan Liang, Haomin Wen, Yuqi Nie, Yushan Jiang, Ming Jin, Dongjin Song, Shirui Pan, Qingsong Wen, (参考訳) 時系列分析は、データマイニングコミュニティの焦点であり、無数の現実世界のアプリケーションにとって重要な貴重な洞察を抽出するための基盤となる。 ファンデーションモデル(FM)の最近の進歩は、時系列分析のためのモデル設計のパラダイムを根本的に変え、実際に様々な下流タスクを加速させてきた。 これらの革新的なアプローチは、しばしば、時系列分析に適した一般化知識を利用するために、事前訓練または微調整されたFMを利用する。 本調査は,時系列解析のためのFMの概要を包括的かつ最新のものにすることを目的としている。 以前の調査は、時系列分析におけるFMのアプリケーションまたはパイプラインの側面に主に焦点を合わせてきたが、なぜFMが時系列解析の恩恵を受けるのかを解明する基盤となるメカニズムについて、深い理解が欠如していることが多い。 このギャップに対処するため、我々の調査では、モデルアーキテクチャ、事前学習技術、適応方法、データモダリティなど、時系列FMの様々な重要な要素を列挙する方法論中心の分類を採用した。 全体として、この調査は、時系列分析に関連するFMの最新の進歩を集約し、その理論的基盤、最近の発展の歩み、将来の探査への道筋を強調させるのに役立つ。

Time series analysis stands as a focal point within the data mining community, serving as a cornerstone for extracting valuable insights crucial to a myriad of real-world applications. Recent advances in Foundation Models (FMs) have fundamentally reshaped the paradigm of model design for time series analysis, boosting various downstream tasks in practice. These innovative approaches often leverage pre-trained or fine-tuned FMs to harness generalized knowledge tailored for time series analysis. This survey aims to furnish a comprehensive and up-to-date overview of FMs for time series analysis. While prior surveys have predominantly focused on either application or pipeline aspects of FMs in time series analysis, they have often lacked an in-depth understanding of the underlying mechanisms that elucidate why and how FMs benefit time series analysis. To address this gap, our survey adopts a methodology-centric classification, delineating various pivotal elements of time-series FMs, including model architectures, pre-training techniques, adaptation methods, and data modalities. Overall, this survey serves to consolidate the latest advancements in FMs pertinent to time series analysis, accentuating their theoretical underpinnings, recent strides in development, and avenues for future exploration.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# Imagination Augmented Generation:大規模言語モデルに対する質問応答のためのよりリッチなコンテキストを想像する学習

Imagination Augmented Generation: Learning to Imagine Richer Context for Question Answering over Large Language Models ( http://arxiv.org/abs/2403.15268v3 )

ライセンス: Link先を確認
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao, (参考訳) 大規模言語モデル(LLM)上での質問応答に必要な知識を高めるために,検索・拡張・ジェネレーションとジェネレーション・拡張・ジェネレーションを提案する。 しかし、前者は外部リソースに依存しており、どちらも明示的な文書をコンテキストに組み込む必要があるため、実行コストとノイズデータに対する感受性が増大する。 最近の研究は、LLMが豊かな知識をモデル化したことを示している。 そこで本研究では,知識不足を補うための人的能力を模擬した知識増強フレームワークImagination-Augmented-Generation(IAG)を提案する。 IAGによってガイドされ,質問応答(IMcQA)のためのよりリッチなコンテキスト手法を提案する。 IMcQAは2つのモジュールから構成されており、長いコンテキスト圧縮から学習することで短いダミー文書を生成する明示的イマジネーションと、長いコンテキストを持つ教師モデルから蒸留することで柔軟なアダプタを生成する暗黙的イマジネーションである。 3つのデータセットの実験結果から、IMcQAは、オープンドメインとクローズドブックの両方のセッティングにおいて、また、アウト・オブ・ディストリビューションの一般化において大きなアドバンテージを示すことが示された。 私たちのコードはhttps://github.com/Xnhyacinth/IAG.comで公開されます。

Retrieval-Augmented-Generation and Gener-ation-Augmented-Generation have been proposed to enhance the knowledge required for question answering over Large Language Models (LLMs). However, the former relies on external resources, and both require incorporating explicit documents into the context, which increases execution costs and susceptibility to noise data. Recent works indicate that LLMs have modeled rich knowledge, albeit not effectively triggered or awakened. Inspired by this, we propose a novel knowledge-augmented framework, Imagination-Augmented-Generation (IAG), which simulates the human capacity to compensate for knowledge deficits while answering questions solely through imagination, thereby awakening relevant knowledge in LLMs without relying on external resources. Guided by IAG, we propose an imagine richer context method for question answering (IMcQA). IMcQA consists of two modules: explicit imagination, which generates a short dummy document by learning from long context compression, and implicit imagination, which creates flexible adapters by distilling from a teacher model with a long context. Experimental results on three datasets demonstrate that IMcQA exhibits significant advantages in both open-domain and closed-book settings, as well as in out-of-distribution generalization. Our code will be available at https://github.com/Xnhyacinth/IAG.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# 人工知能と自然知の混合:統計力学からAIへ、乱流へ

Mixing Artificial and Natural Intelligence: From Statistical Mechanics to AI and Back to Turbulence ( http://arxiv.org/abs/2403.17993v2 )

ライセンス: Link先を確認
Michael Chertkov, (参考訳) この論文は、特に乱流研究に焦点を当てた科学研究におけるAIの役割を反映し、特に非平衡統計力学に根ざした拡散モデルを通して、AIの進化について考察する。 これは、ディープニューラルネットワークの革新的利用を通じて、ラグランジアンモデルによる乱流の減少に対するAIの重大な影響を浮き彫りにしている。 さらに、乱流研究における様々なAI応用をレビューし、AIと統計流体力学の同時進行における潜在的な課題と機会を概説する。 この議論は、AIと乱流の研究が複雑に絡み合っており、両方の分野においてより深い洞察と進歩をもたらす未来へのステージを定めている。

The paper reflects on the future role of AI in scientific research, with a special focus on turbulence studies, and examines the evolution of AI, particularly through Diffusion Models rooted in non-equilibrium statistical mechanics. It underscores the significant impact of AI on advancing reduced, Lagrangian models of turbulence through innovative use of deep neural networks. Additionally, the paper reviews various other AI applications in turbulence research and outlines potential challenges and opportunities in the concurrent advancement of AI and statistical hydrodynamics. This discussion sets the stage for a future where AI and turbulence research are intricately intertwined, leading to more profound insights and advancements in both fields.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# マルチモーダル大言語モデルにおける推論のプラグ・アンド・プレイグラウンド化

Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models ( http://arxiv.org/abs/2403.19322v2 )

ライセンス: Link先を確認
Jiaxing Chen, Yuxuan Liu, Dehu Li, Xiang An, Weimo Deng, Ziyong Feng, Yongle Zhao, Yin Xie, (参考訳) 先進的な指示追従能力と推論能力で有名なMLLM(Multimodal Large Language Models)の台頭は、視覚的推論の分野を著しく推進している。 しかし、画像トークン化プロセスの制限のため、ほとんどのMLLMは、特に高解像度のサンプルにおいて、画像中のテキストやオブジェクトの細部を捉えるのに苦労している。 この制限を克服するために,MLLMにおけるプラグ・アンド・プレイグラウンドティングのための新しいフレームワークであるP2Gを導入する。 P2GはMLLMのツール使用の可能性を利用して、画像内の重要な視覚的およびテキスト的要素への推論のオンザフライグラウンドに専門家エージェントを採用することにより、マルチモーダルプロンプトによる意図的な推論を可能にする。 さらに,高解像度画像におけるオブジェクト間関係とテキスト内容の理解におけるMLLMの習熟度を評価するためのベンチマークであるP2GBを開発した。 視覚的推論タスクに関する大規模な実験は、P2Gの優位性を示し、7Bのバックボーンを持つP2GB上のGPT-4Vに匹敵する性能を実現している。 我々の研究は、MLLMにおける外部エージェントによる推論の可能性を強調し、単なるモデルスケーリングに代わる有望な選択肢を示す。

The rise of Multimodal Large Language Models (MLLMs), renowned for their advanced instruction-following and reasoning capabilities, has significantly propelled the field of visual reasoning. However, due to limitations in their image tokenization processes, most MLLMs struggle to capture fine details of text and objects in images, especially in high-resolution samples. To overcome this limitation, we introduce P2G, a novel framework for plug-and-play grounding in MLLMs. P2G utilizes the tool-usage potential of MLLMs to employ expert agents for on-the-fly grounding of reasoning into critical visual and textual elements in images, thereby enabling deliberate reasoning through multimodal prompting. Additionally, we develop P2GB, a benchmark designed to evaluate MLLMs' proficiency in understanding inter-object relationships and textual content in challenging high-resolution images. Extensive experiments on visual reasoning tasks demonstrate the superiority of P2G, achieving performance comparable to GPT-4V on P2GB with a 7B backbone. Our work underscores the potential of grounding reasoning with external agents in MLLMs, presenting a promising alternative to mere model scaling.
翻訳日:2024-06-20 03:55:50 公開日:2024-06-18
# 画像・テキスト生成によるテキスト・ツー・ビジュアル・ジェネレーションの評価

Evaluating Text-to-Visual Generation with Image-to-Text Generation ( http://arxiv.org/abs/2404.01291v2 )

ライセンス: Link先を確認
Zhiqiu Lin, Deepak Pathak, Baiqi Li, Jiayao Li, Xide Xia, Graham Neubig, Pengchuan Zhang, Deva Ramanan, (参考訳) 生成AIの大幅な進歩にもかかわらず、効果的なメトリクスと標準化されたベンチマークが欠如しているため、包括的な評価は依然として難しい。 例えば、広く使用されているCLIPScoreは、(生成された)イメージとテキストプロンプトのアライメントを測定するが、オブジェクト、属性、関係性の合成を含む複雑なプロンプトの信頼性の高いスコアを生成できない。 一つの理由は、CLIPのテキストエンコーダーが「言葉の袋」として働き、「馬が草を食べている」といったプロンプトと「草が馬を食べている」といったプロンプトを混同しているからである。 これを解決するために、VQAScoreを導入し、VQAモデルを用いて、単純な「この図は「{text}」を示すか?」という質問に対する「Yes」回答の確率を計算し、アライメントスコアを生成する。 VQAScoreは従来の技術よりもシンプルだが、市販のモデルで計算すると、多くの(8)画像テキストアライメントベンチマークで最先端の結果が生成される。 また、文献のベストプラクティスに従う社内モデルでVQAScoreを計算します。 例えば、双方向画像探索エンコーダを使用して、画像埋め込みは、質問された質問(およびその逆)に依存します。 私たちの社内モデルであるCLIP-FlanT5は、プロプライエタリなGPT-4Vを使用する最強のベースラインでさえも上回っています。 興味深いことに、VQAScoreは画像のみで訓練するが、テキストをビデオや3Dモデルに合わせることもできる。 VQAScoreは、研究者が現実世界のプロンプトの構成構造をキャプチャする複雑なテキストを使用して、テキストから視覚への生成をベンチマークすることを可能にする。 GenAI-Benchは1,600のコンポジションテキストプロンプトを備えたより難しいベンチマークで、シーン、オブジェクト、属性、リレーション、そして比較や論理のような高次推論を必要とする。 GenAI-Benchはまた、Stable Diffusion、DALL-E 3、Gen2などの画像およびビデオ生成モデルに15,000以上の人間格付けを提供している。

Despite significant progress in generative AI, comprehensive evaluation remains challenging because of the lack of effective metrics and standardized benchmarks. For instance, the widely-used CLIPScore measures the alignment between a (generated) image and text prompt, but it fails to produce reliable scores for complex prompts involving compositions of objects, attributes, and relations. One reason is that text encoders of CLIP can notoriously act as a "bag of words", conflating prompts such as "the horse is eating the grass" with "the grass is eating the horse". To address this, we introduce the VQAScore, which uses a visual-question-answering (VQA) model to produce an alignment score by computing the probability of a "Yes" answer to a simple "Does this figure show '{text}'?" question. Though simpler than prior art, VQAScore computed with off-the-shelf models produces state-of-the-art results across many (8) image-text alignment benchmarks. We also compute VQAScore with an in-house model that follows best practices in the literature. For example, we use a bidirectional image-question encoder that allows image embeddings to depend on the question being asked (and vice versa). Our in-house model, CLIP-FlanT5, outperforms even the strongest baselines that make use of the proprietary GPT-4V. Interestingly, although we train with only images, VQAScore can also align text with video and 3D models. VQAScore allows researchers to benchmark text-to-visual generation using complex texts that capture the compositional structure of real-world prompts. We introduce GenAI-Bench, a more challenging benchmark with 1,600 compositional text prompts that require parsing scenes, objects, attributes, relationships, and high-order reasoning like comparison and logic. GenAI-Bench also offers over 15,000 human ratings for leading image and video generation models such as Stable Diffusion, DALL-E 3, and Gen2.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# ガウス過程潜在変数モデルにおけるモデル崩壊防止

Preventing Model Collapse in Gaussian Process Latent Variable Models ( http://arxiv.org/abs/2404.01697v2 )

ライセンス: Link先を確認
Ying Li, Zhidi Lin, Feng Yin, Michael Minyi Zhang, (参考訳) ガウスプロセス潜在変数モデル(ガウスプロセス潜在変数モデル、英: Gaussian Process Latent variable model、GPLVM)は、一般に次元の減少に使用される教師なし学習モデルの汎用的なファミリである。 しかし、GPLVMを用いたデータモデリングにおける一般的な課題は、カーネルの柔軟性の不十分さとプロジェクションノイズの不適切な選択である。 本稿では,まず,線状GPLVMのレンズによるモデル崩壊に対する射影分散の影響を理論的に検討する。 第2に、スペクトル混合(SM)カーネルと微分可能なランダムフーリエ特徴(RFF)カーネル近似を統合することにより、カーネルハイパーパラメータ、投影分散、潜時表現を変動推論フレームワーク内で学習するオフザシェル自動微分ツールにより、計算スケーラビリティと効率を確保することにより、カーネルの柔軟性の低下に対処する。 提案されたGPLVMは、アドバイスRFLVMと名付けられ、さまざまなデータセットで評価され、最新式の変分オートエンコーダ(VAE)や他のGPLVMの亜種など、有意な潜在表現と欠落したデータ計算など、さまざまな優れた競合モデルよりも一貫して優れています。

Gaussian process latent variable models (GPLVMs) are a versatile family of unsupervised learning models commonly used for dimensionality reduction. However, common challenges in modeling data with GPLVMs include inadequate kernel flexibility and improper selection of the projection noise, leading to a type of model collapse characterized by vague latent representations that do not reflect the underlying data structure. This paper addresses these issues by, first, theoretically examining the impact of projection variance on model collapse through the lens of a linear GPLVM. Second, we tackle model collapse due to inadequate kernel flexibility by integrating the spectral mixture (SM) kernel and a differentiable random Fourier feature (RFF) kernel approximation, which ensures computational scalability and efficiency through off-the-shelf automatic differentiation tools for learning the kernel hyperparameters, projection variance, and latent representations within the variational inference framework. The proposed GPLVM, named advisedRFLVM, is evaluated across diverse datasets and consistently outperforms various salient competing models, including state-of-the-art variational autoencoders (VAEs) and other GPLVM variants, in terms of informative latent representations and missing data imputation.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# 金融時系列予測のためのスーパービジョンオートエンコーダMLP

Supervised Autoencoder MLP for Financial Time Series Forecasting ( http://arxiv.org/abs/2404.01866v2 )

ライセンス: Link先を確認
Bartosz Bieganowski, Robert Slepaczuk, (参考訳) 本稿では、投資戦略の性能向上を目的とした、教師付きオートエンコーダによるニューラルネットワーク利用による金融時系列予測の強化について検討する。 具体的には、シャープとインフォメーション比を用いて、ノイズ増大と三重障壁ラベルがリスク調整されたリターンに与える影響を具体的に調べる。 この調査は2010年1月1日から2022年4月30日までの取引資産としてS&P500指数、EUR/USD、BTC/USDに焦点を当てている。 その結果、教師付きオートエンコーダは、バランスの取れたノイズ増大とボトルネックサイズにより、戦略の有効性を著しく向上させることがわかった。 しかし、過度なノイズと大きなボトルネックサイズは性能を損なう可能性があり、正確なパラメータチューニングの重要性を強調している。 本稿では,三重バリアラベリングで使用可能な新しい最適化指標の導出について述べる。 本研究の結果は、市場安定と投資家保護を高めるため、金融機関や規制当局が提示した手法を活用できるとともに、様々な金融分野におけるより情報に富んだ戦略的投資アプローチを奨励できることを示唆している。

This paper investigates the enhancement of financial time series forecasting with the use of neural networks through supervised autoencoders, aiming to improve investment strategy performance. It specifically examines the impact of noise augmentation and triple barrier labeling on risk-adjusted returns, using the Sharpe and Information Ratios. The study focuses on the S&P 500 index, EUR/USD, and BTC/USD as the traded assets from January 1, 2010, to April 30, 2022. Findings indicate that supervised autoencoders, with balanced noise augmentation and bottleneck size, significantly boost strategy effectiveness. However, excessive noise and large bottleneck sizes can impair performance, highlighting the importance of precise parameter tuning. This paper also presents a derivation of a novel optimization metric that can be used with triple barrier labeling. The results of this study have substantial policy implications, suggesting that financial institutions and regulators could leverage techniques presented to enhance market stability and investor protection, while also encouraging more informed and strategic investment approaches in various financial sectors.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# 簡易アダプティブアタックによる安全に配慮したLLMの脱獄

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks ( http://arxiv.org/abs/2404.02151v2 )

ライセンス: Link先を確認
Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, (参考訳) 近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。 まず、jailbreakでlogprobへのアクセスをうまく活用する方法を実証する: 最初は逆プロンプトテンプレート(LLMに適合することもある)を設計し、次に接尾辞にランダム検索を適用してターゲットのlogprob(例えば ``Sure'')を最大化します。 このようにして、審査員としてのGPT-4によると、GCG攻撃に対して敵対的に訓練されたHarmBenchから、Vicuna-13B、Mistral-7B、Phi-3-Mini、Nemotron-4-340B、Llama-2-Chat-7B/13B/70B、Llama-3-Instruct-8B、Gemma-7B、GPT-3.5、GPT-4、R2D2の攻撃成功率の約100%を達成する。 また、転送またはプリフィル攻撃を100%の成功率で実施することで、Crudeモデル -- ログプロブを公開していない -- をジェイルブレイクする方法も示しています。 さらに、毒殺モデル(ジェイルブレイクと多くの類似点を持つタスク)でトロイの木馬の文字列を見つけるために制限されたトークンセットをランダムに検索する方法も示しています。 異なるモデルが異なるプロンプトテンプレート(例えば、R2D2は、コンテキスト内の学習プロンプトに非常に敏感である)に対して脆弱である、いくつかのモデルは、APIに基づいたユニークな脆弱性を持っている(例えば、Claudeのプリフィル)、いくつかの設定では、事前の知識(例えば、トロイの木馬検出)に基づいてトークン検索スペースを制限することが重要である。 再現性のために、 https://github.com/tml-epfl/llm-adaptive- attacks で JailbreakBench フォーマットのコード、ログ、jailbreak アーティファクトを https://github.com/tml-epfl/llm-adaptive- attacks で提供します。

We show that even the most recent safety-aligned LLMs are not robust to simple adaptive jailbreaking attacks. First, we demonstrate how to successfully leverage access to logprobs for jailbreaking: we initially design an adversarial prompt template (sometimes adapted to the target LLM), and then we apply random search on a suffix to maximize a target logprob (e.g., of the token ``Sure''), potentially with multiple restarts. In this way, we achieve nearly 100% attack success rate -- according to GPT-4 as a judge -- on Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4, and R2D2 from HarmBench that was adversarially trained against the GCG attack. We also show how to jailbreak all Claude models -- that do not expose logprobs -- via either a transfer or prefilling attack with a 100% success rate. In addition, we show how to use random search on a restricted set of tokens for finding trojan strings in poisoned models -- a task that shares many similarities with jailbreaking -- which is the algorithm that brought us the first place in the SaTML'24 Trojan Detection Competition. The common theme behind these attacks is that adaptivity is crucial: different models are vulnerable to different prompting templates (e.g., R2D2 is very sensitive to in-context learning prompts), some models have unique vulnerabilities based on their APIs (e.g., prefilling for Claude), and in some settings, it is crucial to restrict the token search space based on prior knowledge (e.g., for trojan detection). For reproducibility purposes, we provide the code, logs, and jailbreak artifacts in the JailbreakBench format at https://github.com/tml-epfl/llm-adaptive-attacks.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# 完全分散型ニューラルネットワークシステムにおける変分問題

Vanishing Variance Problem in Fully Decentralized Neural-Network Systems ( http://arxiv.org/abs/2404.04616v2 )

ライセンス: Link先を確認
Yongding Tian, Zaid Al-Ars, Maksim Kitsak, Peter Hofstee, (参考訳) フェデレーションラーニングとゴシップラーニングは、クライアントデバイス上でトレーニングデータを保持し、ローカルにトレーニングされた機械学習(ML)モデルを他と共有することによって、データのプライバシに関する懸念を軽減するように設計されている。 フェデレートされた学習は集中型パラメータサーバを使用し、ゴシップ学習は完全な分散化メカニズムを採用し、ノード間の直接モデル交換を可能にする。 この分散された性質は、ゴシップ学習を連邦学習よりも効率の低いものと位置づけることが多い。 どちらも重要なステップで、受信したMLモデルの表現を計算し、この表現を既存のモデルに統合する。 従来、この表現は、FedAVGアルゴリズムで例示される、受信したモデルの平均化によって導かれる。 この平均化アプローチは,モデル収束の潜在的な遅延を本質的に引き起こすことが示唆された。 ここでは,Xavier重み初期化によって確立された最適分散を,非相関MLモデルの平均化が損なう「消滅的分散」問題として,その根本原因を特定し,これを「消滅的分散」問題と呼ぶ。 中央サーバがモデル相関を保証するフェデレーション学習と異なり、モデル分割とサンプリングによってこの問題を回避する従来のゴシップ学習とは異なり、本研究では分散補正モデル平均化アルゴリズムを導入している。 このアルゴリズムは,ネットワークトポロジや非IIDデータ分布に関係なく,モデル平均化に必要な最適分散を保存する。 シミュレーション結果から,Gossip学習がフェデレート学習に匹敵する収束効率を達成できることが示唆された。

Federated learning and gossip learning are emerging methodologies designed to mitigate data privacy concerns by retaining training data on client devices and exclusively sharing locally-trained machine learning (ML) models with others. The primary distinction between the two lies in their approach to model aggregation: federated learning employs a centralized parameter server, whereas gossip learning adopts a fully decentralized mechanism, enabling direct model exchanges among nodes. This decentralized nature often positions gossip learning as less efficient compared to federated learning. Both methodologies involve a critical step: computing a representation of received ML models and integrating this representation into the existing model. Conventionally, this representation is derived by averaging the received models, exemplified by the FedAVG algorithm. Our findings suggest that this averaging approach inherently introduces a potential delay in model convergence. We identify the underlying cause and refer to it as the "vanishing variance" problem, where averaging across uncorrelated ML models undermines the optimal variance established by the Xavier weight initialization. Unlike federated learning where the central server ensures model correlation, and unlike traditional gossip learning which circumvents this problem through model partitioning and sampling, our research introduces a variance-corrected model averaging algorithm. This novel algorithm preserves the optimal variance needed during model averaging, irrespective of network topology or non-IID data distributions. Our extensive simulation results demonstrate that our approach enables gossip learning to achieve convergence efficiency comparable to that of federated learning.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# PagPassGPT: 生成事前学習型トランスによるパターンガイドパスワード案内

PagPassGPT: Pattern Guided Password Guessing via Generative Pretrained Transformer ( http://arxiv.org/abs/2404.04886v2 )

ライセンス: Link先を確認
Xingyu Su, Xiaojie Zhu, Yang Li, Yong Li, Chi Chen, Paulo Esteves-Veríssimo, (参考訳) ディープラーニングベースのパスワード推測モデルの増加の中で、高品質なパスワードの生成と重複パスワードの削減という課題が続いている。 これらの課題に対処するため,GPT(Generative Pretrained Transformer)上に構築されたパスワード推測モデルPagPassGPTを提案する。 パターン構造情報を背景知識として組み込むことでパターンガイドによる推測を行うことができ、それによってヒット率が大幅に向上する。 さらに,D&C-GENを用いて生成したパスワードの繰り返し率を削減する手法を提案する。 パスワードを推測する主なタスクは、重複しないサブタスクに再帰的に分割される。 各サブタスクは、親タスクから知識を継承し、後続するトークンを予測する。 提案手法は、最先端モデルと比較して、12%以上のパスワードを正しく推測し、25%少ない重複を生成する能力を示す。

Amidst the surge in deep learning-based password guessing models, challenges of generating high-quality passwords and reducing duplicate passwords persist. To address these challenges, we present PagPassGPT, a password guessing model constructed on Generative Pretrained Transformer (GPT). It can perform pattern guided guessing by incorporating pattern structure information as background knowledge, resulting in a significant increase in the hit rate. Furthermore, we propose D&C-GEN to reduce the repeat rate of generated passwords, which adopts the concept of a divide-and-conquer approach. The primary task of guessing passwords is recursively divided into non-overlapping subtasks. Each subtask inherits the knowledge from the parent task and predicts succeeding tokens. In comparison to the state-of-the-art model, our proposed scheme exhibits the capability to correctly guess 12% more passwords while producing 25% fewer duplicates.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# いくつかのシンプレクティック弱超正則化における行列化

Majorization in some symplectic weak supermajorizations ( http://arxiv.org/abs/2404.05795v2 )

ライセンス: Link先を確認
Shaowu Huang, Hemant K. Mishra, (参考訳) シンプレクティック固有値は、いくつかの古典的固有値の不等式のアナログを満たすことが知られている。 これらのうち、シンプレクティック固有値に関する弱い超磁化関係は、固有値に対応するいくつかの偏化関係の弱いアナログである。 本書簡の目的は,多角化によるシンプレクティック・弱い超並列化関係の飽和に必要かつ十分な条件を確立することである。

Symplectic eigenvalues are known to satisfy analogs of several classic eigenvalue inequalities. Of these is a set of weak supermajorization relations concerning symplectic eigenvalues that are weaker analogs of some majorization relations corresponding to eigenvalues. The aim of this letter is to establish necessary and sufficient conditions for the saturation of the symplectic weak supermajorization relations by majorization.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# 群衆計数における簡易モデル構造の有効性

The Effectiveness of a Simplified Model Structure for Crowd Counting ( http://arxiv.org/abs/2404.07847v3 )

ライセンス: Link先を確認
Lei Chen, Xinghang Gao, Fei Chao, Xiang Chang, Chih Min Lin, Xingen Gao, Shaopeng Lin, Hongyi Zhang, Juqiang Lin, (参考訳) 群集カウント研究の分野では,近年の深層学習に基づく手法の多くが,群集サイズを正確に推定する頑健な能力を実証している。 しかし、それらの性能の向上は、しばしばモデル構造の複雑さの増大から生じる。 本稿では,単純な構造のみを用いて,高性能なクラウドカウントモデルを構築する方法について論じる。 本稿では,バックボーンネットワークとマルチスケール機能融合構造のみからなる,そのシンプルで効率的な構造を特徴とするFuss-Free Network(FFNet)を提案する。 マルチスケールの特徴融合構造は3つの分岐からなる単純な構造であり、それぞれに焦点遷移モジュールのみを備えており、結合操作によってこれらの分岐の特徴を組み合わせる。 提案するクラウドカウントモデルは,広く使用されている4つの公開データセットに対してトレーニングおよび評価を行い,既存の複雑なモデルに匹敵する精度を実現する。 さらに, FFNet や CCTrans などの既存のバックボーンを MobileNet-v3, ConvNeXt-Tiny, Swin-Transformer-Small など様々なネットワークに置き換えることで, 包括的評価を行う。 さらに, 提案した簡易構造を用いて, 優れた群集カウント性能を達成できることが実験的に示唆された。

In the field of crowd counting research, many recent deep learning based methods have demonstrated robust capabilities for accurately estimating crowd sizes. However, the enhancement in their performance often arises from an increase in the complexity of the model structure. This paper discusses how to construct high-performance crowd counting models using only simple structures. We proposes the Fuss-Free Network (FFNet) that is characterized by its simple and efficieny structure, consisting of only a backbone network and a multi-scale feature fusion structure. The multi-scale feature fusion structure is a simple structure consisting of three branches, each only equipped with a focus transition module, and combines the features from these branches through the concatenation operation. Our proposed crowd counting model is trained and evaluated on four widely used public datasets, and it achieves accuracy that is comparable to that of existing complex models. Furthermore, we conduct a comprehensive evaluation by replacing the existing backbones of various models such as FFNet and CCTrans with different networks, including MobileNet-v3, ConvNeXt-Tiny, and Swin-Transformer-Small. The experimental results further indicate that excellent crowd counting performance can be achieved with the simplied structure proposed by us.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# Accel-NASBench: Accelerator-Aware NASのための持続可能なベンチマーク

Accel-NASBench: Sustainable Benchmarking for Accelerator-Aware NAS ( http://arxiv.org/abs/2404.08005v2 )

ライセンス: Link先を確認
Afzal Ahmad, Linfeng Du, Zhiyao Xie, Wei Zhang, (参考訳) ニューラルアーキテクチャサーチ(NAS)の進歩を妨げる主な課題の1つは、外部の計算資源に依存することである。 NASベンチマークは、NAS実験の実行をゼロコストでシミュレートすることを目的としており、広範な計算の必要性を再考している。 しかし、既存のNASベンチマークでは、合成データセットとモデルプロキシを使用して、これらのデータセットとモデルの特徴に関する仮定を単純化し、非現実的な評価につながっている。 本研究では,ベンチマーク構築コストを大幅に削減し,大規模データセットを対象とした現実的なNASベンチマーク構築を可能にする手法を提案する。 この手法を用いて、ImageNet2012データセットのためのオープンソースの双方向NASベンチマークを構築し、GPU、TPU、FPGAなどのアクセラレータのオンデバイス性能と組み合わせる。 各種NASオプティマイザとハードウェアプラットフォームによる広範な実験により,ベンチマークは正確であり,最先端のハードウェア対応モデルをコストゼロで検索できることを示した。

One of the primary challenges impeding the progress of Neural Architecture Search (NAS) is its extensive reliance on exorbitant computational resources. NAS benchmarks aim to simulate runs of NAS experiments at zero cost, remediating the need for extensive compute. However, existing NAS benchmarks use synthetic datasets and model proxies that make simplified assumptions about the characteristics of these datasets and models, leading to unrealistic evaluations. We present a technique that allows searching for training proxies that reduce the cost of benchmark construction by significant margins, making it possible to construct realistic NAS benchmarks for large-scale datasets. Using this technique, we construct an open-source bi-objective NAS benchmark for the ImageNet2012 dataset combined with the on-device performance of accelerators, including GPUs, TPUs, and FPGAs. Through extensive experimentation with various NAS optimizers and hardware platforms, we show that the benchmark is accurate and allows searching for state-of-the-art hardware-aware models at zero cost.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# AIに基づく特許法に関する包括的調査

A Comprehensive Survey on AI-based Methods for Patents ( http://arxiv.org/abs/2404.08668v2 )

ライセンス: Link先を確認
Homaira Huda Shomee, Zhu Wang, Sathya N. Ravi, Sourav Medya, (参考訳) 人工知能(AI)と機械学習の最近の進歩は、さまざまな領域にまたがるトランスフォーメーション能力を示している。 この進歩は、AIベースのツールが、分類、検索、評価予測といった特許サイクルにおける重要なタスクを合理化し、強化する機会を提供する、特許分析とイノベーションの分野にまで及んでいる。 これは、特許研究者や申請者の効率を向上するだけでなく、技術革新と発見のための新たな道を開く。 私たちの調査では、2017年から2023年の間に26の会場から40以上の論文から、最近のAIツールに関する包括的な要約を公開しています。 既存の調査と異なり、特許画像とテキストデータのために機能する手法を含んでいる。 さらに,特許ライフサイクルの課題とAI手法の具体性に基づく分類のための新しい分類法を導入する。 この学際的な調査は、AIと特許分析の交差点で働く研究者や実践者、さらには効率的な特許システムの構築を目指す特許事務所のリソースとして機能することを目的としている。

Recent advancements in Artificial Intelligence (AI) and machine learning have demonstrated transformative capabilities across diverse domains. This progress extends to the field of patent analysis and innovation, where AI-based tools present opportunities to streamline and enhance important tasks in the patent cycle such as classification, retrieval, and valuation prediction. This not only accelerates the efficiency of patent researchers and applicants but also opens new avenues for technological innovation and discovery. Our survey provides a comprehensive summary of recent AI tools in patent analysis from more than 40 papers from 26 venues between 2017 and 2023. Unlike existing surveys, we include methods that work for patent image and text data. Furthermore, we introduce a novel taxonomy for the categorization based on the tasks in the patent life cycle as well as the specifics of the AI methods. This interdisciplinary survey aims to serve as a resource for researchers and practitioners who are working at the intersection of AI and patent analysis as well as the patent offices that are aiming to build efficient patent systems.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# LLMは楽しむか? 行動シミュレーションのための大規模言語モデルにおける確率分布の探索

Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation ( http://arxiv.org/abs/2404.09043v2 )

ライセンス: Link先を確認
Jia Gu, Liang Pang, Huawei Shen, Xueqi Cheng, (参考訳) 複雑な言語タスクを扱うための大規模言語モデル(LLM)の急速な進歩に伴い、マルコフ決定過程(MDP)として表される人間のシーケンシャルな意思決定過程をエミュレートするエージェントとしてLLMを採用する研究が増えている。 MDPの動作は特定の確率分布に従属し、反復的なサンプリングを必要とする。 これにより、LSMエージェントの能力に関する好奇心を喚起し、確率的サンプリングと行動系列の生成を通じて、エージェントの行動決定を導く。 上記の問題に答えるために、既知の確率分布を持つシーケンスシミュレーションと未知の確率分布を持つシーケンスシミュレーションの2つの主要な側面に分割する。 分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。 彼らの確率的サンプリング能力は、コーディングツールを統合することである程度改善できるが、このレベルのサンプリング精度は、人間の振る舞いをエージェントとしてシミュレートすることが困難である。

With the rapid advancement of large language models (LLMs) for handling complex language tasks, an increasing number of studies are employing LLMs as agents to emulate the sequential decision-making processes of humans often represented as Markov decision-making processes (MDPs). The actions in MDPs adhere to specific probability distributions and require iterative sampling. This arouses curiosity regarding the capacity of LLM agents to comprehend probability distributions, thereby guiding the agent's behavioral decision-making through probabilistic sampling and generating behavioral sequences. To answer the above question, we divide the problem into two main aspects: sequence simulation with known probability distribution and sequence simulation with unknown probability distribution. Our analysis indicates that LLM agents can understand probabilities, but they struggle with probability sampling. Their ability to perform probabilistic sampling can be improved to some extent by integrating coding tools, but this level of sampling precision still makes it difficult to simulate human behavior as agents.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# SNN4Agents: 自律エージェントのためのエネルギー効率の良いスパイクニューラルネットワーク構築のためのフレームワーク

SNN4Agents: A Framework for Developing Energy-Efficient Embodied Spiking Neural Networks for Autonomous Agents ( http://arxiv.org/abs/2404.09331v2 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Muhammad Shafique, (参考訳) 近年、自律型地上車両(AGVs)、無人航空車両(UAVs)、移動ロボットなどの自律型エージェントが、多様なタスクの解決において、人間の生産性を効果的に向上させることが示されている。 しかしながら、これらのエージェントは一般的に携帯型電池で駆動されるため、長い寿命で運用するには非常に低電力/エネルギー消費を必要とする。 この課題を解決するために、バイオインスパイアされたスパイキングニューラルネットワーク(SNN)は、イベントベースのカメラやデータ変換前処理からのスパイクを使用して、スパース計算を効率的に行う、有望なソリューションとして、ニューロモルフィックコンピューティングが登場した。 しかしながら、自律エージェントのためのSNNデプロイメントの研究はまだ初期段階にある。 したがって、自律エージェントのための効率的なSNNデプロイメントを実現するための最適化段階は、体系的に定義されていない。 そこで本研究では,自律エージェントアプリケーションを対象としたエネルギー効率のよいSNNを設計するための最適化手法からなる,SNN4Agentsと呼ばれる新しいフレームワークを提案する。 我々のSNN4Agentsは、ウェイト量子化、タイムステップ削減、アテンションウインドウ削減を利用して、エネルギー効率を共同で改善し、メモリフットプリントを削減し、処理遅延を最適化し、高精度を維持している。 本評価では,イベントベースカー認識の使用事例を調査し,精度,レイテンシ,メモリ,エネルギー消費のトレードオフについて検討する。 実験の結果,提案フレームワークは,NAARSデータセットの最先端処理と比較して,68.75%のメモリ節約,3.58倍のスピードアップ,4.03倍のエネルギー効率向上を実現し,高い精度(84.12%の精度)を維持可能であることがわかった。 このように、我々のSNN4Agentsフレームワークは、自律エージェントのためのエネルギー効率の良いSNN配置を実現するための道を開く。

Recent trends have shown that autonomous agents, such as Autonomous Ground Vehicles (AGVs), Unmanned Aerial Vehicles (UAVs), and mobile robots, effectively improve human productivity in solving diverse tasks. However, since these agents are typically powered by portable batteries, they require extremely low power/energy consumption to operate in a long lifespan. To solve this challenge, neuromorphic computing has emerged as a promising solution, where bio-inspired Spiking Neural Networks (SNNs) use spikes from event-based cameras or data conversion pre-processing to perform sparse computations efficiently. However, the studies of SNN deployments for autonomous agents are still at an early stage. Hence, the optimization stages for enabling efficient embodied SNN deployments for autonomous agents have not been defined systematically. Toward this, we propose a novel framework called SNN4Agents that consists of a set of optimization techniques for designing energy-efficient embodied SNNs targeting autonomous agent applications. Our SNN4Agents employs weight quantization, timestep reduction, and attention window reduction to jointly improve the energy efficiency, reduce the memory footprint, optimize the processing latency, while maintaining high accuracy. In the evaluation, we investigate use cases of event-based car recognition, and explore the trade-offs among accuracy, latency, memory, and energy consumption. The experimental results show that our proposed framework can maintain high accuracy (i.e., 84.12% accuracy) with 68.75% memory saving, 3.58x speed-up, and 4.03x energy efficiency improvement as compared to the state-of-the-art work for NCARS dataset. In this manner, our SNN4Agents framework paves the way toward enabling energy-efficient embodied SNN deployments for autonomous agents.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# フェルミオンガウス状態における境界効果と相関

Boundary effect and correlations in fermionic Gaussian states ( http://arxiv.org/abs/2404.09428v2 )

ライセンス: Link先を確認
Jinhyeok Ryu, Jaeyoon Cho, (参考訳) 量子多体系のバルク特性に対する境界の影響は興味深い研究対象である。 境界効果関数を定義することができ、基底状態の変化を境界からの距離の関数として定量化することができる。 この関数は、熱力学的極限における相関関数と絡み合いエントロピーの上限として機能する。 ここでは,一次元自由フェルミオンモデルに対する境界効果関数の数値解析を行う。 その結果, 境界効果吸引により確立された上限は, システムサイズが大きくなるにつれて, 基底状態での相関や絡み合いがどのように発達するかを深く把握できることがわかった。 副生成物として、フェルミオンガウス状態に対する一般忠実度式を自己完結的に導出し、式をより容易に認識する。

The effect of boundaries on the bulk properties of quantum many-body systems is an intriguing subject of study. One can define a boundary effect function, which quantifies the change in the ground state as a function of the distance from the boundary. This function serves as an upper bound for the correlation functions and the entanglement entropies in the thermodynamic limit. Here, we perform numerical analyses of the boundary effect function for one-dimensional free-fermion models. We find that the upper bound established by the boundary effect fuction is tight for the examined systems, providing a deep insight into how correlations and entanglement are developed in the ground state as the system size grows. As a by-product, we derive a general fidelity formula for fermionic Gaussian states in a self-contained manner, rendering the formula easier to apprehend.
翻訳日:2024-06-20 01:55:10 公開日:2024-06-18
# SRGS:超高分解能3Dガウススプラッティング

SRGS: Super-Resolution 3D Gaussian Splatting ( http://arxiv.org/abs/2404.10318v2 )

ライセンス: Link先を確認
Xiang Feng, Yongbo He, Yubo Wang, Yan Yang, Wen Li, Yifei Chen, Zhenzhong Kuang, Jiajun ding, Jianping Fan, Yu Jun, (参考訳) 近年, 3D Gaussian Splatting (3DGS) が新規な3D表現として人気を集めている。 このアプローチは、高品質なレンダリングを提供するためにガウス原始体の表現力に依存する。 しかし、低解像度に最適化されたプリミティブは、必然的にスパーシリティとテクスチャの欠如を示し、高解像度の新規ビュー合成(HRNVS)の実現に挑戦している。 この問題に対処するため,高分解能(HR)空間で最適化を行うために,超解像3Dガウス散乱(SRGS)を提案する。 サブピクセル制約はHR空間における視点の増大のために導入され、多重低解像度(LR)ビューのサブピクセル・クロスビュー情報を利用する。 より多くの視点から蓄積された勾配は、プリミティブの密度化を促進する。 さらに、事前訓練された2次元超解像モデルとサブピクセル制約が統合され、これらの高密度プリミティブが忠実なテクスチャ特徴を学習できるようにする。 一般に,本手法は,プリミティブの表現能力を効果的に向上するために,密度化とテクスチャ学習に重点を置いている。 実験により,HRNVSのレンダリング品質はLR入力のみで向上し,Mip-NeRF 360 や Tanks & Temples といった挑戦的なデータセットに対する最先端の手法よりも優れていた。 関連するコードは受理後にリリースされる。

Recently, 3D Gaussian Splatting (3DGS) has gained popularity as a novel explicit 3D representation. This approach relies on the representation power of Gaussian primitives to provide a high-quality rendering. However, primitives optimized at low resolution inevitably exhibit sparsity and texture deficiency, posing a challenge for achieving high-resolution novel view synthesis (HRNVS). To address this problem, we propose Super-Resolution 3D Gaussian Splatting (SRGS) to perform the optimization in a high-resolution (HR) space. The sub-pixel constraint is introduced for the increased viewpoints in HR space, exploiting the sub-pixel cross-view information of the multiple low-resolution (LR) views. The gradient accumulated from more viewpoints will facilitate the densification of primitives. Furthermore, a pre-trained 2D super-resolution model is integrated with the sub-pixel constraint, enabling these dense primitives to learn faithful texture features. In general, our method focuses on densification and texture learning to effectively enhance the representation ability of primitives. Experimentally, our method achieves high rendering quality on HRNVS only with LR inputs, outperforming state-of-the-art methods on challenging datasets such as Mip-NeRF 360 and Tanks & Temples. Related codes will be released upon acceptance.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# LLMにおける推論と計画の実証的複雑さについて

On the Empirical Complexity of Reasoning and Planning in LLMs ( http://arxiv.org/abs/2404.11041v2 )

ライセンス: Link先を確認
Liwei Kang, Zirui Zhao, David Hsu, Wee Sun Lee, (参考訳) Chain-of-Thought(CoT)、tree-of-Thought(ToT)、および関連するテクニックは、Large Language Models(LLM)を使った複雑な推論タスクにおいて、驚くほどうまく機能しますが、なぜでしょう? この研究は、実験ケーススタディを実行し、パフォーマンスの利点を機械学習における十分に確立されたサンプルと計算の複雑さの原則に結びつけることによって、根本的な理由を追求する。 小学校数学、航空旅行計画、...、Blocksworldの6つの推論タスクを実験した。 その結果は i) CoT と ToT のどちらも、複雑な推論タスクをサンプルの複雑さの低い一連のステップに分解し、推論構造を明確に概説するタスク分解の恩恵を受ける。 (II) 計算難解な推論タスクに対して、ToTのより洗練された木構造はCoTの線形構造より優れる。 これらの知見は、実際に推論タスクを解く上で、LLMを使用するための有用なガイドラインを提供する。

Chain-of-thought (CoT), tree-of-thought (ToT), and related techniques work surprisingly well in practice for some complex reasoning tasks with Large Language Models (LLMs), but why? This work seeks the underlying reasons by conducting experimental case studies and linking the performance benefits to well-established sample and computational complexity principles in machine learning. We experimented with 6 reasoning tasks, ranging from grade school math, air travel planning, ..., to Blocksworld. The results suggest that (i) both CoT and ToT benefit significantly from task decomposition, which breaks a complex reasoning task into a sequence of steps with low sample complexity and explicitly outlines the reasoning structure, and (ii) for computationally hard reasoning tasks, the more sophisticated tree structure of ToT outperforms the linear structure of CoT. These findings provide useful guidelines for the use of LLM in solving reasoning tasks in practice.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 画像からUMLへ:LLMを用いた画像ベースUMLダイアグラム生成の第一結果

From Image to UML: First Results of Image Based UML Diagram Generation Using LLMs ( http://arxiv.org/abs/2404.11376v2 )

ライセンス: Link先を確認
Aaron Conrardy, Jordi Cabot, (参考訳) ソフトウェア工学のプロセスでは、システムはUMLのようなモデリング言語を使って最初に特定される。 これらの初期設計は、しばしば共同で作成され、様々なドメインの専門家がホワイトボードや紙、その他のクイックサポートを使って図面や青写真を作成するミーティングで、形式化する必要がある。 これらの適切なマシン可読なモデルは、モデルが自動化プロセスの一部になることを保証するための鍵となります(例えば、ローコード生成パイプライン、モデルベースのテストシステム、...)。 しかし、手描き図から実際のモデルへの移行は、時々ソフトウェアドキュメントに非公式の画像として追加され、その価値が大幅に削減されるという、時間を要するプロセスです。 この面倒な作業を避けるため、与えられた図面からUMLモデルの形式表現を生成するために、LLM(Large Language Models)の使用法を検討する。 より具体的には、UMLクラス図の画像を、画像に表される実際のモデルに変換する異なるLLMの能力を評価した。 結果は、モデル駆動のエンジニアリングパイプラインの一部としてそのようなアプローチを使用するのに十分ですが、現在の制限と、これらの制限を克服するために人間をループに留める必要性を強調します。

In software engineering processes, systems are first specified using a modeling language such as UML. These initial designs are often collaboratively created, many times in meetings where different domain experts use whiteboards, paper or other types of quick supports to create drawings and blueprints that then will need to be formalized. These proper, machine-readable, models are key to ensure models can be part of automated processes (e.g. input of a low-code generation pipeline, a model-based testing system, ...). But going from hand-drawn diagrams to actual models is a time-consuming process that sometimes ends up with such drawings just added as informal images to the software documentation, reducing their value a lot. To avoid this tedious task, we explore the usage of Large Language Models (LLM) to generate the formal representation of (UML) models from a given drawing. More specifically, we have evaluated the capabilities of different LLMs to convert images of UML class diagrams into the actual models represented in the images. While the results are good enough to use such an approach as part of a model-driven engineering pipeline we also highlight some of their current limitations and the need to keep the human in the loop to overcome those limitations.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 車両経路問題の解法におけるクロスプロブレム学習

Cross-Problem Learning for Solving Vehicle Routing Problems ( http://arxiv.org/abs/2404.11677v3 )

ライセンス: Link先を確認
Zhuoyi Lin, Yaoxin Wu, Bangjian Zhou, Zhiguang Cao, Wen Song, Yingqian Zhang, Senthilnath Jayavelu, (参考訳) 既存のニューラルヒューリスティックは、特定の車両ルーティング問題(VRP)ごとにスクラッチから深いアーキテクチャを訓練し、異なるVRP変種間で伝達可能な知識を無視していることが多い。 本稿では,異なる下流VRP変種に対するヒューリスティックストレーニングを支援するクロスプロブレム学習を提案する。 特に、複雑なVRPのためのニューラルネットワークをモジュール化します。 1)旅行セールスマン問題(TSP)に取り組むバックボーントランスフォーマー 2) 複雑なVRPにおける問題固有の特徴を処理するための軽量モジュールの追加。 そこで,本研究では,TSP用バックボーントランスフォーマーを事前学習し,ターゲットVRP用トランスフォーマーモデルを微調整するプロセスに適用することを提案する。 一方、トレーニングされたバックボーントランスフォーマーと問題固有のモジュールを同時に完全に微調整します。 一方、我々はモジュールとともに小さなアダプタネットワークを微調整するだけで、バックボーントランスフォーマーを保ちます。 典型的なVRPの広範囲にわたる実験 1) フル微調整は、スクラッチから訓練したものよりも大幅に性能が向上し、 2)アダプタベースのファインチューニングは、パラメータ効率を顕著に保ちながら、同等のパフォーマンスを提供する。 さらに, クロスディストリビューションと汎用性の観点から, 提案手法の有効性を実証的に実証した。

Existing neural heuristics often train a deep architecture from scratch for each specific vehicle routing problem (VRP), ignoring the transferable knowledge across different VRP variants. This paper proposes the cross-problem learning to assist heuristics training for different downstream VRP variants. Particularly, we modularize neural architectures for complex VRPs into 1) the backbone Transformer for tackling the travelling salesman problem (TSP), and 2) the additional lightweight modules for processing problem-specific features in complex VRPs. Accordingly, we propose to pre-train the backbone Transformer for TSP, and then apply it in the process of fine-tuning the Transformer models for each target VRP variant. On the one hand, we fully fine-tune the trained backbone Transformer and problem-specific modules simultaneously. On the other hand, we only fine-tune small adapter networks along with the modules, keeping the backbone Transformer still. Extensive experiments on typical VRPs substantiate that 1) the full fine-tuning achieves significantly better performance than the one trained from scratch, and 2) the adapter-based fine-tuning also delivers comparable performance while being notably parameter-efficient. Furthermore, we empirically demonstrate the favorable effect of our method in terms of cross-distribution application and versatility.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 異種オープンセット3次元物体検出のための言語駆動型能動学習

Language-Driven Active Learning for Diverse Open-Set 3D Object Detection ( http://arxiv.org/abs/2404.12856v2 )

ライセンス: Link先を確認
Ross Greer, Bjørk Antoniussen, Andreas Møgelmose, Mohan Trivedi, (参考訳) 物体検出は安全な自動運転を保証するために不可欠である。 しかし、データ駆動アプローチは、3D駆動シーンで少数または新しいオブジェクトに遭遇する際の課題に直面している。 本稿では,多種多様なオープンセット3Dオブジェクト検出のための言語駆動型能動学習フレームワークVisLEDを提案する。 本手法は,非ラベル付きプールから多種多様な情報的データサンプルを検索し,表現不足や新規なオブジェクトを検出する能力を高めるために,能動的学習技術を活用する。 具体的には、オープンワールド探索とクローズドワールドマイニングの両方で動作するVision-Language Embedding Diversity Querying (VisLED-Querying)アルゴリズムを紹介する。 オープンワールド探索では、VisLED-Queryingは既存のデータと比較して最も新しいデータポイントを選択し、クローズドワールドマイニングでは、既知のクラスの新しいインスタンスをマイニングする。 提案手法をnuScenesデータセット上で評価し,ランダムサンプリング法やエントロピークエリ法と比較し,その効率性を示した。 その結果、VisLED-Queryingは、モデル最適化にもかかわらず、ランダムサンプリングを一貫して上回り、エントロピークエリと比較して競争性能が向上し、自律運転シナリオにおけるオブジェクト検出の改善にVisLEDの可能性を浮き彫りにした。 コードをhttps://github.com/Bjork-crypto/VisLED-Queryingで公開しています。

Object detection is crucial for ensuring safe autonomous driving. However, data-driven approaches face challenges when encountering minority or novel objects in the 3D driving scene. In this paper, we propose VisLED, a language-driven active learning framework for diverse open-set 3D Object Detection. Our method leverages active learning techniques to query diverse and informative data samples from an unlabeled pool, enhancing the model's ability to detect underrepresented or novel objects. Specifically, we introduce the Vision-Language Embedding Diversity Querying (VisLED-Querying) algorithm, which operates in both open-world exploring and closed-world mining settings. In open-world exploring, VisLED-Querying selects data points most novel relative to existing data, while in closed-world mining, it mines novel instances of known classes. We evaluate our approach on the nuScenes dataset and demonstrate its efficiency compared to random sampling and entropy-querying methods. Our results show that VisLED-Querying consistently outperforms random sampling and offers competitive performance compared to entropy-querying despite the latter's model-optimality, highlighting the potential of VisLED for improving object detection in autonomous driving scenarios. We make our code publicly available at https://github.com/Bjork-crypto/VisLED-Querying
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 時準周期マヨラナに対する実空間位相不変量

Real-space topological invariant for time-quasiperiodic Majoranas ( http://arxiv.org/abs/2404.13129v2 )

ライセンス: Link先を確認
Zihao Qi, Ilyoun Na, Gil Refael, Yang Peng, (参考訳) 準周期駆動プロトコルに従うと、超伝導系は安定な準周期マヨラナモードを持ち、静的およびフロケ系を超えて概念を拡張している。 しかし、非共振駆動周波数の存在は高密度エネルギースペクトルをもたらすため、バンド構造が不十分なトポロジ的不変量を定義する従来の方法が応用される。 本研究では,ハミルトニアンおよび位置演算子からの情報を統合するシステムスペクトルローカライザを活用することで,時準周期マヨナを同定できる実空間トポロジ的不変量を導入する。 非エルミート物理学からの洞察を導き、ローカライザを構築するための基準を確立し、高密度スペクトルの存在下でこの不変量のロバスト性を解明する。 2つの非共振周波数で駆動されるキタエフ連鎖に着目した数値シミュレーションを行い,本手法の有効性を検証した。

When subjected to quasiperiodic driving protocols, superconducting systems have been found to harbor robust time-quasiperiodic Majorana modes, extending the concept beyond static and Floquet systems. However, the presence of incommensurate driving frequencies results in dense energy spectra, rendering conventional methods of defining topological invariants based on band structure inadequate. In this work, we introduce a real-space topological invariant capable of identifying time-quasiperiodic Majoranas by leveraging the system's spectral localizer, which integrates information from both Hamiltonian and position operators. Drawing insights from non-Hermitian physics, we establish criteria for constructing the localizer and elucidate the robustness of this invariant in the presence of dense spectra. Our numerical simulations, focusing on a Kitaev chain driven by two incommensurate frequencies, validate the efficacy of our approach.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 点雲を用いたシーンフローの攻撃

Attack on Scene Flow using Point Clouds ( http://arxiv.org/abs/2404.13621v3 )

ライセンス: Link先を確認
Haniyeh Ehsani Oskouie, Mohammad-Shahram Moin, Shohreh Kasaei, (参考訳) 深層ニューラルネットワークは、ビデオ分析、アクション認識、ナビゲーションといった多くのアプリケーションにとって不可欠であるポイントクラウドを使用して、シーンフローを正確に推定する上で、大きな進歩を遂げている。 しかし、これらの手法の堅牢性は、特に多くのドメインで最先端のディープニューラルネットワークを騙すことが証明された敵の攻撃に直面して懸念されている。 驚くべきことに、このような攻撃に対するシーンフローネットワークの堅牢性は、十分に調査されていない。 この問題に対処するため,提案手法は,シーンフローネットワークに特化して,敵のホワイトボックス攻撃を導入することで,このギャップを埋めることを目的としている。 実験結果から,KITTIおよびFlyingThings3Dデータセットの平均終点誤差が最大33.7の相対劣化が得られることがわかった。 この研究は、一次元または色チャネルの点雲を標的とする攻撃が、平均的な端点誤差に与える影響も明らかにしている。 シーンフローネットワークとその2次元光フローネットワークの変種に対するこれらの攻撃の成功と失敗を分析すると、光学フローネットワークの脆弱性が高いことが分かる。

Deep neural networks have made significant advancements in accurately estimating scene flow using point clouds, which is vital for many applications like video analysis, action recognition, and navigation. The robustness of these techniques, however, remains a concern, particularly in the face of adversarial attacks that have been proven to deceive state-of-the-art deep neural networks in many domains. Surprisingly, the robustness of scene flow networks against such attacks has not been thoroughly investigated. To address this problem, the proposed approach aims to bridge this gap by introducing adversarial white-box attacks specifically tailored for scene flow networks. Experimental results show that the generated adversarial examples obtain up to 33.7 relative degradation in average end-point error on the KITTI and FlyingThings3D datasets. The study also reveals the significant impact that attacks targeting point clouds in only one dimension or color channel have on average end-point error. Analyzing the success and failure of these attacks on the scene flow networks and their 2D optical flow network variants shows a higher vulnerability for the optical flow networks.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 測定による2成分クリフォード回路の時間エンタングルメントプロファイル

Temporal Entanglement Profiles in Dual-Unitary Clifford Circuits with Measurements ( http://arxiv.org/abs/2404.14374v2 )

ライセンス: Link先を確認
Jiangtian Yao, Pieter W. Claeys, (参考訳) 本研究では,空間的ユニタリティを保った確率的測定により,両単位クリフォード回路の時間的絡みについて検討した。 我々は,無測定状態における時間的絡み合い障壁を正確に特徴付け,弾道的成長と崩壊と容積法的なピークを示す。 測定の有無では、時間的絡み合いと回路の揺らぎ特性を関連付ける。 良いスクランブラー」測定は時間的絡み合いプロファイルを質的に変化させるのではなく、絡み合い速度を低下させるのに対し、「粗いスクランブラー」測定では、浴槽サイズによる時間的絡み合いの初期弾道的成長は拡散的に変化する。 この違いは、下層の演算子ダイナミクスをバイアス付きと無バイアスの無作為なランダムウォークにマッピングすることで理解される。 後者の例では, 空間移動行列法を用いて記述した指数減衰に, 時間的絡み合いを無くし, 完全脱相限界に弾道崩壊を付加する。 この空間力学は非エルミートホッピングモデルによって説明され、臨界測定率$p=1/2$でPT破断遷移を示す。 いずれの場合も、時間的絡み合い障壁のピーク値は、すべての測定速度に対してボリューム・ロー・スケーリングを示す。

We study temporal entanglement in dual-unitary Clifford circuits with probabilistic measurements preserving spatial unitarity. We exactly characterize the temporal entanglement barrier in the measurement-free regime, exhibiting ballistic growth and decay and a volume-law peak. In the presence of measurements, we relate the temporal entanglement to the scrambling properties of the circuit. For "good scramblers" measurements do not qualitatively change the temporal entanglement profile but only result in a reduced entanglement velocity, whereas for "poor scramblers" the initial ballistic growth of temporal entanglement with bath size is modified to diffusive. This difference is understood through a mapping of the underlying operator dynamics to a biased and an unbiased persistent random walk respectively. In the latter case measurements additionally modify the ballistic decay to the perfect dephaser limit, with vanishing temporal entanglement, to an exponential decay, which we describe through a spatial transfer matrix method. This spatial dynamics is shown to be described by a non-Hermitian hopping model, exhibiting a PT-breaking transition at a critical measurement rate $p=1/2$. In all cases the peak value of the temporal entanglement barrier exhibits volume-law scaling for all measurement rates.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# Transformerは$n$-gramの言語モデルを表現できる

Transformers Can Represent $n$-gram Language Models ( http://arxiv.org/abs/2404.14994v2 )

ライセンス: Link先を確認
Anej Svete, Ryan Cotterell, (参考訳) 既存の研究は、フォーマルな計算モデルを用いてトランスフォーマーアーキテクチャの表現能力を分析した。 しかし、これまでのところ、アーキテクチャを言語 \emph{acceptance} の観点から分析することに重点を置いている。 これは、文字列上で定義的に \emph{probability distributions である 'emph{lang model} (LMs) の研究において不適切な問題であると主張する。 本稿では,言語モデルの単純かつ歴史的に関連するクラスであるトランスフォーマーLMと$n$-gram LMの関係に着目した。 我々は、ハードまたはスパースアテンション機構を用いたトランスフォーマーLMが、正確には$n$-gramのLMを表現できることを示し、その確率的表現能力に具体的な制約を与える。 これは、トランスフォーマーLMが文字列上の確率分布を表現するために使用できるメカニズムを理解するための第一歩となる。

Existing work has analyzed the representational capacity of the transformer architecture by means of formal models of computation. However, the focus so far has been on analyzing the architecture in terms of language \emph{acceptance}. We contend that this is an ill-suited problem in the study of \emph{language models} (LMs), which are definitionally \emph{probability distributions} over strings. In this paper, we focus on the relationship between transformer LMs and $n$-gram LMs, a simple and historically relevant class of language models. We show that transformer LMs using the hard or sparse attention mechanisms can exactly represent any $n$-gram LM, giving us a concrete lower bound on their probabilistic representational capacity. This provides a first step towards understanding the mechanisms that transformer LMs can use to represent probability distributions over strings.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 複雑から単純へ:大規模言語モデルの能力を考慮した多制約複雑命令の強化

From Complex to Simple: Enhancing Multi-Constraint Complex Instruction Following Ability of Large Language Models ( http://arxiv.org/abs/2404.15846v2 )

ライセンス: Link先を確認
Qianyu He, Jie Zeng, Qianxi He, Jiaqing Liang, Yanghua Xiao, (参考訳) 大規模言語モデル(LLM)では、複雑な命令(複雑な命令に従う)で命令に従うことが必須である。 しかし、LLMが複数の制約を持つ複雑な命令に従う能力をいかに拡張するかは、まだ解明されていない。 このギャップを埋めるために、私たちはまず、能力に追従する複雑な制約を強化するのに有効なトレーニングデータについて研究する。 複数の制約を含む命令でLLMを訓練することで、複雑な命令、特に複雑性レベルが低い命令の理解が促進されることが判明した。 この改善はドメイン外制約の合成にも応用できる。 さらに,有効なトレーニングデータを取得する方法と活用方法についても提案する。 最後に,本手法の有効性を総合的な性能と訓練効率の観点から検証するため,広範囲な実験を行った。 また,本手法は,汎用性を維持しつつ,ドメイン外,ドメイン内,対向的な設定において,命令に従うモデルの能力を向上し,効果的に一般化できることを実証する。

It is imperative for Large language models (LLMs) to follow instructions with elaborate requirements (i.e. Complex Instructions Following). Yet, it remains under-explored how to enhance the ability of LLMs to follow complex instructions with multiple constraints. To bridge the gap, we initially study what training data is effective in enhancing complex constraints following abilities. We found that training LLMs with instructions containing multiple constraints enhances their understanding of complex instructions, especially those with lower complexity levels. The improvement can even generalize to compositions of out-of-domain constraints. Additionally, we further propose methods addressing how to obtain and utilize the effective training data. Finally, we conduct extensive experiments to prove the effectiveness of our methods in terms of overall performance and training efficiency. We also demonstrate that our methods improve models' ability to follow instructions generally and generalize effectively across out-of-domain, in-domain, and adversarial settings, while maintaining general capabilities.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 2量子Mølmer-Sørensenゲートの補正公式

Correction formulas for the two-qubit Mølmer-Sørensen gate ( http://arxiv.org/abs/2404.17478v2 )

ライセンス: Link先を確認
Susanna Kirchhoff, Frank K. Wilhelm, Felix Motzoi, (参考訳) M{\o}lmer-S{\o}rensenゲートは、イオンプラットフォームに広く使われているエンタングリングゲートであり、加熱をトラップするために本質的に堅牢である。 ゲート性能は、Lamb-Dicke (LD)近似とサイドバンド誤差から生じるコヒーレントエラーによって制限される。 そこで我々は,Magnus拡張を用いて,LDパラメータの最大4次誤差の明示的な解析式を提供する。 第4次マグナス拡大項は、実際にはLDにおいて第1次であり、典型的ターゲットゲート忠実度に含めることが重要であることを示す。 本研究では, 駆動強度の解析的再正規化, Lamb-Dickeパラメータの校正, 滑らかなパルス整形により, これらの誤差を部分的に補償できることを示す。

The M{\o}lmer-S{\o}rensen gate is a widely used entangling gate for ion platforms with inherent robustness to trap heating. The gate performance is limited by coherent errors, arising from the Lamb-Dicke (LD) approximation and sideband errors. Here, we provide explicit analytical formulas for errors up to fourth order in the LD parameter, by using the Magnus expansion to match numerical precision. We show that fourth order Magnus expansion terms are unavoidable, being in fact leading order in LD, and are therefore critical to include for typical target gate fidelities. We show how these errors can be partially compensated using analytical renormalization of the drive strength, by calibration of the Lamb-Dicke parameter, and by the use of smooth pulse shaping.
翻訳日:2024-06-20 01:44:57 公開日:2024-06-18
# 医学における深層学習のデータセット・ターミノロジー : 歴史と勧告

Data Set Terminology of Deep Learning in Medicine: A Historical Review and Recommendation ( http://arxiv.org/abs/2404.19303v2 )

ライセンス: Link先を確認
Shannon L. Walston, Hiroshi Seki, Hirotaka Takita, Yasuhito Mitsuyama, Shingo Sato, Akifumi Hagiwara, Rintaro Ito, Shouhei Hanaoka, Yukio Miki, Daiju Ueda, (参考訳) 医学とディープラーニングベースの人工知能(AI)エンジニアリングは、数十年にわたる歴史を持つ2つの異なる分野を表している。 このような歴史によって、特定の方法が適用される一連の用語がもたらされる。 しかし、重複する用語の異なる2つの分野が協調し始めると、誤解や誤解が発生することがある。 この物語レビューは、これらの用語の歴史的文脈を与え、これらの用語が医療AIの文脈で使用されるときの明確さの重要性を強調し、どちらの分野からの読者による誤解を軽減するソリューションを提供することを目的としている。 このレビューは、記事、執筆ガイドライン、教科書を含む歴史文献の検証を通じて、データセットの用語とその影響の相違した進化を辿るものである。 当初、医療とAIの文脈における「バリデーション」という言葉の不協和な解釈が検討された。 次に、AI評価に使用されるデータセット、すなわちランダム分割、クロスバリデーション、時間、地理的、内部、外部セットを分類する。 これらのデータセットの正確で標準化された記述は、医学におけるAIアプリケーションの堅牢性と一般化性を示すために不可欠である。 このレビューは、これらの分類の包括的理解と、AI評価におけるそれらの影響を明らかにするために、既存の文献を明確にする。 このレビューは、しばしば誤解される用語を特定し、用語的混乱を軽減するための実用的な解決策を提案する。 これらのソリューションには、"トレーニングセット"、"検証(あるいはチューニング)セット"、"テストセット"といった標準化された用語の使用、各医療AI研究出版物におけるデータセット分割用語の明示的な定義などがある。 このレビューは、医療AIにおけるコミュニケーションの精度を高めることを目的としており、この学際分野におけるより効果的で透明な研究方法論を育むことを目的としている。

Medicine and deep learning-based artificial intelligence (AI) engineering represent two distinct fields each with decades of published history. With such history comes a set of terminology that has a specific way in which it is applied. However, when two distinct fields with overlapping terminology start to collaborate, miscommunication and misunderstandings can occur. This narrative review aims to give historical context for these terms, accentuate the importance of clarity when these terms are used in medical AI contexts, and offer solutions to mitigate misunderstandings by readers from either field. Through an examination of historical documents, including articles, writing guidelines, and textbooks, this review traces the divergent evolution of terms for data sets and their impact. Initially, the discordant interpretations of the word 'validation' in medical and AI contexts are explored. Then the data sets used for AI evaluation are classified, namely random splitting, cross-validation, temporal, geographic, internal, and external sets. The accurate and standardized description of these data sets is crucial for demonstrating the robustness and generalizability of AI applications in medicine. This review clarifies existing literature to provide a comprehensive understanding of these classifications and their implications in AI evaluation. This review then identifies often misunderstood terms and proposes pragmatic solutions to mitigate terminological confusion. Among these solutions are the use of standardized terminology such as 'training set,' 'validation (or tuning) set,' and 'test set,' and explicit definition of data set splitting terminologies in each medical AI research publication. This review aspires to enhance the precision of communication in medical AI, thereby fostering more effective and transparent research methodologies in this interdisciplinary field.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# マトリックス製品の成長--最速、平均、総じて

Growth in products of matrices: fastest, average, and generic ( http://arxiv.org/abs/2405.00610v5 )

ライセンス: Link先を確認
Vladimir Shpilrain, (参考訳) この論文で私たちが考慮する問題は次のとおりである。 A と B を 2x2 行列(実数)とする。 w(A, B) を長さ n の語とする。 w(A, B) を行列の積として評価した後、2x2 行列を W と呼びます。n の関数として長さ n のすべての w(A, B) 上で W の最も大きい(絶対値による)入力は何か? 各行列が A または B で確率 0.5 であるような n 行列のランダム積における最大の(絶対値による)エントリーの絶対値は何でしょうか。 そのようなランダムな行列積に対するリャプノフ指数は何か。 これらの質問の第一に部分的な回答を与え、第二に本質的に完全な回答を与える。 第3の質問(三つの中で最も難しい)に対して、行列 A と B のすべての成分が非負である場合、リャプノフ指数上の上限を生成できる非常に単純な方法を提供する。

The problems that we consider in this paper are as follows. Let A and B be 2x2 matrices (over reals). Let w(A, B) be a word of length n. After evaluating w(A, B) as a product of matrices, we get a 2x2 matrix, call it W. What is the largest (by the absolute value) possible entry of W, over all w(A, B) of length n, as a function of n? What is the expected absolute value of the largest (by the absolute value) entry in a random product of n matrices, where each matrix is A or B with probability 0.5? What is the Lyapunov exponent for a random matrix product like that? We give partial answer to the first of these questions and an essentially complete answer to the second question. For the third question (the most difficult of the three), we offer a very simple method to produce an upper bound on the Lyapunov exponent in the case where all entries of the matrices A and B are nonnegative.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# PINNを用いた因果問題解決の難しさの理解

Understanding the Difficulty of Solving Cauchy Problems with PINNs ( http://arxiv.org/abs/2405.02561v2 )

ライセンス: Link先を確認
Tao Wang, Bo Zhao, Sicun Gao, Rose Yu, (参考訳) 近年,物理インフォームドニューラルネットワーク (PINN) が科学計算で人気を集めている。 しかし、それらは微分方程式の解法において古典的な方法と同じレベルの精度を達成できないことが多い。 本稿では,コーシー問題におけるこの問題の原因として,目的関数としての$L^2$残差とニューラルネットワークの近似ギャップの2つを同定する。 L^2$残差と初期条件誤差の和を最小化することは、この損失関数が基礎となるダイナミクスを捕捉しないため、真の解を保証するのに十分でないことを示す。 さらに、ニューラルネットワークは、画像集合の非コンパクト性のため、解の特異点をキャプチャすることができない。 これにより、グローバル・ミニマの存在とネットワークの規則性に影響を及ぼす。 我々は,世界最小値が存在しない場合,機械の精度が実際に達成可能な誤差の原因となることを示した。 また,我々の理論的主張を支持する数値実験を行った。

Physics-Informed Neural Networks (PINNs) have gained popularity in scientific computing in recent years. However, they often fail to achieve the same level of accuracy as classical methods in solving differential equations. In this paper, we identify two sources of this issue in the case of Cauchy problems: the use of $L^2$ residuals as objective functions and the approximation gap of neural networks. We show that minimizing the sum of $L^2$ residual and initial condition error is not sufficient to guarantee the true solution, as this loss function does not capture the underlying dynamics. Additionally, neural networks are not capable of capturing singularities in the solutions due to the non-compactness of their image sets. This, in turn, influences the existence of global minima and the regularity of the network. We demonstrate that when the global minimum does not exist, machine precision becomes the predominant source of achievable error in practice. We also present numerical experiments in support of our theoretical claims.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# 動的投機長を用いた投機復号の高速化

Accelerating Speculative Decoding using Dynamic Speculation Length ( http://arxiv.org/abs/2405.04304v2 )

ライセンス: Link先を確認
Jonathan Mamou, Oren Pereg, Daniel Korat, Moshe Berchansky, Nadav Timor, Moshe Wasserblat, Roy Schwartz, (参考訳) 投機的復号化は、大きな言語モデルの推論遅延を低減するために一般的に用いられる。 その有効性は、投機的なルックアヘッド(SL)、すなわち各イテレーションでドラフトモデルによって生成されるトークンの数に大きく依存します。 この研究において、全てのイテレーションで同じSLを使用するという一般的な実践は、静的SLが最適以下であることを示す。 DISCO(DynamIc SpeCulation lookahead Optimization, DynamIc SpeCulation lookahead Optimization)は,SLを動的に選択する新しい手法である。 4つのデータセットによる実験の結果,disCO は最高の静的 SL ベースラインに比べて平均 10% の高速化を実現し,全く同じテキストを生成することがわかった。

Speculative decoding is commonly used for reducing the inference latency of large language models. Its effectiveness depends highly on the speculation lookahead (SL)-the number of tokens generated by the draft model at each iteration. In this work we show that the common practice of using the same SL for all iterations static SL is suboptimal. We introduce DISCO (DynamIc SpeCulation lookahead Optimization), a novel method for dynamically selecting the SL. Our experiments with four datasets show that DISCO reaches an average speedup of 10% compared to the best static SL baseline, while generating the exact same text.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# SO(3)同変非線形表現学習の枠組みと電子構造ハミルトニアン予測への応用

A Framework of SO(3)-equivariant Non-linear Representation Learning and its Application to Electronic-Structure Hamiltonian Prediction ( http://arxiv.org/abs/2405.05722v3 )

ライセンス: Link先を確認
Shi Yin, Xinyang Pan, Fengyan Wang, Feng Wu, Lixin He, (参考訳) 物理系に深層学習を適用する上で重要な課題である,SO(3)-同変量の予測における非線形表現性とSO(3)-同変量の整合性に対処する理論的および方法論的枠組みを提案する。 物理学における共変理論に着想を得て、SO(3)-不変量とSO(3)-同変量とそれらの表現の間の数学的関係を探求することによってこの問題に対処する。 まず、SO(3)-同変回帰目標から導かれる理論SO(3)-不変量を構築し、これらの不変量を用いて、高品質なSO(3)-不変特徴の学習を指導する。 非線型演算の下でSO(3)-不変性が保存されることを考えると、不変特徴の符号化プロセスは非線型写像を広範囲に利用し、物理的システムに固有の非線形パターンを完全に捉えることができる。 そこで本研究では, 学習したSO(3)不変特徴量から, 様々な次数のSO(3)同変符号化を誘導する勾配に基づく機構を提案する。 このメカニズムは、非線型表現能力をSO(3)-同変表現に組み込むことができ、理論上は我々が証明した同変特性を保っている。 この理論と手法を電子構造ハミルトニアンの予測タスクに適用し、複数の種類の元素と挑戦シナリオを網羅した8つのベンチマークデータベースの実験結果から、最先端の予測精度において劇的なブレークスルーを示し、ハミルトンの予測では最大40%、占有軌道エネルギーなどの下流物理量の予測では最大76%改善した。 我々のアプローチは、物理システムを扱うことを超えて、ディープラーニングパラダイムにおける等価性と非線形表現性の間の批判的ジレンマに対して、有望な一般解を提供する。

We present both a theoretical and a methodological framework that addresses a critical challenge in applying deep learning to physical systems: the reconciliation of non-linear expressiveness with SO(3)-equivariance in predictions of SO(3)-equivariant quantities. Inspired by covariant theory in physics, we address this problem by exploring the mathematical relationships between SO(3)-invariant and SO(3)-equivariant quantities and their representations. We first construct theoretical SO(3)-invariant quantities derived from the SO(3)-equivariant regression targets, and use these invariant quantities as supervisory labels to guide the learning of high-quality SO(3)-invariant features. Given that SO(3)-invariance is preserved under non-linear operations, the encoding process for invariant features can extensively utilize non-linear mappings, thereby fully capturing the non-linear patterns inherent in physical systems. Building on this foundation, we propose a gradient-based mechanism to induce SO(3)-equivariant encodings of various degrees from the learned SO(3)-invariant features. This mechanism can incorporate non-linear expressive capabilities into SO(3)-equivariant representations, while theoretically preserving their equivariant properties as we prove. We apply our theory and method to the electronic-structure Hamiltonian prediction tasks, experimental results on eight benchmark databases covering multiple types of elements and challenging scenarios show dramatic breakthroughs on the state-of-the-art prediction accuracy, with improvements of up to 40% in predicting Hamiltonians and up to 76% in predicting downstream physical quantities such as occupied orbital energy. Our approach goes beyond handling physical systems and offers a promising general solution to the critical dilemma between equivariance and non-linear expressiveness for the deep learning paradigm.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# 回転制御されたQND相互作用による並列2量子エンタングルゲート

Parallel two-qubit entangling gates via QND interaction controlled by rotation ( http://arxiv.org/abs/2405.08141v2 )

ライセンス: Link先を確認
E. A. Vashukevich, T. Yu. Golubeva, (参考訳) 本稿では、多モード光と軌道角運動量と原子アンサンブルの間の量子非破壊(QND)相互作用におけるエンタングリングおよび非局所操作の解析を行う。 プロトコルは、2つのQND演算と原子スピンコヒーレンスを回転させ、それらの間の光からなる。 このプロトコルは、幅広い2量子ビット演算を提供するが、選択された自由度のマルチモードの性質は、複数の2量子ビットシステム上での並列演算の実装を可能にする。 我々は、同値類と局所不変量の形式主義を用いて、2ビット変換の特性を評価した。 2つのQND相互作用のそれぞれの持続時間やキュービットの回転角などの制御パラメータの適切な値を選択すると、このプロトコルは決定論的非局所SWAP演算を実現し、確率1/3で$\sqrt{SWAP}$演算を絡み合わせることができる。

The paper presents an analysis of entangling and non-local operations in a quantum nondemolition (QND) interaction between multimode light with orbital angular momentum and an atomic ensemble. A protocol consists of two QND operations with rotations of quadratures of atomic spin coherence and light between them. This protocol provides a wide range of two-qubit operations, while the multimode nature of the chosen degrees of freedom allows the implementation of parallel operations over multiple two-qubit systems. We have used the formalism of equivalence classes and local invariants to evaluate the properties of two-qubit transformations. It is shown that, when selecting suitable values of the governing parameters, such as the duration of each of the two QND interactions and the rotation angles of the qubits, the protocol allows to realise a deterministic non-local SWAP operation and entangling $\sqrt{SWAP}$ operation with probability 1/3.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# 経済的成功に影響する要因を深く掘り下げる:機械学習のアプローチ

A Deep Dive Into the Factors Influencing Financial Success: A Machine Learning Approach ( http://arxiv.org/abs/2405.08233v2 )

ライセンス: Link先を確認
Michael Zhou, Ramin Ramezani, (参考訳) 本稿では、機械学習アルゴリズムとアプローチを用いて、個別の経済的成功に寄与する様々な社会経済的要因について考察する。 経済的成功は、すべての個人の幸福にとって重要な側面であり、様々な要因によって影響される複雑な概念である。 本研究は、金融成功の真の決定要因を理解することを目的としている。 1997年の全国縦断調査データを労働統計局 [1] で調査し、8,984人の縦断データを数年にわたって分析した。 このデータセットは、収入変数と個人の社会経済変数からなる。 詳細な分析では、金融成功研究における機械学習アルゴリズムの有効性を実証し、予測精度を高めるために長手データを活用する可能性を強調し、様々な社会経済的要因が経済的成功にどのように影響するかについての貴重な洞察を提供する。 調査対象となった社会経済的要因のうち,個人所得の上位3因子として,高等教育,職業,性別の有意な影響が示唆された。 就業時間、年齢、就業期間は3つの二次的影響要因として出現し、子育ての収入、産業、両親の最高等級、その他すべての要因が第三次要因として特定される。 これらの洞察は、研究者が経済的成功の複雑な性質をよりよく理解し、政策立案者が社会のより広い社会・経済構造を形作る基礎となるダイナミクスを把握できるようにする。 この理解は、個人間の経済的成功を促進し、より広範な社会的幸福を促進するために不可欠である。

This paper explores various socioeconomic factors that contribute to individual financial success using machine learning algorithms and approaches. Financial success, a critical aspect of all individual's well-being, is a complex concept influenced by a plethora of different factors. This study aims to understand the true determinants of financial success. It examines the survey data from the National Longitudinal Survey of Youth 1997 by the Bureau of Labor Statistics [1], consisting of a sample of 8,984 individuals's longitudinal data over years. The dataset comprises income variables and a large set of socioeconomic variables of individuals. An in-depth analysis demonstrates the effectiveness of machine learning algorithms in financial success research, highlights the potential of leveraging longitudinal data to enhance prediction accuracy, and provides valuable insights into how various socioeconomic factors influence financial success. The findings underscore the significant influence of highest education degree, occupation and gender as the top three determinants of individual income among socioeconomic factors examined. Yearly working hours, age and work tenure emerge as three secondary influencing factors, and all other factors including parental household income, industry, parents' highest grade and others are identified as tertiary factors. These insights allow researchers to better understand the complex nature of financial success and enable policymakers to grasp the underlying dynamics shaping aspirations, decision-making, and the broader socio-economic fabric of society. This comprehension is crucial for fostering financial success among individuals and advancing broader societal well-being.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# MR画像から画像への変換における類似度

Similarity Metrics for MR Image-To-Image Translation ( http://arxiv.org/abs/2405.08431v3 )

ライセンス: Link先を確認
Melanie Dohmen, Mark Klemens, Ivo Baltruschat, Tuan Truong, Matthias Lenga, (参考訳) 例えば、画像から画像への変換は、画像が他のモダリティ、シーケンスタイプ、高解像度、低ノイズレベルに合成変換される可能性など、医療画像に大きな影響を与える可能性がある。 高レベルの患者安全性を確保するため、これらの手法は人間の読者による研究によって検証され、かなりの時間と費用がかかる。 このような研究を補完し、合成画像の再現性と客観的評価を提供するために、定量的なメトリクスが用いられている。 SSIMとPSNRのメトリクスは広く使われているが、合成画像のあらゆる種類の誤りを望んで検出するわけではない。 他のメトリクスは、さらなる有用な評価を提供するかもしれない。 本研究では,合成画像の品質評価のための15の指標の概要と定量的解析を行った。 SSIM, MS-SSIM, CW-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, DISTS, NMI, PCC), 3つの非参照メトリック(BLUR, MLC, MSLC)と1つのダウンストリームタスクセグメンテーションメトリック(DICE)でMR画像に発生する11種類の典型的な歪みやアーティファクトを検出する。 さらに,4つの顕著な正規化手法(Minmax,cMinmax,Zscore,Quantile)が測定値と歪みに与える影響を解析した。 最後に、画像から画像への変換モデルの評価において、分析された類似度指標を効果的に活用するための推奨事項を導出する。

Image-to-image translation can create large impact in medical imaging, for instance the possibility to synthetically transform images to other modalities, sequence types, higher resolutions or lower noise levels. In order to assure a high level of patient safety, these methods are mostly validated by human reader studies, which require a considerable amount of time and costs. Quantitative metrics have been used to complement such studies and to provide reproducible and objective assessment of synthetic images. Even though the SSIM and PSNR metrics are extensively used, they do not detect all types of errors in synthetic images as desired. Other metrics could provide additional useful evaluation. In this study, we give an overview and a quantitative analysis of 15 metrics for assessing the quality of synthetically generated images. We include 11 full-reference metrics (SSIM, MS-SSIM, CW-SSIM, PSNR, MSE, NMSE, MAE, LPIPS, DISTS, NMI and PCC), three non-reference metrics (BLUR, MLC, MSLC) and one downstream task segmentation metric (DICE) to detect 11 kinds of typical distortions and artifacts that occur in MR images. In addition, we analyze the influence of four prominent normalization methods (Minmax, cMinmax, Zscore and Quantile) on the different metrics and distortions. Finally, we provide adverse examples to highlight pitfalls in metric assessment and derive recommendations for effective usage of the analyzed similarity metrics for evaluation of image-to-image translation models.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# ROCOv2: マルチモーダル画像データセットを更新したContextバージョン2のRadiology Objects

ROCOv2: Radiology Objects in COntext Version 2, an Updated Multimodal Image Dataset ( http://arxiv.org/abs/2405.10004v2 )

ライセンス: Link先を確認
Johannes Rückert, Louise Bloch, Raphael Brüngel, Ahmad Idrissi-Yaghir, Henning Schäfer, Cynthia S. Schmidt, Sven Koitka, Obioma Pelka, Asma Ben Abacha, Alba G. Seco de Herrera, Henning Müller, Peter A. Horn, Felix Nensa, Christoph M. Friedrich, (参考訳) 自動医用画像解析システムは、高品質なラベルを持つ大量のトレーニングデータを必要とすることが多い。 本稿では,PMC Open Accessサブセットから抽出した放射線画像と関連する医療概念とキャプションからなるマルチモーダルデータセットである,COntext version 2(ROCOv2)について紹介する。 2018年に公開されたROCOデータセットの更新版であり、2018年以来、PMCに35,705の新しいイメージが追加されている。 さらに、X線のための解剖学的および方向的概念を追加して、画像モダリティを手動でキュレートした概念を提供する。 このデータセットは79,789枚の画像で構成され、ImageCLEFmedical Caption 2023のコンセプト検出とキャプション予測タスクにおいて、小さな修正が加えられている。 このデータセットは、画像キャプチャペアに基づいた画像アノテーションモデルのトレーニングや、画像毎に提供されるUnified Medical Language System (UMLS) の概念を用いたマルチラベル画像分類に適している。 さらに、医療ドメインモデルの事前トレーニングや、マルチタスク学習のためのディープラーニングモデルの評価に役立てることができる。

Automated medical image analysis systems often require large amounts of training data with high quality labels, which are difficult and time consuming to generate. This paper introduces Radiology Object in COntext version 2 (ROCOv2), a multimodal dataset consisting of radiological images and associated medical concepts and captions extracted from the PMC Open Access subset. It is an updated version of the ROCO dataset published in 2018, and adds 35,705 new images added to PMC since 2018. It further provides manually curated concepts for imaging modalities with additional anatomical and directional concepts for X-rays. The dataset consists of 79,789 images and has been used, with minor modifications, in the concept detection and caption prediction tasks of ImageCLEFmedical Caption 2023. The dataset is suitable for training image annotation models based on image-caption pairs, or for multi-label image classification using Unified Medical Language System (UMLS) concepts provided with each image. In addition, it can serve for pre-training of medical domain models, and evaluation of deep learning models for multi-task learning.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# 時間的ファクト抽出のためのインコンテキスト学習を用いたタイムラインに基づく文分割

Timeline-based Sentence Decomposition with In-Context Learning for Temporal Fact Extraction ( http://arxiv.org/abs/2405.10288v3 )

ライセンス: Link先を確認
Jianhao Chen, Haoyuan Ouyang, Junyang Ren, Wentao Ding, Wei Hu, Yuzhong Qu, (参考訳) ファクト抽出は知識グラフを構築する上で重要である。 近年,下流タスクにおける時間的事実の需要が増加し,時間的事実抽出のタスクが出現している。 本稿では,自然言語テキストから時間的事実を抽出する方法について述べる。 従来の研究は、複雑な文に時間と成果の対応を確立するという課題に対処できなかった。 このハードルを克服するために,大規模言語モデル(LLM)とテキスト内学習を用いたタイムラインに基づく文分解手法を提案する。 さらに, 直接的事実抽出のためのLCMの性能評価を行い, 不満足な結果を得た。 そこで本研究では,LLMの分解機能を,より小さな事前学習言語モデル(PLM)の従来の微調整に組み込む手法であるTLDREを紹介する。 評価を支援するために,複雑な時間的事実抽出データセットであるcomplexTREDを構築した。 実験の結果, TSDRE は HyperRED-Temporal データセットと ComplexTRED データセットの両方で最先端の結果が得られることがわかった。

Facts extraction is pivotal for constructing knowledge graphs. Recently, the increasing demand for temporal facts in downstream tasks has led to the emergence of the task of temporal fact extraction. In this paper, we specifically address the extraction of temporal facts from natural language text. Previous studies fail to handle the challenge of establishing time-to-fact correspondences in complex sentences. To overcome this hurdle, we propose a timeline-based sentence decomposition strategy using large language models (LLMs) with in-context learning, ensuring a fine-grained understanding of the timeline associated with various facts. In addition, we evaluate the performance of LLMs for direct temporal fact extraction and get unsatisfactory results. To this end, we introduce TSDRE, a method that incorporates the decomposition capabilities of LLMs into the traditional fine-tuning of smaller pre-trained language models (PLMs). To support the evaluation, we construct ComplexTRED, a complex temporal fact extraction dataset. Our experiments show that TSDRE achieves state-of-the-art results on both HyperRED-Temporal and ComplexTRED datasets.
翻訳日:2024-06-20 01:35:12 公開日:2024-06-18
# Hypergraph: 統一かつ統一された定義と化学ハイパーグラフへの応用

Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph ( http://arxiv.org/abs/2405.12235v4 )

ライセンス: Link先を確認
Daniel T. Chang, (参考訳) 従来のハイパーグラフの定義には、(1)有向ハイパーグラフの標準的な定義がなく、(2)有向ハイパーグラフの正式な定義がない、という2つの大きな問題がある。 これらの問題を解決するために, ハイパーグラフの概念を統一するハイパーグラフの新たな定義を提案し, ノードとハイパーエッジの高次相関を表す単一の構造としてハイパーエッジを用いる場合の統一性について述べる。 具体的には、ハイパーエッジを単純なハイパーエッジ、ネストハイパーエッジ、あるいは有向ハイパーエッジと定義する。 この新しい定義では、ハイパーグラフはネストするハイパーエッジ(s)がある場合はネストされ、指示されたハイパーエッジ(s)がある場合は方向付けされる。 そうでなければ、ハイパーグラフは単純なハイパーグラフである。 この新定義の統一性とパワーは、可視化とともに、一般および化学系における(階層的な)高次相関を表現するためのハイパーグラフの使用を促進すべきである。 グラフは、分子構造と3次元分子幾何学の機械学習のための数学的構造として広く利用されている。 しかし、グラフには大きな制限があり、ノード間のペアワイズ相関しか表現できない。 Hypergraphはノード間の高次相関でグラフを拡張する。 この拡張は化学系の機械学習に重要であるか、不可欠である。 分子にとって、これは多中心結合と分子サブ構造を直接的かつ明示的に表現できるため重要である。 化学反応では、ほとんどの化学反応は複数の参加者を含むため、これは必須である。 本稿では, 化学系を表現するための単一の数学的構造として, 単純, ネスト, 指向のハイパーエッジを持つマルチレベルハイパーグラフであるケミカルハイパーグラフを提案する。 化学ハイパーグラフの新しい定義を化学ハイパーグラフに適用し,分子ハイパーグラフと化学反応ハイパーグラフを簡易化した。

The conventional definition of hypergraph has two major issues: (1) there is not a standard definition of directed hypergraph and (2) there is not a formal definition of nested hypergraph. To resolve these issues, we propose a new definition of hypergraph that unifies the concepts of undirected, directed and nested hypergraphs, and that is uniform in using hyperedge as a single construct for representing high-order correlations among things, i.e., nodes and hyperedges. Specifically, we define a hyperedge to be a simple hyperedge, a nesting hyperedge, or a directed hyperedge. With this new definition, a hypergraph is nested if it has nesting hyperedge(s), and is directed if it has directed hyperedge(s). Otherwise, a hypergraph is a simple hypergraph. The uniformity and power of this new definition, with visualization, should facilitate the use of hypergraph for representing (hierarchical) high-order correlations in general and chemical systems in particular. Graph has been widely used as a mathematical structure for machine learning on molecular structures and 3D molecular geometries. However, graph has a major limitation: it can represent only pairwise correlations between nodes. Hypergraph extends graph with high-order correlations among nodes. This extension is significant or essential for machine learning on chemical systems. For molecules, this is significant as it allows the direct, explicit representation of multicenter bonds and molecular substructures. For chemical reactions, this is essential since most chemical reactions involve multiple participants. We propose the use of chemical hypergraph, a multilevel hypergraph with simple, nesting and directed hyperedges, as a single mathematical structure for representing chemical systems. We apply the new definition of hypergraph to chemical hypergraph and, as simplified versions, molecular hypergraph and chemical reaction hypergraph.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# 知識駆動型クロスドキュメント関係抽出

Knowledge-Driven Cross-Document Relation Extraction ( http://arxiv.org/abs/2405.13546v2 )

ライセンス: Link先を確認
Monika Jain, Raghava Mutharaju, Kuldeep Singh, Ramakanth Kavuluru, (参考訳) 関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。 しかし、最近のいくつかの取り組みはドキュメントやクロスドキュメント設定(CrossDocRE)でそれを探求している。 これは、文書内のテキストが単一のゴールを持つ傾向にあるのに対して、異なる文書がしばしば異なるテーマに焦点を当てているため、単一のドキュメントケースと異なる。 異種文書からの発見と新たな関係の同定をリンクすることは、医学やその他の分野における一般的な文献に基づく知識発見パラダイムの中核である。 現在のCrossDocREの取り組みではドメイン知識は考慮されていない。 本稿では,文書横断型REのための入力テキストにエンティティのドメイン知識を組み込む,新しいアプローチKXDocREを提案する。 提案するフレームワークには,ベースラインよりも3つの大きなメリットがあります。 1) 文書のテキストとともにエンティティのドメイン知識を取り入れる。 2 実体間の関係を予測するための説明文を作成することにより、解釈可能性を提供する。 3) 従来の手法よりも性能が向上する。

Relation extraction (RE) is a well-known NLP application often treated as a sentence- or document-level task. However, a handful of recent efforts explore it across documents or in the cross-document setting (CrossDocRE). This is distinct from the single document case because different documents often focus on disparate themes, while text within a document tends to have a single goal. Linking findings from disparate documents to identify new relationships is at the core of the popular literature-based knowledge discovery paradigm in biomedicine and other domains. Current CrossDocRE efforts do not consider domain knowledge, which are often assumed to be known to the reader when documents are authored. Here, we propose a novel approach, KXDocRE, that embed domain knowledge of entities with input text for cross-document RE. Our proposed framework has three main benefits over baselines: 1) it incorporates domain knowledge of entities along with documents' text; 2) it offers interpretability by producing explanatory text for predicted relations between entities 3) it improves performance over the prior methods.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# インフルエンサーの次のドア:誤情報作成者はどのようにGenAIを使うか

The Influencer Next Door: How Misinformation Creators Use GenAI ( http://arxiv.org/abs/2405.13554v3 )

ライセンス: Link先を確認
Amelia Hassoun, Ariel Abonizio, Katy Osborn, Cameron Wu, Beth Goldberg, (参考訳) 生成AI(GenAI)の進歩は、人間の生成コンテンツからAI生成コンテンツを検出し、識別することに対する懸念を提起している。 既存の文献の多くは、'専門家'が組織化された偽情報作成者と欠陥のあるAIモデルが'通常の'ユーザーを騙すパラダイムを前提としている。 2022~2023年の間、偽情報作成者や消費者による縦断的エスノグラフィー研究に基づいて、非専門家がGenAIをリミックス、再パッケージ、および(再)コンテンツの制作に利用し、個人のニーズや欲求に応えている。 この研究は4つの重要な発見を導いた: まず、参加者は真理探究ではなく、主に創造のためにGenAIを使用した。 第二に、「インフルエンサー億万長者」という物語が参加者を惹きつけ、GenAIを生産性ツールとして、大量の(しばしば誤形的な)コンテンツを生成した。 第三に、GenAIはコンテンツ制作の参入障壁を減らし、消費者をクリエーターに誘惑し、既存のクリエーターのアウトプットを大幅に増やした。 最後に、参加者はGen AIを使用して、エンゲージメントを拡大し、コンテンツを収益化するためのマーケティング戦略を学び、展開した。 我々は、分析をAIコンテンツの消費者として一般大衆から、GenAIを創造的に利用するブリックルアへとシフトさせ、その基盤技術に関する詳細な理解を必要とせずに、しばしば議論している。 我々は、これらの未調査の創発的なGenAIの使用が、新しいまたは加速された誤情報障害をいかに生み出すか、そしてAI製品、プラットフォーム、ポリシーに与える影響を分析する。

Advances in generative AI (GenAI) have raised concerns about detecting and discerning AI-generated content from human-generated content. Most existing literature assumes a paradigm where 'expert' organized disinformation creators and flawed AI models deceive 'ordinary' users. Based on longitudinal ethnographic research with misinformation creators and consumers between 2022-2023, we instead find that GenAI supports bricolage work, where non-experts increasingly use GenAI to remix, repackage, and (re)produce content to meet their personal needs and desires. This research yielded four key findings: First, participants primarily used GenAI for creation, rather than truth-seeking. Second, a spreading 'influencer millionaire' narrative drove participants to become content creators, using GenAI as a productivity tool to generate a volume of (often misinformative) content. Third, GenAI lowered the barrier to entry for content creation across modalities, enticing consumers to become creators and significantly increasing existing creators' output. Finally, participants used Gen AI to learn and deploy marketing tactics to expand engagement and monetize their content. We argue for shifting analysis from the public as consumers of AI content to bricoleurs who use GenAI creatively, often without a detailed understanding of its underlying technology. We analyze how these understudied emergent uses of GenAI produce new or accelerated misinformation harms, and their implications for AI products, platforms and policies.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# より多くを学ぶ: 大規模言語モデルは自然に学習できる

Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners ( http://arxiv.org/abs/2405.13816v2 )

ライセンス: Link先を確認
Shimao Zhang, Changjiang Gao, Wenhao Zhu, Jiajun Chen, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Shujian Huang, (参考訳) 最近、Large Language Models (LLMs) は印象的な言語機能を示している。 既存のLLMの多くは、異なる言語間で非常に不均衡な性能を保っているが、翻訳並列データに基づく多言語アライメントは、LLMの多言語機能を強化する効果的な方法である。 本研究では,LLMの自然多言語アライメント改善の発見と包括的検討を行う。 質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。 さらに,多言語シナリオにおけるLLMの性能を包括的に解析するために,異なる設定と機械的解釈可能性手法を利用する。 我々の研究は,LLMが多言語アライメントを効果的に改善し,優れた言語とタスクの一般化をもたらす可能性を示唆している。

Recently, Large Language Models (LLMs) have shown impressive language capabilities. While most of the existing LLMs have very unbalanced performance across different languages, multilingual alignment based on translation parallel data is an effective method to enhance the LLMs' multilingual capabilities. In this work, we discover and comprehensively investigate the spontaneous multilingual alignment improvement of LLMs. We find that LLMs instruction-tuned on the question translation data (i.e. without annotated answers) are able to encourage the alignment between English and a wide range of languages, even including those unseen during instruction-tuning. Additionally, we utilize different settings and mechanistic interpretability methods to analyze the LLM's performance in the multilingual scenario comprehensively. Our work suggests that LLMs have enormous potential for improving multilingual alignment efficiently with great language and task generalization.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# MRI再建におけるデータ効率のよい機械学習

Erase to Enhance: Data-Efficient Machine Unlearning in MRI Reconstruction ( http://arxiv.org/abs/2405.15517v2 )

ライセンス: Link先を確認
Yuyang Xue, Jingshuai Liu, Steven McDonagh, Sotirios A. Tsaftaris, (参考訳) 機械学習は、トレーニングされたモデルから不要なデータサンプルを取り除き、プライバシー規制の遵守を確保し、有害なバイアスを制限するための有望なパラダイムである。 アンラーニングは行われていないが、例えば分類・推薦システム、特に画像再構成における医用画像・画像翻訳の可能性は十分に研究されていない。 本稿では,MRIタスクにおいて機械学習が可能であり,バイアス除去に有用であることを示す。 異なる臓器のデータセット間でどの程度の共有知識が存在するかを研究するためのプロトコルをセットアップし、アンラーニングの効果を効果的に定量化できるようにしました。 本研究は, トレーニングデータを組み合わせることで, 幻覚や画像品質の低下につながることを明らかにした。 非学習を用いて幻覚を除去し、望ましくないデータの除去を代行する。 実際、完全に再学習することなく、機械学習が可能であることを示す。 さらに,観測結果から,保持データのサブセットのみを用いても高い性能を維持することが可能であることが示唆された。 コードを公開しました。

Machine unlearning is a promising paradigm for removing unwanted data samples from a trained model, towards ensuring compliance with privacy regulations and limiting harmful biases. Although unlearning has been shown in, e.g., classification and recommendation systems, its potential in medical image-to-image translation, specifically in image recon-struction, has not been thoroughly investigated. This paper shows that machine unlearning is possible in MRI tasks and has the potential to benefit for bias removal. We set up a protocol to study how much shared knowledge exists between datasets of different organs, allowing us to effectively quantify the effect of unlearning. Our study reveals that combining training data can lead to hallucinations and reduced image quality in the reconstructed data. We use unlearning to remove hallucinations as a proxy exemplar of undesired data removal. Indeed, we show that machine unlearning is possible without full retraining. Furthermore, our observations indicate that maintaining high performance is feasible even when using only a subset of retain data. We have made our code publicly accessible.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# DefSent+:無限辞書エントリの準等方的あるいは等方的ベクトル空間に定義文を投影することで言語モデルの文埋め込みを改善する

DefSent+: Improving sentence embeddings of language models by projecting definition sentences into a quasi-isotropic or isotropic vector space of unlimited dictionary entries ( http://arxiv.org/abs/2405.16153v2 )

ライセンス: Link先を確認
Xiaodong Liu, (参考訳) 本論文は,DefSent として知られる以前の会議報告において,大幅な改善を示すものである。 前回の研究では、定義文を辞書エントリのベクトル空間に投影することで、言語モデルの文埋め込みを改善することを目的としている。 言語モデルの単語埋め込みによる辞書エントリ表現の方法論的制限により,本手法は十分に検討されていないことが判明した。 これは2つの障害に繋がる。 まず、辞書のエントリは単一の単語の語彙によって制約されるため、完全には利用できない。 第二に、言語モデルのセマンティック表現は異方性であることが知られているが、トレーニング中にその重みが凍結され、予測層に結びついているため、DefSentの事前処理ワード埋め込みは許されない。 本稿では,制約を満たさない進入埋め込みを段階的に構築する手法を提案する。 その結果、定義文を無限辞書エントリの準等方的あるいは等方的ベクトル空間に投影することができ、顕著に優れた品質の文埋め込みを実現することができる。 私たちはアプローチをDefSent+(DefSentのプラスバージョン)と略しています。 1) 文類似度の測定におけるタスク性能は、DefSentよりも大幅に向上する。 2) SIMCSE、SNCSE、SynCSEなどのデータ拡張モデルのトレーニングにDefSent+を使用する場合、手動でラベル付けされたデータセットを使わずに、文の類似性の測定における最先端のパフォーマンスを実現することができる。 3)DefSent+はNLPダウンストリームタスクの機能ベースの転送でも競合する。

This paper presents a significant improvement on the previous conference paper known as DefSent. The prior study seeks to improve sentence embeddings of language models by projecting definition sentences into the vector space of dictionary entries. We discover that this approach is not fully explored due to the methodological limitation of using word embeddings of language models to represent dictionary entries. This leads to two hindrances. First, dictionary entries are constrained by the single-word vocabulary, and thus cannot be fully exploited. Second, semantic representations of language models are known to be anisotropic, but pre-processing word embeddings for DefSent is not allowed because its weight is frozen during training and tied to the prediction layer. In this paper, we propose a novel method to progressively build entry embeddings not subject to the limitations. As a result, definition sentences can be projected into a quasi-isotropic or isotropic vector space of unlimited dictionary entries, so that sentence embeddings of noticeably better quality are attainable. We abbreviate our approach as DefSent+ (a plus version of DefSent), involving the following strengths: 1) the task performance on measuring sentence similarities is significantly improved compared to DefSent; 2) when DefSent+ is used to further train data-augmented models like SIMCSE, SNCSE, and SynCSE, state-of-the-art performance on measuring sentence similarities can be achieved among the approaches without using manually labeled datasets; 3) DefSent+ is also competitive in feature-based transfer for NLP downstream tasks.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# SelfCP: 凍結した大規模言語モデルを通じて、過限のプロンプトを圧縮する

SelfCP: Compressing Over-Limit Prompt via the Frozen Large Language Model Itself ( http://arxiv.org/abs/2405.17052v2 )

ライセンス: Link先を確認
Jun Gao, Ziqiang Cao, Wenjie Li, (参考訳) ロングプロンプトは、トランスフォーマーベースのLarge Language Models (LLMs) を使用する場合、ハードウェアコストを大幅に削減する。 残念なことに、要約などの多くのタスクは必然的に長い文書を導入し、文脈内学習の幅広い適用により、即時長が爆発的になる。 本稿では,自己圧縮器(SelfCP)を提案する。これはLLM自体を目標とし,許可されたプロンプトを未修正のまま高密度ベクトルに圧縮する。 複雑なベクトルは、学習可能なコネクタを通して高密度のトークンに投影され、同じLLMが理解できないようにする。 コネクタは、一般にアクセスされたデータセットから選択された比較的長いテキストに基づいて、LLMの言語モデリングの目的の下で教師あり、SlfCPに様々なプロンプトに応答させる命令データセットを含む。 我々は2つの異なるバックボーン上に軽量なSelfCPを構築し、コネクタと学習可能な埋め込みから17Mの学習可能なパラメータを抽出する。 英語と中国語のベンチマークによる評価では、SelfCPは12$\times$ over-limitプロンプトを高密度トークンで効果的に置き換え、メモリコストを削減し、推論スループットを向上し、応答品質を改善している。 優れたパフォーマンスは、LLMをスクラッチからトレーニングすることなく、長いプロンプトに対処する効率的なソリューションを提供する。

Long prompt leads to huge hardware costs when using transformer-based Large Language Models (LLMs). Unfortunately, many tasks, such as summarization, inevitably introduce long documents, and the wide application of in-context learning easily makes the prompt length explode. This paper proposes a Self-Compressor (SelfCP), which employs the target LLM itself to compress over-limit prompts into dense vectors while keeping the allowed prompts unmodified. Dense vectors are then projected into dense tokens via a learnable connector to make the same LLM unburden to understand. The connector is supervised-tuned under the language modeling objective of the LLM on relatively long texts selected from publicly accessed datasets, involving an instruction dataset to make SelfCP respond to various prompts, while the target LLM keeps frozen during training. We build the lightweight SelfCP upon 2 different backbones with merely 17M learnable parameters originating from the connector and a learnable embedding. Evaluation on both English and Chinese benchmarks demonstrate that SelfCP effectively substitutes 12$\times$ over-limit prompts with dense tokens to reduce memory costs and booster inference throughputs, yet improving response quality. The outstanding performance brings an efficient solution for LLMs to tackle long prompts without training LLMs from scratch.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# 絡み合いによるマルチスタビリティ

Disentanglement-induced multistability ( http://arxiv.org/abs/2405.17145v3 )

ライセンス: Link先を確認
Eyal Buks, (参考訳) 可算性(multistability)は、単安定マスター方程式に基づく理論モデルから導出することはできない。 一方、マルチスタビリティは様々な量子系で実験的に観察されている。 絡み合いを引き起こす非線形項を持つマスター方程式が最近提案されている。 このマスター方程式によって支配される力学は、結合スピンからなる量子系に対して探索される。 加算された非線形項が乗算可能性をもたらすことが判明した。 外部に印加された磁場に対するスピンの応答を評価し, 相転移と動的不安定性の両方を見出した。 これらの発見は、量子系において自然発散が起こるという仮説を間接的に支持するものである。

Multistability cannot be derived from any theoretical model that is based on a monostable master equation. On the other hand, multistability is experimentally-observed in a variety of quantum systems. A master equation having a nonlinear term that gives rise to disentanglement has been recently proposed . The dynamics governed by this master equation is explored for a quantum system made of coupled spins. It is found that the added nonlinear term can give rise to multistability. The spins' response to an externally applied magnetic field is evaluated, and both a phase transition and a dynamical instability are found. These findings, which originate from disentanglement-induced multistability, indirectly support the hypothesis that spontaneous disentanglement occurs in quantum systems.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# CoSLight: 交通信号制御を支援する共同作業者選択と意思決定

CoSLight: Co-optimizing Collaborator Selection and Decision-making to Enhance Traffic Signal Control ( http://arxiv.org/abs/2405.17152v2 )

ライセンス: Link先を確認
Jingqing Ruan, Ziyue Li, Hua Wei, Haoyuan Jiang, Jiaming Lu, Xuantang Xiong, Hangyu Mao, Rui Zhao, (参考訳) 強化学習に基づく交通信号制御において,効果的な多区間協調が重要である。 既存の作業は主に近隣の交差点を協力者として選択している。 しかし、非常に多くの混雑、あるいはある程度の広範囲の混雑は、非隣人が協力し合わなかったために引き起こされる。 これらの問題に対処するために、我々は、協力者選択を学習すべき第2のポリシーとして分離し、元の信号制御ポリシーを同時に更新することを提案する。 具体的には、リアルタイムで選択ポリシーは、フェーズレベルと交差点レベルの特徴に応じて、最適なチームメイトを適応的に選択する。 合成と実世界の両方のデータセットに対する実証的な結果は、我々のアプローチの優位性に対する堅牢な検証を提供し、既存の最先端手法よりも大幅に改善されている。 コードはhttps://github.com/bonaldli/CoSLightで入手できる。

Effective multi-intersection collaboration is pivotal for reinforcement-learning-based traffic signal control to alleviate congestion. Existing work mainly chooses neighboring intersections as collaborators. However, quite an amount of congestion, even some wide-range congestion, is caused by non-neighbors failing to collaborate. To address these issues, we propose to separate the collaborator selection as a second policy to be learned, concurrently being updated with the original signal-controlling policy. Specifically, the selection policy in real-time adaptively selects the best teammates according to phase- and intersection-level features. Empirical results on both synthetic and real-world datasets provide robust validation for the superiority of our approach, offering significant improvements over existing state-of-the-art methods. The code is available at https://github.com/bonaldli/CoSLight.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# LLM知識伝達によるゼロショット顔表情認識の強化

Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer ( http://arxiv.org/abs/2405.19100v2 )

ライセンス: Link先を確認
Zengqun Zhao, Yu Cao, Shaogang Gong, Ioannis Patras, (参考訳) 現在の顔表情認識(FER)モデルは、しばしば教師付き学習方法で設計されるため、高品質なアノテーションによる大規模な表情画像の欠如に制約される。 その結果、これらのモデルはよく一般化できず、推論の見当たらない画像では性能が良くない。 視覚言語に基づくゼロショットモデルは、このような課題に対処するための有望な可能性を示している。 しかし,これらのモデルにはタスク固有の知識がなく,表情認識のニュアンスに最適化されていない。 このギャップを埋めるために,大規模な言語モデル (LLM) からタスク知識を移譲することによってゼロショットFERを強化する新しい手法であるExp-CLIPを提案する。 具体的には、事前訓練された視覚言語エンコーダに基づいて、初期共同視覚言語空間を顔行動の表現をキャプチャする空間にマッピングするプロジェクションヘッドを組み込む。 このプロジェクションヘッドを、その後のゼロショット予測のためにトレーニングするために、LLMエンコーダから派生したタスク固有の意味意味と、投影された視覚表現を一致させることを提案し、LLMの知識をカスタマイズするために、テキスト命令に基づく戦略を採用する。 衝突しない顔データとプロジェクションヘッドの効率的なトレーニングを与えられたExp-CLIPは、CLIPモデルと他の大型ビジョン言語モデル(LVLM)の7つの範囲のFERデータセットに対して優れたゼロショット結果を達成する。

Current facial expression recognition (FER) models are often designed in a supervised learning manner and thus are constrained by the lack of large-scale facial expression images with high-quality annotations. Consequently, these models often fail to generalize well, performing poorly on unseen images in inference. Vision-language-based zero-shot models demonstrate a promising potential for addressing such challenges. However, these models lack task-specific knowledge and therefore are not optimized for the nuances of recognizing facial expressions. To bridge this gap, this work proposes a novel method, Exp-CLIP, to enhance zero-shot FER by transferring the task knowledge from large language models (LLMs). Specifically, based on the pre-trained vision-language encoders, we incorporate a projection head designed to map the initial joint vision-language space into a space that captures representations of facial actions. To train this projection head for subsequent zero-shot predictions, we propose to align the projected visual representations with task-specific semantic meanings derived from the LLM encoder, and the text instruction-based strategy is employed to customize the LLM knowledge. Given unlabelled facial data and efficient training of the projection head, Exp-CLIP achieves superior zero-shot results to the CLIP models and several other large vision-language models (LVLMs) on seven in-the-wild FER datasets.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# WRDScore: 自然言語生成モデル評価のための新しい指標

WRDScore: New Metric for Evaluation of Natural Language Generation Models ( http://arxiv.org/abs/2405.19220v2 )

ライセンス: Link先を確認
Ravil Mussabayev, (参考訳) 自然言語生成の問題や、より具体的にはメソッド名予測は、提案されたモデルがテストデータに基づいて評価される必要がある場合、重大な困難に直面します。 このようなメトリクスは、セマンティクスと構文の両方に関して、単一のメソッドを命名できる汎用性を考える必要がある。 予測された(真の)シーケンスと参照(真の)シーケンスの直接的な重複を測定することは、これらの微妙さを捉えることはできない。 他の埋め込みベースのメトリクスは、精度を測ったり、リコールしたり、両方のシーケンスに厳密な非現実的な仮定を課したりしない。 これらの問題に対処するため、我々は、非常にシンプルで軽量な新しい計量法を提案し、一方で、人間の判断に関して優れた性能を得ながら、仮定に頼らずに精度とリコールを計算することができる。

The problem of natural language generation, and, more specifically, method name prediction, faces significant difficulties when proposed models need to be evaluated on test data. Such a metric would need to consider the versatility with which a single method can be named, with respect to both semantics and syntax. Measuring the direct overlap between the predicted and reference (true) sequences will not be able to capture these subtleties. Other existing embedding based metrics either do not measure precision and recall or impose strict unrealistic assumptions on both sequences. To address these issues, we propose a new metric that, on the one hand, is very simple and lightweight, and, on the other hand, is able to calculate precision and recall without resorting to any assumptions while obtaining good performance with respect to the human judgement.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# リカレントニューラルネットワークモデルの表現性に関する下界

Lower Bounds on the Expressivity of Recurrent Neural Language Models ( http://arxiv.org/abs/2405.19222v2 )

ライセンス: Link先を確認
Anej Svete, Franz Nowak, Anisha Mohamed Sahabdeen, Ryan Cotterell, (参考訳) 近年の大規模ニューラルネットワークモデル(LM)の成功と普及は、その計算能力の徹底的な理解を促している。 LMの'emph{representational capacity'を通じて計算能力を記述することは、活発な研究分野である。 しかしながら、ニューラル LM の表現能力に関する調査は、主に形式言語である 'emph{recognize} の能力に焦点を当てている。 例えば、ヘビサイドアクティベーションを持つリカレントニューラルネットワーク(RNN)は、正規言語、すなわち有限状態オートマトン(FSAs)によって定義される言語と密接に関連している。 しかし、そのような結果は RNN \emph{言語モデル (LM) の機能を記述するには足りず、定義上は文字列上でのemph{distributions} である。 本稿では, RNN LM の表現能力について, それらを \emph{probabilistic} FSA に接続することにより再検討し, 線形有界精度を持つ RNN LM が任意の正則な LM を表現できることを実証する。

The recent successes and spread of large neural language models (LMs) call for a thorough understanding of their computational ability. Describing their computational abilities through LMs' \emph{representational capacity} is a lively area of research. However, investigation into the representational capacity of neural LMs has predominantly focused on their ability to \emph{recognize} formal languages. For example, recurrent neural networks (RNNs) with Heaviside activations are tightly linked to regular languages, i.e., languages defined by finite-state automata (FSAs). Such results, however, fall short of describing the capabilities of RNN \emph{language models} (LMs), which are definitionally \emph{distributions} over strings. We take a fresh look at the representational capacity of RNN LMs by connecting them to \emph{probabilistic} FSAs and demonstrate that RNN LMs with linearly bounded precision can express arbitrary regular LMs.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# Cross-Attentive Modulationトークンを用いたリンクセット予測のグローバルな認識の改善

Improving global awareness of linkset predictions using Cross-Attentive Modulation tokens ( http://arxiv.org/abs/2405.19375v2 )

ライセンス: Link先を確認
Félix Marcoccia, Cédric Adjih, Paul Mühlethaler, (参考訳) 複数のリンク予測やグラフ生成技術のほとんどは、適切なリンク予測を形成するためにノードレベルの情報交換を利用するグラフニューラルネットワーク(GNN)に頼っている。 このようなノードレベルの相互作用は順序列としてノードを処理せず、ノードの自然な順序付けを暗示する。 グラフ問題には適しているが、予測されるリンクのグローバルなオーケストレーションの提供に苦慮しているため、パフォーマンスが損なわれる可能性がある。 典型的な問題は、大域的な接続性、固定径、過密化や過密化といった情報のボトルネック効果の回避などの高レベルな特性を確保することの難しさである。 この問題に対処するために、我々は、予測リンクのグローバル一貫性を改善するコンテキスト認識計算を可能にするために、ノードとエッジレベルの変調に使用されるクロスアテンテートユニットを導入するクロスアテンテート変調(CAM)トークンを提案する。 いくつかの置換不変アーキテクチャで実装し、私たちの仕事のメリットを証明するベンチマークをベンチマークします。

Most of multiple link prediction or graph generation techniques rely on the attention mechanism or on Graph Neural Networks (GNNs), which consist in leveraging node-level information exchanges in order to form proper link predictions. Such node-level interactions do not process nodes as an ordered sequence, which would imply some kind of natural ordering of the nodes: they are said to be permutation invariant mechanisms. They are well suited for graph problems, but struggle at providing a global orchestration of the predicted links, which can result in a loss of performance. Some typical issues can be the difficulty to ensure high-level properties such as global connectedness, fixed diameter or to avoid information bottleneck effects such as oversmoothing and oversquashing, which respectively consist in abundant smoothing in dense areas leading to a loss of information and a tendency to exclude isolated nodes from the message passing scheme, and often result in irrelevant, unbalanced link predictions. To tackle this problem, we hereby present Cross-Attentive Modulation (CAM) tokens, which introduce cross-attentive units used to condition node and edge-level modulations in order to enable context-aware computations that improve the global consistency of the prediction links. We will implement it on a few permutation invariant architectures, and showcase benchmarks that prove the merits of our work.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# 深層学習に基づく水中画像強調に関する総合調査

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning ( http://arxiv.org/abs/2405.19684v2 )

ライセンス: Link先を確認
Xiaofeng Cong, Yu Zhao, Jie Gui, Junming Hou, Dacheng Tao, (参考訳) 水中画像強調(UIE)はコンピュータビジョンの分野で難しい研究課題である。 何百ものUIEアルゴリズムが提案されているが、包括的で体系的なレビューはまだ不足している。 今後の研究を促進するために,複数の視点からUIEタスクを要約する。 まず、物理モデル、データ構築プロセス、評価指標、損失関数を紹介する。 次に, ネットワークアーキテクチャ, 学習戦略, 学習段階, 支援課題, ドメイン視点, 絡み合い融合の6つの視点から, 提案したアルゴリズムについて検討・分類した。 第3に、異なる文献における実験的な設定の不整合を考えると、包括的で公平な比較はまだ存在しない。 この目的のために、複数のベンチマークデータセット上で最先端のアルゴリズムを定量的に定性的に評価する。 最後に、UIEタスクのさらなる研究に値する課題が提起される。 有用な資料のコレクションはhttps://github.com/YuZhao1999/UIEで入手できる。

Underwater image enhancement (UIE) is a challenging research task in the field of computer vision. Although hundreds of UIE algorithms have been proposed, a comprehensive and systematic review is still lacking. To promote future research, we summarize the UIE task from multiple perspectives. First, the physical models, data construction processes, evaluation metrics, and loss functions are introduced. Second, according to the contributions brought by different literatures, recent proposed algorithms are discussed and classified from six perspectives, namely network architecture, learning strategy, learning stage, assistance task, domain perspective and disentanglement fusion, respectively. Third, considering the inconsistencies in experimental settings in different literatures, a comprehensive and fair comparison does not yet exist. To this end, we quantitatively and qualitatively evaluate state-of-the-art algorithms on multiple benchmark datasets. Finally, issues worthy of further research in the UIE task are raised. A collection of useful materials is available at https://github.com/YuZhao1999/UIE.
翻訳日:2024-06-20 01:25:27 公開日:2024-06-18
# SNAILを用いたトラベリングウェーブパラメトリック増幅器におけるポンプ高調波発生の検討

Investigating pump harmonics generation in a SNAIL-based Traveling Wave Parametric Amplifier ( http://arxiv.org/abs/2405.20096v2 )

ライセンス: Link先を確認
A. Yu. Levochkina, H. G. Ahmad, P. Mastrovito, I. Chatterjee, G. Serpico, L. Di Palma, R. Ferroiuolo, R. Satariano, P. Darvehi, A. Ranadive, G. Cappelli, G. Le Gal, L. Planat, D. Montemurro, D. Massarotti, F. Tafuri, N. Roch, G. P. Pepe, M. Esposito, (参考訳) トラベリングウェーブパラメトリック増幅器(TWPA)は、非常に望ましい量子制限特性とブロードバンド特性のために弱いマイクロ波信号を含む実験に広く用いられている。 しかし、TWPAsのブロードバンド特性は、増幅性能を低下させる可能性のあるハーモニクス生成のような急激な非線形過程の活性化を認めるという欠点がある。 本稿では,SNAIL(Superconducting Nonly Asymmetric Inductive Element)ベースのユニットセルを用いたジョセフソンTWPAデバイスを,ポンプの第2および第3高調波の発生とともに増幅挙動に着目して実験的に検討した。 実験結果を過渡数値シミュレーションと比較することにより、ジョセフソン接合の不完全性が高調波の発生および利得挙動に及ぼす影響を実証する。

Traveling Wave Parametric Amplifiers (TWPAs) are extensively employed in experiments involving weak microwave signals for their highly desirable quantum-limited and broadband characteristics. However, TWPAs' broadband nature comes with the disadvantage of admitting the activation of spurious nonlinear processes, such as harmonics generation, that can potentially degrade amplification performance. Here we experimentally investigate a Josephson TWPA device with SNAIL (Superconducting Nonlinear Asymmetric Inductive Element)-based unit cells focusing on the amplification behaviour along with the generation of second and third harmonics of the pump. By comparing experimental results with transient numerical simulations, we demonstrate the influence of Josephson junctions' fabrication imperfections on the occurrence of harmonics and on the gain behaviour.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# MegActor:鮮やかなポートレートアニメーションで生の動画のパワーを損なう

MegActor: Harness the Power of Raw Video for Vivid Portrait Animation ( http://arxiv.org/abs/2405.20851v2 )

ライセンス: Link先を確認
Shurong Yang, Huadong Li, Juhao Wu, Minhao Jing, Linze Li, Renhe Ji, Jiajun Liang, Haoqiang Fan, (参考訳) 生のドライビングビデオは、肖像画の分野におけるランドマークのような中間表現よりも豊かな表情情報を含んでいるが、研究の対象はめったにない。 これは、生のビデオで駆動されるポートレートアニメーションに固有の2つの課題が原因である。 1) 重大な個人情報漏洩 2)シワ等の無関係な背景と顔の細部は性能を低下させる。 生動画の力を利用して鮮やかなポートレートアニメーションを実現するために,我々はMegActorという条件付き拡散モデルを提案する。 まず、一貫した動きと表情を持つビデオを作成するための合成データ生成フレームワークを導入し、ID漏洩の問題を緩和するために、一貫性のないIDを導入した。 次に、参照画像の前景と背景を分割し、CLIPを用いて背景の詳細をエンコードした。 この符号化された情報は、テキスト埋め込みモジュールを介してネットワークに統合され、背景の安定性が保証される。 最後に,参照画像の外観をドライビングビデオに転送することで,ドライビングビデオにおける顔の詳細の影響を解消する。 最終モデルは公開データセットのみに基づいてトレーニングされ、商用モデルに匹敵する結果が得られました。 ソースコードはhttps://github.com/megvii-research/MegFaceAnimate.comで公開されている。

Despite raw driving videos contain richer information on facial expressions than intermediate representations such as landmarks in the field of portrait animation, they are seldom the subject of research. This is due to two challenges inherent in portrait animation driven with raw videos: 1) significant identity leakage; 2) Irrelevant background and facial details such as wrinkles degrade performance. To harnesses the power of the raw videos for vivid portrait animation, we proposed a pioneering conditional diffusion model named as MegActor. First, we introduced a synthetic data generation framework for creating videos with consistent motion and expressions but inconsistent IDs to mitigate the issue of ID leakage. Second, we segmented the foreground and background of the reference image and employed CLIP to encode the background details. This encoded information is then integrated into the network via a text embedding module, thereby ensuring the stability of the background. Finally, we further style transfer the appearance of the reference image to the driving video to eliminate the influence of facial details in the driving videos. Our final model was trained solely on public datasets, achieving results comparable to commercial models. We hope this will help the open-source community.The code is available at https://github.com/megvii-research/MegFaceAnimate.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# MeshXL: 生成3Dファンデーションモデルのためのニューラルコーディネートフィールド

MeshXL: Neural Coordinate Field for Generative 3D Foundation Models ( http://arxiv.org/abs/2405.20853v2 )

ライセンス: Link先を確認
Sijin Chen, Xin Chen, Anqi Pang, Xianfang Zeng, Wei Cheng, Yijun Fu, Fukun Yin, Yanru Wang, Zhibin Wang, Chi Zhang, Jingyi Yu, Gang Yu, Bin Fu, Tao Chen, (参考訳) 3Dデータのポリゴンメッシュ表現は、様々なアプリケーションで広く好まれる、大きな柔軟性、高速なレンダリング速度、ストレージ効率を示す。 しかし、その非構造グラフ表現を考えると、高忠実度3Dメッシュの直接生成は困難である。 幸いなことに、事前定義された順序付け戦略では、3Dメッシュはシーケンスとして表現することができ、生成プロセスは自動回帰問題としてシームレスに扱うことができる。 本稿では,暗黙的ニューラルネットワーク埋め込みを用いた明示的な座標表現であるNeurCFを,大規模連続メッシュモデリングのための簡易なyet- Effective表現として検証する。 その後、私たちは、3Dメッシュ生成のプロセスに対処し、現代の大規模言語モデルアプローチで対処する、生成事前訓練された自動回帰モデルのファミリーであるMeshXLを紹介します。 大規模な実験によると、MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。

The polygon mesh representation of 3D data exhibits great flexibility, fast rendering speed, and storage efficiency, which is widely preferred in various applications. However, given its unstructured graph representation, the direct generation of high-fidelity 3D meshes is challenging. Fortunately, with a pre-defined ordering strategy, 3D meshes can be represented as sequences, and the generation process can be seamlessly treated as an auto-regressive problem. In this paper, we validate the Neural Coordinate Field (NeurCF), an explicit coordinate representation with implicit neural embeddings, is a simple-yet-effective representation for large-scale sequential mesh modeling. After that, we present MeshXL, a family of generative pre-trained auto-regressive models, which addresses the process of 3D mesh generation with modern large language model approaches. Extensive experiments show that MeshXL is able to generate high-quality 3D meshes, and can also serve as foundation models for various down-stream applications.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# CrossVoice:Transfer Learningを用いたCasscade-S2STの言語間韻律保存

CrossVoice: Crosslingual Prosody Preserving Cascade-S2ST using Transfer Learning ( http://arxiv.org/abs/2406.00021v2 )

ライセンス: Link先を確認
Medha Hira, Arnav Goel, Anubha Gupta, (参考訳) ASR,MT,TS技術を用いた新しい音声合成システムであるCrossVoiceについて述べる。 我々は,CrossVoiceと直接S2STシステムを比較した総合的な実験を行い,Fisher Es-En,VoxPopuli Fr-EnなどのタスクにおけるBLEUスコアの改善と,ベンチマークデータセットCVSS-T,IndicTTSの韻律保存について検討した。 平均意見スコアは4点中3.75点で、CrossVoiceによって合成された音声は、そのベンチマークにおいて人間の音声と密接に競合し、カスケードベースのシステムの有効性と、韻律変換を伴う多言語S2STにおける伝達学習を強調している。

This paper presents CrossVoice, a novel cascade-based Speech-to-Speech Translation (S2ST) system employing advanced ASR, MT, and TTS technologies with cross-lingual prosody preservation through transfer learning. We conducted comprehensive experiments comparing CrossVoice with direct-S2ST systems, showing improved BLEU scores on tasks such as Fisher Es-En, VoxPopuli Fr-En and prosody preservation on benchmark datasets CVSS-T and IndicTTS. With an average mean opinion score of 3.75 out of 4, speech synthesized by CrossVoice closely rivals human speech on the benchmark, highlighting the efficacy of cascade-based systems and transfer learning in multilingual S2ST with prosody transfer.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# 多言語韻律変換:教師付き・伝達学習の比較

Multilingual Prosody Transfer: Comparing Supervised & Transfer Learning ( http://arxiv.org/abs/2406.00022v2 )

ライセンス: Link先を確認
Arnav Goel, Medha Hira, Anubha Gupta, (参考訳) 音声合成システムにおける韻律伝達の分野は急速に進歩している。 本研究は,事前学習したモノリンガルテキスト音声(TTS)モデルを多言語条件,すなわちスーパービジョンファインチューニング(SFT)とトランスファーラーニング(TL)に適応させる学習手法の評価に焦点をあてる。 この比較では、平均オピニオンスコア(MOS)、認識精度(RA)、Mel Cepstral Distortion(MCD)の3つの異なる指標を利用する。 SFTと比較して、TLは性能が大幅に向上し、平均MOSは1.53ポイント、RAは37.5%、MCDは約7.8ポイント向上した。 これらの発見は、低リソース言語のためのTSモデルの構築を支援するのに役立ちます。

The field of prosody transfer in speech synthesis systems is rapidly advancing. This research is focused on evaluating learning methods for adapting pre-trained monolingual text-to-speech (TTS) models to multilingual conditions, i.e., Supervised Fine-Tuning (SFT) and Transfer Learning (TL). This comparison utilizes three distinct metrics: Mean Opinion Score (MOS), Recognition Accuracy (RA), and Mel Cepstral Distortion (MCD). Results demonstrate that, in comparison to SFT, TL leads to significantly enhanced performance, with an average MOS higher by 1.53 points, a 37.5% increase in RA, and approximately a 7.8-point improvement in MCD. These findings are instrumental in helping build TTS models for low-resource languages.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# 合理性を考慮したマルチモーダル・マルチエージェントシステム:サーベイ

Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey ( http://arxiv.org/abs/2406.00252v3 )

ライセンス: Link先を確認
Bowen Jiang, Yangxinyu Xie, Xiaomeng Wang, Weijie J. Su, Camillo J. Taylor, Tanwi Mallick, (参考訳) 合理性(Rationality)とは、論理的な思考と、証拠や論理的な規則に沿った決定によって特徴づけられる、理性によって導かれる性質である。 この品質は、ソリューションが十分に確立され、体系的に導出されることを保証するため、効果的な問題解決に不可欠である。 大きな言語モデル(LLM)が顕著な精度で人間に似たテキストを生成するのに進歩しているにもかかわらず、トレーニングデータから継承されたバイアス、異なるコンテキスト間での不整合、複数のコンテキスト層を含む複雑なシナリオを理解するのが困難である。 したがって、近年の研究は、一貫性と信頼性を高めるために、様々な種類のデータやツールと協調して働く複数のエージェントの強度を活用しようとしている。 そこで本稿は,マルチモーダルシステムとマルチエージェントシステムが合理性に向かって進んでいるかを理解することを目的として,現状を調査し,合理性の観点から単モーダルシステムと単モーダルシステムの進歩を特定し,オープンな問題と今後の方向性について議論する。 https://github.com/bowen-upenn/MMMA_Rationality.comでオープンリポジトリをメンテナンスしています。

Rationality is the quality of being guided by reason, characterized by logical thinking and decision-making that align with evidence and logical rules. This quality is essential for effective problem-solving, as it ensures that solutions are well-founded and systematically derived. Despite the advancements of large language models (LLMs) in generating human-like text with remarkable accuracy, they present biases inherited from the training data, inconsistency across different contexts, and difficulty understanding complex scenarios involving multiple layers of context. Therefore, recent research attempts to leverage the strength of multiple agents working collaboratively with various types of data and tools for enhanced consistency and reliability. To that end, this paper aims to understand whether multi-modal and multi-agent systems are advancing toward rationality by surveying the state-of-the-art works, identifying advancements over single-agent and single-modal systems in terms of rationality, and discussing open problems and future directions. We maintain an open repository at https://github.com/bowen-upenn/MMMA_Rationality.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# W-Net: 顔に誘導された顔の超解像ネットワーク

W-Net: A Facial Feature-Guided Face Super-Resolution Network ( http://arxiv.org/abs/2406.00676v2 )

ライセンス: Link先を確認
Hao Liu, Yang Yang, Yunxia Liu, (参考訳) Face Super-Resolution (FSR) は、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。 FSRにおける畳み込みニューラルネットワークの進歩にもかかわらず、再構成効率が低く、事前情報の利用が不十分なため、既存のアプローチの結果は理想的ではない。 顔が高度に構造化された物体であることを考えると、FSRの結果を改善するために顔の事前を効果的に活用することは、貴重な努力である。 本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。 W-Netは、厳密に設計されたパーシングブロックを利用して、LR画像の解像度ポテンシャルを完全に活用する。 我々は、この解析マップを事前の注意として使用し、解析マップとLR画像の両方からの情報を効果的に統合する。 同時に、W字型ネットワーク構造とLPF(LR-Parsing Map Fusion Module)を組み合わせることで、様々な次元で複数の融合を行う。 さらに、マスクとして顔解析グラフを用い、異なる重みと損失関数を主要顔領域に割り当て、再建した顔画像の性能を知覚品質と画素精度のバランスをとる。 我々は,従来の顔超解像測定値に限らず,顔認識や顔のキーポイント検出などの下流タスクにも及んだ広範囲な比較実験を行った。 実験により、W-Netは定量的メトリクス、視覚的品質、下流タスクにおいて優れた性能を示すことが示された。

Face Super-Resolution (FSR) aims to recover high-resolution (HR) face images from low-resolution (LR) ones. Despite the progress made by convolutional neural networks in FSR, the results of existing approaches are not ideal due to their low reconstruction efficiency and insufficient utilization of prior information. Considering that faces are highly structured objects, effectively leveraging facial priors to improve FSR results is a worthwhile endeavor. This paper proposes a novel network architecture called W-Net to address this challenge. W-Net leverages meticulously designed Parsing Block to fully exploit the resolution potential of LR image. We use this parsing map as an attention prior, effectively integrating information from both the parsing map and LR images. Simultaneously, we perform multiple fusions in various dimensions through the W-shaped network structure combined with the LPF(LR-Parsing Map Fusion Module). Additionally, we utilize a facial parsing graph as a mask, assigning different weights and loss functions to key facial areas to balance the performance of our reconstructed facial images between perceptual quality and pixel accuracy. We conducted extensive comparative experiments, not only limited to conventional facial super-resolution metrics but also extending to downstream tasks such as facial recognition and facial keypoint detection. The experiments demonstrate that W-Net exhibits outstanding performance in quantitative metrics, visual quality, and downstream tasks.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# データサイエンスとファイナンスのための最大エントロピー原理による統計インフォームド量子回路

Statistics-Informed Parameterized Quantum Circuit via Maximum Entropy Principle for Data Science and Finance ( http://arxiv.org/abs/2406.01335v2 )

ライセンス: Link先を確認
Xi-Ning Zhuang, Zhao-Yun Chen, Cheng Xue, Xiao-Fan Xu, Chao Wang, Huan-Yu Liu, Tai-Ping Sun, Yun-Jie Wang, Yu-Chun Wu, Guo-Ping Guo, (参考訳) 量子機械学習は、特にデータサイエンスやファイナンスといった統計に焦点を当てた分野において、実践的な問題を解決する上で大きな可能性を示している。 しかし、トレーニング可能性や解釈可能性の問題により、量子プロセッサ上の統計モデルの作成と学習には課題が残っている。 本稿では、最大エントロピー原理を用いて、任意の分布とその重み付き混合を含む量子量子統計モデルの効率的な準備と訓練を行う統計インフォームドパラメタライズド量子回路(SI-PQC)を設計する。 SI-PQCは、トレーニング可能なパラメータを持つ静的構造を備え、詳細な最適化された回路コンパイルを可能にし、リソースと時間消費の指数関数的削減を可能にし、量子状態と古典モデルパラメータを同時に学習するためのトレーニング性と解釈性を改善している。 SI-PQCは、様々な量子アルゴリズムで準備および学習するための効率的なサブルーチンとして、入力ボトルネックに対処し、事前知識の注入を容易にする。

Quantum machine learning has demonstrated significant potential in solving practical problems, particularly in statistics-focused areas such as data science and finance. However, challenges remain in preparing and learning statistical models on a quantum processor due to issues with trainability and interpretability. In this letter, we utilize the maximum entropy principle to design a statistics-informed parameterized quantum circuit (SI-PQC) for efficiently preparing and training of quantum computational statistical models, including arbitrary distributions and their weighted mixtures. The SI-PQC features a static structure with trainable parameters, enabling in-depth optimized circuit compilation, exponential reductions in resource and time consumption, and improved trainability and interpretability for learning quantum states and classical model parameters simultaneously. As an efficient subroutine for preparing and learning in various quantum algorithms, the SI-PQC addresses the input bottleneck and facilitates the injection of prior knowledge.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# FedMKT:大規模・小規模言語モデルの相互知識伝達

FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models ( http://arxiv.org/abs/2406.02224v2 )

ライセンス: Link先を確認
Tao Fan, Guoqiang Ma, Yan Kang, Hanlin Gu, Yuanfeng Song, Lixin Fan, Kai Chen, Qiang Yang, (参考訳) 連合型大規模言語モデル(LLM)の最近の研究は、クライアントがローカルにデプロイされた同種LLMを協調的に微調整することや、サーバベースのLLMから下流クライアントでの小さな言語モデル(SLM)への知識伝達に重点を置いている。 しかし、サーバのLLMとクライアントのSLMの相互強化には大きなギャップが残っている。 このギャップを埋めるため、大小言語モデルのためのパラメータ効率の高い相互知識伝達フレームワークであるFedMKTを提案する。 このフレームワークは、サーバのLLMからクライアントのSLMへ知識を適応的に転送し、同時にクライアントのユニークなドメイン洞察でLLMを豊かにするように設計されている。 最小編集距離(MinED)を用いてトークンアライメントを容易にし、クライアント側SLMとサーバ側LCM間の選択的相互知識伝達を行い、その性能を総合的に向上する。 3つの異なるシナリオにわたる広範囲な実験を通じて、NLPテキスト生成タスクにおいて、様々な公共LLMとSLMを用いてFedMKTの有効性を評価する。 実験結果から,FedMKTはLLMとSLMの両方の性能を同時に向上させることが示された。

Recent research in federated large language models (LLMs) has primarily focused on enabling clients to fine-tune their locally deployed homogeneous LLMs collaboratively or on transferring knowledge from server-based LLMs to small language models (SLMs) at downstream clients. However, a significant gap remains in the simultaneous mutual enhancement of both the server's LLM and clients' SLMs. To bridge this gap, we propose FedMKT, a parameter-efficient federated mutual knowledge transfer framework for large and small language models. This framework is designed to adaptively transfer knowledge from the server's LLM to clients' SLMs while concurrently enriching the LLM with clients' unique domain insights. We facilitate token alignment using minimum edit distance (MinED) and then selective mutual knowledge transfer between client-side SLMs and a server-side LLM, aiming to collectively enhance their performance. Through extensive experiments across three distinct scenarios, we evaluate the effectiveness of FedMKT using various public LLMs and SLMs on a range of NLP text generation tasks. Empirical results demonstrate that FedMKT simultaneously boosts the performance of both LLMs and SLMs.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# プレフィックス制御器への接尾辞勾配圧縮によるLCM挙動の自己制御

Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller ( http://arxiv.org/abs/2406.02721v2 )

ライセンス: Link先を確認
Min Cai, Yuchen Zhang, Shichang Zhang, Fan Yin, Difan Zou, Yisong Yue, Ziniu Hu, (参考訳) 本研究では, 接尾辞勾配を用いた多言語モデル(LLM)の動作制御手法であるSelf-Controlを提案する。 接尾辞文字列で表現されたガイドラインとモデルの自己評価が与えられたとき、自己制御はモデルが隠した状態に関してこの自己判断の勾配を計算し、自動回帰生成プロセスに直接望ましい振る舞いに影響を及ぼす。 効率を向上させるために,Suffixグラデーションから学習した表現をPrefix Controllerにカプセル化するコンパクトモジュールであるSelf-Control_{prefixを導入し,様々なLLM動作の推論時間制御を容易にする。 実験では、感情変調、無害性の確保、複雑な推論の強化など、複数の領域にまたがる自己制御の有効性を実証した。 特に、Self-Control_{prefix}は、プラグインとプレイの制御を可能にし、複数の属性を共同で制御し、モデルパラメータを変更することなくモデル出力を改善する。

We propose Self-Control, a novel method utilizing suffix gradients to control the behavior of large language models (LLMs) without explicit human annotations. Given a guideline expressed in suffix string and the model's self-assessment of adherence, Self-Control computes the gradient of this self-judgment concerning the model's hidden states, directly influencing the auto-regressive generation process towards desired behaviors. To enhance efficiency, we introduce Self-Control_{prefix}, a compact module that encapsulates the learned representations from suffix gradients into a Prefix Controller, facilitating inference-time control for various LLM behaviors. Our experiments demonstrate Self-Control's efficacy across multiple domains, including emotional modulation, ensuring harmlessness, and enhancing complex reasoning. Especially, Self-Control_{prefix} enables a plug-and-play control and jointly controls multiple attributes, improving model outputs without altering model parameters or increasing inference-time costs.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# Event3DGS: 高速ロボットエゴモーションのためのイベントベース3Dガウススプレイティング

Event3DGS: Event-Based 3D Gaussian Splatting for High-Speed Robot Egomotion ( http://arxiv.org/abs/2406.02972v3 )

ライセンス: Link先を確認
Tianyi Xiong, Jiayi Wu, Botao He, Cornelia Fermuller, Yiannis Aloimonos, Heng Huang, Christopher A. Metzler, (参考訳) 微分可能レンダリングと明示的な点ベースシーン表現を組み合わせることで、3Dガウススプラッティング(3DGS)は画期的な3D再構成能力を実証した。 しかし、これまで3DGSは、高速な移動が広まるロボット工学に限られた影響を与えてきた: Egomotionは動きのぼやけを導入し、既存のフレームベースの3DGS再構築手法の成果物に繋がる。 この課題に対処するために、イベントベースの3DGSフレームワークであるEvent3DGSを紹介します。 イベントカメラの例外的な時間分解能を利用して、Event3GDSは高速なエゴモーションの下で高忠実度3D構造と外観を再構築することができる。 Event3DGSは、計算コストを95%削減しつつ、再構成品質(+3dB)を大幅に改善する。 また, 構造的精度を損なうことなく, 外観の忠実度をより高められるように, フレームベースで数回の動特性測定を再構成プロセスに組み込むことも可能である。

By combining differentiable rendering with explicit point-based scene representations, 3D Gaussian Splatting (3DGS) has demonstrated breakthrough 3D reconstruction capabilities. However, to date 3DGS has had limited impact on robotics, where high-speed egomotion is pervasive: Egomotion introduces motion blur and leads to artifacts in existing frame-based 3DGS reconstruction methods. To address this challenge, we introduce Event3DGS, an {\em event-based} 3DGS framework. By exploiting the exceptional temporal resolution of event cameras, Event3GDS can reconstruct high-fidelity 3D structure and appearance under high-speed egomotion. Extensive experiments on multiple synthetic and real-world datasets demonstrate the superiority of Event3DGS compared with existing event-based dense 3D scene reconstruction frameworks; Event3DGS substantially improves reconstruction quality (+3dB) while reducing computational costs by 95\%. Our framework also allows one to incorporate a few motion-blurred frame-based measurements into the reconstruction process to further improve appearance fidelity without loss of structural accuracy.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# STEMO:多目的強化学習による早期時空間予測

STEMO: Early Spatio-temporal Forecasting with Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2406.04035v3 )

ライセンス: Link先を確認
Wei Shao, Yufan Kang, Ziyan Peng, Xiao Xiao, Lei Wang, Yuhui Yang, Flora D Salim, (参考訳) 正確さとタイムラインは、予測タスクの目標と矛盾することが多い。 早期予測は誤報の頻度が高くなりうるが、より多くの情報を集めるのに遅延予測は役に立たない。 森林火災、犯罪、交通渋滞などの応用において、タイムリーな予測は人命と財産を守るのに不可欠である。 したがって、精度とタイムラインのバランスを見つけることが重要である。 本稿では,多目的強化学習に基づく早期時空間予測モデルを提案する。 モデルは2つの主要な課題に対処する。 1【早期予測の精度の向上】 2 地域ごとに最適な予測時間を決定するための最適な政策を提供する。 提案手法は,3つの大規模実世界のデータセットにおいて,初期時空間予測タスクにおける既存手法よりも優れた性能を示す。

Accuracy and timeliness are indeed often conflicting goals in prediction tasks. Premature predictions may yield a higher rate of false alarms, whereas delaying predictions to gather more information can render them too late to be useful. In applications such as wildfires, crimes, and traffic jams, timely forecasting are vital for safeguarding human life and property. Consequently, finding a balance between accuracy and timeliness is crucial. In this paper, we propose an early spatio-temporal forecasting model based on Multi-Objective reinforcement learning that can either implement an optimal policy given a preference or infer the preference based on a small number of samples. The model addresses two primary challenges: 1) enhancing the accuracy of early forecasting and 2) providing the optimal policy for determining the most suitable prediction time for each area. Our method demonstrates superior performance on three large-scale real-world datasets, surpassing existing methods in early spatio-temporal forecasting tasks.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# フラジイルモデル透かしに関する調査

A Survey of Fragile Model Watermarking ( http://arxiv.org/abs/2406.04809v2 )

ライセンス: Link先を確認
Zhenzhe Gao, Yu Cheng, Zhaoxia Yin, (参考訳) ニューラルネットワークに対する敵の攻撃と従来のマルチメディアの脆弱な透かしの両方から着想を得たモデル脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れ、近年の急速な発展を目撃している。 モデル著作権の特定に広く使われている堅牢な透かしとは異なり、モデルの脆弱な透かしは、バックドア、中毒、圧縮などの予期せぬ変更を受けたかどうかを特定するように設計されている。 これらの変更は、古典的な自動運転シナリオにおける速度制限標識として停止標識を誤識別するなど、モデルユーザーに未知のリスクをもたらす可能性がある。 本稿では, モデル脆性透かしの開始以来の分野における関連研究の概要を概説し, モデル脆性透かしにおける今後の取り組みについて概説する。

Model fragile watermarking, inspired by both the field of adversarial attacks on neural networks and traditional multimedia fragile watermarking, has gradually emerged as a potent tool for detecting tampering, and has witnessed rapid development in recent years. Unlike robust watermarks, which are widely used for identifying model copyrights, fragile watermarks for models are designed to identify whether models have been subjected to unexpected alterations such as backdoors, poisoning, compression, among others. These alterations can pose unknown risks to model users, such as misidentifying stop signs as speed limit signs in classic autonomous driving scenarios. This paper provides an overview of the relevant work in the field of model fragile watermarking since its inception, categorizing them and revealing the developmental trajectory of the field, thus offering a comprehensive survey for future endeavors in model fragile watermarking.
翻訳日:2024-06-20 01:15:43 公開日:2024-06-18
# 一般配電学習 : ディープラーニングの理論的枠組み

General Distribution Learning: A theoretical framework for Deep Learning ( http://arxiv.org/abs/2406.05666v3 )

ライセンス: Link先を確認
Binchuan Qi, Li Li, Wei Gong, (参考訳) 古典的学習理論フレームワークには、深層学習(DL)に関する未解決の研究質問が数多く残されている。 これには、過度にパラメータ化されたニューラルネットワーク(NN)の顕著な一般化機能、目的の非凸性にもかかわらず効率的な最適化性能、一般化のためのフラットミニマのメカニズム、物理的な問題を解決するためのディープアーキテクチャの例外的なパフォーマンスが含まれる。 本稿では、分類、回帰、パラメータ推定を含む、機械学習と統計タスクの包括的範囲に対処するために設計された、新しい理論学習フレームワークであるGeneral Distribution Learning (GD Learning)を紹介する。 従来の統計機械学習とは別に、GD Learningは真の基礎となる分布に焦点を当てている。 GD Learningでは、古典的な統計学習フレームワークにおける予測誤差に対応する学習誤差を、モデルとアルゴリズムによる適合エラーと、限られたサンプリングデータによって導入されたサンプリングエラーに分割する。 このフレームワークは、特にデータ不足を特徴とするシナリオにおいて、事前の知識を著しく取り入れ、パフォーマンスを向上させる。 GD Learningフレームワーク内では、モデルヤコビ行列の固有値の勾配ノルムと不均一性を最小化することにより、非凸最適化における大域的最適解にアプローチできることを実証する。 この知見は勾配構造制御アルゴリズムの開発に繋がる。 GD Learningはまた、オーバーパラメータ化や非凸最適化、バイアス分散トレードオフ、フラットミニマのメカニズムなど、ディープラーニングに関する新たな洞察を提供する。

There remain numerous unanswered research questions on deep learning (DL) within the classical learning theory framework. These include the remarkable generalization capabilities of overparametrized neural networks (NNs), the efficient optimization performance despite non-convexity of objectives, the mechanism of flat minima for generalization, and the exceptional performance of deep architectures in solving physical problems. This paper introduces General Distribution Learning (GD Learning), a novel theoretical learning framework designed to address a comprehensive range of machine learning and statistical tasks, including classification, regression and parameter estimation. Departing from traditional statistical machine learning, GD Learning focuses on the true underlying distribution. In GD Learning, learning error, corresponding to the expected error in classical statistical learning framework, is divided into fitting errors due to models and algorithms, as well as sampling errors introduced by limited sampling data. The framework significantly incorporates prior knowledge, especially in scenarios characterized by data scarcity, thereby enhancing performance. Within the GD Learning framework, we demonstrate that the global optimal solutions in non-convex optimization can be approached by minimizing the gradient norm and the non-uniformity of the eigenvalues of the model's Jacobian matrix. This insight leads to the development of the gradient structure control algorithm. GD Learning also offers fresh insights into the questions on deep learning, including overparameterization and non-convex optimization, bias-variance trade-off, and the mechanism of flat minima.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# 微分可能な量子力学の挑戦

Challenges with Differentiable Quantum Dynamics ( http://arxiv.org/abs/2406.06361v2 )

ライセンス: Link先を確認
Sri Hari Krishna Narayanan, Michael Perlin, Robert Lewis-Swan, Jeffrey Larson, Matt Menickelly, Jan Hückelheim, Paul Hovland, (参考訳) 微分可能な量子力学では、複素数値の初期値問題の自動微分が必要であり、これは特定の初期条件から通常の微分方程式の系と行列の固有分解を数値的に統合する。 これらのタスクに対するいくつかの自動微分フレームワークについて検討し、アプリケーション要件をネイティブにサポートするフレームワークが存在しないことを発見した。 そこで我々は,科学計算ライブラリにおける複雑で微分可能な数値積分の広範なサポートの必要性を実証する。

Differentiable quantum dynamics require automatic differentiation of a complex-valued initial value problem, which numerically integrates a system of ordinary differential equations from a specified initial condition, as well as the eigendecomposition of a matrix. We explored several automatic differentiation frameworks for these tasks, finding that no framework natively supports our application requirements. We therefore demonstrate a need for broader support of complex-valued, differentiable numerical integration in scientific computing libraries.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# 絡み合った光子を用いた背景反射型定量的位相顕微鏡

Background resilient quantitative phase microscopy using entangled photons ( http://arxiv.org/abs/2406.06377v2 )

ライセンス: Link先を確認
Yingwen Zhang, Paul-Antoine Moreau, Duncan England, Ebrahim Karimi, Benjamin Sussman, (参考訳) 本研究では、本質的に背景抵抗性があり、干渉計や走査に依存しない位相勾配法による量子ベースの定量的位相顕微鏡手法を提案する。 ここでは、試料の近距離場(NF)における位置測定のための1つの光子セットアップと遠距離場(FF)における運動量測定のためのパートナーとの両光子により透明な試料を照射する。 これにより、絡み合いに固有の空間相関特性により、光子の位置情報と運動量情報の両方を同時に得ることができる。 次に、試料の位相プロファイルを、各NF位置に対するFF運動量平面における光子'のセントロイドシフトを測定した位相勾配測定により推定する。 この手法は、画像解像度 2.76\,$\mu$m は位相精度が少なくとも$\lambda/30$ であり、位相感度は 810\,nm の波長で $\lambda/100$ であることを示す。 さらに,光子対間の時間的相関により,強い動的背景光に対するレジリエンスを示す。 この研究は、一般に量子位相顕微鏡と量子イメージングの能力において重要な進歩であり、古典的な位相顕微鏡で達成可能なものに近づいた画像と位相分解能を示すものである。 この進歩により、量子イメージングは現実の応用に近づき、この分野における新たな可能性を秘めている。

In this work, we introduce a quantum-based quantitative phase microscopy technique using a phase gradient approach that is inherently background resistant and does not rely on interferometry or scanning. Here, a transparent sample is illuminated by both photons of a position-momentum entangled pair with one photon setup for position measurement in the near-field (NF) of the sample and its partner for momentum measurement in the far-field (FF). By virtue of the spatial correlation property inherent to the entanglement, both the position and momentum information of the photons can thus be obtained simultaneously. The phase profile of the sample is then deduced through a phase gradient measurement obtained by measuring the centroid shift of the photons' in the FF momentum plane for each NF position. We show that the technique, while achieving an imaging resolution of 2.76\,$\mu$m, is phase accurate to at least $\lambda/30$ and phase sensitive to $\lambda/100$ at a wavelength of 810\,nm. In addition, through the temporal correlation between the photon pairs, our technique shows resilience to strong dynamic background lights, which can prove difficult to account for in classical phase imaging techniques. We believe this work marks a significant advancement in the capabilities of quantum phase microscopy and quantum imaging in general, it showcases imaging and phase resolutions approaching those attainable with classical phase microscopes. This advancement brings quantum imaging closer to practical real-world applications, heralding new possibilities in the field.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# OccamLLM: 高速かつエクササイズな言語モデル

OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step ( http://arxiv.org/abs/2406.06576v2 )

ライセンス: Link先を確認
Owen Dugan, Donato Manuel Jimenez Beneto, Charlotte Loh, Zhuo Chen, Rumen Dangovski, Marin Soljačić, (参考訳) テキスト生成と推論の大幅な進歩にもかかわらず、Large Language Models (LLM) は複雑な算術演算を正確に実行する際の課題に直面している。 正確な計算を実現するために、言語モデルシステムはしばしばLLMが算術演算のためのコードを生成することができる。 しかし、このアプローチはスピードとセキュリティを損なうため、微調整が関与すれば、言語モデルが以前の能力を失うリスクがある。 本稿では,より高速で,よりセキュアで,より解釈可能なLLMシステムを実現するためのフレームワークを提案する。 我々は,LLMの隠れ状態を用いて,演算を行う記号的アーキテクチャを制御する。 シンボリックモデル(OccamLlama)としてOccamNetを用いたLlama 3 8Bのインストラクションは、単一の算術演算(+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$)で100\%の精度を実現し、GPT 4oを上回り、コードインタプリタを使用してGPT 4oと同等の精度を実現した。 OccamLlamaは、計算に挑戦するベンチマークを含む数学的な問題を解くためのコードインタプリタでGPT 4oより優れており、小さなLLMはより大きなモデルの算術的性能に匹敵する。 私たちはすぐにコードを公開します。

Despite significant advancements in text generation and reasoning, Large Language Models (LLMs) still face challenges in accurately performing complex arithmetic operations. To achieve accurate calculations, language model systems often enable LLMs to generate code for arithmetic operations. However, this approach compromises speed and security and, if finetuning is involved, risks the language model losing prior capabilities. We propose a framework that enables exact arithmetic in \textit{a single autoregressive step}, providing faster, more secure, and more interpretable LLM systems with arithmetic capabilities. We use the hidden states of an LLM to control a symbolic architecture which performs arithmetic. Our implementation using Llama 3 8B Instruct with OccamNet as a symbolic model (OccamLlama) achieves 100\% accuracy on single arithmetic operations ($+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$), outperforming GPT 4o and on par with GPT 4o using a code interpreter. OccamLlama also outperforms GPT 4o both with and without a code interpreter on mathematical problem solving benchmarks involving challenging arithmetic, thus enabling small LLMs to match the arithmetic performance of even much larger models. We will make our code public shortly.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# OPFData:位相摂動を伴う交流最適潮流のための大規模データセット

OPFData: Large-scale datasets for AC optimal power flow with topological perturbations ( http://arxiv.org/abs/2406.07234v2 )

ライセンス: Link先を確認
Sean Lovett, Miha Zgubic, Sofia Liguori, Sephora Madjiheurem, Hamish Tomlinson, Sophie Elster, Chris Apps, Sims Witherspoon, Luis Piloto, (参考訳) AC最適電力フロー問題(AC-OPF)の解決は、電力グリッドの効率的かつ安全な計画と運用に不可欠である。 この領域での小さな効率の改善は、数十億ドルのコスト削減と化石燃料発生器からの排出の大幅な削減につながる可能性がある。 AC-OPFのデータ駆動型解法に関する最近の研究は、従来の解法に比べて大きな速度改善の可能性を示しているが、この問題に対する大規模なオープンデータセットは存在しない。 我々は現在までに解決されたAC-OPF問題の最も手軽に利用できるコレクションを提示する。 このコレクションは、既存の利用可能なデータセットよりも桁違い大きく、高容量のデータ駆動モデルのトレーニングを可能にする。 トポロジ的摂動(トポロジ的摂動、トポロジ的摂動、トポロジ的摂動、トポロジ的摂動、トポロジ的摂動、トポロジ的摂動(トポロジ的摂動、トポロジ的摂動)を含む。 このリソースがコミュニティを刺激し、様々なトポロジを持つより大きなグリッドサイズに研究を拡大することを願っている。

Solving the AC optimal power flow problem (AC-OPF) is critical to the efficient and safe planning and operation of power grids. Small efficiency improvements in this domain have the potential to lead to billions of dollars of cost savings, and significant reductions in emissions from fossil fuel generators. Recent work on data-driven solution methods for AC-OPF shows the potential for large speed improvements compared to traditional solvers; however, no large-scale open datasets for this problem exist. We present the largest readily-available collection of solved AC-OPF problems to date. This collection is orders of magnitude larger than existing readily-available datasets, allowing training of high-capacity data-driven models. Uniquely, it includes topological perturbations - a critical requirement for usage in realistic power grid operations. We hope this resource will spur the community to scale research to larger grid sizes with variable topology.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# MBBQ: 生成LDMにおけるステレオタイプ間比較用データセット

MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs ( http://arxiv.org/abs/2406.07243v2 )

ライセンス: Link先を確認
Vera Neplenbroek, Arianna Bisazza, Raquel Fernández, (参考訳) 生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。 安全性の微調整は通常英語で行われているが、少なくともこれらのモデルは様々な言語の話者によって使用されている。 これらのモデルの性能は言語間で矛盾しておらず、ユーザの人口統計学的要因に基づいて識別されているという証拠は存在する。 そこで我々は, LLMが提示する社会的ステレオタイプが, 文化的差異やタスク精度を制御しつつ, それらを促進するために使用する言語の機能として異なるか否かを考察した。 MBBQ(Multilingual Bias Benchmark for Question-Awering)は、オランダ語、スペイン語、トルコ語に拡張された英語のBBQデータセットを慎重にキュレートしたバージョンで、これらの言語に共通するステレオタイプを測定する。 さらにMBBQを並列制御データセットで補完し、偏りによらず質問応答タスクにおけるタスク性能を計測する。 いくつかのオープンソースおよびプロプライエタリなLCMをベースとした研究結果から,一部の非英語言語は,文化的な変化を抑えつつも,英語よりも偏見に悩まされていることが確認された。 さらに、最も正確なモデルを除いて、バイアス行動の言語間差が顕著に観察される。 MBBQのリリースにより、多言語環境におけるバイアスのさらなる研究が望まれる。 データセットとコードはhttps://github.com/Veranep/MBBQ.comで公開されている。

Generative large language models (LLMs) have been shown to exhibit harmful biases and stereotypes. While safety fine-tuning typically takes place in English, if at all, these models are being used by speakers of many different languages. There is existing evidence that the performance of these models is inconsistent across languages and that they discriminate based on demographic factors of the user. Motivated by this, we investigate whether the social stereotypes exhibited by LLMs differ as a function of the language used to prompt them, while controlling for cultural differences and task accuracy. To this end, we present MBBQ (Multilingual Bias Benchmark for Question-answering), a carefully curated version of the English BBQ dataset extended to Dutch, Spanish, and Turkish, which measures stereotypes commonly held across these languages. We further complement MBBQ with a parallel control dataset to measure task performance on the question-answering task independently of bias. Our results based on several open-source and proprietary LLMs confirm that some non-English languages suffer from bias more than English, even when controlling for cultural shifts. Moreover, we observe significant cross-lingual differences in bias behaviour for all except the most accurate models. With the release of MBBQ, we hope to encourage further research on bias in multilingual settings. The dataset and code are available at https://github.com/Veranep/MBBQ.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# DeformTime: 時系列予測のための変形性アテンションによる可変依存性のキャプチャ

DeformTime: Capturing Variable Dependencies with Deformable Attention for Time Series Forecasting ( http://arxiv.org/abs/2406.07438v2 )

ライセンス: Link先を確認
Yuxuan Shu, Vasileios Lampos, (参考訳) 多変量時系列(MTS)予測では、既存の最先端のディープラーニングアプローチは自己回帰的な定式化に集中し、外因性指標内の情報を見渡す傾向にある。 この制限に対処するため,入力空間から相関時間パターンを捕捉し,予測精度を向上させるニューラルネットワークアーキテクチャであるDeformTimeを提案する。 変形可能なアテンションブロック(DAB)によって実行される2つのコア操作をデプロイする。異なるタイムステップ(可変DAB)から変数間の依存関係を学習し、前のタイムステップ(テンポラリDAB)からのデータに時間的依存関係を保存する。 入力データ変換は、DABを通過しながら、変形した一連の情報からの学習を強化するように設計されている。 これまでに確立されたベンチマークを用いて,6つのMTSデータセットに関する広範な実験を行い,外来変数を用いた感染症モデリング課題に挑戦する。 その結果,DeformTimeはMSS予測タスクの大部分にわたる従来の競合手法と比較して精度を向上し,平均絶対誤差を平均10%削減することを示した。 特に、パフォーマンスの向上は、より長い予測の地平線にわたって一貫しています。

In multivariate time series (MTS) forecasting, existing state-of-the-art deep learning approaches tend to focus on autoregressive formulations and overlook the information within exogenous indicators. To address this limitation, we present DeformTime, a neural network architecture that attempts to capture correlated temporal patterns from the input space, and hence, improve forecasting accuracy. It deploys two core operations performed by deformable attention blocks (DABs): learning dependencies across variables from different time steps (variable DAB), and preserving temporal dependencies in data from previous time steps (temporal DAB). Input data transformation is explicitly designed to enhance learning from the deformed series of information while passing through a DAB. We conduct extensive experiments on 6 MTS data sets, using previously established benchmarks as well as challenging infectious disease modelling tasks with more exogenous variables. The results demonstrate that DeformTime improves accuracy against previous competitive methods across the vast majority of MTS forecasting tasks, reducing the mean absolute error by 10% on average. Notably, performance gains remain consistent across longer forecasting horizons.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# MAP: 擬似近似によるアモータイズされたパレートフロントとの低計算モデル融合

MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation ( http://arxiv.org/abs/2406.07529v2 )

ライセンス: Link先を確認
Lu Li, Tianyu Zhang, Zhiqi Bu, Suyuchen Wang, Huan He, Jie Fu, Yonghui Wu, Jiang Bian, Yong Chen, Yoshua Bengio, (参考訳) モデルマージは、同じトレーニング済みモデルから微調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチとして登場した。 このプロセスは通常、追加のトレーニングなしでモデルのパラメータの重み付け平均を計算する。 既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。 しかしながら、異なるタスクの目的間の干渉と矛盾は、モデルマージ時のトレードオフにつながる可能性がある。 現実世界のアプリケーションでは、さまざまなトレードオフを伴う一連のソリューションがより有益なものになり、実践者がさまざまな好みに基づいて意思決定するのに役立つ。 本稿では,新しい低計算アルゴリズムであるモデルマージングとアモータライズされたパレートフロント(MAP)を提案する。 MAPは、複数のモデルをマージしてトレードオフを反映するためのParetoのスケーリング係数のセットを特定する。 MAPのコアコンポーネントは、事前選択されたスケーリング係数の集合から導かれる二次近似代理モデルを用いて、様々なタスクの評価指標を近似し、償却推論を可能にすることである。 視覚および自然言語処理タスクの実験結果は、MAPがパレートフロントを正確に識別できることを示している。 さらにMAPの計算量を削減するために,(1)ベイズ適応型サンプリングアルゴリズムを提案し,(2)複数段階のネスト型マージ方式を提案する。

Model merging has emerged as an effective approach to combine multiple single-task models, fine-tuned from the same pre-trained model, into a multitask model. This process typically involves computing a weighted average of the model parameters without any additional training. Existing model-merging methods focus on enhancing average task accuracy. However, interference and conflicts between the objectives of different tasks can lead to trade-offs during model merging. In real-world applications, a set of solutions with various trade-offs can be more informative, helping practitioners make decisions based on diverse preferences. In this paper, we introduce a novel low-compute algorithm, Model Merging with Amortized Pareto Front (MAP). MAP identifies a Pareto set of scaling coefficients for merging multiple models to reflect the trade-offs. The core component of MAP is approximating the evaluation metrics of the various tasks using a quadratic approximation surrogate model derived from a pre-selected set of scaling coefficients, enabling amortized inference. Experimental results on vision and natural language processing tasks show that MAP can accurately identify the Pareto front. To further reduce the required computation of MAP, we propose (1) a Bayesian adaptive sampling algorithm and (2) a nested merging scheme with multiple stages.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# 量子コンピューティングのための最適化QUBO定式化法

Optimized QUBO formulation methods for quantum computing ( http://arxiv.org/abs/2406.07681v2 )

ライセンス: Link先を確認
Dario De Santis, Salvatore Tirone, Stefano Marmi, Vittorio Giovannetti, (参考訳) NISQデバイスでは、対応する2次非制約バイナリ最適化(QUBO)形式が導出されると、いくつかの組合せ最適化問題を解くことができる。 本研究の目的は、これらのQUBO改革に必要な変数を劇的に削減し、NISQ機器の最適化問題に対する最適解を効率よく得られるようにすることである。 これは、スラック変数の効率的な使用を可能にする新しいツールを導入することで実現される。 我々は,新しい手法を2つの独立部分,すなわち反復二次多項式とマスター・サテライト法に分割する。 そこで,本手法をNPハード最適化問題に応用する方法を,Max-Profit Balance Settlementと呼ばれる現実の金融シナリオにインスパイアされた場合に適用する方法を示す。 2つのD波量子異方体にこの問題のいくつかの事例を提出し、これらのシナリオで使用される標準手法と新しい手法の性能を比較した。 さらに、本研究では、D波アドバンテージとAdvantage2量子アニールのいくつかの性能差を評価できる。

Several combinatorial optimization problems can be solved with NISQ devices once that a corresponding quadratic unconstrained binary optimization (QUBO) form is derived. The aim of this work is to drastically reduce the variables needed for these QUBO reformulations in order to unlock the possibility to efficiently obtain optimal solutions for a class of optimization problems with NISQ devices. This is achieved by introducing novel tools that allow an efficient use of slack variables, even for problems with non-linear constraints, without the need to approximate the starting problem. We divide our new techniques in two independent parts, called the iterative quadratic polynomial and the master-satellite methods. Hence, we show how to apply our techniques in case of an NP-hard optimization problem inspired by a real-world financial scenario called Max-Profit Balance Settlement. We follow by submitting several instances of this problem to two D-wave quantum annealers, comparing the performances of our novel approach with the standard methods used in these scenarios. Moreover, this study allows to appreciate several performance differences between the D-wave Advantage and Advantage2 quantum annealers.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# 変換器を用いた視覚エンコーダにおける表現はどの程度構造化されているか? 視覚言語モデルにおける多目的表現の分析

How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models ( http://arxiv.org/abs/2406.09067v2 )

ライセンス: Link先を確認
Tarun Khajuria, Braian Olmiro Dias, Jaan Aru, (参考訳) 記号のような構造表現を推論に用いたり、用いたりすることは、新しい入力を一般化するのに不可欠であると考えられている。 トレーニングデータ配布外の一般化を可能にする主要なツールは、無関係な情報をタスクに関連するコンパクトな形式に抽象化する能力である。 そのような抽象表現の極端な形は記号である。 人間は、情報を一貫して有意義に活用するために無関係な部分を抽象化しながら、情報をバインドするためにシンボルを利用する。 この研究は、視覚エンコーダにおけるそのような構造化された表現の状態を推定する。 具体的には,LLMに記述された記号的構造的推論の基準を画像モデルに適用することにより,視覚言語による事前学習モデルにおける画像エンコーダの評価を行い,どの表現に望ましい特性が欠けているかという問題に対処する。 VIT,BLIP,CLIP,FLAVAなどの画像エンコーダの表現空間を検証し,これらのモデルにおけるオブジェクト表現の分布を特徴付ける。 特に,COCOデータセットから多目的シーンを用いてデコードタスクを作成し,トークン空間をシーン内のさまざまなオブジェクトの入力内容に関連付ける。 これらのタスクを使用して、ネットワークのトークンとレイヤワイド情報モデリングを特徴付ける。 我々の分析では、ダウンストリームタスクに使用されるCLSトークンは、トレーニングされたダウンストリームタスクに必要ないくつかのオブジェクトのみに焦点を当てている。 それでも、他の個々のオブジェクトは、それらのオブジェクトから派生したネットワーク内のトークンによって、別々にモデル化されている。 さらに,シーン情報の広範分布も観察した。 これは、情報はシンボルに似たオブジェクトを表現するのに最適なものよりもトークンでずっと絡み合っていることを示している。 これらのシンボル特性を考慮に入れれば、マルチオブジェクトシーンにおける基本的な下流タスクにおいて、これらのモデルの障害モードを引き起こすネットワークダイナミクスを示す。

Forming and using symbol-like structured representations for reasoning has been considered essential for generalising over novel inputs. The primary tool that allows generalisation outside training data distribution is the ability to abstract away irrelevant information into a compact form relevant to the task. An extreme form of such abstract representations is symbols. Humans make use of symbols to bind information while abstracting away irrelevant parts to utilise the information consistently and meaningfully. This work estimates the state of such structured representations in vision encoders. Specifically, we evaluate image encoders in large vision-language pre-trained models to address the question of which desirable properties their representations lack by applying the criteria of symbolic structured reasoning described for LLMs to the image models. We test the representation space of image encoders like VIT, BLIP, CLIP, and FLAVA to characterise the distribution of the object representations in these models. In particular, we create decoding tasks using multi-object scenes from the COCO dataset, relating the token space to its input content for various objects in the scene. We use these tasks to characterise the network's token and layer-wise information modelling. Our analysis highlights that the CLS token, used for the downstream task, only focuses on a few objects necessary for the trained downstream task. Still, other individual objects are well-modelled separately by the tokens in the network originating from those objects. We further observed a widespread distribution of scene information. This demonstrates that information is far more entangled in tokens than optimal for representing objects similar to symbols. Given these symbolic properties, we show the network dynamics that cause failure modes of these models on basic downstream tasks in a multi-object scene.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# 統計力学と機械学習理論の等価枠組みにおける代数研究の展望と展望

Review and Prospect of Algebraic Research in Equivalent Framework between Statistical Mechanics and Machine Learning Theory ( http://arxiv.org/abs/2406.10234v2 )

ライセンス: Link先を確認
Sumio Watanabe, (参考訳) 統計力学と機械学習理論の数学的等価性は20世紀から知られており、そのような等価性に基づく研究は、理論物理学と統計学習理論の両方に新しい方法論を提供してきた。 例えば、作用素代数のような統計力学における代数的アプローチは、相転移現象を数学的に解析することができる。 本稿では,人工知能に興味を持つ理論物理学者に対して,機械学習理論における代数的研究をレビューし,展望する。 学習機械が階層構造や潜伏変数を持つなら、ランダムハミルトン群は特異点を持つので二次摂動で表すことはできない。 そのような特異なランダムハミルトニアンによって定義される平衡状態を研究するためには、代数的アプローチは自由エネルギーの漸近形式と一般化誤差を導出する必要がある。 また、最近の進歩として、人工知能のアライメントに関する理論的基礎が代数的学習理論に基づいて構築されていることも紹介する。 この論文は、統計力学と場の量子論の両方において代数研究の先駆者であるアラキ・フジヒロ教授の記憶に捧げられている。

Mathematical equivalence between statistical mechanics and machine learning theory has been known since the 20th century, and researches based on such equivalence have provided novel methodology in both theoretical physics and statistical learning theory. For example, algebraic approach in statistical mechanics such as operator algebra enables us to analyze phase transition phenomena mathematically. In this paper, for theoretical physicists who are interested in artificial intelligence, we review and prospect algebraic researches in machine learning theory. If a learning machine has hierarchical structure or latent variables, then the random Hamiltonian cannot be expressed by any quadratic perturbation because it has singularities. To study an equilibrium state defined by such a singular random Hamiltonian, algebraic approach is necessary to derive asymptotic form of the free energy and the generalization error. We also introduce the most recent advance, in fact, theoretical foundation for alignment of artificial intelligence is now being constructed based on algebraic learning theory. This paper is devoted to the memory of Professor Huzihiro Araki who is a pioneer founder of algebraic research in both statistical mechanics and quantum field theory.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# AutoSurvey: 大きな言語モデルでサーベイを自動書ける

AutoSurvey: Large Language Models Can Automatically Write Surveys ( http://arxiv.org/abs/2406.10252v2 )

ライセンス: Link先を確認
Yidong Wang, Qi Guo, Wenjin Yao, Hongbo Zhang, Xin Zhang, Zhen Wu, Meishan Zhang, Xinyu Dai, Min Zhang, Qingsong Wen, Wei Ye, Shikun Zhang, Yue Zhang, (参考訳) 本稿では,人工知能などの急速に発展する分野において,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。 従来のサーベイペーパー作成は、情報の量と複雑さのために課題に直面しており、効率的なサーベイ方法の必要性が高まっている。 大規模言語モデル(LLM)はこのプロセスの自動化を約束する一方で、コンテキストウィンドウの制限、パラメトリックな知識制約、評価ベンチマークの欠如といった課題が残っている。 AutoSurveyは、初期検索とアウトライン生成、特殊なLLMによるサブセクションドラフト、統合と改善、厳密な評価とイテレーションを含む体系的なアプローチを通じて、これらの課題に対処する。 我々の貢献には、調査問題に対する包括的なソリューション、信頼性評価方法、AutoSurveyの有効性を示す実験的な検証が含まれています。

This paper introduces AutoSurvey, a speedy and well-organized methodology for automating the creation of comprehensive literature surveys in rapidly evolving fields like artificial intelligence. Traditional survey paper creation faces challenges due to the vast volume and complexity of information, prompting the need for efficient survey methods. While large language models (LLMs) offer promise in automating this process, challenges such as context window limitations, parametric knowledge constraints, and the lack of evaluation benchmarks remain. AutoSurvey addresses these challenges through a systematic approach that involves initial retrieval and outline generation, subsection drafting by specialized LLMs, integration and refinement, and rigorous evaluation and iteration. Our contributions include a comprehensive solution to the survey problem, a reliable evaluation method, and experimental validation demonstrating AutoSurvey's effectiveness.We open our resources at \url{https://github.com/AutoSurveys/AutoSurvey}.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# 等価AIのための大域的視点を用いた接地合成データのキュレーション

Curating Grounded Synthetic Data with Global Perspectives for Equitable AI ( http://arxiv.org/abs/2406.10258v2 )

ライセンス: Link先を確認
Elin Törnquist, Robert Alexander Caulk, (参考訳) 堅牢なAIモデルの開発は、利用可能なトレーニングデータの質と多様性に大きく依存している。 データ不足が一般的である分野において、合成データ生成は重要なソリューションを提供する。 本稿では,実世界の多様性を基盤として,戦略的多様化を通じて充実した合成データセットを作成するための新しいアプローチを提案する。 我々は12の言語と125の国にまたがる包括的なニュース記事の集合を用いてデータを合成し、言語的・文化的表現の広さを確実にする。 強制されたトピックの多様化、翻訳、要約を通じて、得られたデータセットは現実世界の複雑さを正確に反映し、従来のデータセットにおける表現不足の問題に対処する。 名前付きエンティティ認識(NER)に最初に適用されるこの方法論は、データの多様化が一般化可能性に不可欠である多くのAI分野のモデルとして機能する。 予備的な結果は、従来のNERベンチマークの性能を最大7.3%向上させ、グローバルなデータソースの豊かで多様なニュアンスを模倣する合成データの有効性を強調した。 本稿では,多種多様なデータセットを合成するための戦略を概説し,NERのためのキュレートされたデータセットを提供する。

The development of robust AI models relies heavily on the quality and variety of training data available. In fields where data scarcity is prevalent, synthetic data generation offers a vital solution. In this paper, we introduce a novel approach to creating synthetic datasets, grounded in real-world diversity and enriched through strategic diversification. We synthesize data using a comprehensive collection of news articles spanning 12 languages and originating from 125 countries, to ensure a breadth of linguistic and cultural representations. Through enforced topic diversification, translation, and summarization, the resulting dataset accurately mirrors real-world complexities and addresses the issue of underrepresentation in traditional datasets. This methodology, applied initially to Named Entity Recognition (NER), serves as a model for numerous AI disciplines where data diversification is critical for generalizability. Preliminary results demonstrate substantial improvements in performance on traditional NER benchmarks, by up to 7.3%, highlighting the effectiveness of our synthetic data in mimicking the rich, varied nuances of global data sources. This paper outlines the strategies employed for synthesizing diverse datasets and provides such a curated dataset for NER.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# 中国語と英語におけるコネクテッド音声に基づく認知評価

Connected Speech-Based Cognitive Assessment in Chinese and English ( http://arxiv.org/abs/2406.10272v2 )

ライセンス: Link先を確認
Saturnino Luz, Sofia De La Fuente Garcia, Fasih Haider, Davida Fromm, Brian MacWhinney, Alyssa Lanzi, Ya-Ning Chang, Chia-Ju Chou, Yi-Chien Liu, (参考訳) 本稿では,コネクテッド音声の分析による認知機能評価のための新しいベンチマークデータセットと予測タスクを提案する。 このデータセットは、中国語と英語の話者の音声サンプルと臨床情報からなり、認知障害のレベルが異なる。 これらのデータは、モデルトレーニングにおけるバランスと表現力を確保するために、確率スコア分析によって年齢と性別によって慎重に一致している。 予測タスクは、軽度の認知障害診断と認知テストスコア予測を含む。 このフレームワークは、言語にまたがって一般化する音声に基づく認知評価手法の開発を促進するために設計された。 本稿では,言語に依存しない,同等の機能を備えたベースライン予測モデルを用いて,診断と認知テストスコア予測を行う。 非重みのない平均リコールは59.2%、根平均2乗誤差は2.89である。

We present a novel benchmark dataset and prediction tasks for investigating approaches to assess cognitive function through analysis of connected speech. The dataset consists of speech samples and clinical information for speakers of Mandarin Chinese and English with different levels of cognitive impairment as well as individuals with normal cognition. These data have been carefully matched by age and sex by propensity score analysis to ensure balance and representativity in model training. The prediction tasks encompass mild cognitive impairment diagnosis and cognitive test score prediction. This framework was designed to encourage the development of approaches to speech-based cognitive assessment which generalise across languages. We illustrate it by presenting baseline prediction models that employ language-agnostic and comparable features for diagnosis and cognitive test score prediction. The models achieved unweighted average recall was 59.2% in diagnosis, and root mean squared error of 2.89 in score prediction.
翻訳日:2024-06-20 01:05:59 公開日:2024-06-18
# LLMは因果推論で誤認しがち

LLMs Are Prone to Fallacies in Causal Inference ( http://arxiv.org/abs/2406.12158v1 )

ライセンス: Link先を確認
Nitish Joshi, Abulhair Saparov, Yixin Wang, He He, (参考訳) 最近の研究は、因果的事実を LLM から効果的に抽出できることを示し、因果的推論タスクのための因果的グラフの作成を容易にする。 しかし、この成功がモデルが記憶できる事前学習データにおいて、明示的に記述された因果事実に限られているかどうかは不明である。 LLMはテキスト内の他の関係データから因果関係を推測できるのか? 因果関係における記憶的因果関係と推定的因果関係を関連づけるために, 時間的・空間的・反事実関係を含む合成データにLLMを微調整し, 因果関係を推測できるかどうかを測定する。 以下に示す。 (a) LLM は、テキスト中の2つの実体の言及の順序から因果関係を推測することができる(例えば、Y の前に述べた X が X の原因 Y である)。 b) 順序がランダム化されている場合、LLMは依然としてポストホックの誤認に悩まされ、すなわち、X が Y を引き起こす前に生じる X は X を引き起こすことを示唆する。

Recent work shows that causal facts can be effectively extracted from LLMs through prompting, facilitating the creation of causal graphs for causal inference tasks. However, it is unclear if this success is limited to explicitly-mentioned causal facts in the pretraining data which the model can memorize. Thus, this work investigates: Can LLMs infer causal relations from other relational data in text? To disentangle the role of memorized causal facts vs inferred causal relations, we finetune LLMs on synthetic data containing temporal, spatial and counterfactual relations, and measure whether the LLM can then infer causal relations. We find that: (a) LLMs are susceptible to inferring causal relations from the order of two entity mentions in text (e.g. X mentioned before Y implies X causes Y); (b) if the order is randomized, LLMs still suffer from the post hoc fallacy, i.e. X occurs before Y (temporal relation) implies X causes Y. We also find that while LLMs can correctly deduce the absence of causal relations from temporal and spatial relations, they have difficulty inferring causal relations from counterfactuals, questioning their understanding of causality.
翻訳日:2024-06-19 23:28:06 公開日:2024-06-18
# 変圧器の潜時空間形状が下流作業性能に及ぼす影響について

Exploring the Impact of a Transformer's Latent Space Geometry on Downstream Task Performance ( http://arxiv.org/abs/2406.12159v1 )

ライセンス: Link先を確認
Anna C. Marbut, John W. Chandler, Travis J. Wheeler, (参考訳) トランスフォーマーに基づく大規模言語モデルは、微調整中に特定のタスクに集中できる汎用言語知識を学習することで、事前学習の恩恵を受けると考えられている。 しかし, 事前学習の利点の多くは, 特定の言語知識から逸脱した潜在空間表現の幾何学的特徴によって捉えられる可能性が示唆された。 本研究では、GLUEベンチマークタスク性能とBERT型文脈言語モデルによる潜在空間に適用される様々な尺度との関係について検討する。 本論文では, セル密度の定量化と平均GLUE性能の相関関係が強く, 非標準BERTモデルにおけるGLUE性能を予測できる可能性が示唆された。 これらの結果は、モデルの潜在空間の幾何学的特性からモデル初期化を知ることができる事前学習要求を減少させる戦略を示唆しているかもしれない。

It is generally thought that transformer-based large language models benefit from pre-training by learning generic linguistic knowledge that can be focused on a specific task during fine-tuning. However, we propose that much of the benefit from pre-training may be captured by geometric characteristics of the latent space representations, divorced from any specific linguistic knowledge. In this work we explore the relationship between GLUE benchmarking task performance and a variety of measures applied to the latent space resulting from BERT-type contextual language models. We find that there is a strong linear relationship between a measure of quantized cell density and average GLUE performance and that these measures may be predictive of otherwise surprising GLUE performance for several non-standard BERT-type models from the literature. These results may be suggestive of a strategy for decreasing pre-training requirements, wherein model initialization can be informed by the geometric characteristics of the model's latent space.
翻訳日:2024-06-19 23:28:06 公開日:2024-06-18
# ブロック循環符号と分散システムへの応用

Block Circulant Codes with Application to Decentralized Systems ( http://arxiv.org/abs/2406.12160v1 )

ライセンス: Link先を確認
Birenjith Sasidharan, Emanuele Viterbo, Son Hoang Dau, (参考訳) 線形符号の符号付き記号間の線形依存関係の構造は、関係する特定の係数に関係なく、符号の {\em topology} と呼ばれる。 係数の仕様はトポロジーの {\em instantiation} と呼ばれる。 本稿では,新しいブロック循環トポロジーである$T_{[\mu,\lambda,\omega]}(\rho)$を整数でパラメータ化し,$\rho \geq 2$,$\omega \geq 1$,$\lambda \geq 2$,$\mu$ a multiple of $\lambda$を提案する。 このトポロジーにおいて、コードは$\mu$ローカルコードを持ち、$\rho$ parity-check (p-c) 制約を持ち、合計$\mu\rho$ p-c 方程式はコードを完全に定義している。 次に、ブロックサーキュラント(BC)コードのクラスを構成する。 ${\cal C}_{\text{BC}}[\mu,\lambda,\omega,\rho]$ with blocklength $n=\mu(\rho+\omega)$, dimension $k=\mu\omega$ that instantiate $T_{[\mu,\lambda,\omega]}(\rho)$。 ローカルコードはすべて${\cal C}_{\text{BC}}[\mu,\lambda,\omega,\rho]$は$[\rho+\lambda\omega,\lambda\omega,\rho+1]$ Generalized Reed-Solomon (RS)コードです。 ローカルコードのサポート間のオーバーラップは、レートに多くの妥協を加えることなく、最小距離$\rho+1$から$2\rho+1$に拡張するのに役立ちます。 効率よく並列化可能なデコードアルゴリズムを提供し、$\lambda=2$のときに2$\rho$消去を補正する。 最後に、BCコードはブロックチェーンネットワークのデータ可用性(DA)問題に対処するために設計されたプロトコルにおいて、2D RSコードに代わる実行可能な代替手段として機能することを示す。 これらのプロトコルでは、光ノードのネットワーク内の各ノードは、全ノードに格納されたコードワードからランダムにシンボルをクエリし、暗号的なコミットメントスキームを用いて検証する。 DA問題に対処するのと同じパフォーマンスのために、BCコードは固定レートで同等の2D RSコードよりも少ない数のシンボルをクエリする必要がある。 さらに、BCコード内のローカルコードの数は典型的には小さく、コミットメントスキームを実現する複雑さが減少する。

The structure of linear dependence relations between coded symbols of a linear code, irrespective of specific coefficients involved, is referred to as the {\em topology} of the code. The specification of coefficients is referred to as an {\em instantiation} of the topology. In this paper, we propose a new block circulant topology $T_{[\mu,\lambda,\omega]}(\rho)$ parameterized by integers $\rho \geq 2$, $\omega \geq 1$, $\lambda \geq 2$, and $\mu$ a multiple of $\lambda$. In this topology, the code has $\mu$ local codes with $\rho$ parity-check (p-c) constraints and a total of $\mu\rho$ p-c equations fully define the code. Next, we construct a class of block circulant (BC) codes ${\cal C}_{\text{BC}}[\mu,\lambda,\omega,\rho]$ with blocklength $n=\mu(\rho+\omega)$, dimension $k=\mu\omega$ that instantiate $T_{[\mu,\lambda,\omega]}(\rho)$. Every local code of ${\cal C}_{\text{BC}}[\mu,\lambda,\omega,\rho]$ is a $[\rho+\lambda\omega,\lambda\omega,\rho+1]$ generalized Reed-Solomon (RS) code. The overlap between supports of local codes helps to enhance the minimum distance $\rho+1$ to $2\rho+1$, without compromising much on the rate. We provide an efficient, parallelizable decoding algorithm to correct $2\rho$ erasures when $\lambda=2$. Finally, we illustrate that the BC codes serve as a viable alternative to 2D RS codes in protocols designed to tackle blockchain networks' data availability (DA) problem. In these protocols, every node in a network of light nodes randomly queries symbols from a codeword stored in full nodes and verifies them using a cryptographic commitment scheme. For the same performance in tackling the DA problem, the BC code requires querying a smaller number of symbols than a comparable 2D RS code for a fixed high rate. Furthermore, the number of local codes in the BC code is typically smaller, yielding a reduction in the complexity of realizing the commitment scheme.
翻訳日:2024-06-19 23:28:06 公開日:2024-06-18
# 画像に基づく性的虐待に対するヘルプ検索とソーシャルメディア上でのヘルプ学習の理解

Understanding Help-Seeking and Help-Giving on Social Media for Image-Based Sexual Abuse ( http://arxiv.org/abs/2406.12161v1 )

ライセンス: Link先を確認
Miranda Wei, Sunny Consolvo, Patrick Gage Kelley, Tadayoshi Kohno, Tara Matthews, Sarah Meiklejohn, Franziska Roesner, Renee Shelby, Kurt Thomas, Rebecca Umbach, (参考訳) 画像ベースの性的虐待(IBSA)は、他のテクノロジーに精通した虐待と同様に、人々のデジタル安全に対する脅威が増大している。 攻撃には、性的露骨なイメージに対する望ましくない勧誘、イメージをリークする恐れのある人々をゆがめること、復讐や統制を行うために意図的に画像をリークすることなどが含まれる。 本稿では,ソーシャルメディア上でのIBSA支援の取り組みと支援について考察する。 具体的には、IBSAに関連する支援のために、関係やアドバイスのコミュニティに携わるRedditの投稿10万件以上を特定します。 性別のマッピング,関係ダイナミクス,テクノロジの関与など,さまざまなタイプのIBSAがどのように展開するかを定性的に検討するため,261のポストの成層化サンプルを作成した。 また、IBSAを経験する被害者生存者のサポートニーズや、技術的、感情的、関係的なアドバイスを通じて被害者生存者への虐待をどうナビゲートするかについても検討する。 最後に、誰が助けを求めるかに関わらず、被害者の生き残りと重要なケアを結びつけるための社会技術的ギャップを強調した。

Image-based sexual abuse (IBSA), like other forms of technology-facilitated abuse, is a growing threat to people's digital safety. Attacks include unwanted solicitations for sexually explicit images, extorting people under threat of leaking their images, or purposefully leaking images to enact revenge or exert control. In this paper, we explore how people seek and receive help for IBSA on social media. Specifically, we identify over 100,000 Reddit posts that engage relationship and advice communities for help related to IBSA. We draw on a stratified sample of 261 posts to qualitatively examine how various types of IBSA unfold, including the mapping of gender, relationship dynamics, and technology involvement to different types of IBSA. We also explore the support needs of victim-survivors experiencing IBSA and how communities help victim-survivors navigate their abuse through technical, emotional, and relationship advice. Finally, we highlight sociotechnical gaps in connecting victim-survivors with important care, regardless of whom they turn to for help.
翻訳日:2024-06-19 23:28:06 公開日:2024-06-18
# 議論と論証に関する推論のための等式付き一階論理のグラフセマンティックス

Discussion Graph Semantics of First-Order Logic with Equality for Reasoning about Discussion and Argumentation ( http://arxiv.org/abs/2406.12163v1 )

ライセンス: Link先を確認
Ryuta Arisaka, (参考訳) 我々は、一階述語論理の議論グラフのセマンティクスを、議論や議論についての推論に等しい等式で定式化する。 議論を推論するために形式論理を使う提案はいくつか存在するが、それらはボトムアップに構築され、Dungによる議論モデルに特化している。 確かに、一般的な議論や議論モデルを扱うための正式な推論フレームワークが欠如している。 我々は、一階述語論理式(等式付き)のセマンティクスをトップダウンで定式化し、現在の不足に対処する。

We formulate discussion graph semantics of first-order logic with equality for reasoning about discussion and argumentation as naturally as we would reason about sentences. While there are a few existing proposals to use a formal logic for reasoning about argumentation, they are constructed bottom-up and specialised to the argumentation model by Dung. There is indeed a conspicuous lack of a formal reasoning framework for handling general discussion and argumentation models. We achieve the generality through a top-down formulation of the semantics of first-order logic (with equality) formulas, addressing the current shortage.
翻訳日:2024-06-19 23:28:06 公開日:2024-06-18
# 音声合成におけるCWTに基づくメルスペクトル強調パラダイム

A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis ( http://arxiv.org/abs/2406.12164v1 )

ライセンス: Link先を確認
Guoqiang Hu, Huaning Tan, Ruilai Li, (参考訳) 音響特徴は合成音声の品質向上に重要な役割を果たしている。 現在、メル・スペクトログラムは、ほとんどの音響モデルで広く使われている音響特性である。 しかし、フーリエ変換による微細な損失のため、メル分光法により合成された音声の明瞭度はミュータント信号によって損なわれる。 より詳細なMelスペクトルを得るために,連続ウェーブレット変換(CWT)に基づくMelスペクトル拡張パラダイムを提案する。 このパラダイムは、さらに詳細なウェーブレット・スペクトログラム(英語版)を導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。 自動回帰 (AR) と非自己回帰 (NAR) 音声システムをテストするために, 実験検証のためにTacotron2 と Fastspeech2 を選択する。 実験の結果,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較して0.14と0.09の改善がみられた。 これらの結果は、異なるアーキテクチャにおけるパラダイムの成功を実証するため、拡張パラダイムの普遍性を検証している。

Acoustic features play an important role in improving the quality of the synthesised speech. Currently, the Mel spectrogram is a widely employed acoustic feature in most acoustic models. However, due to the fine-grained loss caused by its Fourier transform process, the clarity of speech synthesised by Mel spectrogram is compromised in mutant signals. In order to obtain a more detailed Mel spectrogram, we propose a Mel spectrogram enhancement paradigm based on the continuous wavelet transform (CWT). This paradigm introduces an additional task: a more detailed wavelet spectrogram, which like the post-processing network takes as input the Mel spectrogram output by the decoder. We choose Tacotron2 and Fastspeech2 for experimental validation in order to test autoregressive (AR) and non-autoregressive (NAR) speech systems, respectively. The experimental results demonstrate that the speech synthesised using the model with the Mel spectrogram enhancement paradigm exhibits higher MOS, with an improvement of 0.14 and 0.09 compared to the baseline model, respectively. These findings provide some validation for the universality of the enhancement paradigm, as they demonstrate the success of the paradigm in different architectures.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 単語埋め込みにおける統計的不確かさ:GloVe-V

Statistical Uncertainty in Word Embeddings: GloVe-V ( http://arxiv.org/abs/2406.12165v1 )

ライセンス: Link先を確認
Andrea Vallebueno, Cassandra Handan-Nader, Christopher D. Manning, Daniel E. Ho, (参考訳) 静的な単語埋め込みは、計算社会科学の応用においてユビキタスであり、法律や医療など様々な分野における実践的な意思決定に貢献している。 しかし,単語埋め込み統計から得られた下流結論の統計的不確実性を評価することは依然として困難である。 埋め込みに点推定のみを用いる場合、研究者は埋め込みを生成するために使用される基礎データにおいて、モデル選択基準や科学的結論がノイズにさらされている程度を評価するための合理化方法がない。 我々は,多変量正規モデルに対する解析近似を用いて,最も広く使用されている単語埋め込みモデルの一つであるGloVe (Pennington et al , 2014) の近似的,使いやすい,スケーラブルな再構成誤差分散を求める手法を提案する。 GloVe-Vは,ベクトル空間における異なる単語対の類似性を比較し,異なるモデルの性能を評価し,異なる単語リストを用いてコーパス内の民族的,性別的バイアスの相対的程度を解析する。

Static word embeddings are ubiquitous in computational social science applications and contribute to practical decision-making in a variety of fields including law and healthcare. However, assessing the statistical uncertainty in downstream conclusions drawn from word embedding statistics has remained challenging. When using only point estimates for embeddings, researchers have no streamlined way of assessing the degree to which their model selection criteria or scientific conclusions are subject to noise due to sparsity in the underlying data used to generate the embeddings. We introduce a method to obtain approximate, easy-to-use, and scalable reconstruction error variance estimates for GloVe (Pennington et al., 2014), one of the most widely used word embedding models, using an analytical approximation to a multivariate normal model. To demonstrate the value of embeddings with variance (GloVe-V), we illustrate how our approach enables principled hypothesis testing in core word embedding tasks, such as comparing the similarity between different word pairs in vector space, assessing the performance of different models, and analyzing the relative degree of ethnic or gender bias in a corpus using different word lists.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 境界とバグ:パルチザンジェリーマンダー検出のための対称性メトリクスの限界

Bounds and Bugs: The Limits of Symmetry Metrics to Detect Partisan Gerrymandering ( http://arxiv.org/abs/2406.12167v1 )

ライセンス: Link先を確認
Ellen Veomett, (参考訳) 我々は,平均媒介差 (MM) とパルチザンバイアス (PB) の理論的および実証的な解析を行った。 我々は、投票シェアと議席シェアのペアである$(V, S)$を考え、投票シェアが$V$、議席シェアが$S$を持つ選挙データを構築できる。 我々は、その構築された選挙データに基づいて、MMとPBが達成できる値の範囲を算出する。 その過程で、投票シェアの幅、議席共有ペアの$(V, S)$、投票シェアの$V$、議席共有の$S$、$MM=0$の投票データがあり、PBの対応する範囲が$(V, S)$ペアのセットであることを確認する。 このような$(V,S)$ペアの集合が,各地区のターンアウトが異なる場合に,$MM=0$(および$PB=0$)の変更を可能にする方法を示す。 MM=0$を持つ選挙データが存在する$(V,S)$ペアのセットは、$(V,S)$ペアのセットと同じであるが、固定された$(V,S)$上のMMおよびPBの可能な値の範囲は異なる。 さらに、固定された選挙結果の場合、平均メディア差とパルティザンバイアスの値は理論上0.5倍になる。 アメリカ合衆国議会の地図データでは、これらの2つのメートル法値が最大0.33まで異なることが実証的に示されている。 我々は中性アンサンブル分析と短距離バースト法の両方を用いて、平均メディア差やパルチザンバイアスが、ある地域地図が特定の政党が獲得した極端に多くの地区を持つ場合、確実に検出できないことを示す。 最後に,地域地図が極端に多くの地区で獲得された場合に,他の指標が優れている理由を説明するために,実証的および論理的議論を加える。

We provide both a theoretical and empirical analysis of the Mean-Median Difference (MM) and Partisan Bias (PB), which are both symmetry metrics intended to detect gerrymandering. We consider vote-share, seat-share pairs $(V, S)$ for which one can construct election data having vote share $V$ and seat share $S$, and turnout is equal in each district. We calculate the range of values that MM and PB can achieve on that constructed election data. In the process, we find the range of vote-share, seat share pairs $(V, S)$ for which there is constructed election data with vote share $V$, seat share $S$, and $MM=0$, and see that the corresponding range for PB is the same set of $(V,S)$ pairs. We show how the set of such $(V,S)$ pairs allowing for $MM=0$ (and $PB=0$) changes when turnout in each district is allowed to be different. Although the set of $(V,S)$ pairs for which there is election data with $MM=0$ is the same as the set of $(V,S)$ pairs for which there is election data with $PB=0$, the range of possible values for MM and PB on a fixed $(V, S)$ is different. Additionally, for a fixed constructed election outcome, the values of the Mean-Median Difference and Partisan Bias can theoretically be as large as 0.5. We show empirically that these two metric values can differ by as much as 0.33 in US congressional map data. We use both neutral ensemble analysis and the short-burst method to show that neither the Mean-Median Difference nor the Partisan Bias can reliably detect when a districting map has an extreme number of districts won by a particular party. Finally, we give additional empirical and logical arguments in an attempt to explain why other metrics are better at detecting when a districting map has an extreme number of districts won by a particular party.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# BPO:行動LLMの近さに則ったオンライン嗜好学習のスーパーチャージ

BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM ( http://arxiv.org/abs/2406.12168v1 )

ライセンス: Link先を確認
Wenda Xu, Jiachen Li, William Yang Wang, Lei Li, (参考訳) 選好からの直接アライメント(DAP)は、事前コンパイルされたオフライン選好データセットからヒトデシダラタに大型言語モデル(LLM)をアライメントするための有望なパラダイムとして登場した。 最近の研究では、既存のオフラインDAPメソッドはオンライントレーニングサンプルから直接恩恵を受けられることが示されているが、オンライントレーニングのパワーを完全に活用するために、特定のオンラインDAPアルゴリズムを開発する必要性を強調している。 具体的には,学習したLLMが学習サンプルを収集する行動LLMの近接性に従わなければならないことを確認した。 そこで本稿では,LLMアライメントのための適切な信頼領域を構築することの重要性を強調し,行動LLM(BPO)に近接するオンライン優先度最適化を提案する。 我々は、様々なDAP手法と組み合わせることで、我々のアプローチの有効性と適用性を検証するための広範囲な実験を行い、同じ量の嗜好データでトレーニングを行う場合、幅広いタスクにおいて大幅な性能向上をもたらす。 新たなデータ収集フェーズを1つ導入するだけでも、オンラインBPOはオフラインのDAPベースラインをTL;DRで72.0%から80.2%に改善し、人文参照テキストに対する勝利率で82.2%から89.1%に改善します。

Direct alignment from preferences (DAP) has emerged as a promising paradigm for aligning large language models (LLMs) to human desiderata from pre-collected, offline preference datasets. While recent studies indicate that existing offline DAP methods can directly benefit from online training samples, we highlight the need to develop specific online DAP algorithms to fully harness the power of online training. Specifically, we identify that the learned LLM should adhere to the proximity of the behavior LLM, which collects the training samples. To this end, we propose online Preference Optimization in proximity to the Behavior LLM (BPO), emphasizing the importance of constructing a proper trust region for LLM alignment. We conduct extensive experiments to validate the effectiveness and applicability of our approach by integrating it with various DAP methods, resulting in significant performance improvements across a wide range of tasks when training with the same amount of preference data. Even when only introducing one additional data collection phase, our online BPO improves its offline DAP baseline from 72.0% to 80.2% on TL;DR and from 82.2% to 89.1% on Anthropic Helpfulness in terms of win rate against human reference text.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# ラビリンスをナビゲートする:LLMの探索問題に対する推論能力の評価と強化

Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems ( http://arxiv.org/abs/2406.12172v1 )

ライセンス: Link先を確認
Nasim Borazjanizadeh, Roei Herzig, Trevor Darrell, Rogerio Feris, Leonid Karlinsky, (参考訳) 最近、Large Language Models (LLMs) は数学と推論のベンチマークで素晴らしいパフォーマンスを達成した。 しかし、多くの場合、人間にとって比較的容易な論理問題やパズルに苦しむ。 さらに,11種類の探索問題を含む新しいベンチマークであるSearchBenchを導入し,任意の数のインスタンスを生成し,LCM生成したソリューションの実現可能性,正確性,最適性を解析する。 我々は、最も先進的なLCMでさえ、テキストのエンドツーエンドでこれらの問題を解くことができず、eg GPT4はわずか1.4%であることを示した。 SearchBenchの問題は、バックトラックだけでなく、ソリューションへの複数の経路を検討する必要がある。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。 本研究では,A*アルゴリズムによる文脈内学習によって性能が向上することを示す。 提案手法は,アルゴリズムの実装を2段階に分割し,ユニットテストに対する第1段階を検証し,GPT-4の性能を57%以上向上させる手法である。

Recently, Large Language Models (LLMs) attained impressive performance in math and reasoning benchmarks. However, they still often struggle with logic problems and puzzles that are relatively easy for humans. To further investigate this, we introduce a new benchmark, SearchBench, containing 11 unique search problem types, each equipped with automated pipelines to generate an arbitrary number of instances and analyze the feasibility, correctness, and optimality of LLM-generated solutions. We show that even the most advanced LLMs fail to solve these problems end-to-end in text, e.g. GPT4 solves only 1.4%. SearchBench problems require considering multiple pathways to the solution as well as backtracking, posing a significant challenge to auto-regressive models. Instructing LLMs to generate code that solves the problem helps, but only slightly, e.g., GPT4's performance rises to 11.7%. In this work, we show that in-context learning with A* algorithm implementations enhances performance. The full potential of this promoting approach emerges when combined with our proposed Multi-Stage-Multi-Try method, which breaks down the algorithm implementation into two stages and verifies the first stage against unit tests, raising GPT-4's performance above 57%.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# MiSuReはイメージセグメンテーションを説明するだけ

MiSuRe is all you need to explain your image segmentation ( http://arxiv.org/abs/2406.12173v1 )

ライセンス: Link先を確認
Syed Nouman Hasany, Fabrice Mériaudeau, Caroline Petitjean, (参考訳) コンピュータビジョンの過去10年間は、Deep Learningのアーキテクチャが支配的だった。 しかしながら、それらのパフォーマンスは、しばしば、その非常に非線型性のため、説明可能性のコストがかかる。 その結果,eXplainable Artificial Intelligence (XAI) の並列分野は,ディープラーニングモデルの意思決定プロセスに関する洞察を生み出すことを目的として開発された。 XAIにおける重要な問題は、サリエンシマップの生成である。 これらは入力画像内の領域であり、モデルの最終的な決定に最も寄与した。 しかし、この点におけるほとんどの研究は画像分類に焦点を合わせており、ユビキタスなタスクであるにも関わらず、イメージセグメンテーションはそれほど注目されていない。 本研究では,画像セグメンテーションのためのサリエンシマップを生成するアルゴリズムとして,MiSuRe(Minimally Sufficient Region)を提案する。 MiSuReが生成するサリエンシマップの目標は、無関係な領域を排除し、画像分割決定に不可欠な入力画像内のこれらの領域のみをハイライトすることである。 トライアングル(人工構築)、COCO-2017(自然画像)、シナプス多臓器(医療画像)の3つのデータセットについて分析を行った。 さらに, セグメンテーションモデルのポストホック信頼性を実現するために, これらのポストホック・サリエンシ・マップの潜在的なユースケースを特定する。

The last decade of computer vision has been dominated by Deep Learning architectures, thanks to their unparalleled success. Their performance, however, often comes at the cost of explainability owing to their highly non-linear nature. Consequently, a parallel field of eXplainable Artificial Intelligence (XAI) has developed with the aim of generating insights regarding the decision making process of deep learning models. An important problem in XAI is that of the generation of saliency maps. These are regions in an input image which contributed most towards the model's final decision. Most work in this regard, however, has been focused on image classification, and image segmentation - despite being a ubiquitous task - has not received the same attention. In the present work, we propose MiSuRe (Minimally Sufficient Region) as an algorithm to generate saliency maps for image segmentation. The goal of the saliency maps generated by MiSuRe is to get rid of irrelevant regions, and only highlight those regions in the input image which are crucial to the image segmentation decision. We perform our analysis on 3 datasets: Triangle (artificially constructed), COCO-2017 (natural images), and the Synapse multi-organ (medical images). Additionally, we identify a potential usecase of these post-hoc saliency maps in order to perform post-hoc reliability of the segmentation model.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 前立腺癌検出のための位置情報を用いた半教師あり学習

Location-based Radiology Report-Guided Semi-supervised Learning for Prostate Cancer Detection ( http://arxiv.org/abs/2406.12177v1 )

ライセンス: Link先を確認
Alex Chen, Nathan Lay, Stephanie Harmon, Kutsev Ozyoruk, Enis Yilmaz, Brad J. Wood, Peter A. Pinto, Peter L. Choyke, Baris Turkbey, (参考訳) 前立腺癌は世界で最も多い悪性腫瘍の1つである。 ディープラーニングはMRIでコンピュータ支援された前立腺がんの検出をさらに改善する可能性があるが、その効果は手動で注釈付けされた画像の徹底的なキュレーションに依存している。 本稿では,臨床情報,特に放射線診断報告の病変位置を自動抽出し,アノテーションの負担を軽減するために注釈付き画像を使用することで,半教師付き学習(SSL)の新たな手法を提案する。 病変位置を利用して擬似ラベルを改良し,位置に基づくSSLモデルのトレーニングに使用した。 本手法は,無注釈画像を用いて前立腺病変の検出を改善できることを示す。

Prostate cancer is one of the most prevalent malignancies in the world. While deep learning has potential to further improve computer-aided prostate cancer detection on MRI, its efficacy hinges on the exhaustive curation of manually annotated images. We propose a novel methodology of semisupervised learning (SSL) guided by automatically extracted clinical information, specifically the lesion locations in radiology reports, allowing for use of unannotated images to reduce the annotation burden. By leveraging lesion locations, we refined pseudo labels, which were then used to train our location-based SSL model. We show that our SSL method can improve prostate lesion detection by utilizing unannotated images, with more substantial impacts being observed when larger proportions of unannotated images are used.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# FCA-RAC:最初のサイクルの注釈付き反復行動カウント

FCA-RAC: First Cycle Annotated Repetitive Action Counting ( http://arxiv.org/abs/2406.12178v1 )

ライセンス: Link先を確認
Jiada Lu, WeiWei Zhou, Xiang Qian, Dongze Lian, Yanyu Xu, Weifeng Wang, Lina Cao, Shenghua Gao, (参考訳) 反復的行動カウント(repetitive action counting)は、個人によって実行される特定の行動の頻度を定量化する。 しかしながら、既存のアクションカウントデータセットは、アクションの多様性が制限されており、目に見えないアクションに対するモデルパフォーマンスを阻害する可能性がある。 そこで本研究では,FCA-RAC(First Cycle Annotated Repetitive Action Counting)というフレームワークを提案する。 このフレームワークには4つの部分がある。 1)各トレーニングビデオに第1アクションサイクルの開始と終了と、合計アクション数とをアノテートするラベル付け手法。 この手法により、モデルが初期行動サイクルとその後の行動との相関を捉えることができる。 2 ビデオにおける第1の注釈付動作サイクルの速度に調整することにより行動情報の保持を最大化する適応的サンプリング戦略 3)Multi-Temporal Granularity Convolution (MTGC)モジュールは,マルチスケールファーストアクションをカーネルとして活用し,ビデオ全体をコンボリュートする。 これにより、ビデオ内のさまざまな時間スケールでアクションのバリエーションをキャプチャできる。 4) データセット全体からの注釈付きファーストアクションサイクル情報を活用するTKA(Training Knowledge Augmentation)と呼ばれる戦略。 これにより、ネットワークは、アクション間の共有特性を効果的に活用し、モデル性能と、目に見えないアクションに対する一般化性を高めることができる。 実験結果から,提案手法はRepCount-Aと関連するデータセットに対して優れた結果をもたらすことが確認された。 本稿では、既存のデータセットの限界に対処し、モデル一般化性を改善するための新しい手法を提案することで、アクションカウントの分野に多大な貢献をする。

Repetitive action counting quantifies the frequency of specific actions performed by individuals. However, existing action-counting datasets have limited action diversity, potentially hampering model performance on unseen actions. To address this issue, we propose a framework called First Cycle Annotated Repetitive Action Counting (FCA-RAC). This framework contains 4 parts: 1) a labeling technique that annotates each training video with the start and end of the first action cycle, along with the total action count. This technique enables the model to capture the correlation between the initial action cycle and subsequent actions; 2) an adaptive sampling strategy that maximizes action information retention by adjusting to the speed of the first annotated action cycle in videos; 3) a Multi-Temporal Granularity Convolution (MTGC) module, that leverages the muli-scale first action as a kernel to convolve across the entire video. This enables the model to capture action variations at different time scales within the video; 4) a strategy called Training Knowledge Augmentation (TKA) that exploits the annotated first action cycle information from the entire dataset. This allows the network to harness shared characteristics across actions effectively, thereby enhancing model performance and generalizability to unseen actions. Experimental results demonstrate that our approach achieves superior outcomes on RepCount-A and related datasets, highlighting the efficacy of our framework in improving model performance on seen and unseen actions. Our paper makes significant contributions to the field of action counting by addressing the limitations of existing datasets and proposing novel techniques for improving model generalizability.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 脳の群れの知恵:ユニバーサル脳エンコーダー

The Wisdom of a Crowd of Brains: A Universal Brain Encoder ( http://arxiv.org/abs/2406.12179v1 )

ライセンス: Link先を確認
Roman Beliy, Navve Wasserman, Amit Zalcher, Michal Irani, (参考訳) 画像からfMRIの符号化は神経科学研究と実践的応用の両方において重要である。 しかしながら、このような"Brain-Encoders"は、通常、オブジェクトごと、fMRIデータセットごとに訓練されており、非常に限られたトレーニングデータに制限されている。 本稿では,さまざまな主題/データセット/マシンのデータに基づいて,共同で学習可能なユニバーサル脳エンコーダを提案する。 これを可能にするのは、新しいボクセル中心のエンコーダアーキテクチャです。 エンコーダは、脳のボクセル埋め込みとマルチレベルのディープイメージ特徴の相互注意を直接計算することで、各画像における各脳のボクセルの反応を予測するように訓練します。 このボクセル中心のアーキテクチャにより、各脳のボクセルの機能的役割は、自然にボクセル・イメージのクロスアテンションから生じる。 私たちはこのアプローチの力を示します。 (i)複数の被験者(「脳の群集」)のデータを組み合わせて各脳のエンコーディングを改善すること。 (ii) 被験者、データセット、機械(例えば、3つのTesla、7-Tesla)の高速かつ効果的なトランスファーラーニング。 三 学習したボクセル埋め込みを脳機能(例えば脳のどこにエンコードされているか)を探索するための強力なツールとして用いること。

Image-to-fMRI encoding is important for both neuroscience research and practical applications. However, such "Brain-Encoders" have been typically trained per-subject and per fMRI-dataset, thus restricted to very limited training data. In this paper we propose a Universal Brain-Encoder, which can be trained jointly on data from many different subjects/datasets/machines. What makes this possible is our new voxel-centric Encoder architecture, which learns a unique "voxel-embedding" per brain-voxel. Our Encoder trains to predict the response of each brain-voxel on every image, by directly computing the cross-attention between the brain-voxel embedding and multi-level deep image features. This voxel-centric architecture allows the functional role of each brain-voxel to naturally emerge from the voxel-image cross-attention. We show the power of this approach to (i) combine data from multiple different subjects (a "Crowd of Brains") to improve each individual brain-encoding, (ii) quick & effective Transfer-Learning across subjects, datasets, and machines (e.g., 3-Tesla, 7-Tesla), with few training examples, and (iii) use the learned voxel-embeddings as a powerful tool to explore brain functionality (e.g., what is encoded where in the brain).
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 単層バナジウムジヒドロコゲナイドにおけるジャヌス構造によって導入された異常電荷密度波

Unusual charge density wave introduced by Janus structure in monolayer vanadium dichalcogenides ( http://arxiv.org/abs/2406.12180v1 )

ライセンス: Link先を確認
Ziqiang Xu, Yan Shao, Chun Huang, Genyu Hu, Shihao Hu, Zhi-Lin Li, Xiaoyu Hao, Yanhui Hou, Teng Zhang, Jin-An Shi, Chen Liu, Jia-Ou Wang, Wu Zhou, Jiadong Zhou, Wei Ji, Jingsi Qiao, Xu Wu, Hong-Jun Gao, Yeliang Wang, (参考訳) 基本的な構造的特徴として、物質の対称性は電荷密度波(CDW)を持つ遷移金属ジアルコゲナイド(TMD)の異方性量子特性を決定する。 逆対称性を破って、人工的に構築された格子であるヤヌス構造は、CDW状態と関連する性質をチューニングする機会を与える。 しかし, 原子レベル製造の困難さと材料安定性により, ヤヌス構造を持つ2次元TMDにおけるCDW状態の可視化はいまだに稀である。 ここでは,VTe2の表面セレン化を用いて単層膜Janus VTeSeを作製した。 走査型トンネル顕微鏡では、回転対称性が3倍の異常なルート13-root13 CDW状態が観察され、特徴付けられる。 理論計算と組み合わせると、このCDW状態は、従来の電子-フォノン結合を超えた、Janus VTeSeの電荷変調によるものであることが分かる。 本研究は,CDW状態を研究し,電子特性を応用に向けて人工的に調整するための,有望なプラットフォームを提供する。

As a fundamental structural feature, the symmetry of materials determines the exotic quantum properties in transition metal dichalcogenides (TMDs) with charge density wave (CDW). Breaking the inversion symmetry, the Janus structure, an artificially constructed lattice, provides an opportunity to tune the CDW states and the related properties. However, limited by the difficulties in atomic-level fabrication and material stability, the experimental visualization of the CDW states in 2D TMDs with Janus structure is still rare. Here, using surface selenization of VTe2, we fabricated monolayer Janus VTeSe. With scanning tunneling microscopy, an unusual root13-root13 CDW state with threefold rotational symmetry breaking was observed and characterized. Combined with theoretical calculations, we find this CDW state can be attributed to the charge modulation in the Janus VTeSe, beyond the conventional electron-phonon coupling. Our findings provide a promising platform for studying the CDW states and artificially tuning the electronic properties toward the applications.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# Aqulia-Med LLM: オープンソース医療用言語モデルのパイオニア化

Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Models ( http://arxiv.org/abs/2406.12182v1 )

ライセンス: Link先を確認
Lulu Zhao, Weihao Zeng, Xiaofeng Shi, Hua Zhou, Donglin Hao, Yonghua Lin, (参考訳) 近年、オープンソースLLMとオープンソースコミュニティの両方が大きな進歩を遂げており、様々な一般領域において人間よりも優れています。 しかし、医学、特にオープンソースコミュニティにおける特定の専門分野におけるパフォーマンスは、医学知識の複雑さのため、依然として最適以下である。 本稿では,Aquilaをベースとしたバイリンガル医療用LLMであるAquila-Medを提案する。 我々は,漢英医学データセットを大規模に構築し,事前トレーニングを継続し,高品質なSFTデータセットを構築した。 さらに,さらなるアライメントを実現するために,高品質な直接参照最適化(DPO)データセットを開発した。 Aquila-Med はシングルターン,マルチターン対話,医療的マルチチョイス質問にまたがって顕著な結果を出し,提案手法の有効性を実証した。 データセットとトレーニングプロセス全体をオープンソースとして公開し、研究コミュニティに貴重なリソースを提供しています。 私たちのモデルとデータセットはhttps://huggingface.co/BAAI/AquilaMed-RL.orgで公開されます。

Recently, both closed-source LLMs and open-source communities have made significant strides, outperforming humans in various general domains. However, their performance in specific professional fields such as medicine, especially within the open-source community, remains suboptimal due to the complexity of medical knowledge. We propose Aquila-Med, a bilingual medical LLM based on Aquila, addressing these challenges through continue pre-training, supervised fine-tuning (SFT), and reinforcement learning from human feedback (RLHF). We construct a large-scale Chinese and English medical dataset for continue pre-training and a high-quality SFT dataset, covering extensive medical specialties. Additionally, we develop a high-quality Direct Preference Optimization (DPO) dataset for further alignment. Aquila-Med achieves notable results across single-turn, multi-turn dialogues, and medical multiple-choice questions, demonstrating the effectiveness of our approach. We open-source the datasets and the entire training process, contributing valuable resources to the research community. Our models and datasets will released at https://huggingface.co/BAAI/AquilaMed-RL.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# ベル非局所性の地域的説明

The Local Account of Bell Nonlocality ( http://arxiv.org/abs/2406.12184v1 )

ライセンス: Link先を確認
Charles Alexandre Bédard, (参考訳) 量子理論の1世紀にわたる歴史の中で、ベルの定理はその基礎の最も思慮深い結果の1つである。 これは、量子理論の予測と、局所性とリアリズムと整合した一般的な枠組みによって許されるものとの矛盾を明らかにしている。 量子予測の実験的な証明はノーベル賞の功績であり、自然は非局所的であるという確固たる結論に寄与した。 この正統性とは対照的に、ユニタリ量子論のハイゼンベルク図では、ベルの不等式は局所的に相互作用する現実の局所的要素に反する。 絡み合ったペアの粒子を測定すると、アリスは滑らかに局所的に2つの非相互作用バージョンへと進化し、それぞれに異なる結果(She \emph{foliates})を目撃し記録する。 アリス族と適切に相互作用するあらゆるものが交互に浮き彫りになり、あらゆる実用目的のために独立して自律的な世界を生み出す。 空間的分離では、ボブが粒子を測定するときに類似の過程が起こり、彼と周囲を2つの非相互作用インスタンスに局所的に微分する。 ベルの不平等の違反を確認するために、アリスとボブはさらに交流し、共同結果の記録を作成する必要がある。 この記録はアリスとボブの2つの地域世界から生まれ、それぞれ「00$」と「01$」と「10$」と「11$」の4つのインスタンスに分けられる。 CHSHテストの少なくとも1つの入力が `0$' であれば、同じ結果を示すレコードの総測度は $\cos^2(\pi/8)$; もしそうでなければ、この測度は異なる結果の記録に関係する。 この記事はベルの「非局所性」の局所的な説明を形式化し説明する。

In the century-long history of quantum theory, Bell's theorem stands out among the most thought-provoking results of its foundations. It reveals a conflict between quantum theory's predictions and those allowed by a general framework aligning with locality and realism. Experimental vindications of the quantum predictions were of Nobel-Prize merit and contributed to an established conclusion that nature is non-local. In stark contrast with this orthodoxy, I show that within the Heisenberg picture of unitary quantum theory, Bell inequalities are violated with local elements of reality interacting locally. Here is how: Upon measuring her particle of the entangled pair, Alice smoothly and locally evolves into two non-interacting versions of herself, each of which witnesses and records a different outcome -- she \emph{foliates}. Everything that suitably interacts with the Alices foliates in turn, creating worlds which, for all practical purposes, are independent and autonomous. At spacelike separation, an analogous process occurs to Bob when he measures his particle, locally differentiating him and his surroundings into two non-interacting instances. To confirm the violation of Bell inequalities, Alice and Bob must further interact to produce a record of the joint outcomes. The record arises from the two local worlds of Alice, and those of Bob, and foliates into four instances that respectively indicate `$00$', `$01$', `$10$' and `$11$'. If at least one input of the CHSH test is `$0$', the total measure of records displaying the same outcome is $\cos^2(\pi/8)$; if not, this measure pertains to the records of different outcomes. This article formalizes and explains this local account of Bell `nonlocality'.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 早期エポックの可能性を解き明かす:不確かさを意識したCT金属アーチファクト削減

Unlocking the Potential of Early Epochs: Uncertainty-aware CT Metal Artifact Reduction ( http://arxiv.org/abs/2406.12186v1 )

ライセンス: Link先を確認
Xinqun Yang, Guanqun Zhou, Wei Sun, Youjian Zhang, Zhongya Wang, Jiahui He, Zhicheng Zhang, (参考訳) CT(Computerd tomography)では、患者の金属インプラントの存在は、再建された画像に破壊的なアーティファクトをもたらすことが多く、正確な診断を妨げている。 近年,金属人工物削減 (MAR) のために,多数の教師付き深層学習に基づくアプローチが提案されている。 しかし、これらの方法は初期訓練重量の影響を無視する。 本稿では,初期トレーニング重量の復元結果から得られた不確実性画像が,金属加工品を含む高周波領域を効果的に強調できることを発見した。 この観測は、MARネットワークが金属のアーティファクトを除去するのを助けるために利用することができる。 そこで本研究では,MARネットワークを金属加工領域に集中させるための適応重みとして不確実性画像を利用する不確実性制約(UC)損失を提案する。 提案したUC損失はプラグイン・アンド・プレイ方式として設計されており、任意のMARフレームワークと互換性があり、容易に適用可能である。 UC損失の有効性を検証するため,一般公開のDeeplesionとCLINIC-Mealデータセットについて広範な実験を行った。 実験の結果,UCの損失はネットワークトレーニングプロセスをさらに最適化し,金属加工物の除去を大幅に改善することが示された。

In computed tomography (CT), the presence of metallic implants in patients often leads to disruptive artifacts in the reconstructed images, hindering accurate diagnosis. Recently, a large amount of supervised deep learning-based approaches have been proposed for metal artifact reduction (MAR). However, these methods neglect the influence of initial training weights. In this paper, we have discovered that the uncertainty image computed from the restoration result of initial training weights can effectively highlight high-frequency regions, including metal artifacts. This observation can be leveraged to assist the MAR network in removing metal artifacts. Therefore, we propose an uncertainty constraint (UC) loss that utilizes the uncertainty image as an adaptive weight to guide the MAR network to focus on the metal artifact region, leading to improved restoration. The proposed UC loss is designed to be a plug-and-play method, compatible with any MAR framework, and easily adoptable. To validate the effectiveness of the UC loss, we conduct extensive experiments on the public available Deeplesion and CLINIC-metal dataset. Experimental results demonstrate that the UC loss further optimizes the network training process and significantly improves the removal of metal artifacts.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 高調波電位アレイにトラップされた超低温原子の駆動散逸ダイナミクス

Driven-Dissipative Dynamics of Ultracold Atoms Trapped in an Array of Harmonic Potentials ( http://arxiv.org/abs/2406.12192v1 )

ライセンス: Link先を確認
Roland Cristopher F. Caballar, (参考訳) ボゴリューボフ励起の貯留体として作用するボース・アインシュタイン凝縮体(BEC)と相互作用する超低温原子の気体の力学について検討する。 これらの閉じ込められた超低温原子の基底と励起エネルギーレベルは、対応するラビ周波数のラマンレーザーによって互いに結合される。 一度ラマンレーザーで励起されると、これらの閉じ込められた超低温の原子は地上のエネルギーレベルに戻るが、ボゴリューボフの励起をBECに放出することで、必ずしも元のトラップ位置に戻るわけではない。 このラマンレーザーによる駆動とBECとの相互作用による消散の組み合わせにより、ボゴリューボフの励起は安定な状態に近づき、配列の各ハーモニックトラップにおけるトラップされた超低温原子数の期待値が時間とともに一定値に達する。 原子干渉計や量子力学の基礎の試験に使用されるBECや原子レーザーなど、特定のエネルギーレベルで一定の数の原子を必要とする状態を作るためにこのシステムを使用することができる。

We investigate the dynamics of a gas of ultracold atoms that are trapped in an array of harmonic potentials and that interacts with a Bose-Einstein condensate (BEC) that acts as a reservoir of Bogoliubov excitations. The ground and excited energy levels of these trapped ultracold atoms are coupled to each other via detuned Raman lasers with corresponding Rabi frequencies. Once excited via the Raman lasers, these trapped ultracold atoms then return to their ground energy levels, but not necessarily to their original trap locations, by emitting Bogoliubov excitations into the BEC. This combination of driving via Raman lasers to excited energy levels and dissipation via interaction with the BEC resulting in emission of Bogoliubov excitations into it will result in the trapped ultracold atoms approaching a steady state, whereby the expectation value of the number of trapped ultracold atoms in each harmonic trap of the array will attain a constant value over time. One can then use this system to prepare states that require a definite number of atoms in a particular energy level, such as BECs and atom lasers used for atom interferometry and for tests of the foundations of quantum mechanics.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 適応的協調的相関学習に基づく半教師付きマルチラベル特徴選択

Adaptive Collaborative Correlation Learning-based Semi-Supervised Multi-Label Feature Selection ( http://arxiv.org/abs/2406.12193v1 )

ライセンス: Link先を確認
Yanyong Huang, Li Yang, Dongjie Wang, Ke Li, Xiuwen Yi, Fengmao Lv, Tianrui Li, (参考訳) 半教師付き多ラベル特徴選択法は, 標本が欠落した高次元多ラベルデータにおいて, 次元性の呪いを解決するために最近開発された。 多くの試みがなされているが、既存のほとんどの手法では、サンプルの類似性やラベルの相関を捉えるために、事前に定義されたグラフアプローチを用いている。 このように、元の特徴空間におけるノイズやアウトリーチの存在は、結果として生じるサンプル類似性グラフの信頼性を損なう可能性がある。 また、未知のラベルが存在するため、ラベルの相関関係を正確に描写することができない。 さらに、これらの手法は選択された特徴の識別力のみを考慮し、冗長性を無視する。 本稿では,アダプティブ・コラボレーティブ・コラボレーティブ・相関 lEarning-based Semi-Supervised Multi-label Feature Selection (Access-MFS) 法を提案する。 具体的には、拡張された非相関制約を備えた一般化回帰モデルを導入し、識別的かつ無関係な特徴を選択し、ラベル付きデータにおける予測ラベルと接地トラックラベルの一貫性を同時に維持する。 そして, サンプル類似度グラフとラベル類似度グラフの両方を適応的に学習し, 特徴選択性能を相互に向上する。 大規模な実験結果から、他の最先端手法よりもAccess-MFSの方が優れていることが示された。

Semi-supervised multi-label feature selection has recently been developed to solve the curse of dimensionality problem in high-dimensional multi-label data with certain samples missing labels. Although many efforts have been made, most existing methods use a predefined graph approach to capture the sample similarity or the label correlation. In this manner, the presence of noise and outliers within the original feature space can undermine the reliability of the resulting sample similarity graph. It also fails to precisely depict the label correlation due to the existence of unknown labels. Besides, these methods only consider the discriminative power of selected features, while neglecting their redundancy. In this paper, we propose an Adaptive Collaborative Correlation lEarning-based Semi-Supervised Multi-label Feature Selection (Access-MFS) method to address these issues. Specifically, a generalized regression model equipped with an extended uncorrelated constraint is introduced to select discriminative yet irrelevant features and maintain consistency between predicted and ground-truth labels in labeled data, simultaneously. Then, the instance correlation and label correlation are integrated into the proposed regression model to adaptively learn both the sample similarity graph and the label similarity graph, which mutually enhance feature selection performance. Extensive experimental results demonstrate the superiority of the proposed Access-MFS over other state-of-the-art methods.
翻訳日:2024-06-19 23:18:17 公開日:2024-06-18
# 超電導プロセッサ上での強化学習による量子コンパイル

Quantum Compiling with Reinforcement Learning on a Superconducting Processor ( http://arxiv.org/abs/2406.12195v1 )

ライセンス: Link先を確認
Z. T. Wang, Qiuhao Chen, Yuxuan Du, Z. H. Yang, Xiaoxia Cai, Kaixuan Huang, Jingning Zhang, Kai Xu, Jun Du, Yinan Li, Yuling Jiao, Xingyao Wu, Wu Liu, Xiliang Lu, Huikai Xu, Yirong Jin, Ruixia Wang, Haifeng Yu, S. P. Zhao, (参考訳) ノイズの多い中間スケール量子(NISQ)プロセッサに量子アルゴリズムを効果的に実装することは、現代の量子技術の中心的な課題である。 NISQプロセッサは、コヒーレンス時間に制限のある数十から数百のノイズキュービットとエラーを伴うゲート演算を特徴としているため、NISQアルゴリズムは量子コンパイルによる短絡回路を自然に採用する必要がある。 本稿では、超伝導プロセッサのための強化学習(RL)ベースの量子コンパイラを開発し、短い長さの新規でハードウェア対応の回路を発見する能力を実証する。 3量子量子フーリエ変換では、7つのCZゲートと1つの回路忠実度のみを用いたコンパイル回路が実現可能であることを示す。 コンパイラはまた、デバイストポロジカルな制約の下で最適な回路を見つけることができ、従来の手法よりもかなり短い長さを持つ。 本研究は,効率的な量子コンパイルのためのハードウェアによるソフトウェア設計を実証し,RLベースのコンパイラの進化に対する貴重な洞察を提供する。

To effectively implement quantum algorithms on noisy intermediate-scale quantum (NISQ) processors is a central task in modern quantum technology. NISQ processors feature tens to a few hundreds of noisy qubits with limited coherence times and gate operations with errors, so NISQ algorithms naturally require employing circuits of short lengths via quantum compilation. Here, we develop a reinforcement learning (RL)-based quantum compiler for a superconducting processor and demonstrate its capability of discovering novel and hardware-amenable circuits with short lengths. We show that for the three-qubit quantum Fourier transformation, a compiled circuit using only seven CZ gates with unity circuit fidelity can be achieved. The compiler is also able to find optimal circuits under device topological constraints, with lengths considerably shorter than those by the conventional method. Our study exemplifies the codesign of the software with hardware for efficient quantum compilation, offering valuable insights for the advancement of RL-based compilers.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# CITADEL:コンテキスト類似性に基づくディープラーニングフレームワークのバグ検索

CITADEL: Context Similarity Based Deep Learning Framework Bug Finding ( http://arxiv.org/abs/2406.12196v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Shiwei Wang, Chao Shen, (参考訳) ディープラーニング(DL)技術が新しいインテリジェントソフトウェアに不可欠な部分になることで、DLフレームワークのテストとバグフィリングのツールが要求される。 既存のDLフレームワークテストツールには、バグタイプが限定されている。 例えば、DLモデルのトレーニングやパフォーマンス、経済、環境に関する推論には重要なパフォーマンスバグを見つける能力がない。 この問題は、パフォーマンスのバグをテストするのが難しいため、難しい。 さらに、既存のツールは非効率で、数百のテストケースを生成し、トリガーバグが少ない。 本稿では,CITADELを提案する。CITADELは,効率と有効性の観点から,バグの発見を高速化する手法である。 DLフレームワークのバグの多くは、同じファミリーに属する演算子やアルゴリズム(例えば、Conv2D、Conv3D)の類似性のため、類似している。 既存のバグフィニングツールと直交して、CITADELは、テストのオーラクルが既知の報告されたものに似た、新しいバグを見つけることを目的としている。 これは、まず既存のバグレポートを収集し、問題のあるAPIを特定することで機能する。 CITADELは、DLフレームワークのAPIペアの類似度を測定するためにコンテキストの類似性を定義し、既存のバグレポートで問題のあるAPIに類似したAPIのオラクルを使ったテストケースを自動的に生成する。 CITADELは、それぞれ1,436 PyTorchと5,380 TensorFlow APIをカバーし、79と80のAPIバグを効果的に検出する。 さらに、CITADELが生成したテストケースの35.40%がバグを引き起こす可能性がある。これは最先端のメソッドであるDocTer、DeepREL、TitanFuzzによって示される0.74%、1.23%、および3.90%の比率を大幅に超える。

With deep learning (DL) technology becoming an integral part of the new intelligent software, tools of DL framework testing and bug-finding are in high demand. Existing DL framework testing tools have limited coverage on bug types. For example, they lack the capability of finding performance bugs, which are critical for DL model training and inference regarding performance, economics, and the environment. This problem is challenging due to the difficulty of getting test oracles of performance bugs. Moreover, existing tools are inefficient, generating hundreds of test cases with few trigger bugs. In this paper, we propose CITADEL, a method that accelerates the finding of bugs in terms of efficiency and effectiveness. We observe that many DL framework bugs are similar due to the similarity of operators and algorithms belonging to the same family (e.g., Conv2D and Conv3D). Orthogonal to existing bug-finding tools, CITADEL aims to find new bugs that are similar to reported ones that have known test oracles. It works by first collecting existing bug reports and identifying problematic APIs. CITADEL defines context similarity to measure the similarity of DL framework API pairs and automatically generates test cases with oracles for APIs that are similar to the problematic APIs in existing bug reports. CITADEL respectively covers 1,436 PyTorch and 5,380 TensorFlow APIs and effectively detects 79 and 80 API bugs, among which 58 and 68 are new, and 36 and 58 have been confirmed, many of which, e.g., the 11 performance bugs cannot be detected by existing tools. Moreover, a remarkable 35.40% of the test cases generated by CITADEL can trigger bugs, which significantly transcends the ratios of 0.74%, 1.23%, and 3.90% exhibited by the state-of-the-art methods, DocTer, DeepREL, and TitanFuzz.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# 最適化としての議論: イベント抽出のための適応的コンフォーマル予測と多変量検索

Debate as Optimization: Adaptive Conformal Prediction and Diverse Retrieval for Event Extraction ( http://arxiv.org/abs/2406.12197v1 )

ライセンス: Link先を確認
Sijia Wang, Lifu Huang, (参考訳) 本稿では,大規模言語モデル (LLM) の出力をパラメータ調整なしで議論することで反復的に洗練することを目的として,イベント抽出のためのDAOシステムとしてマルチエージェント議論を提案する。 DAOでは、Diverse-RAG (DRAG) モジュールとAdaptive Conformal Prediction (AdaCP) モジュールの2つの新しいモジュールを紹介する。 DRAGは議論に最も適した支援情報を体系的に検索し、AdaCPは期待できない回答を効果的に拒否することでイベント抽出の精度と信頼性を高める。 実験の結果,ACE05では18.1%,ACE05では17.9%,CASIEでは15.2%と,教師なしLCM法では18.1%の差がみられた。

We propose a multi-agent debate as optimization (DAO) system for event extraction, where the primary objective is to iteratively refine the large language models (LLMs) outputs through debating without parameter tuning. In DAO, we introduce two novel modules: the Diverse-RAG (DRAG) module and the Adaptive Conformal Prediction (AdaCP) module. DRAG systematically retrieves supporting information that best fits the debate discussion, while AdaCP enhances the accuracy and reliability of event extraction by effectively rejecting less promising answers. Experimental results demonstrate a significant reduction in the performance gap between supervised approaches and tuning-free LLM-based methods by 18.1% and 17.8% on ACE05 and 17.9% and 15.2% on CASIE for event detection and argument extraction respectively.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# 心拍予測のための時系列モデリング:ARIMAから変圧器へ

Time Series Modeling for Heart Rate Prediction: From ARIMA to Transformers ( http://arxiv.org/abs/2406.12199v1 )

ライセンス: Link先を確認
Haowei Ni, Shuchen Meng, Xieming Geng, Panfeng Li, Zhuoying Li, Xupeng Chen, Xiaotong Wang, Shiyao Zhang, (参考訳) 心臓血管疾患(CVD)は世界的な死因であり、心拍数、血圧、心電図などの重要な兆候を監視するための正確な予測モデルを必要とする。 ARIMAやProphetのような伝統的なモデルは、手動パラメータチューニングの必要性とノイズやスパース、高度に可変した医療データを扱う際の課題によって制限されている。 本研究では,MIT-BIHデータベースから心拍数時系列を予測するためのLSTMやトランスフォーマーベースアーキテクチャを含む高度なディープラーニングモデルについて検討する。 結果は、ディープラーニングモデル、特にPatchTSTが、複数のメトリクスで従来のモデルを大幅に上回っており、複雑なパターンや依存関係をより効率的にキャプチャしていることを示している。 本研究は,患者モニタリングとCVD管理の深層学習の可能性を強調し,臨床効果を示唆するものである。 今後は、これらの研究成果を、より大規模で多様なデータセットや実世界の臨床応用に拡張して、モデルのパフォーマンスをさらに検証し、最適化する予定である。

Cardiovascular disease (CVD) is a leading cause of death globally, necessitating precise forecasting models for monitoring vital signs like heart rate, blood pressure, and ECG. Traditional models, such as ARIMA and Prophet, are limited by their need for manual parameter tuning and challenges in handling noisy, sparse, and highly variable medical data. This study investigates advanced deep learning models, including LSTM, and transformer-based architectures, for predicting heart rate time series from the MIT-BIH Database. Results demonstrate that deep learning models, particularly PatchTST, significantly outperform traditional models across multiple metrics, capturing complex patterns and dependencies more effectively. This research underscores the potential of deep learning to enhance patient monitoring and CVD management, suggesting substantial clinical benefits. Future work should extend these findings to larger, more diverse datasets and real-world clinical applications to further validate and optimize model performance.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# SFedCA:フェデレーション学習をスパイクするためのクレジットアサインメントベースのアクティブクライアント選択戦略

SFedCA: Credit Assignment-Based Active Client Selection Strategy for Spiking Federated Learning ( http://arxiv.org/abs/2406.12200v1 )

ライセンス: Link先を確認
Qiugang Zhan, Jinbo Cao, Xiurui Xie, Malu Zhang, Huajin Tang, Guisong Liu, (参考訳) スパイキングフェデレーション学習は、リソースに制約のあるデバイスがローカルデータを交換することなく、低消費電力で協調的にトレーニングできる、新たな分散学習パラダイムである。 これは、フェデレートラーニング(FL)におけるプライバシ計算特性と、スパイクニューラルネットワーク(SNN)におけるエネルギー効率の両方を活用する。 したがって、マルチメディアデータの効率的な処理に革命をもたらすことは、非常に有望である。 しかし,既存のスパイキングフェデレーション学習手法では,不正なクライアント参加を想定したランダム選択手法が採用されている。 この統計的不均一性の無視は、グローバルモデルの収束と精度に大きな影響を及ぼす。 本研究では,グローバルなサンプル分布バランスに寄与するクライアントを鑑定的に集約する,クレジット代入ベースのアクティブクライアント選択戦略であるSFedCAを提案する。 具体的には、クライアントクレジットは、ローカルモデルトレーニング前後の発火強度状態によって割り当てられ、グローバルモデルとローカルデータ分散の違いを反映する。 総合的な実験は、様々な非同一性および独立性分布(非IID)のシナリオで実施される。 実験の結果、SFedCAは既存の最先端のフェデレーション学習法よりも優れており、通信ラウンドは少ないことがわかった。

Spiking federated learning is an emerging distributed learning paradigm that allows resource-constrained devices to train collaboratively at low power consumption without exchanging local data. It takes advantage of both the privacy computation property in federated learning (FL) and the energy efficiency in spiking neural networks (SNN). Thus, it is highly promising to revolutionize the efficient processing of multimedia data. However, existing spiking federated learning methods employ a random selection approach for client aggregation, assuming unbiased client participation. This neglect of statistical heterogeneity affects the convergence and accuracy of the global model significantly. In our work, we propose a credit assignment-based active client selection strategy, the SFedCA, to judiciously aggregate clients that contribute to the global sample distribution balance. Specifically, the client credits are assigned by the firing intensity state before and after local model training, which reflects the local data distribution difference from the global model. Comprehensive experiments are conducted on various non-identical and independent distribution (non-IID) scenarios. The experimental results demonstrate that the SFedCA outperforms the existing state-of-the-art spiking federated learning methods, and requires fewer communication rounds.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# Duan-Kimble空洞-原子量子メモリロードスキームの再検討

The Duan-Kimble cavity-atom quantum memory loading scheme revisited ( http://arxiv.org/abs/2406.12201v1 )

ライセンス: Link先を確認
Michael G. Raymer, Clark Embleton, Jeffrey H. Shapiro, (参考訳) 我々は、よく知られたデュアン・キンブルの絡み合い方式を再検討し、単一の光子量子ビットの状態が強い結合光学キャビティ内の単一原子量子ビットからなる量子メモリに絡み合って、光子の状態をメモリにロードする機能を提供する。 本稿では,プロトコルの核心における必須位相シフトを特徴付ける単一光子反射率関数の有効性について,いくつかの論文で共通誤差を補正する。 評価された解析解を用いて、光子と空洞の中間点で光子と空洞が調整されたプッシュプル構成を改良し、光子と空洞が原子共鳴の1つに正確に調整された元のオンオフ構成より優れていることを示す。 使用した性能測定基準は、最終メモリ状態の忠実度対階層化確率であり、メモリロード率を決定する。 この結果は、Duan-Kimbleプロトコルに基づいた将来の量子リピータスキームを最適化する役割を担っている。

We reexamine the well-known Duan-Kimble entanglement scheme, wherein the state of a single-photon qubit is entangled with a quantum memory consisting of a single-atom qubit in a strongly coupled optical cavity, providing the capability to load the photon's state into the memory. We correct a common error appearing in some subsequent papers regarding the validity of the single-photon reflectivity function that characterizes the essential phase shift at the heart of the protocol. Using the validated analytical solution, we introduce an improved scheme-the push-pull configuration-where the photon and cavity are tuned at the midpoint between atomic resonances and show that it can outperform the original on-off configuration in which the photon and cavity are tuned exactly to one of the atomic resonances. The performance metric used is the final memory-state fidelity versus the heralding probability, which determines the memory loading rate. The results should play a role in optimizing future quantum repeater schemes based on the Duan-Kimble protocol.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# Interintent: 対話型ゲームコンテキストにおける意図理解によるLLMのソーシャルインテリジェンスの調査

InterIntent: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context ( http://arxiv.org/abs/2406.12203v1 )

ライセンス: Link先を確認
Ziyi Liu, Abhishek Anand, Pei Zhou, Jen-tse Huang, Jieyu Zhao, (参考訳) 大規模言語モデル(LLM)は、人間の社会的知性を模倣する可能性を実証している。 しかし、ほとんどの研究は単純で静的な自己報告やパフォーマンスベースのテストに重点を置いており、分析の深さと妥当性を制限している。 本稿では,ゲーム環境における意図を理解し,管理する能力をマッピングすることで,LLMの社会的知性を評価するための新たなフレームワークであるInterIntentを開発した。 我々は、状況認識、自己統制、自己認識、心の理論の4つの側面に焦点を当てる。 各次元は、意図の選択、意図の追従、意図の要約、意図の推測といった特定のゲームタスクに関連付けられている。 以上の結果から, LLMは意図の選択に高い習熟度を示し, 88%の精度を達成できる一方で, 他者の意図を推測する能力は著しく低下し, 人間のパフォーマンスを20パーセント追随することが明らかとなった。 さらに、ゲームパフォーマンスは意図的な理解と相関し、このゲームの成功に向けた4つのコンポーネントの重要性を強調している。 これらの知見は, LLMの社会的知性を評価する上での意図的理解の重要な役割を明らかにし, LLM評価を高めるための複雑なテストベッドとしてソーシャル推論ゲームを使用することの可能性を強調した。 Interintentはマルチプレイヤーゲームにおけるソーシャルインテリジェンスの評価ギャップを埋めるための構造化されたアプローチに貢献している。

Large language models (LLMs) have demonstrated the potential to mimic human social intelligence. However, most studies focus on simplistic and static self-report or performance-based tests, which limits the depth and validity of the analysis. In this paper, we developed a novel framework, InterIntent, to assess LLMs' social intelligence by mapping their ability to understand and manage intentions in a game setting. We focus on four dimensions of social intelligence: situational awareness, self-regulation, self-awareness, and theory of mind. Each dimension is linked to a specific game task: intention selection, intention following, intention summarization, and intention guessing. Our findings indicate that while LLMs exhibit high proficiency in selecting intentions, achieving an accuracy of 88\%, their ability to infer the intentions of others is significantly weaker, trailing human performance by 20\%. Additionally, game performance correlates with intention understanding, highlighting the importance of the four components towards success in this game. These findings underline the crucial role of intention understanding in evaluating LLMs' social intelligence and highlight the potential of using social deduction games as a complex testbed to enhance LLM evaluation. InterIntent contributes a structured approach to bridging the evaluation gap in social intelligence within multiplayer games.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# ネットワーク回帰のための最適輸送手法

An Optimal Transport Approach for Network Regression ( http://arxiv.org/abs/2406.12204v1 )

ライセンス: Link先を確認
Alex G. Zalles, Kai M. Hung, Ann E. Finneran, Lydia Beaudrot, César A. Uribe, (参考訳) 本研究では,ネットワークのトポロジがユークリッド共変量の関数としてどのように変化するかに関心を持つネットワーク回帰問題について検討する。 我々は、Fr'echet平均に基づく距離空間上の一般化回帰モデルにおける最近の発展の上に構築し、ワッサーシュタイン計量を用いたネットワーク回帰法を提案する。 グラフを多変量ガウス分布として表すとき、ネットワーク回帰問題はリーマン中心の質量の計算を必要とする(つまり Fr\echet は意味)。 Fr\'echet は非負の重みがバリセンター問題に変換され、固定点反復を用いて効率的に計算できることを意味する。 ワッサーシュタインアフィン平均の計算に対する固定点反復の収束保証は未解決の問題であるが、多くの合成および実データシナリオにおける収束の証拠を提供する。 提案手法は, 合成実験におけるグラフサイズ, トポロジ, 疎度を正確に考慮し, 既存手法の改善を図っている。 さらに,提案手法を用いた実世界の実験により,決定係数(R^{2}$)が高く,平均2乗予測誤差(MSPE)が低くなり,実際の予測能力が向上した。

We study the problem of network regression, where one is interested in how the topology of a network changes as a function of Euclidean covariates. We build upon recent developments in generalized regression models on metric spaces based on Fr\'echet means and propose a network regression method using the Wasserstein metric. We show that when representing graphs as multivariate Gaussian distributions, the network regression problem requires the computation of a Riemannian center of mass (i.e., Fr\'echet means). Fr\'echet means with non-negative weights translates into a barycenter problem and can be efficiently computed using fixed point iterations. Although the convergence guarantees of fixed-point iterations for the computation of Wasserstein affine averages remain an open problem, we provide evidence of convergence in a large number of synthetic and real-data scenarios. Extensive numerical results show that the proposed approach improves existing procedures by accurately accounting for graph size, topology, and sparsity in synthetic experiments. Additionally, real-world experiments using the proposed approach result in higher Coefficient of Determination ($R^{2}$) values and lower mean squared prediction error (MSPE), cementing improved prediction capabilities in practice.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# 優先フィードバックを用いたオフライン強化学習のための順序最適インスタンス依存境界

Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback ( http://arxiv.org/abs/2406.12205v1 )

ライセンス: Link先を確認
Zhirui Chen, Vincent Y. F. Tan, (参考訳) 我々は、暗黙の報酬が未知パラメータの線形関数である選好フィードバックを持つオフライン強化学習(RL)を考える。 オフラインのデータセットが与えられた場合、我々の目標は各状態に対する最適なアクションを確認することであり、その最終的な目的は単に後悔を最小化することである。 提案するアルゴリズムは \underline{L}ocally \underline{O}ptimal \underline{W}eights or {\sc RL-LOW} で、$\exp ( - \Omega(n/H) )$で$n$はデータサンプルの数であり、$H$は各アクションの最適度差に明示的に依存するインスタンス依存の硬度量を表す。 さらに、優先フィードバックを伴うオフラインRLにおいて、一意のインスタンス依存の低バウンドを導出する。 興味深いことに、単純後悔点上の下限と上限は指数において順序的に一致し、次数的に RL-LOW の最適性を示す。 実用アプリケーションにおけるプライバシーの考慮事項として、我々は、$(\varepsilon,\delta)$-differential privacy の設定にまで拡張し、少し意外なことに、asymptotic regimeでは$H$が不変であり、$n$は無限大となる傾向があることを示します。 インスタンス依存のバウンダリを確立することに注力していることを考えると、私たちの作業は、好みのフィードバックを持ったオフラインRLに対する最悪の後悔の解決に焦点を当てた以前の作業とは対照的です。

We consider offline reinforcement learning (RL) with preference feedback in which the implicit reward is a linear function of an unknown parameter. Given an offline dataset, our objective consists in ascertaining the optimal action for each state, with the ultimate goal of minimizing the {\em simple regret}. We propose an algorithm, \underline{RL} with \underline{L}ocally \underline{O}ptimal \underline{W}eights or {\sc RL-LOW}, which yields a simple regret of $\exp ( - \Omega(n/H) )$ where $n$ is the number of data samples and $H$ denotes an instance-dependent hardness quantity that depends explicitly on the suboptimality gap of each action. Furthermore, we derive a first-of-its-kind instance-dependent lower bound in offline RL with preference feedback. Interestingly, we observe that the lower and upper bounds on the simple regret match order-wise in the exponent, demonstrating order-wise optimality of {\sc RL-LOW}. In view of privacy considerations in practical applications, we also extend {\sc RL-LOW} to the setting of $(\varepsilon,\delta)$-differential privacy and show, somewhat surprisingly, that the hardness parameter $H$ is unchanged in the asymptotic regime as $n$ tends to infinity; this underscores the inherent efficiency of {\sc RL-LOW} in terms of preserving the privacy of the observed rewards. Given our focus on establishing instance-dependent bounds, our work stands in stark contrast to previous works that focus on establishing worst-case regrets for offline RL with preference feedback.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# 言語モデルの重みを進化させることによる知識融合

Knowledge Fusion By Evolving Weights of Language Models ( http://arxiv.org/abs/2406.12208v1 )

ライセンス: Link先を確認
Guodong Du, Jing Li, Hanting Liu, Runhua Jiang, Shuyang Yu, Yifei Guo, Sim Kuan Goh, Ho-Kin Tang, (参考訳) 微調整された事前訓練された言語モデル、特に大きな言語モデルは、広範なコンピューティングリソースを必要とし、異なるドメインやデータセット間で様々なパフォーマンス結果をもたらす可能性がある。 本稿では、多様なトレーニングシナリオから複数のモデルを統合するアプローチを統一モデルに統合する方法について検討する。 この統一モデルは、様々なデータドメインにまたがって拡張され、ドメイン外のデータに対してうまく一般化する能力を示す。 本研究では,進化的アルゴリズムにインスパイアされた知識融合手法であるEvolverを提案する。 具体的には、異なる言語モデルの重みを集団に集約し、その後、突然変異や交叉操作によって子孫モデルを生成する。 これらの子孫モデルは両親に対して評価され、開発データセットの性能向上を示すモデルを保存することができる。 重要なことは、我々のモデル進化戦略は既存のモデルマージフレームワークとシームレスに統合でき、モデル拡張のための汎用的なツールを提供する。 主流言語モデル(エンコーダオンリー、デコーダオンリー、エンコーダオンリー、エンコーダ-デコーダ)の実験的結果は、エボルバーが従来の最先端モデルよりも大きなマージンで優れていることを示している。 コードは、https://github.com/duguodong7/model-evolution}で公開されている。

Fine-tuning pre-trained language models, particularly large language models, demands extensive computing resources and can result in varying performance outcomes across different domains and datasets. This paper examines the approach of integrating multiple models from diverse training scenarios into a unified model. This unified model excels across various data domains and exhibits the ability to generalize well on out-of-domain data. We propose a knowledge fusion method named Evolver, inspired by evolutionary algorithms, which does not need further training or additional training data. Specifically, our method involves aggregating the weights of different language models into a population and subsequently generating offspring models through mutation and crossover operations. These offspring models are then evaluated against their parents, allowing for the preservation of those models that show enhanced performance on development datasets. Importantly, our model evolving strategy can be seamlessly integrated with existing model merging frameworks, offering a versatile tool for model enhancement. Experimental results on mainstream language models (i.e., encoder-only, decoder-only, encoder-decoder) reveal that Evolver outperforms previous state-of-the-art models by large margins. The code is publicly available at {https://github.com/duguodong7/model-evolution}.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# 自己教師付き音声モデルのインタフェース設計

Interface Design for Self-Supervised Speech Models ( http://arxiv.org/abs/2406.12209v1 )

ライセンス: Link先を確認
Yi-Jen Shih, David Harwath, (参考訳) 近年,多くのダウンストリーム音声処理タスクにおいて,自己教師付き音声(SSL)モデルが広く採用されている。 一般的な利用パターンは、SSLモデルを特徴抽出器として使用し、ダウンストリーム予測ヘッドをトレーニングして特定のタスクを解決することである。 しかし、SSLモデルの異なるレイヤが異なるタイプの情報をキャプチャできることが示されており、それらを組み合わせる方法は十分に研究されていない。 この目的のために、上流と下流を結ぶインターフェースを提案することにより、SSLモデル利用のための一般的なフレームワークを拡張します。 この観点では、階層的に重み付けされた和によって特徴を組み合わせるという支配的な手法は、特定のインターフェースと見なすことができる。 いくつかの代替インターフェースの設計を提案し、重み付けされた和インタフェースが多くのタスクに最適であることを示す。 特に、上流モデルの深さと対数的にスケールする畳み込みインタフェースが、他の多くのインタフェース設計より一貫して優れていることを示す。

Self-supervised speech (SSL) models have recently become widely adopted for many downstream speech processing tasks. The general usage pattern is to employ SSL models as feature extractors, and then train a downstream prediction head to solve a specific task. However, different layers of SSL models have been shown to capture different types of information, and the methods of combining them are not well studied. To this end, we extend the general framework for SSL model utilization by proposing the interface that connects the upstream and downstream. Under this view, the dominant technique of combining features via a layerwise weighted sum can be regarded as a specific interface. We propose several alternative interface designs and demonstrate that the weighted sum interface is suboptimal for many tasks. In particular, we show that a convolutional interface whose depth scales logarithmically with the depth of the upstream model consistently outperforms many other interface designs.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# Ego4DのためのPCIE_LAMソリューション

PCIE_LAM Solution for Ego4D Looking At Me Challenge ( http://arxiv.org/abs/2406.12211v1 )

ライセンス: Link先を確認
Kanokphan Lertniphonphan, Jun Xie, Yaqing Meng, Shijing Wang, Feng Chen, Zhepeng Wang, (参考訳) 本報告では,CVPR2024におけるEgo4D Looking At Me ChallengeにおけるPCIE_LAMソリューションについて述べる。 この課題の主な目的は、ソーシャルパートナーの顔がローカライズされたビデオに基づいて、現場の人がカメラ着用者を見ているかどうかを正確に判断することである。 提案するソリューションであるInternLSTMは,InternVL画像エンコーダとBi-LSTMネットワークから構成される。 InternVLは空間的特徴を抽出し、Bi-LSTMは時間的特徴を抽出する。 しかし,この課題は,映像中の人物とカメラの動きとの距離が大きな課題であり,顔画像に顕著なぼやけが生じている。 タスクの複雑さに対処するため,我々はGaze Smoothing filterを実装し,出力からノイズやスパイクを除去した。 提案手法は,0.81mAPと0.93の精度で,私の挑戦に対する第1位を達成した。 コードはhttps://github.com/KanokphanL/Ego4D_LAM_InternLSTMで公開されている。

This report presents our team's 'PCIE_LAM' solution for the Ego4D Looking At Me Challenge at CVPR2024. The main goal of the challenge is to accurately determine if a person in the scene is looking at the camera wearer, based on a video where the faces of social partners have been localized. Our proposed solution, InternLSTM, consists of an InternVL image encoder and a Bi-LSTM network. The InternVL extracts spatial features, while the Bi-LSTM extracts temporal features. However, this task is highly challenging due to the distance between the person in the scene and the camera movement, which results in significant blurring in the face image. To address the complexity of the task, we implemented a Gaze Smoothing filter to eliminate noise or spikes from the output. Our approach achieved the 1st position in the looking at me challenge with 0.81 mAP and 0.93 accuracy rate. Code is available at https://github.com/KanokphanL/Ego4D_LAM_InternLSTM
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# LLM-Oracle マシン

LLM-Oracle Machines ( http://arxiv.org/abs/2406.12213v1 )

ライセンス: Link先を確認
Jie Wang, (参考訳) 現代のAIアプリケーションは、自然言語処理タスクにおける知識と推論能力のために、大きな言語モデル(LLM)を利用している。 このアプローチは、オラクルチューリングマシン(OTM)の概念と一致している。 これらの計算の本質を捉えるために、OTMの概念を、LLMのクラスタをオラクルとして利用することで拡張する。 基本、拡張、障害回避、および$\epsilon$-faultの4つのバリエーションを提示します。 最初の2つの変種は一般的に観察されるが、後者の2つの変種は LLM の幻覚、偏見、矛盾に対処することによって信頼性の高い結果を保証するように設計されている。

Contemporary AI applications leverage large language models (LLMs) for their knowledge and inference capabilities in natural language processing tasks. This approach aligns with the concept of oracle Turing machines (OTMs). To capture the essence of these computations, including those desired but not yet in practice, we extend the notion of OTMs by employing a cluster of LLMs as the oracle. We present four variants: basic, augmented, fault-avoidance, and $\epsilon$-fault. The first two variants are commonly observed, whereas the latter two are specifically designed to ensure reliable outcomes by addressing LLM hallucinations, biases, and inconsistencies.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# HDマップコンストラクタはセンサの故障下で信頼性が高いか?

Is Your HD Map Constructor Reliable under Sensor Corruptions? ( http://arxiv.org/abs/2406.12214v1 )

ライセンス: Link先を確認
Xiaoshuai Hao, Mengchuan Wei, Yifan Yang, Haimei Zhao, Hui Zhang, Yi Zhou, Qiang Wang, Weiming Li, Lingdong Kong, Jing Zhang, (参考訳) 運転システムは、しばしば計画とナビゲーションに不可欠である正確な環境情報のために高精細(HD)マップに頼っている。 現在のHDマップコンストラクタは理想的な条件下ではよく機能するが、現実の課題、すなわち悪天候やセンサーの故障に対するレジリエンスはよく理解されていない。 この研究は、様々なセンサの破損に対するHDマップ構築手法の堅牢性を評価するために設計された最初の総合的なベンチマークであるMapBenchを紹介する。 私たちのベンチマークでは、カメラとLiDARセンサーから発生した29種類の汚職を網羅しています。 31個のHDマップコンストラクタに対する広範囲な評価により, 気象条件やセンサ故障による既存手法の性能劣化が顕著であり, 重大な安全性上の懸念が浮き彫りにされている。 マルチモーダル融合、高度なデータ拡張、アーキテクチャ技術を活用した革新的なアプローチを含む、堅牢性向上のための効果的な戦略を特定します。 これらの知見は、自動運転技術の進歩に欠かせない、より信頼性の高いHDマップ構築手法を開発するための経路を提供する。 ベンチマークツールキットと関連するコードとモデルチェックポイントが一般に公開されている。

Driving systems often rely on high-definition (HD) maps for precise environmental information, which is crucial for planning and navigation. While current HD map constructors perform well under ideal conditions, their resilience to real-world challenges, \eg, adverse weather and sensor failures, is not well understood, raising safety concerns. This work introduces MapBench, the first comprehensive benchmark designed to evaluate the robustness of HD map construction methods against various sensor corruptions. Our benchmark encompasses a total of 29 types of corruptions that occur from cameras and LiDAR sensors. Extensive evaluations across 31 HD map constructors reveal significant performance degradation of existing methods under adverse weather conditions and sensor failures, underscoring critical safety concerns. We identify effective strategies for enhancing robustness, including innovative approaches that leverage multi-modal fusion, advanced data augmentation, and architectural techniques. These insights provide a pathway for developing more reliable HD map construction methods, which are essential for the advancement of autonomous driving technology. The benchmark toolkit and affiliated code and model checkpoints have been made publicly accessible.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# パーソナはパーソナリティに十分か? 簡単な説明からエージェントの潜伏したパーソナリティを再構築するためにChatGPTを用いて

Is persona enough for personality? Using ChatGPT to reconstruct an agent's latent personality from simple descriptions ( http://arxiv.org/abs/2406.12216v1 )

ライセンス: Link先を確認
Yongyi Ji, Zhisheng Tang, Mayank Kejriwal, (参考訳) パーソナリティ(Personality)は、人間の認知の基本的な側面であり、行動、思考、感情に影響を与える様々な特徴を含んでいる。 本稿では,社会デコグラフィとパーソナリティ型情報を含む簡単な記述のみに基づいて,これらの複雑な認知属性を再構築する大規模言語モデル(LLM)の機能について考察する。 本研究は,HEXACOパーソナリティの枠組みを応用し,簡単な記述からLLMを復元・予測する上での一貫性について検討した。 本実験では, 人格再建において, 明らかな情報がない場合に, 肯定的な特徴をデフォルトとする傾向など, 不整合性や偏見など, ある程度の一貫性が認められた。 さらに、年齢や子供の数といった社会デマトグラフィー的要因が、再建された個性次元に影響を及ぼすことが判明した。 これらの知見は、LSMを用いた洗練されたエージェントベースシミュラクラの構築に影響を及ぼし、LSMにおけるロバストなパーソナリティ生成のさらなる研究の必要性を強調した。

Personality, a fundamental aspect of human cognition, contains a range of traits that influence behaviors, thoughts, and emotions. This paper explores the capabilities of large language models (LLMs) in reconstructing these complex cognitive attributes based only on simple descriptions containing socio-demographic and personality type information. Utilizing the HEXACO personality framework, our study examines the consistency of LLMs in recovering and predicting underlying (latent) personality dimensions from simple descriptions. Our experiments reveal a significant degree of consistency in personality reconstruction, although some inconsistencies and biases, such as a tendency to default to positive traits in the absence of explicit information, are also observed. Additionally, socio-demographic factors like age and number of children were found to influence the reconstructed personality dimensions. These findings have implications for building sophisticated agent-based simulacra using LLMs and highlight the need for further research on robust personality generation in LLMs.
翻訳日:2024-06-19 23:08:33 公開日:2024-06-18
# EgoExo4Dハンドポース問題に対するPCIE_EgoHandPoseソリューション

PCIE_EgoHandPose Solution for EgoExo4D Hand Pose Challenge ( http://arxiv.org/abs/2406.12219v1 )

ライセンス: Link先を確認
Feng Chen, Ling Ding, Kanokphan Lertniphonphan, Jian Li, Kaer Huang, Zhepeng Wang, (参考訳) 本報告では,CVPR2024におけるEgoExo4Dハンドポースチャレンジに対する,我々のチームの 'PCIE_EgoHandPose' ソリューションについて述べる。 課題の主な目的は、タスクのために提供されるRGBエゴセントリックな映像を用いて、21個の3次元関節を含む手振りを正確に推定することである。 この作業は微妙な動きと閉塞のために特に困難である。 タスクの複雑さに対処するため,Hand Pose Vision Transformer (HP-ViT)を提案する。 HP−ViTは、MPJPEおよびRLE損失関数を利用して、3Dにおける関節位置を推定するViTバックボーンとトランスフォーマーヘッドとを備える。 提案手法は25.51MPJPEと8.49PA-MPJPEでハンドポースの1位を獲得した。 コードはhttps://github.com/KanokphanL/PCIE_EgoHandPoseで入手できる。

This report presents our team's 'PCIE_EgoHandPose' solution for the EgoExo4D Hand Pose Challenge at CVPR2024. The main goal of the challenge is to accurately estimate hand poses, which involve 21 3D joints, using an RGB egocentric video image provided for the task. This task is particularly challenging due to the subtle movements and occlusions. To handle the complexity of the task, we propose the Hand Pose Vision Transformer (HP-ViT). The HP-ViT comprises a ViT backbone and transformer head to estimate joint positions in 3D, utilizing MPJPE and RLE loss function. Our approach achieved the 1st position in the Hand Pose challenge with 25.51 MPJPE and 8.49 PA-MPJPE. Code is available at https://github.com/KanokphanL/PCIE_EgoHandPose
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# 階層型連想記憶,並列化MLPミキサー,シンメトリーブレーカ

Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking ( http://arxiv.org/abs/2406.12220v1 )

ライセンス: Link先を確認
Ryo Karakida, Toshihiro Ota, Masato Taki, (参考訳) トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとしての地位を確立し、さまざまな領域で基盤を築きつつある。 視覚学において、MLP-Mixerモデルは競争性能を示しており、注意機構は不可欠ではないかもしれないことを示唆している。 これに触発された最近の研究は、MetaFormersによって記述されたものを含む他のメカニズムに注意モジュールを置き換えることを検討している。 しかし、これらのモデルの理論的枠組みは未開発のままである。 本稿では,Krotovの階層型連想メモリをMetaFormersに統合し,トークン/チャネル混在モジュールを含むTransformerブロック全体の包括的表現,レイヤ正規化,スキップ接続を単一ホップフィールドネットワークとして実現する,新しい視点を提案する。 このアプローチは、対称トークン/チャネル混合モジュールと層正規化を自然に組み込んだ3層ホップフィールドネットワークから派生した並列MLPミクサを生成する。 実験的な研究により、モデル内の対称相互作用行列が画像認識タスクのパフォーマンスを妨げていることが明らかになった。 対称性破壊効果の導入は、対称並列化MLPミキサーの性能をバニラMLPミキサーに遷移させる。 これは、標準トレーニング中、バニラMLP-ミキサーの重量行列が自発的に対称性を破る構成を取得し、その効果を高めることを示唆している。 これらの結果はトランスフォーマーとMLP-Mixersの本質的な特性とその理論的基盤に関する洞察を与え、将来のモデル設計と最適化のための堅牢なフレームワークを提供する。

Transformers have established themselves as the leading neural network model in natural language processing and are increasingly foundational in various domains. In vision, the MLP-Mixer model has demonstrated competitive performance, suggesting that attention mechanisms might not be indispensable. Inspired by this, recent research has explored replacing attention modules with other mechanisms, including those described by MetaFormers. However, the theoretical framework for these models remains underdeveloped. This paper proposes a novel perspective by integrating Krotov's hierarchical associative memory with MetaFormers, enabling a comprehensive representation of the entire Transformer block, encompassing token-/channel-mixing modules, layer normalization, and skip connections, as a single Hopfield network. This approach yields a parallelized MLP-Mixer derived from a three-layer Hopfield network, which naturally incorporates symmetric token-/channel-mixing modules and layer normalization. Empirical studies reveal that symmetric interaction matrices in the model hinder performance in image recognition tasks. Introducing symmetry-breaking effects transitions the performance of the symmetric parallelized MLP-Mixer to that of the vanilla MLP-Mixer. This indicates that during standard training, weight matrices of the vanilla MLP-Mixer spontaneously acquire a symmetry-breaking configuration, enhancing their effectiveness. These findings offer insights into the intrinsic properties of Transformers and MLP-Mixers and their theoretical underpinnings, providing a robust framework for future model design and optimization.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# 幻覚軽減のためのオン・ポリシィききめ細かな知識フィードバック

On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation ( http://arxiv.org/abs/2406.12221v1 )

ライセンス: Link先を確認
Xueru Wen, Xinyu Lu, Xinyan Guan, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, (参考訳) 幻覚は、大きな言語モデル(LLM)が応答生成プロセス中に知識の境界から逸脱する振る舞いを示すときに起こる。 従来の学習ベース手法では、知識境界の検出や、インスタンスレベルのフィードバックによる微調整に重点を置いていたが、非政治的なデータサンプリングや粗い粒度のフィードバックによる不正確な信号に悩まされている。 本稿では, 覚醒緩和のための微粒なフィードバックに基づくオンライン強化学習法である \textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination} (RLFH) を紹介する。 従来の学習ベースの手法とは異なり、RLFHはLSMが内部知識の境界を探索し、これらの探索に関する詳細なフィードバックを提供することを可能にする。 信頼性のある生成行動を学ぶためのきめ細かいフィードバックを構築するため、RLFHは大規模モデルの結果を原子事実に分解し、ステートメントレベルの評価信号を提供し、元の応答のトークンに信号をトレースする。 最後に、RLFHはこれらのトークンレベルの報酬とともにオンライン強化アルゴリズムを採用し、幻覚緩和のためのモデル行動を調整する。 RLFHは、効果的な政治最適化のために、人間の介入なしに原子事実の真偽と有用性を検証するLLMベースの事実評価フレームワークも導入している。 HotpotQA, SQuADv2, Biography のベンチマーク実験により, RLFH は生成過程における内部知識の利用のバランスを保ち, LLM の幻覚挙動を排除できることが示された。

Hallucination occurs when large language models (LLMs) exhibit behavior that deviates from the boundaries of their knowledge during the response generation process. Previous learning-based methods focus on detecting knowledge boundaries and finetuning models with instance-level feedback, but they suffer from inaccurate signals due to off-policy data sampling and coarse-grained feedback. In this paper, we introduce \textit{\b{R}einforcement \b{L}earning \b{f}or \b{H}allucination} (RLFH), a fine-grained feedback-based online reinforcement learning method for hallucination mitigation. Unlike previous learning-based methods, RLFH enables LLMs to explore the boundaries of their internal knowledge and provide on-policy, fine-grained feedback on these explorations. To construct fine-grained feedback for learning reliable generation behavior, RLFH decomposes the outcomes of large models into atomic facts, provides statement-level evaluation signals, and traces back the signals to the tokens of the original responses. Finally, RLFH adopts the online reinforcement algorithm with these token-level rewards to adjust model behavior for hallucination mitigation. For effective on-policy optimization, RLFH also introduces an LLM-based fact assessment framework to verify the truthfulness and helpfulness of atomic facts without human intervention. Experiments on HotpotQA, SQuADv2, and Biography benchmarks demonstrate that RLFH can balance their usage of internal knowledge during the generation process to eliminate the hallucination behavior of LLMs.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# BadSampler:バイザンチン中毒のフェデレーション・ラーニングに対する破滅的な期待

BadSampler: Harnessing the Power of Catastrophic Forgetting to Poison Byzantine-robust Federated Learning ( http://arxiv.org/abs/2406.12222v1 )

ライセンス: Link先を確認
Yi Liu, Cong Wang, Xingliang Yuan, (参考訳) フェデレーテッド・ラーニング(FL)は、攻撃を受けたクライアントがローカルデータセットを変更したり、操作されたモデル更新を送信することで、グローバルモデルを操作できる。 経験豊富なディフェンダーは、ビザンチン・ロバスト・アグリゲーション・ルールを用いて、悪意ある行動による中毒効果を素早く検出し、軽減することができる。 しかし、このような行動が欠如している場合の毒殺事件の探索は、ビザンティン・ローバストFLにとってほとんど調査されていない。 本稿では,破滅的な忘れを伴ってビザンチン・ローバストFLに毒を盛ることの難しさに対処する。 このギャップを埋めるために、我々はまず、一般化エラーを正式に定義し、破滅的な忘れ物との関係を確立し、BadSamplerというクリーンラベルデータ中毒攻撃の開発に道を開く。 この攻撃は、Byzantine-Robust FLに毒を盛るために、クリーンラベルデータ(すなわち、有毒データ無し)のみを利用し、モデルトレーニングをフィードし、モデルの一般化誤差を最大化するために、高損失のトレーニングデータを選択的にサンプリングする必要がある。 この攻撃を最適化問題として定式化し、Top-$\kappa$ サンプリングとメタサンプリングという2つのエレガントな逆サンプリング戦略を提案する。 さらに、我々の形式的エラー上限と時間複雑性解析により、我々の設計は攻撃ユーティリティを高い効率で維持できることを示した。 2つの実世界のデータセットに対する大規模な評価は、提案した攻撃の有効性と性能を示している。

Federated Learning (FL) is susceptible to poisoning attacks, wherein compromised clients manipulate the global model by modifying local datasets or sending manipulated model updates. Experienced defenders can readily detect and mitigate the poisoning effects of malicious behaviors using Byzantine-robust aggregation rules. However, the exploration of poisoning attacks in scenarios where such behaviors are absent remains largely unexplored for Byzantine-robust FL. This paper addresses the challenging problem of poisoning Byzantine-robust FL by introducing catastrophic forgetting. To fill this gap, we first formally define generalization error and establish its connection to catastrophic forgetting, paving the way for the development of a clean-label data poisoning attack named BadSampler. This attack leverages only clean-label data (i.e., without poisoned data) to poison Byzantine-robust FL and requires the adversary to selectively sample training data with high loss to feed model training and maximize the model's generalization error. We formulate the attack as an optimization problem and present two elegant adversarial sampling strategies, Top-$\kappa$ sampling, and meta-sampling, to approximately solve it. Additionally, our formal error upper bound and time complexity analysis demonstrate that our design can preserve attack utility with high efficiency. Extensive evaluations on two real-world datasets illustrate the effectiveness and performance of our proposed attacks.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# ToxiCloakCN: 閉鎖摂動を伴う中国語における攻撃的言語検出のロバスト性の評価

ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking Perturbations ( http://arxiv.org/abs/2406.12223v1 )

ライセンス: Link先を確認
Yunze Xiao, Yujia Hu, Kenny Tsu Wei Choo, Roy Ka-wei Lee, (参考訳) ヘイトスピーチと攻撃的言語の検出は、安全で尊敬すべきデジタル環境を維持するために不可欠である。 本研究では,現在最先端の大規模言語モデル (LLM) の体系的摂動データにおける攻撃的内容の同定における限界について検討し,特にそのような摂動の影響を受けやすい言語である中国語に着目した。 ToxiCN から派生した拡張データセットである \textsf{ToxiCloakCN} をホモフォニック置換や絵文字変換で拡張し,これらの閉鎖摂動に対する LLM の堅牢性を検証する。 以上の結果から,これらの摂動を応用した場合,既存のモデルでは攻撃内容の検出が著しく不十分であることが判明した。 本研究では、これらの摂動によって異なるタイプの攻撃コンテンツがどのように影響を受けるのかを詳細に分析し、人間の攻撃性の説明とモデルによる攻撃性の説明の整合性を探究する。 我々の研究は、検出メカニズムを回避するために使用される進化的戦術に対抗するために、攻撃言語検出におけるより高度な技術が緊急に必要であることを強調している。

Detecting hate speech and offensive language is essential for maintaining a safe and respectful digital environment. This study examines the limitations of state-of-the-art large language models (LLMs) in identifying offensive content within systematically perturbed data, with a focus on Chinese, a language particularly susceptible to such perturbations. We introduce \textsf{ToxiCloakCN}, an enhanced dataset derived from ToxiCN, augmented with homophonic substitutions and emoji transformations, to test the robustness of LLMs against these cloaking perturbations. Our findings reveal that existing models significantly underperform in detecting offensive content when these perturbations are applied. We provide an in-depth analysis of how different types of offensive content are affected by these perturbations and explore the alignment between human and model explanations of offensiveness. Our work highlights the urgent need for more advanced techniques in offensive language detection to combat the evolving tactics used to evade detection mechanisms.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# CVPR2024の基礎的なFew-Shot物体検出問題の解法

The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge ( http://arxiv.org/abs/2406.12225v1 )

ライセンス: Link先を確認
Hongpeng Pan, Shifeng Yi, Shouwei Yang, Lei Qi, Bing Hu, Yi Xu, Yang Yang, (参考訳) 本稿では,視覚言語モデル(VLM)をオブジェクト検出に活用したFSOD(Foundational Few-Shot Object Detection)タスクの強化手法を提案する。 しかしながら、特定のデータセット上では、VLMは検出されたターゲットが対象とする関心の概念と不一致している問題に遭遇する可能性がある。 このミスアライメントは、VLMのゼロショット性能と擬似ラベルに基づく微調整手法の適用を妨げる。 この問題に対処するため,マルチモーダル大言語モデル(MM-LLM)を統合したVLM+フレームワークを提案する。 具体的には、MM-LLMを用いてカテゴリ毎に一連の参照式を生成する。 VLM予測とアノテーションに基づいて、最大IoUをマッチングすることで、各カテゴリの最良の参照式を選択する。 次に、これらの参照式を用いてトレーニングセット内のすべての画像に対して擬似ラベルを生成し、元のラベル付きデータと組み合わせてVLMを微調整する。 さらに,VLMの性能向上のために,繰り返し擬似ラベル生成と最適化を用いる。 最終試験では32.56mAPを達成した。

This report introduces an enhanced method for the Foundational Few-Shot Object Detection (FSOD) task, leveraging the vision-language model (VLM) for object detection. However, on specific datasets, VLM may encounter the problem where the detected targets are misaligned with the target concepts of interest. This misalignment hinders the zero-shot performance of VLM and the application of fine-tuning methods based on pseudo-labels. To address this issue, we propose the VLM+ framework, which integrates the multimodal large language model (MM-LLM). Specifically, we use MM-LLM to generate a series of referential expressions for each category. Based on the VLM predictions and the given annotations, we select the best referential expression for each category by matching the maximum IoU. Subsequently, we use these referential expressions to generate pseudo-labels for all images in the training set and then combine them with the original labeled data to fine-tune the VLM. Additionally, we employ iterative pseudo-label generation and optimization to further enhance the performance of the VLM. Our approach achieve 32.56 mAP in the final test.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# インストラクションベクトルによる大規模言語モデルの微調整の解釈可能なカタストロフィック・フォーミング

Interpretable Catastrophic Forgetting of Large Language Model Fine-tuning via Instruction Vector ( http://arxiv.org/abs/2406.12227v1 )

ライセンス: Link先を確認
Gangwei Jiang, Zhaoyi Li, Caigao Jiang, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Ying Wei, (参考訳) 微調整された大きな言語モデル(LLM)は、それらの一般的な能力を失う可能性がある。 しかし、そのような忘れ物の背後にある本質的なメカニズムは未解明のままである。 本稿では,この現象を,知識の理解と指導に焦点をあてて検討することから始める。 そこで本研究では,特定の命令追従能力に高い関連性を持つモデル表現を抽出し,モデル固有の忘れの理解を可能にするインストラクションベクトル(IV)フレームワークを提案する。 予備学習と後学習のIVダイナミクスの分析を通じて, ファインタニングは, 忘れているように見える以前のスキルを消去する代わりに, 専門的な推論パターンを主に追加することを提案する。 この知見に基づいて、元の計算グラフの保存を目的としたIV誘導学習を開発し、破滅的な忘れを緩和する。 3つのベンチマークの実証テストにより、この新しいアプローチの有効性が確認され、IVと忘れることの関係が支持された。 私たちのコードはまもなく利用可能になります。

Fine-tuning large language models (LLMs) can cause them to lose their general capabilities. However, the intrinsic mechanisms behind such forgetting remain unexplored. In this paper, we begin by examining this phenomenon by focusing on knowledge understanding and instruction following, with the latter identified as the main contributor to forgetting during fine-tuning. Consequently, we propose the Instruction Vector (IV) framework to capture model representations highly related to specific instruction-following capabilities, thereby making it possible to understand model-intrinsic forgetting. Through the analysis of IV dynamics pre and post-training, we suggest that fine-tuning mostly adds specialized reasoning patterns instead of erasing previous skills, which may appear as forgetting. Building on this insight, we develop IV-guided training, which aims to preserve original computation graph, thereby mitigating catastrophic forgetting. Empirical tests on three benchmarks confirm the efficacy of this new approach, supporting the relationship between IVs and forgetting. Our code will be made available soon.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# 量子通信ネットワークにおける経路パーコレーション

Path Percolation in Quantum Communication Networks ( http://arxiv.org/abs/2406.12228v1 )

ライセンス: Link先を確認
Xiangyi Meng, Bingjie Hao, Balázs Ráth, István A. Kovács, (参考訳) 量子通信ネットワークでは、リンクは異なるノードに位置する量子ビット間の絡み合いを表す。 2つのノードが共有絡み合わさって直接リンクされていなくても、量子ルーティングプロトコルを介して通信チャネルを確立することができる。 しかし、古典的な通信ネットワークとは対照的に、各通信イベントは通信経路に沿ったすべてのリンクを取り除き、量子ネットワークを妨害する。 本稿では,ランダムに選択されたノード対が最短経路を介して通信する単純なモデルを提案する。 このようなパスを使用するたびに、すべてのリンクが削除され、``path percolation'と呼ばれる相関パーコレーションプロセスが生成される。 そこで我々は,経路パーコレーションを数値的に解析的に検討し,新しいリンクが量子通信ネットワークに追加される速度の関数として定常状態の位相図を提示する。 その結果、新しいリンクが切断されたコンポーネント間でランダムに追加された場合、定常状態は初期ネットワークトポロジーとは独立であることが判明した。 経路パーコレーションの拡張とその潜在的な応用について論じる。

In a quantum communication network, links represent entanglement between qubits located at different nodes. Even if two nodes are not directly linked by shared entanglement, communication channels can be established between them via quantum routing protocols. However, in contrast to classical communication networks, each communication event removes all participating links along the communication path, disrupting the quantum network. Here, we propose a simple model, where randomly selected pairs of nodes communicate through shortest paths. Each time such a path is used, all participating links are eliminated, leading to a correlated percolation process that we call ``path percolation.'' We study path percolation both numerically and analytically and present the phase diagram of the steady states as a function of the rate at which new links are being added to the quantum communication network. As a key result, the steady state is found to be independent from the initial network topology when new link are added randomly between disconnected components. We close by discussing extensions of path percolation and their potential applications.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# HSIC-bottleneck正規化を用いたマルチビューグラフコントラスト学習による組織からの空間分解遺伝子発現予測

Spatially Resolved Gene Expression Prediction from Histology via Multi-view Graph Contrastive Learning with HSIC-bottleneck Regularization ( http://arxiv.org/abs/2406.12229v1 )

ライセンス: Link先を確認
Changxi Chi, Hang Shi, Qi Zhu, Daoqiang Zhang, Wei Shao, (参考訳) 空間転写学(ST)の急速な発展により、空間分解能における遺伝子発現の測定が可能となり、同時に遺伝子発現、スポットの空間的位置、および一致した病理像をプロファイルすることができる。 しかし,STデータ収集のコストは病理組織像の取得よりもはるかに高く,それに対応する病理組織像を利用してST上での遺伝子発現を予測しようとする研究もいくつかある。 既存の画像ベース遺伝子予測モデルのほとんどは、STデータの各スポットにおける予測タスクを独立に扱うが、スポット間の空間依存性を無視する。 また, 組織像はSTデータと表現特性を共有しているが, ペア画像と表現表現の整合を支援するために, このような共通情報を抽出することは依然として困難である。 以上の課題に対処するため,HSIC-bottleneck Regularization(ST-GCHB)を用いたマルチビューグラフコントラスト学習フレームワークを提案する。

The rapid development of spatial transcriptomics(ST) enables the measurement of gene expression at spatial resolution, making it possible to simultaneously profile the gene expression, spatial locations of spots, and the matched histopathological images. However, the cost for collecting ST data is much higher than acquiring histopathological images, and thus several studies attempt to predict the gene expression on ST by leveraging their corresponding histopathological images. Most of the existing image-based gene prediction models treat the prediction task on each spot of ST data independently, which ignores the spatial dependency among spots. In addition, while the histology images share phenotypic characteristics with the ST data, it is still challenge to extract such common information to help align paired image and expression representations. To address the above issues, we propose a Multi-view Graph Contrastive Learning framework with HSIC-bottleneck Regularization(ST-GCHB) aiming at learning shared representation to help impute the gene expression of the queried imagingspots by considering their spatial dependency.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# MCSD: 拡散融合を用いた効率的な言語モデル

MCSD: An Efficient Language Model with Diverse Fusion ( http://arxiv.org/abs/2406.12230v1 )

ライセンス: Link先を確認
Hua Yang, Duohai Li, Shiman Li, (参考訳) トランスフォーマーは自然言語処理(NLP)において、長期依存を捕捉する能力から優れているが、シーケンス長の増加とともに指数的なリソース消費に悩まされている。 これらの課題に対処するために,線形スケーリングと高速推論速度を備えた効率的な言語モデルであるMCSDモデルを提案する。 MCSDモデルは多チャンネルスロープと崩壊ブロック(MCSD)を通して様々な特徴融合を活用し、特徴を頑健に表現する。 このブロックは傾斜部と崩壊部から構成され、様々な時間的受容領域にまたがる特徴を抽出し、局所情報とグローバル情報の両方を捕捉する。 さらに、MCSDブロックは様々な特徴を要素的に融合させ、繊細な特徴抽出能力をさらに強化する。 推論のために、推論プロセスを反復表現に定式化し、空間複雑性を$O(1)$に、時間複雑性を$O(N)$に分割する。 実験の結果,MCSD は Transformers と比較して高いスループットと低GPU メモリ消費を実現し,ベンチマークテストにおける大規模言語学習モデルと同等の性能を維持した。 これらの属性は、MCSDをエッジデプロイメントとインテリジェンスを具現化する有望な基盤として位置づけている。

Transformers excel in Natural Language Processing (NLP) due to their prowess in capturing long-term dependencies but suffer from exponential resource consumption with increasing sequence lengths. To address these challenges, we propose MCSD model, an efficient language model with linear scaling and fast inference speed. MCSD model leverages diverse feature fusion, primarily through the multi-channel slope and decay (MCSD) block, to robustly represent features. This block comprises slope and decay sections that extract features across diverse temporal receptive fields, facilitating capture of both local and global information. In addition, MCSD block conducts element-wise fusion of diverse features to further enhance the delicate feature extraction capability. For inference, we formulate the inference process into a recurrent representation, slashing space complexity to $O(1)$ and time complexity to $O(N)$ respectively. Our experiments show that MCSD attains higher throughput and lower GPU memory consumption compared to Transformers, while maintaining comparable performance to larger-scale language learning models on benchmark tests. These attributes position MCSD as a promising base for edge deployment and embodied intelligence.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# 「君が医者になる」:就労勧告における大言語モデルの名前に基づくバイアスの検討

"You Gotta be a Doctor, Lin": An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations ( http://arxiv.org/abs/2406.12232v1 )

ライセンス: Link先を確認
Huy Nghiem, John Prindle, Jieyu Zhao, Hal Daumé III, (参考訳) 社会科学の研究によると、特定の人種や性別を示す名前を持つ候補者は、しばしば雇用慣行において差別に直面している。 同様に、Large Language Models (LLM) は、様々なアプリケーションに人種的および性別的偏見を示す。 本研究では,GPT-3.5-Turbo と Llama 3-70B-Instruct を用いて,人種や性別を強く示唆する320のファーストネームを持つ候補者の雇用決定と給与勧告を750,000件以上のプロンプトでシミュレートした。 以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。 また、同じ資格を持つ候補者の間でも、給与の推薦は異なるサブグループ間で最大5%の差がある。 実世界の労働データと比較すると、米国の労働市場特性と矛盾した一致が示され、LSMによるシステムのリスク調査の必要性が浮き彫りになっている。

Social science research has shown that candidates with names indicative of certain races or genders often face discrimination in employment practices. Similarly, Large Language Models (LLMs) have demonstrated racial and gender biases in various applications. In this study, we utilize GPT-3.5-Turbo and Llama 3-70B-Instruct to simulate hiring decisions and salary recommendations for candidates with 320 first names that strongly signal their race and gender, across over 750,000 prompts. Our empirical results indicate a preference among these models for hiring candidates with White female-sounding names over other demographic groups across 40 occupations. Additionally, even among candidates with identical qualifications, salary recommendations vary by as much as 5% between different subgroups. A comparison with real-world labor data reveals inconsistent alignment with U.S. labor market characteristics, underscoring the necessity of risk investigation of LLM-powered systems.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# SyncVSR: エンドツーエンド音声トケ同期によるデータ効率の良い視覚音声認識

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization ( http://arxiv.org/abs/2406.12233v1 )

ライセンス: Link先を確認
Young Jin Ahn, Jungwoo Park, Sangha Park, Jonghyun Choi, Kee-Eung Kim, (参考訳) 視覚音声認識(VSR)はコンピュータビジョンと音声認識の交差点に立ち、視覚的手がかりから音声コンテンツを解釈することを目的としている。 VSRにおける顕著な課題は、異なる音素を表すホモフェーンと視覚的に類似した唇ジェスチャーの存在である。 それまでのアプローチでは、視覚と聴覚のセマンティクスを整列させることで、細粒度のヴィゼムを区別しようとしたが、多くの場合、完全な同期に欠けていた。 そこで本研究では,フレームレベルのクロスモーダル監視に量子化オーディオを利用するエンドツーエンド学習フレームワークSyncVSRを提案する。 音響データと視覚表現を同期するプロジェクション層を統合することで、エンコーダは、非自己回帰的な方法でビデオシーケンスから離散的なオーディオトークンを生成することを学習する。 SyncVSRは、フォワードパスのコストでタスク、言語、モダリティの多角性を示す。 我々の経験的評価は、最先端の結果を達成するだけでなく、データ使用量を最大9倍に削減できることを示している。

Visual Speech Recognition (VSR) stands at the intersection of computer vision and speech recognition, aiming to interpret spoken content from visual cues. A prominent challenge in VSR is the presence of homophenes-visually similar lip gestures that represent different phonemes. Prior approaches have sought to distinguish fine-grained visemes by aligning visual and auditory semantics, but often fell short of full synchronization. To address this, we present SyncVSR, an end-to-end learning framework that leverages quantized audio for frame-level crossmodal supervision. By integrating a projection layer that synchronizes visual representation with acoustic data, our encoder learns to generate discrete audio tokens from a video sequence in a non-autoregressive manner. SyncVSR shows versatility across tasks, languages, and modalities at the cost of a forward pass. Our empirical evaluations show that it not only achieves state-of-the-art results but also reduces data usage by up to ninefold.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# ルテニウムポリピリジル色素の線形吸収スペクトルと系間交差速度係数におけるスピン軌道カップリングの役割

The Role of Spin-Orbit Coupling on the Linear Absorption Spectrum and Intersystem Crossing Rate Coefficients of Ruthenium Polypyridyl Dyes ( http://arxiv.org/abs/2406.12234v1 )

ライセンス: Link先を確認
Justin J. Talbot, Thomas P. Cheshire, Stephen J. Cotton, Frances A. Houle, Martin Head-Gordon, (参考訳) 太陽エネルギー変換に分子染料をうまく利用するには、効率的な電荷注入が必要であるため、十分な寿命を持つ状態(例えば三重項)を形成する必要がある。 この性質を推定する分子構造要素は経験的に見出すことができるが、$\textit{ab initio}$ 電子構造法による計算予測は、色素増感剤の構造-不純物関係を同定するのに非常に有用である。 これらの性質の電子的および核的起源を解明するシミュレーションの最大の課題は、電子状態間の遷移を駆動するスピン軌道相互作用である。 本研究では, リン化トリス(2,2'-ビピリジン)ルテニウム(2+)色素の誘導体集合に対するスピン軌道補正線形吸収断面積と系間交差率係数の計算解析を行った。 基底状態振動分布をサンプリングした後、予測線形吸収断面積は、これらの誘導体中の金属-配位子間電荷移動帯の線形状を定義する上で、一重項状態と三重項状態の混合が重要な役割を果たすことを示している。 さらに、系間交差速度係数の解析により、各色素分子に対して、一重項から三重項多様体への遷移は10^{13}$ s$^{-1}$の速度係数で超高速であることが示唆された。

The successful use of molecular dyes for solar energy conversion requires efficient charge injection, which in turn requires the formation of states with sufficiently long lifetimes (e.g. triplets). The molecular structure elements that confer this property can be found empirically, however computational predictions using $\textit{ab initio}$ electronic structure methods are invaluable to identify structure-property relations for dye sensitizers. The primary challenge for simulations to elucidate the electronic and nuclear origins of these properties is a spin-orbit interaction which drives transitions between electronic states. In this work, we present a computational analysis of the spin-orbit corrected linear absorption cross sections and intersystem crossing rate coefficients for a derivative set of phosphonated tris(2,2'-bipyridine)ruthenium(2+) dye molecules. After sampling the ground state vibrational distributions, the predicted linear absorption cross sections indicate that the mixture between singlet and triplet states plays a crucial role in defining the line shape of the metal-to-ligand charge transfer bands in these derivatives. Additionally, an analysis of the intersystem crossing rate coefficients suggests that transitions from the singlet into the triplet manifolds are ultrafast with rate coefficients on the order of $10^{13}$ s$^{-1}$ for each dye molecule.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# ホームズVAD:マルチモーダルLDMによる不偏・説明可能なビデオ異常検出を目指して

Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM ( http://arxiv.org/abs/2406.12235v1 )

ライセンス: Link先を確認
Huaxin Zhang, Xiaohao Xu, Xiang Wang, Jialong Zuo, Chuchu Han, Xiaonan Huang, Changxin Gao, Yuehuan Wang, Nong Sang, (参考訳) VAD(Open-ended Video Anomaly Detection)に対して、既存の手法では、困難なイベントや目に見えないイベントに直面し、解釈可能性に欠ける場合には、バイアス検出がしばしば現れる。 これらの欠点に対処するために、正確な時間的監督とリッチなマルチモーダル命令を活用して、正確な局所化と包括的説明を可能にする新しいフレームワークであるHolmes-VADを提案する。 まず、非バイアスで説明可能なVADシステムに向けて、VAD-Instruct50kと呼ばれる、最初の大規模マルチモーダルなVAD命令チューニングベンチマークを構築した。 このデータセットは、慎重に設計された半自動ラベリングパラダイムを用いて作成される。 収集した未トリミングビデオに効率的な単フレームアノテーションを適用し、ロバストなオフザシェルフビデオキャプタと大言語モデル(LLM)を用いて、異常ビデオクリップと正常ビデオクリップの両方の高品質な分析に合成する。 VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。 本研究では,多モーダル大言語モデル (LLM) を微調整し,説明内容を生成するために,高異常応答のフレームを選択するための軽量時間サンプリング器を訓練する。 大規模実験により提案したホームズ-VADの汎用性と解釈可能性を検証し,実世界のビデオ異常解析のための新しい解釈可能な手法として確立した。 コミュニティをサポートするため、ベンチマークとモデルはhttps://github.com/pipixin321/HolmesVAD.comで公開されます。

Towards open-ended Video Anomaly Detection (VAD), existing methods often exhibit biased detection when faced with challenging or unseen events and lack interpretability. To address these drawbacks, we propose Holmes-VAD, a novel framework that leverages precise temporal supervision and rich multimodal instructions to enable accurate anomaly localization and comprehensive explanations. Firstly, towards unbiased and explainable VAD system, we construct the first large-scale multimodal VAD instruction-tuning benchmark, i.e., VAD-Instruct50k. This dataset is created using a carefully designed semi-automatic labeling paradigm. Efficient single-frame annotations are applied to the collected untrimmed videos, which are then synthesized into high-quality analyses of both abnormal and normal video clips using a robust off-the-shelf video captioner and a large language model (LLM). Building upon the VAD-Instruct50k dataset, we develop a customized solution for interpretable video anomaly detection. We train a lightweight temporal sampler to select frames with high anomaly response and fine-tune a multimodal large language model (LLM) to generate explanatory content. Extensive experimental results validate the generality and interpretability of the proposed Holmes-VAD, establishing it as a novel interpretable technique for real-world video anomaly analysis. To support the community, our benchmark and model will be publicly available at https://github.com/pipixin321/HolmesVAD.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# PFID: LLMのためのプライバシファースト推論デリゲーションフレームワーク

PFID: Privacy First Inference Delegation Framework for LLMs ( http://arxiv.org/abs/2406.12238v1 )

ライセンス: Link先を確認
Haoyan Yang, Zhitao Li, Yong Zhang, Jianzong Wang, Ning Cheng, Ming Li, Jing Xiao, (参考訳) 本稿では,モデルシャーディングと特異値分解によるユーザデータのローカライズにより,重要なプライバシ問題に対処する,新たなプライバシ保護フレームワーク PFID for LLM を提案する。 ユーザがLLMシステムと対話する場合、そのプロンプトは、ユーザ入力の収集に関心のあるLLMシステムプロバイダ内外の盗聴者に対して公開される可能性がある。 本研究では,プライバシー問題を軽減するために,ユーザ入力をカモフラージュするフレームワークを提案する。 我々のフレームワークは、クライアントとパブリックサーバにモデルシャードを配置することを提案し、サーバへのプロンプトではなく、圧縮された隠された状態を送信した。 クライアントは隠された状態を再び民営化する情報を保持し、システム全体のパフォーマンスは従来のLLMサービスに匹敵する。 我々のフレームワークは通信効率が良いように設計されており、サーバの計算負担を軽減できるように、計算をローカルクライアントに委譲することができる。 フレームワークの性能を検証するため,機械翻訳タスクについて広範な実験を行った。

This paper introduces a novel privacy-preservation framework named PFID for LLMs that addresses critical privacy concerns by localizing user data through model sharding and singular value decomposition. When users are interacting with LLM systems, their prompts could be subject to being exposed to eavesdroppers within or outside LLM system providers who are interested in collecting users' input. In this work, we proposed a framework to camouflage user input, so as to alleviate privacy issues. Our framework proposes to place model shards on the client and the public server, we sent compressed hidden states instead of prompts to and from servers. Clients have held back information that can re-privatized the hidden states so that overall system performance is comparable to traditional LLMs services. Our framework was designed to be communication efficient, computation can be delegated to the local client so that the server's computation burden can be lightened. We conduct extensive experiments on machine translation tasks to verify our framework's performance.
翻訳日:2024-06-19 22:58:48 公開日:2024-06-18
# 近似サンプリングによる強化学習のためのより効率的なランダム化探索

More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling ( http://arxiv.org/abs/2406.12241v1 )

ライセンス: Link先を確認
Haque Ishfaq, Yixin Tan, Yu Yang, Qingfeng Lan, Jianfeng Lu, A. Rupam Mahmood, Doina Precup, Pan Xu, (参考訳) トンプソンサンプリング(Thompson sample, TS)は、強化学習(RL)において最も人気のある探索手法の一つである。 しかし、理論的な保証を持つほとんどのTSアルゴリズムは実装が困難であり、Deep RLには一般化できない。 出現する近似サンプリングベースの探索スキームは有望であるが、既存のアルゴリズムのほとんどは、線形マルコフ決定過程(英語版)(MDP)に特化しており、最適の後悔境界を持つか、ランゲヴィン・モンテカルロ(英語版)のような最も基本的なサンプルしか使用していない。 本研究では,最近提案されたFeel-Good Thompson Smpling (FGTS) アプローチ (Zhang, 2022; Dann et al , 2021) を用いて,様々な近似サンプリング手法を組み込んだアルゴリズムフレームワークを提案する。 線形MDPに適用した場合、我々の後悔分析は、既存のランダム化アルゴリズムを超越して、次元性に対する後悔の最もよく知られた依存性をもたらす。 さらに, 使用したサンプルに対して, 明示的なサンプリングの複雑さを提供する。 実験により、深層探査が必要なタスクにおいて、FGTSと近似サンプリングを組み合わせた提案アルゴリズムは、他の強力なベースラインに比べて大幅に性能が向上することを示した。 Atari 57スイートのいくつかの挑戦的なゲームにおいて、我々のアルゴリズムは、RLの深い文献から得られる他の強力なベースラインに匹敵するパフォーマンスを達成する。

Thompson sampling (TS) is one of the most popular exploration techniques in reinforcement learning (RL). However, most TS algorithms with theoretical guarantees are difficult to implement and not generalizable to Deep RL. While the emerging approximate sampling-based exploration schemes are promising, most existing algorithms are specific to linear Markov Decision Processes (MDP) with suboptimal regret bounds, or only use the most basic samplers such as Langevin Monte Carlo. In this work, we propose an algorithmic framework that incorporates different approximate sampling methods with the recently proposed Feel-Good Thompson Sampling (FGTS) approach (Zhang, 2022; Dann et al., 2021), which was previously known to be computationally intractable in general. When applied to linear MDPs, our regret analysis yields the best known dependency of regret on dimensionality, surpassing existing randomized algorithms. Additionally, we provide explicit sampling complexity for each employed sampler. Empirically, we show that in tasks where deep exploration is necessary, our proposed algorithms that combine FGTS and approximate sampling perform significantly better compared to other strong baselines. On several challenging games from the Atari 57 suite, our algorithms achieve performance that is either better than or on par with other strong baselines from the deep RL literature.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# GMP-AR: 時間階層予測のための粒度メッセージパッシングと適応的再構成

GMP-AR: Granularity Message Passing and Adaptive Reconciliation for Temporal Hierarchy Forecasting ( http://arxiv.org/abs/2406.12242v1 )

ライセンス: Link先を確認
Fan Zhou, Chen Pan, Lintao Ma, Yu Liu, James Zhang, Jun Zhou, Hongyuan Mei, Weitao Lin, Zi Zhuang, Wenxin Ning, Yunhua Hu, Siqiao Xue, (参考訳) 異なる時間的粒度の時系列予測は現実世界のアプリケーションで広く使われている。 しかしながら、これらのタスクは通常、下流の意思決定の整合に不可欠である一貫性を確保することなく、分離して解決される。 従来の研究は、例えば、粗粒度予測から粗粒度予測への集約、粗粒度から粗粒度へのアロケーションなど、いくつかの簡単な手法によるコヒーレンス確保に重点を置いていた。 これらの手法は、予測精度を向上することなく、時間的階層構造をコヒーレンスを維持するだけである。 本稿では、時間的階層情報を利用して予測性能を向上させる新しい粒度メッセージパッシング機構(GMP)を提案し、また、適応整合(AR)戦略を用いて、性能損失を伴わずにコヒーレンスを維持する。 さらに,より現実的な制約に固執しつつ,タスクベースの目標を達成するための最適化モジュールも導入する。 実世界のデータセットを用いた実験により、我々のフレームワーク(GMP-AR)は、最先端の手法と比較して時間的階層的予測タスクにおいて優れた性能を発揮することが示された。 さらに,我々のフレームワークは,タスクベースの最適化モジュールを統合することで,Alipayにおける実際の決済トラフィック管理のタスクにうまく適用されている。

Time series forecasts of different temporal granularity are widely used in real-world applications, e.g., sales prediction in days and weeks for making different inventory plans. However, these tasks are usually solved separately without ensuring coherence, which is crucial for aligning downstream decisions. Previous works mainly focus on ensuring coherence with some straightforward methods, e.g., aggregation from the forecasts of fine granularity to the coarse ones, and allocation from the coarse granularity to the fine ones. These methods merely take the temporal hierarchical structure to maintain coherence without improving the forecasting accuracy. In this paper, we propose a novel granularity message-passing mechanism (GMP) that leverages temporal hierarchy information to improve forecasting performance and also utilizes an adaptive reconciliation (AR) strategy to maintain coherence without performance loss. Furthermore, we introduce an optimization module to achieve task-based targets while adhering to more real-world constraints. Experiments on real-world datasets demonstrate that our framework (GMP-AR) achieves superior performances on temporal hierarchical forecasting tasks compared to state-of-the-art methods. In addition, our framework has been successfully applied to a real-world task of payment traffic management in Alipay by integrating with the task-based optimization module.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# CherryRec: LLM駆動フレームワークによるニュースレコメンデーション品質向上

CherryRec: Enhancing News Recommendation Quality via LLM-driven Framework ( http://arxiv.org/abs/2406.12243v1 )

ライセンス: Link先を確認
Shaohuang Wang, Lun Wang, Yunhan Bu, Tianwei Huang, (参考訳) 大規模言語モデル(LLM)は言語理解と生成において顕著な進歩を遂げた。 テキスト機能を活用したカスタムLLMがレコメンデーションシステムに適用され、さまざまなレコメンデーションシナリオの改善が実証されている。 しかし,既存のほとんどの手法では,事前学習した知識(例えば映画レコメンデーション)に基づいて未学習のレコメンデーションを行い,自動回帰によるレコメンデーション生成によって推論速度が遅くなり,リアルタイムレコメンデーションでは効果が低下する。これに対応するために,レコメンデーションプロセスの高速化を図りつつ,レコメンデーションの質を保証するためのフレームワークであるtextit{CherryRec} を提案する。 具体的には、ユーザのインタラクション履歴に基づいて候補候補を検索するために、知識対応ニュースラピッドセレクタを用いる。 履歴と検索された項目は、ニュースレコメンデーション機能を強化するために設計された、コンテンツ対応のニュースLlm評価ツールであるLLMにテキストとして入力される。 最後に、Value-Aware News Scorerはスコアを統合し、CherryRecスコアを計算し、最終的な推薦の基盤となる。 実験の結果、CherryRecはレコメンデーションパフォーマンスと効率の両方でベースラインを上回っており、プロジェクトリソースは以下の通りアクセスできます。

Large Language Models (LLMs) have achieved remarkable progress in language understanding and generation. Custom LLMs leveraging textual features have been applied to recommendation systems, demonstrating improvements across various recommendation scenarios. However, most existing methods perform untrained recommendation based on pre-trained knowledge (e.g., movie recommendation), and the auto-regressive generation of LLMs leads to slow inference speeds, making them less effective in real-time recommendations.To address this, we propose a framework for news recommendation using LLMs, named \textit{CherryRec}, which ensures the quality of recommendations while accelerating the recommendation process. Specifically, we employ a Knowledge-aware News Rapid Selector to retrieve candidate options based on the user's interaction history. The history and retrieved items are then input as text into a fine-tuned LLM, the Content-aware News Llm Evaluator, designed to enhance news recommendation capabilities. Finally, the Value-aware News Scorer integrates the scores to compute the CherryRec Score, which serves as the basis for the final recommendation.We validate the effectiveness of the proposed framework by comparing it with state-of-the-art baseline methods on benchmark datasets. Our experimental results consistently show that CherryRec outperforms the baselines in both recommendation performance and efficiency.The project resource can be accessed at: \url{https://github.com/xxxxxx}
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# W2E (Workout to Earn):ERC-20およびERC-721標準に基づく低コストDApp

W2E (Workout to Earn): A Low Cost DApp based on ERC-20 and ERC-721 standards ( http://arxiv.org/abs/2406.12244v1 )

ライセンス: Link先を確認
Do Hai Son, Nguyen Danh Hao, Tran Thi Thuy Quynh, Le Quang Minh, (参考訳) 分散アプリケーション(DApps)は、ブロックチェーンテクノロジ、特にEthereumの出現によって、信頼性、透明性、トレーサビリティを提供することで、注目を集めている。 しかし、トランザクションコストの上昇や確認のブロックといった課題は、広く採用されるのを妨げている。 本稿では,W2E-Workout to EarnというDAppについて紹介する。 このアプリケーションは、Ethereumの有名なERC-20およびERC-721トークン標準を利用する。 さらに、Ethereumテストネット、レイヤ2ネットワーク、プライベートネットワークなど、さまざまなEthereumベースのネットワークにW2Eをデプロイして、ガス効率と実行時間を調査します。 我々の発見は、DAppデプロイメントにおけるネットワーク選択の重要性を強調し、効率的なブロックチェーンソリューションを求める開発者やビジネスに洞察を提供する。 これは、実験結果がW2Eだけでなく、他のERC-20やERC-721ベースのDAppにも当てはまるためである。

Decentralized applications (DApps) have gained prominence with the advent of blockchain technology, particularly Ethereum, providing trust, transparency, and traceability. However, challenges such as rising transaction costs and block confirmation delays hinder their widespread adoption. In this paper, we present our DApp named W2E - Workout to Earn, a mobile DApp incentivizing exercise through tokens and NFT awards. This application leverages the well-known ERC-20 and ERC-721 token standards of Ethereum. Additionally, we deploy W2E into various Ethereum-based networks, including Ethereum testnets, Layer 2 networks, and private networks, to survey gas efficiency and execution time. Our findings highlight the importance of network selection for DApp deployment, offering insights for developers and businesses seeking efficient blockchain solutions. This is because our experimental results are not only specific for W2E but also for other ERC-20 and ERC-721-based DApps.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# TroL: 大規模言語とビジョンモデルのためのレイヤのトラバース

TroL: Traversal of Layers for Large Language and Vision Models ( http://arxiv.org/abs/2406.12246v1 )

ライセンス: Link先を確認
Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro, (参考訳) 大規模言語と視覚モデル(LLVM)は、大規模言語モデル(LLM)の一般化力と視覚的インストラクションチューニングの出現によって駆動されている。 これらのモデルを直接スケールアップすることで、LLVMはさまざまなタスクを自然言語命令でカバーすることで、強力なビジョン言語(VL)のパフォーマンスを誇示することができる。 しかし、GPT-4VのようなクローズドソースのLLVMと互換性のある既存のLLVMは、層数が多すぎる(例:26B、34B、110Bパラメータ)。 これらの大きなモデルは、トレーニングと推論の両方に費用がかかるハイエンドのリソースを必要とします。 この問題に対処するため、トークン的にレイヤを再利用可能な、1.8B, 3.8B, 7B LLMモデルサイズを持つLLVMファミリー、Traversal of Layers (TroL)を提案する。 この層トラバース技術は、応答ストリームを振り返り、追跡する効果をシミュレートし、さらに多くの層を追加せずに前方伝播層の数を増やします。 我々は,TroLが単純なレイヤトラバースアプローチを採用しながら,より大きなモデルサイズでオープンソースLLVMを効率よく上回り,かなりのサイズでクローズドソースLLVMのパフォーマンスに匹敵することを示した。

Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# 核スピンと光時計キュービットのハイブリッド原子トウィーザーアレイ

A hybrid atom tweezer array of nuclear spin and optical clock qubits ( http://arxiv.org/abs/2406.12247v1 )

ライセンス: Link先を確認
Yuma Nakamura, Toshi Kusano, Rei Yokoyama, Keito Saito, Koichiro Higashi, Naoya Ozawa, Tetsushi Takano, Yosuke Takasu, Yoshiro Takahashi, (参考訳) 量子情報の保存には長いコヒーレンス時間を持つデータ量子ビットが不可欠であるが、フォールトトレラント量子コンピューティングの量子エラー補正(QEC)では、アシラ量子ビットが中心となる。 大規模量子ビットアレイや高忠実ゲート演算などの光ツイーザアレイの最近の開発は、QECプロトコルを実現する可能性を提供しており、次の重要な課題の1つは、原子損失とクロストークを最小化しながら、アンシラ量子ビットを制御および検出することである。 ここでは、フェルミオン${}^{171}\mathrm{Yb}$とボソニック${}^{174}\mathrm{Yb}$の原子核スピンキュービットを非破壊的クビット読み出し能力を持つアンシラキュービットとして利用することができる二重同位体イッテルビウム(Yb)原子配列からなるハイブリッドシステムの実現について述べる。 本研究では,核スピン量子ビットのコヒーレンスに対する影響に関するクビット間のクロストークを${}^{174}\mathrm{Yb}$で評価した。 556nmのプローブビームを持つラムゼイ系列は、100ミリ秒の露光時間までのコヒーレンスに無視できる影響を示す。 399nmのプローブと556nmの冷却ビームを${}^{174}\mathrm{Yb}$とすることで、30msの露光下で98.4(2.1)のコヒーレンスを保持するのを観察する。 この結果は、Acilla-qubitベースのQECプロトコルのためのハイブリッドYb原子アレイの可能性を強調している。

While data qubits with a long coherence time are essential for the storage of quantum information, ancilla qubits are pivotal in quantum error correction (QEC) for fault-tolerant quantum computing. The recent development of optical tweezer arrays, such as the preparation of large-scale qubit arrays and high-fidelity gate operations, offers the potential for realizing QEC protocols, and one of the important next challenges is to control and detect ancilla qubits while minimizing atom loss and crosstalk. Here, we present the realization of a hybrid system consisting of a dual-isotope ytterbium (Yb) atom array, in which we can utilize a nuclear spin qubit of fermionic ${}^{171}\mathrm{Yb}$ as a data qubit and an optical clock qubit of bosonic ${}^{174}\mathrm{Yb}$ as an ancilla qubit with a capacity of non-destructive qubit readout. We evaluate the crosstalk between qubits regarding the impact on the coherence of the nuclear spin qubits from the imaging light for ${}^{174}\mathrm{Yb}$. The Ramsey sequence with a 556 nm probe beam shows negligible influence on the coherence up to 100 ms exposure time. In the Hahn-echo sequence with a 399 nm probe and 556 nm cooling beams for ${}^{174}\mathrm{Yb}$, we observe retaining a 98.4(2.1) % coherence under 30 ms exposure. This result highlights the potential of the hybrid-Yb atom array for ancilla-qubit-based QEC protocols.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# 類似性ヒューリスティック・ライフロング・プロンプトチューニングによる否定的伝達の軽減

Mitigate Negative Transfer with Similarity Heuristic Lifelong Prompt Tuning ( http://arxiv.org/abs/2406.12251v1 )

ライセンス: Link先を確認
Chenyuan Wu, Gangwei Jiang, Defu Lian, (参考訳) ライフロング・プロンプト・チューニングは、その効率性と様々なタスクにおける最小限の記憶要求により、パラメータ効率のよい生涯学習を著しく向上させた。 しかしながら、我々の経験的研究は、現在の手法におけるある種の伝達可能性の制約を強調している。全てのタスクに対して一貫した正の転送を保証する普遍的アルゴリズムは、特に負の転送を伴う可能性のある異種タスクを扱う場合、現在達成不可能である。 アルゴリズム選択とタスク特異性の相違を負の伝達の主因として同定し,Simisity Heuristic Lifelong Prompt Tuning (SHLPT) フレームワークを提案する。 この革新的な戦略は、学習可能な類似度指標を利用することで、タスクを2つの異なるサブセットに分割し、その類似性や相似性に関わらず、タスクから実りある移行を容易にする。 さらに、SHLPTにはパラメータプールが組み込まれ、破滅的な忘れを効果的に防ぐことができる。 実験の結果,SHLPTは生涯学習ベンチマークにおいて最先端技術よりも優れており,多様なタスクシーケンスにおける負の転送に対する堅牢性を示している。

Lifelong prompt tuning has significantly advanced parameter-efficient lifelong learning with its efficiency and minimal storage demands on various tasks. Our empirical studies, however, highlights certain transferability constraints in the current methodologies: a universal algorithm that guarantees consistent positive transfer across all tasks is currently unattainable, especially when dealing dissimilar tasks that may engender negative transfer. Identifying the misalignment between algorithm selection and task specificity as the primary cause of negative transfer, we present the Similarity Heuristic Lifelong Prompt Tuning (SHLPT) framework. This innovative strategy partitions tasks into two distinct subsets by harnessing a learnable similarity metric, thereby facilitating fruitful transfer from tasks regardless of their similarity or dissimilarity. Additionally, SHLPT incorporates a parameter pool to combat catastrophic forgetting effectively. Our experiments shows that SHLPT outperforms state-of-the-art techniques in lifelong learning benchmarks and demonstrates robustness against negative transfer in diverse task sequences.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# スポーツにおける言語モデルとマルチモーダルモデル:データセットと応用に関する調査

Language and Multimodal Models in Sports: A Survey of Datasets and Applications ( http://arxiv.org/abs/2406.12252v1 )

ライセンス: Link先を確認
Haotian Xia, Zhengbang Yang, Yun Zhao, Yuqing Wang, Jingxi Li, Rhys Tracy, Zhuangdi Zhu, Yuan-fang Wang, Hanjie Chen, Weining Shen, (参考訳) 自然言語処理(NLP)とマルチモーダルモデルの最近の統合は、スポーツ分析の分野を進歩させてきた。 この調査は、2020年以降のこれらのイノベーションを駆動するデータセットとアプリケーションの包括的なレビューを示す。 我々は、データセットの概要と分類を、言語ベース、マルチモーダル、コンバーチブルデータセットの3つの主要なタイプに分類した。 言語ベースのデータセットとマルチモーダルデータセットは、それぞれテキストやマルチモーダル(テキスト、ビデオ、オーディオなど)に関わるタスクのためのものだ。 コンバーチブルデータセット(最初はシングルモーダル(ビデオ))は、アクションの説明やビデオ記述など追加のアノテーションで強化され、マルチモーダルになり、よりリッチで多様なアプリケーションに将来的な可能性を提供する。 本研究は,ファン体験の向上から戦術分析,医療診断支援に至るまで,これらのデータセットの様々な応用への貢献を強調した。 また、リアルタイム処理とパーソナライズされたユーザエクスペリエンスをサポートするために、多種多様な高品質なデータの必要性を強調しながら、データセット開発における課題と今後の方向性についても論じる。 この調査は,スポーツにおけるNLPモデルとマルチモーダルモデルを活用することを目的とした,研究者や実践者の基盤となるリソースを提供する。

Recent integration of Natural Language Processing (NLP) and multimodal models has advanced the field of sports analytics. This survey presents a comprehensive review of the datasets and applications driving these innovations post-2020. We overviewed and categorized datasets into three primary types: language-based, multimodal, and convertible datasets. Language-based and multimodal datasets are for tasks involving text or multimodality (e.g., text, video, audio), respectively. Convertible datasets, initially single-modal (video), can be enriched with additional annotations, such as explanations of actions and video descriptions, to become multimodal, offering future potential for richer and more diverse applications. Our study highlights the contributions of these datasets to various applications, from improving fan experiences to supporting tactical analysis and medical diagnostics. We also discuss the challenges and future directions in dataset development, emphasizing the need for diverse, high-quality data to support real-time processing and personalized user experiences. This survey provides a foundational resource for researchers and practitioners aiming to leverage NLP and multimodal models in sports, offering insights into current trends and future opportunities in the field.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# 3次元から2次元の空洞蒸留による単一スライスセグメンテーションの促進

Enhancing Single-Slice Segmentation with 3D-to-2D Unpaired Scan Distillation ( http://arxiv.org/abs/2406.12254v1 )

ライセンス: Link先を確認
Xin Yu, Qi Yang, Han Liu, Ho Hin Lee, Yucheng Tang, Lucas W. Remedios, Michael Kim, Shunxing Bao, Ann Xenobia Moore, Luigi Ferrucci, Bennett A. Landman, (参考訳) 腹部CT(Single-Slice abdominal Computed Tomography)により,低放射線照射による身体習慣および臓器の健康状態の評価が可能となった。 しかしながら、単一スライスデータはセグメンテーションに2Dネットワークを使用する必要があるが、これらのネットワークは文脈情報を効果的に捉えるのに苦労することが多い。 したがって、同一のデータセットでトレーニングしても、3Dネットワークは通常より優れたセグメンテーション結果が得られる。 本研究では, 事前学習した3Dモデルを用いて, 2次元単一スライスセグメンテーションを向上する新しい3D-to-2D蒸留フレームワークを提案する。 具体的には,3次元表現から予測分布セントロイドを抽出し,クラス内およびクラス間相関を学習することによって2次元学生の指導を行う。 同じデータ入力を必要とする従来の知識蒸留法とは異なり、我々のアプローチでは、2次元の学生モデルをガイドするために、コントラストのない3次元CTスキャンを採用しています。 単一スライス型ボルチモア縦断年代測定(BLSA)データセットから707名の被験者を対象に行った実験により,最先端の2次元多臓器分割法が3次元教師モデルの恩恵を受け,単一スライス型多臓器分割の性能向上を実現していることが示された。 特に,本手法は,訓練対象者200名に過ぎなかった場合においても,訓練対象者全員で訓練したモデルよりも優れ,低データ体制において有意な有効性を示した。 このように、この研究は手作業によるアノテーションの負担を軽減する可能性を浮き彫りにしている。

2D single-slice abdominal computed tomography (CT) enables the assessment of body habitus and organ health with low radiation exposure. However, single-slice data necessitates the use of 2D networks for segmentation, but these networks often struggle to capture contextual information effectively. Consequently, even when trained on identical datasets, 3D networks typically achieve superior segmentation results. In this work, we propose a novel 3D-to-2D distillation framework, leveraging pre-trained 3D models to enhance 2D single-slice segmentation. Specifically, we extract the prediction distribution centroid from the 3D representations, to guide the 2D student by learning intra- and inter-class correlation. Unlike traditional knowledge distillation methods that require the same data input, our approach employs unpaired 3D CT scans with any contrast to guide the 2D student model. Experiments conducted on 707 subjects from the single-slice Baltimore Longitudinal Study of Aging (BLSA) dataset demonstrate that state-of-the-art 2D multi-organ segmentation methods can benefit from the 3D teacher model, achieving enhanced performance in single-slice multi-organ segmentation. Notably, our approach demonstrates considerable efficacy in low-data regimes, outperforming the model trained with all available training subjects even when utilizing only 200 training subjects. Thus, this work underscores the potential to alleviate manual annotation burdens.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# ホップフィールド的視点に基づく階層型推論の解釈

A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning ( http://arxiv.org/abs/2406.12255v1 )

ライセンス: Link先を確認
Lijie Hu, Liang Liu, Shu Yang, Xin Chen, Hongru Xiao, Mengdi Li, Pan Zhou, Muhammad Asif Ali, Di Wang, (参考訳) CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の推論性能を高める上で重要な位置を占めている。 検索強化などの手法によるCoTの精度向上に焦点が当てられている研究もあるが、CoTがこのような成功を達成した理由については、厳密な説明はいまだにない。 本稿では, ゼロショットCoTに対して, モデルに「ステップ・バイ・ステップ」を施すことが, アウトプットに大きく影響する理由について述べる。 2)数ショットのCoTの場合、なぜモデルに疑問を投げかける前にサンプルを提供することで推論能力が大幅に向上するのでしょうか? これらの疑問に答えるために、ホップフィールドの視点からトップダウンで説明可能な分析を行い、CoTの精度を制御するための読み書きアプローチを提案する。 3つの異なるタスクに対する7つのデータセットに関する広範な実験を通じて、我々のフレームワークがCoTの内部動作を解読し、推論エラーのローカライゼーションを提供し、正しい推論経路を導き出すことができることを示した。

Chain-of-Thought (CoT) holds a significant place in augmenting the reasoning performance for large language models (LLMs). While some studies focus on improving CoT accuracy through methods like retrieval enhancement, yet a rigorous explanation for why CoT achieves such success remains unclear. In this paper, we analyze CoT methods under two different settings by asking the following questions: (1) For zero-shot CoT, why does prompting the model with "let's think step by step" significantly impact its outputs? (2) For few-shot CoT, why does providing examples before questioning the model could substantially improve its reasoning ability? To answer these questions, we conduct a top-down explainable analysis from the Hopfieldian view and propose a Read-and-Control approach for controlling the accuracy of CoT. Through extensive experiments on seven datasets for three different tasks, we demonstrate that our framework can decipher the inner workings of CoT, provide reasoning error localization, and control to come up with the correct reasoning path.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2024

Symmetric Multi-Similarity Loss for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2024 ( http://arxiv.org/abs/2406.12256v1 )

ライセンス: Link先を確認
Xiaoqi Wang, Yi Wang, Lap-Pui Chau, (参考訳) 本稿では,EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge in CVPR 2024について紹介する。 基本的に、この課題は、ビデオテキストクリップの組み合わせのためのソフトラベルのセットとして機能する相関行列を提供することによって、従来のビジュアルテキスト検索タスクとは異なる。 しかし、既存の損失関数はこの情報を十分に活用していない。 そこで我々は,より正確な学習目標を提供する新しい損失関数,Symmetric Multi-Similarity Lossを提案する。 トリックとアンサンブル学習とともに、このモデルは一般のリーダーボード上で平均mAP63.76%、平均nDCG74.25%を達成し、我々のアプローチの有効性を実証した。 私たちのコードは、https://github.com/xqwang14/SMS-Loss/tree/mainでリリースされます。

In this report, we present our champion solution for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge in CVPR 2024. Essentially, this challenge differs from traditional visual-text retrieval tasks by providing a correlation matrix that acts as a set of soft labels for video-text clip combinations. However, existing loss functions have not fully exploited this information. Motivated by this, we propose a novel loss function, Symmetric Multi-Similarity Loss, which offers a more precise learning objective. Together with tricks and ensemble learning, the model achieves 63.76% average mAP and 74.25% average nDCG on the public leaderboard, demonstrating the effectiveness of our approach. Our code will be released at: https://github.com/xqwang14/SMS-Loss/tree/main
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# CleanGen: 大規模言語モデルにおける生成タスクに対するバックドアアタックの軽減

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models ( http://arxiv.org/abs/2406.12257v1 )

ライセンス: Link先を確認
Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran, (参考訳) ジェネレーションタスクにおける大規模言語モデル(LLM)の顕著なパフォーマンスにより、実践者は公開モデルを利用してチャットボットや仮想アシスタントなどのカスタムアプリケーションを動かすことができた。 しかし、これらのLSMを訓練または微調整するために使用されるデータは、しばしば開示されていないため、攻撃者はデータを侵害し、モデルにバックドアを注入することができる。 本稿では,LLMにおける生成タスクに対するバックドア攻撃を軽減するために,CleanGenという新しい推論時間防御法を開発した。 CleanGenisは、最先端(SOTA)のLLMと互換性のある軽量で効果的なデコード戦略である。 CleanGenの背後にある私たちの洞察は、他のLLMと比較して、バックドアのLLMは攻撃者が望んだコンテンツを表すトークンにかなり高い確率を割り当てているということです。 このようなトークン確率の相違により、CleanGenは攻撃者が好む疑わしいトークンを識別し、同一の攻撃者によって侵害されない別のLLMによって生成されるトークンに置き換えることができ、攻撃者が望んだコンテンツの生成を避けることができる。 我々は,5つのSOTAバックドア攻撃に対するCleanGenの評価を行った。 その結果,CreateGenは5つのバックドア攻撃に対して5つのSOTAベースライン防御よりも攻撃成功率(ASR)が低いことがわかった。 さらに、CleanGenをデプロイするLLMは、最小限の計算オーバーヘッドで良質なユーザクエリを提供する際に、その応答に役立ちます。

The remarkable performance of large language models (LLMs) in generation tasks has enabled practitioners to leverage publicly available models to power custom applications, such as chatbots and virtual assistants. However, the data used to train or fine-tune these LLMs is often undisclosed, allowing an attacker to compromise the data and inject backdoors into the models. In this paper, we develop a novel inference time defense, named CleanGen, to mitigate backdoor attacks for generation tasks in LLMs. CleanGenis a lightweight and effective decoding strategy that is compatible with the state-of-the-art (SOTA) LLMs. Our insight behind CleanGen is that compared to other LLMs, backdoored LLMs assign significantly higher probabilities to tokens representing the attacker-desired contents. These discrepancies in token probabilities enable CleanGen to identify suspicious tokens favored by the attacker and replace them with tokens generated by another LLM that is not compromised by the same attacker, thereby avoiding generation of attacker-desired content. We evaluate CleanGen against five SOTA backdoor attacks. Our results show that CleanGen achieves lower attack success rates (ASR) compared to five SOTA baseline defenses for all five backdoor attacks. Moreover, LLMs deploying CleanGen maintain helpfulness in their responses when serving benign user queries with minimal added computational overhead.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# 対面型アンチ・スプーフィングにおけるクロスドメイン・ジェネリザビリティの向上:インサイト、デザイン、メトリクス

Advancing Cross-Domain Generalizability in Face Anti-Spoofing: Insights, Design, and Metrics ( http://arxiv.org/abs/2406.12258v1 )

ライセンス: Link先を確認
Hyojin Kim, Jiyoon Lee, Yonghyun Jeong, Haneol Jang, YoungJoon Yoo, (参考訳) 本稿では,ゼロショットデータ領域の一般化におけるアンチ・スプーフィング性能の向上に向けた新たな視点を提案する。 従来の画像分類タスクとは異なり、顔アンチスプーフィングデータセットは独自の一般化特性を示し、新規なゼロショットデータ領域の一般化を必要とする。 従来のフレームワイドのスプーフィング予測に先立ち、実世界のユースケースにおけるフレームワイドの精度と不安定性のギャップに対処するため、ビデオワイドの予測のためにフレームレベル確率を集約するニュアンス計量計算を導入する。 このアプローチはモデル予測におけるバイアスと分散の定量化を可能にし、モデル一般化のより洗練された分析を提供する。 本研究は,モデルのバックボーンのスケールアップが本質的には不安定性を改善するものではないことを明らかにし,ベイズの観点からアンサンブルされたバックボーン法を提案する。 確率的にアンサンブルされたバックボーンは、提案したメトリックから測定されたモデルロバスト性を改善し、精度を高めるとともに、不確実性を測定するという利点を活用し、新しいデータセットをまたいだモデル一般化に寄与するトレーニング中のサンプリングの強化を可能にする。 提案手法をベンチマークOMICデータセットおよび公開CelebA-SpoofおよびSiW-Mv2から評価した。 最終モデルは、データセット全体にわたって既存の最先端の手法よりも優れており、Bias、Variance、HTER、AUCメトリクスの進歩を示している。

This paper presents a novel perspective for enhancing anti-spoofing performance in zero-shot data domain generalization. Unlike traditional image classification tasks, face anti-spoofing datasets display unique generalization characteristics, necessitating novel zero-shot data domain generalization. One step forward to the previous frame-wise spoofing prediction, we introduce a nuanced metric calculation that aggregates frame-level probabilities for a video-wise prediction, to tackle the gap between the reported frame-wise accuracy and instability in real-world use-case. This approach enables the quantification of bias and variance in model predictions, offering a more refined analysis of model generalization. Our investigation reveals that simply scaling up the backbone of models does not inherently improve the mentioned instability, leading us to propose an ensembled backbone method from a Bayesian perspective. The probabilistically ensembled backbone both improves model robustness measured from the proposed metric and spoofing accuracy, and also leverages the advantages of measuring uncertainty, allowing for enhanced sampling during training that contributes to model generalization across new datasets. We evaluate the proposed method from the benchmark OMIC dataset and also the public CelebA-Spoof and SiW-Mv2. Our final model outperforms existing state-of-the-art methods across the datasets, showcasing advancements in Bias, Variance, HTER, and AUC metrics.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# 医学における大規模言語モデルに対する敵対的攻撃

Adversarial Attacks on Large Language Models in Medicine ( http://arxiv.org/abs/2406.12259v1 )

ライセンス: Link先を確認
Yifan Yang, Qiao Jin, Furong Huang, Zhiyong Lu, (参考訳) 医療アプリケーションへのLarge Language Models(LLMs)の統合は、医療診断、治療レコメンデーション、患者医療に有望な進歩をもたらす。 しかし、LSMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。 本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。 実世界の患者データを利用することで、オープンソースのLLMとプロプライエタリなLLMの両方が、複数のタスクをまたいだ操作に影響を受けやすいことを示す。 この研究により、ドメイン固有のタスクは、特により有能なモデルにおいて、効果的な攻撃実行のための一般的なドメインタスクよりも、モデルファインチューニングにおいてより敵対的なデータを必要とすることが明らかになった。 逆データの統合は、医療ベンチマークにおける全体的なモデル性能を著しく低下させるものではないが、微調整されたモデル重みの顕著な変化を招き、モデル攻撃を検出し、対処するための潜在的経路が示唆される。 本研究は、医療分野での安全かつ効果的な展開を確保するために、堅牢なセキュリティ対策と、医療アプリケーションにおけるLSMの保護のための防御機構の開発を急務に必要とすることを強調する。

The integration of Large Language Models (LLMs) into healthcare applications offers promising advancements in medical diagnostics, treatment recommendations, and patient care. However, the susceptibility of LLMs to adversarial attacks poses a significant threat, potentially leading to harmful outcomes in delicate medical contexts. This study investigates the vulnerability of LLMs to two types of adversarial attacks in three medical tasks. Utilizing real-world patient data, we demonstrate that both open-source and proprietary LLMs are susceptible to manipulation across multiple tasks. This research further reveals that domain-specific tasks demand more adversarial data in model fine-tuning than general domain tasks for effective attack execution, especially for more capable models. We discover that while integrating adversarial data does not markedly degrade overall model performance on medical benchmarks, it does lead to noticeable shifts in fine-tuned model weights, suggesting a potential pathway for detecting and countering model attacks. This research highlights the urgent need for robust security measures and the development of defensive mechanisms to safeguard LLMs in medical applications, to ensure their safe and effective deployment in healthcare settings.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# 学習可能なデータ拡張を用いた自己教師付き時系列異常検出

Self-Supervised Time-Series Anomaly Detection Using Learnable Data Augmentation ( http://arxiv.org/abs/2406.12260v1 )

ライセンス: Link先を確認
Kukjin Choi, Jihun Yi, Jisoo Mok, Sungroh Yoon, (参考訳) 生産現場の生産性と安全性を高めるため, 各種製造工程における異常検出の進展を継続して進めている。 ディープラーニングはルールベースの手法に取って代わられ、近年、様々な産業で異常検出の有望な方法として登場した。 しかし,実世界では異常なデータの不足やラベル付きデータ取得の難しさが,検出モデルの訓練に限界をもたらしている。 本研究では,学習可能なデータ拡張に基づく時系列異常検出(LATAD)手法を提案することにより,これらの問題点に対処する。 LATADは、比較学習を通じて時系列データから識別的特徴を抽出する。 同時に、学習可能なデータ拡張は、学習効率を高めるために、挑戦的な負のサンプルを生成する。 遅延特徴類似度に基づいて,提案手法の異常スコアを測定した。 結果によると、LATADはいくつかのベンチマークデータセットで最先端の異常検出アセスメントと同等または改善された性能を示し、根本原因を特定するための勾配に基づく診断技術を提供した。

Continuous efforts are being made to advance anomaly detection in various manufacturing processes to increase the productivity and safety of industrial sites. Deep learning replaced rule-based methods and recently emerged as a promising method for anomaly detection in diverse industries. However, in the real world, the scarcity of abnormal data and difficulties in obtaining labeled data create limitations in the training of detection models. In this study, we addressed these shortcomings by proposing a learnable data augmentation-based time-series anomaly detection (LATAD) technique that is trained in a self-supervised manner. LATAD extracts discriminative features from time-series data through contrastive learning. At the same time, learnable data augmentation produces challenging negative samples to enhance learning efficiency. We measured anomaly scores of the proposed technique based on latent feature similarities. As per the results, LATAD exhibited comparable or improved performance to the state-of-the-art anomaly detection assessments on several benchmark datasets and provided a gradient-based diagnosis technique to help identify root causes.
翻訳日:2024-06-19 22:49:04 公開日:2024-06-18
# 帰納的等角予測のためのデータ利用の検討

Investigating Data Usage for Inductive Conformal Predictors ( http://arxiv.org/abs/2406.12262v1 )

ライセンス: Link先を確認
Yizirui Fang, Anthony Bellotti, (参考訳) 帰納的共形予測器(ICP)は、ユーザ定義の信頼度レベルで有効であり、交換可能性のみを仮定する点予測ではなく、予測セットを生成するアルゴリズムである。 これらのアルゴリズムは信頼性の高い機械学習に有用であり、人気が高まっている。 ICPの開発プロセスでは、開発データをトレーニング、キャリブレーション、テストの3つの部分に分割する。 限られた開発データや高価な開発データへのアクセスは、データを分割する最も効率的な方法に関するオープンな疑問である。 本研究は、この問題を探索し、トレーニングセットと校正セットの重複を許容する事例について考察する。 結論は、ICPの使用を計画している学者や実践者にとって価値のあるものである。

Inductive conformal predictors (ICPs) are algorithms that are able to generate prediction sets, instead of point predictions, which are valid at a user-defined confidence level, only assuming exchangeability. These algorithms are useful for reliable machine learning and are increasing in popularity. The ICP development process involves dividing development data into three parts: training, calibration and test. With access to limited or expensive development data, it is an open question regarding the most efficient way to divide the data. This study provides several experiments to explore this question and consider the case for allowing overlap of examples between training and calibration sets. Conclusions are drawn that will be of value to academics and practitioners planning to use ICPs.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# LLM時代の社会工学的攻撃に対する防御

Defending Against Social Engineering Attacks in the Age of LLMs ( http://arxiv.org/abs/2406.12263v1 )

ライセンス: Link先を確認
Lin Ai, Tharindu Kumarage, Amrita Bhattacharjee, Zizhou Liu, Zheng Hui, Michael Davinroy, James Cook, Laura Cassani, Kirill Trapeznikov, Matthias Kirchner, Arslan Basharat, Anthony Hoogs, Joshua Garland, Huan Liu, Julia Hirschberg, (参考訳) 大規模言語モデル(LLM)の普及は、人間の会話パターンをエミュレートし、チャットベースのソーシャルエンジニアリング(CSE)攻撃を促進するため、デジタル詐欺の検出と緩和に困難をもたらす。 本研究では,CSE脅威に対するファシリテーターとディフェンダーの両立能力について検討した。 我々は,学術的・採用的な文脈でCSEシナリオをシミュレートした新しいデータセットSEConvoを開発し,これらの状況においてLLMをどのように活用できるかを検討する。 その結果, 市販のLCMは高品質なCSEコンテンツを生成するが, 検出能力は準最適であり, 防御に要する運用コストが増大することがわかった。 メッセージレベルと会話レベルの両方における検出を改善するモジュール型ディフェンスパイプラインであるConvoSentinelを提案する。 ConvoSentinelの検索拡張モジュールは、メッセージと類似した会話のデータベースを比較して悪意のある意図を特定し、すべての段階でCSE検出を強化する。 我々の研究は、サイバーセキュリティにLLMを活用するための高度な戦略の必要性を強調している。

The proliferation of Large Language Models (LLMs) poses challenges in detecting and mitigating digital deception, as these models can emulate human conversational patterns and facilitate chat-based social engineering (CSE) attacks. This study investigates the dual capabilities of LLMs as both facilitators and defenders against CSE threats. We develop a novel dataset, SEConvo, simulating CSE scenarios in academic and recruitment contexts, and designed to examine how LLMs can be exploited in these situations. Our findings reveal that, while off-the-shelf LLMs generate high-quality CSE content, their detection capabilities are suboptimal, leading to increased operational costs for defense. In response, we propose ConvoSentinel, a modular defense pipeline that improves detection at both the message and the conversation levels, offering enhanced adaptability and cost-effectiveness. The retrieval-augmented module in ConvoSentinel identifies malicious intent by comparing messages to a database of similar conversations, enhancing CSE detection at all stages. Our study highlights the need for advanced strategies to leverage LLMs in cybersecurity.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# 演算子学習とユニバーサル近似のための投影法

Projection Methods for Operator Learning and Universal Approximation ( http://arxiv.org/abs/2406.12264v1 )

ライセンス: Link先を確認
Emanuele Zappala, (参考訳) 任意のバナッハ空間上の連続作用素に対するリーレー・シャウダー写像を用いた新しい普遍近似定理を得る。 さらに、多項式基底上の直交射影に基づいて、複数の変数を持つ関数のバナッハ空間$L^p$における演算子学習法を紹介し、研究する。 線型射影と有限次元写像をいくつかの仮定で学習する作用素に対する普遍近似結果を得る。 p=2$の場合、近似結果を保持するのに十分な条件を与える。 本稿では、その後の研究で実装が提供される深層学習方法論の理論的枠組みとして機能する。

We obtain a new universal approximation theorem for continuous operators on arbitrary Banach spaces using the Leray-Schauder mapping. Moreover, we introduce and study a method for operator learning in Banach spaces $L^p$ of functions with multiple variables, based on orthogonal projections on polynomial bases. We derive a universal approximation result for operators where we learn a linear projection and a finite dimensional mapping under some additional assumptions. For the case of $p=2$, we give some sufficient conditions for the approximation results to hold. This article serves as the theoretical framework for a deep learning methodology whose implementation will be provided in subsequent work.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# クライアントシミュレーションによるLCMセラピストのクライアント中心評価に向けて

Towards a Client-Centered Assessment of LLM Therapists by Client Simulation ( http://arxiv.org/abs/2406.12266v1 )

ライセンス: Link先を確認
Jiashuo Wang, Yang Xiao, Yanran Li, Changhe Song, Chunpu Xu, Chenhao Tan, Wenjie Li, (参考訳) LLMをセラピストとして使用できるという信念が高まりつつあるが、特にクライアントの観点から、LSMの能力や非効率性を探求することは限られている。 本研究は,臨床医学教育における標準的アプローチであるシミュレート・クライアントの関与によるLLMセラピストのクライアント中心評価に焦点を当てた。 しかし、LLMセラピストを大規模に評価するためにアプローチを適用する際には、2つの課題がある。 倫理的には、人間に頻繁にクライアントを模倣させ、潜在的に有害なLCM出力に晒すことは危険であり、安全ではない。 技術的には、同一クライアントと相互作用する異なるLLMセラピストのパフォーマンスを一貫して比較することは困難である。 この目的のために、クライアントをシミュレートするためにLLMを採用し、クライアントシミュレーションによりLLMセラピストを評価するクライアント中心のアプローチであるClientCASTを提案する。 具体的には、シミュレートされたクライアントを用いて、LSMセラピストと相互作用し、その相互作用に関する完全なアンケートを行う。 質問紙調査の結果から, LLMセラピストは, セッションアウトカム, セラピーアライアンス, 自己報告感情の3つの側面から評価した。 ClientCAST の信頼性を検証し,Claude-3, GPT-3.5, LLaMA3-70B, Mixtral 8*7B による LLM セラピストの評価を行う。 コードはhttps://github.com/wangjs9/ClientCASTで公開されている。

Although there is a growing belief that LLMs can be used as therapists, exploring LLMs' capabilities and inefficacy, particularly from the client's perspective, is limited. This work focuses on a client-centered assessment of LLM therapists with the involvement of simulated clients, a standard approach in clinical medical education. However, there are two challenges when applying the approach to assess LLM therapists at scale. Ethically, asking humans to frequently mimic clients and exposing them to potentially harmful LLM outputs can be risky and unsafe. Technically, it can be difficult to consistently compare the performances of different LLM therapists interacting with the same client. To this end, we adopt LLMs to simulate clients and propose ClientCAST, a client-centered approach to assessing LLM therapists by client simulation. Specifically, the simulated client is utilized to interact with LLM therapists and complete questionnaires related to the interaction. Based on the questionnaire results, we assess LLM therapists from three client-centered aspects: session outcome, therapeutic alliance, and self-reported feelings. We conduct experiments to examine the reliability of ClientCAST and use it to evaluate LLMs therapists implemented by Claude-3, GPT-3.5, LLaMA3-70B, and Mixtral 8*7B. Codes are released at https://github.com/wangjs9/ClientCAST.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# 多サイクル誤差補正を用いたトランスバーサルCNOTゲート

Transversal CNOT gate with multi-cycle error correction ( http://arxiv.org/abs/2406.12267v1 )

ライセンス: Link先を確認
Younghun Kim, Martin Sevior, Muhammad Usman, (参考訳) スケーラブルでプログラム可能な量子コンピュータは、古典的コンピュータが合理的な時間枠で達成できない計算集約的なタスクを解く可能性を持ち、量子優位性を達成する。 しかし、現在の量子プロセッサのエラーに対する脆弱性は、実際的な問題に必要な複雑で深い量子回路の実行に重大な課題をもたらす。 安定化器符号のような量子エラー訂正符号は、フォールトトレラント量子コンピューティングにとって有望な道筋を提供するが、量子ハードウェアへの実現は、現在進行中の研究分野である。 特に、フォールトトレラントな量子処理では、論理量子ビット上の論理ゲートと、現実的に大きな符号を持つ誤り抑制を用いる必要がある。 この研究は、フラグキュービットを持つ繰り返し符号を用いて構築された2つの論理キュービット間の超越的なCNOTゲートを実装し、複数ラウンドのエラー検出でコードサイズを増大させるエラー抑制を実証した。 クラウドアクセスによるIBM量子デバイス実験により,CNOTゲート操作における論理量子ビット間の誤り伝播の可能性にもかかわらず,物理量子ビット数が21から39から57に増加し,エラー検出が10ラウンド以上継続することを示す。 我々の研究は、現在の世代の量子ハードウェアを用いた超伝導体ベースのプロセッサにおいて、論理的CNOTゲートとエラー検出を併用できる可能性を確立した。

A scalable and programmable quantum computer holds the potential to solve computationally intensive tasks that classical computers cannot accomplish within a reasonable time frame, achieving quantum advantage. However, the vulnerability of the current generation of quantum processors to errors poses a significant challenge towards executing complex and deep quantum circuits required for practical problems. Quantum error correction codes such as Stabilizer codes offer a promising path forward for fault-tolerant quantum computing, however their realisation on quantum hardware is an on-going area of research. In particular, fault-tolerant quantum processing must employ logical gates on logical qubits with error suppression with realistically large size codes. This work has implemented a transversal CNOT gate between two logical qubits constructed using the Repetition code with flag qubits, and demonstrated error suppression with increasing code size under multiple rounds of error detection. By performing experiments on IBM quantum devices through cloud access, our results show that despite the potential for error propagation among logical qubits during the transversal CNOT gate operation, increasing the number of physical qubits from 21 to 39 and 57 can suppress errors, which persists over 10 rounds of error detection. Our work establishes the feasibility of employing logical CNOT gates alongside error detection on a superconductor-based processor using current generation quantum hardware.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# インテリジェンステーブル要約のための問合せピンポイント共振器による暗黙表知識の解き方

Unveiling Implicit Table Knowledge with Question-Then-Pinpoint Reasoner for Insightful Table Summarization ( http://arxiv.org/abs/2406.12269v1 )

ライセンス: Link先を確認
Kwangwook Seo, Jinyoung Yeo, Dongha Lee, (参考訳) データインサイトのような明示的なテーブルセルに隠された暗黙の知識は、高品質なテーブルサマリを生成する鍵である。 しかし、そのような暗黙的な知識を公開することは、非自明な作業である。 構造化テーブルの複雑な性質のため、大きな言語モデル(LLM)でさえ、暗黙の知識を洞察豊かで忠実な方法でマイニングすることは困難である。 この課題に対処するため、我々は新しいテーブル推論フレームワークであるQQ-then-Pinpointを提案する。 我々の研究は、洞察力のある知識を自己探索し、テーブル上の証拠を忠実に特定し、要約者への説明可能なガイダンスを提供する、プラグアンドプレイのテーブル推論器の構築に重点を置いている。 信頼性の高い推論器を訓練するために,教師のLSMに粗大な推論経路に従うように指示してテーブル知識を収集し,2つの品質向上戦略を通じて洗練させ,高品質な知識を推論器に選択的に蒸留する。 新たに提案したInsTaSummを含む2つのテーブル要約データセットの大規模な実験により,本フレームワークの有効性が検証された。

Implicit knowledge hidden within the explicit table cells, such as data insights, is the key to generating a high-quality table summary. However, unveiling such implicit knowledge is a non-trivial task. Due to the complex nature of structured tables, it is challenging even for large language models (LLMs) to mine the implicit knowledge in an insightful and faithful manner. To address this challenge, we propose a novel table reasoning framework Question-then-Pinpoint. Our work focuses on building a plug-and-play table reasoner that can self-question the insightful knowledge and answer it by faithfully pinpointing evidence on the table to provide explainable guidance for the summarizer. To train a reliable reasoner, we collect table knowledge by guiding a teacher LLM to follow the coarse-to-fine reasoning paths and refine it through two quality enhancement strategies to selectively distill the high-quality knowledge to the reasoner. Extensive experiments on two table summarization datasets, including our newly proposed InsTaSumm, validate the general effectiveness of our framework.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# 2024年農業ビジョンチャレンジ-クラスバランスとモデルアンサンブルによる農業パターン認識のためのランナーアップソリューション

Agriculture-Vision Challenge 2024 -- The Runner-Up Solution for Agricultural Pattern Recognition via Class Balancing and Model Ensemble ( http://arxiv.org/abs/2406.12271v1 )

ライセンス: Link先を確認
Wang Liu, Zhiyu Wang, Puhong Duan, Xudong Kang, Shutao Li, (参考訳) CVPR 2024の農業ビジョンチャレンジは、セマンティックセマンティックセマンティックモデルを活用して、マルチモード衛星画像の関心領域内でピクセルレベルのセマンティックセマンティックセマンティックセマンティクスラベルを作成することを目的としている。 これは、コンピュータビジョンと農業セクターの境界を突破する、世界研究者にとって最も有名で競争の激しい課題の1つである。 しかし、農業ビジョンデータセットには深刻なクラス不均衡の問題があり、セマンティックセグメンテーションのパフォーマンスを妨げている。 この問題を解決するために,まず,長い尾の標本を豊かにするために,希少なクラスサンプリング戦略を用いたモザイクデータ拡張を提案する。 第2に,適応型クラスウェイト方式を用いて,レアクラスのウェイトを増大させながら,共通クラスの寄与を抑制する。 第3に,レアクラスの予測値を増加させる確率ポストプロセスを提案する。 提案手法は,テストセットにおいて平均mIoU(mIoU)スコア0.547を達成し,この課題において第2位を確保した。

The Agriculture-Vision Challenge at CVPR 2024 aims at leveraging semantic segmentation models to produce pixel level semantic segmentation labels within regions of interest for multi-modality satellite images. It is one of the most famous and competitive challenges for global researchers to break the boundary between computer vision and agriculture sectors. However, there is a serious class imbalance problem in the agriculture-vision dataset, which hinders the semantic segmentation performance. To solve this problem, firstly, we propose a mosaic data augmentation with a rare class sampling strategy to enrich long-tail class samples. Secondly, we employ an adaptive class weight scheme to suppress the contribution of the common classes while increasing the ones of rare classes. Thirdly, we propose a probability post-process to increase the predicted value of the rare classes. Our methodology achieved a mean Intersection over Union (mIoU) score of 0.547 on the test set, securing second place in this challenge.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# スロット状態空間モデル

Slot State Space Models ( http://arxiv.org/abs/2406.12272v1 )

ライセンス: Link先を確認
Jindong Jiang, Fei Deng, Gautam Singh, Minseung Lee, Sungjin Ahn, (参考訳) S4、S5、Mambaのような最近の状態空間モデル(SSM)は、長距離時間依存性モデリングにおいて顕著な計算上の利点を示している。 しかし、多くのシーケンスモデリング問題において、基礎となるプロセスは本質的にモジュラーであり、このモジュラー構造を模倣する帰納的バイアスを持つことは興味深い。 本稿では,情報分離の維持・促進を目的として,独立したメカニズムをSSMに組み込む新しいフレームワークであるSlotSSMを紹介する。 モノリシックな状態ベクトルを保持する従来のSSMとは異なり、SlotSSMはスロットと呼ばれる複数のベクトルの集合として状態を維持する。 重要なことは、状態遷移はスロットごとに独立に行われ、自己注意のボトルネックを通じて実装されたスロット間の疎相互作用である。 実験では,オブジェクト中心の映像理解,3次元視覚推論,映像予測タスクにおいて,複数のオブジェクトとその長距離時間依存性のモデル化を含むモデルを評価する。 提案手法は,既存のシーケンス・モデリング手法に比べて性能が大幅に向上することがわかった。

Recent State Space Models (SSMs) such as S4, S5, and Mamba have shown remarkable computational benefits in long-range temporal dependency modeling. However, in many sequence modeling problems, the underlying process is inherently modular and it is of interest to have inductive biases that mimic this modular structure. In this paper, we introduce SlotSSMs, a novel framework for incorporating independent mechanisms into SSMs to preserve or encourage separation of information. Unlike conventional SSMs that maintain a monolithic state vector, SlotSSMs maintains the state as a collection of multiple vectors called slots. Crucially, the state transitions are performed independently per slot with sparse interactions across slots implemented via the bottleneck of self-attention. In experiments, we evaluate our model in object-centric video understanding, 3D visual reasoning, and video prediction tasks, which involve modeling multiple objects and their long-range temporal dependencies. We find that our proposed design offers substantial performance gains over existing sequence modeling methods.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# SafeInfer: 大規模言語モデルのためのコンテキスト適応型デコーディング時間安全アライメント

SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models ( http://arxiv.org/abs/2406.12274v1 )

ライセンス: Link先を確認
Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra, (参考訳) 安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示し、安全でないコンテンツを生成する可能性を高める。 さらに、言語モデルに編集技術を通じて新たな知識を取り入れることで、安全性をさらに損なうことができる。 これらの問題に対処するため,ユーザクエリに対する安全な応答を生成するためのコンテキスト適応型デコード型安全アライメント戦略であるSafeInferを提案する。 SafeInferは、モデルが隠れた状態を調整し、より安全な出力の可能性を高めるために安全なデモ例を利用するセーフアンプリフィケーションフェーズと、安全最適化分布に基づくトークン選択に影響を与える安全誘導復号フェーズと、生成したコンテンツが倫理ガイドラインに準拠することを保証する。 さらに、主要なAI技術の巨人のポリシーに従って、潜在的な誤用シナリオに対処するために設計された、広範な安全性評価のための新しいベンチマークであるHarmEvalを紹介します。

Safety-aligned language models often exhibit fragile and imbalanced safety mechanisms, increasing the likelihood of generating unsafe content. In addition, incorporating new knowledge through editing techniques to language models can further compromise safety. To address these issues, we propose SafeInfer, a context-adaptive, decoding-time safety alignment strategy for generating safe responses to user queries. SafeInfer comprises two phases: the safety amplification phase, which employs safe demonstration examples to adjust the model's hidden states and increase the likelihood of safer outputs, and the safety-guided decoding phase, which influences token selection based on safety-optimized distributions, ensuring the generated content complies with ethical guidelines. Further, we present HarmEval, a novel benchmark for extensive safety evaluations, designed to address potential misuse scenarios in accordance with the policies of leading AI tech giants.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# VoCo-LLaMA:大規模言語モデルによる視覚圧縮を目指して

VoCo-LLaMA: Towards Vision Compression with Large Language Models ( http://arxiv.org/abs/2406.12275v1 )

ライセンス: Link先を確認
Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang, (参考訳) VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。 視覚圧縮は、視覚トークン数を減らすことでこの問題を軽減することができる。 以前のアプローチでは、視覚トークンを外部モジュールで圧縮し、LLMに圧縮されたトークンを理解するように強制し、視覚情報を失う。 しかし、LLMの視覚トークンの理解パラダイムは、圧縮学習プロセスで完全に活用されていない。 LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。 視覚訓練の段階で視覚圧縮トークンを導入し、注意蒸留を活用することにより、LLMが視覚トークンをVoCoトークンの処理にどのように理解するかを精査する。 VoCo-LLaMAは効率的な視覚圧縮を促進し、推論段階での計算効率を向上させる。 具体的には、圧縮比576$\times$で最小性能損失を達成し、最大94.8$\%$少ないFLOPと69.6$\%$の推論時間で加速する。 さらに,ビデオフレームの時系列圧縮トークンシーケンスを用いた連続的なトレーニングを通じて,VoCo-LLaMAは時間相関を理解する能力を示し,ビデオ質問応答ベンチマークにおいて従来の手法よりも優れていた。 我々のアプローチは、VLMのコンテキストウィンドウの可能性を最大限に活用し、よりスケーラブルなマルチモーダルアプリケーションを実現するための有望な方法である。 プロジェクトページは関連するコードとともに、$\href{https://yxxxb.github.io/VoCo-LLaMA-page/}{\text{this https URL}}$でアクセスすることができる。

Vision-Language Models (VLMs) have achieved remarkable success in various multi-modal tasks, but they are often bottlenecked by the limited context window and high computational cost of processing high-resolution image inputs and videos. Vision compression can alleviate this problem by reducing the vision token count. Previous approaches compress vision tokens with external modules and force LLMs to understand the compressed ones, leading to visual information loss. However, the LLMs' understanding paradigm of vision tokens is not fully utilised in the compression learning process. We propose VoCo-LLaMA, the first approach to compress vision tokens using LLMs. By introducing Vision Compression tokens during the vision instruction tuning phase and leveraging attention distillation, our method distill how LLMs comprehend vision tokens into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision compression and improves the computational efficiency during the inference stage. Specifically, our method achieves minimal performance loss with a compression ratio of 576$\times$, resulting in up to 94.8$\%$ fewer FLOPs and 69.6$\%$ acceleration in inference time. Furthermore, through continuous training using time-series compressed token sequences of video frames, VoCo-LLaMA demonstrates the ability to understand temporal correlations, outperforming previous methods on popular video question-answering benchmarks. Our approach presents a promising way to unlock the full potential of VLMs' contextual window, enabling more scalable multi-modal applications. The project page, along with the associated code, can be accessed via $\href{https://yxxxb.github.io/VoCo-LLaMA-page/}{\text{this https URL}}$.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# CodeNav: LLMエージェントを使用した現実世界のコードベースの使用以外にも

CodeNav: Beyond tool-use to using real-world codebases with LLM agents ( http://arxiv.org/abs/2406.12276v1 )

ライセンス: Link先を確認
Tanmay Gupta, Luca Weihs, Aniruddha Kembhavi, (参考訳) ユーザクエリを解決するために、これまで見つからなかったコードリポジトリをナビゲートし、活用するLLMエージェントであるCodeNavを提示する。 LLMコンテキスト内の手作業によるすべてのツールの‘登録’を必要とするツール使用のLDMエージェントとは対照的に、CodeNavは、ターゲットコードベースのコードブロックをインデックスし、検索し、関連するコードスニペットを見つけ、インポートし、実行フィードバックでソリューションを反復的に生成する。 CodeNavのコア機能を強調するために、まず3つのケーススタディを紹介します。 次に、3つのベンチマークで、コード使用(ターゲットコードベースへのアクセスのみ)とツール使用(ツール名と記述に特権的アクセス)の有効性を定量的に比較します。 最後に,様々な種類のツールやライブラリ記述がコード使用性能に与える影響について検討するとともに,ソースコードを自然な記述ではなく,ソースコードを見るエージェントの利点について検討する。 すべてのコードはパーミッシブライセンスの下でオープンソースにされる。

We present CodeNav, an LLM agent that navigates and leverages previously unseen code repositories to solve user queries. In contrast to tool-use LLM agents that require ``registration'' of all relevant tools via manual descriptions within the LLM context, CodeNav automatically indexes and searches over code blocks in the target codebase, finds relevant code snippets, imports them, and uses them to iteratively generate a solution with execution feedback. To highlight the core-capabilities of CodeNav, we first showcase three case studies where we use CodeNav for solving complex user queries using three diverse codebases. Next, on three benchmarks, we quantitatively compare the effectiveness of code-use (which only has access to the target codebase) to tool-use (which has privileged access to all tool names and descriptions). Finally, we study the effect of varying kinds of tool and library descriptions on code-use performance, as well as investigate the advantage of the agent seeing source code as opposed to natural descriptions of code. All code will be made open source under a permissive license.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# 言語モデルにおけるファクト学習の課題 : 多様なマルチプロンプトデータセットを用いた多面的知識の探索

What Matters in Learning Facts in Language Models? Multifaceted Knowledge Probing with Diverse Multi-Prompt Datasets ( http://arxiv.org/abs/2406.12277v1 )

ライセンス: Link先を確認
Xin Zhao, Naoki Yoshinaga, Daisuke Oba, (参考訳) 大規模言語モデル(LLM)は事実知識を扱う際に問題に直面し、事実を理解する真の能力を評価することが不可欠である。 本研究では,エンドコーダベースPLMだけでなく,デコーダベースPLMの知識理解能力を評価するための知識探索フレームワークBELIEF(-ICL)を紹介する。 BELIEFは、PLMの正確性、一貫性、信頼性を現実の知識理解で評価するために、マルチプロンプトデータセットを使用する。 BELIEFを用いた信頼性の高い評価を実現するために,既存のデータセットよりも多様なプロンプトを持つMyriadLAMAを半自動生成する。 本研究では,PLMの事実理解能力の正確かつ包括的評価におけるBELIEFの有効性を,広範囲な評価を通じて検証する。 さらに, LLMにおける学習事実の重要な要因について検討し, 素早い知識探索の限界を明らかにする。 データセットは匿名で公開されています。

Large language models (LLMs) face issues in handling factual knowledge, making it vital to evaluate their true ability to understand facts. In this study, we introduce knowledge probing frameworks, BELIEF(-ICL), to evaluate the knowledge understanding ability of not only encoder-based PLMs but also decoder-based PLMs from diverse perspectives. BELIEFs utilize a multi-prompt dataset to evaluate PLM's accuracy, consistency, and reliability in factual knowledge understanding. To provide a more reliable evaluation with BELIEFs, we semi-automatically create MyriadLAMA, which has more diverse prompts than existing datasets. We validate the effectiveness of BELIEFs in correctly and comprehensively evaluating PLM's factual understanding ability through extensive evaluations. We further investigate key factors in learning facts in LLMs, and reveal the limitation of the prompt-based knowledge probing. The dataset is anonymously publicized.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# 通勤者の状態依存規範に基づく不確実性関係

Uncertainty relations based on state-dependent norm of commutator ( http://arxiv.org/abs/2406.12280v1 )

ライセンス: Link先を確認
Aina Mayumi, Gen Kimura, Hiromichi Ohno, Dariusz Chruściński, (参考訳) 我々は、B\'ottcher-Wenzel不等式の一般化を利用して、通勤者の状態依存ノルムに基づく2つの不確実性関係を導入する。 第1の関係は数学的に証明され、第2の関係は数値的な証拠によって強く支持される。 両者の関係は、特に量子状態がますます混ざり合うにつれて、従来のロバートソンとシュル・オーディンガーの境界を超えている。 このことは、観測可能量の非可換性から生じる、これまで発見されていなかった量子不確実性の相補性を明らかにする。 また、この結果とLuo-Parkの不確実性関係を比較して、我々の境界が特に相互に偏りのない観測可能量に対して優れていることを示した。

We introduce two uncertainty relations based on the state-dependent norm of commutators, utilizing generalizations of the B\"ottcher-Wenzel inequality. The first relation is mathematically proven, while the second, tighter relation is strongly supported by numerical evidence. Both relations surpass the conventional Robertson and Schr\"odinger bounds, particularly as the quantum state becomes increasingly mixed. This reveals a previously undetected complementarity of quantum uncertainty, stemming from the non-commutativity of observables. We also compare our results with the Luo-Park uncertainty relation, demonstrating that our bounds can outperform especially for mutually unbiased observables.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# SAGDFN:多変量時系列予測のためのスケーラブル適応グラフ拡散予測ネットワーク

SAGDFN: A Scalable Adaptive Graph Diffusion Forecasting Network for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2406.12282v1 )

ライセンス: Link先を確認
Yue Jiang, Xiucheng Li, Yile Chen, Shuai Liu, Weilong Kong, Antonis F. Lentzakis, Gao Cong, (参考訳) 時系列予測は我々の日々の活動や複雑な相関関係の正確なモデリングに不可欠であり、複数の時系列間の共有パターンは予測性能の向上に不可欠である。 空間時間グラフニューラルネットワーク(STGNN)は、多変量時系列予測タスクで広く使われており、基礎となる複雑な空間的および時間的依存関係をモデル化する能力のために、複数の実世界のデータセットで有望なパフォーマンスを実現している。 しかし,従来の研究は主に,空間時空間GNNの計算コストとメモリコストのため,数百個のセンサからなるデータセットに重点を置いている。 より大きなデータセットに適用すると、これらのメソッドは基礎となる複雑な空間的依存関係をキャプチャできず、スケーラビリティとパフォーマンスが制限される。 この目的のために,大規模多変量時系列の複雑な時空間相関を捉えるための拡張適応グラフ拡散予測ネットワーク (SAGDFN) を提案する。 提案したSAGDFNは、空間相関に関する事前の知識を必要とせず、数千のノードのデータセットにスケーラブルである。 大規模な実験により、SAGDFNは、207ノードの1つの実世界のデータセットで最先端のベースラインと同等のパフォーマンスを達成し、2000ノードの3つの実世界のデータセットでかなりの差で、すべての最先端ベースラインを上回ります。

Time series forecasting is essential for our daily activities and precise modeling of the complex correlations and shared patterns among multiple time series is essential for improving forecasting performance. Spatial-Temporal Graph Neural Networks (STGNNs) are widely used in multivariate time series forecasting tasks and have achieved promising performance on multiple real-world datasets for their ability to model the underlying complex spatial and temporal dependencies. However, existing studies have mainly focused on datasets comprising only a few hundred sensors due to the heavy computational cost and memory cost of spatial-temporal GNNs. When applied to larger datasets, these methods fail to capture the underlying complex spatial dependencies and exhibit limited scalability and performance. To this end, we present a Scalable Adaptive Graph Diffusion Forecasting Network (SAGDFN) to capture complex spatial-temporal correlation for large-scale multivariate time series and thereby, leading to exceptional performance in multivariate time series forecasting tasks. The proposed SAGDFN is scalable to datasets of thousands of nodes without the need of prior knowledge of spatial correlation. Extensive experiments demonstrate that SAGDFN achieves comparable performance with state-of-the-art baselines on one real-world dataset of 207 nodes and outperforms all state-of-the-art baselines by a significant margin on three real-world datasets of 2000 nodes.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# 時間差学習における待ち時間ヒューリスティックのデミステレーション

Demystifying the Recency Heuristic in Temporal-Difference Learning ( http://arxiv.org/abs/2406.12284v1 )

ライセンス: Link先を確認
Brett Daley, Marlos C. Machado, Martha White, (参考訳) 強化学習における回帰ヒューリスティック(recency heuristic)とは、獲得した報酬に間に合った刺激が、より強く強化されるべきである、という仮定である。 直流ヒューリスティックはTD($\lambda$)によってなされた重要な仮定の1つであり、指数関数的に減衰する重み付けに従って最近の経験を補強する。 実際、他の広く使われているTD学習のための戻り値推定器(例えば$n$-step return)は、より弱い(非単調な)回帰ヒューリスティックを満たす。 経時的信用割当てになぜリレーレンシーヒューリスティックが有効か? このヒューリスティックに反する方法でクレジットが割り当てられたらどうなるのか? 本稿では,直流ヒューリスティックをTD学習に適用する際の数学的意味を分析する。 このヒューリスティックを満たす回帰推定器を証明します。 1)は正しい値関数に収束することが保証される。 2)比較的速い収縮率で、 3) 効果的なクレジット割り当ての窓口は長いが、最悪の場合のばらつきがある。 また,直流ヒューリスティックな分岐に反する,オンラインな表型TD手法も提案する。 以上の結果から,直流ヒューリスティックに基づく信用割当が学習を促進するという理論的証拠が得られた。

The recency heuristic in reinforcement learning is the assumption that stimuli that occurred closer in time to an acquired reward should be more heavily reinforced. The recency heuristic is one of the key assumptions made by TD($\lambda$), which reinforces recent experiences according to an exponentially decaying weighting. In fact, all other widely used return estimators for TD learning, such as $n$-step returns, satisfy a weaker (i.e., non-monotonic) recency heuristic. Why is the recency heuristic effective for temporal credit assignment? What happens when credit is assigned in a way that violates this heuristic? In this paper, we analyze the specific mathematical implications of adopting the recency heuristic in TD learning. We prove that any return estimator satisfying this heuristic: 1) is guaranteed to converge to the correct value function, 2) has a relatively fast contraction rate, and 3) has a long window of effective credit assignment, yet bounded worst-case variance. We also give a counterexample where on-policy, tabular TD methods violating the recency heuristic diverge. Our results offer some of the first theoretical evidence that credit assignment based on the recency heuristic facilitates learning.
翻訳日:2024-06-19 20:45:27 公開日:2024-06-18
# DASSF: 空中物体検出のためのダイナミックアテンションスケールシーケンスフュージョン

DASSF: Dynamic-Attention Scale-Sequence Fusion for Aerial Object Detection ( http://arxiv.org/abs/2406.12285v1 )

ライセンス: Link先を確認
Haodong Li, Haicheng Qu, (参考訳) 空中画像における小さな物体の検出は、コンピュータビジョンの分野における基本的な課題である。 空中撮影における移動物体には、形状や大きさ、重なり合い、背景による隠蔽、物体のぼやけなどの問題があるが、元のYOLOアルゴリズムは、異なるスケールの目標を知覚する能力の弱いため、全体的な検出精度が低い。 そこで本研究では,小型目標とファジィ目標の重なり合う検出精度を向上させるために,空中画像における小型目標検出のためのダイナミックアテンションスケール系列融合アルゴリズム(DASSF)を提案する。 まず、アップサンプリング機構を改善し、計算負荷を低減する動的スケールシーケンス機能融合(DSSFF)モジュールを提案する。 第2に、小目標の検出能力を高めるために、特別にx小物体検出ヘッドを付加する。 最後に、異なるタイプやサイズのターゲットの表現能力を改善するために、動的ヘッド(DyHead)を使用します。 提案するモデルでは,航空画像における目標検出の小型化が問題視され,YOLOアルゴリズムの多種多様なバージョンに適用可能である。 実験の結果, YOLOv8nと比較すると, 平均平均精度 (mAP) は9.2%, DIORは2.4%向上し, 現在の主流手法よりも優れていた。

The detection of small objects in aerial images is a fundamental task in the field of computer vision. Moving objects in aerial photography have problems such as different shapes and sizes, dense overlap, occlusion by the background, and object blur, however, the original YOLO algorithm has low overall detection accuracy due to its weak ability to perceive targets of different scales. In order to improve the detection accuracy of densely overlapping small targets and fuzzy targets, this paper proposes a dynamic-attention scale-sequence fusion algorithm (DASSF) for small target detection in aerial images. First, we propose a dynamic scale sequence feature fusion (DSSFF) module that improves the up-sampling mechanism and reduces computational load. Secondly, a x-small object detection head is specially added to enhance the detection capability of small targets. Finally, in order to improve the expressive ability of targets of different types and sizes, we use the dynamic head (DyHead). The model we proposed solves the problem of small target detection in aerial images and can be applied to multiple different versions of the YOLO algorithm, which is universal. Experimental results show that when the DASSF method is applied to YOLOv8, compared to YOLOv8n, on the VisDrone-2019 and DIOR datasets, the model shows an increase of 9.2% and 2.4% in the mean average precision (mAP), respectively, and outperforms the current mainstream methods.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# VIRL:Few-shot Manufacturability Estimationに向けたボリュームインフォームド表現学習

VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation ( http://arxiv.org/abs/2406.12286v1 )

ライセンス: Link先を確認
Yu-hsuan Chen, Jonathan Cagan, Levent Burak kara, (参考訳) 製造のための設計は、CAM(Computer-Aided Manufacturing)シミュレーションの計算ボトルネックのために大きな課題となっている。 代替としてディープラーニングは高速な推論を提供するが、そのパフォーマンスは豊富なトレーニングデータの必要性によって依存的に制限される。 表現学習は、特にプレトレーニングを通じて、データの制限が可能な製造可能性タスクを支援する、数発の学習の約束を提供する。 本研究は,3次元幾何エンコーダの事前学習のためのボリュームインフォームド表現学習手法であるVIRLを紹介する。 CAMシミュレーションから得られた4つの製造可能性指標(減算加工時間(SM)、加法製造時間(AM)、残留von Mises応力、レーザーパワーベッド融合過程におけるブレード衝突)で事前学習モデルを評価した。 すべてのケーススタディにおいて、VIRLによって事前訓練されたモデルは、制限されたデータによる一般化性の向上と、より大きなデータセットによる優れたパフォーマンスを示す上で、大幅に強化されている。 展開戦略に関しては、細調整されたVIRL予測モデルが限られたデータを持つAMタスクに悪影響を及ぼすケース固有現象が存在するが、SM時間予測には有効である。 さらに,探索と微調整のバランスをとるローランク適応 (LoRA) の有効性について検討した。 LoRAは、限られたデータで探索するのと同じような安定した性能を示し、データサイズが大きくなるにつれて、微調整の計算コストを伴わずに、探索よりも高い上限を達成する。 さらに、製造指標の静的正規化はタスク間で一貫して良好に機能し、動的正規化は信頼性の高いタスク依存入力が利用可能である場合に性能を高める。

Designing for manufacturing poses significant challenges in part due to the computation bottleneck of Computer-Aided Manufacturing (CAM) simulations. Although deep learning as an alternative offers fast inference, its performance is dependently bounded by the need for abundant training data. Representation learning, particularly through pre-training, offers promise for few-shot learning, aiding in manufacturability tasks where data can be limited. This work introduces VIRL, a Volume-Informed Representation Learning approach to pre-train a 3D geometric encoder. The pretrained model is evaluated across four manufacturability indicators obtained from CAM simulations: subtractive machining (SM) time, additive manufacturing (AM) time, residual von Mises stress, and blade collisions during Laser Power Bed Fusion process. Across all case studies, the model pre-trained by VIRL shows substantial enhancements on demonstrating improved generalizability with limited data and superior performance with larger datasets. Regarding deployment strategy, case-specific phenomenon exists where finetuning VIRL-pretrained models adversely affects AM tasks with limited data but benefits SM time prediction. Moreover, the efficacy of Low-rank adaptation (LoRA), which balances between probing and finetuning, is explored. LoRA shows stable performance akin to probing with limited data, while achieving a higher upper bound than probing as data size increases, without the computational costs of finetuning. Furthermore, static normalization of manufacturing indicators consistently performs well across tasks, while dynamic normalization enhances performance when a reliable task dependent input is available.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# LLMの算術的推論を誘発する起因性連鎖を説明できる統一レンズとしてのニューロン活性化の検討

An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs ( http://arxiv.org/abs/2406.12288v1 )

ライセンス: Link先を確認
Daking Rai, Ziyu Yao, (参考訳) 大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトによって引き起こされた強い算術的推論能力を示している。 しかし、LLMによってどのように処理されるかは限定的な理解しか得られない。 CoTプロンプトの異なるコンポーネントを非難し、その結果のLCMパフォーマンスの変化を経験的に観察することに焦点を当てていた。 しかし、これらのコンポーネントがLSM推論において重要である理由は明らかにされていない。 このギャップを埋めるために、本稿では、先行研究による観察を統一的に説明するために、レンズとしての「ニューロン活性化」について検討する。 具体的には、Llama2を例として、LLMのフィードフォワード層内のニューロンについて、算術的推論能力を活性化させた可能性があることを考察する。 本研究は,GPT-4に基づく,推論を算術的に意味するニューロンを自動同定する手法を提案する。 解析の結果、LLMのフィードフォワード層における推論ニューロンの活性化は、CoTプロンプトにおける様々な成分の重要性を説明でき、今後の研究は、より完全な理解のためにそれを拡張できることが判明した。

Large language models (LLMs) have shown strong arithmetic reasoning capabilities when prompted with Chain-of-Thought (CoT) prompts. However, we have only a limited understanding of how they are processed by LLMs. To demystify it, prior work has primarily focused on ablating different components in the CoT prompt and empirically observing their resulting LLM performance change. Yet, the reason why these components are important to LLM reasoning is not explored. To fill this gap, in this work, we investigate ``neuron activation'' as a lens to provide a unified explanation to observations made by prior work. Specifically, we look into neurons within the feed-forward layers of LLMs that may have activated their arithmetic reasoning capabilities, using Llama2 as an example. To facilitate this investigation, we also propose an approach based on GPT-4 to automatically identify neurons that imply arithmetic reasoning. Our analyses revealed that the activation of reasoning neurons in the feed-forward layers of an LLM can explain the importance of various components in a CoT prompt, and future research can extend it for a more complete understanding.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# 逆問題に対するデータ依存リッジ規則化の安定性

Stability of Data-Dependent Ridge-Regularization for Inverse Problems ( http://arxiv.org/abs/2406.12289v1 )

ライセンス: Link先を確認
Sebastian Neumayer, Fabian Altekrüger, (参考訳) 逆問題に対する堅牢な解の理論的保証は、アプリケーションに重要な意味を持つ。 そこで本研究では,データ依存型および空間変化型正規化強度を持つ画素ベースのリッジ正規化器を学習することを提案する。 このアーキテクチャでは、関連する変分問題に対する解の存在と、その解演算子の安定性を確立する。 さらに,再建が最大的・後行性アプローチであることも証明した。 バイオメディカルイメージングと材料科学のシミュレーションは、小さなインスタンス固有のトレーニングセットが利用可能であっても、このアプローチが高品質な再構築をもたらすことを示した。

Theoretical guarantees for the robust solution of inverse problems have important implications for applications. To achieve both guarantees and high reconstruction quality, we propose to learn a pixel-based ridge regularizer with a data-dependent and spatially-varying regularization strength. For this architecture, we establish the existence of solutions to the associated variational problem and the stability of its solution operator. Further, we prove that the reconstruction forms a maximum-a-posteriori approach. Simulations for biomedical imaging and material sciences demonstrate that the approach yields high-quality reconstructions even if only a small instance-specific training set is available.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# JEN-1 DreamStyler:Pivotalパラメータチューニングによるカスタム音楽概念学習

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning ( http://arxiv.org/abs/2406.12292v1 )

ライセンス: Link先を確認
Boyu Chen, Peike Li, Yao Yao, Alex Wang, (参考訳) テキスト・ツー・ミュージック・ジェネレーションのための大規模なモデルは、提供されたテキスト・プロンプトから高品質で多様な音楽作品の作成を容易にし、大きな進歩を遂げた。 しかし、入力テキストプロンプトは、特に指定された参照コレクションから派生した特定の概念を具現化した音楽を生成することを目的としている場合、ユーザーの要求を正確に捉えることができない。 本稿では,2分間のレファレンス音楽からコンセプトを捉え,そのコンセプトに適合した新しい楽曲を生成する,テキスト・ツー・ミュージック・ジェネレーションの新たな手法を提案する。 参照音楽を用いて、事前訓練されたテキストから音楽へのモデルを微調整することで、これを実現する。 しかしながら、すべてのパラメータを直接微調整すると、過度な問題が発生する。 この問題に対処するために、モデルが元の生成能力を保ちながら新しい概念を同化できるようにするPivotal Parameters Tuning法を提案する。 さらに、事前訓練されたモデルに複数の概念を導入する際に、潜在的な概念衝突を特定する。 本稿では,複数の概念を区別する概念拡張戦略を提案する。 我々は、カスタマイズされた音楽生成タスクに最初に取り組み、新しいタスクのための新しいデータセットと評価プロトコルも導入する。 提案するJen1-DreamStylerは,定性評価と定量的評価の両方において,いくつかのベースラインを上回っている。 デモはhttps://www.jenmusic.ai/research#DreamStyler.comで公開される。

Large models for text-to-music generation have achieved significant progress, facilitating the creation of high-quality and varied musical compositions from provided text prompts. However, input text prompts may not precisely capture user requirements, particularly when the objective is to generate music that embodies a specific concept derived from a designated reference collection. In this paper, we propose a novel method for customized text-to-music generation, which can capture the concept from a two-minute reference music and generate a new piece of music conforming to the concept. We achieve this by fine-tuning a pretrained text-to-music model using the reference music. However, directly fine-tuning all parameters leads to overfitting issues. To address this problem, we propose a Pivotal Parameters Tuning method that enables the model to assimilate the new concept while preserving its original generative capabilities. Additionally, we identify a potential concept conflict when introducing multiple concepts into the pretrained model. We present a concept enhancement strategy to distinguish multiple concepts, enabling the fine-tuned model to generate music incorporating either individual or multiple concepts simultaneously. Since we are the first to work on the customized music generation task, we also introduce a new dataset and evaluation protocol for the new task. Our proposed Jen1-DreamStyler outperforms several baselines in both qualitative and quantitative evaluations. Demos will be available at https://www.jenmusic.ai/research#DreamStyler.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# 医用画像分類におけるラベルノイズに対する開放型ノイズサンプルの可能性

Unleashing the Potential of Open-set Noisy Samples Against Label Noise for Medical Image Classification ( http://arxiv.org/abs/2406.12293v1 )

ライセンス: Link先を確認
Zehui Liao, Shishuai Hu, Yong Xia, (参考訳) 医用画像分類におけるクローズド・セットとオープン・セット・ラベルの混在に対処する課題はほとんど未解明のままである。 クローズドセットとオープンセットのノイズサンプルの分離と分離処理が一般的である自然画像分類とは異なり、医用画像分類は、オープンセットのノイズサンプルの識別を複雑にするクラス間類似度が高いために困難に直面している。 さらに、一般的な手法では、ラベルノイズ緩和のためにオープンセットノイズサンプルのポテンシャルを最大限に活用することができず、しばしばその排除や均一な軟質ラベルの適用につながる。 これらの問題に対処するために、拡張ノイズ・ロバスト・コントラスト・オープン・セット・フィーチャー・アジュメンテーション(ENCOFA)フレームワークを提案する。 ENCOFAには、クラス間の特徴の区別を支援する拡張ノイズローバスト・スーパーバイザード・コントラスト(ENSC)ロスが含まれている。 ENSCの損失は、オープンセットノイズサンプルを拡張クラスとみなし、ラベル信頼性のあるコントラストペアを重み付けすることでラベルノイズを緩和する。 さらに,オープンセット・フィーチャー・アジュメンテーション(OSFeatAug)モジュールを開発した。このモジュールは,オープンセット・サンプルの特徴を豊かにし,モデルの余剰容量を活用してノイズの多いデータへの過度な適合を防止する。 合成ノイズデータセットと実世界のノイズデータセットについて実験を行った。 その結果, ENCOFAの優位性と, ラベルノイズと闘うために, オープンセットノイズサンプルを有効利用できることが示唆された。

The challenge of addressing mixed closed-set and open-set label noise in medical image classification remains largely unexplored. Unlike natural image classification where there is a common practice of segregation and separate processing of closed-set and open-set noisy samples from clean ones, medical image classification faces difficulties due to high inter-class similarity which complicates the identification of open-set noisy samples. Moreover, prevailing methods do not leverage the full potential of open-set noisy samples for label noise mitigation, often leading to their exclusion or application of uniform soft labels. To address these issues, we propose an Extended Noise-robust Contrastive and Open-set Feature Augmentation (ENCOFA) framework. ENCOFA includes the Extended Noise-robust Supervised Contrastive (ENSC) Loss, which aids in distinguishing features across classes. The ENSC loss regards open-set noisy samples as an extended class and mitigates label noise by weighting contrastive pairs with label reliability. Furthermore, we develop an Open-set Feature Augmentation (OSFeatAug) module that enriches the features of open-set samples, utilizing the model's extra capacity to prevent overfitting to noisy data. We conducted experiments on a synthetic noisy dataset and a real-world noisy dataset. Our results indicate the superiority of ENCOFA and the effectiveness of leveraging the open-set noisy samples to combat label noise.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# 高速かつスローな生成:大規模および小言語モデルの協調的デコーディングに関する実証的研究

Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding ( http://arxiv.org/abs/2406.12295v1 )

ライセンス: Link先を確認
Kaiyan Zhang, Jianyu Wang, Ning Ding, Biqing Qi, Ermo Hua, Xingtai Lv, Bowen Zhou, (参考訳) 大きな言語モデル(LLM)は、様々なアプリケーションで顕著なパフォーマンスを示しているが、高い推論遅延、高価なトレーニングコスト、幻覚の生成など、大きな欠点に直面している。 大きな言語モデルと小さな言語モデル(SLM)の協調的復号化は、これらの課題に対処するための新しいアプローチを提供する。 両プロセス認知理論に着想を得たこれらの手法を,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークに統合する。 本稿では、投機的復号化、コントラスト的復号化、エミュレータやプロキシの微調整など、FS-GENフレームワーク内のいくつかの手法について検討する。 本稿では,これらの方法論を包括的に分析し,その類似点と相違点について考察する。 LLMとSLMの差分知識能力についてFS-GENレンズを用いて検討し、様々な方法で協調的な相互作用が20%未満必要であることが判明した。 これらの相互作用はパラメータ比に対するスケーリング法則に従属し、予測可能な協調を容易にする。 さらに、不確実性の観点から、協調が最も効果的である特定の位置について検討し、FS-GEN法を洗練できる新たな知見を得た。 以上の結果から,異なるサイズのモデル間の本質的な違いは,より大きなモデルによる介入がより小さなモデルを支援する上で必要となる,次のトークン予測の不確実性にあることがわかった。 再現コード:https://github.com/TsinghuaC3I/FS-GEN

Large Language Models (LLMs) demonstrate impressive performance in diverse applications, yet they face significant drawbacks, including high inference latency, expensive training cost, and generation of hallucination. Collaborative decoding between large and small language models (SLMs) offers a novel approach to address these challenges. Inspired by dual-process cognitive theory, we integrate these methods into a unified framework termed Fast and Slow Generating (FS-GEN). This paper explores several techniques within the FS-GEN framework, including speculative decoding, contrastive decoding, and emulator or proxy fine-tuning. We provide a comprehensive analysis of these methodologies, offering insights into their similarities and differences under this framework. Our study delves into the differential knowledge capabilities of LLMs versus SLMs through the FS-GEN lens, revealing that fewer than 20% of collaborative interactions are required across various methods. These interactions adhere to a scaling law relative to the parameter ratios, thereby facilitating predictable collaboration. Furthermore, we investigate the specific positions where collaboration is most effective from an uncertainty perspective, yielding novel insights that could refine FS-GEN methods. Our findings reveal that the essential difference between models of different sizes lies in the uncertainty of the next token prediction, where interventions by larger models are most needed to assist the smaller ones. Code for Reproduction: https://github.com/TsinghuaC3I/FS-GEN
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# ジェネレーティブ人工知能を用いたユーザスタディ : エアタクシーサービスへの応用

Generative Artificial Intelligence-Guided User Studies: An Application for Air Taxi Services ( http://arxiv.org/abs/2406.12296v1 )

ライセンス: Link先を確認
Shengdi Xiao, Jingjing Li, Tatsuki Fushimi, Yoichi Ochiai, (参考訳) ユーザスタディは、ユーザニーズを満たすために不可欠です。 ユーザスタディでは、実際の実験シナリオと参加者が構築され、採用されます。 しかし、新しい研究や馴染みの無い研究は、安全性や反復効率などの制限に直面している。 これらの課題に対処するために,大規模な言語モデル(LLM)を用いて,ユーザエクスペリエンスのための生成AI仮想シナリオを作成する。 この経験を評価するために実際のユーザを採用することで、初期の設計フェーズで迅速なイテレーションを可能にするフィードバックを収集できます。 エアタクシーはこれらの課題を特に代表しており、この研究のケーススタディとして選ばれている。 主な貢献は、OpenAIのGPT-4モデルとAIイメージとビデオジェネレータを使用して仮想ATJを設計することであった。 LLMが生成したスクリプトに基づいて、エアタクシーのキーヴィジュアライゼーションが作成され、ATJは72人の参加者によって評価された。 さらに, LLMは, エアタクシーに対する参加者の態度を著しく改善する環境を特定し, 提案する能力を示した。 教育水準と性別は,ATJに対する参加者の態度と満足度に大きく影響した。 本研究は, 航空タクシーのユーザエクスペリエンスを設計する上で, ユーザ学習を支援するための生成AIの能力を確認し, 実現可能なアプローチと貴重な洞察を提供する。

User studies are crucial for meeting user needs. In user studies, real experimental scenarios and participants are constructed and recruited. However, emerging and unfamiliar studies face limitations, including safety concerns and iterative efficiency. To address these challenges, this study utilizes a large language model (LLM) to create generative AI virtual scenarios for user experience. By recruiting real users to evaluate this experience, we can collect feedback that enables rapid iteration in the early design phase. The air taxi is particularly representative of these challenges and has been chosen as the case study for this research. The key contribution was designing a virtual ATJ using OpenAI's GPT-4 model and AI image and video generators. Based on the LLM-generated scripts, key visuals were created for the air taxi, and the ATJ was evaluated by 72 participants. Furthermore, the LLM demonstrated the ability to identify and suggest environments that significantly improve participants' attitudes toward air taxis. Education level and gender significantly influenced participants' attitudes and their satisfaction with the ATJ. Our study confirms the capability of generative AI to support user studies, providing a feasible approach and valuable insights for designing air taxi user experiences in the early design phase.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# MPI並列化システムにおける行列計算による忠実密度ピーククラスタリング

Faithful Density-Peaks Clustering via Matrix Computations on MPI Parallelization System ( http://arxiv.org/abs/2406.12297v1 )

ライセンス: Link先を確認
Ji Xu, Tianlong Xiao, Jinye Yang, Panpan Zhu, (参考訳) 密度ピーククラスタリング(DP)は任意の形状のクラスタを検出し,非ユークリッド空間データをクラスタリングする能力を持つが,計算とストレージの2次複雑さにより,ビッグデータのスケールアップが困難になる。 この点に関して、MapReduceベースの分散コンピューティング、マルチコア並列処理、プレゼンテーション変換(例えば、kd-tree、Z-value)、粒度計算など、様々なアプローチが提案されている。 しかし、これらの既存の手法のほとんどは2つの制限に直面している。 ひとつは、ターゲットとするデータセットが主にユークリッド空間に制限されていること、もうひとつは、計算密度の計算時にカーネルの切断に制限があるため、グローバルなデータ分散を無視しながら、ローカルな隣人にのみ重点を置いていることだ。 この2つの問題に対処するために,ベクトル状距離行列と逆前ノードファイリングポリシを併用した,忠実かつ並列なDP法を提案する。 この方法はメッセージパッシングインタフェース(MPI)システムに実装されている。 大規模なユークリッドデータをクラスタリングする場合,コミュニティ検出などの非ユークリッドデータをクラスタリングできると同時に,最先端の手法よりも精度が高いことを示した。 私たちのコードはhttps://github.com/alanxuji/FaithPDP.comで公開されています。

Density peaks clustering (DP) has the ability of detecting clusters of arbitrary shape and clustering non-Euclidean space data, but its quadratic complexity in both computing and storage makes it difficult to scale for big data. Various approaches have been proposed in this regard, including MapReduce based distribution computing, multi-core parallelism, presentation transformation (e.g., kd-tree, Z-value), granular computing, and so forth. However, most of these existing methods face two limitations. One is their target datasets are mostly constrained to be in Euclidian space, the other is they emphasize only on local neighbors while ignoring global data distribution due to restriction to cut-off kernel when computing density. To address the two issues, we present a faithful and parallel DP method that makes use of two types of vector-like distance matrices and an inverse leading-node-finding policy. The method is implemented on a message passing interface (MPI) system. Extensive experiments showed that our method is capable of clustering non-Euclidean data such as in community detection, while outperforming the state-of-the-art counterpart methods in accuracy when clustering large Euclidean data. Our code is publicly available at https://github.com/alanxuji/FaithPDP.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# 機械学習に基づく危険な飛行天気予報に関する研究

Research on Dangerous Flight Weather Prediction based on Machine Learning ( http://arxiv.org/abs/2406.12298v1 )

ライセンス: Link先を確認
Haoxing Liu, Renjie Xie, Haoshen Qin, Yizhou Li, (参考訳) 航空輸送の規模が拡大するにつれ、航空気象支援の需要も増加し続けている。 危険天候が飛行安全に与える影響は極めて重要である。 気象データを効果的に利用して、危険天候の早期警戒能力を改善し、航空機の安全な飛行を確実にすることが、航空気象サービスの主要な課題である。 本研究では,特に嵐や乱流などの不確実性の高い気象条件に対して,SVMモデルを用いて有害な飛行天気を予測する。 SVMは、高次元空間における最適決定境界を見つけることによって、異なるクラスのデータを区別する教師あり学習法である。 本研究のニーズを満たすため、我々は、非線形問題に対処し、複雑な気象データ構造をよりよく捉えることができるように、放射基底関数(RBF)をカーネル関数として選択した。 モデル訓練期間中に, 温度, 湿度, 風速, 風向, その他の気象指標を含む複数の気象観測所から, 飛行安全に密接に関連した気象観測を行った。 このデータから、SVMモデルは、通常の飛行条件と危険な飛行条件を区別する方法を学ぶ。

With the continuous expansion of the scale of air transport, the demand for aviation meteorological support also continues to grow. The impact of hazardous weather on flight safety is critical. How to effectively use meteorological data to improve the early warning capability of flight dangerous weather and ensure the safe flight of aircraft is the primary task of aviation meteorological services. In this work, support vector machine (SVM) models are used to predict hazardous flight weather, especially for meteorological conditions with high uncertainty such as storms and turbulence. SVM is a supervised learning method that distinguishes between different classes of data by finding optimal decision boundaries in a high-dimensional space. In order to meet the needs of this study, we chose the radial basis function (RBF) as the kernel function, which helps to deal with nonlinear problems and enables the model to better capture complex meteorological data structures. During the model training phase, we used historical meteorological observations from multiple weather stations, including temperature, humidity, wind speed, wind direction, and other meteorological indicators closely related to flight safety. From this data, the SVM model learns how to distinguish between normal and dangerous flight weather conditions.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# ニアRT RICにおけるMLソリューションのエクスプロイトとセキュリティ:xAppの展望

Exploiting and Securing ML Solutions in Near-RT RIC: A Perspective of an xApp ( http://arxiv.org/abs/2406.12299v1 )

ライセンス: Link先を確認
Thusitha Dayaratne, Viet Vo, Shangqi Lai, Sharif Abuadbba, Blake Haydon, Hajime Suzuki, Xingliang Yuan, Carsten Rudolph, (参考訳) Open Radio Access Networks (O-RAN)は破壊的な技術として登場し、現在の5Gと今後の6G時代において、従来のモバイルネットワークアーキテクチャとデプロイメントに革命をもたらした。 ネットワークアーキテクチャの分散、AI/MLワークフローの固有のサポート、クラウドネイティブな原則、スケーラビリティ、相互運用性により、O-RANは5Gおよび6Gデプロイメント以上のネットワークプロバイダにとって魅力的な存在だ。 特に、 RAN Intelligent Controllers (RICs)上でxAppsやrAppsのような機械学習(ML)ソリューションなどのカスタムアプリケーションをデプロイする能力は、ネットワーク機能とリソースの最適化に大きな可能性を秘めている。 しかし、O-RANとRCCのオープン性、初期標準、分散アーキテクチャは、まだ十分に調査されていない複数の攻撃ベクトルを通じて悪用可能な多数の脆弱性を導入している。 このギャップに対処し、大規模デプロイメントの前に堅牢なシステムを保証するため、この研究は、RICプラットフォームにデプロイされたMLベースのアプリケーションのセキュリティを分析します。 我々は攻撃の可能性、防衛機構に焦点をあて、より堅牢なRCCプラットフォームに向けた今後の研究の道を開く。

Open Radio Access Networks (O-RAN) are emerging as a disruptive technology, revolutionising traditional mobile network architecture and deployments in the current 5G and the upcoming 6G era. Disaggregation of network architecture, inherent support for AI/ML workflows, cloud-native principles, scalability, and interoperability make O-RAN attractive to network providers for beyond-5G and 6G deployments. Notably, the ability to deploy custom applications, including Machine Learning (ML) solutions as xApps or rApps on the RAN Intelligent Controllers (RICs), has immense potential for network function and resource optimisation. However, the openness, nascent standards, and distributed architecture of O-RAN and RICs introduce numerous vulnerabilities exploitable through multiple attack vectors, which have not yet been fully explored. To address this gap and ensure robust systems before large-scale deployments, this work analyses the security of ML-based applications deployed on the RIC platform. We focus on potential attacks, defence mechanisms, and pave the way for future research towards a more robust RIC platform.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# IR2QSM:反復逆結合と反復モジュールを用いたディープニューラルネットワークによる定量的サセプティビリティマッピング

IR2QSM: Quantitative Susceptibility Mapping via Deep Neural Networks with Iterative Reverse Concatenations and Recurrent Modules ( http://arxiv.org/abs/2406.12300v1 )

ライセンス: Link先を確認
Min Li, Chen Chen, Zhuang Xiong, Ying Liu, Pengfei Rong, Shanshan Shan, Feng Liu, Hongfu Sun, Yang Gao, (参考訳) 定量的感受性マッピング(QSM)は、組織感受性の分布を抽出するMRI位相に基づく後処理技術であり、神経疾患の研究において有意義な可能性を示唆している。 しかし、双極子反転の条件の悪い性質は、QSMを組織野からノイズやアーティファクトへと再構成させる。 本研究では,QSM再構成のための新しいディープラーニングベースのIR2QSM法を提案する。 リバースコンカニオンとミドルリカレントモジュール拡張U-netの4回を繰り返すことで設計されており、遅延特性の利用効率を劇的に向上させることができる。 IR2QSMと従来のアルゴリズム(MEDI, iLSQR)と最先端ディープラーニング(U-net, xQSM, LPCNN)を比較した。 その結果、IR2QSMは精度が大幅に向上し、他の手法よりもアーチファクトが軽減されたQSM画像を得ることができた。 特にIR2QSMは15.48%、7.86%、17.24%、9.26%、29.13%のシミュレーション実験において、ILSQR、MEDI、U-net、xQSM、LPCNNよりも平均27.59%低かった。

Quantitative susceptibility mapping (QSM) is an MRI phase-based post-processing technique to extract the distribution of tissue susceptibilities, demonstrating significant potential in studying neurological diseases. However, the ill-conditioned nature of dipole inversion makes QSM reconstruction from the tissue field prone to noise and artifacts. In this work, we propose a novel deep learning-based IR2QSM method for QSM reconstruction. It is designed by iterating four times of a reverse concatenations and middle recurrent modules enhanced U-net, which could dramatically improve the efficiency of latent feature utilization. Simulated and in vivo experiments were conducted to compare IR2QSM with several traditional algorithms (MEDI and iLSQR) and state-of-the-art deep learning methods (U-net, xQSM, and LPCNN). The results indicated that IR2QSM was able to obtain QSM images with significantly increased accuracy and mitigated artifacts over other methods. Particularly, IR2QSM demonstrated on average the best NRMSE (27.59%) in simulated experiments, which is 15.48%, 7.86%, 17.24%, 9.26%, and 29.13% lower than iLSQR, MEDI, U-net, xQSM, LPCNN, respectively, and led to improved QSM results with fewer artifacts for the in vivo data.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# 組織間ビジネスプロセスのモデリングと実装のためのユニバーサル手法への一歩

A Step Towards a Universal Method for Modeling and Implementing Cross-Organizational Business Processes ( http://arxiv.org/abs/2406.12302v1 )

ライセンス: Link先を確認
Gerhard Zeisler, Tim Tobias Braunauer, Albert Fleischmann, Robert Singer, (参考訳) 広く採用されているビジネスプロセスモデルと表記法(BPMN)は、ビジネスプロセスモデリングの業界標準の基礎です。 しかし、その曖昧な実行セマンティクスは、実装に使用されるソフトウェアによって、しばしば矛盾する解釈をもたらす。 これに対し、プロセス仕様言語(PASS)は、これらの解釈上の課題を克服するために、正式に定義されたセマンティクスを提供する。 明らかな優位性にもかかわらず、PASSはBPMNと同じレベルの業界浸透に達していない。 この実現可能性調査は、BPMNモデルを翻訳し実行するための仲介フレームワークとしてPASSを使うことを提案する。 特定のBPMN要素をPASSと互換性のあるフォーマットに変換するプロトタイプトランスレータの開発について説明する。 これらのモデルはソースコードに変換され、従来のBPMN実装から逸脱した状態のワークフロー環境で実行される。 PASSの統合は、さまざまなモデリングおよび実行ツール間の互換性を高め、組織間でビジネスプロセスを実装するためのより堅牢な方法論を提供することを示唆している。 この研究は、より正確で統一されたビジネスプロセスモデル実行の基盤となり、プロセスモデリングと実行の業界標準を変える可能性がある。

The widely adopted Business Process Model and Notation (BPMN) is a cornerstone of industry standards for business process modeling. However, its ambiguous execution semantics often result in inconsistent interpretations, depending on the software used for implementation. In response, the Process Specification Language (PASS) provides formally defined semantics to overcome these interpretational challenges. Despite its clear advantages, PASS has not reached the same level of industry penetration as BPMN. This feasibility study proposes using PASS as an intermediary framework to translate and execute BPMN models. It describes the development of a prototype translator that converts specific BPMN elements into a format compatible with PASS. These models are then transformed into source code and executed in a bespoke workflow environment, marking a departure from traditional BPMN implementations. Our findings suggest that integrating PASS enhances compatibility across different modeling and execution tools and offers a more robust methodology for implementing business processes across organizations. This study lays the groundwork for more accurate and unified business process model executions, potentially transforming industry standards for process modeling and execution.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# イミューシブル・ディフュージョン:ノイズアサインによる拡散訓練の高速化

Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment ( http://arxiv.org/abs/2406.12303v1 )

ライセンス: Link先を確認
Yiheng Li, Heyang Jiang, Akio Kodaira, Masayoshi Tomizuka, Kurt Keutzer, Chenfeng Xu, (参考訳) 本稿では,最適な雑音データマッピングが拡散モデルの遅い訓練につながることを指摘する。 拡散訓練中、現在の手法はノイズ空間全体にわたって各画像を拡散させ、ノイズ層内の各点で全ての画像が混合される。 このランダムな混合ノイズデータマッピングは拡散モデルにおけるデノナイジング関数の最適化を複雑にする。 物理における不可解な現象からインスピレーションを得たImmiscible Diffusionは、ノイズデータマッピングのランダムな混合を改善するためのシンプルで効果的な方法である。 物理学では、様々な分子間力によって不明瞭さが変化する。 したがって、分子源の混合は区別可能である。 そこで本研究では,代入型拡散訓練戦略を提案する。 具体的には、画像データをノイズに拡散する前に、ミニバッチ内の全画像-雑音対距離を最小化することにより、画像データに対して拡散目標ノイズを割り当てる。 代入関数は、画像の拡散可能な領域を分離する外部力と類似して機能し、拡散訓練における固有の困難を緩和する。 我々のアプローチは極めて単純であり、ガウス分布を保ちながら、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。 これにより、各画像は近傍の雑音にのみ投影される。 代入アルゴリズムの複雑さに対処するため,計算オーバーヘッドを無視できるレベルに減らすために,量子化代入法を用いる。 CIFARデータセットでの一貫性モデルとDDIMのトレーニングを最大3倍高速化し,一貫性モデルのCelebAデータセットの最大1.3倍高速化した。 さらに, 拡散訓練速度の向上を図り, 忠実度の向上を図っている。

In this paper, we point out suboptimal noise-data mapping leads to slow training of diffusion models. During diffusion training, current methods diffuse each image across the entire noise space, resulting in a mixture of all images at every point in the noise layer. We emphasize that this random mixture of noise-data mapping complicates the optimization of the denoising function in diffusion models. Drawing inspiration from the immiscible phenomenon in physics, we propose Immiscible Diffusion, a simple and effective method to improve the random mixture of noise-data mapping. In physics, miscibility can vary according to various intermolecular forces. Thus, immiscibility means that the mixing of the molecular sources is distinguishable. Inspired by this, we propose an assignment-then-diffusion training strategy. Specifically, prior to diffusing the image data into noise, we assign diffusion target noise for the image data by minimizing the total image-noise pair distance in a mini-batch. The assignment functions analogously to external forces to separate the diffuse-able areas of images, thus mitigating the inherent difficulties in diffusion training. Our approach is remarkably simple, requiring only one line of code to restrict the diffuse-able area for each image while preserving the Gaussian distribution of noise. This ensures that each image is projected only to nearby noise. To address the high complexity of the assignment algorithm, we employ a quantized-assignment method to reduce the computational overhead to a negligible level. Experiments demonstrate that our method achieve up to 3x faster training for consistency models and DDIM on the CIFAR dataset, and up to 1.3x faster on CelebA datasets for consistency models. Besides, we conduct thorough analysis about the Immiscible Diffusion, which sheds lights on how it improves diffusion training speed while improving the fidelity.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# COT:Contrastive Optimal TransportによるHate Speech Counter-Narrativesの生成的アプローチ

COT: A Generative Approach for Hate Speech Counter-Narratives via Contrastive Optimal Transport ( http://arxiv.org/abs/2406.12304v1 )

ライセンス: Link先を確認
Linhao Zhang, Li Jin, Guangluan Xu, Xiaoyu Li, Xian Sun, (参考訳) 非攻撃的な事実に基づく議論からなる直接的な反応であるカウンターナラティブは、ヘイトスピーチの拡散に対抗するための非常に効果的なアプローチとして現れている。 従来の手法は主に、LGBTグループや移民などの特定の憎悪の対象に関する個人化と関連性の批判的側面を見越しながら、生成されたコンテンツの流布を確実にするための微調整および後編集技術に重点を置いてきた。 本研究は, 対物文の生成において, ターゲット間相互作用の維持と多様化を促進することの課題を効果的に解決する, コントラッシブ・最適輸送に基づく新しい枠組みを提案する。 まず、最適化トランスポートカーネル(OTK)モジュールを利用してトークン表現に憎しみのあるターゲット情報を組み込み、元の特徴と転送された特徴の間で比較ペアを抽出する。 次に,自己コントラスト学習モジュールを用いて,モデル変性の問題に対処する。 このモジュールはトークン表現の異方性分布を生成することでこれを達成している。 最後に、ターゲット指向探索手法を改良されたデコード戦略として統合し、推論プロセスにおけるドメインの妥当性と多様化を明確に促進する。 この戦略は、トークン類似性と目標関連性の両方を考慮してモデルの信頼性スコアを変更する。 定量的および定性的な実験を2つのベンチマークデータセットで評価し、提案手法が複数の側面から評価された現在の手法を著しく上回っていることを示した。

Counter-narratives, which are direct responses consisting of non-aggressive fact-based arguments, have emerged as a highly effective approach to combat the proliferation of hate speech. Previous methodologies have primarily focused on fine-tuning and post-editing techniques to ensure the fluency of generated contents, while overlooking the critical aspects of individualization and relevance concerning the specific hatred targets, such as LGBT groups, immigrants, etc. This research paper introduces a novel framework based on contrastive optimal transport, which effectively addresses the challenges of maintaining target interaction and promoting diversification in generating counter-narratives. Firstly, an Optimal Transport Kernel (OTK) module is leveraged to incorporate hatred target information in the token representations, in which the comparison pairs are extracted between original and transported features. Secondly, a self-contrastive learning module is employed to address the issue of model degeneration. This module achieves this by generating an anisotropic distribution of token representations. Finally, a target-oriented search method is integrated as an improved decoding strategy to explicitly promote domain relevance and diversification in the inference process. This strategy modifies the model's confidence score by considering both token similarity and target relevance. Quantitative and qualitative experiments have been evaluated on two benchmark datasets, which demonstrate that our proposed model significantly outperforms current methods evaluated by metrics from multiple aspects.
翻訳日:2024-06-19 20:35:42 公開日:2024-06-18
# 相互作用するマチュー方程式、同期力学、衝突誘起イオンの速度交換

Interacting Mathieu equation, synchronization dynamics and collision-induced velocity exchange in trapped ions ( http://arxiv.org/abs/2406.12306v1 )

ライセンス: Link先を確認
Asma Benbouza, Xiaoshui Lin, Jin Ming Cui, Ming Gong, (参考訳) 近年、量子シミュレーションや量子計算の実験において、大規模に閉じ込められたイオン系が実現されている。 これらは力学安定性とパラメトリック共鳴の最も単純な系である。 このモデルでは、マチュー方程式は1つのイオンの安定性と不安定性を理解する上で最も基本的な役割を果たす。 本研究では,ハミルトニアン方程式に基づくクーロン相互作用による捕捉イオンのダイナミクスについて検討する。 複数体の相互作用が不安定性の位相図に影響を与えないことを示す。 そして、このモデルの大きな減衰限界における力学も、ほとんど捕捉されていないイオンを用いて解析的に計算する。 さらに、変調の存在下では、トラップの左側と右側の遠隔イオン間の速度の交換を示す同期ダイナミクスが観測できることがわかった。 これらの力学は、ボールの衝突を同時に行うニュートンのクレードルにおける速度の交換に類似している。 これらの力学は初期条件とイオンの数とは独立である。 相互作用するマチュー方程式のユニークな特徴として、この挙動が準周期解につながることを期待する。 最後に, 非調和トラップ電位の影響についても検討し, 衝突過程における非同期性を示す。 この減衰を伴う多体マチュー方程式の動力学は量子シミュレーションに応用できるかもしれないと推測されている。 このモデルはまた、力学系において純粋数学的問題として興味深い応用を見出すことができ、これはフロケの定理の結果を超えているかもしれない。

Recently, large-scale trapped ion systems have been realized in experiments for quantum simulation and quantum computation. They are the simplest systems for dynamical stability and parametric resonance. In this model, the Mathieu equation plays the most fundamental role for us to understand the stability and instability of a single ion. In this work, we investigate the dynamics of trapped ions with the Coulomb interaction based on the Hamiltonian equation. We show that the many-body interaction will not influence the phase diagram for instability. Then, the dynamics of this model in the large damping limit will also be analytically calculated using few trapped ions. Furthermore, we find that in the presence of modulation, synchronization dynamics can be observed, showing an exchange of velocities between distant ions on the left side and on the right side of the trap. These dynamics resemble to that of the exchange of velocities in Newton's cradle for the collision of balls at the same time. These dynamics are independent of their initial conditions and the number of ions. As a unique feature of the interacting Mathieu equation, we hope this behavior, which leads to a quasi-periodic solution, can be measured in current experimental systems. Finally, we have also discussed the effect of anharmonic trapping potential, showing the desynchronization during the collision process. It is hopped that the dynamics in this many-body Mathieu equation with damping may find applications in quantum simulations. This model may also find interesting applications in dynamics systems as a pure mathematical problem, which may be beyond the results in the Floquet theorem.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# ツール強化された大規模言語モデルは不完全な条件に気付くことができるか?

Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? ( http://arxiv.org/abs/2406.12307v1 )

ライセンス: Link先を確認
Seungbin Yang, ChaeHun Park, Taehee Kim, Jaegul Choo, (参考訳) 大規模言語モデル(LLM)とツールの統合の最近の進歩により、モデルが現実世界の環境と対話できるようになった。 しかし、これらのツール拡張 LLM は、ユーザーが部分的な情報を提供する場合や必要なツールが利用できない場合、不完全なシナリオに遭遇することが多い。 このようなシナリオの認識と管理は、LSMにとって信頼性を確保することが重要であるが、この調査はまだ検討されていない。 本研究では,LLMが不完全な条件を識別し,いつツールの使用を控えるかを適切に判断できるかどうかを検討する。 この目的のために、我々は2つのデータセットからインスタンスを操作することでデータセットに対処する。 特定ツールの利用に必要な追加情報と適切なツールの欠如を識別するために,ほとんどのLCMが課題であることを確認した。 我々の研究は、人間とLLMの相互作用において一般的に発生するシナリオに対処することで、信頼性の高いLLMの進化に寄与することができる。

Recent advancements in integrating large language models (LLMs) with tools have allowed the models to interact with real-world environments. However, these tool-augmented LLMs often encounter incomplete scenarios when users provide partial information or the necessary tools are unavailable. Recognizing and managing such scenarios is crucial for LLMs to ensure their reliability, but this exploration remains understudied. This study examines whether LLMs can identify incomplete conditions and appropriately determine when to refrain from using tools. To this end, we address a dataset by manipulating instances from two datasets by removing necessary tools or essential information for tool invocation. We confirm that most LLMs are challenged to identify the additional information required to utilize specific tools and the absence of appropriate tools. Our research can contribute to advancing reliable LLMs by addressing scenarios that commonly arise during interactions between humans and LLMs.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# スケールの混合:大規模言語モデルのためのメモリ効率の良いToken-Adaptive Binarization

Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models ( http://arxiv.org/abs/2406.12311v1 )

ライセンス: Link先を確認
Dongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim, (参考訳) 重みパラメータをバイナリ値に変換するバイナリ化は,大規模言語モデル(LLM)の縮小に有効な戦略として登場した。 しかし、典型的な二項化法はLLMの言語的効果を著しく低下させる。 この問題に対処するために,Mixture of Scales (BinaryMoS) と呼ばれる新しいバイナライゼーション手法を導入する。 従来の方法とは異なり、BinaryMoSはバイナリ重み付けに複数のスケーリングエキスパートを使用し、各トークンにこれらの専門家を動的にマージして、スケーリングファクタを適応的に生成する。 このトークン適応アプローチは、二項重みの値に対する文脈的調整を可能にすることにより、二項化LDMの表現力を高める。 さらに、この適応的なプロセスは、全体の重み行列ではなくスケーリング要素のみを含むため、BinaryMoSは従来の静的二項化法と同様の圧縮効率を維持している。 実験結果から,BinaryMoSは様々な自然言語処理タスクにおいて従来のバイナライズ手法を超越し,モデルサイズと静的バイナライズ手法との類似性を保ちながら2ビット量子化手法よりも優れていることがわかった。

Binarization, which converts weight parameters to binary values, has emerged as an effective strategy to reduce the size of large language models (LLMs). However, typical binarization techniques significantly diminish linguistic effectiveness of LLMs. To address this issue, we introduce a novel binarization technique called Mixture of Scales (BinaryMoS). Unlike conventional methods, BinaryMoS employs multiple scaling experts for binary weights, dynamically merging these experts for each token to adaptively generate scaling factors. This token-adaptive approach boosts the representational power of binarized LLMs by enabling contextual adjustments to the values of binary weights. Moreover, because this adaptive process only involves the scaling factors rather than the entire weight matrix, BinaryMoS maintains compression efficiency similar to traditional static binarization methods. Our experimental results reveal that BinaryMoS surpasses conventional binarization techniques in various natural language processing tasks and even outperforms 2-bit quantization methods, all while maintaining similar model size to static binarization techniques.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# PruningBench: 構造的プルーニングの総合ベンチマーク

PruningBench: A Comprehensive Benchmark of Structural Pruning ( http://arxiv.org/abs/2406.12315v1 )

ライセンス: Link先を確認
Haoling Li, Changhao Li, Mengqi Xue, Gongfan Fang, Sheng Zhou, Zunlei Feng, Huiqiong Wang, Yong Wang, Lechao Cheng, Mingli Song, Jie Song, (参考訳) より効率的なモデルを作成するための有望なアプローチとして、構造的プルーニングが登場している。 それでも、コミュニティは標準化されたベンチマークとメトリクスの欠如に悩まされており、この分野の進歩は完全には理解されていない。 このギャップを埋めるために、構造的プルーニングのための最初の包括的なベンチマークである「textit{PruningBench}」を提示する。 PruningBench氏は以下の3つの特徴を紹介している。 1)PruningBenchは、多様な構造的プルーニング手法の有効性を評価するために、統一的で一貫した枠組みを採用している。 2)PruningBenchは、16の既存プルーニング手法を体系的に評価し、幅広いモデル(例えば、CNN、ViT)とタスク(例えば、分類と検出)を包含する。 3) PruningBenchは、将来のプルーニングメソッドの実装を容易にするための、実装が容易なインターフェースを提供する。 オンラインプルーニングプラットフォーム http://pruning.vipazoo.cn で、プルーニングタスクをカスタマイズし、すべての結果をこの論文で再現する。 コードは公開されます。

Structural pruning has emerged as a promising approach for producing more efficient models. Nevertheless, the community suffers from a lack of standardized benchmarks and metrics, leaving the progress in this area not fully comprehended. To fill this gap, we present the first comprehensive benchmark, termed \textit{PruningBench}, for structural pruning. PruningBench showcases the following three characteristics: 1) PruningBench employs a unified and consistent framework for evaluating the effectiveness of diverse structural pruning techniques; 2) PruningBench systematically evaluates 16 existing pruning methods, encompassing a wide array of models (e.g., CNNs and ViTs) and tasks (e.g., classification and detection); 3) PruningBench provides easily implementable interfaces to facilitate the implementation of future pruning methods, and enables the subsequent researchers to incorporate their work into our leaderboards. We provide an online pruning platform http://pruning.vipazoo.cn for customizing pruning tasks and reproducing all results in this paper. Codes will be made publicly available.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# モダリティとインスタンス認識型視覚プロンプト学習による可視赤外人物再識別の促進

Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning ( http://arxiv.org/abs/2406.12316v1 )

ライセンス: Link先を確認
Ruiqi Wu, Bingliang Jiao, Wenxuan Wang, Meng Liu, Peng Wang, (参考訳) Visible-Infrared Person Re-identification (VI ReID)は、同じ歩行者の視界と赤外線の画像とを、オーバーラップしないカメラビューでマッチングすることを目的としている。 これら2つの入力モダリティは、形状のような不変情報と色のようなモダリティ固有の詳細の両方を含む。 理想的なモデルは、訓練中に両方のモダリティから貴重な情報を活用して表現能力を高めるべきである。 しかし、モダリティ固有の情報によって引き起こされるギャップは、VI ReIDモデルが異なるモダリティ入力を同時に処理する上で大きな課題となる。 そこで本研究では,MIP(Modality-aware and Instance-aware Visual Prompts)ネットワークを導入した。 特に、我々のMIPモデルはトランスフォーマーアーキテクチャに基づいて構築されている。 本モデルでは,モーダリティ固有の情報に適応し,異なるモーダリティ入力に固有の情報を利用することが可能な一連のモーダリティ固有プロンプトを設計し,モーダリティギャップによる干渉を低減し,より良い識別を実現する。 さらに、各歩行者の特徴を利用して、インスタンス固有のプロンプトのグループを構築します。 これらのカスタマイズされたプロンプトは、モデルに各歩行者のインスタンスに動的に対応させ、識別のためのアイデンティティレベルの識別ヒントをキャプチャする役割を担います。 SYSU-MM01とRegDBデータセットの広範な実験を通じて、設計した両方のモジュールの有効性を評価する。 さらに,提案手法は最先端手法よりも優れた性能を示した。

The Visible-Infrared Person Re-identification (VI ReID) aims to match visible and infrared images of the same pedestrians across non-overlapped camera views. These two input modalities contain both invariant information, such as shape, and modality-specific details, such as color. An ideal model should utilize valuable information from both modalities during training for enhanced representational capability. However, the gap caused by modality-specific information poses substantial challenges for the VI ReID model to handle distinct modality inputs simultaneously. To address this, we introduce the Modality-aware and Instance-aware Visual Prompts (MIP) network in our work, designed to effectively utilize both invariant and specific information for identification. Specifically, our MIP model is built on the transformer architecture. In this model, we have designed a series of modality-specific prompts, which could enable our model to adapt to and make use of the specific information inherent in different modality inputs, thereby reducing the interference caused by the modality gap and achieving better identification. Besides, we also employ each pedestrian feature to construct a group of instance-specific prompts. These customized prompts are responsible for guiding our model to adapt to each pedestrian instance dynamically, thereby capturing identity-level discriminative clues for identification. Through extensive experiments on SYSU-MM01 and RegDB datasets, the effectiveness of both our designed modules is evaluated. Additionally, our proposed MIP performs better than most state-of-the-art methods.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# マルチタスク音声言語理解モデルにおけるタスク特化サブネットの探索

Finding Task-specific Subnetworks in Multi-task Spoken Language Understanding Model ( http://arxiv.org/abs/2406.12317v1 )

ライセンス: Link先を確認
Hayato Futami, Siddhant Arora, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe, (参考訳) 近年,多タスク音声言語理解(SLU)モデルが登場し,様々な音声処理タスクに対処するように設計されている。 しかし、これらのモデルは、しばしば多数のパラメータに依存する。 また、以前訓練されたタスクの破滅的な忘れを経験することなく、特定のタスクに新しいデータを適用するのに苦労することが多い。 本研究では,ニューラルネットワークのプルーニングによるマルチタスクSLUモデル内でタスク固有のサブネットワークを見つけることを提案する。 モデル圧縮に加えて,タスク固有のサブネットワークのみを更新することで,以前に訓練されたタスクの忘れを軽減できることを期待している。 我々は、感情認識(ER)、意図分類(IC)、自動音声認識(ASR)などのタスクのために訓練された、最先端のマルチタスクSLUモデル ``UniverSLU'' 上で実験を行う。 プレナードモデルでは,以前トレーニングしたタスクの性能劣化を最小限に抑えつつ,追加のASRやICデータに適応することに成功した。

Recently, multi-task spoken language understanding (SLU) models have emerged, designed to address various speech processing tasks. However, these models often rely on a large number of parameters. Also, they often encounter difficulties in adapting to new data for a specific task without experiencing catastrophic forgetting of previously trained tasks. In this study, we propose finding task-specific subnetworks within a multi-task SLU model via neural network pruning. In addition to model compression, we expect that the forgetting of previously trained tasks can be mitigated by updating only a task-specific subnetwork. We conduct experiments on top of the state-of-the-art multi-task SLU model ``UniverSLU'', trained for several tasks such as emotion recognition (ER), intent classification (IC), and automatic speech recognition (ASR). We show that pruned models were successful in adapting to additional ASR or IC data with minimal performance degradation on previously trained tasks.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# PRePair:ロバスト教育評価のためのポイントワイド推論エンハンス評価

PRePair: Pointwise Reasoning Enhance Pairwise Evaluating for Robust Instruction-Following Assessments ( http://arxiv.org/abs/2406.12319v1 )

ライセンス: Link先を確認
Hawon Jeong, ChaeHun Park, Jimin Hong, Jaegul Choo, (参考訳) 大規模言語モデル(LLM)を用いたペアワイズ評価は,自然言語生成(NLG)タスクの評価に広く用いられている。 しかしながら、LLMの信頼性は、冗長性や権威的なトーンを好むなど、バイアスによって損なわれることが多い。 本研究では,LLMに基づく2つの評価手法の比較に焦点をあてる。 以上の結果から, 望ましくない選好に対して, ポイントワイズ評価がより堅牢であることが示唆された。 さらに分析したところ、ペアワイズ評価器は、判断が誤りであっても、低品質な出力の欠点を正確に識別できることがわかった。 これらの結果から,LLMは両面評価装置の偏りに強く影響していることが示唆された。 そこで本研究では,ポイントワイズ推論をペアワイズ評価に統合するハイブリッド手法を提案する。 実験結果から,本手法は,通常の試料の精度を保ちつつ,対方向評価器の対向試料に対する堅牢性を高めることが示唆された。

Pairwise evaluation using large language models (LLMs) is widely used for evaluating natural language generation (NLG) tasks. However, the reliability of LLMs is often compromised by biases, such as favoring verbosity and authoritative tone. In the study, we focus on the comparison of two LLM-based evaluation approaches, pointwise and pairwise. Our findings demonstrate that pointwise evaluators exhibit more robustness against undesirable preferences. Further analysis reveals that pairwise evaluators can accurately identify the shortcomings of low-quality outputs even when their judgment is incorrect. These results indicate that LLMs are more severely influenced by their bias in a pairwise evaluation setup. To mitigate this, we propose a hybrid method that integrates pointwise reasoning into pairwise evaluation. Experimental results show that our method enhances the robustness of pairwise evaluators against adversarial samples while preserving accuracy on normal samples.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# 反復実験プログラミングによる大規模マルチモーダルモデルの自動ベンチマーク

Automatic benchmarking of large multimodal models via iterative experiment programming ( http://arxiv.org/abs/2406.12321v1 )

ライセンス: Link先を確認
Alessandro Conti, Enrico Fini, Paolo Rota, Yiming Wang, Massimiliano Mancini, Elisa Ricci, (参考訳) 大規模マルチモーダルモデル(LMM)の能力を評価するには、しばしばアドホックな評価を作成する必要がある。 現在、新しいベンチマークを構築するには、特定の分析ごとに膨大な手作業が必要です。 これにより、評価プロセスは面倒でコストがかかる。 本稿では,LMMの自動ベンチマークのための最初のフレームワークである実験の自動プログラミングであるAPExについて述べる。 自然言語で表現された研究の質問に対して、APExは大規模言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成し、科学的レポートを段階的にコンパイルする。 調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。 最後に、LLMはレポートを洗練し、ユーザに対して自然言語で結果を提示する。 モジュール性のおかげで、新しいツールが利用可能になるにつれて、私たちのフレームワークは柔軟で拡張性があります。 経験的にAPExは、任意の分析と仮説テストを可能にしながら、既存の研究の結果を再現する。

Assessing the capabilities of large multimodal models (LMMs) often requires the creation of ad-hoc evaluations. Currently, building new benchmarks requires tremendous amounts of manual work for each specific analysis. This makes the evaluation process tedious and costly. In this paper, we present APEx, Automatic Programming of Experiments, the first framework for automatic benchmarking of LMMs. Given a research question expressed in natural language, APEx leverages a large language model (LLM) and a library of pre-specified tools to generate a set of experiments for the model at hand, and progressively compile a scientific report. The report drives the testing procedure: based on the current status of the investigation, APEx chooses which experiments to perform and whether the results are sufficient to draw conclusions. Finally, the LLM refines the report, presenting the results to the user in natural language. Thanks to its modularity, our framework is flexible and extensible as new tools become available. Empirically, APEx reproduces the findings of existing studies while allowing for arbitrary analyses and hypothesis testing.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# 事前学習型コード生成モデルのコード理解能力の探索

Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models ( http://arxiv.org/abs/2406.12326v1 )

ライセンス: Link先を確認
Jiayi Lin, Yutao Xie, Yue Yu, Yibiao Yang, Lei Zhang, (参考訳) 近年,広範囲な未ラベルプログラミング言語データに基づいて,自己教師型で訓練された大規模コード生成モデルは,目覚ましい成功を収めている。 これらのモデルは膨大な量のコード知識を取得するが、コード検索やクローン検出などのコード理解タスクでは、生成のために特別に訓練されているため、パフォーマンスが良くない。 大規模なコードデータに対してスクラッチからより大きなエンコーダのみのアーキテクチャモデルを事前トレーニングすることで、パフォーマンスの理解が向上する。 しかし、このアプローチはコストがかかり、時間がかかります。 本稿では,事前学習したコード生成モデルからコード理解タスクへ知識を移行し,トレーニングコストを大幅に削減する。 本稿では,デコーダのみのモデルでロバストなコード表現を実現するための効果的な戦略について検討する。 さらに,デコーダのみのモデルの表現能力を向上するコントラスト学習手法であるCL4Dを導入する。 包括的実験により,コード検索やクローン検出といったタスクの理解において,我々の手法が最先端の性能を達成することを示す。 本手法は,表現空間における意味的に同一なサンプル間の距離を効果的に削減することを示す。 これらの結果から,デコーダのみの構造化モデルを用いて,コード理解と生成タスクを統一する可能性が示唆された。

Recently, large code generation models trained in a self-supervised manner on extensive unlabeled programming language data have achieved remarkable success. While these models acquire vast amounts of code knowledge, they perform poorly on code understanding tasks, such as code search and clone detection, as they are specifically trained for generation. Pre-training a larger encoder-only architecture model from scratch on massive code data can improve understanding performance. However, this approach is costly and time-consuming, making it suboptimal. In this paper, we pioneer the transfer of knowledge from pre-trained code generation models to code understanding tasks, significantly reducing training costs. We examine effective strategies for enabling decoder-only models to acquire robust code representations. Furthermore, we introduce CL4D, a contrastive learning method designed to enhance the representation capabilities of decoder-only models. Comprehensive experiments demonstrate that our approach achieves state-of-the-art performance in understanding tasks such as code search and clone detection. Our analysis shows that our method effectively reduces the distance between semantically identical samples in the representation space. These findings suggest the potential for unifying code understanding and generation tasks using a decoder-only structured model.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# SNAP:否定的指示を伴う大規模言語モデルにおける選択的知識の学習

SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions ( http://arxiv.org/abs/2406.12329v1 )

ライセンス: Link先を確認
Minseok Choi, Daniel Rim, Dohyun Lee, Jaegul Choo, (参考訳) ChatGPTのような命令追従型大規模言語モデル(LLM)は、一般の聴衆の間で人気が高まっており、その多くが日々のルーチンにそれらを取り入れている。 しかし、これらのLLMは必然的に個人または著作権のある情報を開示し、選択的な知識を取り除くための機械の学習方法を要求する。 以前の試みでは、ターゲット情報とその関連エンティティ間のリンクを忘れようとしたが、むしろターゲットに関する望ましくない応答を生成し、エンドユーザエクスペリエンスを損なうことになった。 本研究では,SNAPを提案する。SNAPは,情報を選択的に学習するための革新的なフレームワークである。 1) 消灯応答を生成するために負の指示でLDMを訓練すること。 2)元のLDM性能を維持するためにハードポジティクスを増強し、 3) 新規なワッサースタイン正則化を適用して, LLMの初期重量から適切な偏差を確保する。 我々は,NLPベンチマークのフレームワークの評価を行い,提案手法が元のLLM能力を保ちながら,特定情報の学習に成功していることを示す。

Instruction-following large language models (LLMs), such as ChatGPT, have become increasingly popular with the general audience, many of whom are incorporating them into their daily routines. However, these LLMs inadvertently disclose personal or copyrighted information, which calls for a machine unlearning method to remove selective knowledge. Previous attempts sought to forget the link between the target information and its associated entities, but it rather led to generating undesirable responses about the target, compromising the end-user experience. In this work, we propose SNAP, an innovative framework designed to selectively unlearn information by 1) training an LLM with negative instructions to generate obliterated responses, 2) augmenting hard positives to retain the original LLM performance, and 3) applying the novel Wasserstein regularization to ensure adequate deviation from the initial weights of the LLM. We evaluate our framework on various NLP benchmarks and demonstrate that our approach retains the original LLM capabilities, while successfully unlearning the specified information.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# 6Gフェデレーション型動的スペクトル共有のセキュリティとプライバシ

Security and Privacy of 6G Federated Learning-enabled Dynamic Spectrum Sharing ( http://arxiv.org/abs/2406.12330v1 )

ライセンス: Link先を確認
Viet Vo, Thusitha Dayaratne, Blake Haydon, Xingliang Yuan, Shangqi Lai, Sharif Abuadbba, Hajime Suzuki, Carsten Rudolph, (参考訳) スペクトル共有は6G無線通信においてますます不可欠であり、未使用のスペクトルホールへの動的アクセスを促進する。 近年,スペクトル孔検出のための機械学習(ML)技術の導入に大きくシフトしている。 この文脈では、FL(Federated Learning)対応のスペクトルセンシング技術が注目され、無線ユーザデバイスのプライベートスペクトルセンシング情報を開示することなく、集約MLモデルの構築が可能となった。 しかし,コラボレーティブトレーニングの完全性や,地域ユーザからのスペクトル情報のプライバシーは,いまだほとんど解明されていない。 本稿では,FL対応6Gシナリオにおけるスペクトル共有技術の最新動向について概説する。 そして、6Gの実用的な攻撃ベクトルを特定し、これらのコンテキストにおけるAIによるセキュリティとプライバシの脅威を示す。 最後に、実践的な防衛課題やガイドラインを含む今後の方向性について概説する。

Spectrum sharing is increasingly vital in 6G wireless communication, facilitating dynamic access to unused spectrum holes. Recently, there has been a significant shift towards employing machine learning (ML) techniques for sensing spectrum holes. In this context, federated learning (FL)-enabled spectrum sensing technology has garnered wide attention, allowing for the construction of an aggregated ML model without disclosing the private spectrum sensing information of wireless user devices. However, the integrity of collaborative training and the privacy of spectrum information from local users have remained largely unexplored. This article first examines the latest developments in FL-enabled spectrum sharing for prospective 6G scenarios. It then identifies practical attack vectors in 6G to illustrate potential AI-powered security and privacy threats in these contexts. Finally, the study outlines future directions, including practical defense challenges and guidelines.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# RetrievalがReasoningと出会う: 長期テキスト理解のための動的インコンテキスト編集

Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding ( http://arxiv.org/abs/2406.12331v1 )

ライセンス: Link先を確認
Weizhi Fei, Xueyan Niu, Guoqing Xie, Yanhua Zhang, Bo Bai, Lei Deng, Wei Han, (参考訳) 現在のLarge Language Models (LLMs) は、定義済みのコンテキスト長による固有の制限に直面しており、広範囲のテキストコンテキスト内でのマルチホップ推論の能力を妨げる。 Retrieval-Augmented Generation (RAG)のような既存のテクニックは、外部情報をソーシングすることで、このギャップを埋めようとしているが、直接的な回答が得られない場合は不十分である。 本稿では,知識編集の最近の進歩に触発された動的インコンテキスト編集による情報検索を再現する新しい手法を提案する。 長大な文脈を拡張可能な外部知識として扱うことにより,本手法は対話的に関連情報を収集,統合し,LCMが洗練された推論ステップを遂行することを可能にする。 実験結果から,Llama2のようなコンテキスト限定LLMを効率よく活用し,マルチホップ推論を改良し,最先端のコンテキストウィンドウ外挿法より優れ,より高度な商用長文モデルと比較できることがわかった。 我々の対話的手法は推論能力を向上するだけでなく、関連するトレーニングや計算コストを軽減し、拡張的な文脈におけるLLMの推論を強化するための実用的なソリューションとなる。

Current Large Language Models (LLMs) face inherent limitations due to their pre-defined context lengths, which impede their capacity for multi-hop reasoning within extensive textual contexts. While existing techniques like Retrieval-Augmented Generation (RAG) have attempted to bridge this gap by sourcing external information, they fall short when direct answers are not readily available. We introduce a novel approach that re-imagines information retrieval through dynamic in-context editing, inspired by recent breakthroughs in knowledge editing. By treating lengthy contexts as malleable external knowledge, our method interactively gathers and integrates relevant information, thereby enabling LLMs to perform sophisticated reasoning steps. Experimental results demonstrate that our method effectively empowers context-limited LLMs, such as Llama2, to engage in multi-hop reasoning with improved performance, which outperforms state-of-the-art context window extrapolation methods and even compares favorably to more advanced commercial long-context models. Our interactive method not only enhances reasoning capabilities but also mitigates the associated training and computational costs, making it a pragmatic solution for enhancing LLMs' reasoning within expansive contexts.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# 誤りを犯したのか? プロンプト工学に対するLLMの感度と一貫性の定量化

What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering ( http://arxiv.org/abs/2406.12334v1 )

ライセンス: Link先を確認
Federico Errica, Giuseppe Siracusano, Davide Sanvito, Roberto Bifulco, (参考訳) 大規模言語モデル(LLM)は、ソフトウェアシステムの設計とインタラクションの方法を変えました。 テキストから情報を処理し、抽出する能力は、多くのルーチンタスクにおいて、生産性を大幅に改善した。 しかし、これらのモデルをソフトウェアスタックに組み込みたい開発者は、恐ろしい課題に直面している。 そこで我々は,タスク性能を補完する2つの尺度,すなわち感度と一貫性を導入する。 第一に、感度はプロンプトの言い換えによる予測の変化を測定し、基底の真理ラベルへのアクセスを必要としない。 その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。 LLMの障害モードを理解するためのガイドラインとして,テキスト分類タスクにおいて,これらの指標を実証的に比較する。 我々の期待は、感度と一貫性が、パフォーマンスとロバスト性のバランスをとるLLMを得るために、自動的なプロンプトエンジニアリングフレームワークにおいて強力な同盟国になることである。

Large Language Models (LLMs) changed the way we design and interact with software systems. Their ability to process and extract information from text has drastically improved productivity in a number of routine tasks. Developers that want to include these models in their software stack, however, face a dreadful challenge: debugging their inconsistent behavior across minor variations of the prompt. We therefore introduce two metrics for classification tasks, namely sensitivity and consistency, which are complementary to task performance. First, sensitivity measures changes of predictions across rephrasings of the prompt, and does not require access to ground truth labels. Instead, consistency measures how predictions vary across rephrasings for elements of the same class. We perform an empirical comparison of these metrics on text classification tasks, using them as guideline for understanding failure modes of the LLM. Our hope is that sensitivity and consistency will be powerful allies in automatic prompt engineering frameworks to obtain LLMs that balance robustness with performance.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# 注意スコアは、KVキャッシュ削減におけるトークン重要度指標に必要なすべてではない:価値もまた重要である

Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters ( http://arxiv.org/abs/2406.12335v1 )

ライセンス: Link先を確認
Zhiyu Guo, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 大きな言語モデル(LLM)のコンテキストサイズをスケールすることで、書籍の要約など、さまざまな新しいタスクを実行できる。 しかし、キー・アンド・バリュー(KV)キャッシュが注目するメモリコストは、LCMの実践的応用を著しく制限する。 最近の研究は、トークン重要度指標として注目スコアのみを頼りに、LCMのKVキャッシュ削減のためのトークンプルーニングを探求している。 しかし,評価ベクトルノルムを調査した結果,注意点にのみ依存する不均一パターンが明らかとなった。 トークンの重要度を評価するために,注目スコアと$ $ \ell_{1} $ norm of value vectors を併用して,VATP(Value-Aware Token Pruning)を提案する。 16のLongBenchタスクにわたるLLaMA2-7B-chatとVicuna-v1.5-7Bの大規模な実験は、VATPの優れた性能を示している。

Scaling the context size of large language models (LLMs) enables them to perform various new tasks, e.g., book summarization. However, the memory cost of the Key and Value (KV) cache in attention significantly limits the practical applications of LLMs. Recent works have explored token pruning for KV cache reduction in LLMs, relying solely on attention scores as a token importance indicator. However, our investigation into value vector norms revealed a notably non-uniform pattern questioning their reliance only on attention scores. Inspired by this, we propose a new method: Value-Aware Token Pruning (VATP) which uses both attention scores and the $ \ell_{1} $ norm of value vectors to evaluate token importance. Extensive experiments on LLaMA2-7B-chat and Vicuna-v1.5-7B across 16 LongBench tasks demonstrate VATP's superior performance.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# テレコムドメインのための文埋め込みの世界をナビゲートするためのコンパス

A Compass for Navigating the World of Sentence Embeddings for the Telecom Domain ( http://arxiv.org/abs/2406.12336v1 )

ライセンス: Link先を確認
Sujoy Roychowdhury, Sumit Soman, H. G. Ranjani, Vansh Chhabra, Neeraj Gunda, Subhadip Bandyopadhyay, Sai Krishna Bala, (参考訳) 多くの文埋め込みモデルでは、特に専門用語に富んだテレコムのようなドメインでは、そのモデルを選択するのが難しくなる。 一般に利用可能なモデルとそのドメイン適応型から得られた複数の埋め込みを、各点検索精度と95%の信頼区間に基づいて評価する。 我々は,異なる埋め込みに対する類似度スコアのしきい値を得るための体系的手法を確立する。 我々は、微調整により平均ブートストラップの精度が向上し、信頼区間が短縮されるのを観察する。 事前トレーニングと微調整を組み合わせることで、信頼区間はさらに厳密になる。 これらの変動を理解するために,トップ$K$,正しい文とランダムな文類似度と,検索精度と類似度閾値との分布重なりの有意な相関関係を分析し,報告する。 現在の文献に従えば, 検索精度の変動が埋め込みの等方性に起因するかどうかを解析する。 我々の結論は、埋め込みの等方性(2つの独立状態の等方性メートル法によって測定される)は、より良い検索性能に起因できないということである。 しかし、検索精度を向上させるドメイン適応は、等方性も改善する。 ドメイン適応は、ドメイン固有の埋め込みを一般的なドメイン埋め込みからさらに遠ざかることを確立します。

A plethora of sentence embedding models makes it challenging to choose one, especially for domains such as telecom, rich with specialized vocabulary. We evaluate multiple embeddings obtained from publicly available models and their domain-adapted variants, on both point retrieval accuracies as well as their (95\%) confidence intervals. We establish a systematic method to obtain thresholds for similarity scores for different embeddings. We observe that fine-tuning improves mean bootstrapped accuracies as well as tightens confidence intervals. The pre-training combined with fine-tuning makes confidence intervals even tighter. To understand these variations, we analyse and report significant correlations between the distributional overlap between top-$K$, correct and random sentence similarities with retrieval accuracies and similarity thresholds. Following current literature, we analyze if retrieval accuracy variations can be attributed to isotropy of embeddings. Our conclusions are that isotropy of embeddings (as measured by two independent state-of-the-art isotropy metric definitions) cannot be attributed to better retrieval performance. However, domain adaptation which improves retrieval accuracies also improves isotropy. We establish that domain adaptation moves domain specific embeddings further away from general domain embeddings.
翻訳日:2024-06-19 20:25:52 公開日:2024-06-18
# 量子自己持続振動子の極限サイクルへの進化ダイナミクス

Evolution Dynamics Toward the Limit Cycle of a Quantum Self-Sustained Oscillator ( http://arxiv.org/abs/2406.12337v1 )

ライセンス: Link先を確認
Hendry M. Lim, Donny Dwiputra, M Shoufie Ukhtary, Ahmad R. T. Nugraha, (参考訳) 量子自己持続振動子のリミットサイクルへと進化する際の力学は、量子同期のような関連する問題を解くのに有用であるが、十分に研究されていない。 本稿では、フォック、熱、コヒーレント状態から始まる準調和極限サイクルを示す自己持続型発振器の最も単純な形である量子レイリー・ヴァン・デル・ポル(RvdP)発振器の進化について検討する。 位相空間のダイナミクスは初期状態によって大きく異なり、極限サイクルへの1つの進化は、他のサイクルよりもずっと長くかかり、最小時間パラメータが存在するかもしれない。 得られたダイナミクスを,コヒーレンス崩壊と固有状態占有の再分配の観点から記述する。

The dynamics of a quantum self-sustained oscillator as it evolves toward its limit cycle may be useful in solving related problems like those in quantum synchronization, yet is inadequately studied. Here we investigate the evolution of a quantum Rayleigh-van der Pol (RvdP) oscillator, the simplest form of a self-sustained oscillator exhibiting a quasiharmonic limit cycle, starting from Fock, thermal, and coherent states. We find that the phase-space dynamics significantly differ depending on the initial state -- one evolution toward the limit cycle may take much longer than another and a least-time parameter may be present. We describe the resulting dynamics in terms of the coherence decay and the redistribution of eigenstate occupation.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# PARAFAC2をベースとした結合マトリックスと制約付きテンソル因子化

PARAFAC2-based Coupled Matrix and Tensor Factorizations with Constraints ( http://arxiv.org/abs/2406.12338v1 )

ライセンス: Link先を確認
Carla Schenker, Xiulin Wang, David Horner, Morten A. Rasmussen, Evrim Acar, (参考訳) Coupled Matrix and Tensor Factorizations (CMTF) に基づくデータ融合モデルは、複数の情報源からのデータの共同解析に有効なツールである。 CMTFモデルの大部分は厳密なマルチ線形CANDECOMP/PARAFAC(CP)テンソルモデルに基づいているが、最近ではより柔軟なPARAFAC2モデルもCMTFモデルに統合されている。 PARAFAC2 テンソルモデルは不規則なテンソルを扱うことができ、非整合または不規則な時間プロファイルを持つ動的データをモデル化するのに特に有用であることが示されている。 しかし、既存の PARAFAC2 ベースのCMTF モデルでは、データセット間の因数および/または結合のタイプに関する規則化が可能である。 本稿では,AO(Alternating Optimization)とADMM(Alternating Direction Method of Multipliers)を用いたPARAFAC2ベースのCMTFモデルに適合するフレキシブルなアルゴリズムフレームワークを提案する。 提案したフレームワークは、全てのモードに様々な制約を課し、他の行列、CP、PARAFAC2-モデルに線形結合することができる。 各種シミュレーションおよび実データセットの実験では、提案フレームワークの有用性と汎用性に加えて、最先端の手法と比較して精度と効率の面でのメリットが示されている。

Data fusion models based on Coupled Matrix and Tensor Factorizations (CMTF) have been effective tools for joint analysis of data from multiple sources. While the vast majority of CMTF models are based on the strictly multilinear CANDECOMP/PARAFAC (CP) tensor model, recently also the more flexible PARAFAC2 model has been integrated into CMTF models. PARAFAC2 tensor models can handle irregular/ragged tensors and have shown to be especially useful for modelling dynamic data with unaligned or irregular time profiles. However, existing PARAFAC2-based CMTF models have limitations in terms of possible regularizations on the factors and/or types of coupling between datasets. To address these limitations, in this paper we introduce a flexible algorithmic framework that fits PARAFAC2-based CMTF models using Alternating Optimization (AO) and the Alternating Direction Method of Multipliers (ADMM). The proposed framework allows to impose various constraints on all modes and linear couplings to other matrix-, CP- or PARAFAC2-models. Experiments on various simulated and a real dataset demonstrate the utility and versatility of the proposed framework as well as its benefits in terms of accuracy and efficiency in comparison with state-of-the-art methods.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# 政府組織における知識管理の実践をナビゲートする:タイプ2ファジィアプローチ

Navigating Knowledge Management Implementation Success in Government Organizations: A type-2 fuzzy approach ( http://arxiv.org/abs/2406.12345v1 )

ライセンス: Link先を確認
Saman Foroutani, Nasim Fahimian, Reyhaneh Jalalinejad, Morteza Hezarkhani, Samaneh Mahmoudi, Behrooz Gharleghi, (参考訳) 組織の目的を効率的に達成するためには、最適な情報と知識管理が不可欠です。 稀で価値のあるリソースとして、効果的な知識管理は戦略的優位性を提供し、組織の成功の重要な決定要因となっている。 本研究は,政府組織における知識管理システムの実現における重要な成功要因と失敗要因を明らかにすることを目的とする。 本研究は、ランダムなインタビューやアンケートを通じてデータを収集する記述的調査手法を用いている。 この研究は、協力、オープンな雰囲気、スタッフのトレーニング、創造性と革新、組織の制約の排除、報酬政策、役割モデリング、フォーカスを含む、政府機関における知識管理システムにおける重要な成功要因を強調している。 逆に、形式性、スタッフの参加、コラボレーション技術、ネットワークとハードウェアのインフラ、複雑さ、ITスタッフ、信頼の欠如は、実装を成功させる上で大きな障害となる。

Optimal information and knowledge management is crucial for organizations to achieve their objectives efficiently. As a rare and valuable resource, effective knowledge management provides a strategic advantage and has become a key determinant of organizational success. The study aims to identify critical success and failure factors for implementing knowledge management systems in government organizations. This research employs a descriptive survey methodology, collecting data through random interviews and questionnaires. The study highlights the critical success factors for knowledge management systems in government organizations, including cooperation, an open atmosphere, staff training, creativity and innovation, removal of organizational constraints, reward policies, role modeling, and focus. Conversely, failure to consider formality, staff participation, collaboration technologies, network and hardware infrastructure, complexity, IT staff, and trust can pose significant obstacles to successful implementation.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# 大規模言語モデルにおけるバイアスの解釈:特徴に基づくアプローチ

Interpreting Bias in Large Language Models: A Feature-Based Approach ( http://arxiv.org/abs/2406.12347v1 )

ライセンス: Link先を確認
Nirmalendu Prakash, Lee Ka Wei Roy, (参考訳) Mistral や LLaMA のような大規模言語モデル (LLM) は、様々な自然言語処理 (NLP) タスクで顕著な性能を示した。 彼らの成功にもかかわらず、これらのモデルは訓練された多様なデータセットから社会的バイアスを継承する。 本稿では, 特徴量に基づく新しい解析手法により, LLM内のバイアスの伝播について検討する。 因果媒介分析からインスピレーションを得た上で,バイアス関連特徴の進化を仮説化し,アクティベーションや帰属パッチングといった解釈可能性技術を用いて評価する。 1) LLaMA-2-7B, LLaMA-3-8B, Mistral-7B-v0.3 に応用した LLM における特徴に基づくバイアス解析手法の導入と実証検証を行った。 2)本手法を別の性別バイアスに拡張し,その一般化可能性を示す。 (3) 偏差伝播におけるMLPと注目ヘッドの役割を区別し, 対物データセットを用いた目標偏差処理を実装した。 本研究は, LLMにおけるバイアスの複雑な性質を明らかにするとともに, バイアス機構のより深い理解と, 効果的な緩和のための経路を提供するとともに, 適切なバイアス緩和戦略の必要性を強調した。

Large Language Models (LLMs) such as Mistral and LLaMA have showcased remarkable performance across various natural language processing (NLP) tasks. Despite their success, these models inherit social biases from the diverse datasets on which they are trained. This paper investigates the propagation of biases within LLMs through a novel feature-based analytical approach. Drawing inspiration from causal mediation analysis, we hypothesize the evolution of bias-related features and validate them using interpretability techniques like activation and attribution patching. Our contributions are threefold: (1) We introduce and empirically validate a feature-based method for bias analysis in LLMs, applied to LLaMA-2-7B, LLaMA-3-8B, and Mistral-7B-v0.3 with templates from a professions dataset. (2) We extend our method to another form of gender bias, demonstrating its generalizability. (3) We differentiate the roles of MLPs and attention heads in bias propagation and implement targeted debiasing using a counterfactual dataset. Our findings reveal the complex nature of bias in LLMs and emphasize the necessity for tailored debiasing strategies, offering a deeper understanding of bias mechanisms and pathways for effective mitigation.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# Never Gonna: 商用のVoWiFiデプロイメントで非推奨のNULL暗号を探索する

Never Gonna Give You Up: Exploring Deprecated NULL Ciphers in Commercial VoWiFi Deployments ( http://arxiv.org/abs/2406.12348v1 )

ライセンス: Link先を確認
Gabriel Karl Gegenhuber, Philipp Frenzel, Edgar Weippl, (参考訳) 4Gや5Gのような今日のセルラーネットワークの進化において、IMS(IP Multimedia Subsystem)は、音声通話の管理とショートメッセージの処理において重要なコンポーネントである。 従来の無線層を介してIMSにアクセスすることに加えて、多くのオペレーターはVoice over Wi-Fi(VoWiFi)を使用して、顧客が(安全でない)Wi-Fi接続を使用してパブリックインターネット上でコアネットワークにダイヤルできる。 WiFiやインターネットドメイン上の悪意あるアクターから保護するために、トラフィックは一連のIPsecトンネルを通じて送信され、機密性と整合性を確保する。 他の暗号化プロトコル(TLSなど)と同様に、クライアントとサーバはハンドシェイクプロトコル(IKEv2)を使用して、サポート対象のセキュリティ設定を通信し、セッションで使用されるパラメータ(例えばキーや暗号化アルゴリズム)に同意する。 しかし、これは設定ミスによって引き起こされるセキュリティ上の脆弱性の扉を開く。 クライアント側とサーバ側の両方で、VoWiFiの商用デプロイメントにおけるセキュリティ設定を分析し、通信セキュリティを損なう非推奨構成を見つけたいと思っています。

In today's cellular network evolutions, such as 4G and 5G, the IMS (IP Multimedia Subsystem) serves as a crucial component in managing voice calls and handling short messages. Besides accessing the IMS over the traditional radio layer, many operators use Voice over Wi-Fi (VoWiFi) allowing customers to dial into their core network over the public Internet using an (insecure) Wi-Fi connection. To protect against malicious actors on the WiFi or Internet domain, the traffic is sent over a series of IPsec tunnels, ensuring confidentiality and integrity. Similar to other encrypted protocols (e.g. TLS), the client and server use a handshake protocol (i.e., IKEv2) to communicate their supported security configurations and to agree upon the used parameters (e.g., keys or an encryption algorithm) for the ongoing session. This however opens the door for security vulnerabilities introduced by misconfiguration. We want to analyze security configurations within commercial VoWiFi deployments, both on the client and server side, spotting deprecated configurations that undermine communication security.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# 誘導拡散による整数計画のための有効な解の効率的な生成

Effective Generation of Feasible Solutions for Integer Programming via Guided Diffusion ( http://arxiv.org/abs/2406.12349v1 )

ライセンス: Link先を確認
Hao Zeng, Jiaqi Wang, Avirup Das, Junying He, Kunpeng Han, Haoyuan Hu, Mingfei Sun, (参考訳) 実現可能なソリューションは、解決プロセスを著しくスピードアップできるため、整数プログラミング(IP)にとって不可欠です。 多くのアプリケーションにおいて、類似のIPインスタンスは、よく似た構造と共有されたソリューション分布を示すが、これはディープラーニングの手法によってモデル化される可能性がある。 残念ながら、Neural DivingやPredict-and-searchフレームワークのような既存のディープラーニングベースのアルゴリズムは、部分的な実現可能なソリューションのみを生成することに限定されており、与えられたIP問題に対するソリューションを完成させるためには、SCIPやGurobiのような問題解決者に頼る必要がある。 本稿では,完全な実現可能なソリューションをエンド・ツー・エンドで生成する新しいフレームワークを提案する。 本フレームワークは,IPインスタンスとソリューションの関係を特徴付けるために,コントラスト学習を活用し,IPインスタンスとソリューションの両方に対する遅延埋め込みを学習する。 さらに、このフレームワークは拡散モデルを用いて、IP表現に条件づけられたソリューション埋め込みの分布を学習し、制約と目的の両方を考慮に入れた専用のサンプリング戦略を提供する。 我々は,IP問題の4つの典型的なデータセット上で,我々の枠組みを実証的に評価し,解の質は解法に頼らずに高い確率で実現可能な解(>89.7 \%)を効果的に生成し,グロビの最良のヒューリスティック解に匹敵することを示した。 さらに、本手法のサンプル部分解をSCIPのCompleteSolヒューリスティックと統合することにより、結果として得られる実現可能な解は、すべてのデータセットで最先端のメソッドよりも優れ、最適値とのギャップが3.7~33.7\%改善され、すべてのデータセットに対して99.7\%以上の実現可能な比が維持される。

Feasible solutions are crucial for Integer Programming (IP) since they can substantially speed up the solving process. In many applications, similar IP instances often exhibit similar structures and shared solution distributions, which can be potentially modeled by deep learning methods. Unfortunately, existing deep-learning-based algorithms, such as Neural Diving and Predict-and-search framework, are limited to generating only partial feasible solutions, and they must rely on solvers like SCIP and Gurobi to complete the solutions for a given IP problem. In this paper, we propose a novel framework that generates complete feasible solutions end-to-end. Our framework leverages contrastive learning to characterize the relationship between IP instances and solutions, and learns latent embeddings for both IP instances and their solutions. Further, the framework employs diffusion models to learn the distribution of solution embeddings conditioned on IP representations, with a dedicated guided sampling strategy that accounts for both constraints and objectives. We empirically evaluate our framework on four typical datasets of IP problems, and show that it effectively generates complete feasible solutions with a high probability (> 89.7 \%) without the reliance of Solvers and the quality of solutions is comparable to the best heuristic solutions from Gurobi. Furthermore, by integrating our method's sampled partial solutions with the CompleteSol heuristic from SCIP, the resulting feasible solutions outperform those from state-of-the-art methods across all datasets, exhibiting a 3.7 to 33.7\% improvement in the gap to optimal values, and maintaining a feasible ratio of over 99.7\% for all datasets.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# クロスドメインデフォルマブル画像登録のためのマッチング基準の符号化

Encoding Matching Criteria for Cross-domain Deformable Image Registration ( http://arxiv.org/abs/2406.12350v1 )

ライセンス: Link先を確認
Zhuoyuan Wang, Haiqiao Wang, Yi Wang, (参考訳) 既存のディープ・ラーニング・ベース・レジストレーション手法の多くは、単一タイプのイメージで同一ドメインのタスクに対処するために訓練されているが、クロスドメインのデフォルマブル・レジストレーションは依然として困難である。従来の登録手法におけるテーラー・メイドのマッチング基準は、異なるドメインに適用できる主な理由の1つであり、我々は、画像特徴と構造的特徴のマッチング基準をモデル化するための登録指向エンコーダを考案し、登録精度と適応性を向上するために有用である。具体的には、一般的な特徴エンコーダ(エンコーダ-G)が包括的な医用画像特徴をキャプチャするために提案され、構造的特徴エンコーダ(エンコーダ-S)は、グローバルな表現に構造的自己相似性をエンコードするように設計されている。 さらに、ワンショット学習を用いてEncoder-Sを更新することにより、このメソッドは、異なるドメインに効果的に適応することが可能となり、コードについてはhttps://github.com/JuliusWang-7/EncoderReg.comで公開されている。

Most existing deep learning-based registration methods are trained on single-type images to address same-domain tasks.However, cross-domain deformable registration remains challenging.We argue that the tailor-made matching criteria in traditional registration methods is one of the main reason they are applicable in different domains.Motivated by this, we devise a registration-oriented encoder to model the matching criteria of image features and structural features, which is beneficial to boost registration accuracy and adaptability.Specifically, a general feature encoder (Encoder-G) is proposed to capture comprehensive medical image features, while a structural feature encoder (Encoder-S) is designed to encode the structural self-similarity into the global representation.Extensive experiments on images from three different domains prove the efficacy of the proposed method. Moreover, by updating Encoder-S using one-shot learning, our method can effectively adapt to different domains.The code is publicly available at https://github.com/JuliusWang-7/EncoderReg.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# サムプロダクタンスネットワークのためのトップダウンベイズ後方サンプリング

Top-Down Bayesian Posterior Sampling for Sum-Product Networks ( http://arxiv.org/abs/2406.12353v1 )

ライセンス: Link先を確認
Soma Yokoi, Issei Sato, (参考訳) Sum-product Network(SPN)は、基本確率演算の正確かつ高速な評価を特徴とする確率モデルである。 その優れた計算トラクタビリティは、時間制約のある機械学習や精度要件、リアルタイムシステムなど、多くの分野で応用されている。 しかし、高速推論をサポートするSPNの構造的制約は、学習時間の複雑さを増大させ、高度に表現力のあるSPNを構築するのに障害となる可能性がある。 本研究では,大規模SPN上で効率的に実装可能なベイズ学習手法を開発することを目的とした。 我々は,複数の確率変数を余剰化することにより,ギブスサンプリングの新しい完全条件付き確率を導出し,後続分布を高速に取得した。 複雑性解析の結果,サンプリングアルゴリズムは可能な限り最大のSPNでも効率的に動作することがわかった。 さらに,大規模SPNにおける事前分布の多様性と最適化効率のバランスをとるハイパーパラメータチューニング手法を提案する。 提案手法は,20以上のデータセットの数値実験において,学習時間の複雑性を向上し,計算速度を100倍以上に高速化し,予測性能に優れることを示した。

Sum-product networks (SPNs) are probabilistic models characterized by exact and fast evaluation of fundamental probabilistic operations. Its superior computational tractability has led to applications in many fields, such as machine learning with time constraints or accuracy requirements and real-time systems. The structural constraints of SPNs supporting fast inference, however, lead to increased learning-time complexity and can be an obstacle to building highly expressive SPNs. This study aimed to develop a Bayesian learning approach that can be efficiently implemented on large-scale SPNs. We derived a new full conditional probability of Gibbs sampling by marginalizing multiple random variables to expeditiously obtain the posterior distribution. The complexity analysis revealed that our sampling algorithm works efficiently even for the largest possible SPN. Furthermore, we proposed a hyperparameter tuning method that balances the diversity of the prior distribution and optimization efficiency in large-scale SPNs. Our method has improved learning-time complexity and demonstrated computational speed tens to more than one hundred times faster and superior predictive performance in numerical experiments on more than 20 datasets.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# 多言語言語モデルにおける選択的知識の言語間非学習

Cross-Lingual Unlearning of Selective Knowledge in Multilingual Language Models ( http://arxiv.org/abs/2406.12354v1 )

ライセンス: Link先を確認
Minseok Choi, Kyunghyun Min, Jaegul Choo, (参考訳) 事前訓練された言語モデルは、プライベートデータや著作権データを含む膨大な量の情報を記憶し、重大な安全上の懸念を提起する。 センシティブなデータを除いた後、これらのモデルをリトレーニングすることは違法に高価であり、機械学習は実用的で費用対効果の高い代替手段となる。 これまでの研究では、モノリンガルモデルのための機械学習に焦点が当てられていたが、ある言語での学習が必ずしも他の言語に移行するとは限らないことが判明した。 この脆弱性は、あまり支配的な言語では機密情報がアクセスできない低リソースの言語攻撃に、モデルが影響を受けやすいようにする。 本稿では,多言語モデルにおける機械学習の先駆的アプローチを提案する。 具体的には、言語に依存しない重み付けを割り当てる適応型アンラーニング方式を用いて、多言語言語モデルの異なる言語性能に対処する。 実験により、既存の未学習ベースラインと比較してフレームワークの有効性が実証され、セキュアで適応可能な多言語言語モデルのための新しい標準が設定された。

Pretrained language models memorize vast amounts of information, including private and copyrighted data, raising significant safety concerns. Retraining these models after excluding sensitive data is prohibitively expensive, making machine unlearning a viable, cost-effective alternative. Previous research has focused on machine unlearning for monolingual models, but we find that unlearning in one language does not necessarily transfer to others. This vulnerability makes models susceptible to low-resource language attacks, where sensitive information remains accessible in less dominant languages. This paper presents a pioneering approach to machine unlearning for multilingual language models, selectively erasing information across different languages while maintaining overall performance. Specifically, our method employs an adaptive unlearning scheme that assigns language-dependent weights to address different language performances of multilingual language models. Empirical results demonstrate the effectiveness of our framework compared to existing unlearning baselines, setting a new standard for secure and adaptable multilingual language models.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# LiCAF: LiDAR-Camera による歩行認識のための非対称核融合

LiCAF: LiDAR-Camera Asymmetric Fusion for Gait Recognition ( http://arxiv.org/abs/2406.12355v1 )

ライセンス: Link先を確認
Yunze Deng, Haijun Xiong, Bin Feng, (参考訳) 歩行認識は歩行パターンを用いて個人を識別する生体計測技術である。 歩行認識におけるマルチモーダルフュージョンの顕著な成果から,ロバストな歩行表現を得るためにLiDAR-cameraフュージョンを利用することを検討する。 しかし、既存の手法はしばしばモダリティの本質的な特性を見落とし、微細な融合や時間的モデリングを欠いている。 本稿では,非対称なモデリング手法を用いたLiDAR-カメラ融合のための新しいモダリティ感受性ネットワークLiCAFを提案する。 具体的には,非対称なクロスモーダルチャネル注意(ACCA)とインターラクト・クロスモーダル時間モデリング(ICTM)を提案する。 本手法は,SUSTech1Kデータセット上での最先端性能(ランク1で93.9%,ランク5で98.8%)を実現し,その有効性を示した。

Gait recognition is a biometric technology that identifies individuals by using walking patterns. Due to the significant achievements of multimodal fusion in gait recognition, we consider employing LiDAR-camera fusion to obtain robust gait representations. However, existing methods often overlook intrinsic characteristics of modalities, and lack fine-grained fusion and temporal modeling. In this paper, we introduce a novel modality-sensitive network LiCAF for LiDAR-camera fusion, which employs an asymmetric modeling strategy. Specifically, we propose Asymmetric Cross-modal Channel Attention (ACCA) and Interlaced Cross-modal Temporal Modeling (ICTM) for cross-modal valuable channel information selection and powerful temporal modeling. Our method achieves state-of-the-art performance (93.9% in Rank-1 and 98.8% in Rank-5) on the SUSTech1K dataset, demonstrating its effectiveness.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# BECマイクロモーションの非対称動的局在と高精度測定

Asymmetric dynamical localization and precision measurement of BEC micromotion ( http://arxiv.org/abs/2406.12358v1 )

ライセンス: Link先を確認
S. Sagar Maurya, J. Bharathi Kannan, Kushal Patel, Pranab Dutta, Korak Biswas, M. S. Santhanam, Umakant D. Rapol, (参考訳) ボース・アインシュタイン凝縮体 (BEC) が非ゼロ初期運動量で周期的に駆動された光学格子に打ち上げられ、移動フレームに小さな初期電流を持つ非対称局在運動量分布が生じることを示す。 この非対称な局在は2つのシナリオで研究される。 (a)実験室のフレーム内でBECが動いているとき、 b) 光学格子が実験室フレーム内で動いているとき。 この非対称な特徴は、破壊されたパリティ対称性によって誘導される早期のダイナミクスから生じ、動的局在が安定化するにつれて漸近的に凍結することが示されている。 BECのマイクロモーションは、初期非対称性を用いて測定される。 この文脈では、マイクロモーションは格子方向に沿ったBECの初期速度が極端に低いことを指している。 これはハイブリッドトラップ電位をオフにしたときのジッタに由来する。 BECを蹴り動かして動く光学格子に利用することにより、初期時間力学における非対称性を測定し、量子系のマイクロモーション現象を正確に特徴づけ、定量化する。 マイクロモーション計測は、光パルス干渉計における系統的なシフトと不確かさの定量化に応用されている。

We show that a Bose-Einstein Condensate (BEC) launched with non-zero initial momentum into a periodically kicked optical lattice creates an asymmetrically localized momentum distribution in a moving frame with a small initial current. This asymmetric localization is investigated under two scenarios; (a) when the BEC is in motion in the laboratory frame and, (b) when the optical lattice is in motion in the laboratory frame. The asymmetric features are shown to arise from the early-time dynamics induced by the broken parity symmetry and, asymptotically, freeze as the dynamical localization stabilizes. The micromotion of BEC is measured using the early-time asymmetry. In this context, micromotion refers to the extremely low initial velocity of the BEC along the lattice direction. This originates from the jitter when the hybrid trap potential is turned off. By employing BEC in a kicked and moving optical lattice, the asymmetry in early-time dynamics is measured to precisely characterize and quantify the micromotion phenomena in the quantum system. Micromotion measurement has applications in quantifying systematic shifts and uncertainties in light-pulse interferometers.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# データサンプリングのメモリシーケンス長がメタ強化学習エージェントの適応に及ぼす影響

Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents ( http://arxiv.org/abs/2406.12359v1 )

ライセンス: Link先を確認
Menglong Zhang, Fuyuan Qian, Quanying Liu, (参考訳) 新しいタスクへの迅速な適応は、実世界のエンボディエージェントにとって極めて重要である。 メタ強化学習(Meta-RL)は、未知の環境での迅速な適応を可能にする効果的な方法として登場した。 オンラインメタRLアルゴリズムと比較して、オフポリシーアルゴリズムは歴史的軌跡を抽出し表現するための効率的なデータサンプリング戦略に大きく依存している。 しかし、異なるデータサンプリング方法が、未知の環境を表現するメタRLエージェントの能力に与える影響についてはほとんど分かっていない。 本稿では,メタRLエージェントの探索と適応性に及ぼすデータサンプリング戦略の影響について検討する。 具体的には,MuJoCo環境における連続制御タスクにおけるトンプソンサンプリングとベイズ最適理論に基づく2種類の非政治メタRLアルゴリズムの実験を行った。 解析の結果,長メモリおよび短メモリシーケンスサンプリング戦略がメタRLエージェントの表現能力および適応能力に影響を及ぼすことが明らかとなった。 ベイズ最適性理論に基づくアルゴリズムは、トンプソンサンプリングに基づくアルゴリズムよりも頑健で適応性が高いことを示し、特にスパース報酬の場合において、エージェントが未知の環境を表現するための適切なデータサンプリング戦略の重要性を強調した。

Fast adaptation to new tasks is extremely important for embodied agents in the real world. Meta-reinforcement learning (meta-RL) has emerged as an effective method to enable fast adaptation in unknown environments. Compared to on-policy meta-RL algorithms, off-policy algorithms rely heavily on efficient data sampling strategies to extract and represent the historical trajectories. However, little is known about how different data sampling methods impact the ability of meta-RL agents to represent unknown environments. Here, we investigate the impact of data sampling strategies on the exploration and adaptability of meta-RL agents. Specifically, we conducted experiments with two types of off-policy meta-RL algorithms based on Thompson sampling and Bayes-optimality theories in continuous control tasks within the MuJoCo environment and sparse reward navigation tasks. Our analysis revealed the long-memory and short-memory sequence sampling strategies affect the representation and adaptive capabilities of meta-RL agents. We found that the algorithm based on Bayes-optimality theory exhibited more robust and better adaptability than the algorithm based on Thompson sampling, highlighting the importance of appropriate data sampling strategies for the agent's representation of an unknown environment, especially in the case of sparse rewards.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# UrbanLLM:大規模言語モデルによる自律型都市活動計画と管理

UrbanLLM: Autonomous Urban Activity Planning and Management with Large Language Models ( http://arxiv.org/abs/2406.12360v1 )

ライセンス: Link先を確認
Yue Jiang, Qin Chao, Yile Chen, Xiucheng Li, Shuai Liu, Gao Cong, (参考訳) 位置情報ベースのサービスは、日常生活の質を向上させる上で重要な役割を担います。 位置情報ベースのサービスの時空間における多くの専門的なAIモデルの普及にもかかわらず、これらのモデルは複雑な都市計画と管理に関する問題に自律的に取り組むのに苦労している。 このギャップを埋めるために,都市シナリオにおける多様な問題に対処するために設計された,細調整の大型言語モデル(LLM)であるUrbanLLMを紹介する。 UrbanLLMは、都市関連クエリを管理可能なサブタスクに分解し、サブタスク毎に適切な時空間AIモデルを特定し、与えられたクエリに対する包括的な応答を生成することで、問題解決の役割を果たす。 以上の結果から,Llama や GPT シリーズなどの既存の LLM よりも,複雑な都市活動計画と管理に関する問題に対処する上で,UrbanLLM の方が優れていたことが示唆された。 UrbanLLMは、都市シナリオにおける問題解決の有効性を高め、作業負荷と人的専門家への信頼を減らし、大きな可能性を秘めている。

Location-based services play an critical role in improving the quality of our daily lives. Despite the proliferation of numerous specialized AI models within spatio-temporal context of location-based services, these models struggle to autonomously tackle problems regarding complex urban planing and management. To bridge this gap, we introduce UrbanLLM, a fine-tuned large language model (LLM) designed to tackle diverse problems in urban scenarios. UrbanLLM functions as a problem-solver by decomposing urban-related queries into manageable sub-tasks, identifying suitable spatio-temporal AI models for each sub-task, and generating comprehensive responses to the given queries. Our experimental results indicate that UrbanLLM significantly outperforms other established LLMs, such as Llama and the GPT series, in handling problems concerning complex urban activity planning and management. UrbanLLM exhibits considerable potential in enhancing the effectiveness of solving problems in urban scenarios, reducing the workload and reliance for human experts.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# 監視ミッションのための認証MLオブジェクト検出

Certified ML Object Detection for Surveillance Missions ( http://arxiv.org/abs/2406.12362v1 )

ライセンス: Link先を確認
Mohammed Belcaid, Eric Bonnafous, Louis Crison, Christophe Faure, Eric Jenn, Claire Pagetti, (参考訳) 本稿では,機械学習オブジェクト検出コンポーネントを含むドローン検出システムの開発プロセスについて述べる。 ED 324 / ARP 6983 規格の勧告(出版予定)によって要求される十分な証拠を提供し、設計システムの信頼性を確保することを目的としている。

In this paper, we present a development process of a drone detection system involving a machine learning object detection component. The purpose is to reach acceptable performance objectives and provide sufficient evidences, required by the recommendations (soon to be published) of the ED 324 / ARP 6983 standard, to gain confidence in the dependability of the designed system.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# コンテキストは、ニューラルマシン翻訳におけるジェンダーバイアス軽減に役立つか?

Does Context Help Mitigate Gender Bias in Neural Machine Translation? ( http://arxiv.org/abs/2406.12364v1 )

ライセンス: Link先を確認
Harritxu Gete, Thierry Etchegoyhen, (参考訳) ニューラルマシン翻訳モデルは、トレーニングデータ分布に存在する性別バイアスを持続させる傾向がある。 コンテキスト対応モデルは、これまでこの種のバイアスを軽減する手段として提案されてきた。 本研究では、この主張について、英語からドイツ語へのステレオタイプ専門職の翻訳を詳細に分析し、バスク語からスペイン語への非形式的文脈による翻訳について検討する。 以上の結果から, 文脈認識モデルは女性用語の翻訳精度を著しく向上させることができるが, 性別バイアスの維持や増幅も可能であることが示唆された。 これらの結果は、ニューラルネットワーク翻訳におけるバイアス軽減に対するよりきめ細かいアプローチの必要性を強調している。

Neural Machine Translation models tend to perpetuate gender bias present in their training data distribution. Context-aware models have been previously suggested as a means to mitigate this type of bias. In this work, we examine this claim by analysing in detail the translation of stereotypical professions in English to German, and translation with non-informative context in Basque to Spanish. Our results show that, although context-aware models can significantly enhance translation accuracy for feminine terms, they can still maintain or even amplify gender bias. These results highlight the need for more fine-grained approaches to bias mitigation in Neural Machine Translation.
翻訳日:2024-06-19 20:16:07 公開日:2024-06-18
# オンライン学習における構造化予測

Structured Prediction in Online Learning ( http://arxiv.org/abs/2406.12366v1 )

ライセンス: Link先を確認
Pierre Boudart, Alessandro Rudi, Pierre Gaillard, (参考訳) オンライン学習環境における構造化予測のための理論的・アルゴリズム的枠組みについて検討する。 構造予測の問題、すなわち出力空間がベクトル構造を欠いている推定関数は、教師付き統計学習の文献でよく研究されている。 また,本アルゴリズムは教師付き学習環境からの最適アルゴリズムの一般化であり,データをi.d.でない場合も同じ過大なリスク上限を実現する。 データ分布の変化の関数にその確率的後悔を負わせます。

We study a theoretical and algorithmic framework for structured prediction in the online learning setting. The problem of structured prediction, i.e. estimating function where the output space lacks a vectorial structure, is well studied in the literature of supervised statistical learning. We show that our algorithm is a generalisation of optimal algorithms from the supervised learning setting, and achieves the same excess risk upper bound also when data are not i.i.d. Moreover, we consider a second algorithm designed especially for non-stationary data distributions, including adversarial data. We bound its stochastic regret in function of the variation of the data distributions.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# 機械用ビデオ符号化におけるコンテンツ固有フィルタの競合学習

Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines ( http://arxiv.org/abs/2406.12367v1 )

ライセンス: Link先を確認
Honglei Zhang, Jukka I. Ahonen, Nam Le, Ruiying Yang, Francesco Cricri, (参考訳) 本稿では,人間指向のビデオ/画像コーデックを機械ビジョンタスクに適したコーデックに適応させるために,コンテンツ固有のポストプロセッシングフィルタの協調最適化の有効性について検討する。 映像・画像コーデックが生成するアーティファクトがコンテンツに依存していることを観察することにより,競争的学習原理に基づく新たなトレーニング戦略を提案する。 この戦略は、トレーニングサンプルをファジィな方法で動的にフィルタに割り当て、与えられたサンプルの勝利フィルタをさらに最適化する。 シミュレーションアニーリング最適化手法に着想を得て, 温度変数を持つソフトマックス関数を重み付け関数として使用することにより, ランダム初期化の効果を緩和する。 Versatile Video Coding (VVC) コーデックフレームワーク内の複数の後処理フィルタを利用するシステムを用いて,提案手法で訓練したコンテンツ固有フィルタの優位性を実証した。 VVC参照ソフトウェアであるVTM 12.0をアンカーとして使用し、OpenImagesデータセットの実験では、独立に訓練されたフィルタと比較して、オブジェクト検出とインスタンスセグメンテーションのそれぞれで-41.3%と-44.6%から-42.3%に改善された。 フィルタ使用率の統計は,我々の仮説と一致し,コンテントと再構成品質の両面において,共同最適化フィルタの重要性を浮き彫りにしている。 本研究は,ビデオ・画像コーデックの性能向上の道を開くものである。

This paper investigates the efficacy of jointly optimizing content-specific post-processing filters to adapt a human oriented video/image codec into a codec suitable for machine vision tasks. By observing that artifacts produced by video/image codecs are content-dependent, we propose a novel training strategy based on competitive learning principles. This strategy assigns training samples to filters dynamically, in a fuzzy manner, which further optimizes the winning filter on the given sample. Inspired by simulated annealing optimization techniques, we employ a softmax function with a temperature variable as the weight allocation function to mitigate the effects of random initialization. Our evaluation, conducted on a system utilizing multiple post-processing filters within a Versatile Video Coding (VVC) codec framework, demonstrates the superiority of content-specific filters trained with our proposed strategies, specifically, when images are processed in blocks. Using VVC reference software VTM 12.0 as the anchor, experiments on the OpenImages dataset show an improvement in the BD-rate reduction from -41.3% and -44.6% to -42.3% and -44.7% for object detection and instance segmentation tasks, respectively, compared to independently trained filters. The statistics of the filter usage align with our hypothesis and underscore the importance of jointly optimizing filters for both content and reconstruction quality. Our findings pave the way for further improving the performance of video/image codecs.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# ロバストな自己スーパービジョン表現のための自然画像と合成画像の混合

Mixing Natural and Synthetic Images for Robust Self-Supervised Representations ( http://arxiv.org/abs/2406.12368v1 )

ライセンス: Link先を確認
Reza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi, (参考訳) 本稿では,実画像と合成画像を組み合わせた自己教師付き学習(SSL)事前学習フレームワークであるDiffMixを紹介する。 DiffMixは、実際のイメージを主に使用する従来のSSLメソッドとは異なり、実際のイメージの強化インスタンスを置き換えるために、スタブルディフュージョンの変種を使用して、クロスリアルな合成画像表現の学習を容易にする。 重要な洞察は、SSLメソッドは、実際の画像で訓練されたものよりも、合成画像のみに訓練されるが、リアル画像と合成画像の両方を使用したブレンドトレーニングアプローチは、より堅牢で適応可能な表現をもたらすことである。 実験によると、DiffMixはさまざまな堅牢性データセットやドメイン転送タスクに対してSSLメソッドSimCLR、BarlowTwins、DINOを強化する。 DiffMix は ImageNet-1K の SimCLR の精度を 4.56 %向上させる。 これらの結果は、高品質な合成画像が強力な表現を生成できることを示すことによって、SSL事前トレーニングに高品質な実画像が不可欠であるという考えに挑戦する。 DiffMixはまた、SSLのイメージ拡張の必要性を減らし、新しい最適化戦略を提供する。

This paper introduces DiffMix, a new self-supervised learning (SSL) pre-training framework that combines real and synthetic images. Unlike traditional SSL methods that predominantly use real images, DiffMix uses a variant of Stable Diffusion to replace an augmented instance of a real image, facilitating the learning of cross real-synthetic image representations. The key insight is that while SSL methods trained solely on synthetic images underperform compared to those trained on real images, a blended training approach using both real and synthetic images leads to more robust and adaptable representations. Experiments demonstrate that DiffMix enhances the SSL methods SimCLR, BarlowTwins, and DINO, across various robustness datasets and domain transfer tasks. DiffMix boosts SimCLR's accuracy on ImageNet-1K by 4.56\%. These results challenge the notion that high-quality real images are crucial for SSL pre-training by showing that lower quality synthetic images can also produce strong representations. DiffMix also reduces the need for image augmentations in SSL, offering new optimization strategies.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# 連続手話認識技術の比較検討

A Comparative Study of Continuous Sign Language Recognition Techniques ( http://arxiv.org/abs/2406.12369v1 )

ライセンス: Link先を確認
Sarah Alyami, Hamzah Luqman, (参考訳) CSLR(Continuous Sign Language Recognition)は、ポーズなしで連続的に実行される手話ジェスチャーのシーケンスの解釈に焦点を当てる。 本研究では,近年の深層学習CSLR手法を実証的に評価し,その性能を様々なデータセットや手話で評価する。 分析のために選択されたモデルは、意味のある特徴を抽出し、異なるトレーニング戦略を採用するための様々なアプローチを実装している。 異なる手話のモデリングにおけるそれらの有効性を決定するために、これらのモデルは複数のデータセット、具体的にはRWTH-PHOENIX-Weather-2014, ArabSign, GrSLを用いて評価された。 モデルの性能は、目に見えないシグナーと文でさらにテストされた。 実験は、選択したデータセットに新しいベンチマークを確立し、挑戦的なシナリオ下での評価手法の堅牢性と一般化に関する貴重な洞察を提供する。

Continuous Sign Language Recognition (CSLR) focuses on the interpretation of a sequence of sign language gestures performed continually without pauses. In this study, we conduct an empirical evaluation of recent deep learning CSLR techniques and assess their performance across various datasets and sign languages. The models selected for analysis implement a range of approaches for extracting meaningful features and employ distinct training strategies. To determine their efficacy in modeling different sign languages, these models were evaluated using multiple datasets, specifically RWTH-PHOENIX-Weather-2014, ArabSign, and GrSL, each representing a unique sign language. The performance of the models was further tested with unseen signers and sentences. The conducted experiments establish new benchmarks on the selected datasets and provide valuable insights into the robustness and generalization of the evaluated techniques under challenging scenarios.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# 自律走行車両の冬期道路安全に関するUAVによるインテリジェント情報システム

UAV-based Intelligent Information Systems on Winter Road Safety for Autonomous Vehicles ( http://arxiv.org/abs/2406.12370v1 )

ライセンス: Link先を確認
Siva Ariram, Veikko Pekkala, Timo Mäenpää, Antti Tikänmaki, Juha Röning, (参考訳) 自動運転車が交通に革命をもたらすにつれ、特に冬の悪天候による課題に対処することが、安全で効率的な運転を確保する上で最重要課題となっている。 悪天候下での道路安全検査の最も重要な側面の1つは、限られた車線幅が道路の容量を減らし、自動運転車による深刻な事故のリスクを高めることである。 本研究では,冬期における道路の走行課題を改善する手法として,無人航空機や自律走行車の観点から道路の幅を分割・推定するモデルを提案する。 本稿で提案されるアプローチは、冬の景観における適応性と意思決定能力を高めるために、最新かつ正確な洞察で自動運転車を強化するために必要である。

As autonomous vehicles continue to revolutionize transportation, addressing challenges posed by adverse weather conditions, particularly during winter, becomes paramount for ensuring safe and efficient operations. One of the most important aspects of a road safety inspection during adverse weather is when a limited lane width can reduce the capacity of the road and raise the risk of serious accidents involving autonomous vehicles. In this research, a method for improving driving challenges on roads in winter conditions, with a model that segments and estimates the width of the road from the perspectives of Uncrewed aerial vehicles and autonomous vehicles. The proposed approach in this article is needed to empower self-driving cars with up-to-date and accurate insights, enhancing their adaptability and decision-making capabilities in winter landscapes.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# ハイブリッド量子古典アルゴリズム

Hybrid Quantum-Classical Algorithms ( http://arxiv.org/abs/2406.12371v1 )

ライセンス: Link先を確認
Roberto Campos, (参考訳) この論文は、古典的アルゴリズムと量子コンピューティングを組み合わせたハイブリッドアルゴリズムを探求し、古典的アルゴリズムの性能を向上させる。 ハイブリッド探索とサンプル最適化アルゴリズムと、化学における量子アルゴリズムのコストと性能を評価する古典的アルゴリズムの2つのアプローチが研究されている。 ハイブリッドアルゴリズムは、古典コンピューティングと量子コンピューティングの両方の制限のために不可欠であり、両方の長所を利用するソリューションを提供する。 最初のアルゴリズムである量子Metropolis Solver (QMS)は、産業応用のためのMetropolis-Hastingsアルゴリズムに量子ウォークを適応させ、様々な分野における古典的手法よりも有利であることを示す。 第2のアルゴリズムであるTFermionは、量子化学アルゴリズムにおけるT型ゲートのコストを評価し、これらのアルゴリズムを実際の量子ハードウェア上での比較と実行を支援し、より効率的な電池の設計に適用するための古典的なツールである。

This thesis explores hybrid algorithms that combine classical and quantum computing to enhance the performance of classical algorithms. Two approaches are studied: a hybrid search and sample optimization algorithm and a classical algorithm that assesses the cost and performance of quantum algorithms in chemistry. Hybrid algorithms are vital due to limitations in both classical and quantum computing, offering a solution by leveraging the strengths of both. The first algorithm, quantum Metropolis Solver (QMS), adapts a quantum walk to a Metropolis-Hastings algorithm for industrial applications, demonstrating advantages over classical counterparts in various sectors. The second algorithm, TFermion, is a classical tool for evaluating the cost of T-type gates in quantum chemistry algorithms, aiding in the comparison and execution of these algorithms on real quantum hardware, and applied to the design of more efficient electric batteries.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# WebCanvas: オンライン環境におけるWebエージェントのベンチマーク

WebCanvas: Benchmarking Web Agents in Online Environments ( http://arxiv.org/abs/2406.12373v1 )

ライセンス: Link先を確認
Yichen Pan, Dehan Kong, Sida Zhou, Cheng Cui, Yifei Leng, Bing Jiang, Hangyu Liu, Yanyi Shang, Shuyan Zhou, Tongshuang Wu, Zhengyang Wu, (参考訳) Webエージェントが実用的に有用であるためには、ユーザインターフェースやコンテンツへの頻繁な更新を特徴とする、継続的な進化するWeb環境に適応する必要がある。 しかし、既存のベンチマークのほとんどは、Webの静的な側面のみをキャプチャしている。 このギャップを埋めるために、WebCanvasはWebエージェントのための革新的なオンライン評価フレームワークであり、Webインタラクションの動的な性質を効果的に解決する。 現実的な評価を促進するために, WebCanvas には3つの主要な要素がある。(1) 重要な中間動作やタスク完了に必要な状態を確実に捉えつつ,重要イベントや変更された Web 要素によるノイズを無視した,新たな評価指標。 2) Mind2Web-Liveと呼ばれるベンチマークデータセットは、オリジナルのMind2Web静的データセットの洗練されたバージョンで、2439の中間評価状態を持つ542のタスクを含む。 WebCanvas上に構築したエージェントフレームワークは,推論のための拡張可能なモジュールを備えたオープンソースであり,コミュニティがオンライン推論と評価を行うための基盤を提供する。 ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。 さらに,様々なWebサイト,ドメイン,実験環境におけるパフォーマンスの相違について分析する。 我々は、オンラインエージェント評価に関するさらなる知見をコミュニティに提供し、この研究分野を前進させることを奨励する。

For web agents to be practically useful, they must adapt to the continuously evolving web environment characterized by frequent updates to user interfaces and content. However, most existing benchmarks only capture the static aspects of the web. To bridge this gap, we introduce WebCanvas, an innovative online evaluation framework for web agents that effectively addresses the dynamic nature of web interactions. WebCanvas contains three main components to facilitate realistic assessments: (1) A novel evaluation metric which reliably capture critical intermediate actions or states necessary for task completions while disregarding noise caused by insignificant events or changed web-elements. (2) A benchmark dataset called Mind2Web-Live, a refined version of original Mind2Web static dataset containing 542 tasks with 2439 intermediate evaluation states; (3) Lightweight and generalizable annotation tools and testing pipelines that enables the community to collect and maintain the high-quality, up-to-date dataset. Building on WebCanvas, we open-source an agent framework with extensible modules for reasoning, providing a foundation for the community to conduct online inference and evaluations. Our best-performing agent achieves a task success rate of 23.1% and a task completion rate of 48.8% on the Mind2Web-Live test set. Additionally, we analyze the performance discrepancies across various websites, domains, and experimental environments. We encourage the community to contribute further insights on online agent evaluation, thereby advancing this field of research.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# 言語モデルネットワークにおける問題解決

Problem-Solving in Language Model Networks ( http://arxiv.org/abs/2406.12374v1 )

ライセンス: Link先を確認
Ciaran Regan, Alexandre Gournail, Mizuki Oka, (参考訳) 大規模言語モデル(LLM)の推論と質問応答能力を改善するために,複数のマルチエージェントアプローチが導入されている。 これらの手法によって性能が向上する一方、複雑なネットワーク構造への集合的知能に基づくアプローチの適用やエージェント相互作用のダイナミクスは未解明のままである。 この研究は、より一般的なネットワークトポロジへのマルチエージェント論争の概念を拡張し、質問答えの正確さ、影響、コンセンサス、偏見の影響を計測する。 その結果,トークンが著しく少ないにもかかわらず,ランダムネットワークは完全接続ネットワークと類似して動作することがわかった。 さらに、エージェント間の強いコンセンサスは正しい回答と相関するが、分割された応答は典型的には間違った回答を示す。 エージェントの影響を分析することで、自己反射と相互接続性のバランスが明らかになる。 さらに、バイアスがシステムのパフォーマンスに強く影響し、正しくバイアスされたハブノードによってパフォーマンスが向上する。 これらの知見は, エージェントを中央に配置したランダムネットワークやスケールフリーネットワークを用いることで, マルチエージェントシステム全体の性能を向上させることを示唆している。

To improve the reasoning and question-answering capabilities of Large Language Models (LLMs), several multi-agent approaches have been introduced. While these methods enhance performance, the application of collective intelligence-based approaches to complex network structures and the dynamics of agent interactions remain underexplored. This work extends the concept of multi-agent debate to more general network topologies, measuring the question-answering accuracy, influence, consensus, and the effects of bias on the collective. The results show that random networks perform similarly to fully connected networks despite using significantly fewer tokens. Furthermore, a strong consensus among agents in correlates with correct answers, whereas divided responses typically indicate incorrect answers. Analysing the influence of the agents reveals a balance between self-reflection and interconnectedness; self-reflection aids when local interactions are incorrect, and local interactions aid when the agent itself is incorrect. Additionally, bias plays a strong role in system performance with correctly biased hub nodes boosting performance. These insights suggest that using random networks or scale-free networks with knowledgeable agents placed in central positions can enhance the overall performance of multi-agent systems.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# GW-MoE:グローバルワークスペース理論によるMoEルータの不確かさの解消

GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory ( http://arxiv.org/abs/2406.12375v1 )

ライセンス: Link先を確認
Haoze Wu, Zihan Qiu, Zili Wang, Hang Zhao, Jie Fu, (参考訳) モデルのスケールアップに有効な方法として,Mixture-of-Experts (MoE) が実証されている。 アクティベートされたエキスパートを動的かつ疎結合に選択することで、MoEは計算コストを効果的に削減できる。 この成功にもかかわらず、MoEモデルの多くのトークンが不確実なルーティング結果を持つことが観察された。 これらのトークンは各専門家の選択にほぼ等しいスコアを持ち、この不確実性が誤った選択につながることを実証する。 GWT(Global Workspace Theory)に触発されて,この問題に対処する新しい微調整手法GW-MoEを提案する。 基本的なアイデアは、微調整中に専門家間で不確実なトークンをブロードキャストすることだ。 したがって、これらのトークンは、推論中に専門家から必要な知識を取得することができ、選択に敏感になる。 GW-MoEは追加の推論オーバーヘッドを導入しない。 我々は,GWが不確実な問題を緩和し,テキスト分類,質問応答,要約,コード生成,数学的問題解決) とモデルサイズ(650M,8B) を一貫して改善できることを検証する。

Mixture-of-Experts (MoE) has been demonstrated as an efficient method to scale up models. By dynamically and sparsely selecting activated experts, MoE can effectively reduce computational costs. Despite the success, we observe that many tokens in the MoE models have uncertain routing results. These tokens have nearly equal scores for choosing each expert, and we demonstrate that this uncertainty can lead to incorrect selections. Inspired by the Global Workspace Theory (GWT), we propose a new fine-tuning method, GW-MoE, to address this issue. The core idea is to broadcast the uncertain tokens across experts during fine-tuning. Therefore, these tokens can acquire the necessary knowledge from any expert during inference and become less sensitive to the choice. GW-MoE does not introduce additional inference overhead. We validate that GW can mitigate the uncertain problem and consistently improve in different tasks (text classification, question answering, summarization, code generation, and mathematical problem solving) and model sizes (650M and 8B parameters).
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# DCS Chain - 柔軟なプライベートブロックチェーンシステム

DCS Chain: A Flexible Private Blockchain System ( http://arxiv.org/abs/2406.12376v1 )

ライセンス: Link先を確認
Jianwu Zheng, Siyuan Zhao, Zheng Wang, Li Pan, Jianhua Li, (参考訳) ブロックチェーン技術はここ数年で大きな発展を遂げてきた。 多数のブロックチェーンシステムが出現したにもかかわらず、これらはすべてさまざまな制限に悩まされており、DCSのトリレンマによって引き起こされる根本的な問題に起因している。 これを踏まえて、この研究はDCS Chainという新しいプライベートブロックチェーンシステムを導入している。 中心となる考え方は、DCSメトリクスを定量化し、これらの3次元にわたってブロックチェーンのパフォーマンスを動的に調整し、理論的に最適なシステムパフォーマンスを達成することである。 全体として、当社のシステムはDCS定量化、コンセンサスプロトコル調整、通信ネットワークシミュレーションなど、ブロックチェーン必需品の包括的なスイートを提供しています。

Blockchain technology has seen tremendous development over the past few years. Despite the emergence of numerous blockchain systems, they all suffer from various limitations, which can all be attributed to the fundamental issue posed by the DCS trilemma. In light of this, this work introduces a novel private blockchain system named DCS Chain. The core idea is to quantify the DCS metrics and dynamically adjust the blockchain's performance across these three dimensions, to achieve theoretically optimal system performance. Overall, our system provides a comprehensive suite of blockchain essentials, including DCS quantification, consensus protocol adjustment, and communication network simulation.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# 臨界量子スピン鎖におけるエンタングルメントスワップ

Entanglement swapping in critical quantum spin chains ( http://arxiv.org/abs/2406.12377v1 )

ライセンス: Link先を確認
Masahiro Hoshino, Masaki Oshikawa, Yuto Ashida, (参考訳) 多くの量子ビット状態間の量子情報の転送は、量子科学と技術における基本的な重要性の主題である。 両鎖間の絡み合いはベル状態の測定によってのみ引き起こされる。 我々は境界共形場理論(CFT)を用いて、その測定を複製場理論における共形境界条件として記述する。 交換された絡み合いは対数的スケーリングを示し、その係数は境界条件変化作用素のスケーリング次元によって決定される普遍的な値を取ることを示す。 我々は、臨界スピン-1/2 XXZ鎖に我々の枠組みを適用し、境界CFT解析により普遍係数を決定する。 また、テンソルネットワーク計算によりこれらの結果を数値的に検証する。 Rydberg 原子配列の実験的関連性について概説する。

The transfer of quantum information between many-qubit states is a subject of fundamental importance in quantum science and technology. We consider entanglement swapping in critical quantum spin chains, where the entanglement between the two chains is induced solely by the Bell-state measurements. We employ a boundary conformal field theory (CFT) approach and describe the measurements as conformal boundary conditions in the replicated field theory. We show that the swapped entanglement exhibits a logarithmic scaling, whose coefficient takes a universal value determined by the scaling dimension of the boundary condition changing operator. We apply our framework to the critical spin-1/2 XXZ chain and determine the universal coefficient by the boundary CFT analysis. We also numerically verify these results by the tensor-network calculations. Possible experimental relevance to Rydberg atom arrays is briefly discussed.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# 条件付き正規化フローを用いた位相図の効率的なマッピング

Efficient mapping of phase diagrams with conditional normalizing flows ( http://arxiv.org/abs/2406.12378v1 )

ライセンス: Link先を確認
Maximilian Schebek, Michele Invernizzi, Frank Noé, Jutta Rogal, (参考訳) 位相図の正確な予測は、材料の基本的理解と物質科学における技術応用の両方において重要である。 しかしながら、その自由エネルギーに基づく相間の相対安定性の計算的予測は、熱力学状態の格子上の非相関平衡サンプルを得るためには、従来の自由エネルギー推定器が大量のシミュレーションデータを必要とするため、大変な作業である。 本研究では, 熱力学状態, 温度, 圧力を条件とした正規化フローを用いて, 位相図全体に対する深層生成機械学習モデルを構築した。 単一正規化流をトレーニングすることにより、単一の基準熱力学状態でサンプリングされた平衡分布を広範囲の目標温度と圧力に変換することにより、位相図全体にわたって効率よく平衡サンプルを生成することができる。 置換同変アーキテクチャを用いることで,同じ基盤上での固相と液相の処理が可能となる。 我々は,レナード・ジョーンズ系の固液共存線を最先端自由エネルギー法とよく一致し,必要なエネルギー評価の数を著しく削減し,我々のアプローチを実証する。

The accurate prediction of phase diagrams is of central importance for both the fundamental understanding of materials as well as for technological applications in material sciences. However, the computational prediction of the relative stability between phases based on their free energy is a daunting task, as traditional free energy estimators require a large amount of simulation data to obtain uncorrelated equilibrium samples over a grid of thermodynamic states. In this work, we develop deep generative machine learning models for entire phase diagrams, employing normalizing flows conditioned on the thermodynamic states, e.g., temperature and pressure, that they map to. By training a single normalizing flow to transform the equilibrium distribution sampled at only one reference thermodynamic state to a wide range of target temperatures and pressures, we can efficiently generate equilibrium samples across the entire phase diagram. Using a permutation-equivariant architecture allows us, thereby, to treat solid and liquid phases on the same footing. We demonstrate our approach by predicting the solid-liquid coexistence line for a Lennard-Jones system in excellent agreement with state-of-the-art free energy methods while significantly reducing the number of energy evaluations needed.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# QOG:言語モデルに基づくクエクションとオプション生成

QOG:Question and Options Generation based on Language Model ( http://arxiv.org/abs/2406.12381v1 )

ライセンス: Link先を確認
Jincheng Zhou, (参考訳) 質問-オプション生成(QOG)は、与えられたコンテキストの一連の質問-オプションペアを生成するタスクである。 このタスクには、微調整された大規模モデル、情報検索、教育用複数選択質問の自動生成など、さまざまな応用がある。 本稿では,細調整シーケンス・ツー・シーケンス言語モデル(LM)に基づく3つの異なる手法を用いてQOGモデルを開発する。 実験により、エンドツーエンドのQOGモデルは、トレーニングと推論の両方において計算効率が良く、安定であり、他の手法よりも優れていることが示された。 さらに,我々のQOGモデルは,大規模言語モデルであるLlama 3-8Bと比較して,QOGタスクにおいて競合することを示す。

Question-Options Generation (QOG) is a task that involves generating a set of question-options pairs given context. This task has various applications, including fine-tuning large models, information retrieval, and automated multiple-choice question generation for education. In this paper, we develop QOG models using three different methods based on fine-tuning sequence-to-sequence language models (LMs). Experiments demonstrate that the end-to-end QOG model is computationally efficient and stable during both training and inference, outperforming other methods. Furthermore, our analysis indicates that our QOG models are competitive on the QOG task compared to the large language model Llama 3-8B.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# インスタンストレーニングからインストラクション学習へ:インストラクションからタスクアダプタを生成する

From Instance Training to Instruction Learning: Task Adapters Generation from Instructions ( http://arxiv.org/abs/2406.12382v1 )

ライセンス: Link先を確認
Huanxuan Liao, Yao Xu, Shizhu He, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao, (参考訳) 大規模言語モデル(LLM)は、命令微調整(IFT)を利用して一般的なタスクを解く能力を得た。 しかし、IFTは依然として広範囲なタスクデータのインスタンストレーニングに大きく依存しており、ラベル付きタスクインスタンスが不足し、より広範なタスク一般化が最重要となる現実のシナリオへのLLMの適応性を大幅に制限している。 LLMとは対照的に、人間は繰り返し練習するだけでなく、理解と指導ガイドラインに従うことでスキルとタスクを完成させる。 本論文は,クロスタスクの一般化を促進するための指導学習に焦点をあて,事例学習の欠点に対処するために,人間の学習をシミュレートすることを目的としている。 このコンテキスト内では,タスク固有のモデルを自動的にパラメータ生成するタスク適応生成(TAGI)を導入し,未確認タスクを再学習することなく,与えられたタスク命令に基づいてタスク固有モデルをパラメータ生成する。 具体的には,ラーニング・ウィズ・インストラクション(Learning with Instruction)によるTAGIと,ラーニング・ウィズ・インスタンス(Training with Instance)によるタスク固有モデルとの整合性を高めるために,知識蒸留を利用する。 TAGIには、ハイパーネットワークの事前トレーニングと微調整を含む2段階のトレーニングプロセスを通じて、クロスタスクの一般化機能を備えている。 超自然的インストラクションとP3データセットを用いたTAGIの評価を行った。 実験結果から,TAGIは従来のメタトレーニングモデルや他のハイパーネットワークモデルに適合し,さらに性能も向上し,計算要求を大幅に低減できることが示された。

Large language models (LLMs) have acquired the ability to solve general tasks by utilizing instruction finetuning (IFT). However, IFT still relies heavily on instance training of extensive task data, which greatly limits the adaptability of LLMs to real-world scenarios where labeled task instances are scarce and broader task generalization becomes paramount. Contrary to LLMs, humans acquire skills and complete tasks not merely through repeated practice but also by understanding and following instructional guidelines. This paper is dedicated to simulating human learning to address the shortcomings of instance training, focusing on instruction learning to enhance cross-task generalization. Within this context, we introduce Task Adapters Generation from Instructions (TAGI), which automatically constructs the task-specific model in a parameter generation manner based on the given task instructions without retraining for unseen tasks. Specifically, we utilize knowledge distillation to enhance the consistency between TAGI developed through Learning with Instruction and task-specific models developed through Training with Instance, by aligning the labels, output logits, and adapter parameters between them. TAGI is endowed with cross-task generalization capabilities through a two-stage training process that includes hypernetwork pretraining and finetuning. We evaluate TAGI on the Super-Natural Instructions and P3 datasets. The experimental results demonstrate that TAGI can match or even outperform traditional meta-trained models and other hypernetwork models, while significantly reducing computational requirements.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# 動的コスト制約付きサブセット選択のためのバイアスパレート最適化

Biased Pareto Optimization for Subset Selection with Dynamic Cost Constraints ( http://arxiv.org/abs/2406.12383v1 )

ライセンス: Link先を確認
Dan-Xuan Liu, Chao Qian, (参考訳) コスト制約付きサブセット選択は、与えられた予算を超えることなく単調な目的関数を最大化するための基底セットからサブセットを選択することを目的としており、影響の最大化や最大カバレッジなど様々な応用がある。 現実のシナリオでは、利用可能なリソースを表す予算は時間とともに変化する可能性があるため、アルゴリズムは新しい予算に迅速に適応する必要がある。 しかし、この動的な環境では、従来のアルゴリズムは理論的な保証を欠いているか、長い時間を要するかのいずれかである。 最先端のアルゴリズムであるPOMCは静的問題に対するPareto最適化手法であり、動的問題に対する考慮を欠いている。 本稿では,BPODCを提案し,偏りのある選択と動的環境に適したウォームアップ戦略でPOMCを向上する。 我々は予算変更に適応しながら既存の計算結果を活用するBPODCの能力に焦点を当てる。 BPODCは予算変更時に最もよく知られた$(\alpha_f/2)(1-e^{-\alpha_f})$-approximationを維持できることを示す。 影響の最大化と最大カバレッジの実験により、BPODCは静的グリードアルゴリズムよりも実行時間が短いため、予算変更に対してより効率的かつ迅速に適応できることが示された。

Subset selection with cost constraints aims to select a subset from a ground set to maximize a monotone objective function without exceeding a given budget, which has various applications such as influence maximization and maximum coverage. In real-world scenarios, the budget, representing available resources, may change over time, which requires that algorithms must adapt quickly to new budgets. However, in this dynamic environment, previous algorithms either lack theoretical guarantees or require a long running time. The state-of-the-art algorithm, POMC, is a Pareto optimization approach designed for static problems, lacking consideration for dynamic problems. In this paper, we propose BPODC, enhancing POMC with biased selection and warm-up strategies tailored for dynamic environments. We focus on the ability of BPODC to leverage existing computational results while adapting to budget changes. We prove that BPODC can maintain the best known $(\alpha_f/2)(1-e^{-\alpha_f})$-approximation guarantee when the budget changes. Experiments on influence maximization and maximum coverage show that BPODC adapts more effectively and rapidly to budget changes, with a running time that is less than that of the static greedy algorithm.
翻訳日:2024-06-19 20:06:22 公開日:2024-06-18
# VRSBench: リモートセンシング画像理解のための多眼視線ベンチマークデータセット

VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding ( http://arxiv.org/abs/2406.12384v1 )

ライセンス: Link先を確認
Xiang Li, Jian Ding, Mohamed Elhoseiny, (参考訳) 我々は,リモートセンシング画像のための汎用大規模視覚言語モデルの開発を促進するために,新しいベンチマークを導入する。 リモートセンシングにおけるいくつかのビジョン言語データセットがこの目標を達成するために提案されているが、既存のデータセットは通常、単一のタスクに適したもの、詳細なオブジェクト情報がないもの、あるいは不適切な品質管理に苦しむものとなっている。 これらの改善の機会を探るため,VRSBenchと呼ばれるリモートセンシング画像理解のためのVersatile視覚言語ベンチマークを提案する。 このベンチマークは29,614枚の画像と29,614個の人間認証された詳細なキャプション、52,472個のオブジェクト参照、123,221個の質問応答ペアで構成されている。 リモートセンシング画像理解タスクの幅広い範囲にわたる視覚言語モデルのトレーニングと評価を容易にする。 さらに,画像キャプション,視覚的グラウンド,視覚的質問応答という3つの視覚言語課題に対して,このベンチマークの最先端モデルについて検討した。 本研究は,遠隔センシング分野における高度な視覚言語モデルの開発に大きく貢献することを目的としている。 データとコードはhttps://github.com/lx709/VRSBenchでアクセスできます。

We introduce a new benchmark designed to advance the development of general-purpose, large-scale vision-language models for remote sensing images. Although several vision-language datasets in remote sensing have been proposed to pursue this goal, existing datasets are typically tailored to single tasks, lack detailed object information, or suffer from inadequate quality control. Exploring these improvement opportunities, we present a Versatile vision-language Benchmark for Remote Sensing image understanding, termed VRSBench. This benchmark comprises 29,614 images, with 29,614 human-verified detailed captions, 52,472 object references, and 123,221 question-answer pairs. It facilitates the training and evaluation of vision-language models across a broad spectrum of remote sensing image understanding tasks. We further evaluated state-of-the-art models on this benchmark for three vision-language tasks: image captioning, visual grounding, and visual question answering. Our work aims to significantly contribute to the development of advanced vision-language models in the field of remote sensing. The data and code can be accessed at https://github.com/lx709/VRSBench.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# IPEval: 大規模言語モデルのためのバイリンガル知的財産庁コンサルテーション評価ベンチマーク

IPEval: A Bilingual Intellectual Property Agency Consultation Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2406.12386v1 )

ライセンス: Link先を確認
Qiyao Wang, Jianguo Huang, Shule Lu, Yuan Lin, Kan Xu, Liang Yang, Hongfei Lin, (参考訳) 知的財産権(IP)を含む垂直領域における大規模言語モデル(LLM)の急速な開発は、その理解、応用、推論能力を評価するための具体的な評価ベンチマークを欠いている。 このギャップを埋めるために、IPエージェンシーとコンサルティングタスクに適した最初の評価ベンチマークであるIPEvalを紹介する。 IPEvalは、IPの作成、アプリケーション、保護、管理の4つの主要な領域にわたる2657の多重選択質問で構成されている。 これらの質問は、特許権(発明、実用新案、デザイン)、商標、著作権、貿易秘密、その他の関連する法律にまたがる。 評価手法には、ゼロショット、5秒ショット、および7つのLLMタイプに対するCoT(Chain of Thought)が含まれる。 GPTシリーズやQwenシリーズのようなモデルでは英語のパフォーマンスが優れており、中国中心のLLMは中国のテストでは優れており、IP LLMは汎用のLLMより遅れている。 IPの地域的・時間的側面は、LLMが法的なニュアンスと進化する法を理解する必要性を浮き彫りにしている。 IPEvalは、IP内のLLM能力を正確に測定し、特殊なモデルの開発を促進することを目的としている。 ウェブサイト: \url{https://ipeval.github.io/}

The rapid development of Large Language Models (LLMs) in vertical domains, including intellectual property (IP), lacks a specific evaluation benchmark for assessing their understanding, application, and reasoning abilities. To fill this gap, we introduce IPEval, the first evaluation benchmark tailored for IP agency and consulting tasks. IPEval comprises 2657 multiple-choice questions across four major dimensions: creation, application, protection, and management of IP. These questions span patent rights (inventions, utility models, designs), trademarks, copyrights, trade secrets, and other related laws. Evaluation methods include zero-shot, 5-few-shot, and Chain of Thought (CoT) for seven LLM types, predominantly in English or Chinese. Results show superior English performance by models like GPT series and Qwen series, while Chinese-centric LLMs excel in Chinese tests, albeit specialized IP LLMs lag behind general-purpose ones. Regional and temporal aspects of IP underscore the need for LLMs to grasp legal nuances and evolving laws. IPEval aims to accurately gauge LLM capabilities in IP and spur development of specialized models. Website: \url{https://ipeval.github.io/}
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# アクセント音声における医療施設のAIRモデル

Performant ASR Models for Medical Entities in Accented Speech ( http://arxiv.org/abs/2406.12387v1 )

ライセンス: Link先を確認
Tejumade Afonja, Tobi Olatunji, Sewade Ogun, Naome A. Etori, Abraham Owodunni, Moshood Yekini, (参考訳) 近年, 薬物名, 診断, 検査結果など, アクセント付き医療名を持つエンティティ(NE)に対するパフォーマンスがほとんど不明な医療分野において, 音声認識(ASR)の進歩が加速している。 我々は、93のアフリカアクセントの英語臨床データセットを用いて、複数のASRモデルを厳格に評価した。 分析の結果, 単語誤り率 (WER) が低いモデルではあるものの, 臨床的実体の誤差は高く, 患者の安全性に重大なリスクが生じる可能性が示唆された。 これを実証的に示すために,転写物から臨床エンティティを抽出し,これらのエンティティとASR予測を整合させる新しいアルゴリズムを開発し,医療用NEリコール,医療用WER,文字誤り率を計算する。 以上の結果から, アクセント付き臨床音声の微調整により医療WERは25~34%の差で改善し, 医療環境における実用性の向上が期待できる。

Recent strides in automatic speech recognition (ASR) have accelerated their application in the medical domain where their performance on accented medical named entities (NE) such as drug names, diagnoses, and lab results, is largely unknown. We rigorously evaluate multiple ASR models on a clinical English dataset of 93 African accents. Our analysis reveals that despite some models achieving low overall word error rates (WER), errors in clinical entities are higher, potentially posing substantial risks to patient safety. To empirically demonstrate this, we extract clinical entities from transcripts, develop a novel algorithm to align ASR predictions with these entities, and compute medical NE Recall, medical WER, and character error rate. Our results show that fine-tuning on accented clinical speech improves medical WER by a wide margin (25-34 % relative), improving their practical applicability in healthcare environments.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# EMO-KNOW:感情と感情に関する大規模データセット

EMO-KNOW: A Large Scale Dataset on Emotion and Emotion-cause ( http://arxiv.org/abs/2406.12389v1 )

ライセンス: Link先を確認
Mia Huong Nguyen, Yasith Samaradivakara, Prasanth Sasikumar, Chitralekha Gupta, Suranga Nanayakkara, (参考訳) 感情・因果分析は近年研究者の注目を集めている。 しかし、既存のデータセットのほとんどは、サイズと感情カテゴリーの数に制限されている。 彼らはしばしば、感情の原因を含む文書の一部を抽出することに集中し、より抽象的で一般化可能な根本原因を提供するのに失敗する。 このギャップを埋めるために、私たちは15年間に980万のクリーニングツイートから導かれた、感情の原因の大規模なデータセットを導入しました。 データ収集、クリーニング、ラベル付け、バリデーションのための包括的なパイプラインを含み、データセットの信頼性とリッチ性を保証する。 我々は感情ラベルを抽出し、感情を引き起こす事象を抽象的に要約する。 最終的なデータセットは70万以上のツイートからなり、48の感情クラスにまたがるペアが人間の評価によって検証される。 我々のデータセットの新規性は、その幅広い感情のクラスと、ニュアンスド推論のための感情起因の知識グラフの開発を促進する抽象的な感情原因に起因している。 私たちのデータセットは、同じイベントに対する異なる人々の多様な感情反応を考慮に入れた感情認識システムの設計を可能にします。

Emotion-Cause analysis has attracted the attention of researchers in recent years. However, most existing datasets are limited in size and number of emotion categories. They often focus on extracting parts of the document that contain the emotion cause and fail to provide more abstractive, generalizable root cause. To bridge this gap, we introduce a large-scale dataset of emotion causes, derived from 9.8 million cleaned tweets over 15 years. We describe our curation process, which includes a comprehensive pipeline for data gathering, cleaning, labeling, and validation, ensuring the dataset's reliability and richness. We extract emotion labels and provide abstractive summarization of the events causing emotions. The final dataset comprises over 700,000 tweets with corresponding emotion-cause pairs spanning 48 emotion classes, validated by human evaluators. The novelty of our dataset stems from its broad spectrum of emotion classes and the abstractive emotion cause that facilitates the development of an emotion-cause knowledge graph for nuanced reasoning. Our dataset will enable the design of emotion-aware systems that account for the diverse emotional responses of different people for the same event.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# マルチレベル導波路QEDにおけるマルチマー状態

Multimer states in multilevel waveguide QED ( http://arxiv.org/abs/2406.12390v1 )

ライセンス: Link先を確認
Jiaming Shi, Alexander N. Poddubny, (参考訳) 導波路に結合した有限周期原子列内の多重励起準定常固有状態に対する自然放出の相互作用と相互作用を理論的に研究する。 サブラジアント二量体に基づく固有状態を計算するための解析的アプローチを開発する。 一般固有状態が絡み合った状態であるのに対し、系の大きさや充填率に応じて二量体、三量体、四量体の生成物である固有状態が存在する。 半充填状態では、これらの積状態は各乗法の内部に全対全接続を持つ周期構造を取得し、最もラジアンな構造となる。

We study theoretically the interplay of spontaneous emission and interactions for the multiple-excited quasistationary eigenstates in a finite periodic array of multilevel atoms coupled to the waveguide. We develop an analytical approach to calculate such eigenstates based on the subradiant dimer basis. Our calculations reveal the peculiar multimerization effect driven by the anharmonicity of the atomic potential: while a general eigenstate is an entangled one, there exist eigenstates that are products of dimers, trimers, or tetramers, depending on the size of the system and the fill factor. At half-filling, these product states acquire a periodic structure with all-to-all connections inside each multimer and become the most subradiant ones.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# 変分基底状態量子断熱定理

Variational ground-state quantum adiabatic theorem ( http://arxiv.org/abs/2406.12392v1 )

ライセンス: Link先を確認
Bojan Žunkovič, Pietro Torta, Giovanni Pecci, Guglielmo Lami, Mario Collura, (参考訳) 変分量子断熱定理は、ある仮定の下で、変分多様体に射影された断熱力学が即時変分基底状態に従うことを述べる。 低絡み合い変動多様体と古典的基底状態を持つハミルトン多様体に焦点をあてる。 正確な量子アニール経路に沿って非常に絡み合った中間状態が存在するにもかかわらず、変分進化はターゲット基底状態に収束する。 提案手法を理論的解析に適合するいくつかの例で実証する。

We present a variational quantum adiabatic theorem, which states that, under certain assumptions, the adiabatic dynamics projected onto a variational manifold follow the instantaneous variational ground state. We focus on low-entanglement variational manifolds and target Hamiltonians with classical ground states. Despite the presence of highly entangled intermediate states along the exact quantum annealing path, the variational evolution converges to the target ground state. We demonstrate this approach with several examples that align with our theoretical analysis.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# SDNIA-YOLO:極端気象条件におけるロバスト物体検出モデル

SDNIA-YOLO: A Robust Object Detection Model for Extreme Weather Conditions ( http://arxiv.org/abs/2406.12395v1 )

ライセンス: Link先を確認
Yuexiong Ding, Xiaowei Luo, (参考訳) ディープラーニングに基づく現在のオブジェクト検出モデルは、多くの従来のベンチマークデータセットにおいて優れた結果を得たが、その性能は極端な条件下での実際の画像に対して劇的に低下する。 既存の手法では、従来の画像処理アルゴリズムに基づく画像拡張や、ロバストなモデリングのためのカスタマイズとシーン限定の画像処理技術が使用されている。 そこで本研究では,ニューラルスタイル転送(NST)により合成された画像から,画像品質を適応的に向上し,極端気象条件に関連する貴重な情報を学習することにより,モデルの堅牢性を向上させるスタイライズデータ駆動型ニューラルイメージ適応型YOLO(SDNIA-YOLO)を提案する。 試作したSDNIA-YOLOv3は、ベースラインモデルと比較して、現実の霧(RTTS)と低照度(ExDark)テストセットにおいて、少なくとも15%のmAP@.5の改善を実現している。 さらに、この実験は、極度の気象条件をシミュレートするスタイリングデータの優れた可能性も強調している。 開発したSDNIA-YOLOは、エンドツーエンドのワンステージ、データ駆動、高速といった、ネイティブYOLOの優れた特性を保っている。

Though current object detection models based on deep learning have achieved excellent results on many conventional benchmark datasets, their performance will dramatically decline on real-world images taken under extreme conditions. Existing methods either used image augmentation based on traditional image processing algorithms or applied customized and scene-limited image adaptation technologies for robust modeling. This study thus proposes a stylization data-driven neural-image-adaptive YOLO (SDNIA-YOLO), which improves the model's robustness by enhancing image quality adaptively and learning valuable information related to extreme weather conditions from images synthesized by neural style transfer (NST). Experiments show that the developed SDNIA-YOLOv3 achieves significant mAP@.5 improvements of at least 15% on the real-world foggy (RTTS) and lowlight (ExDark) test sets compared with the baseline model. Besides, the experiments also highlight the outstanding potential of stylization data in simulating extreme weather conditions. The developed SDNIA-YOLO remains excellent characteristics of the native YOLO to a great extent, such as end-to-end one-stage, data-driven, and fast.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# 古典的スピン鎖の相関関数からのリンドブラッド量子力学

Lindblad quantum dynamics from correlation functions of classical spin chains ( http://arxiv.org/abs/2406.12396v1 )

ライセンス: Link先を確認
Markus Kraft, Mariel Kempa, Jiaozi Wang, Robin Steinigeweg, (参考訳) リンドブラッド量子マスター方程式は、開量子系の物理学における中心的なアプローチの1つである。 特に境界駆動は、定常状態が一定電流と特性密度プロファイルを特徴とする長時間の極限に現れる輸送の研究を可能にする。 リンドブラッド方程式は閉量子系における他の輸送法を補完するが、閉系と開系の間の接続が特定の場合に存在することは明らかである。 ここでは、スピン-1/2 XXZ鎖における磁化輸送のためのこの接続を構築し、積分性破壊的摂動を伴わない。 具体的には、実ベクトルに対するハミルトン方程式によって生成される古典的相関関数に基づいて、開量子系の時間発展を記述することができることを示す。 リンドブラッド方程式の正確な数値シミュレーションと比較することにより、この記述の精度をモデルパラメータの範囲で示すとともに、反例を指摘する。 この合意は興味深い物理観測であるが、古典力学は相対的に大きなシステムサイズに対してリンドブラッド方程式を解くのに使えることを示唆している。

The Lindblad quantum master equation is one of the central approaches to the physics of open quantum systems. In particular, boundary driving enables the study of transport, where a steady state emerges in the long-time limit, which features a constant current and a characteristic density profile. While the Lindblad equation complements other approaches to transport in closed quantum systems, it has become clear that a connection between closed and open systems exists in certain cases. Here, we build on this connection for magnetization transport in the spin-1/2 XXZ chain with and without integrability-breaking perturbations. Specifically, we show that the time evolution of the open quantum system can be described on the basis of classical correlation functions, as generated by the Hamiltonian equations of motion for real vectors. By comparing to exact numerical simulations of the Lindblad equation, we demonstrate the accuracy of this description for a range of model parameters, but also point out counterexamples. While this agreement is an interesting physical observation, it also suggests that classical mechanics can be used to solve the Lindblad equation for comparatively large system sizes, which lie outside the possibilities of a quantum mechanical treatment.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# 欠陥の解消--大言語モデルにおける合成データの不備と緩和方略を探る

Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models ( http://arxiv.org/abs/2406.12397v1 )

ライセンス: Link先を確認
Jie Chen, Yupeng Zhang, Bingning Wang, Wayne Xin Zhao, Ji-Rong Wen, Weipeng Chen, (参考訳) 大規模言語モデル(LLM)の訓練において,高品質なデータ不足の問題に対処する手段として,合成データを提案する。 合成データは,下流ベンチマーク上でのLLMの性能を効果的に向上することを示した。 しかし、その潜在的な利点にもかかわらず、我々の分析は合成データに固有の欠陥があることを示唆している。 合成データの均一なフォーマットは、パターンの過度な適合をもたらし、出力分布に大きな変化を引き起こす可能性があるため、モデルの命令追従能力は低下する。 我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。 実験により,比較的低コストでベンチマークの性能を損なうことなく,パターンオーバーフィッティングによる命令追従問題を逆転させる手法の有効性を実証した。 我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。

Synthetic data has been proposed as a solution to address the issue of high-quality data scarcity in the training of large language models (LLMs). Studies have shown that synthetic data can effectively improve the performance of LLMs on downstream benchmarks. However, despite its potential benefits, our analysis suggests that there may be inherent flaws in synthetic data. The uniform format of synthetic data can lead to pattern overfitting and cause significant shifts in the output distribution, thereby reducing the model's instruction-following capabilities. Our work delves into these specific flaws associated with question-answer (Q-A) pairs, a prevalent type of synthetic data, and presents a method based on unlearning techniques to mitigate these flaws. The empirical results demonstrate the effectiveness of our approach, which can reverse the instruction-following issues caused by pattern overfitting without compromising performance on benchmarks at relatively low cost. Our work has yielded key insights into the effective use of synthetic data, aiming to promote more robust and efficient LLM training.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# QueerBench: 言語モデルのQuier Identitiesへの識別の定量化

QueerBench: Quantifying Discrimination in Language Models Toward Queer Identities ( http://arxiv.org/abs/2406.12399v1 )

ライセンス: Link先を確認
Mae Sosto, Alberto Barrón-Cedeño, (参考訳) 様々な応用における自然言語処理(NLP)の役割の増大に伴い、バイアスやステレオタイプ永続性に関する課題が強調され、しばしばスピーチや害を嫌う。 性差別やミソジニーに関する既存の研究にもかかわらず、ホモフォビアやトランスフォビアのような問題は未解決のままであり、しばしば二項視点を採用し、LGBTQIA+の人々の安全をオンライン空間のリスクの高いものにしている。 本稿では、LGBTQIA+の個人について、英語大言語モデル(LLM)が生成する文の完成によって生じる潜在的損害を評価する。 これはテンプレートベースのアプローチとMasked Language Modeling (MLM)タスクを利用する新しいアセスメントフレームワークであるQuierBenchを使って実現されます。 この分析は、大きな言語モデルはLGBTQIA+コミュニティ内の個人に対してより頻繁に差別的行動を示す傾向にあり、QueerBenchスコアの7.2%に差があることを示している。

With the increasing role of Natural Language Processing (NLP) in various applications, challenges concerning bias and stereotype perpetuation are accentuated, which often leads to hate speech and harm. Despite existing studies on sexism and misogyny, issues like homophobia and transphobia remain underexplored and often adopt binary perspectives, putting the safety of LGBTQIA+ individuals at high risk in online spaces. In this paper, we assess the potential harm caused by sentence completions generated by English large language models (LLMs) concerning LGBTQIA+ individuals. This is achieved using QueerBench, our new assessment framework, which employs a template-based approach and a Masked Language Modeling (MLM) task. The analysis indicates that large language models tend to exhibit discriminatory behaviour more frequently towards individuals within the LGBTQIA+ community, reaching a difference gap of 7.2% in the QueerBench score of harmfulness.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# IoTセキュリティ強化のためのカットエッジ深層学習手法

A Cutting-Edge Deep Learning Method For Enhancing IoT Security ( http://arxiv.org/abs/2406.12400v1 )

ライセンス: Link先を確認
Nadia Ansar, Mohammad Sadique Ansari, Mohammad Sharique, Aamina Khatoon, Md Abdul Malik, Md Munir Siddiqui, (参考訳) IoTには数十億のデバイスが異質であり、大量のデータがあるという重大な問題があった。 本稿では,Deep Learning-integrated Convolutional Neural Networks(CNN)とLong Short-Term Memory(LSTM)ネットワークを用いたモノのインターネット(IoT)環境侵入検知システム(IDS)の革新的な設計を提案する。 われわれのモデルはCICIDS2017データセットに基づいて、ネットワークトラフィックを良性または悪意のいずれかとして分類する精度99.52%を達成した。 私たちのモデルにおけるリアルタイム処理能力、スケーラビリティ、および低い偽アラームレートは、従来のIDSアプローチを超越しているため、今日のIoTネットワークでのアプリケーションに成功しています。 適応学習技術やドメイン間適用性など,他の分野にも応用可能なモデルの開発と性能について論じる。 IoTサイバーセキュリティのためのディープラーニングに関する研究は、ネットワークセキュリティを大幅に改善するための強力なソリューションを提供する。

There have been significant issues given the IoT, with heterogeneity of billions of devices and with a large amount of data. This paper proposed an innovative design of the Internet of Things (IoT) Environment Intrusion Detection System (or IDS) using Deep Learning-integrated Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) networks. Our model, based on the CICIDS2017 dataset, achieved an accuracy of 99.52% in classifying network traffic as either benign or malicious. The real-time processing capability, scalability, and low false alarm rate in our model surpass some traditional IDS approaches and, therefore, prove successful for application in today's IoT networks. The development and the performance of the model, with possible applications that may extend to other related fields of adaptive learning techniques and cross-domain applicability, are discussed. The research involving deep learning for IoT cybersecurity offers a potent solution for significantly improving network security.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# Flee the Flaw:テンプレートとスロットフィリングによる誤答の根底にある論理の注釈

Flee the Flaw: Annotating the Underlying Logic of Fallacious Arguments Through Templates and Slot-filling ( http://arxiv.org/abs/2406.12402v1 )

ライセンス: Link先を確認
Irfan Robbani, Paul Reisert, Naoya Inoue, Surawat Pothong, Camélia Guerraoui, Wenzhi Wang, Shoichi Naito, Jungmin Choi, Kentaro Inui, (参考訳) 計算的議論における以前の研究は、主に議論の質を評価することに焦点を当てており、論理的誤りの説明にはあまり注意を払わなかった。 そこで本研究では,誤りの暗黙的論理を説明可能な4つのテンプレートを,非公式な論理的誤字に対して導入する。 テンプレートを用いて,LOGICデータセットから抽出した400の誤った議論に対して注釈研究を行い,高い合意スコア(クリッペンドルフの0.54のアルファ)と妥当なカバレッジ(0.83)を達成した。 最後に,誤字検出実験を行い,現在最先端の言語モデルが誤字検出に苦戦していること(0.47精度)を明らかにする。 誤字の研究を容易にするため、データセットとガイドラインを公開しています。

Prior research in computational argumentation has mainly focused on scoring the quality of arguments, with less attention on explicating logical errors. In this work, we introduce four sets of explainable templates for common informal logical fallacies designed to explicate a fallacy's implicit logic. Using our templates, we conduct an annotation study on top of 400 fallacious arguments taken from LOGIC dataset and achieve a high agreement score (Krippendorf's alpha of 0.54) and reasonable coverage (0.83). Finally, we conduct an experiment for detecting the structure of fallacies and discover that state-of-the-art language models struggle with detecting fallacy templates (0.47 accuracy). To facilitate research on fallacies, we make our dataset and guidelines publicly available.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# PDSS: 大規模言語モデルのステップバイステップ蒸留のためのプライバシー保護フレームワーク

PDSS: A Privacy-Preserving Framework for Step-by-Step Distillation of Large Language Models ( http://arxiv.org/abs/2406.12403v1 )

ライセンス: Link先を確認
Tao Fan, Yan Kang, Weijing Chen, Hanlin Gu, Yuanfeng Song, Lixin Fan, Kai Chen, Qiang Yang, (参考訳) 現実世界のアプリケーションでは、ドメイン固有のタスクに大規模言語モデル(LLM)を活用することが、ドメイン固有の知識のプライバシと制約のあるリソースという2つの大きな課題に直面します。 これらの問題に対処するため,LDMを段階的に蒸留するためのプライバシー保護フレームワークPDSSを提案する。 PDSSはサーバクライアントアーキテクチャで動作し、クライアントは乱れたプロンプトをサーバのLCMに送信し、合理的な生成を行う。 生成された合理性は、クライアントによってデコードされ、マルチタスク学習パラダイム内のタスク固有小言語モデル(SLM)のトレーニングを強化するために使用される。 PDSSは2つのプライバシ保護戦略(Exponential Mechanism Strategy)とEncoder-Decoder Strategy(Encoder-Decoder Strategy)を導入している。 各種テキスト生成タスクにおけるPDSSの有効性を実証し、データプライバシ保護を優先しながら、パフォーマンスを向上したタスク固有のSLMのトレーニングを可能にする。

In the context of real-world applications, leveraging large language models (LLMs) for domain-specific tasks often faces two major challenges: domain-specific knowledge privacy and constrained resources. To address these issues, we propose PDSS, a privacy-preserving framework for step-by-step distillation of LLMs. PDSS works on a server-client architecture, wherein client transmits perturbed prompts to the server's LLM for rationale generation. The generated rationales are then decoded by the client and used to enrich the training of task-specific small language model(SLM) within a multi-task learning paradigm. PDSS introduces two privacy protection strategies: the Exponential Mechanism Strategy and the Encoder-Decoder Strategy, balancing prompt privacy and rationale usability. Experiments demonstrate the effectiveness of PDSS in various text generation tasks, enabling the training of task-specific SLM with enhanced performance while prioritizing data privacy protection.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# 既設道路用スキャン・ツー・BIM:逐次ラベル付きポイントクラウドデータによる自動道路デジタルツインニング

Scan-to-BIM for As-built Roads: Automatic Road Digital Twinning from Semantically Labeled Point Cloud Data ( http://arxiv.org/abs/2406.12404v1 )

ライセンス: Link先を確認
Yuexiong Ding, Mengtian Yin, Ran Wei, Ioannis Brilakis, Muyang Liu, Xiaowei Luo, (参考訳) 建設道路のための幾何学的デジタルツイン(gDT)の作成は、自動化レベルと精度の低下、限られた資産タイプと形状、エンジニアリングエクスペリエンスへの依存など、多くの課題に直面している。 道路面,道路側(傾斜),道路線(マーキング),道路標識,道路灯,ガードレールの6種類の資産を考慮し,意味ラベル付きポイントクラウドデータ(PCD)に基づく自動道路gDT作成のための新しいスキャン・ツー・ビルディング情報モデリング(スキャン・ツー・BIM)フレームワークを提案する。 このフレームワークは、まずセマンティックPCDを空間的に独立したインスタンスまたは部品に分割し、次に、その断面多角形輪郭を代表的幾何学情報として抽出し、新しいデータ構造を用いてJavaScript Object Notation (JSON) ファイルに格納する。 プリミティブgDTは、対応する変換アルゴリズムを使用して、最終的にJSONファイルから生成される。 提案手法は, 平均距離誤差1.46cm, 処理速度6.29m, 総距離1,200mの実空間道路セグメントで処理速度6.29mを実現している。

Creating geometric digital twins (gDT) for as-built roads still faces many challenges, such as low automation level and accuracy, limited asset types and shapes, and reliance on engineering experience. A novel scan-to-building information modeling (scan-to-BIM) framework is proposed for automatic road gDT creation based on semantically labeled point cloud data (PCD), which considers six asset types: Road Surface, Road Side (Slope), Road Lane (Marking), Road Sign, Road Light, and Guardrail. The framework first segments the semantic PCD into spatially independent instances or parts, then extracts the sectional polygon contours as their representative geometric information, stored in JavaScript Object Notation (JSON) files using a new data structure. Primitive gDTs are finally created from JSON files using corresponding conversion algorithms. The proposed method achieves an average distance error of 1.46 centimeters and a processing speed of 6.29 meters per second on six real-world road segments with a total length of 1,200 meters.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# Bandit PAC Multiclass 分類の高速化

Fast Rates for Bandit PAC Multiclass Classification ( http://arxiv.org/abs/2406.12406v1 )

ライセンス: Link先を確認
Liad Erez, Alon Cohen, Tomer Koren, Yishay Mansour, Shay Moran, (参考訳) 我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。 我々の主な貢献は、問題の非依存的な$(\varepsilon,\delta)$-PACバージョンのための新しい学習アルゴリズムを設計することであり、サンプル複雑性は$O\big( (\operatorname{poly}(K) + 1 / \varepsilon^2) \log (|H| / \delta) \big)$ である。 $\varepsilon$ への主要な依存に関して、この問題に対する既存の境界、すなわち $O(K/\varepsilon^2)$ の形式により改善される。 また、この結果の一般クラスへの拡張を提供し、$\log |H|$ をナタラジャン次元に置き換える類似のサンプル複雑性境界を確立する。 これは問題の完全情報版における最適率と一致し、Daniely, Sabato, Ben-David, Shalev-Shwartz (2011) が研究したオープンな疑問を解決し、実現可能なPAC学習における帯域幅フィードバックの乗算価格が$\Theta(K)$であることを示した。 ここでは、バンドイットフィードバックの価格は、$O(1)$ as $\varepsilon \to 0$ である。 提案アルゴリズムは, 確率的最適化手法を用いて, 仮説上の低分散探索分布を計算するためのFrank-Wolfe更新に基づく対数バリアポテンシャルを最小化する。

We study multiclass PAC learning with bandit feedback, where inputs are classified into one of $K$ possible labels and feedback is limited to whether or not the predicted labels are correct. Our main contribution is in designing a novel learning algorithm for the agnostic $(\varepsilon,\delta)$-PAC version of the problem, with sample complexity of $O\big( (\operatorname{poly}(K) + 1 / \varepsilon^2) \log (|H| / \delta) \big)$ for any finite hypothesis class $H$. In terms of the leading dependence on $\varepsilon$, this improves upon existing bounds for the problem, that are of the form $O(K/\varepsilon^2)$. We also provide an extension of this result to general classes and establish similar sample complexity bounds in which $\log |H|$ is replaced by the Natarajan dimension. This matches the optimal rate in the full-information version of the problem and resolves an open question studied by Daniely, Sabato, Ben-David, and Shalev-Shwartz (2011) who demonstrated that the multiplicative price of bandit feedback in realizable PAC learning is $\Theta(K)$. We complement this by revealing a stark contrast with the agnostic case, where the price of bandit feedback is only $O(1)$ as $\varepsilon \to 0$. Our algorithm utilizes a stochastic optimization technique to minimize a log-barrier potential based on Frank-Wolfe updates for computing a low-variance exploration distribution over the hypotheses, and is made computationally efficient provided access to an ERM oracle over $H$.
翻訳日:2024-06-19 19:56:37 公開日:2024-06-18
# LOOC:Occupency NetworksとBody Surface Depth Imageを用いた臓器の局在化

LOOC: Localizing Organs using Occupancy Networks and Body Surface Depth Images ( http://arxiv.org/abs/2406.12407v1 )

ライセンス: Link先を確認
Pit Henrich, Franziska Mathis-Ullrich, (参考訳) 本研究では, 人体外から採取した単一深度画像から, 67の解剖学的構造を正確に位置決めするために, 占有ネットワークを用いた新しい手法を提案する。 この方法は個体間の解剖学的多様性を考慮したものである。 本研究の貢献は,隠蔽構造定位のための占有ネットワークの適用,奥行き画像から解剖学的位置を推定する堅牢な手法,詳細な3次元解剖学的アトラスの作成等である。 このアプローチは、重要な解剖学的特徴の正確な非侵襲的局所化を提供することにより、医療画像および自動診断手順の改善を約束する。

We introduce a novel method employing occupancy networks for the precise localization of 67 anatomical structures from single depth images captured from the exterior of the human body. This method considers the anatomical diversity across individuals. Our contributions include the application of occupancy networks for occluded structure localization, a robust method for estimating anatomical positions from depth images, and the creation of detailed, individualized 3D anatomical atlases. This approach promises improvements in medical imaging and automated diagnostic procedures by offering accurate, non-invasive localization of critical anatomical features.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# 翻訳等価変圧器ニューラルプロセス

Translation Equivariant Transformer Neural Processes ( http://arxiv.org/abs/2406.12409v1 )

ライセンス: Link先を確認
Matthew Ashman, Cristiana Diaconu, Junhyuck Kim, Lakee Sivaraya, Stratis Markou, James Requeima, Wessel P. Bruinsma, Richard E. Turner, (参考訳) 後部予測マップ(データから後部予測分布へのマッピング)のモデル化における神経プロセス(NP)の有効性は,開始当初から大幅に改善されている。 この改善は、(1)すべてのNPに固有の置換不変集合関数のアーキテクチャの進歩、(2)問題に依存する真の後続予測写像に存在する対称性の活用の2つの主要な要因に起因している。 変圧器は置換不変集合関数の顕著な発展であり、NPの効用は我々が TNP と呼ぶモデルのファミリを通じて証明されている。 TNPに対する大きな関心にもかかわらず、対称性を取り入れることにはほとんど関心が向けられていない。 特に、時空間モデリングにおける一般的な仮定である定常データに対する後続予測マップは、翻訳等価性を示す。 本稿では,翻訳同値を組み込んだ翻訳同値なTNPを新たに導入する。 合成時空間データおよび実世界の時空間データに関する幅広い実験を通じて, TE-TNPsの非翻訳同変データおよび他のNPベースラインに対する有効性を示す。

The effectiveness of neural processes (NPs) in modelling posterior prediction maps -- the mapping from data to posterior predictive distributions -- has significantly improved since their inception. This improvement can be attributed to two principal factors: (1) advancements in the architecture of permutation invariant set functions, which are intrinsic to all NPs; and (2) leveraging symmetries present in the true posterior predictive map, which are problem dependent. Transformers are a notable development in permutation invariant set functions, and their utility within NPs has been demonstrated through the family of models we refer to as TNPs. Despite significant interest in TNPs, little attention has been given to incorporating symmetries. Notably, the posterior prediction maps for data that are stationary -- a common assumption in spatio-temporal modelling -- exhibit translation equivariance. In this paper, we introduce of a new family of translation equivariant TNPs that incorporate translation equivariance. Through an extensive range of experiments on synthetic and real-world spatio-temporal data, we demonstrate the effectiveness of TE-TNPs relative to their non-translation-equivariant counterparts and other NP baselines.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# 2モードボース-アインシュタイン凝縮体におけるコヒーレンスからの抽出

Extracting work from coherence in a two-mode Bose-Einstein condensate ( http://arxiv.org/abs/2406.12410v1 )

ライセンス: Link先を確認
L. A. Williamson, F. Cerisola, J. Anders, Matthew J. Davis, (参考訳) 2モードのボース=アインシュタイン凝縮体における数状態コヒーレンスから作業をどのように抽出できるかを示す。 パラメータの慎重なチューニングにより、熱力学的に可逆なステップの列は、グラウバーコヒーレント状態を同じエネルギー確率分布を持つ熱状態に変換する。 この過程で抽出された研究は、完全に量子コヒーレンスの除去から生じる。 より一般的に、作業出力に対する量子(コヒーレンス)および古典的(残留)貢献を特徴付け、このシステムでは、幅広いパラメータに対して量子貢献が支配的であることを発見する。 量子ワーク出力の比率は、初期コヒーレント状態のスクイーズによってさらに高めることができる。 システムの多体性のため、コヒーレンスからの業績は等しく、絡み合いからの成果と解釈できる。

We show how work can be extracted from number-state coherence in a two-mode Bose-Einstein condensate. With careful tuning of parameters, a sequence of thermodynamically reversible steps transforms a Glauber coherent state into a thermal state with the same energy probability distribution. The work extracted during this process arises entirely from the removal of quantum coherence. More generally, we characterise quantum (from coherence) and classical (remaining) contributions to work output, and find that in this system the quantum contribution can be dominant over a broad range of parameters. The proportion of quantum work output can be further enhanced by squeezing the initial coherent state. Due to the many-body nature of the system, the work from coherence can equivalently be understood as work from entanglement.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# TADM : 脳MRIにおける神経変性進行の時間的認識拡散モデル

TADM: Temporally-Aware Diffusion Model for Neurodegenerative Progression on Brain MRI ( http://arxiv.org/abs/2406.12411v1 )

ライセンス: Link先を確認
Mattia Litrico, Francesco Guarnera, Valerio Giuffirda, Daniele Ravì, Sebastiano Battiato, (参考訳) 脳MRIの構造変化を正確に予測するために現実的な画像を生成することは、臨床医にとって重要なツールである。 このような応用は、患者の結果を評価し、個々のレベルで疾患がどのように進行するかを分析するのに役立つ。 しかし、このタスクの既存のメソッドにはいくつかの制限がある。 いくつかのアプローチでは、患者の年齢に応じてMRIスキャンの分布を直接モデル化しようとするが、脳の構造変化と時間間隔、特に年齢不均衡データセットとの関係を明示的に把握することができない。 他のアプローチは単にスキャン間の補間に依存しており、将来のMRIを予測しないため臨床応用は制限される。 これらの課題に対処するために,脳MRIの進行を正確に推定するための新しいアプローチを提案するTADM(Temporally-Aware Diffusion Model)を提案する。 TADMはスキャン間の強度差による構造変化の分布を学習し、これらの変化の予測と初期ベースラインスキャンを組み合わせて将来のMRIを生成する。 さらに、トレーニング中に、トレーニングプロセスの洗練のためにトレーニング済みのBrain-Age Estimator(BAE)を利用することを提案し、ベースラインと生成されたスキャンの年齢差に一致する正確なMRIを生成する能力を向上させる。 OASIS-3データセットを用いて行った評価では,3つの脳領域における予測と実際のフォローアップスキャンを比較して,類似度と領域サイズを算出した。 TADMは既存のアプローチよりも大幅に改善されており、リージョンサイズエラーの24%、類似度メトリクスの4%が平均で改善されている。 これらの評価は、従来の方法と比較して時間的脳神経変性の進行を模倣するモデルの改善を示すものである。 我々のアプローチは、患者の結果を予測したり、患者に対する治療を改善するといった応用に役立ちます。

Generating realistic images to accurately predict changes in the structure of brain MRI is a crucial tool for clinicians. Such applications help assess patients' outcomes and analyze how diseases progress at the individual level. However, existing methods for this task present some limitations. Some approaches attempt to model the distribution of MRI scans directly by conditioning the model on patients' ages, but they fail to explicitly capture the relationship between structural changes in the brain and time intervals, especially on age-unbalanced datasets. Other approaches simply rely on interpolation between scans, which limits their clinical application as they do not predict future MRIs. To address these challenges, we propose a Temporally-Aware Diffusion Model (TADM), which introduces a novel approach to accurately infer progression in brain MRIs. TADM learns the distribution of structural changes in terms of intensity differences between scans and combines the prediction of these changes with the initial baseline scans to generate future MRIs. Furthermore, during training, we propose to leverage a pre-trained Brain-Age Estimator (BAE) to refine the model's training process, enhancing its ability to produce accurate MRIs that match the expected age gap between baseline and generated scans. Our assessment, conducted on the OASIS-3 dataset, uses similarity metrics and region sizes computed by comparing predicted and real follow-up scans on 3 relevant brain regions. TADM achieves large improvements over existing approaches, with an average decrease of 24% in region size error and an improvement of 4% in similarity metrics. These evaluations demonstrate the improvement of our model in mimicking temporal brain neurodegenerative progression compared to existing methods. Our approach will benefit applications, such as predicting patient outcomes or improving treatments for patients.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# ラフセットとコンセンサスクラスタリングを用いたネットワークにおけるコミュニティ検出のための新しいアルゴリズム

A Novel Algorithm for Community Detection in Networks using Rough Sets and Consensus Clustering ( http://arxiv.org/abs/2406.12412v1 )

ライセンス: Link先を確認
Darian H. Grass-Boada, Leandro González-Montesino, Rubén Armañanzas, (参考訳) 社会的、生物学的、技術的システムのような複雑なネットワークは、しばしばコミュニティ検出の課題に挑戦する。 本研究は,ネットワークコミュニティの構造を効果的に識別するための,新しい粗いクラスタリングに基づくコンセンサスコミュニティフレームワーク(RC-CCD)を提案する。 RC-CCD法では,データの不確実性を扱うために粗い集合理論を用い,コンセンサスクラスタリング手法を用いて複数のクラスタリング結果を集約し,コミュニティ検出の信頼性と精度を高める。 この統合によりRC-CCDは、しばしば複雑なネットワークに存在する重複するコミュニティを効果的に管理できる。 このアプローチは、重複するコミュニティを検出し、ネットワーク構造を詳細に正確に表現する。 Lancichinetti-Fortunato-Radicchi法によって生成されたベンチマークネットワークの総合的なテストでは、ノードの次数やコミュニティサイズに応じて、新しい提案の強度と適応性を示した。 RC-CCDと他のよく知られた検出アルゴリズムの相互比較は、安定性と適応性を強調した。

Complex networks, such as those in social, biological, and technological systems, often present challenges to the task of community detection. Our research introduces a novel rough clustering based consensus community framework (RC-CCD) for effective structure identification of network communities. The RC-CCD method employs rough set theory to handle uncertainties within data and utilizes a consensus clustering approach to aggregate multiple clustering results, enhancing the reliability and accuracy of community detection. This integration allows the RC-CCD to effectively manage overlapping communities, which are often present in complex networks. This approach excels at detecting overlapping communities, offering a detailed and accurate representation of network structures. Comprehensive testing on benchmark networks generated by the Lancichinetti-Fortunato-Radicchi method showcased the strength and adaptability of the new proposal to varying node degrees and community sizes. Cross-comparisons of RC-CCD versus other well known detection algorithms outcomes highlighted its stability and adaptability.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# 近似EFXアロケーションにおけるフロンティアの推進

Pushing the Frontier on Approximate EFX Allocations ( http://arxiv.org/abs/2406.12413v1 )

ライセンス: Link先を確認
Georgios Amanatidis, Aris Filos-Ratsikas, Alkmini Sgouritsa, (参考訳) 本研究では, 付加価値関数を持つエージェント群に対して, 分割不可能な商品群を割り当てることの問題点について検討する。 この問題の最先端の成果には、(実際に)EFXアロケーションが存在することが含まれる。 (a)少なくとも3人の代理人がいる、または b) エージェントの価額関数は、最大2つの値を取ることができるか、 (c) エージェントの値関数をグラフで表すことができる。 $\alpha$-EFX の場合、0.618$-EFX は付加的な評価関数を持つ任意のエージェントに対して存在することが知られている。 本稿では,2/3$-EFXのアロケーションが存在することを示す。 (a)少なくとも 'emph{seven agent} がある。 b) エージェントの付値関数は、ほとんどの \emph{ three value} で取ることができるか、または c) エージェントの値関数は \emph{multigraph} で表すことができる。 私たちの結果は2つの方法で解釈できる。 まず、EFXの概念を2/3$-EFXに緩和することにより、正確なEFX割り当てが存在することが分かっている設定の厳密な一般化のための存在結果を得る。 第二に、設定に制限を課すことで、0.618ドルという障壁を乗り越え、近似保証が2/3ドルに達する。 そこで本研究では, 近似EFXアロケーションの存在と計算のemph{frontier}を推し進め, 正確なEFXアロケーションの存在を確定する上での課題について考察する。

We study the problem of allocating a set of indivisible goods to a set of agents with additive valuation functions, aiming to achieve approximate envy-freeness up to any good ($\alpha$-EFX). The state-of-the-art results on the problem include that (exact) EFX allocations exist when (a) there are at most three agents, or (b) the agents' valuation functions can take at most two values, or (c) the agents' valuation functions can be represented via a graph. For $\alpha$-EFX, it is known that a $0.618$-EFX allocation exists for any number of agents with additive valuation functions. In this paper, we show that $2/3$-EFX allocations exist when (a) there are at most \emph{seven agents}, (b) the agents' valuation functions can take at most \emph{three values}, or (c) the agents' valuation functions can be represented via a \emph{multigraph}. Our results can be interpreted in two ways. First, by relaxing the notion of EFX to $2/3$-EFX, we obtain existence results for strict generalizations of the settings for which exact EFX allocations are known to exist. Secondly, by imposing restrictions on the setting, we manage to beat the barrier of $0.618$ and achieve an approximation guarantee of $2/3$. Therefore, our results push the \emph{frontier} of existence and computation of approximate EFX allocations, and provide insights into the challenges of settling the existence of exact EFX allocations.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# はしご型巨大原子からの相関光子対のハーネス自然放出

Harnessing spontaneous emission of correlated photon pairs from ladder-type giant atoms ( http://arxiv.org/abs/2406.12414v1 )

ライセンス: Link先を確認
Zhao-Min Gao, Jia-Qi Li, Ying-Huan Wu, Wen-Xiao Liu, Xin Wang, (参考訳) 相関多光子過程の実現は通常、非線形媒質と原子の相互作用に依存する。 しかし、光学材料の非線形性は一般的に弱いため、数光子レベルで相関する多光子ダイナミクスを達成することは依然として非常に困難である。 一方、巨大原子は多点結合の能力を持ち、量子光学において新しいパラダイムであり、主に単一光子場に焦点を当てている。 この研究では、Physで記述された方法を用いている。 第6話。 013279 (2024) で, はしご型三層巨大原子は, 目標関数を設計, 最適化することにより, 強い相関性を持つ光子対を高効率で自然発振することを示した。 さらに、局所位相を最適結合配列に符号化することにより、指向性2光子相関転写を実現することができる。 この方法は非線形導波路を必要とせず、従来の環境で実現可能である。 両方向およびキラルケースで放出される光子対は,時間と空間の両方で強い相関性を示す。 このような相関した光子対は、量子情報処理に大きな可能性を持つ。 例えば、数値的な結果は、2光子を介するカスケード量子系を実現することができることを示している。

The realization of correlated multi-photon processes usually depends on the interaction between nonlinear media and atoms. However, the nonlinearity of optical materials is generally weak, making it still very challenging to achieve correlated multi-photon dynamics at the few-photon level. Meanwhile, giant atoms, with their capability for multi-point coupling, which is a novel paradigm in quantum optics, mostly focus on the single photon field. In this work, using the method described in Phys. Rev. Res. 6. 013279 (2024), we reveal that the ladder-type three-level giant atom spontaneously emits strongly correlated photon pairs with high efficiency by designing and optimizing the target function. In addition, by encoding local phases into the optimal coupling sequence, directional two-photon correlated transfer can be achieved. This method does not require a nonlinear waveguide and can be realized in the conventional environment. We show that the photon pairs emitted in both the bidirectional and the chiral case exhibit strong correlation properties in both time and space. Such correlated photon pairs have great potential applications for quantum information processing. For example, numerical results show that our proposal can realize the two-photon mediated cascaded quantum system.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# MegaVul: 包括的なコード表現を備えたC/C++脆弱性データセット

MegaVul: A C/C++ Vulnerability Dataset with Comprehensive Code Representation ( http://arxiv.org/abs/2406.12415v1 )

ライセンス: Link先を確認
Chao Ni, Liyu Shen, Xiaohu Yang, Yan Zhu, Shaohua Wang, (参考訳) 我々は,Common Vulnerabilities and Exposures(CVE)データベースとCVE関連オープンソースプロジェクトをクロールすることによって,MegaVulという,大規模かつ包括的なC/C++脆弱性データセットを構築した。 具体的には、CVEデータベースから脆弱性のクロール可能な記述情報をすべて収集し、28のGitベースのWebサイトから脆弱性関連のコード変更をすべて抽出しました。 抽出されたコードの整合性を確保し、コードを4つの異なる変換表現で強化するために、高度なツールを採用しています。 MegaVulには、2006年1月から2023年10月までに公開された169の異なる脆弱性タイプにまたがる、992のオープンソースリポジトリから収集された17,380の脆弱性が含まれている。 したがってMegaVulは、脆弱性の検出や脆弱性の深刻度評価など、さまざまなソフトウェアセキュリティ関連のタスクに使用できる。 すべての情報はJSON形式で格納され、簡単に利用できる。 MegaVulはGitHubで公開されており、継続的に更新される。 他のプログラミング言語にも容易に拡張できる。

We constructed a newly large-scale and comprehensive C/C++ vulnerability dataset named MegaVul by crawling the Common Vulnerabilities and Exposures (CVE) database and CVE-related open-source projects. Specifically, we collected all crawlable descriptive information of the vulnerabilities from the CVE database and extracted all vulnerability-related code changes from 28 Git-based websites. We adopt advanced tools to ensure the extracted code integrality and enrich the code with four different transformed representations. In total, MegaVul contains 17,380 vulnerabilities collected from 992 open-source repositories spanning 169 different vulnerability types disclosed from January 2006 to October 2023. Thus, MegaVul can be used for a variety of software security-related tasks including detecting vulnerabilities and assessing vulnerability severity. All information is stored in the JSON format for easy usage. MegaVul is publicly available on GitHub and will be continuously updated. It can be easily extended to other programming languages.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# アンダーアライメントを超えて:大規模言語モデルのためのアトミックな優先度向上によるファクチュアリティチューニング

Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models ( http://arxiv.org/abs/2406.12416v1 )

ライセンス: Link先を確認
Hongbang Yuan, Yubo Chen, Pengfei Cao, Zhuoran Jin, Kang Liu, Jun Zhao, (参考訳) 大型言語モデル(LLM)は目覚ましい成功を収めているが、いまだに幻覚と呼ばれる現象である事実的に誤った反応を生じさせる傾向がある。 最近のトレンドは、好みの学習を使ってモデルを微調整し、事実と一致させることである。 しかし、既存の研究は主にドメイン内(ID)データセットの微調整モデルを評価しており、ドメイン外(OOD)データセットの事実はいまだ調査されていない。 本稿では,様々な選好学習アルゴリズムによって調整された異なるモデルの事実性を総合的に評価し,OODデータセット上での性能が最小限に向上するか低下するかを示す。 その後、モデルが現実性を維持できなかった主な原因は、調整前後のモデルのトークン分布シフトを分析することによって、 \textbf{under-alignment} ではなく \textbf{under-alignment} であることが明らかとなった。 最後に、個々の事実の粒度におけるモデルによる事実の認識を高めるフレームワークである \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning) を提案する。 APEFTは、IDデータセットとOODデータセットの両方で平均$\boldsymbol{3.45\%}$でモデル性能を向上し、非常に効果的であることを示した。

Large language models (LLMs) have achieved remarkable success but still tend to generate factually erroneous responses, a phenomenon known as hallucination. A recent trend is to use preference learning to fine-tune models to align with factuality. However, existing work primarily evaluates fine-tuned models on in-domain (ID) datasets and the factuality on out-of-domain (OOD) datasets remains underexplored. In this paper, we conduct a comprehensive evaluation of the factuality of different models tuned by various preference learning algorithms and demonstrate that their performance on OOD datasets either increases minimally or decreases. Subsequently, we reveal that the main cause of model's failure to uphold factuality under a distribution shift is \textbf{under-alignment}, rather than \textbf{over-alignment}, by analyzing the token distribution shift of the models before and after tuning. Finally, we propose \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning), a framework that enhances model's awareness of factuality at the granularity of individual facts. Extensive experiments demonstrate that APEFT improves model performance by an average of $\boldsymbol{3.45\%}$ on both ID and OOD datasets, which is highly effective.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# AIによる機械翻訳の人間による評価

AI-Assisted Human Evaluation of Machine Translation ( http://arxiv.org/abs/2406.12419v1 )

ライセンス: Link先を確認
Vilém Zouhar, Tom Kocmi, Mrinmaya Sachan, (参考訳) 毎年、研究チームは機械翻訳システム(WMT, inter alia)の品質を評価するために大量のお金を費やしています。 これは、詳細な人的労働を必要とするため、高価である。 最近提案されたアノテーションプロトコルであるError Span Annotation (ESA)には、翻訳の誤った部分をマークするアノテーションがある。 我々の研究では、自動品質推定でスパンアノテーションをプリフィルすることでアノテーションを補助します。 AIアシストでは、より詳細なアノテーションを取得し、スパンアノテーションあたりの時間を半分に削減します(71s/error span $\rightarrow $ 31s/error span)。 ESA$^\mathrm{AI}$プロトコルの最大の利点は、スクラッチから始めるのではなく、最終的なスコアを割り当てる前に、アノテータ(プリフィルされたエラースパン)の正確なプライミングである。 さらに、AIが正しいと判断する例をフィルタリングすることで、アノテーション予算を最大24%削減することができる。

Annually, research teams spend large amounts of money to evaluate the quality of machine translation systems (WMT, inter alia). This is expensive because it requires detailed human labor. The recently proposed annotation protocol, Error Span Annotation (ESA), has annotators marking erroneous parts of the translation. In our work, we help the annotators by pre-filling the span annotations with automatic quality estimation. With AI assistance, we obtain more detailed annotations while cutting down the time per span annotation by half (71s/error span $\rightarrow$ 31s/error span). The biggest advantage of ESA$^\mathrm{AI}$ protocol is an accurate priming of annotators (pre-filled error spans) before they assign the final score as opposed to starting from scratch. In addition, the annotation budget can be reduced by up to 24% with filtering of examples that the AI deems to be very likely to be correct.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# MMUTF:Unified Template Fillingを用いたマルチモーダルマルチメディアイベント引数抽出

MMUTF: Multimodal Multimedia Event Argument Extraction with Unified Template Filling ( http://arxiv.org/abs/2406.12420v1 )

ライセンス: Link先を確認
Philipp Seeberger, Dominik Wagner, Korbinian Riedhammer, (参考訳) マルチメディア技術の進歩に伴い、ニュース文書やユーザ生成コンテンツは複数のモダリティとして表現されることが多く、マルチメディアイベント抽出(MEE)がますます重要な課題となっている。 しかし、近年のMEE手法では、単純な分類モデルを用いて、弱いアライメント戦略とデータ拡張を採用しており、これは、難易度の高いイベント引数抽出(EAE)タスクのための自然言語形式イベントテンプレートの機能を無視している。 本研究ではEAEに焦点をあて,テキストプロンプトを介してテキストと視覚のモダリティを接続する統合テンプレートフィリングモデルを導入することにより,この問題に対処する。 このアプローチは、相互オントロジー転送の活用とイベント固有のセマンティクスの導入を可能にする。 M2E2ベンチマークの実験により,本手法の有効性が示された。 我々のシステムはテキストEAEのSOTAを+7%上回り、マルチメディアEAEの2番目に高いシステムよりも一般的に優れている。

With the advancement of multimedia technologies, news documents and user-generated content are often represented as multiple modalities, making Multimedia Event Extraction (MEE) an increasingly important challenge. However, recent MEE methods employ weak alignment strategies and data augmentation with simple classification models, which ignore the capabilities of natural language-formulated event templates for the challenging Event Argument Extraction (EAE) task. In this work, we focus on EAE and address this issue by introducing a unified template filling model that connects the textual and visual modalities via textual prompts. This approach enables the exploitation of cross-ontology transfer and the incorporation of event-specific semantics. Experiments on the M2E2 benchmark demonstrate the effectiveness of our approach. Our system surpasses the current SOTA on textual EAE by +7% F1, and performs generally better than the second-best systems for multimedia EAE.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# チェコ語形態素解析のための形態素辞書対応ディープラーニングによるオープンソースWebサービス

Open-Source Web Service with Morphological Dictionary-Supplemented Deep Learning for Morphosyntactic Analysis of Czech ( http://arxiv.org/abs/2406.12422v1 )

ライセンス: Link先を確認
Milan Straka, Jana Straková, (参考訳) チェコ語形態素解析のためのオープンソースのWebサービスを提案する。 このシステムは、推論時の高精度な形態素辞書による深層学習モデルと再構成を組み合わせる。 ディープラーニングモデルは、語彙外単語の一般化と曖昧さの向上を保証するが、既存の形態素解析器であるMorphoDiTaよりも改善され、同時に、深層学習モデルは手作業による形態素辞書の推測時間指導の恩恵を受ける。 また,MorphoDiTa上のPOSタグの50%の誤り低減と58%の誤り低減を実現し,依存性解析も提供する。 このモデルは、現在チェコ最大のモルフォシンタクティックコーポラであるPDT-C 1.0で訓練されており、訓練されたモデルはhttps://hdl.handle.net/11234/1-5293で利用可能である。 私たちはこのツールをhttps://lindat.mff.cuni.cz/services/udpipe/.comにデプロイしたWebサービスとして提供します。 ソースコードはGitHubで入手できる(https://github.com/ufal/udpipe/tree/udpipe-2)。 モデルのドキュメントはhttps://ufal.mff.cuni.cz/udpipe/2/models#czech_pdtc1.0_modelにある。

We present an open-source web service for Czech morphosyntactic analysis. The system combines a deep learning model with rescoring by a high-precision morphological dictionary at inference time. We show that our hybrid method surpasses two competitive baselines: While the deep learning model ensures generalization for out-of-vocabulary words and better disambiguation, an improvement over an existing morphological analyser MorphoDiTa, at the same time, the deep learning model benefits from inference-time guidance of a manually curated morphological dictionary. We achieve 50% error reduction in lemmatization and 58% error reduction in POS tagging over MorphoDiTa, while also offering dependency parsing. The model is trained on one of the currently largest Czech morphosyntactic corpora, the PDT-C 1.0, with the trained models available at https://hdl.handle.net/11234/1-5293. We provide the tool as a web service deployed at https://lindat.mff.cuni.cz/services/udpipe/. The source code is available at GitHub (https://github.com/ufal/udpipe/tree/udpipe-2), along with a Python client for a simple use. The documentation for the models can be found at https://ufal.mff.cuni.cz/udpipe/2/models#czech_pdtc1.0_model.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# 深部テンポラルデアグリゲーション:大規模時空間生成モデル

Deep Temporal Deaggregation: Large-Scale Spatio-Temporal Generative Models ( http://arxiv.org/abs/2406.12423v1 )

ライセンス: Link先を確認
David Bergström, Mattias Tiger, Fredrik Heintz, (参考訳) 今日のデータの多くは、センサー、トランザクションシステム、プロダクションシステムなど、さまざまなソースから派生した時系列データである。 このようなデータの主な課題は、プライバシーとビジネスの感度だ。 世代別時系列モデルはこれらの問題を克服する可能性を秘めており、都市における人々の移動などの代表的な合成データをオープンに共有し、社会全体の利益に利用することができる。 しかし、現代のアプローチは禁断的に短い列と小さなスケールに限られている。 主要なメモリ制限を除いて、モデルは精度が低く、シーケンスが長くなるほど代表的なサンプルが少なくなる。 この問題は、包括的でアクセス可能なベンチマークの欠如によってさらに悪化している。 さらに、現実的な応用における一般的なニーズは、意思決定における使用と変化する世界を管理するために、データ分散の変化に対する分析と動的適応である。 本論文の焦点は、都市における人々の移動などのモビリティデータであり、これらの問題に対処する必要がある。 そこで本研究では,最先端技術よりもパフォーマンスとスケールが大幅に向上する時系列の変換器に基づく拡散モデルTDDPMを提案する。 これは、いくつかのシーケンス長、標準データセット、評価尺度にまたがる新しい包括的なベンチマークで評価される。 また、空間的占有頻度情報よりも先行してモデルをどのように条件付けするかを示し、従来見えていなかった環境や、基礎となる道路網とその利用状況が変化する仮説上のシナリオに対して、モデルがモビリティデータを生成できるようにする。 これは、都市の一部からモビリティデータのトレーニングによって評価される。 そして, 集合空間情報のみを先行として, 都市の未保存地域への分布の一般化を実証する。

Many of today's data is time-series data originating from various sources, such as sensors, transaction systems, or production systems. Major challenges with such data include privacy and business sensitivity. Generative time-series models have the potential to overcome these problems, allowing representative synthetic data, such as people's movement in cities, to be shared openly and be used to the benefit of society at large. However, contemporary approaches are limited to prohibitively short sequences and small scales. Aside from major memory limitations, the models generate less accurate and less representative samples the longer the sequences are. This issue is further exacerbated by the lack of a comprehensive and accessible benchmark. Furthermore, a common need in practical applications is what-if analysis and dynamic adaptation to data distribution changes, for usage in decision making and to manage a changing world: What if this road is temporarily blocked or another road is added? The focus of this paper is on mobility data, such as people's movement in cities, requiring all these issues to be addressed. To this end, we propose a transformer-based diffusion model, TDDPM, for time-series which outperforms and scales substantially better than state-of-the-art. This is evaluated in a new comprehensive benchmark across several sequence lengths, standard datasets, and evaluation measures. We also demonstrate how the model can be conditioned on a prior over spatial occupancy frequency information, allowing the model to generate mobility data for previously unseen environments and for hypothetical scenarios where the underlying road network and its usage changes. This is evaluated by training on mobility data from part of a city. Then, using only aggregate spatial information as prior, we demonstrate out-of-distribution generalization to the unobserved remainder of the city.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# ロボット誘導用ウェブカメラを用いた遠隔遠隔地における動的手指の認識

Recognition of Dynamic Hand Gestures in Long Distance using a Web-Camera for Robot Guidance ( http://arxiv.org/abs/2406.12424v1 )

ライセンス: Link先を確認
Eran Bamani Beeri, Eden Nissinman, Avishai Sintov, (参考訳) ダイナミックジェスチャーは、指示情報をロボットに転送することを可能にする。 さらに,ロボットが遠隔地から認識する能力は,コミュニケーションをより効果的かつ実用的なものにする。 しかし、現在の動的ジェスチャーの最先端モデルは認識距離の限界を示し、通常は数メートル以内で効果的な性能を達成する。 本研究では,最大20mの遠距離からの動的ジェスチャー認識モデルを提案する。 このモデルはSlowFastとTransformerアーキテクチャ(SFT)を統合し、ビデオフレームでキャプチャされた複雑なジェスチャシーケンスを効果的に処理し分類する。 SFTは既存のモデルよりも優れた性能を示す。

Dynamic gestures enable the transfer of directive information to a robot. Moreover, the ability of a robot to recognize them from a long distance makes communication more effective and practical. However, current state-of-the-art models for dynamic gestures exhibit limitations in recognition distance, typically achieving effective performance only within a few meters. In this work, we propose a model for recognizing dynamic gestures from a long distance of up to 20 meters. The model integrates the SlowFast and Transformer architectures (SFT) to effectively process and classify complex gesture sequences captured in video frames. SFT demonstrates superior performance over existing models.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# PSLM:低レイテンシ音声対話システムのためのLLMによるテキストと音声の並列生成

PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems ( http://arxiv.org/abs/2406.12428v1 )

ライセンス: Link先を確認
Kentaro Mitsui, Koh Mitsuda, Toshiaki Wakatsuki, Yukiya Hono, Kei Sawada, (参考訳) テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。 しかし、現在のモデルでは、(1) 音声応答を生成するには、先行した応答を生成する必要があり、(2) 音声シーケンスは、テキストシーケンスよりもかなり長いという2つの大きな課題に直面している。 本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。 音声質問応答タスクの実験では,応答内容の品質を維持しながら,レイテンシの向上を図っている。 さらに、複数のシーケンスで音声を生成することで、レイテンシをさらに削減できることを示す。 デモサンプルはhttps://rinnakk.github.io/research/publications/PSLMで公開されている。

Multimodal language models that process both text and speech have a potential for applications in spoken dialogue systems. However, current models face two major challenges in response generation latency: (1) generating a spoken response requires the prior generation of a written response, and (2) speech sequences are significantly longer than text sequences. This study addresses these issues by extending the input and output sequences of the language model to support the parallel generation of text and speech. Our experiments on spoken question answering tasks demonstrate that our approach improves latency while maintaining the quality of response content. Additionally, we show that latency can be further reduced by generating speech in multiple sequences. Demo samples are available at https://rinnakk.github.io/research/publications/PSLM.
翻訳日:2024-06-19 19:46:52 公開日:2024-06-18
# 均質ツールの適応的選択--RAGシナリオの検証

Adaptive Selection for Homogeneous Tools: An Instantiation in the RAG Scenario ( http://arxiv.org/abs/2406.12429v1 )

ライセンス: Link先を確認
Feiteng Mu, Yong Jiang, Liwen Zhang, Chu Liu, Wenjie Li, Pengjun Xie, Fei Huang, (参考訳) ツール学習に関する現在の研究は、主に様々な選択肢から最も効果的なツールを選択することに焦点を当てている。 本稿では,タスクの達成に必要な性能と関連するコストの両方を予測し,同種ツールの選択に対処する。 次に、最適なツールに費用対効果でクエリを割り当てます。 実験結果から,本手法は強力なベースライン手法に比べて低コストで高い性能を実現することが示された。

Current research on tool learning primarily focuses on selecting the most effective tool from a wide array of options, often overlooking cost-effectiveness, a crucial factor in human problem-solving. In this paper, we address the selection of homogeneous tools by predicting both their performance and the associated cost required to accomplish a given task. We then assign queries to the optimal tools in a cost-effective manner. Our experimental results demonstrate that our method achieves higher performance at a lower cost compared to strong baseline approaches.
翻訳日:2024-06-19 19:37:08 公開日:2024-06-18
# PlanRAG: 意思決定者としての大規模言語モデル生成のためのプラン-then-retrieval Augmented Generation

PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers ( http://arxiv.org/abs/2406.12430v1 )

ライセンス: Link先を確認
Myeonghwa Lee, Seonho An, Min-Soo Kim, (参考訳) 本稿では,LLMを複雑なデータ解析を必要とする意思決定のソリューションとして活用する研究を行う。 意思決定のQAを、最良の決定に答えるタスクとして定義します。$d_{best}$, for a decision-making question $Q$, business rules $R$, a database $D$。 決定QAを検証できるベンチマークは存在しないので、決定QAベンチマークDQAを提案する。 Locating and Buildingは2つのビデオゲーム(Europa Universalis IVとVictoria 3)から構築され、Decision QAとほぼ同じ目標を達成している。 また,決定QAを効果的に解決するために,反復計画列検索拡張(PlanRAG)と呼ばれる新しいRAG手法を提案する。 PlanRAGをベースとしたLMでは,第1ステップとして意思決定計画を生成し,第2ステップとしてデータ解析のクエリを生成する。 提案手法は, 位置決めシナリオでは15.8%, ビルディングシナリオでは7.4%, 最先端反復RAG法では7.4%を上回った。 コードとベンチマークはhttps://github.com/myeon9h/PlanRAG.comで公開しています。

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 心臓・肺音モニタリングのためのセンシング装置の探索

Exploring Sensing Devices for Heart and Lung Sound Monitoring ( http://arxiv.org/abs/2406.12432v1 )

ライセンス: Link先を確認
Yasaman Torabi, Shahram Shirani, James P. Reilly, (参考訳) 本稿では,センサの理論的側面を理解するのに有用な人工呼吸器の総合的な評価と,新しいセンサを設計するための実用的ノートについて述べる。 聴診器を設計する手法の1つは、エレクトロレット・コンデンサー・マイクロフォン(ECM)を使用することである。 本稿では、まず心臓と肺の音響特性と、聴診器の進化の簡単な歴史について紹介する。 次に,この技術に基づくECMセンサの基本概念と最近の聴診器について考察する。 マイクロエレクトロメカニカルシステム(MEMS)の可能性,特に圧電トランスデューサ(PZT)センサについて検討した。 本稿では,過去10年間のウェアラブル心肺蘇生におけるMEMSをベースとした革新的な設計技術について,総合的にレビューする。 本論文は心肺の音像解析におけるECMおよびMEMSの応用をまとめた最初の論文である。 キーワード:マイクロ・エレクトロ・メカニカル・システム(MEMS)、エレクトロ・コンデンサー・マイクロフォン(ECM)、ウェアラブル・センシング・デバイス、心肺蘇生、心電図(PCG)、心臓音、肺音

This paper presents a comprehensive review of cardiorespiratory auscultation sensing devices which is useful for understanding the theoretical aspects of sensing devices, as well as practical notes to design novel sensing devices. One of the methods to design a stethoscope is using electret condenser microphones (ECM). In this paper, we first introduce the acoustic properties of the heart and lungs, as well as a brief history of stethoscope evolution. Then, we discuss the basic concept of ECM sensors and a recent stethoscope based on this technology. In response to the limitations of ECM-based systems, we explore the potential of microelectromechanical systems (MEMS), particularly focusing on piezoelectric transducer (PZT) sensors. This paper comprehensively reviews sensing technologies, emphasizing innovative MEMS-based designs for wearable cardiopulmonary auscultation in the past decade. To our knowledge, this is the first paper to summarize ECM and MEMS applications for heart and lung sound analysis. Keywords: Micro-electro-mechanical Systems (MEMS); Electret Condenser Microphone (ECM); Wearable Sensing Devices; Cardiorespiratory Auscultation; Phonocardiography (PCG); Heart Sound; Lung Sound
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 音声コーデックに基づく音声分離に向けて

Towards Audio Codec-based Speech Separation ( http://arxiv.org/abs/2406.12434v1 )

ライセンス: Link先を確認
Jia Qi Yip, Shengkui Zhao, Dianwen Ng, Eng Siong Chng, Bin Ma, (参考訳) ニューラルオーディオコーデック(NAC)モデルの最近の改良は、様々な音声処理アプリケーションに事前訓練されたコーデックを採用することに関心を惹き付け、高い圧縮から得られる効率を生かしたが、これらはまだ音声分離(SS)タスクには適用されていない。 従来のSSモデルに必要な計算処理は、エッジコンピューティングのユースケースの多くにおいて実用的ではないため、SSは高い圧縮の恩恵を受けることができる。 しかし、SSは、圧縮がパフォーマンスに深刻な影響を与える歪みをもたらす傾向にある波形マスキングタスクである。 本稿では,NACの埋め込み空間内でSSが実行されるAudio CodecベースのSSの新しいタスクを提案し,その課題に対処する新しいモデルであるCodecformerを提案する。 推論では、CodecformerはMACの52倍の削減を実現し、Sepformerのクラウドデプロイメントに匹敵する分離性能を実現している。 本手法は,実運用シナリオにおいて効率的なSSを実現するための新たな方向性を示す。

Recent improvements in neural audio codec (NAC) models have generated interest in adopting pre-trained codecs for a variety of speech processing applications to take advantage of the efficiencies gained from high compression, but these have yet been applied to the speech separation (SS) task. SS can benefit from high compression because the compute required for traditional SS models makes them impractical for many edge computing use cases. However, SS is a waveform-masking task where compression tends to introduce distortions that severely impact performance. Here we propose a novel task of Audio Codec-based SS, where SS is performed within the embedding space of a NAC, and propose a new model, Codecformer, to address this task. At inference, Codecformer achieves a 52x reduction in MAC while producing separation performance comparable to a cloud deployment of Sepformer. This method charts a new direction for performing efficient SS in practical scenarios.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 限定ノードラベルによるフェデレーション学習

Federated Learning with Limited Node Labels ( http://arxiv.org/abs/2406.12435v1 )

ライセンス: Link先を確認
Bisheng Tang, Xiaojun Chen, Shaopu Wang, Yuexin Xuan, Zhendong Zhao, (参考訳) サブグラフフェデレートラーニング(Subgraph Federated Learning, SFL)は、分散グラフ構造化データを扱う可能性に大きな注目を集めた研究手法である。 SFLでは、局所モデルは部分グラフ構造を持つグラフニューラルネットワーク(GNN)から構成される。 しかしながら、一部のSFLモデルはクロスサブグラフエッジの欠如の重要性を見落としているため、ローカルなGNNが他のパーティのGNNにグローバル表現をメッセージパスできない可能性がある。 さらに、既存のSFLモデルは実質的なラベル付きデータを必要とするため、実用的応用は制限される。 これらの制限を克服するため、我々はFedMpaと呼ばれる新しいSFLフレームワークを提案し、これはクロスサブグラフノード表現を学習することを目的としている。 FedMpaはまず、少量のデータを使用して多層パーセプトロン(MLP)モデルを訓練し、その後、そのフェデレーションされた特徴を局所構造に伝達する。 局所グラフを用いたノードの埋め込み表現をさらに改善するため,局所グラフ構造を再構築するFedMpae法を導入する。 6つのグラフデータセットに関する広範な実験により、FedMpaはノード分類において非常に効果的であることが示された。 さらに,このアブレーション実験により,FedMpaの有効性が検証された。

Subgraph federated learning (SFL) is a research methodology that has gained significant attention for its potential to handle distributed graph-structured data. In SFL, the local model comprises graph neural networks (GNNs) with a partial graph structure. However, some SFL models have overlooked the significance of missing cross-subgraph edges, which can lead to local GNNs being unable to message-pass global representations to other parties' GNNs. Moreover, existing SFL models require substantial labeled data, which limits their practical applications. To overcome these limitations, we present a novel SFL framework called FedMpa that aims to learn cross-subgraph node representations. FedMpa first trains a multilayer perceptron (MLP) model using a small amount of data and then propagates the federated feature to the local structures. To further improve the embedding representation of nodes with local subgraphs, we introduce the FedMpae method, which reconstructs the local graph structure with an innovation view that applies pooling operation to form super-nodes. Our extensive experiments on six graph datasets demonstrate that FedMpa is highly effective in node classification. Furthermore, our ablation experiments verify the effectiveness of FedMpa.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# グラフニューラルネットワークの進捗評価のためのデータ中心型アプローチ

A data-centric approach for assessing progress of Graph Neural Networks ( http://arxiv.org/abs/2406.12439v1 )

ライセンス: Link先を確認
Tianqi Zhao, Ngan Thi Dong, Alan Hanjalic, Megha Khosla, (参考訳) グラフニューラルネットワーク(GNN)はノード分類タスクにおいて最先端の結果を得た。 しかし、ほとんどの改善はマルチクラスの分類であり、各ノードが複数のラベルを持つ場合に焦点を当てない。 マルチラベルノード分類の研究における最初の課題は、公開データセットの不足である。 そこで我々は,実世界の3つの生物学的データセットを収集,リリースし,チューニング可能な特性を持つマルチラベルグラフ生成器を開発した。 また、従来のホモフィリーやヘテロフィリーの概念はマルチラベルのシナリオには適用できないと論じる。 そこで我々は,多ラベル分類のためのホモフィリーおよびクロスクラス近傍類似性を定義し,収集した9ドルのマルチラベルデータセットについて検討する。 最後に,9つのデータセットを対象とした8ドルの手法を用いた大規模比較実験を行い,マルチラベルノード分類の現在の進捗状況について検討した。 コードは \url{https://github.com/Tianqi-py/MLGNC} でリリースしています。

Graph Neural Networks (GNNs) have achieved state-of-the-art results in node classification tasks. However, most improvements are in multi-class classification, with less focus on the cases where each node could have multiple labels. The first challenge in studying multi-label node classification is the scarcity of publicly available datasets. To address this, we collected and released three real-world biological datasets and developed a multi-label graph generator with tunable properties. We also argue that traditional notions of homophily and heterophily do not apply well to multi-label scenarios. Therefore, we define homophily and Cross-Class Neighborhood Similarity for multi-label classification and investigate $9$ collected multi-label datasets. Lastly, we conducted a large-scale comparative study with $8$ methods across nine datasets to evaluate current progress in multi-label node classification. We release our code at \url{https://github.com/Tianqi-py/MLGNC}.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 自動ジェスチャー認識のための可視化による深層自己教師型学習

Deep self-supervised learning with visualisation for automatic gesture recognition ( http://arxiv.org/abs/2406.12440v1 )

ライセンス: Link先を確認
Fabien Allemand, Alessio Mazzela, Jun Villette, Decky Aspandi, Titus Zaharia, (参考訳) ジェスチャーは非言語コミュニケーションの重要な手段であり、視覚的モダリティにより、人間が対話中に情報を伝達し、人々や人間と機械の相互作用を促進する。 しかし,ジェスチャーの自動認識は困難である。 本研究では, 深層学習を用いた手指の認識方法として, 教師あり学習法, 自己教師あり手法, 3次元移動骨格データに適用した可視化技術について検討する。 完全に接続されたCNNとLSTMメソッドの学習に使用される自己教師付き学習。 次に、学習した特徴を用いて残りのラベル付きデータの予測を行うバックボーンとしてCNNを用いたシミュレーション環境での非ラベル付きデータに再構成手法を適用した。 最後に、モデルの焦点を見つけるためにGrad-CAMを適用する。 実験結果から,教師あり学習法はジェスチャーを正確に認識でき,自己教師あり学習はシミュレートされた設定における精度を高めていることがわかった。 そして最後に、Grad-CAMの視覚化によって、モデルが実際に関連する骨格関節に集中していることが分かる。

Gesture is an important mean of non-verbal communication, with visual modality allows human to convey information during interaction, facilitating peoples and human-machine interactions. However, it is considered difficult to automatically recognise gestures. In this work, we explore three different means to recognise hand signs using deep learning: supervised learning based methods, self-supervised methods and visualisation based techniques applied to 3D moving skeleton data. Self-supervised learning used to train fully connected, CNN and LSTM method. Then, reconstruction method is applied to unlabelled data in simulated settings using CNN as a backbone where we use the learnt features to perform the prediction in the remaining labelled data. Lastly, Grad-CAM is applied to discover the focus of the models. Our experiments results show that supervised learning method is capable to recognise gesture accurately, with self-supervised learning increasing the accuracy in simulated settings. Finally, Grad-CAM visualisation shows that indeed the models focus on relevant skeleton joints on the associated gesture.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 周期対応損失:ラベル付きRGB画像と非順序付きRGB画像から高密度視点不変の視覚特徴を学習する

Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images ( http://arxiv.org/abs/2406.12441v1 )

ライセンス: Link先を確認
David B. Adrian, Andras Gabor Kupcsik, Markus Spies, Heiko Neumann, (参考訳) 近年,学習対象中心の記述子に依存したロボット操作が普及している。 ビジュアルディスクリプタは、操作タスクの目的を簡単に記述でき、セルフスーパービジョンを使って効率的に学習でき、アクティベートされたオブジェクトや非厳密なオブジェクトもエンコードできる。 しかし、自己監督的なアプローチで堅牢でビュー不変なキーポイントを学習するには、正確な校正と専門家の監督を含む巧妙なデータ収集アプローチが必要である。 本稿では、ビュー不変な高密度記述子学習のためのCCL(Cycle-Cor correspondingence Loss)を導入し、サイクル一貫性の概念を導入し、単純なデータ収集パイプラインと未実装のRGBカメラビューのトレーニングを可能にする。 鍵となる考え方は、推定された信頼度に基づいて誤差項をスケーリングしながら、新しい画像に対する予測を用いて元の画像の画素を予測することによって、有効画素対応を自律的に検出することである。 評価の結果,他のRGB専用手法よりも優れており,キーポイントトラッキングや下流タスクをロボットが把握する上でも,教師付き手法の性能が向上していることが示唆された。

Robot manipulation relying on learned object-centric descriptors became popular in recent years. Visual descriptors can easily describe manipulation task objectives, they can be learned efficiently using self-supervision, and they can encode actuated and even non-rigid objects. However, learning robust, view-invariant keypoints in a self-supervised approach requires a meticulous data collection approach involving precise calibration and expert supervision. In this paper we introduce Cycle-Correspondence Loss (CCL) for view-invariant dense descriptor learning, which adopts the concept of cycle-consistency, enabling a simple data collection pipeline and training on unpaired RGB camera views. The key idea is to autonomously detect valid pixel correspondences by attempting to use a prediction over a new image to predict the original pixel in the original image, while scaling error terms based on the estimated confidence. Our evaluation shows that we outperform other self-supervised RGB-only methods, and approach performance of supervised methods, both with respect to keypoint tracking as well as for a robot grasping downstream task.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 言語モデルの抽象化がReasonerを改善

Abstraction-of-Thought Makes Language Models Better Reasoners ( http://arxiv.org/abs/2406.12442v1 )

ライセンス: Link先を確認
Ruixin Hong, Hongming Zhang, Xiaoman Pan, Dong Yu, Changshui Zhang, (参考訳) 抽象推論(英:Abstract reasoning)とは、人間の推論における一般化の鍵となる概念である。 しかし、抽象的な推論を行うための言語モデルが提案されていない。 本稿では,AoT (Abstraction-of-Thought) と呼ばれる新しい構造的推論形式を導入することにより,このギャップを埋めることを模索する。 AoTのユニークな点は、推論プロセス内での抽象化のさまざまなレベルに対する明示的な要件にある。 このアプローチでは,まず抽象レベルで言語モデルを解釈し,具体的詳細を組み込む。 モデルとAoTフォーマットを整合させるため,AoT推論プロセスを備えた348kの高品質サンプルからなる汎用的な微調整データセットであるAoT Collectionを,自動化されたスケーラブルなパイプラインを通じて収集する。 AoT Collectionで幅広い言語モデルを微調整し、挑戦的なベンチマークBig-Bench Hardから23の未確認タスクについて広範囲に評価します。 実験結果から,多くの推論タスクにおいて,AoT推論形式に整列したモデルの方がCoTに整列したモデルよりも大幅に優れていたことが示唆された。

Abstract reasoning, the ability to reason from the abstract essence of a problem, serves as a key to generalization in human reasoning. However, eliciting language models to perform reasoning with abstraction remains unexplored. This paper seeks to bridge this gap by introducing a novel structured reasoning format called Abstraction-of-Thought (AoT). The uniqueness of AoT lies in its explicit requirement for varying levels of abstraction within the reasoning process. This approach could elicit language models to first contemplate on the abstract level before incorporating concrete details, which is overlooked by the prevailing step-by-step Chain-of-Thought (CoT) method. To align models with the AoT format, we present AoT Collection, a generic finetuning dataset consisting of 348k high-quality samples with AoT reasoning processes, collected via an automated and scalable pipeline. We finetune a wide range of language models with AoT Collection and conduct extensive evaluations on 23 unseen tasks from the challenging benchmark Big-Bench Hard. Experimental results indicate that models aligned to AoT reasoning format substantially outperform those aligned to CoT in many reasoning tasks.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 誰がチェッカーをチェックするのか? Twitterのコミュニティノートで情報源の信頼性を探る

Who Checks the Checkers? Exploring Source Credibility in Twitter's Community Notes ( http://arxiv.org/abs/2406.12444v1 )

ライセンス: Link先を確認
Uku Kangur, Roshni Chakraborty, Rajesh Sharma, (参考訳) 近年,ソーシャルメディアプラットフォーム上での誤情報拡散が懸念されている。 最初は情報を共有し、ソーシャルなつながりを育むために設計されたが、Twitter(現在はXに改名されている)のようなプラットフォームも、残念ながら偽情報を広めるためのコンディットになっている。 これを軽減するため、これらのプラットフォームは、クラウドソースの非専門家ファクトチェッカーを使用してコンテンツ検証のスケーラビリティと効率を高めるという提案など、さまざまなメカニズムを実装している。 この例は、TwitterでCommunity Notesを導入したことである。 これまでの研究では、情報拡散、感情分析、意見要約など、Twitterのツイートのさまざまな側面を幅広く調査してきたが、クラウドソースの事実チェックにおける潜在的な役割にもかかわらず、Twitter Community Notesの特定の機能に限定的な焦点が当てられている。 Twitter Community Notesに関する以前の調査では、この機能のデータセットと、専門家のファクトチェックのような他の方法を含む比較研究を経験的に分析していた。 本研究は,先行研究から脱却し,コミュニティノート内のソースとオーディエンス知覚を多面的に分析する。 引用された情報源の大部分は、左派であり、高い事実性を持つニュースメディアであり、プラットフォームの事実チェックにおける潜在的なバイアスを示唆している。 左の偏見や事実性の低いソースはツイートをより検証し、センターのソースはツイートの内容に反論するために頻繁に使用される。 さらに、情報源の事実性は、コミュニティノートランキングアルゴリズムの有効性を強調しながら、ノートの公開合意と有用性に大きな影響を及ぼす。 これらの結果は、コミュニティベースのファクトチェックイニシアチブに固有の影響とバイアスを示している。

In recent years, the proliferation of misinformation on social media platforms has become a significant concern. Initially designed for sharing information and fostering social connections, platforms like Twitter (now rebranded as X) have also unfortunately become conduits for spreading misinformation. To mitigate this, these platforms have implemented various mechanisms, including the recent suggestion to use crowd-sourced non-expert fact-checkers to enhance the scalability and efficiency of content vetting. An example of this is the introduction of Community Notes on Twitter. While previous research has extensively explored various aspects of Twitter tweets, such as information diffusion, sentiment analytics and opinion summarization, there has been a limited focus on the specific feature of Twitter Community Notes, despite its potential role in crowd-sourced fact-checking. Prior research on Twitter Community Notes has involved empirical analysis of the feature's dataset and comparative studies that also include other methods like expert fact-checking. Distinguishing itself from prior works, our study covers a multi-faceted analysis of sources and audience perception within Community Notes. We find that the majority of cited sources are news outlets that are left-leaning and are of high factuality, pointing to a potential bias in the platform's community fact-checking. Left biased and low factuality sources validate tweets more, while Center sources are used more often to refute tweet content. Additionally, source factuality significantly influences public agreement and helpfulness of the notes, highlighting the effectiveness of the Community Notes Ranking algorithm. These findings showcase the impact and biases inherent in community-based fact-checking initiatives.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# オープンシステムの観点から見たDAOsのビジネス価値 - ベストフィットフレームワークの合成

DAOs' Business Value from an Open Systems Perspective: A Best-Fit Framework Synthesis ( http://arxiv.org/abs/2406.12445v1 )

ライセンス: Link先を確認
Lukas Küng, George M. Giaglis, (参考訳) 分散自律組織(DAO)は革新的な組織構造を創出し、集合的な調整とデジタルコラボレーションの再構築を可能にしている。 DAOの有望かつ変革的な特性にもかかわらず、組織がDAOの特徴を実装することに由来する技術進歩とビジネス価値の理解は限られている。 本研究は, DAOsのビジネス適用可能性について, 最適フレームワークの方法論に従って, オープンシステムの観点から体系的に検討する。 このアプローチでは、フレームワークとテーマ分析の両方を組み合わせて、オープンビジネス原則がDAOにどのように適用され、新しいDAOビジネスフレームワークが4つの中核ビジネス要素で構成されているかについて議論する。 トークン; トークン 二 取引 三 価値制度及び価値制度 四 対応する副文字による戦略 本稿では,DAOの変革的ポテンシャルの理解を深め,より包括的ビジネスモデル(BM)の革新を組織に導くための予備的DAOビジネスフレームワークを提供するとともに,研究者が構築する理論的基盤を提供する。

Decentralized autonomous organizations (DAOs) are emerging innovative organizational structures, enabling collective coordination, and reshaping digital collaboration. Despite the promising and transformative characteristics of DAOs, the potential technological advancements and the understanding of the business value that organizations derive from implementing DAO characteristics are limited. This research applies a systematic review of DAOs' business applicability from an open systems perspective following a best-fit framework methodology. Within our approach, combining both framework and thematic analysis, we discuss how the open business principles apply to DAOs and present a new DAO business framework comprising of four core business elements: i) token, ii) transactions, iii) value system and iv) strategy with their corresponding sub-characteristics. This paper offers a preliminary DAO business framework that enhances the understanding of DAOs' transformative potential and guides organizations in innovating more inclusive business models (BMs), while also providing a theoretical foundation for researchers to build upon.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 隠れマルコフ-ガウス混合モデルにおける適応平均推定

Adaptive Mean Estimation in the Hidden Markov sub-Gaussian Mixture Model ( http://arxiv.org/abs/2406.12446v1 )

ライセンス: Link先を確認
Vahe Karagulyan, Mohamed Ndaoud, (参考訳) ラベルに隠れマルコフ構造を持つ高次元二元混合モデルにおける中心推定問題について検討する。 まず, 高次元設定における既存の結果の限界について検討し, 中心推定問題に対する最小限の最適手順を提案する。 その他の発見の中で、我々の手順は、$\sqrt {\delta d/n} + d/n$ ではなく、$\sqrt {\delta d/n} + d/n$ となる最適な速度に達することを示し、$\delta \in(0,1)$ はラベル間の依存パラメータである。 その過程で我々は,世界規模で最小限の最適化を施した適応的な方法も開発している。 そのため、我々はより洗練され、局所化された推定リスクの分析に頼っている。 総じて,ラベル間のマルコフ的依存の隠蔽を利用して,ほぼ無償で適応的にレートを厳格に改善できることを示す。

We investigate the problem of center estimation in the high dimensional binary sub-Gaussian Mixture Model with Hidden Markov structure on the labels. We first study the limitations of existing results in the high dimensional setting and then propose a minimax optimal procedure for the problem of center estimation. Among other findings, we show that our procedure reaches the optimal rate that is of order $\sqrt{\delta d/n} + d/n$ instead of $\sqrt{d/n} + d/n$ where $\delta \in(0,1)$ is a dependence parameter between labels. Along the way, we also develop an adaptive variant of our procedure that is globally minimax optimal. In order to do so, we rely on a more refined and localized analysis of the estimation risk. Overall, leveraging the hidden Markovian dependence between the labels, we show that it is possible to get a strict improvement of the rates adaptively at almost no cost.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 臨床データウェアハウスにおける脳T1強調MRIのMRI品質自動評価 : 人工物シミュレーションに基づく伝達学習アプローチ

Automated MRI Quality Assessment of Brain T1-weighted MRI in Clinical Data Warehouses: A Transfer Learning Approach Relying on Artefact Simulation ( http://arxiv.org/abs/2406.12448v1 )

ライセンス: Link先を確認
Sophie Loizillon, Simona Bottani, Stéphane Mabille, Yannick Jacob, Aurélien Maire, Sebastian Ströer, Didier Dormont, Olivier Colliot, Ninon Burgos, (参考訳) 数百万人の患者の医療データを含む臨床データウェアハウス(CDW)の出現は、研究のための膨大なデータ共有の道を開いた。 CDWで収集されたMRIの質は、研究環境で観察されるものとは大きく異なり、特定の臨床的現実を反映している。 その結果、これらの画像のかなりの割合は、品質が悪いために使用不可能であることが判明した。 CDWに含まれるMRIの量を考えると、手動による画質評価は不可能である。 したがって,CDW内の劣化画像を効果的に識別できる自動化ソリューションを開発する必要がある。 本研究は,CDW内における3次元勾配エコーT1強調脳MRIの自動品質制御のための斬新な転写学習手法を提案する。 まず、低コントラストを誘発し、ノイズを加え、動き人工物を導入することにより、研究データセットからの画像を意図的に破壊する。 その後、3つのアーティファクト固有のモデルが、これらの破損した画像を使用して事前訓練され、異なる種類のアーティファクトを検出する。 最後に,手動で注釈付けした3660枚の画像を用いて,転写学習技術を用いて臨床データを解析する。 画像の全体的な品質は、3つのモデルの結果から推定され、それぞれが特定の種類の人工物を検出するように設計されている。 3853次元勾配エコーT1強調MRIによる独立検体を用いて本法の有効性を検証した。 提案手法は, 良質MRIの精度が87%以上で, 従来の手法を3.5パーセント上回る精度で, 良好な結果を得た。 また,中等度MRI検出の精度は79%と良好なバランスをとっており,前回のパフォーマンスを5%上回った。 われわれのフレームワークは、CDWにおけるMRIの可能性を活用するための貴重なツールを提供する。

The emergence of clinical data warehouses (CDWs), which contain the medical data of millions of patients, has paved the way for vast data sharing for research. The quality of MRIs gathered in CDWs differs greatly from what is observed in research settings and reflects a certain clinical reality. Consequently, a significant proportion of these images turns out to be unusable due to their poor quality. Given the massive volume of MRIs contained in CDWs, the manual rating of image quality is impossible. Thus, it is necessary to develop an automated solution capable of effectively identifying corrupted images in CDWs. This study presents an innovative transfer learning method for automated quality control of 3D gradient echo T1-weighted brain MRIs within a CDW, leveraging artefact simulation. We first intentionally corrupt images from research datasets by inducing poorer contrast, adding noise and introducing motion artefacts. Subsequently, three artefact-specific models are pre-trained using these corrupted images to detect distinct types of artefacts. Finally, the models are generalised to routine clinical data through a transfer learning technique, utilising 3660 manually annotated images. The overall image quality is inferred from the results of the three models, each designed to detect a specific type of artefact. Our method was validated on an independent test set of 385 3D gradient echo T1-weighted MRIs. Our proposed approach achieved excellent results for the detection of bad quality MRIs, with a balanced accuracy of over 87%, surpassing our previous approach by 3.5 percent points. Additionally, we achieved a satisfactory balanced accuracy of 79% for the detection of moderate quality MRIs, outperforming our previous performance by 5 percent points. Our framework provides a valuable tool for exploiting the potential of MRIs in CDWs.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 医学における創発的人工知能のための検索型生成法

Retrieval-Augmented Generation for Generative Artificial Intelligence in Medicine ( http://arxiv.org/abs/2406.12449v1 )

ライセンス: Link先を確認
Rui Yang, Yilin Ning, Emilia Keppo, Mingxuan Liu, Chuan Hong, Danielle S Bitterman, Jasmine Chiat Ling Ong, Daniel Shu Wei Ting, Nan Liu, (参考訳) 創発的人工知能(AI)は、医学を含む様々な分野で革新的革新をもたらした。 しかし、制限もある。 これに対し、検索拡張生成(RAG)は潜在的な解決策を提供し、モデルが外部知識の検索を利用してより正確なコンテンツを生成することを可能にする。 生成AIの急速な進歩により、RAGは、この変革的技術と医療応用を結びつける道を開くことができ、エクイティ、信頼性、パーソナライゼーションのイノベーションをヘルスケアにもたらすことが期待されている。

Generative artificial intelligence (AI) has brought revolutionary innovations in various fields, including medicine. However, it also exhibits limitations. In response, retrieval-augmented generation (RAG) provides a potential solution, enabling models to generate more accurate contents by leveraging the retrieval of external knowledge. With the rapid advancement of generative AI, RAG can pave the way for connecting this transformative technology with medical applications and is expected to bring innovations in equity, reliability, and personalization to health care.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 野生における昆虫の識別:AMIデータセット

Insect Identification in the Wild: The AMI Dataset ( http://arxiv.org/abs/2406.12452v1 )

ライセンス: Link先を確認
Aditya Jain, Fagner Cunha, Michael James Bunsen, Juan Sebastián Cañas, Léonard Pasi, Nathan Pinoy, Flemming Helsing, JoAnne Russo, Marc Botham, Michael Sabourin, Jonathan Fréchette, Alexandre Anctil, Yacksecari Lopez, Eduardo Navarro, Filonila Perez Pimentel, Ana Cecilia Zamora, José Alejandro Ramirez Silva, Jonathan Gagnon, Tom August, Kim Bjerge, Alba Gomez Segura, Marc Bélisle, Yves Basset, Kent P. McFarland, David Roy, Toke Thomas Høye, Maxim Larrivée, David Rolnick, (参考訳) 昆虫は世界の生物多様性の半分を占めているが、世界の昆虫の多くは絶滅しており、生態系や農業に深刻な影響を及ぼしている。 この危機にもかかわらず、人間の専門家が不足し、監視のためのスケーラブルなツールが不足しているため、昆虫の多様性と豊かさに関するデータはいまだに不十分である。 生態学者は、昆虫を記録・研究するためにカメラトラップを採用し始め、スケーラブルなデータ処理の解決策としてコンピュータビジョンアルゴリズムを提案している。 しかし、野生の昆虫の監視は、長い尾のデータの組み合わせ、非常に類似したクラス、大きな分布シフトなど、コンピュータビジョンの中でまだ解決されていない、ユニークな課題を生んでいる。 我々は、生態学者が直面している現実世界のタスクにマッチするように設計された、昆虫認識のための最初の大規模な機械学習ベンチマークを提供する。 私たちのコントリビューションには、市民科学プラットフォームや博物館からのイメージのキュレートされたデータセットや、複数の大陸にまたがる自動カメラトラップから抽出された専門家による注釈付きデータセットが含まれています。 各種ベースラインアルゴリズムを訓練,評価し,地理的およびハードウェア構成の一般化を促進するデータ拡張技術の組み合わせを導入する。 コードとデータセットは公開されています。

Insects represent half of all global biodiversity, yet many of the world's insects are disappearing, with severe implications for ecosystems and agriculture. Despite this crisis, data on insect diversity and abundance remain woefully inadequate, due to the scarcity of human experts and the lack of scalable tools for monitoring. Ecologists have started to adopt camera traps to record and study insects, and have proposed computer vision algorithms as an answer for scalable data processing. However, insect monitoring in the wild poses unique challenges that have not yet been addressed within computer vision, including the combination of long-tailed data, extremely similar classes, and significant distribution shifts. We provide the first large-scale machine learning benchmarks for fine-grained insect recognition, designed to match real-world tasks faced by ecologists. Our contributions include a curated dataset of images from citizen science platforms and museums, and an expert-annotated dataset drawn from automated camera traps across multiple continents, designed to test out-of-distribution generalization under field conditions. We train and evaluate a variety of baseline algorithms and introduce a combination of data augmentation techniques that enhance generalization across geographies and hardware setups. Code and datasets are made publicly available.
翻訳日:2024-06-19 19:37:07 公開日:2024-06-18
# 2次元負荷と終始制約による車両走行問題に対するニューラルカラム生成手法

A Neural Column Generation Approach to the Vehicle Routing Problem with Two-Dimensional Loading and Last-In-First-Out Constraints ( http://arxiv.org/abs/2406.12454v1 )

ライセンス: Link先を確認
Yifan Xia, Xiangyi Zhang, (参考訳) 2次元負荷制約 (2L-CVRP) と終始優先ルール (LIFO) による車両ルーティング問題は, 実用的, アルゴリズム的に重要な課題である。 車両ルーティング問題 (VRP) と2次元ビンパッキング問題 (2D-BPP) の2つのNPハード問題に起因して、その複雑さに対処するために多くのヒューリスティックなアプローチが提案されているが、正確なアルゴリズムの開発には注意が払われていない。 このギャップを埋めて、先進的な機械学習技術、特に注意と再発機構の新たな組み合わせを統合した、正確なアルゴリズムを提案する。 この統合により、最先端の正確なアルゴリズムが、様々な問題インスタンスに対して29.79%の中央値で加速される。 さらに,提案アルゴリズムは標準テストベッドにおけるオープンインスタンスの解決に成功し,機械学習モデルの導入による大幅な改善が示された。 コードはhttps://github.com/xyfffff/NCG-for-2L-CVRPで入手できる。

The vehicle routing problem with two-dimensional loading constraints (2L-CVRP) and the last-in-first-out (LIFO) rule presents significant practical and algorithmic challenges. While numerous heuristic approaches have been proposed to address its complexity, stemming from two NP-hard problems: the vehicle routing problem (VRP) and the two-dimensional bin packing problem (2D-BPP), less attention has been paid to developing exact algorithms. Bridging this gap, this article presents an exact algorithm that integrates advanced machine learning techniques, specifically a novel combination of attention and recurrence mechanisms. This integration accelerates the state-of-the-art exact algorithm by a median of 29.79% across various problem instances. Moreover, the proposed algorithm successfully resolves an open instance in the standard test-bed, demonstrating significant improvements brought about by the incorporation of machine learning models. Code is available at https://github.com/xyfffff/NCG-for-2L-CVRP.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# PCA-Relax:Deep-learning-based groupwise registration for motion correct of heartc $T_1$ mapping

PCA-Relax: Deep-learning-based groupwise registration for motion correction of cardiac $T_1$ mapping ( http://arxiv.org/abs/2406.12456v1 )

ライセンス: Link先を確認
Yi Zhang, Yidong Zhao, Lu Huang, Liming Xia, Qian Tao, (参考訳) 定量的MRI (qMRI) は, 心血管疾患の臨床的評価において重要なツールである。 定量的マップは、既知の信号モデルと一連のベースライン画像とを合わせ、マップの品質は不随意呼吸と心臓の動きによって劣化させることができる。 動きを補正するためには、すべてのベースラインイメージを登録するためにテンプレートイメージが必要であるが、テンプレートの選択は簡単ではないため、画像のコントラストに敏感なパフォーマンスをもたらす。 本研究では,テンプレートの必要性を軽減し,すべてのベースラインイメージを同時に登録する,新しいディープラーニングベースのグループワイド登録フレームワークを提案する。 1つは線形主成分分析(PCA)損失であり、もう1つは信号モデルへの強度プロファイルの付着を強制する緩和緩和法損失である。 我々は,<PCA-Relax''とよばれる手法と,コントラスト前および後の両方のT_1$配列を含む心筋MRIデータセットのベースライン法を広範囲に評価した。 全ての手法は、標準、単発、テストタイム適応という3つの異なるトレーニング・アンド・評価戦略に基づいて評価された。 提案したPCA-Relaxは, 確立されたベースライン上での登録とマッピングの性能をさらに向上させた。 提案したグループワイドフレームワークは汎用的であり、複数の画像を含むアプリケーションに適用することができる。

Quantitative MRI (qMRI) is an increasingly important tool for clinical assessment of cardiovascular diseases. Quantitative maps are derived by fitting a known signal model to a series of baseline images, while the quality of the map can be deteriorated by involuntary respiratory and cardiac motion. To correct motion, a template image is often needed to register all baseline images, but the choice of template is nontrivial, leading to inconsistent performance sensitive to image contrast. In this work, we propose a novel deep-learning-based groupwise registration framework, which omits the need for a template, and registers all baseline images simultaneously. We design two groupwise losses for this registration framework: the first is a linear principal component analysis (PCA) loss that enforces alignment of baseline images irrespective of the intensity variation, and the second is an auxiliary relaxometry loss that enforces adherence of intensity profile to the signal model. We extensively evaluated our method, termed ``PCA-Relax'', and other baseline methods on an in-house cardiac MRI dataset including both pre- and post-contrast $T_1$ sequences. All methods were evaluated under three distinct training-and-evaluation strategies, namely, standard, one-shot, and test-time-adaptation. The proposed PCA-Relax showed further improved performance of registration and mapping over well-established baselines. The proposed groupwise framework is generic and can be adapted to applications involving multiple images.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# Human Splat: 構造を優先した汎用的な単一画像型人ガウススプレイティング

HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors ( http://arxiv.org/abs/2406.12459v1 )

ライセンス: Link先を確認
Panwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu, (参考訳) 近年の高忠実度人体再構成技術の発展にもかかわらず、密集した画像の要求やインスタンスごとの時間的最適化は、より広いシナリオでの応用を著しく妨げている。 これらの課題に対処するために,1つの入力画像から任意の人間の3次元ガウス散乱特性を一般化可能な方法で予測するHumanSplatを提案する。 特に、HumanSplatは、2次元の多視点拡散モデルと、統合されたフレームワーク内で幾何学的先行と意味的特徴を包括的に統合する人間の構造を持つ潜時再構成トランスフォーマを備える。 人間の意味情報を組み込んだ階層的損失は、高忠実度テクスチャモデリングを実現し、推定された複数のビューをよりよく制約するように設計されている。 標準ベンチマークとインザワイルド画像に関する総合的な実験により、HumanSplatはフォトリアリスティックなノベルビュー合成を実現する上で、既存の最先端の手法を超越していることが示された。

Despite recent advancements in high-fidelity human reconstruction techniques, the requirements for densely captured images or time-consuming per-instance optimization significantly hinder their applications in broader scenarios. To tackle these issues, we present HumanSplat which predicts the 3D Gaussian Splatting properties of any human from a single input image in a generalizable manner. In particular, HumanSplat comprises a 2D multi-view diffusion model and a latent reconstruction transformer with human structure priors that adeptly integrate geometric priors and semantic features within a unified framework. A hierarchical loss that incorporates human semantic information is further designed to achieve high-fidelity texture modeling and better constrain the estimated multiple views. Comprehensive experiments on standard benchmarks and in-the-wild images demonstrate that HumanSplat surpasses existing state-of-the-art methods in achieving photorealistic novel-view synthesis.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# LFMamba: 状態空間モデルによる光フィールド画像の超解像

LFMamba: Light Field Image Super-Resolution with State Space Model ( http://arxiv.org/abs/2406.12463v1 )

ライセンス: Link先を確認
Wang xia, Yao Lu, Shunzhou Wang, Ziqi Wang, Peiqi Xia, Tianfei Zhou, (参考訳) 近年、現代のニューラルネットワークの進歩により、光磁場画像の超解像(LFSR)が著しく進歩している。 しかしながら、これらの手法は、長距離依存(CNNベース)を捉えることや、2次計算複雑性(Transformerベース)に遭遇し、性能を制限している場合が多い。 近年,マンバが実証した選択的走査機構(S6)を備えた状態空間モデル(SSM)が,従来のCNNやTransformerベースのアプローチと比較して,様々な視覚タスクにおいて優れた代替手段として登場し,その有効長範囲シーケンスモデリング機能と線形時間複雑性の恩恵を受けている。 したがって、S6をLFSRに統合することは、特に4次元光フィールドの膨大なデータ量を考えると、魅力的になる。 しかし、主な課題は、光場特徴を効果的にモデル化する4次元光場に対する適切な走査法を \emph{designing で設計することである。 これを解決するために,4次元LFの2次元スライス情報にSSMを用い,空間的文脈情報,補的角情報,構造情報について検討する。 そこで我々は,これらの2次元スライスにおいて,より効率的かつ効率的な特徴学習を容易にする,効率的なSS2D機構を特徴とする基本SSMブロックを慎重に考案した。 上記の2つの設計に基づいて,LFMambaと呼ばれるLFSRのためのSSMベースのネットワークをさらに導入する。 LFベンチマーク実験の結果, LFMambaの性能は良好であった。 さらに,提案手法の有効性と一般化性を検証するため,広範囲にわたるアブレーション研究を行った。 LFMambaは、状態空間モデルによるLFの効果的な表現学習に光を当てていると期待している。

Recent years have witnessed significant advancements in light field image super-resolution (LFSR) owing to the progress of modern neural networks. However, these methods often face challenges in capturing long-range dependencies (CNN-based) or encounter quadratic computational complexities (Transformer-based), which limit their performance. Recently, the State Space Model (SSM) with selective scanning mechanism (S6), exemplified by Mamba, has emerged as a superior alternative in various vision tasks compared to traditional CNN- and Transformer-based approaches, benefiting from its effective long-range sequence modeling capability and linear-time complexity. Therefore, integrating S6 into LFSR becomes compelling, especially considering the vast data volume of 4D light fields. However, the primary challenge lies in \emph{designing an appropriate scanning method for 4D light fields that effectively models light field features}. To tackle this, we employ SSMs on the informative 2D slices of 4D LFs to fully explore spatial contextual information, complementary angular information, and structure information. To achieve this, we carefully devise a basic SSM block characterized by an efficient SS2D mechanism that facilitates more effective and efficient feature learning on these 2D slices. Based on the above two designs, we further introduce an SSM-based network for LFSR termed LFMamba. Experimental results on LF benchmarks demonstrate the superior performance of LFMamba. Furthermore, extensive ablation studies are conducted to validate the efficacy and generalization ability of our proposed method. We expect that our LFMamba shed light on effective representation learning of LFs with state space models.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# RIGL:独立学習プロセスとグループ学習プロセスの追跡のための統一的相互アプローチ

RIGL: A Unified Reciprocal Approach for Tracing the Independent and Group Learning Processes ( http://arxiv.org/abs/2406.12465v1 )

ライセンス: Link先を確認
Xiaoshan Yu, Chuan Qin, Dazhong Shen, Shangshang Yang, Haiping Ma, Hengshu Zhu, Xingyi Zhang, (参考訳) 教育の領域では、独立した学習とグループ学習の両方が最も古典的なパラダイムとして評価されている。 前者は学習者の自己指導を許し、後者は教師が指揮するシナリオによって特徴づけられる。 知的教育分野における最近の研究は、深層時間モデルを利用して学習過程を辿り、学生の知識状態のダイナミクスを捉え、卓越した成果を上げている。 しかし、既存のアプローチは主に独立した学習プロセスのモデリングに重点を置いており、グループ学習パラダイムはあまり注目されていない。 さらに、この2つの学習過程の相互効果、特に総合的な学生発達を促進するための組み合わせの可能性は、いまだに不十分である。 そこで本稿では,独立学習とグループ学習のプロセスから,個人レベルとグループレベルの両方の知識状態をトレースする統合相互モデルであるRIGLを提案する。 具体的には、まず、時間フレームを意識した相互埋め込みモジュールを導入し、学生とグループの両方の応答相互作用を、様々な時間フレームで同時にモデル化する。 その後,両行動間の包括的・補完的な情報を完全に活用するために,相互強化学習モデリングを採用する。 さらに、動的グラフモデリングと時間的自己注意機構を組み合わせた関係誘導型時間的注意ネットワークを設計する。 学習プロセス全体を通して個人とグループ間の相互作用の動的影響を掘り下げるために用いられる。 包括的に、モデルのトレーニングの安定性を高めるために、バイアス対応のコントラスト学習モジュールを導入する。 4つの実世界の教育データセットに対する大規模な実験により,提案したRIGLモデルの有効性が明らかに示された。

In the realm of education, both independent learning and group learning are esteemed as the most classic paradigms. The former allows learners to self-direct their studies, while the latter is typically characterized by teacher-directed scenarios. Recent studies in the field of intelligent education have leveraged deep temporal models to trace the learning process, capturing the dynamics of students' knowledge states, and have achieved remarkable performance. However, existing approaches have primarily focused on modeling the independent learning process, with the group learning paradigm receiving less attention. Moreover, the reciprocal effect between the two learning processes, especially their combined potential to foster holistic student development, remains inadequately explored. To this end, in this paper, we propose RIGL, a unified Reciprocal model to trace knowledge states at both the individual and group levels, drawing from the Independent and Group Learning processes. Specifically, we first introduce a time frame-aware reciprocal embedding module to concurrently model both student and group response interactions across various time frames. Subsequently, we employ reciprocal enhanced learning modeling to fully exploit the comprehensive and complementary information between the two behaviors. Furthermore, we design a relation-guided temporal attentive network, comprised of dynamic graph modeling coupled with a temporal self-attention mechanism. It is used to delve into the dynamic influence of individual and group interactions throughout the learning processes. Conclusively, we introduce a bias-aware contrastive learning module to bolster the stability of the model's training. Extensive experiments on four real-world educational datasets clearly demonstrate the effectiveness of the proposed RIGL model.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# Adaptive Token Biaser: Biasing Key Entitiesによる知識編集

Adaptive Token Biaser: Knowledge Editing via Biasing Key Entities ( http://arxiv.org/abs/2406.12468v1 )

ライセンス: Link先を確認
Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Hongcheng Gao, Yilong Xu, Xueqi Cheng, (参考訳) 大規模言語モデル(LLM)によって記憶されるパラメトリック知識は、急速に時代遅れになる。 インテキスト編集(ICE)は現在、LLMの知識を更新する最も効果的な方法である。 近年の進歩には、デコード戦略の変更、内部モデル構造の変更や外部プロンプトの調整の必要性の回避によるICEの強化が含まれる。 しかし、この拡張はシーケンス生成全体にわたって機能し、多くの非臨界トークンを含んでいる。 本稿では、ICEを強化するために設計された新しいデコード技術である、$\textbf{A}$daptive $\textbf{T}$oken $\textbf{Bias}$er$\textbf{ATBias}$er$を紹介する。 これは、デコーディング中に主に知識に関連するトークンに焦点を当て、新しいおよびパラメトリックな知識に関連する重要なエンティティをマッチングすることによって、それらのロジットをバイアスする。 実験の結果、ABBiasはICE性能を著しく向上させ、最先端のICE法よりも最大32.3%向上し、レイテンシを半分に抑えることができた。 ATBias は ICE の知識編集能力を向上するだけでなく,LLM にも低コストで広く適用することができる。

The parametric knowledge memorized by large language models (LLMs) becomes outdated quickly. In-context editing (ICE) is currently the most effective method for updating the knowledge of LLMs. Recent advancements involve enhancing ICE by modifying the decoding strategy, obviating the need for altering internal model structures or adjusting external prompts. However, this enhancement operates across the entire sequence generation, encompassing a plethora of non-critical tokens. In this work, we introduce $\textbf{A}$daptive $\textbf{T}$oken $\textbf{Bias}$er ($\textbf{ATBias}$), a new decoding technique designed to enhance ICE. It focuses on the tokens that are mostly related to knowledge during decoding, biasing their logits by matching key entities related to new and parametric knowledge. Experimental results show that ATBias significantly enhances ICE performance, achieving up to a 32.3% improvement over state-of-the-art ICE methods while incurring only half the latency. ATBias not only improves the knowledge editing capabilities of ICE but can also be widely applied to LLMs with negligible cost.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# 未知の追跡 - 求人情報における人身売買パターンの発見

Tracing the Unseen: Uncovering Human Trafficking Patterns in Job Listings ( http://arxiv.org/abs/2406.12469v1 )

ライセンス: Link先を確認
Siyi Zhou, Jiankun Peng, Emilio Ferrara, (参考訳) デジタル革命の影の中で、人身売買の汚い問題は、ソーシャルメディアやオンラインのジョブボードの領域に新たな繁殖基盤を見出した。 従来の研究は、主に護衛広告の分析を通じて被害者の特定に重点を置いてきた。 しかしながら、当社の作業は、偽の仕事の機会を通じて獲物を誘惑する前に、潜在的なトラッカーを特定できるような、積極的なアプローチの実現に向けて焦点をシフトしています。 本研究では,2006~2024年にかけ,米国8地域から25万件以上の求人データを収集し,分析した。 私たちが検討した職種は、特に米国の中国語話者の移民を対象としています。 求職者の自己報告情報に基づいて、求人投稿を異なるグループに分類する。 広告機会の種類,好ましくない接触の態様,投稿頻度を調べた結果,不審な広告を特徴付けるパターンが明らかになった。 さらに、健康上の緊急事態や紛争などの外部の出来事が、不審な求職者の数の増加と強く相関しているように見える点も強調する。 この研究は、オンラインの求人ボードやコミュニケーションプラットフォームが、人身売買の円滑なファシリテーターである可能性について、より深く掘り下げる必要性を浮き彫りにしている。 さらに重要なのは、攻撃のデジタルコンデュットを解体するターゲット戦略を緊急に定式化することだ。

In the shadow of the digital revolution, the insidious issue of human trafficking has found new breeding grounds within the realms of social media and online job boards. Previous research efforts have predominantly centered on identifying victims via the analysis of escort advertisements. However, our work shifts the focus towards enabling a proactive approach: pinpointing potential traffickers before they lure their preys through false job opportunities. In this study, we collect and analyze a vast dataset comprising over a quarter million job postings collected from eight relevant regions across the United States, spanning nearly two decades (2006-2024). The job boards we considered are specifically catered towards Chinese-speaking immigrants in the US. We classify the job posts into distinct groups based on the self-reported information of the posting user. Our investigation into the types of advertised opportunities, the modes of preferred contact, and the frequency of postings uncovers the patterns characterizing suspicious ads. Additionally, we highlight how external events such as health emergencies and conflicts appear to strongly correlate with increased volume of suspicious job posts: traffickers are more likely to prey upon vulnerable populations in times of crises. This research underscores the imperative for a deeper dive into how online job boards and communication platforms could be unwitting facilitators of human trafficking. More importantly, it calls for the urgent formulation of targeted strategies to dismantle these digital conduits of exploitation.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# ランダム性と戦うランダム性:遅延アンサンブルと雑音補間による微調整の最適化不安定性の軽減

Fighting Randomness with Randomness: Mitigating Optimisation Instability of Fine-Tuning using Delayed Ensemble and Noisy Interpolation ( http://arxiv.org/abs/2406.12471v1 )

ライセンス: Link先を確認
Branislav Pecher, Jan Cegin, Robert Belanec, Jakub Simko, Ivan Srba, Maria Bielikova, (参考訳) 事前訓練された言語モデルの微調整は、一般にラベル付きトレーニングサンプルの欠如を克服するのに役立つが、モデルパフォーマンスの不安定性も示している。 この不安定性は主に初期化やデータのシャッフルにおけるランダム性に起因する。 これを解決するために、研究者はトレーニングプロセスを変更したり、利用可能なサンプルを増やしたりします。 提案手法は遅延アンサンブル (Delayed Ensemble with Noisy Interpolation, DENI) と呼ばれる新しい緩和戦略であり, 計算効率を維持しつつ, アンサンブル, ノイズ正規化, モデル補間といった強みを利用する。 DENIと3つのモデル,4つのチューニング戦略,7つのテキスト分類データセットの9つの代表的な緩和戦略を比較した。 以下に示す。 1)DENIは、コストのごく一部を使用しながら、最高の緩和戦略(アンサンブル)を上回ります。 2) 緩和戦略は, パラメータ効率の良い微調整法(PEFT)に有効であり, 特定の場合において, 完全微調整よりも優れている。 3) DENIとデータ拡張を組み合わせることで、より効果的な不安定性の軽減につながることが多い。

While fine-tuning of pre-trained language models generally helps to overcome the lack of labelled training samples, it also displays model performance instability. This instability mainly originates from randomness in initialisation or data shuffling. To address this, researchers either modify the training process or augment the available samples, which typically results in increased computational costs. We propose a new mitigation strategy, called Delayed Ensemble with Noisy Interpolation (DENI), that leverages the strengths of ensembling, noise regularisation and model interpolation, while retaining computational efficiency. We compare DENI with 9 representative mitigation strategies across 3 models, 4 tuning strategies and 7 text classification datasets. We show that: 1) DENI outperforms the best performing mitigation strategy (Ensemble), while using only a fraction of its cost; 2) the mitigation strategies are beneficial for parameter-efficient fine-tuning (PEFT) methods, outperforming full fine-tuning in specific cases; and 3) combining DENI with data augmentation often leads to even more effective instability mitigation.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# ICAを用いた埋め込みにおける言語内および言語間一貫性の探索

Exploring Intra and Inter-language Consistency in Embeddings with ICA ( http://arxiv.org/abs/2406.12474v1 )

ライセンス: Link先を確認
Rongzhi Li, Takeru Matsuda, Hitomi Yanaka, (参考訳) 単語の埋め込みは、単語を多次元の実ベクトルとして表現し、データ解析と処理を容易にするが、しばしば解釈するのが困難である。 独立成分分析(ICA)は、独立鍵特徴を識別することによって、より明確な意味軸を生成する。 これまでの研究では、ICAが言語全体にわたって普遍的な意味軸を明らかにする可能性を示している。 しかし、言語内および言語間の独立したコンポーネントの一貫性の検証に欠けていた。 セマンティック軸の整合性は、一つの言語内と複数の言語にまたがる2つの方法で検討した。 まず,ICAを複数回行い,その結果をクラスタリングすることで,軸の再現性に着目し,言語内整合性について検討した。 そして,これらの軸の対応を統計的に検証し,言語間の整合性を統計的に検証した。 我々は,意味軸の信頼性と普遍性を保証する頑健な枠組みを確立するために,統計的手法を新たに導入した。

Word embeddings represent words as multidimensional real vectors, facilitating data analysis and processing, but are often challenging to interpret. Independent Component Analysis (ICA) creates clearer semantic axes by identifying independent key features. Previous research has shown ICA's potential to reveal universal semantic axes across languages. However, it lacked verification of the consistency of independent components within and across languages. We investigated the consistency of semantic axes in two ways: both within a single language and across multiple languages. We first probed into intra-language consistency, focusing on the reproducibility of axes by performing ICA multiple times and clustering the outcomes. Then, we statistically examined inter-language consistency by verifying those axes' correspondences using statistical tests. We newly applied statistical methods to establish a robust framework that ensures the reliability and universality of semantic axes.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# 対訳 マルチ・ダウリング・バンド

Adversarial Multi-dueling Bandits ( http://arxiv.org/abs/2406.12475v1 )

ライセンス: Link先を確認
Pratik Gajane, (参考訳) 本稿では,敵対的マルチダウリング・バンディットにおける後悔の最小化の問題を紹介する。 デュエルバンディットでは敵の嗜好が研究されているが、マルチダウリングバンディットでは研究されていない。 この設定では、学習者は各ラウンドで$m \geq 2$ Armを選択し、選択された任意の選好行列に基づいて最も好まれるアームのアイデンティティをフィードバックとして観察する。 そこで我々は,ペアワイズ・サブセット選択モデルから生成されると考えられるような選好フィードバックから学習するために,新しいアルゴリズム MiDEX (Multi Dueling EXP3) を導入する。 我々は、期待されるMiDEXの累積的な$T$ラウンド後悔を、K$アームの集合のボルダ・ウィンナーと比較すると、$O((K \log K)^{1/3} T^{2/3})$で上界であることを証明する。 さらに、提案アルゴリズムがほぼ最適であることを示すこの設定において、期待される後悔に対して、$\Omega(K^{1/3} T^{2/3})$の低い境界を証明した。

We introduce the problem of regret minimization in adversarial multi-dueling bandits. While adversarial preferences have been studied in dueling bandits, they have not been explored in multi-dueling bandits. In this setting, the learner is required to select $m \geq 2$ arms at each round and observes as feedback the identity of the most preferred arm which is based on an arbitrary preference matrix chosen obliviously. We introduce a novel algorithm, MiDEX (Multi Dueling EXP3), to learn from such preference feedback that is assumed to be generated from a pairwise-subset choice model. We prove that the expected cumulative $T$-round regret of MiDEX compared to a Borda-winner from a set of $K$ arms is upper bounded by $O((K \log K)^{1/3} T^{2/3})$. Moreover, we prove a lower bound of $\Omega(K^{1/3} T^{2/3})$ for the expected regret in this setting which demonstrates that our proposed algorithm is near-optimal.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# 時間分解偶然検出による窒化ケイ素共振器の非相関光子対生成

Uncorrelated photon pair generation from an integrated silicon nitride resonator measured by time resolved coincidence detection ( http://arxiv.org/abs/2406.12476v1 )

ライセンス: Link先を確認
Massimo Borghi, Paula Lujan Pagano, Marco Liscidini, Daniele Bajoni, Matteo Galli, (参考訳) 窒化ケイ素マイクロ共振器の自発4波混合により発生する信号とアイドラー光子対の同時時間強度を時間分解偶然検出により測定した。 この技術は、光子寿命がポンプパルスの持続時間を超える任意の高Q光学キャビティに適用できる。 共振干渉計カプラを用いて光子対の時間的相関を調整し、ポンプと信号とアイドラー共鳴の質的要因を独立に調整できる装置とし、時間的選択を用いて装置の時間的放射を正確に測定し、純度98.67(1)%を示す。

We measure the joint temporal intensity of signal and idler photon pairs generated by spontaneous four wave mixing in a silicon nitride microresonator by time-resolved coincidence detection. This technique can be applied to any high-Q optical cavity whose photon lifetime exceeds the duration of the pump pulse. We tailor the temporal correlation of photon pairs by using a resonant interferometric coupler, a device that allows us to independently tune the quality factors of the pump and signal and idler resonances.Temporal post-selection is used to accurately measure the temporal emission of the device, demonstrating a purity of 98.67(1)%.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# 超低消費電力デバイスにおける深部分離型コンボリューションの高速化

Accelerating Depthwise Separable Convolutions on Ultra-Low-Power Devices ( http://arxiv.org/abs/2406.12478v1 )

ライセンス: Link先を確認
Francesco Daghero, Alessio Burrello, Massimo Poncino, Enrico Macii, Daniele Jahier Pagliari, (参考訳) 奥行き分離可能な畳み込みは、等価な精度を維持しながら、従来の畳み込みと比較してパラメータや操作の数を減らし、効率的なディープニューラルネットワークの基本的な構成要素である。 しかし、それらの低いデータ再利用の機会は、それらをデプロイすることを非常に困難にします。 本研究では,分離可能な畳み込みブロックを構成する深さと点の異なるカーネルを融合させる代替手段を幅広く探究する。 我々のアプローチは、異なるデータレイアウトを組み合わせることで、メモリ転送に要する時間を最小化することを目的としている。 3レベルのメモリ階層を持つ商用の超低消費電力デバイスであるGreenWaves GAP8 SoCをターゲットにして、エンドツーエンドネットワーク実行のレイテンシを最大11.40%削減する。 さらに、カーネルはL2とL1のメモリ間のアクティベーションデータの動きを最大52.97%削減する。

Depthwise separable convolutions are a fundamental component in efficient Deep Neural Networks, as they reduce the number of parameters and operations compared to traditional convolutions while maintaining comparable accuracy. However, their low data reuse opportunities make deploying them notoriously difficult. In this work, we perform an extensive exploration of alternatives to fuse the depthwise and pointwise kernels that constitute the separable convolutional block. Our approach aims to minimize time-consuming memory transfers by combining different data layouts. When targeting a commercial ultra-low-power device with a three-level memory hierarchy, the GreenWaves GAP8 SoC, we reduce the latency of end-to-end network execution by up to 11.40%. Furthermore, our kernels reduce activation data movements between L2 and L1 memories by up to 52.97%.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# RS-GPT4V:リモートセンシング画像理解のための統合マルチモーダル命令追従データセット

RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding ( http://arxiv.org/abs/2406.12479v1 )

ライセンス: Link先を確認
Linrui Xu, Ling Zhao, Wang Guo, Qiujun Li, Kewang Long, Kaiqi Zou, Yuhan Wang, Haifeng Li, (参考訳) リモートセンシング画像インテリジェンス理解モデルは、マルチモーダルな大言語モデル(MLLM)によって促進された新しいディープパラダイムシフト、すなわち、ドメインモデル(LaDM)のパラダイム学習から、事前訓練された基礎モデル、そして適応ドメインモデル(LaGD)のパラダイム学習へと移行している。 新たなLaGDパラダイムの下では、過去10年間にRSIインテリジェンス理解の進歩に繋がった古いデータセットは、もはや新しいタスクには適していない。 新しいデータセットは、以下の機能でタスクを軽量化するために設計されなければならない、と私たちは主張した。 1)一般化:タスク間の共有知識を学習し,異なるタスクに適応するためのトレーニングモデル。 2 複雑な場面を理解すること:興味のある対象のきめ細かい属性を理解し、その場面を自然言語で表現できるように訓練する。 3)推論:高レベルの視覚的推論を実現するためのトレーニングモデル。 本稿では,GPT-4Vおよび既存のデータセットが生成するRSI理解のための高品質で多種多様なマルチモーダル命令追従データセットを設計し,これをRS-GPT4Vと呼ぶ。 一般化を実現するために,GPT-4V から導出された(Question, Answer) を用いて,キャプションやローカライゼーションなどのタスクを統一する。複雑なシーンを実現するために,オブジェクトの粒度の細かい属性と空間的関係を記述したローカル戦略と,すべてのローカル情報を統合して詳細なインストラクション記述を生成するグローバル戦略を提案する。 実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。 データセットは、https://github.com/GeoX-Lab/RS-GPT4Vで利用可能である。

The remote sensing image intelligence understanding model is undergoing a new profound paradigm shift which has been promoted by multi-modal large language model (MLLM), i.e. from the paradigm learning a domain model (LaDM) shifts to paradigm learning a pre-trained general foundation model followed by an adaptive domain model (LaGD). Under the new LaGD paradigm, the old datasets, which have led to advances in RSI intelligence understanding in the last decade, are no longer suitable for fire-new tasks. We argued that a new dataset must be designed to lighten tasks with the following features: 1) Generalization: training model to learn shared knowledge among tasks and to adapt to different tasks; 2) Understanding complex scenes: training model to understand the fine-grained attribute of the objects of interest, and to be able to describe the scene with natural language; 3) Reasoning: training model to be able to realize high-level visual reasoning. In this paper, we designed a high-quality, diversified, and unified multimodal instruction-following dataset for RSI understanding produced by GPT-4V and existing datasets, which we called RS-GPT4V. To achieve generalization, we used a (Question, Answer) which was deduced from GPT-4V via instruction-following to unify the tasks such as captioning and localization; To achieve complex scene, we proposed a hierarchical instruction description with local strategy in which the fine-grained attributes of the objects and their spatial relationships are described and global strategy in which all the local information are integrated to yield detailed instruction descript; To achieve reasoning, we designed multiple-turn QA pair to provide the reasoning ability for a model. The empirical results show that the fine-tuned MLLMs by RS-GPT4V can describe fine-grained information. The dataset is available at: https://github.com/GeoX-Lab/RS-GPT4V.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# オンライン政治討論における筆跡検出のためのLLM生成合成データの活用

The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions ( http://arxiv.org/abs/2406.12480v1 )

ライセンス: Link先を確認
Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling, (参考訳) スタンス検出は、議論を要約し、誤情報を検出し、意見分布を評価するのに有用であることが示されているように、オンラインの政治的議論の質を高める大きな可能性を秘めている。 通常、変圧器ベースのモデルは、大量のデータを必要とする姿勢検出に直接使用される。 しかし、オンライン政治討論における幅広い議論の問題は、モデルが直面している様々なシナリオを生み出し、モデルトレーニングのためのデータ取得を困難にしている。 本研究では,LLM生成合成データをオンライン政治討論における姿勢検出エージェントの訓練・改善に活用する方法を示す。 (i)Mistral-7Bモデルにより特定の議論のための合成データを生成し、生成した合成データによる微調整が姿勢検出の性能を大幅に向上させることを示す。 (II)合成データと最も情報に富んだデータセットの組合せが与える影響について検討した。 まず、合成データを用いて最も情報性の高いサンプルを選択し、次に、これらのサンプルと合成データを組み合わせて微調整する。 このアプローチはラベル付けの労力を削減し、完全にラベル付けされたデータでトレーニングされたベースラインモデルのパフォーマンスを一貫して上回る。 全体として、LLM生成データにより、オンライン政治討論における姿勢検出性能が大幅に向上することを示す。

Stance detection holds great potential for enhancing the quality of online political discussions, as it has shown to be useful for summarizing discussions, detecting misinformation, and evaluating opinion distributions. Usually, transformer-based models are used directly for stance detection, which require large amounts of data. However, the broad range of debate questions in online political discussion creates a variety of possible scenarios that the model is faced with and thus makes data acquisition for model training difficult. In this work, we show how to leverage LLM-generated synthetic data to train and improve stance detection agents for online political discussions:(i) We generate synthetic data for specific debate questions by prompting a Mistral-7B model and show that fine-tuning with the generated synthetic data can substantially improve the performance of stance detection. (ii) We examine the impact of combining synthetic data with the most informative samples from an unlabelled dataset. First, we use the synthetic data to select the most informative samples, second, we combine both these samples and the synthetic data for fine-tuning. This approach reduces labelling effort and consistently surpasses the performance of the baseline model that is trained with fully labeled data. Overall, we show in comprehensive experiments that LLM-generated data greatly improves stance detection performance for online political discussions.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# 刺激パラメトリックダウンコンバージョン過程における曲率効果--アナログモデル

Curvature effects on stimulated parametric down-conversion process: an analog model ( http://arxiv.org/abs/2406.12481v1 )

ライセンス: Link先を確認
Saeed Akbari-Kourbolagh, Ali Mahdifar, Hamidreza Mohammadi, (参考訳) 本稿では,一般相対性理論のアナログモデルを用いて,空間曲率が刺激されたパラメトリックダウンコンバージョン過程の量子特性に与える影響について検討する。 この目的のために、上記プロセスの入力ビームとして、2モード球コヒーレント状態を用いる。 これらの状態は、2次元球面上にある2次元調和振動子のコヒーレント状態の実現である。 線形エントロピーで測定したパラメトリックダウン変換過程の出力状態の絡み合いを計算し,空間曲率に依存することを示す。 したがって、適切な2モード球コヒーレント状態を作成することにより、実験室の出力状態間の絡み合いを制御することができる。 さらに,プロセスの出力状態の平均値とマンデルパラメータ,およびそれらの相互相関関数を,非古典的行動の説得的尺度として考察する。

In this paper, we utilize an analog model of the general relativity and investigate the influence of spatial curvature on quantum properties of stimulated parametric down-conversion process. For this purpose, we use two-mode sphere coherent state as the input beams of the aforementioned process. These states are realization of coherent states of two-dimensional harmonic oscillator, which lies on a two-dimension sphere. We calculate the entanglement of output states of stimulated parametric down conversion process, measured by linear entropy, and show that it depends on the spatial curvature. So, by preparing the suitable two-mode sphere coherent states, it is possible to control the entanglement between the output states in the laboratory. In addition, we consider mean number and Mandel parameter of the output states of the process and also, their cross-correlation function, as the convince measures of non-classical behaviors.
翻訳日:2024-06-19 19:27:22 公開日:2024-06-18
# LightPAL: オープンドメインマルチドキュメント要約のための軽量パス検索

LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization ( http://arxiv.org/abs/2406.12494v1 )

ライセンス: Link先を確認
Masafumi Enomoto, Kunihiro Takeoka, Kosuke Akimoto, Kiril Gashteovski, Masafumi Oyamada, (参考訳) Open-Domain Multi-Document Summarization (ODMDS) は,ユーザのクエリに対する回答として要約を生成することを目的として,大規模なコレクション内の複数のドキュメントから関連するコンテンツを合成する。 既存のアプローチは、まず関連するパスを見つけ、次に言語モデルを使って要約を生成するが、ODMDSでは不十分である。 これは、オープンなクエリは、トピックを包括的にカバーするために、検索されたパスに追加のコンテキストを必要とすることが多いため、すべての関連するパスを最初に取得することは困難である。 マルチホップ質問応答 (MQA) に対して反復的検索手法が検討されているが, ODMDS では論理的推論を繰り返す大言語モデル (LLM) から高い遅延が生じるため,ODMDS では実用的ではない。 この問題に対処するため,本論文では,インデクシング中に LLM を用いて経路関係を表すグラフを構築し,推論時に反復的推論や検索の代わりにランダムウォークを利用する ODMDS の軽量パス検索手法である LightPAL を提案する。 ODMDSベンチマークの実験では、LightPALは、反復MQAアプローチよりもはるかに効率的で、サマリ品質でベースラインレトリバーより優れています。

Open-Domain Multi-Document Summarization (ODMDS) is crucial for addressing diverse information needs, which aims to generate a summary as answer to user's query, synthesizing relevant content from multiple documents in a large collection. Existing approaches that first find relevant passages and then generate a summary using a language model are inadequate for ODMDS. This is because open-ended queries often require additional context for the retrieved passages to cover the topic comprehensively, making it challenging to retrieve all relevant passages initially. While iterative retrieval methods have been explored for multi-hop question answering (MQA), they are impractical for ODMDS due to high latency from repeated large language model (LLM) inference for reasoning. To address this issue, we propose LightPAL, a lightweight passage retrieval method for ODMDS that constructs a graph representing passage relationships using an LLM during indexing and employs random walk instead of iterative reasoning and retrieval at inference time. Experiments on ODMDS benchmarks show that LightPAL outperforms baseline retrievers in summary quality while being significantly more efficient than an iterative MQA approach.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# リアルタイムセマンティックセグメンテーションのための再パラメータ化可能なデュアルリゾリューションネットワーク

Reparameterizable Dual-Resolution Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2406.12496v1 )

ライセンス: Link先を確認
Guoyu Yang, Yuan Wang, Daming Shi, (参考訳) セマンティックセグメンテーションは、自律運転や医療画像などの応用において重要な役割を果たしている。 既存のリアルタイムセマンティックセグメンテーションモデルは精度と速度のバランスを保ちながら、そのマルチパスブロックは依然として全体の速度に影響を与える。 そこで本研究では,リアルタイムセマンティックセマンティックセグメンテーションに特化したReparameterizable Dual-Resolution Network (RDRNet)を提案する。 具体的には、RDRNetは、トレーニング中にマルチパスブロックを利用し、推論中にそれらをシングルパスブロックに再パラメータ化することで、精度と推論速度を同時に向上する。 さらに,パラメータ化可能なピラミッドプールモジュール (RPPM) を提案する。 Cityscapes、CamVid、Pascal VOC 2012データセットの実験結果は、RDRNetが既存の最先端モデルよりもパフォーマンスとスピードの両方で優れていることを示している。 コードはhttps://github.com/gyyang23/RDRNetで公開されている。

Semantic segmentation plays a key role in applications such as autonomous driving and medical image. Although existing real-time semantic segmentation models achieve a commendable balance between accuracy and speed, their multi-path blocks still affect overall speed. To address this issue, this study proposes a Reparameterizable Dual-Resolution Network (RDRNet) dedicated to real-time semantic segmentation. Specifically, RDRNet employs a two-branch architecture, utilizing multi-path blocks during training and reparameterizing them into single-path blocks during inference, thereby enhancing both accuracy and inference speed simultaneously. Furthermore, we propose the Reparameterizable Pyramid Pooling Module (RPPM) to enhance the feature representation of the pyramid pooling module without increasing its inference time. Experimental results on the Cityscapes, CamVid, and Pascal VOC 2012 datasets demonstrate that RDRNet outperforms existing state-of-the-art models in terms of both performance and speed. The code is available at https://github.com/gyyang23/RDRNet.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 逆補強学習を用いた機械的血栓摘出術におけるカテーテルとガイドワイヤの自律ナビゲーション

Autonomous navigation of catheters and guidewires in mechanical thrombectomy using inverse reinforcement learning ( http://arxiv.org/abs/2406.12499v1 )

ライセンス: Link先を確認
Harry Robertshaw, Lennart Karstensen, Benjamin Jackson, Alejandro Granados, Thomas C. Booth, (参考訳) 目的:カテーテルとガイドワイヤの自律ナビゲーションにより、血管内手術の安全性と効果を高め、手術時間と作業者放射線被曝を低減できる。 遠隔操作ロボットの統合は、機械式血栓摘出術(MT)のような時間に敏感な緊急処置へのアクセスを拡大する可能性がある。 強化学習 (Reinforcement Learning, RL) は血管内ナビゲーションの可能性を示唆するが, その応用は報酬信号のない課題に遭遇する。 本研究では,RTL (Inverse RL) を用いたMT血管内自律ナビゲーションの実現可能性について検討した。 方法:本研究はMTナビゲーションのためのシミュレーションベーストレーニングおよび評価環境を構築した。 我々は、ガイドワイヤーとカテーテルをナビゲートする際、専門家の行動から報酬関数を推測するためにIRLを使用した。 ソフトアクター・クリティックを用いて、様々な報酬関数を持つモデルを訓練し、シリコにおけるそれらの性能を比較した。 結果:IRLを用いたナビゲーションの実現可能性を示した。 単一デバイスとデュアルデバイス(ガイドワイヤ対カテーテルとガイドワイヤ)のトラッキングを評価する場合、どちらの手法も95%と96%の高い成功率を達成した。 しかし、デュアルトラッキングは専門家を模倣する両方のデバイスを利用した。 報酬形成により得られる報酬関数を用いたトレーニングにおいて、100%の成功率と22.6秒の手順時間を得た。 これにより、高密度の報酬関数(96%、24.9秒)とIRL由来の報酬関数(48%、59.2秒)を上回った。 結論:IRLを用いた自律型血管インターベンションナビゲーション,特にMTの進歩に寄与した。 その結果、MTのアクセシビリティと精度を高めるための有望な道として、モデルトレーニングに報酬形成を使用することの可能性を明らかにし、今後の研究は、一般化性を高めるために、我々の方法論を多種多様な解剖学的構造にまで拡張することができることを示唆している。

Purpose: Autonomous navigation of catheters and guidewires can enhance endovascular surgery safety and efficacy, reducing procedure times and operator radiation exposure. Integrating tele-operated robotics could widen access to time-sensitive emergency procedures like mechanical thrombectomy (MT). Reinforcement learning (RL) shows potential in endovascular navigation, yet its application encounters challenges without a reward signal. This study explores the viability of autonomous navigation in MT vasculature using inverse RL (IRL) to leverage expert demonstrations. Methods: This study established a simulation-based training and evaluation environment for MT navigation. We used IRL to infer reward functions from expert behaviour when navigating a guidewire and catheter. We utilized soft actor-critic to train models with various reward functions and compared their performance in silico. Results: We demonstrated feasibility of navigation using IRL. When evaluating single versus dual device (i.e. guidewire versus catheter and guidewire) tracking, both methods achieved high success rates of 95% and 96%, respectively. Dual-tracking, however, utilized both devices mimicking an expert. A success rate of 100% and procedure time of 22.6 s were obtained when training with a reward function obtained through reward shaping. This outperformed a dense reward function (96%, 24.9 s) and an IRL-derived reward function (48%, 59.2 s). Conclusions: We have contributed to the advancement of autonomous endovascular intervention navigation, particularly MT, by employing IRL. The results underscore the potential of using reward shaping to train models, offering a promising avenue for enhancing the accessibility and precision of MT. We envisage that future research can extend our methodology to diverse anatomical structures to enhance generalizability.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# コード最適化: 正確性と効率性のための自己生成の選好データ

Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency ( http://arxiv.org/abs/2406.12502v1 )

ライセンス: Link先を確認
Leonidas Gee, Milan Gritta, Gerasimos Lampouras, Ignacio Iacobacci, (参考訳) コード言語モデルは、実行時を考慮せずに、正確なソリューションを生成するように訓練されています。 一方, 実行最適化を探求する以前の研究では, 機能的正しさの低下が観測されている。 そこで我々は,自己生成された選好データによる学習信号として,正確性(パスト,フェール)と実行時(クイック,スロー)の両方を組み込んだフレームワークであるCode-Optimiseを紹介する。 当社のフレームワークは,学習信号の大規模モデルへの依存を回避しつつ,過度に適合するソリューションを動的に選択するので,軽量かつ堅牢である。 Code-Optimiseはpass@kを大幅に改善し、競合するベースラインランタイムを6%のドメイン内データ、最大3%のドメイン外データで削減する。 副生成物として、生成した溶液の平均長はMBPPで48%、HumanEvalで23%減少し、より高速で安価に推測できる。 生成されたデータとコードベースはwww.open-source.linkでオープンソース化される。

Code Language Models have been trained to generate accurate solutions, typically with no regard for runtime. On the other hand, previous works that explored execution optimisation have observed corresponding drops in functional correctness. To that end, we introduce Code-Optimise, a framework that incorporates both correctness (passed, failed) and runtime (quick, slow) as learning signals via self-generated preference data. Our framework is both lightweight and robust as it dynamically selects solutions to reduce overfitting while avoiding a reliance on larger models for learning signals. Code-Optimise achieves significant improvements in pass@k while decreasing the competitive baseline runtimes by an additional 6% for in-domain data and up to 3% for out-of-domain data. As a byproduct, the average length of the generated solutions is reduced by up to 48% on MBPP and 23% on HumanEval, resulting in faster and cheaper inference. The generated data and codebase will be open-sourced at www.open-source.link.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 多変量時系列分類のための説明手法の評価と動作性の改善

Improving the Evaluation and Actionability of Explanation Methods for Multivariate Time Series Classification ( http://arxiv.org/abs/2406.12507v1 )

ライセンス: Link先を確認
Davide Italo Serramazza, Thach Le Nguyen, Georgiana Ifrim, (参考訳) 多変量時系列分類(MTSC)の解説は、現在検討中の重要なトピックである。 定量的な評価手法はほとんどなく、実用的な説明の例も少なく、時系列データ上の特定の計算タスクを客観的に改善する説明法が示される。 本稿では,MTSCに適用された属性手法の最近の評価手法であるInterpretTimeの分析に焦点をあてる。 元の論文結果を再現し、方法論のいくつかの重大な弱点を示し、その精度と効率を両立させるアイデアを提案する。 MTSCにおけるチャネル選択のタスクに最適な帰属手法を用いることで、関連する作業とは違って、生成した説明者ランキングの動作可能性を示す。 SHAPやFeature Ablationのような摂動に基づく手法は、データセット、分類器、タスクのセットでうまく機能し、勾配に基づく手法よりも優れています。 MTSCのチャネル選択に最も優れたランク付け説明器を適用し,データサイズを著しく削減し,分類器の精度を向上した。

Explanation for Multivariate Time Series Classification (MTSC) is an important topic that is under explored. There are very few quantitative evaluation methodologies and even fewer examples of actionable explanation, where the explanation methods are shown to objectively improve specific computational tasks on time series data. In this paper we focus on analyzing InterpretTime, a recent evaluation methodology for attribution methods applied to MTSC. We reproduce the original paper results, showcase some significant weaknesses of the methodology and propose ideas to improve both its accuracy and efficiency. Unlike related work, we go beyond evaluation and also showcase the actionability of the produced explainer ranking, by using the best attribution methods for the task of channel selection in MTSC. We find that perturbation-based methods such as SHAP and Feature Ablation work well across a set of datasets, classifiers and tasks and outperform gradient-based methods. We apply the best ranked explainers to channel selection for MTSC and show significant data size reduction and improved classifier accuracy.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 大規模言語モデル生成コードの信頼は可能か?-多言語LLM間の非コンテキスト学習、セキュリティパターン、およびコード評価のためのフレームワーク

Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs ( http://arxiv.org/abs/2406.12513v1 )

ライセンス: Link先を確認
Ahmad Mohsin, Helge Janicke, Adrian Wood, Iqbal H. Sarker, Leandros Maglaras, Naeem Janjua, (参考訳) ChatGPTやGitHub Copilotといった大規模言語モデル(LLM)は、ソフトウェアエンジニアリングにおける自動コード生成に革命をもたらした。 しかしながら、これらのモデルがソフトウェア開発にますます活用されているため、生成されたコードのセキュリティと品質に関する懸念が生じている。 これらの懸念は、LLMが主に、安全でないコードを含む可能性のある、公開コードリポジトリとインターネットベースのテキストデータに基づいてトレーニングされていることに起因する。 これにより、生成されたコードに脆弱性が持続し、悪意のあるアクターが悪用する可能性のある攻撃ベクトルが生成されるという重大なリスクが生じる。 本研究の目的は,コード生成プロセス中にICLパターンを用いてLCMの行動学習をセキュアにするためのフレームワークを導入し,厳密なセキュリティ評価を行うことである。 これを実現するために,実験のために4つの多様なLSMを選択した。 3つのプログラミング言語にまたがるこれらのコーディングLLMを評価し、セキュリティ上の脆弱性とコードの臭いを特定した。 コードはICLを通じてキュレートされた問題セットで生成され、生成されるコードの全体的な品質と信頼性を評価するために厳格なセキュリティテストが行われる。 我々の研究は、ICL駆動のワンショットと少数ショットの学習パターンがコードのセキュリティを強化し、様々なプログラミングシナリオの脆弱性を減らすことを示唆している。 開発者や研究者は、LLMがセキュリティ原則を限定的に理解していることを知っておくべきです。 これは、生成したコードが本番システムにデプロイされたときにセキュリティ違反を引き起こす可能性がある。 私たちの研究は、LSMがソフトウェアサプライチェーンに対する新たな脆弱性の潜在的な源であることを強調しています。 コード生成にLLMを使用する場合、これを考慮しておくことが重要です。 本稿では,LLMのセキュリティ向上に関する知見を提供し,ソフトウェアシステムの安全性を確保するため,コード生成にLLMを積極的に活用することを推奨する。

Large Language Models (LLMs) such as ChatGPT and GitHub Copilot have revolutionized automated code generation in software engineering. However, as these models are increasingly utilized for software development, concerns have arisen regarding the security and quality of the generated code. These concerns stem from LLMs being primarily trained on publicly available code repositories and internet-based textual data, which may contain insecure code. This presents a significant risk of perpetuating vulnerabilities in the generated code, creating potential attack vectors for exploitation by malicious actors. Our research aims to tackle these issues by introducing a framework for secure behavioral learning of LLMs through In-Content Learning (ICL) patterns during the code generation process, followed by rigorous security evaluations. To achieve this, we have selected four diverse LLMs for experimentation. We have evaluated these coding LLMs across three programming languages and identified security vulnerabilities and code smells. The code is generated through ICL with curated problem sets and undergoes rigorous security testing to evaluate the overall quality and trustworthiness of the generated code. Our research indicates that ICL-driven one-shot and few-shot learning patterns can enhance code security, reducing vulnerabilities in various programming scenarios. Developers and researchers should know that LLMs have a limited understanding of security principles. This may lead to security breaches when the generated code is deployed in production systems. Our research highlights LLMs are a potential source of new vulnerabilities to the software supply chain. It is important to consider this when using LLMs for code generation. This research article offers insights into improving LLM security and encourages proactive use of LLMs for code generation to ensure software system safety.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# モデル記述に基づくフェデレーション・マシン・アンラーニング

Update Selective Parameters: Federated Machine Unlearning Based on Model Explanation ( http://arxiv.org/abs/2406.12516v1 )

ライセンス: Link先を確認
Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, Philip S. Yu, (参考訳) フェデレートされた学習は、分散機械学習にとって有望なプライバシー保護パラダイムである。 このコンテキストでは、特定のトレーニングサンプルの効果が、プライバシ、セキュリティ、ユーザビリティ、および/または立法要因によって学習モデルから取り除かれる必要がある場合に必要となる、マシンアンラーニングと呼ばれる特殊なプロセスが必要になることがある。 しかし、現在の集中型アンラーニング手法が既存のフェデレーション学習に適用された際には、サーバがグローバルモデルからクラスに関する情報をすべて取り除こうとする問題が発生する。 集中型アンラーニングは通常、単純なモデルに焦点を当てるか、あるいは中央ノードですべてのトレーニングデータにアクセスできることを前提としている。 しかし、集中型アンラーニングプロセスの要求に反するフェデレーション学習パラダイムの下では、サーバ上でトレーニングデータにアクセスすることはできない。 さらに、多くのクライアントや複雑なグローバルモデルを含むシナリオにおいて、クライアントのデータへのアクセスに関連する高い計算と通信コストがある。 これらの問題に対処するために、モデル説明の概念に基づくより効率的で効率的なフェデレーション・アンラーニング・スキームを提案する。 モデル説明はディープ・ネットワークと個別のチャネルの重要性を理解することを含み、この理解を用いて、未学習のクラスにとってどのモデル・チャネルが重要なのかを判断することができる。 我々は、これらのデータから得られる貢献を取り除くために、未学習で微調整の必要なデータに対して、すでに訓練済みのモデルの中で最も影響力のあるチャネルを選択する。 このようにして、巨大な消費コストを同時に回避し、未学習のモデルが優れた性能を維持することを保証する。 様々なデータセット上で異なるトレーニングモデルを用いた実験は、提案手法の有効性を示す。

Federated learning is a promising privacy-preserving paradigm for distributed machine learning. In this context, there is sometimes a need for a specialized process called machine unlearning, which is required when the effect of some specific training samples needs to be removed from a learning model due to privacy, security, usability, and/or legislative factors. However, problems arise when current centralized unlearning methods are applied to existing federated learning, in which the server aims to remove all information about a class from the global model. Centralized unlearning usually focuses on simple models or is premised on the ability to access all training data at a central node. However, training data cannot be accessed on the server under the federated learning paradigm, conflicting with the requirements of the centralized unlearning process. Additionally, there are high computation and communication costs associated with accessing clients' data, especially in scenarios involving numerous clients or complex global models. To address these concerns, we propose a more effective and efficient federated unlearning scheme based on the concept of model explanation. Model explanation involves understanding deep networks and individual channel importance, so that this understanding can be used to determine which model channels are critical for classes that need to be unlearned. We select the most influential channels within an already-trained model for the data that need to be unlearned and fine-tune only influential channels to remove the contribution made by those data. In this way, we can simultaneously avoid huge consumption costs and ensure that the unlearned model maintains good performance. Experiments with different training models on various datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# FuseGen: PLM Fusion for Data Generation based Zero-shot Learning

FuseGen: PLM Fusion for Data-generation based Zero-shot Learning ( http://arxiv.org/abs/2406.12527v1 )

ライセンス: Link先を確認
Tianyuan Zou, Yang Liu, Peng Li, Jianqing Zhang, Jingjing Liu, Ya-Qin Zhang, (参考訳) データ生成に基づくゼロショット学習は、プレトレーニング言語モデル(PLM)が生成する合成データセットを介して、STM(Small Task-specific Model)のトレーニングに有効であるが、このような合成データセットの低品質によって制限されることが多い。 以前は、合成データセットは特定の部分空間に制限され、しばしば現実世界の分布から逸脱し、重大な分布バイアスをもたらすような、単一のPLM設定に主に焦点が当てられていた。 このようなバイアスを軽減するために、FuseGenを提案する。FuseGenはデータ生成に基づくゼロショット学習フレームワークで、複数のPLMと訓練されたSTMを利用して合成データセットからのサブセット選択のための新しい基準を導入する。 選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、反復的なデータ生成を通じてデータセットの品質を向上させる。 トレーニングされたSTMはサンプルの再重み付けにも使用され、データ品質がさらに向上する。 多様なタスクにわたる大規模な実験により、FuseGenは既存のメソッドよりも大幅に優れており、PLMに依存しない方法でSTMのパフォーマンスを高めるのに非常に効果的であることが示された。 コードはhttps://github.com/LindaLydia/FuseGenで提供されている。

Data generation-based zero-shot learning, although effective in training Small Task-specific Models (STMs) via synthetic datasets generated by Pre-trained Language Models (PLMs), is often limited by the low quality of such synthetic datasets. Previous solutions have primarily focused on single PLM settings, where synthetic datasets are typically restricted to specific sub-spaces and often deviate from real-world distributions, leading to severe distribution bias. To mitigate such bias, we propose FuseGen, a novel data generation-based zero-shot learning framework that introduces a new criteria for subset selection from synthetic datasets via utilizing multiple PLMs and trained STMs. The chosen subset provides in-context feedback to each PLM, enhancing dataset quality through iterative data generation. Trained STMs are then used for sample re-weighting as well, further improving data quality. Extensive experiments across diverse tasks demonstrate that FuseGen substantially outperforms existing methods, highly effective in boosting STM performance in a PLM-agnostic way. Code is provided in https://github.com/LindaLydia/FuseGen.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# LLM4MSR:マルチシナリオレコメンデーションのためのLLM拡張パラダイム

LLM4MSR: An LLM-Enhanced Paradigm for Multi-Scenario Recommendation ( http://arxiv.org/abs/2406.12529v1 )

ライセンス: Link先を確認
Yuhao Wang, Yichao Wang, Zichuan Fu, Xiangyang Li, Xiangyu Zhao, Huifeng Guo, Ruiming Tang, (参考訳) よりパーソナライズされたレコメンデーションの需要が増加し、商業シナリオの劇的なブームが生じるにつれて、マルチシナリオレコメンデーション(MSR)に関する研究が注目され、すべてのシナリオのデータを使用してレコメンデーションのパフォーマンスを同時に改善する。 しかし、既存の手法ではシナリオ知識が不足し、パーソナライズされたクロスシナリオの嗜好を無視する傾向にあり、その結果、最適性能と不適切な解釈性が生じる。 一方,大規模言語モデル(LLM)はセマンティック情報を推論・キャプチャする能力が優れているが,高い推論遅延とチューニングの計算コストが産業用レコメンデータシステムの実装を妨げている。 これらのギャップを埋めるために,本研究では,LLM4MSRを効果的に解釈可能とするパラダイム LLM4MSRを提案する。 具体的には、まずLLMを利用してシナリオ相関やユーザによるクロスシナリオの関心事などの多段階知識をLLMを微調整することなく、設計シナリオとユーザレベルのプロンプトから発見し、階層的なメタネットワークを採用してマルチレベルメタ層を生成し、シナリオ認識とパーソナライズされたレコメンデーション機能を明確に改善する。 KuaiSAR-small、KuaiSAR、Amazonデータセットに関する我々の実験は、LLM4MSRの2つの重要な利点を検証している。 (i)異なるマルチシナリオバックボーンモデル(3つのデータセットで1.5%、1%、40%のAUC改善)の有効性と互換性 二 産業レコメンデーターシステムの高効率化及び展開性 (三)通訳性の向上。 実装されたコードとデータは、再現を容易にするために利用できる。

As the demand for more personalized recommendation grows and a dramatic boom in commercial scenarios arises, the study on multi-scenario recommendation (MSR) has attracted much attention, which uses the data from all scenarios to simultaneously improve their recommendation performance. However, existing methods tend to integrate insufficient scenario knowledge and neglect learning personalized cross-scenario preferences, thus leading to suboptimal performance and inadequate interpretability. Meanwhile, though large language model (LLM) has shown great capability of reasoning and capturing semantic information, the high inference latency and high computation cost of tuning hinder its implementation in industrial recommender systems. To fill these gaps, we propose an effective efficient interpretable LLM-enhanced paradigm LLM4MSR in this work. Specifically, we first leverage LLM to uncover multi-level knowledge including scenario correlations and users' cross-scenario interests from the designed scenario- and user-level prompt without fine-tuning the LLM, then adopt hierarchical meta networks to generate multi-level meta layers to explicitly improves the scenario-aware and personalized recommendation capability. Our experiments on KuaiSAR-small, KuaiSAR, and Amazon datasets validate two significant advantages of LLM4MSR: (i) the effectiveness and compatibility with different multi-scenario backbone models (achieving 1.5%, 1%, and 40% AUC improvement on three datasets), (ii) high efficiency and deployability on industrial recommender systems, and (iii) improved interpretability. The implemented code and data is available to ease reproduction.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# TREE: 効率的な実行のためのツリー正規化

TREE: Tree Regularization for Efficient Execution ( http://arxiv.org/abs/2406.12531v1 )

ライセンス: Link先を確認
Lena Schmid, Daniel Biebert, Christian Hakert, Kuan-Hsun Chen, Michel Lang, Markus Pauly, Jian-Jia Chen, (参考訳) 大量のリソース制約のあるデバイス上での機械学習手法の台頭は、ターゲットプラットフォームに適したモデルアーキテクチャを選択するだけでなく、利用可能なリソースを最適に活用するために、推論の実行時間消費に関して選択されたモデルの最適化も必要である。 ランダムフォレストと決定木は、モデル全体のサイズに合わせて調整可能なだけでなく、基礎となるメモリアーキテクチャに従って実行を最適化する可能性も高いため、このようなシナリオに適したモデルであることが示されている。 決定木を通る短いパスを強制し、推論の実行時間を短縮するという簡単な戦略に加えて、ハードウェア対応の実装は、直交的に実行時間を最適化することができる。 ハードウェアを意識した最適化の1つは、決定ツリーのメモリをそのような方法でレイアウトすることである。 これは特に、ツリーノード内の分割が不均一で、子ノードの1つを訪問する確率が高い場合に有効である。 本稿では,決定木を訓練する際の不均一な確率分布を最小限の精度で補正することにより,経路長を削減する手法を提案する。 具体的には、CARTアルゴリズムの不純物計算を規則化し、低不純物だけでなく、分割基準の評価のための高非対称分布を優先し、メモリアーキテクチャを意識した実装において高い最適化可能性を提供する。 特に2値分類データセットや多くのサンプルを持つデータセットの場合、この形式は最小限の精度で実行時間を最大4倍に短縮できることを示す。

The rise of machine learning methods on heavily resource constrained devices requires not only the choice of a suitable model architecture for the target platform, but also the optimization of the chosen model with regard to execution time consumption for inference in order to optimally utilize the available resources. Random forests and decision trees are shown to be a suitable model for such a scenario, since they are not only heavily tunable towards the total model size, but also offer a high potential for optimizing their executions according to the underlying memory architecture. In addition to the straightforward strategy of enforcing shorter paths through decision trees and hence reducing the execution time for inference, hardware-aware implementations can optimize the execution time in an orthogonal manner. One particular hardware-aware optimization is to layout the memory of decision trees in such a way, that higher probably paths are less likely to be evicted from system caches. This works particularly well when splits within tree nodes are uneven and have a high probability to visit one of the child nodes. In this paper, we present a method to reduce path lengths by rewarding uneven probability distributions during the training of decision trees at the cost of a minimal accuracy degradation. Specifically, we regularize the impurity computation of the CART algorithm in order to favor not only low impurity, but also highly asymmetric distributions for the evaluation of split criteria and hence offer a high optimization potential for a memory architecture-aware implementation. We show that especially for binary classification data sets and data sets with many samples, this form of regularization can lead to an reduction of up to approximately four times in the execution time with a minimal accuracy degradation.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 検索機能強化のための統一型アクティブ検索

Unified Active Retrieval for Retrieval Augmented Generation ( http://arxiv.org/abs/2406.12534v1 )

ライセンス: Link先を確認
Qinyuan Cheng, Xiaonan Li, Shimin Li, Qin Zhu, Zhangyue Yin, Yunfan Shao, Linyang Li, Tianxiang Sun, Hang Yan, Xipeng Qiu, (参考訳) Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。 したがって、回収するかどうかを決定することは、通常Active Retrievalと呼ばれるRAGにとって不可欠である。 しかし、既存のアクティブ検索手法は2つの課題に直面している。 1 通常は、様々な種類の命令を扱うのに苦労する単一の基準に依存する。 2. 特殊・高度に差別化された手順に依存しており,RAGシステムをより複雑にし,応答遅延を増大させる。 これらの課題に対処するため、我々はUnified Active Retrieval (UAR)を提案する。 UARは4つの直交基準を含み、それらをプラグアンドプレイ分類タスクにキャストし、無視可能な余分な推論コストで多面的検索タイミング判定を行う。 さらに、標準化された手順で多様なアクティブ検索シナリオを処理するために設計されたUnified Active Retrieval Criteria (UAR-Criteria)を紹介する。 4種類のユーザインストラクションを用いた実験により,UARは検索タイミング判断や下流タスクのパフォーマンスにおいて,既存の作業よりも大幅に優れており,UARの有効性と下流タスクへの有用性を示している。

In Retrieval-Augmented Generation (RAG), retrieval is not always helpful and applying it to every instruction is sub-optimal. Therefore, determining whether to retrieve is crucial for RAG, which is usually referred to as Active Retrieval. However, existing active retrieval methods face two challenges: 1. They usually rely on a single criterion, which struggles with handling various types of instructions. 2. They depend on specialized and highly differentiated procedures, and thus combining them makes the RAG system more complicated and leads to higher response latency. To address these challenges, we propose Unified Active Retrieval (UAR). UAR contains four orthogonal criteria and casts them into plug-and-play classification tasks, which achieves multifaceted retrieval timing judgements with negligible extra inference cost. We further introduce the Unified Active Retrieval Criteria (UAR-Criteria), designed to process diverse active retrieval scenarios through a standardized procedure. Experiments on four representative types of user instructions show that UAR significantly outperforms existing work on the retrieval timing judgement and the performance of downstream tasks, which shows the effectiveness of UAR and its helpfulness to downstream tasks.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# ViDSOD-100:RGB-Dビデオ有向物体検出のための新しいデータセットとベースラインモデル

ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection ( http://arxiv.org/abs/2406.12536v1 )

ライセンス: Link先を確認
Junhao Lin, Lei Zhu, Jiaxing Shen, Huazhu Fu, Qing Zhang, Liansheng Wang, (参考訳) 深度センサーの急速な開発により、より多くのRGB-Dビデオが得られるようになった。 RGB-Dビデオのフォアグラウンドを特定することは、基本的で重要なタスクである。 しかし、既存のサルエントオブジェクト検出(SOD)は、静的なRGB-D画像またはRGBビデオにのみ焦点を合わせ、RGB-Dとビデオ情報の協調を無視している。 本稿では,まず,自然界の多様なシーンから取得した合計9,362フレーム内に100本のビデオを含む,新しい注釈付きRGB-DビデオSOD(ViDSOD-100)データセットを収集する。 各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。 さらに,RGB-Dビデオ有向物体検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。 提案手法は,入力されたRGB画像からの外観情報,推定した動きマップからの時空間情報,深度マップからの幾何学情報を3つのモード固有ブランチと多モード統合ブランチを考案して集約する。 モダリティ特異的ブランチは異なる入力の表現を抽出し、マルチモダリティ統合ブランチは、エンコーダ特徴集約(MEA)モジュールとデコーダ特徴集約(MDA)モジュールを導入することで、マルチレベルモダリティ固有特徴を結合する。 新たに導入したViDSOD-100データセットと、確立されたDAVSODデータセットの両方で実施された実験結果は、提案したAFF-Netの優れた性能を示している。 この性能向上は、RGB-Dサリエンシ検出、ビデオサリエンシ検出、ビデオオブジェクトセグメンテーションなど、様々な領域における最先端技術の能力を上回る、定量的かつ質的に実証される。 我々のデータとコードはgithub.com/jhl-Det/RGBD_Video_SODで利用可能です。

With the rapid development of depth sensor, more and more RGB-D videos could be obtained. Identifying the foreground in RGB-D videos is a fundamental and important task. However, the existing salient object detection (SOD) works only focus on either static RGB-D images or RGB videos, ignoring the collaborating of RGB-D and video information. In this paper, we first collect a new annotated RGB-D video SOD (ViDSOD-100) dataset, which contains 100 videos within a total of 9,362 frames, acquired from diverse natural scenes. All the frames in each video are manually annotated to a high-quality saliency annotation. Moreover, we propose a new baseline model, named attentive triple-fusion network (ATF-Net), for RGB-D video salient object detection. Our method aggregates the appearance information from an input RGB image, spatio-temporal information from an estimated motion map, and the geometry information from the depth map by devising three modality-specific branches and a multi-modality integration branch. The modality-specific branches extract the representation of different inputs, while the multi-modality integration branch combines the multi-level modality-specific features by introducing the encoder feature aggregation (MEA) modules and decoder feature aggregation (MDA) modules. The experimental findings conducted on both our newly introduced ViDSOD-100 dataset and the well-established DAVSOD dataset highlight the superior performance of the proposed ATF-Net. This performance enhancement is demonstrated both quantitatively and qualitatively, surpassing the capabilities of current state-of-the-art techniques across various domains, including RGB-D saliency detection, video saliency detection, and video object segmentation. Our data and our code are available at github.com/jhl-Det/RGBD_Video_SOD.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 拡散剤の変異蒸留による専門家の混合

Variational Distillation of Diffusion Policies into Mixture of Experts ( http://arxiv.org/abs/2406.12538v1 )

ライセンス: Link先を確認
Hongyi Zhou, Denis Blessing, Ge Li, Onur Celik, Xiaogang Jia, Gerhard Neumann, Rudolf Lioutikov, (参考訳) 本研究は, 変分推論による拡散反応を混合式 (MoE) に蒸留する新しい方法である変分拡散蒸留 (VDD) を導入する。 拡散モデル(英: Diffusion Models)は、複雑なマルチモーダル分布を正確に学習し、表現する能力があるため、生成モデリングにおける現在の最先端技術である。 この能力により、拡散モデルは人間の行動に固有の多様性を再現することができ、人間デモテーションからの学習(LfD)のような行動学習のモデルとして好まれる。 しかし、拡散モデルには、確率の抽出可能性や、反復的なサンプリングプロセスによる長い推論時間など、いくつかの欠点がある。 特に推論時間は、ロボット制御のようなリアルタイムアプリケーションに重大な課題をもたらす。 対照的に、MoEsは上記の問題に効果的に対処すると同時に、複雑な分布を表現できる能力を維持しているが、訓練するのは非常に難しい。 VDDは、事前学習した拡散モデルをMoEモデルに蒸留し、拡散モデルの表現性を混合モデルの利点と組み合わせる最初の方法である。 具体的には、VDDは変分目的の分解的上限を利用して、各専門家の個別の訓練を可能にし、その結果、MoEsの堅牢な最適化スキームとなる。 VDDは、9つの複雑な行動学習タスクを実証します。 一 拡散モデルで学習した複素分布を正確に蒸留すること。 二 既存の最先端蒸留方法より優れたもの、及び 三 従来の訓練方法を超えていること。

This work introduces Variational Diffusion Distillation (VDD), a novel method that distills denoising diffusion policies into Mixtures of Experts (MoE) through variational inference. Diffusion Models are the current state-of-the-art in generative modeling due to their exceptional ability to accurately learn and represent complex, multi-modal distributions. This ability allows Diffusion Models to replicate the inherent diversity in human behavior, making them the preferred models in behavior learning such as Learning from Human Demonstrations (LfD). However, diffusion models come with some drawbacks, including the intractability of likelihoods and long inference times due to their iterative sampling process. The inference times, in particular, pose a significant challenge to real-time applications such as robot control. In contrast, MoEs effectively address the aforementioned issues while retaining the ability to represent complex distributions but are notoriously difficult to train. VDD is the first method that distills pre-trained diffusion models into MoE models, and hence, combines the expressiveness of Diffusion Models with the benefits of Mixture Models. Specifically, VDD leverages a decompositional upper bound of the variational objective that allows the training of each expert separately, resulting in a robust optimization scheme for MoEs. VDD demonstrates across nine complex behavior learning tasks, that it is able to: i) accurately distill complex distributions learned by the diffusion model, ii) outperform existing state-of-the-art distillation methods, and iii) surpass conventional methods for training MoE.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 好熱性スノーフレーク仮説:好熱性グラフのためのGNNの訓練と強化

The Heterophilic Snowflake Hypothesis: Training and Empowering GNNs for Heterophilic Graphs ( http://arxiv.org/abs/2406.12539v1 )

ライセンス: Link先を確認
Kun Wang, Guibin Zhang, Xinnan Zhang, Junfeng Fang, Xun Wu, Guohao Li, Shirui Pan, Wei Huang, Yuxuan Liang, (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフベースの学習タスクにおいて重要なツールとなっている。 特に、現在のGNNアーキテクチャのほとんどは、明示的にも暗黙的にも、ホモフィリーの仮定の下で動作している。 この前提は頻繁に採用されているが、一般には適用されないため、学習効率の潜在的な欠点が生じる可能性がある。 本稿では、初めてtextbf{for the first time, we transfer the prevailing concept of ``one node one receptive field' to the heterophilic graph。 プロキシラベル予測器を構築することにより、各ノードが潜在予測分布を保持でき、接続ノードが関連する隣接ノードを集約すべきかどうかを判断するのを支援する。 最終的に、各ノードは独自のアグリゲーションホップとパターンを持つことができる。 本稿では, ヘテロフィリー雪炎仮説を革新的に導入し, ヘテロフィリックグラフなどの研究をガイドし, 促進する有効なソリューションを提供する。 筆者らは,(1)10個の背骨に異なるヘテロフィリー比を持つ10個のグラフの主実験,(2)多数の層(2,4,6,8,16,32層)にわたる各種深部GNNバックボーン(SGC,JKNetなど)のスケーラビリティ,(3)従来の雪片仮説との比較,(4)既存のグラフプルーニングアルゴリズムとの効率比較など,総合的な実験を行った。 観察の結果,我々のフレームワークは多種多様なタスクのための多目的演算子として機能することがわかった。 さまざまなGNNフレームワークに統合することができ、パフォーマンスを詳細に向上し、最適なネットワーク深さを選択するための説明可能なアプローチを提供する。 ソースコードは \url{https://github.com/bingreeky/HeteroSnoH} で公開されている。

Graph Neural Networks (GNNs) have become pivotal tools for a range of graph-based learning tasks. Notably, most current GNN architectures operate under the assumption of homophily, whether explicitly or implicitly. While this underlying assumption is frequently adopted, it is not universally applicable, which can result in potential shortcomings in learning effectiveness. In this paper, \textbf{for the first time}, we transfer the prevailing concept of ``one node one receptive field" to the heterophilic graph. By constructing a proxy label predictor, we enable each node to possess a latent prediction distribution, which assists connected nodes in determining whether they should aggregate their associated neighbors. Ultimately, every node can have its own unique aggregation hop and pattern, much like each snowflake is unique and possesses its own characteristics. Based on observations, we innovatively introduce the Heterophily Snowflake Hypothesis and provide an effective solution to guide and facilitate research on heterophilic graphs and beyond. We conduct comprehensive experiments including (1) main results on 10 graphs with varying heterophily ratios across 10 backbones; (2) scalability on various deep GNN backbones (SGC, JKNet, etc.) across various large number of layers (2,4,6,8,16,32 layers); (3) comparison with conventional snowflake hypothesis; (4) efficiency comparison with existing graph pruning algorithms. Our observations show that our framework acts as a versatile operator for diverse tasks. It can be integrated into various GNN frameworks, boosting performance in-depth and offering an explainable approach to choosing the optimal network depth. The source code is available at \url{https://github.com/bingreeky/HeteroSnoH}.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 表現ジェスチャの自動生成説明への統合とその理解と相互作用品質への影響

Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality ( http://arxiv.org/abs/2406.12544v1 )

ライセンス: Link先を確認
Amelie Sophie Robrecht, Hendric Voss, Lisa Gottschalk, Stefan Kopp, (参考訳) ヒューマンインタラクションでは、ジェスチャーは、音声リズムのマーキング、キー要素のハイライト、情報補完といった様々な機能を提供します。 これらの動作は説明的文脈でも観察される。 しかし、仮想エージェントが提供する説明に対するジェスチャーの影響は未解明のままである。 対話の質と聴取者の理解に異なる種類のジェスチャーがどのような影響を及ぼすかを調べるために,ユーザスタディを行った。 本研究では,ビートジェスチャーと象徴的ジェスチャーを一体化して,自動生成した音声説明を強化する仮想説明器を開発することで,説明におけるジェスチャーの効果を考察する。 本モデルでは,学習した音声駆動合成モジュールが生成したビートジェスチャーと手動でキャプチャしたアイコン的ジェスチャーを組み合わせることで,ボードゲームQuarto!に関するエージェントの言葉表現を説明シナリオとしてサポートする。 発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。 それにもかかわらず、先行研究と比較して、エンボディ化剤は理解を著しく向上させる。

In human interaction, gestures serve various functions such as marking speech rhythm, highlighting key elements, and supplementing information. These gestures are also observed in explanatory contexts. However, the impact of gestures on explanations provided by virtual agents remains underexplored. A user study was carried out to investigate how different types of gestures influence perceived interaction quality and listener understanding. This study addresses the effect of gestures in explanation by developing an embodied virtual explainer integrating both beat gestures and iconic gestures to enhance its automatically generated verbal explanations. Our model combines beat gestures generated by a learned speech-driven synthesis module with manually captured iconic gestures, supporting the agent's verbal expressions about the board game Quarto! as an explanation scenario. Findings indicate that neither the use of iconic gestures alone nor their combination with beat gestures outperforms the baseline or beat-only conditions in terms of understanding. Nonetheless, compared to prior research, the embodied agent significantly enhances understanding.
翻訳日:2024-06-19 19:17:37 公開日:2024-06-18
# 嘘、嘘、論理的ミス:大規模言語モデルにおける仮定推論のベンチマーク

Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models ( http://arxiv.org/abs/2406.12546v1 )

ライセンス: Link先を確認
Philipp Mondorf, Barbara Plank, (参考訳) ナイトとナイフの問題は、登場人物が真実を語るか嘘をつくという古典的な論理パズルのジャンルを表している。 目的は、各キャラクタの主張に基づいて、各キャラクタのアイデンティティを論理的に推論することである。 この課題は、それぞれの言明の論理的意味に影響を及ぼす真理と嘘の行動から生じる。 これらのパズルを解くには、個々の言明から直接引き起こされるだけでなく、様々な仮説のシナリオを通して説明の真理性を評価する能力が必要である。 そのため、騎士やナイフのパズルは仮定推論の説得力のある例である。 本稿では,騎士とナイフパズルの原理に基づく仮定推論のベンチマークである$\textit{TruthQuest}$を紹介する。 本ベンチマークでは,文字数と関連する論理文の種類を考慮し,様々な複雑さの問題を提示する。 $\textit{TruthQuest}$の評価によると、Llama 3やMixtral-8x7Bのような大きな言語モデルはこれらのタスクを解くのにかなりの困難を示している。 モデル出力の詳細な誤差解析により、低性能モデルは様々な推論誤差を示し、しばしば真実と嘘の概念を理解できないことが明らかになった。 対照的に、より熟練したモデルは、潜在的に偽の言明の論理的含意を正確に推測することに苦慮している。

Knights and knaves problems represent a classic genre of logical puzzles where characters either tell the truth or lie. The objective is to logically deduce each character's identity based on their statements. The challenge arises from the truth-telling or lying behavior, which influences the logical implications of each statement. Solving these puzzles requires not only direct deductions from individual statements, but the ability to assess the truthfulness of statements by reasoning through various hypothetical scenarios. As such, knights and knaves puzzles serve as compelling examples of suppositional reasoning. In this paper, we introduce $\textit{TruthQuest}$, a benchmark for suppositional reasoning based on the principles of knights and knaves puzzles. Our benchmark presents problems of varying complexity, considering both the number of characters and the types of logical statements involved. Evaluations on $\textit{TruthQuest}$ show that large language models like Llama 3 and Mixtral-8x7B exhibit significant difficulties solving these tasks. A detailed error analysis of the models' output reveals that lower-performing models exhibit a diverse range of reasoning errors, frequently failing to grasp the concept of truth and lies. In comparison, more proficient models primarily struggle with accurately inferring the logical implications of potentially false statements.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# AIを利用した次世代フィッシング攻撃

Next Generation of Phishing Attacks using AI powered Browsers ( http://arxiv.org/abs/2406.12547v1 )

ライセンス: Link先を確認
Akshaya Arun, Nasr Abosata, (参考訳) フィッシングの増加は、フィッシング攻撃からユーザーを保護する革新的な解決策を必要としている。 本研究では、フィッシングサイトの検出を改善するために、機械学習モデルと統合されたリアルタイムブラウザエクステンションの開発と利用について検討する。 その結果、モデルの精度は98.32%、精度は98.62%、リコールは97.86%、F1スコアは98.24%であった。 Support Vector Machine、Na\"ive Bayes、Decision Tree、XGBoost、K Nearest Neighborといった他のアルゴリズムと比較すると、ランダムフォレストアルゴリズムはフィッシング攻撃の検出に有効であることがわかった。 15日間にわたるゼロデイフィッシング攻撃検出テストでは、これまで見つからなかった脅威を識別し、全体的な精度は99.11%に達した。 さらに、このモデルでは、Google Safe Browsingのような従来のセキュリティ対策と比較して、パフォーマンスが向上した。 このモデルは、Googleの安全なブラウジングによる検出を回避したフィッシングURLをうまく検出した。 この研究は、リアルタイムブラウザエクステンションにおける機械学習の使用が、フィッシング攻撃に対してどのように防御するかを示している。 サイバーセキュリティに関する有益な情報を提供し、インターネットをより安全にするのに役立つ。

The increase in the number of phishing demands innovative solutions to safeguard users from phishing attacks. This study explores the development and utilization of a real-time browser extension integrated with machine learning model to improve the detection of phishing websites. The results showed that the model had an accuracy of 98.32%, precision of 98.62%, recall of 97.86%, and an F1-score of 98.24%. When compared to other algorithms like Support Vector Machine, Na\"ive Bayes, Decision Tree, XGBoost, and K Nearest Neighbor, the Random Forest algorithm stood out for its effectiveness in detecting phishing attacks. The zero-day phishing attack detection testing over a 15-day period revealed the model's capability to identify previously unseen threats and thus achieving an overall accuracy rate of 99.11%. Furthermore, the model showed better performance when compared to conventional security measures like Google Safe Browsing. The model had successfully detected phishing URLs that evaded detection by Google safe browsing. This research shows how using machine learning in real-time browser extensions can defend against phishing attacks. It gives useful information about cybersecurity and helps make the internet safer for everyone.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# P-Tailor: 特殊化LoRAエキスパートの混在による言語モデルのパーソナリティ特性のカスタマイズ

P-Tailor: Customizing Personality Traits for Language Models via Mixture of Specialized LoRA Experts ( http://arxiv.org/abs/2406.12548v1 )

ライセンス: Link先を確認
Yuhao Dan, Jie Zhou, Qin Chen, Junfeng Tian, Liang He, (参考訳) パーソナライズされた大規模言語モデル(LLM)は、知的教育や感情的支援など、多くの応用において大きな注目を集めている。 ほとんどの作業は、プロファイル(例えば、年齢、スキル、経験など)に基づいて文字設定を制御することに焦点を当てている。 逆に、暗黙的な表現と行動を持つ心理学理論に基づく性格特性は、十分にモデル化されておらず、心理学的カウンセリングエージェントのようなより専門的な分野への応用を制限している。 本稿では,P-tailor(P-tailor)という名の専門家(MoE)によるパーソナライズ LLM を混合して,Big Five Personality Traits をモデル化する。 特に、オープン性、良心性、外向性、同意性、神経症など、さまざまな特徴を表現するために、専門的なLoRAの専門家を学ぶ。 そして,P-Tailorとパーソナライズ特化損失を統合し,個別のパーソナライズ特性を専門とする専門家の育成を行い,モデルパラメータ利用の効率化を図る。 データセットの欠如により、さまざまなトピックにまたがる異なる性格特性を学習し、開発するための高品質なパーソナリティ作成データセット(PCD)をキュレートする。 我々は,LLMの微粒な性格特性の操作において,P-Tailorの優れた性能と有効性を検証するための広範囲な実験を行った。

Personalized large language models (LLMs) have attracted great attention in many applications, such as intelligent education and emotional support. Most work focuses on controlling the character settings based on the profile (e.g., age, skill, experience, and so on). Conversely, the psychological theory-based personality traits with implicit expression and behavior are not well modeled, limiting their potential application in more specialized fields such as the psychological counseling agents. In this paper, we propose a mixture of experts (MoE)-based personalized LLMs, named P-tailor, to model the Big Five Personality Traits. Particularly, we learn specialized LoRA experts to represent various traits, such as openness, conscientiousness, extraversion, agreeableness and neuroticism. Then, we integrate P-Tailor with a personality specialization loss, promoting experts to specialize in distinct personality traits, thereby enhancing the efficiency of model parameter utilization. Due to the lack of datasets, we also curate a high-quality personality crafting dataset (PCD) to learn and develop the ability to exhibit different personality traits across various topics. We conduct extensive experiments to verify the great performance and effectiveness of P-Tailor in manipulation of the fine-grained personality traits of LLMs.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# マルチソーシャル: ソーシャルメディアテキストのマシン生成テキスト検出の多言語ベンチマーク

MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts ( http://arxiv.org/abs/2406.12549v1 )

ライセンス: Link先を確認
Dominik Macko, Jakub Kopal, Robert Moro, Ivan Srba, (参考訳) 近年のLLMは、人間にとって本物の人書きテキストとは区別がつかない、高品質な多言語テキストを生成することができる。 しかし、機械によるテキスト検出の研究は、主に英語と、ニュース記事、科学論文、学生のエッセイなどのより長いテキストに焦点を当てている。 ソーシャルメディアのテキストは通常ずっと短く、しばしば非公式な言語、文法的な誤り、あるいは異なる言語的項目(例えば、エモティコン、ハッシュタグ)を特徴としている。 既存の多言語ベンチマークデータセットの欠如にも反映されるような,そのようなテキストの検出における既存手法の能力のギャップがある。 このギャップを埋めるために、MultiSocialと呼ばれるソーシャルメディアドメインにおいて、機械生成テキスト検出のベンチマークを行うための、最初のマルチ言語(22言語)とマルチプラットフォーム(5つのソーシャルメディアプラットフォーム)データセットを提案する。 472,097のテキストが含まれており、そのうち約58kは人書きであり、ほぼ同じ量は7つの多言語LLMによって生成される。 このベンチマークを用いて、ゼロショットの既存の検出手法と微調整形式を比較した。 以上の結果から, 微調整検出器はソーシャルメディア上での学習に問題はなく, 学習プラットフォームの選択も重要な課題であることが示唆された。

Recent LLMs are able to generate high-quality multilingual texts, indistinguishable for humans from authentic human-written ones. Research in machine-generated text detection is however mostly focused on the English language and longer texts, such as news articles, scientific papers or student essays. Social-media texts are usually much shorter and often feature informal language, grammatical errors, or distinct linguistic items (e.g., emoticons, hashtags). There is a gap in studying the ability of existing methods in detection of such texts, reflected also in the lack of existing multilingual benchmark datasets. To fill this gap we propose the first multilingual (22 languages) and multi-platform (5 social media platforms) dataset for benchmarking machine-generated text detection in the social-media domain, called MultiSocial. It contains 472,097 texts, of which about 58k are human-written and approximately the same amount is generated by each of 7 multilingual LLMs. We use this benchmark to compare existing detection methods in zero-shot as well as fine-tuned form. Our results indicate that the fine-tuned detectors have no problem to be trained on social-media texts and that the platform selection for training matters.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# モデルに基づく逆拡張によるオフライン模倣学習

Offline Imitation Learning with Model-based Reverse Augmentation ( http://arxiv.org/abs/2406.12550v1 )

ライセンス: Link先を確認
Jie-Jing Shao, Hao-Sen Shi, Lan-Zhe Guo, Yu-Feng Li, (参考訳) オフラインのImitation Learning(IL)では、専門家の観察結果とエージェントが遭遇する実際の分布との間の「textit{covariate shift}」が大きな課題である。 近年、モデルフリーのソリューションでは、補足データを導入し、学習中の信頼性の高いサンプルを増やすために、潜伏した専門家類似のサンプルを特定している。 モデルに基づくソリューションは、保守主義の定量化を伴う前方の動的モデルを構築し、専門家によるデモンストレーションの近傍で追加の軌道を生成する。 しかしながら、報酬の監督なしでは、これらの手法は、専門家が守られた状態に近い州でのみ、政策最適化を可能にする行動が望ましいため、専門家以外の地域では過保守的であることが多い。 専門家が観察できない状態の探索を促進するため,我々は,SRA(Local Imitation Learning with Self-paced Reverse Augmentation)と呼ばれる新しいモデルベースのフレームワークを提案する。 具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、セルフペースのスタイルで専門家が観察した状態につながる軌道を効率的に生成する。 そして、その後の強化学習手法を用いて、強化された軌跡から学習し、専門家未観測状態から専門家未観測状態へ移行する。 このフレームワークは、専門家が観測していない状態だけでなく、これらの状態に対する長期的なリターンを最大化し、最終的に専門家データを超えた一般化を可能にする。 実験の結果,提案手法は共変量シフトを効果的に軽減し,オフライン模倣学習ベンチマークの最先端性能を実現することができることが示された。 プロジェクトウェブサイト: \url{https://www.lamda.nju.edu.cn/shaojj/KDD24_SRA/}

In offline Imitation Learning (IL), one of the main challenges is the \textit{covariate shift} between the expert observations and the actual distribution encountered by the agent, because it is difficult to determine what action an agent should take when outside the state distribution of the expert demonstrations. Recently, the model-free solutions introduce the supplementary data and identify the latent expert-similar samples to augment the reliable samples during learning. Model-based solutions build forward dynamic models with conservatism quantification and then generate additional trajectories in the neighborhood of expert demonstrations. However, without reward supervision, these methods are often over-conservative in the out-of-expert-support regions, because only in states close to expert-observed states can there be a preferred action enabling policy optimization. To encourage more exploration on expert-unobserved states, we propose a novel model-based framework, called offline Imitation Learning with Self-paced Reverse Augmentation (SRA). Specifically, we build a reverse dynamic model from the offline demonstrations, which can efficiently generate trajectories leading to the expert-observed states in a self-paced style. Then, we use the subsequent reinforcement learning method to learn from the augmented trajectories and transit from expert-unobserved states to expert-observed states. This framework not only explores the expert-unobserved states but also guides maximizing long-term returns on these states, ultimately enabling generalization beyond the expert data. Empirical results show that our proposal could effectively mitigate the covariate shift and achieve the state-of-the-art performance on the offline imitation learning benchmarks. Project website: \url{https://www.lamda.nju.edu.cn/shaojj/KDD24_SRA/}.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# 進化的スパイクニューラルネットワーク:サーベイ

Evolutionary Spiking Neural Networks: A Survey ( http://arxiv.org/abs/2406.12552v1 )

ライセンス: Link先を確認
Shuaijie Shen, Rui Zhang, Chao Wang, Renzhuo Huang, Aiersi Tuerhong, Qinghai Guo, Zhichao Lu, Jianguo Zhang, Luziwei Leng, (参考訳) スパイキングニューラルネットワーク(SNN)は、従来の人工知能ニューラルネットワーク(ANN)に代わる、計算的に効率的な代替手段として注目を集めている。 しかし、ユニークな情報伝達機構とSNNニューロンモデルの複雑さは、ANN向けに開発された従来の手法をSNNに適用する上での課題となる。 これらの課題には、ウェイトラーニングとアーキテクチャ設計の両方が含まれる。 シュロゲート勾配学習は、以前の課題に対処することに成功したが、後者は比較的未解明のままである。 近年,これらの課題に対処するために進化的計算手法を利用した新しいパラダイムが出現している。 このアプローチは、幅広い機械学習ベンチマークで様々なエネルギー効率と高性能のSNNを開発する結果となった。 本稿では,これらの研究について調査を行い,今後の課題について考察する。

Spiking neural networks (SNNs) are gaining increasing attention as potential computationally efficient alternatives to traditional artificial neural networks(ANNs). However, the unique information propagation mechanisms and the complexity of SNN neuron models pose challenges for adopting traditional methods developed for ANNs to SNNs. These challenges include both weight learning and architecture design. While surrogate gradient learning has shown some success in addressing the former challenge, the latter remains relatively unexplored. Recently, a novel paradigm utilizing evolutionary computation methods has emerged to tackle these challenges. This approach has resulted in the development of a variety of energy-efficient and high-performance SNNs across a wide range of machine learning benchmarks. In this paper, we present a survey of these works and initiate discussions on potential challenges ahead.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# Spotifyのコードレビューにおける情報拡散の測定

Measuring Information Diffusion in Code Review at Spotify ( http://arxiv.org/abs/2406.12553v1 )

ライセンス: Link先を確認
Michael Dorner, Daniel Mendez, Ehsan Zabardast, Nicole Valdez, Marcin Floryan, (参考訳) 背景: ソフトウェアエンジニアリングのコアプラクティスとして、コードレビューの性質は、しばしば研究の対象となっている。 以前の探索的研究では、コードレビュー(人間間のコード変更に関する議論)が、参加者が情報を交換したり拡散したりするためのコミュニケーションネットワークを形成することがわかった。 ソフトウェア工学では人気があるが、この理論を裏付ける確証的な研究は存在せず、コードレビューにおける情報拡散の実態はよく理解されていない。 目的: 本報告では, コードレビューにおける情報拡散を計測し, コードレビューの理論を通信ネットワークとして検証する観察的研究を提案する。 方法:(1) 参加者,(2) 影響を受けるコンポーネント,(3) 関連コードレビューのチーム間の頻度と類似性から,コードレビューにおける情報拡散を近似した。 コードレビューにおける情報拡散を近似する測定は、コードレビューの理論をコミュニケーションネットワークとして改ざんするための基礎となる。

Background: As a core practice in software engineering, the nature of code review has been frequently subject to research. Prior exploratory studies found that code review, the discussion around a code change among humans, forms a communication network that enables its participants to exchange and spread information. Although popular in software engineering, there is no confirmatory research corroborating this theory and the actual extent of information diffusion in code review is not well understood. Objective: In this registered report, we propose an observational study to measure information diffusion in code review to test the theory of code review as communication network. Method: We approximate the information diffusion in code review through the frequency and the similarity between (1) human participants, (2) affected components, and (3) involved teams of linked code reviews. The measurements approximating the information diffusion in code review serve as a foundation for falsifying the theory of code review as communication network.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# ベイジアンデータ選択

Bayesian Data Selection ( http://arxiv.org/abs/2406.12560v1 )

ライセンス: Link先を確認
Julian Rodemann, (参考訳) 幅広い機械学習アルゴリズムがトレーニングサンプルに反復的にデータを追加する。 例えば、セミ教師付き学習、アクティブラーニング、マルチアームのバンディット、ベイズ最適化などがある。 意思決定問題としてデータ選択をフレーミングすることで、このようなデータ追加を意思決定理論に組み込む。 これにより、ベイズ最適データ選択の道が開ける。 半教師付き学習における自己学習の具体例について,各ベイズ基準を導出する。 さらに, この基準の展開は, 一般化線形モデル, 半パラメトリック一般化付加モデル, および実世界データ上でのベイズニューラルネットワークの手法を実証的に評価することにより, 検証バイアスの問題を緩和することを示した。

A wide range of machine learning algorithms iteratively add data to the training sample. Examples include semi-supervised learning, active learning, multi-armed bandits, and Bayesian optimization. We embed this kind of data addition into decision theory by framing data selection as a decision problem. This paves the way for finding Bayes-optimal selections of data. For the illustrative case of self-training in semi-supervised learning, we derive the respective Bayes criterion. We further show that deploying this criterion mitigates the issue of confirmation bias by empirically assessing our method for generalized linear models, semi-parametric generalized additive models, and Bayesian neural networks on simulated and real-world data.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# グランド・チューリッソにおける自律走行のための超人的視覚ベース強化学習エージェント

A Super-human Vision-based Reinforcement Learning Agent for Autonomous Racing in Gran Turismo ( http://arxiv.org/abs/2406.12563v1 )

ライセンス: Link先を確認
Miguel Vasco, Takuma Seno, Kenta Kawamoto, Kaushik Subramanian, Peter R. Wurman, Peter Stone, (参考訳) 自動運転車は、人工知能とロボティクスの分野で長年にわたって大きな課題だった。 最近、エンドツーエンドの強化学習エージェントが、高忠実度レーシングシミュレータであるGran Turismoでこの課題に遭遇した。 しかし、このエージェントは、車外機器を必要とするグローバルな機能に依存していた。 本稿では,車載カメラからのセンサ入力,車載カメラからの画素,車載速度など,車載カメラから検出可能な量など,車両に純粋に局所的なセンサ入力を有する初のスーパーヒューマンカーレースエージェントについて紹介する。 学習エージェントは、訓練時にのみグローバルな機能を活用することで、タイムトライアル(一度に1台のトラック上の1台の車)において、ローカルな入力機能のみを使用して、最高の人間ドライバーを上回ります。 得られたエージェントは、Gran Turismo 7において、複数のトラックと車上で評価される。 詳細なアブレーション実験は、エージェントが視覚入力に強く依存していることを示しています。

Racing autonomous cars faster than the best human drivers has been a longstanding grand challenge for the fields of Artificial Intelligence and robotics. Recently, an end-to-end deep reinforcement learning agent met this challenge in a high-fidelity racing simulator, Gran Turismo. However, this agent relied on global features that require instrumentation external to the car. This paper introduces, to the best of our knowledge, the first super-human car racing agent whose sensor input is purely local to the car, namely pixels from an ego-centric camera view and quantities that can be sensed from on-board the car, such as the car's velocity. By leveraging global features only at training time, the learned agent is able to outperform the best human drivers in time trial (one car on the track at a time) races using only local input features. The resulting agent is evaluated in Gran Turismo 7 on multiple tracks and cars. Detailed ablation experiments demonstrate the agent's strong reliance on visual inputs, making it the first vision-based super-human car racing agent.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# 個人化フェデレーション学習用レンズによる低リソース機械翻訳

Low-Resource Machine Translation through the Lens of Personalized Federated Learning ( http://arxiv.org/abs/2406.12564v1 )

ライセンス: Link先を確認
Viktor Moskvoretskii, Nazarii Tupitsa, Chris Biemann, Samuel Horváth, Eduard Gorbunov, Irina Nikishina, (参考訳) 我々は、不均一なデータを持つ自然言語タスクに適用可能な、パーソナライズドフェデレーション学習アルゴリズムMeltFedに基づく新しいアプローチを提案する。 我々は,Low-Resource Machine Translationタスクにおいて,大規模多言語機械翻訳共有タスク(Small Track #2)のデータセットと,Finno-Ugric言語の多言語ベンチマークによるSami言語のサブセットを用いて評価を行った。 MeritFedは、その効果に加えて、トレーニングに使用する各言語の影響を追跡するために適用できるため、高度に解釈可能である。 分析の結果,対象のデータセットサイズが補助言語間の重み分布に影響を及ぼし,非関連言語がトレーニングに干渉せず,補助最適化パラメータが最小限の影響を与えることが明らかとなった。 私たちのアプローチは数行のコードで簡単に適用でき、https://github.com/VityaVitalich/MeritFedで実験を再現するためのスクリプトを提供します。

We present a new approach based on the Personalized Federated Learning algorithm MeritFed that can be applied to Natural Language Tasks with heterogeneous data. We evaluate it on the Low-Resource Machine Translation task, using the dataset from the Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) and the subset of Sami languages from the multilingual benchmark for Finno-Ugric languages. In addition to its effectiveness, MeritFed is also highly interpretable, as it can be applied to track the impact of each language used for training. Our analysis reveals that target dataset size affects weight distribution across auxiliary languages, that unrelated languages do not interfere with the training, and auxiliary optimizer parameters have minimal impact. Our approach is easy to apply with a few lines of code, and we provide scripts for reproducing the experiments at https://github.com/VityaVitalich/MeritFed
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# RichRAG: Retrieval-Augmented Generationにおける多面的クエリのためのリッチレスポンス作成

RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.12566v1 )

ライセンス: Link先を確認
Shuting Wang, Xin Xu, Mang Wang, Weipeng Chen, Yutao Zhu, Zhicheng Dou, (参考訳) Retrieval-augmented Generation (RAG)は、大規模言語モデルにおける静的知識と幻覚の問題を効果的に解決する。 既存の研究は主に、明確なユーザ意図と簡潔な回答を持つ質問シナリオに焦点を当てている。 しかし,ユーザは多種多様なサブインテントを持つ広義のオープンエンドクエリを発行し,複数の関連する側面をカバーするリッチでロングフォームな回答を求めることが一般的である。 この重要かつ未解明の課題に対処するために、我々は新しいRAGフレームワーク、すなわちRichRAGを提案する。 これには、入力された質問の潜在的なサブアスペクトを特定するサブアスペクトエクスプローラー、これらのサブアスペクトに関連する多様な外部文書の候補プールを構築する多面検索器、および最終ジェネレータに最も価値の高いドキュメントを提供するキーモジュールである生成リストワイドローダが含まれる。 これらのランク付けされたドキュメントは、様々なクエリの側面を十分にカバーし、ジェネレータの好みを認識しているため、ユーザに対してリッチで包括的なレスポンスを生み出すインセンティブを与える。 ランサーの訓練には、文書の基本的なカバレッジを確保するための教師付き微調整段階と、下流のLLMが文書のランク付けを優先する強化学習段階が含まれる。 2つの公開データセットの実験結果から,我々のフレームワークがユーザに対して包括的かつ満足な応答を効果的に提供できることが証明された。

Retrieval-augmented generation (RAG) effectively addresses issues of static knowledge and hallucination in large language models. Existing studies mostly focus on question scenarios with clear user intents and concise answers. However, it is prevalent that users issue broad, open-ended queries with diverse sub-intents, for which they desire rich and long-form answers covering multiple relevant aspects. To tackle this important yet underexplored problem, we propose a novel RAG framework, namely RichRAG. It includes a sub-aspect explorer to identify potential sub-aspects of input questions, a multi-faceted retriever to build a candidate pool of diverse external documents related to these sub-aspects, and a generative list-wise ranker, which is a key module to provide the top-k most valuable documents for the final generator. These ranked documents sufficiently cover various query aspects and are aware of the generator's preferences, hence incentivizing it to produce rich and comprehensive responses for users. The training of our ranker involves a supervised fine-tuning stage to ensure the basic coverage of documents, and a reinforcement learning stage to align downstream LLM's preferences to the ranking of documents. Experimental results on two publicly available datasets prove that our framework effectively and efficiently provides comprehensive and satisfying responses to users.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# インドにおけるサイバー戦争の準備と防衛戦略の展開

Analysing India's Cyber Warfare Readiness and Developing a Defence Strategy ( http://arxiv.org/abs/2406.12568v1 )

ライセンス: Link先を確認
Yohan Fernandes, Nasr Abosata, (参考訳) 強力なサイバー防衛対策の需要は増加しており、特にインドなどの国では、デジタル化の速度がサイバーセキュリティの発展を上回っている。 サイバー脅威の増加は、サイバー防衛を強化する緊急の必要性を浮き彫りにしている。 文献レビューでは、特にリアルタイムの脅威検出と応答能力において、インドのサイバー防衛の即応性に重大な欠陥が明らかになっている。 シミュレーションモデルを用いて,ネットワークセキュリティの挙動と,ネットワークセキュリティに対する防衛の影響について検討した。 本研究の次のセクションでは、機械学習を用いてリアルタイムでサイバー脅威を特定し分類するサイバー脅威検出システムの実装と、それをインドの現在のインフラに統合する戦略に焦点を当てている。 また,サイバー専門家を養成するための教育枠組みを提案する。 この研究は、実装された防衛戦略を反映して結論付けている。 さらに、サイバー戦争の準備に関する詳細な調査を提供し、技術と教育の両方のソリューションを通じて改善するための体系的な方法を提案することで、国家安全保障に関する議論が続いている。

The demand for strong cyber defence measures grows, especially in countries such as India, where the rate of digitalization far exceeds cybersecurity developments. The increasing amount of cyber threats highlights the urgent need to strengthen cyber defences. The literature review reveals significant shortcomings in India's cyber defence readiness, especially in real-time threat detection and response capabilities. Through simulation models, the study explores network security behaviours and the impact of defences on network security. The next section of this study focuses on implementing a cyber threat detection system that uses machine learning to identify and categorise cyber threats in real time, followed by strategies to integrate it into India's present infrastructure. Also, the study proposes an educational framework for training cyber professionals. The study concludes with a reflection on the implemented defence strategies. It adds to the continuing discussion about national security by providing an in-depth investigation of cyber warfare preparation and recommending a systematic method to improving through both technological and educational solutions.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# MOYU:LLMにおける大量過剰活性化上昇に関する理論的研究

MOYU: A Theoretical Study on Massive Over-activation Yielded Uplifts in LLMs ( http://arxiv.org/abs/2406.12569v1 )

ライセンス: Link先を確認
Chi Ma, Mincong Huang, Chao Wang, Yujie Wang, Lei Yu, Chuan Liu, Wei Lin, (参考訳) 大規模過剰アクティベーション利上げ(MOYU)は大規模言語モデル固有の特性であり、MOYU特性に基づく動的アクティベーション(DA)は、これらのモデルにおける推論を加速するために設計された、巧妙だが未探索の戦略である。 MOYUを利用する既存の手法は、モデル性能の同時維持に苦労し、推論速度を向上し、様々なアーキテクチャにまたがる適用性を拡張するなど、重要な「不可能三位一体」に直面していることが多い。 本論文はMOYU特性の根本原因を解明し、現在のDA法で発生する2つの主要な限界の背後にあるメカニズムを概説する。 1)履歴関連アクティベーションの不確実性、及び 2)意味不明な活性化慣性。 我々の分析は、大規模LLaMAモデルにおける現在の動的アクティベーション戦略の限界を浮き彫りにするだけでなく、将来の疎性スキームの設計を洗練する機会も提案する。

Massive Over-activation Yielded Uplifts(MOYU) is an inherent property of large language models, and dynamic activation(DA) based on the MOYU property is a clever yet under-explored strategy designed to accelerate inference in these models. Existing methods that utilize MOYU often face a significant 'Impossible Trinity': struggling to simultaneously maintain model performance, enhance inference speed, and extend applicability across various architectures. Due to the theoretical ambiguities surrounding MOYU, this paper elucidates the root cause of the MOYU property and outlines the mechanisms behind two primary limitations encountered by current DA methods: 1) history-related activation uncertainty, and 2) semantic-irrelevant activation inertia. Our analysis not only underscores the limitations of current dynamic activation strategies within large-scale LLaMA models but also proposes opportunities for refining the design of future sparsity schemes.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# モデル非依存型テキスト検出へのアンサンブル法の適用

Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection ( http://arxiv.org/abs/2406.12570v1 )

ライセンス: Link先を確認
Ivan Ong, Boon King Quek, (参考訳) 本稿では,大言語モデル (LLM) から派生したものが不明な場合に,機械生成テキストを検出する問題について検討する。 我々は、生成的(またはベース)言語モデルと識別的(またはスコアリング)言語モデルが同一である場合に高い精度で、機械生成テキスト検出のためのゼロショットモデルであるDerctionGPT分類器(Mitchell et al 2023)の出力にアンサンブル手法を適用する。 DetectGPTサブモデル出力の単純な要約統計は、0ショット特性を維持しながらAUROCが0.73(約0.61)であり、教師付き学習手法は精度を0.94に急激に向上させるが、訓練データセットを必要とする。 これは、高度に正確なモデルに依存しない機械生成テキスト検出器を作成するためのさらなる一般化の可能性を示している。

In this paper, we study the problem of detecting machine-generated text when the large language model (LLM) it is possibly derived from is unknown. We do so by apply ensembling methods to the outputs from DetectGPT classifiers (Mitchell et al. 2023), a zero-shot model for machine-generated text detection which is highly accurate when the generative (or base) language model is the same as the discriminative (or scoring) language model. We find that simple summary statistics of DetectGPT sub-model outputs yield an AUROC of 0.73 (relative to 0.61) while retaining its zero-shot nature, and that supervised learning methods sharply boost the accuracy to an AUROC of 0.94 but require a training dataset. This suggests the possibility of further generalisation to create a highly-accurate, model-agnostic machine-generated text detector.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# Mathador-LM:大規模言語モデルにおける数学的推論のための動的ベンチマーク

Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models ( http://arxiv.org/abs/2406.12572v1 )

ライセンス: Link先を確認
Eldar Kurtic, Amir Moeini, Dan Alistarh, (参考訳) 我々は,大言語モデル(LLM)の数学的推論を評価するための新しいベンチマークであるMathador-LMを紹介し,ルールセットの解釈,計画,問題解決を組み合わせた。 このベンチマークはMathadorゲームにインスパイアされたもので、目的はルールの単純なセットに従って、与えられたベースナンバーのセットの基本的な算術演算を用いてターゲット番号に到達することである。 先行するLLMに対して,ベンチマークインスタンスを動的に生成しながら,目標とする難易度に従って,安定した平均性能が得られることを示す。 このように、我々のベンチマークは、一般的なベンチマークを損なうことが多いトレーニングデータへのテストセットのリークに関する懸念を軽減する。 さらに,Mathador-LM上では,オープンソースとクローズドソースの両方のLCMを総合的に評価する。 その結果,現代モデルはMathador-LMと競合し,平均5年生よりも有意に低い結果が得られた。 これは、人気のある数学的推論ベンチマークにおける強力なパフォーマンスとは対照的である。

We introduce Mathador-LM, a new benchmark for evaluating the mathematical reasoning on large language models (LLMs), combining ruleset interpretation, planning, and problem-solving. This benchmark is inspired by the Mathador game, where the objective is to reach a target number using basic arithmetic operations on a given set of base numbers, following a simple set of rules. We show that, across leading LLMs, we obtain stable average performance while generating benchmark instances dynamically, following a target difficulty level. Thus, our benchmark alleviates concerns about test-set leakage into training data, an issue that often undermines popular benchmarks. Additionally, we conduct a comprehensive evaluation of both open and closed-source state-of-the-art LLMs on Mathador-LM. Our findings reveal that contemporary models struggle with Mathador-LM, scoring significantly lower than average 5th graders. This stands in stark contrast to their strong performance on popular mathematical reasoning benchmarks.
翻訳日:2024-06-19 19:07:52 公開日:2024-06-18
# フェデレーション学習による拡散モデルの訓練

Training Diffusion Models with Federated Learning ( http://arxiv.org/abs/2406.12575v1 )

ライセンス: Link先を確認
Matthijs de Goede, Bart Cox, Jérémie Decouchant, (参考訳) 画像生成のための拡散ベースのモデルのトレーニングは、主に一部のビッグテック企業によって制御され、トレーニングデータに関する透明性の欠如により、プライバシ、著作権、データ権限に対する懸念が高まります。 この問題に対処するために,ローカルデータを公開せずに拡散モデルの独立的かつ協調的な訓練を可能にするフェデレーション拡散モデルスキームを提案する。 提案手法はFedAvg(Federated Averaging)アルゴリズムに適応し,DDPM(Denoising Diffusion Model)を訓練する。 基礎となるUNetバックボーンの新規利用により、FIDスコアで評価された画像品質を同時に維持しながら、トレーニング中に交換されたパラメータの最大74%の削減を実現した。

The training of diffusion-based models for image generation is predominantly controlled by a select few Big Tech companies, raising concerns about privacy, copyright, and data authority due to their lack of transparency regarding training data. To ad-dress this issue, we propose a federated diffusion model scheme that enables the independent and collaborative training of diffusion models without exposing local data. Our approach adapts the Federated Averaging (FedAvg) algorithm to train a Denoising Diffusion Model (DDPM). Through a novel utilization of the underlying UNet backbone, we achieve a significant reduction of up to 74% in the number of parameters exchanged during training,compared to the naive FedAvg approach, whilst simultaneously maintaining image quality comparable to the centralized setting, as evaluated by the FID score.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# 原型ネットワークを用いた年代別ケパロメトリランドマーク検出

Cephalometric Landmark Detection across Ages with Prototypical Network ( http://arxiv.org/abs/2406.12577v1 )

ライセンス: Link先を確認
Han Wu, Chong Wang, Lanzhuju Mei, Tong Yang, Min Zhu, Dingggang Shen, Zhiming Cui, (参考訳) リアルタイムでの矯正診断には, 自動脳波所見検出が不可欠である。 近年の研究では、成人のみに焦点をあてており、成人と比較して目印が著しく異なる場合が多い青年期が提示する臨床的に重要なシナリオを無視している。 したがって、青年や成人を含む様々な年齢層で統一的で効果的な検出アルゴリズムを開発する方法について、オープンな疑問が持ち上がっている。 本稿では,CeLDAを提案する。 本手法は,画像特徴とランドマークプロトタイプを比較することで,ランドマーク検出のためのプロトタイプネットワークを利用する。 年齢群間のランドマークの出現差に対処するために,CeLDAの新しい戦略を設計し,プロトタイプアライメントを改善し,大規模なトレーニング画像からランドマークプロトタイプの全体像を推定する。 さらに、ランドマークプロトタイプ間の解剖学的関係を活用するために、新しいプロトタイプ関係マイニングパラダイムが導入された。 広範囲にわたる実験は、成人および思春期の被験者の頭蓋計測的ランドマークの検出におけるCeLDAの優位性を検証した。 我々の知る限り、これは年齢層間での脳波のランドマーク検出のための統合ソリューションとデータセットを開発するための最初の取り組みである。 私たちのコードとデータセットはhttps://github.com/ShanghaiTech-IMPACT/Cephalometric-Landmark-across-Ages-with-Prototypeal-Networkで公開されます。

Automated cephalometric landmark detection is crucial in real-world orthodontic diagnosis. Current studies mainly focus on only adult subjects, neglecting the clinically crucial scenario presented by adolescents whose landmarks often exhibit significantly different appearances compared to adults. Hence, an open question arises about how to develop a unified and effective detection algorithm across various age groups, including adolescents and adults. In this paper, we propose CeLDA, the first work for Cephalometric Landmark Detection across Ages. Our method leverages a prototypical network for landmark detection by comparing image features with landmark prototypes. To tackle the appearance discrepancy of landmarks between age groups, we design new strategies for CeLDA to improve prototype alignment and obtain a holistic estimation of landmark prototypes from a large set of training images. Moreover, a novel prototype relation mining paradigm is introduced to exploit the anatomical relations between the landmark prototypes. Extensive experiments validate the superiority of CeLDA in detecting cephalometric landmarks on both adult and adolescent subjects. To our knowledge, this is the first effort toward developing a unified solution and dataset for cephalometric landmark detection across age groups. Our code and dataset will be made public on https://github.com/ShanghaiTech-IMPACT/Cephalometric-Landmark-Detection-across-Ages-with-Prototypica l-Network
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# 組立の分類としてのトークン生成処理によるLCMコミュニティの焼成の破壊

Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling ( http://arxiv.org/abs/2406.12585v1 )

ライセンス: Link先を確認
Yao-Ching Yu, Chun-Chih Kuo, Ziqi Ye, Yu-Cheng Chang, Yueh-Se Li, (参考訳) 複数のモデルを組み立てることは常に、既存の性能の限界を押し上げる効果的なアプローチであり、複数の分類器から分類確率ベクトルを平均化し、精度を向上させることで、分類タスクに広く利用されている。 しかし、オープンソースのLarge Language Model (LLM) コミュニティでは、アンサンブル手法はまれであり、通常はランサーを用いて最高の出力を選択するなど、LLMのフルテキスト出力のアンサンブルに限られており、トークンレベルの確率情報の未利用につながる。 本稿では,LLMによる各トークンの生成を,アンサンブルのための分類(GaC)として扱う。 このアプローチは、各生成ステップの確率情報を完全に活用し、LSMが早期の不正なトークンを生成できないようにし、スノーボールエラーを引き起こす。 実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。 さらに,回答のトークンの大部分は単純であり,最終回答の正しさには影響しないことがわかった。 また,キートークンのみをアンサンブルする実験を行い,ベンチマーク間のレイテンシを低くすることで,性能が向上した。

Ensembling multiple models has always been an effective approach to push the limits of existing performance and is widely used in classification tasks by simply averaging the classification probability vectors from multiple classifiers to achieve better accuracy. However, in the thriving open-source Large Language Model (LLM) community, ensembling methods are rare and typically limited to ensembling the full-text outputs of LLMs, such as selecting the best output using a ranker, which leads to underutilization of token-level probability information. In this paper, we treat the Generation of each token by LLMs as a Classification (GaC) for ensembling. This approach fully exploits the probability information at each generation step and better prevents LLMs from producing early incorrect tokens that lead to snowballing errors. In experiments, we ensemble state-of-the-art LLMs on several benchmarks, including exams, mathematics and reasoning, and observe that our method breaks the existing community performance ceiling. Furthermore, we observed that most of the tokens in the answer are simple and do not affect the correctness of the final answer. Therefore, we also experimented with ensembling only key tokens, and the results showed better performance with lower latency across benchmarks.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# 復元機:1組のパラメータで複数画像復元タスクを解く

Restorer: Solving Multiple Image Restoration Tasks with One Set of Parameters ( http://arxiv.org/abs/2406.12587v1 )

ライセンス: Link先を確認
Jiawei Mao, Xuesong Yin, Yuanqi Chang, (参考訳) 画像復元には多くの優れた解法があるが、単一の画像復元タスク用に特別に設計されているという事実は、他の種類の画像復元タスクにおいて、それらが最先端(SOTA)になることを防ぐ可能性がある。 いくつかのアプローチでは複数の画像復元タスクを検討する必要があるが、現実の要求に十分ではないため、タスクの混乱に悩まされる可能性がある。 本研究では,デライニング,デリーディング,デファッジング,デブロアリング,デノイング,低照度化を含む複数の画像復元タスクに対して,統一的で効果的なソリューションを設計することに焦点を当てる。 以上の目的に基づき,U-Netアーキテクチャを用いたTransformer Network Restorerを提案する。 複数の画像復元作業において、劣化した情報を効果的に処理するには、より包括的な注意機構が必要である。 そこで我々は,立体埋め込みと3次元畳み込みによる全軸アテンション(AAA)を設計し,空間次元とチャネル次元の両方における長距離依存性を同時にモデル化し,全軸間のポテンシャル相関を捉える。 さらに,テキストのプロンプトに基づくレゾラーを提案する。 学習可能なクエリを利用する従来の方法と比較して、テキストプロンプトは、学習可能なクエリから生じるタスクの混乱を解消し、対話性を導入するために、明示的なタスク前処理をもたらす。 これらの設計に基づいて、Restorerは複数の画像復元タスクにおいてSOTAまたは同等のパフォーマンスを、これらの個々のタスク用に特別に設計された普遍的な画像復元フレームワークやメソッドと比較する。 一方、Restorerは推論時に高速である。 以上の結果は、実世界のテスト結果とともに、Restorerは複数の実世界のイメージ復元タスクのバックボーンとして機能する可能性があることを示している。

Although there are many excellent solutions in image restoration, the fact that they are specifically designed for a single image restoration task may prevent them from being state-of-the-art (SOTA) in other types of image restoration tasks. While some approaches require considering multiple image restoration tasks, they are still not sufficient for the requirements of the real world and may suffer from the task confusion issue. In this work, we focus on designing a unified and effective solution for multiple image restoration tasks including deraining, desnowing, defogging, deblurring, denoising, and low-light enhancement. Based on the above purpose, we propose a Transformer network Restorer with U-Net architecture. In order to effectively deal with degraded information in multiple image restoration tasks, we need a more comprehensive attention mechanism. Thus, we design all-axis attention (AAA) through stereo embedding and 3D convolution, which can simultaneously model the long-range dependencies in both spatial and channel dimensions, capturing potential correlations among all axis. Moreover, we propose a Restorer based on textual prompts. Compared to previous methods that employ learnable queries, textual prompts bring explicit task priors to solve the task confusion issue arising from learnable queries and introduce interactivity. Based on these designs, Restorer demonstrates SOTA or comparable performance in multiple image restoration tasks compared to universal image restoration frameworks and methods specifically designed for these individual tasks. Meanwhile, Restorer is faster during inference. The above results along with the real-world test results show that Restorer has the potential to serve as a backbone for multiple real-world image restoration tasks.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# UIFV: 垂直的フェデレーション学習におけるデータ再構成攻撃

UIFV: Data Reconstruction Attack in Vertical Federated Learning ( http://arxiv.org/abs/2406.12588v1 )

ライセンス: Link先を確認
Jirui Yang, Peng Chen, Zhihui Lu, Qiang Duan, Yubing Bao, (参考訳) Vertical Federated Learning (VFL)は、参加者が生のプライベートデータを共有することなく、協調的な機械学習を促進する。 しかし、近年の研究では、学習プロセス中にデータ漏洩によって、敵が機密性を再構築する可能性のあるプライバシーリスクが明らかにされている。 勾配情報やモデル情報に基づくデータ再構成手法はやや効果があるが、VFLアプリケーションのシナリオに制限があることを明らかにする。 これは、これらの伝統的なメソッドが特定のモデル構造に強く依存し、または/またはアプリケーションのシナリオに厳格な制限があるためです。 これを解決するために、我々はUnified InverNet FrameworkをVFLに導入した。これは、勾配やモデルの詳細に頼るのではなく、中間機能データを利用してオリジナルのデータを再構築する、新しく柔軟なアプローチ(UIFVと呼ばれる)をもたらす。 中間特徴データは、VFLの推論フェーズにおいて、異なる参加者によって交換される特徴である。 4つのデータセットの実験により、我々の手法は攻撃精度において最先端技術を大幅に上回っていることが示された。 我々の研究は、実用的なVFLアプリケーションに真の脅威をもたらす、VFLシステム内の深刻なプライバシの脆弱性を明らかにし、VFLアーキテクチャにおけるさらなるプライバシー保護の必要性を確認する。

Vertical Federated Learning (VFL) facilitates collaborative machine learning without the need for participants to share raw private data. However, recent studies have revealed privacy risks where adversaries might reconstruct sensitive features through data leakage during the learning process. Although data reconstruction methods based on gradient or model information are somewhat effective, they reveal limitations in VFL application scenarios. This is because these traditional methods heavily rely on specific model structures and/or have strict limitations on application scenarios. To address this, our study introduces the Unified InverNet Framework into VFL, which yields a novel and flexible approach (dubbed UIFV) that leverages intermediate feature data to reconstruct original data, instead of relying on gradients or model details. The intermediate feature data is the feature exchanged by different participants during the inference phase of VFL. Experiments on four datasets demonstrate that our methods significantly outperform state-of-the-art techniques in attack precision. Our work exposes severe privacy vulnerabilities within VFL systems that pose real threats to practical VFL applications and thus confirms the necessity of further enhancing privacy protection in the VFL architecture.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# 最小強化学習環境の発見

Discovering Minimal Reinforcement Learning Environments ( http://arxiv.org/abs/2406.12589v1 )

ライセンス: Link先を確認
Jarek Liesen, Chris Lu, Andrei Lupu, Jakob N. Foerster, Henning Sprekeler, Robert T. Lange, (参考訳) 強化学習(RL)エージェントは、通常、同じ環境で訓練され、評価される。 対照的に、人間は試験を受ける前に本を勉強するなど、評価される前に専門的な環境で訓練することが多い。 このような専門的な訓練環境のポテンシャルは、トレーニングを劇的にスピードアップする能力にもかかわらず、まだ非常に過小評価されている。 合成環境のフレームワークは、メタ学習ニューラルネットワークに基づくマルコフ決定プロセス(MDP)によって、この方向への第一歩を踏み出す。 最初のアプローチはおもちゃの問題に限られ、未知のRLアルゴリズムに移行しない環境を生み出した。 このアプローチを3つの方法で拡張する: まず、ハイパーパラメータ設定や学習アルゴリズムに不変な環境を見つけるために、メタ学習アルゴリズムを変更します。 第2に、ハードウェア並列性を活用し、エージェントの評価エピソード水平線上にカリキュラムを導入することにより、いくつかの挑戦的な連続制御問題に対する競合的な結果が得られる。 第3に, 複雑なMDPであっても, 評価環境に良好に移行するRLエージェントの訓練が可能になる。 そこで我々は, 合成MDPと同等に動作し, 評価環境にさらなる洞察を与え, 下流のアプリケーションを高速化する合成文脈包帯を訓練するために, 実験をセットアップした。

Reinforcement learning (RL) agents are commonly trained and evaluated in the same environment. In contrast, humans often train in a specialized environment before being evaluated, such as studying a book before taking an exam. The potential of such specialized training environments is still vastly underexplored, despite their capacity to dramatically speed up training. The framework of synthetic environments takes a first step in this direction by meta-learning neural network-based Markov decision processes (MDPs). The initial approach was limited to toy problems and produced environments that did not transfer to unseen RL algorithms. We extend this approach in three ways: Firstly, we modify the meta-learning algorithm to discover environments invariant towards hyperparameter configurations and learning algorithms. Secondly, by leveraging hardware parallelism and introducing a curriculum on an agent's evaluation episode horizon, we can achieve competitive results on several challenging continuous control problems. Thirdly, we surprisingly find that contextual bandits enable training RL agents that transfer well to their evaluation environment, even if it is a complex MDP. Hence, we set up our experiments to train synthetic contextual bandits, which perform on par with synthetic MDPs, yield additional insights into the evaluation environment, and can speed up downstream applications.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# ベールを解き放つ:画像におけるプライバシーと著作権保護の概念のアブレーションに関する調査

Unmasking the Veil: An Investigation into Concept Ablation for Privacy and Copyright Protection in Images ( http://arxiv.org/abs/2406.12592v1 )

ライセンス: Link先を確認
Shivank Garg, Manyana Tiwari, (参考訳) 本稿では,「テキストから画像への拡散モデルにおけるAblating Concepts in Text-to-Image Diffusion Models」で導入された事前学習モデルにおける概念アブレーションの研究を拡大する(Kumari et al ,2022)。 我々の研究は、事前に定義されたメトリクスを通して提案され、検証された概念の異なる変種によって達成された結果を再現することに焦点を当てている。 また,新しい概念アブレーション,すなわち「商標アブレーション」も導入する。 この変種は、記憶の原理とインスタンスのアブレーションを組み合わせて、モデル出力におけるプロプライエタリな要素やブランド化された要素の微妙な影響に取り組む。 さらに,本研究は,モデルの限界を観察的に分析することを含む。 さらに、間接的に概念をアブレーションし、モデルのレジリエンスと適応性に関する洞察を明らかにするアブレーションリーク誘導プロンプトに応答して、モデルの挙動を考察する。 また,対象のアブレーション概念から遠く離れた概念によって生成された画像に対して,モデルの性能劣化を観察する。

In this paper, we extend the study of concept ablation within pre-trained models as introduced in 'Ablating Concepts in Text-to-Image Diffusion Models' by (Kumari et al.,2022). Our work focuses on reproducing the results achieved by the different variants of concept ablation proposed and validated through predefined metrics. We also introduce a novel variant of concept ablation, namely 'trademark ablation'. This variant combines the principles of memorization and instance ablation to tackle the nuanced influence of proprietary or branded elements in model outputs. Further, our research contributions include an observational analysis of the model's limitations. Moreover, we investigate the model's behavior in response to ablation leakage-inducing prompts, which aim to indirectly ablate concepts, revealing insights into the model's resilience and adaptability. We also observe the model's performance degradation on images generated by concepts far from its target ablation concept, documented in the appendix.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# PromptDSI: 文書検索のためのPrompt-based Rehearsal-free Instance-wise Incremental Learning

PromptDSI: Prompt-based Rehearsal-free Instance-wise Incremental Learning for Document Retrieval ( http://arxiv.org/abs/2406.12593v1 )

ライセンス: Link先を確認
Tuan-Luc Huynh, Thuy-Trang Vu, Weiqing Wang, Yinwei Wei, Trung Le, Dragan Gasevic, Yuan-Fang Li, Thanh-Toan Do, (参考訳) Differentiable Search Index (DSI) は、事前訓練された言語モデル(PLM)を用いて、外部インデックスに依存しない効率的な文書検索を行う。 しかし、DSIは動的コーパスの更新を処理するために完全な再トレーニングを必要とし、計算の非効率さを著しく引き起こす。 PromptDSIはリハーサルフリーで,文書検索における逐次学習のためのプロンプトベースアプローチである。 PromptDSIは、凍ったPLMのDSIエンコーダにプロンプトを付加し、その強力な表現を活用して、安定性と可塑性のバランスを維持しながら、新しいコーパスを効率的にインデックスする。 トレーニング時間と推論時間を2倍にするプロンプトベースの連続学習手法の最初の前方通過を除去する。 さらに,ニューラルネットワークを固定キーとして組み込んだトピック認識プロンプトプールを提案する。 この戦略は、クエリキーマッチング機構の崩壊によって引き起こされるパラメータの未利用化の課題に対処し、多種多様な効果的なプロンプトの使用を保証する。 実験により, PromptDSI と IncDSI が一致し, 新たなコーパスのリコール率を4%以上向上した。

Differentiable Search Index (DSI) utilizes Pre-trained Language Models (PLMs) for efficient document retrieval without relying on external indexes. However, DSIs need full re-training to handle updates in dynamic corpora, causing significant computational inefficiencies. We introduce PromptDSI, a rehearsal-free, prompt-based approach for instance-wise incremental learning in document retrieval. PromptDSI attaches prompts to the frozen PLM's encoder of DSI, leveraging its powerful representation to efficiently index new corpora while maintaining a balance between stability and plasticity. We eliminate the initial forward pass of prompt-based continual learning methods that doubles training and inference time. Moreover, we propose a topic-aware prompt pool that employs neural topic embeddings as fixed keys. This strategy ensures diverse and effective prompt usage, addressing the challenge of parameter underutilization caused by the collapse of the query-key matching mechanism. Our empirical evaluations demonstrate that PromptDSI matches IncDSI in managing forgetting while significantly enhancing recall by over 4% on new corpora.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# 遅延オンライン-PAC変換による混合過程の一般化境界

Generalization bounds for mixing processes via delayed online-to-PAC conversions ( http://arxiv.org/abs/2406.12600v1 )

ライセンス: Link先を確認
Baptiste Abeles, Eugenio Clerico, Gergely Neu, (参考訳) 本研究では, 定常混合プロセスからトレーニングデータをサンプリングし, 統計的学習アルゴリズムの一般化誤差について検討する。 我々は,遅延フィードバックによるオンライン学習の削減に基づく,このシナリオの分析フレームワークを開発した。 特に,制約付き後悔を伴うオンライン学習アルゴリズムの存在は,データシーケンスが混合時系列からサンプリングされても,その統計的学習手法の一般化誤差が低いことを示す。 このレートは、オンライン学習ゲームにおける遅延の量と連続したデータポイント間の依存度とのトレードオフを示し、遅延がプロセスの混合時間の関数として適切に調整された場合に、多くのよく研究された設定でほぼ最適なレートを回復する。

We study the generalization error of statistical learning algorithms in a non-i.i.d. setting, where the training data is sampled from a stationary mixing process. We develop an analytic framework for this scenario based on a reduction to online learning with delayed feedback. In particular, we show that the existence of an online learning algorithm with bounded regret (against a fixed statistical learning algorithm in a specially constructed game of online learning with delayed feedback) implies low generalization error of said statistical learning method even if the data sequence is sampled from a mixing time series. The rates demonstrate a trade-off between the amount of delay in the online learning game and the degree of dependence between consecutive data points, with near-optimal rates recovered in a number of well-studied settings when the delay is tuned appropriately as a function of the mixing time of the process.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# ハイブリッドテレメトリを用いたパケット光ネットワークの強化学習に基づくルーティング

Reinforcement-Learning based routing for packet-optical networks with hybrid telemetry ( http://arxiv.org/abs/2406.12602v1 )

ライセンス: Link先を確認
A. L. García Navarro, Nataliia Koneva, Alfonso Sánchez-Macián, José Alberto Hernández, Óscar González de Dios, J. M. Rivas-Moscoso, (参考訳) 本稿では,パケット-光ネットワークシナリオにおける最適経路を見つけるための強化学習アルゴリズムの方法論とオープンソース実装について述べる。 このアルゴリズムは、物理層(前FECビットエラー率と伝搬遅延)とリンク層(リンク負荷)によって提供される測定値を用いて、そのような測定値に基づいてレイテンシベースの報酬と罰則のセットを構成する。 そして、最適なルーティング戦略を見つけるために、この一連の報酬に基づいてQ-ラーニングを実行する。 さらに, 前FEC BERで測定したリンク負荷変化やリンク劣化に対する最適ポリシーの再計算により, ネットワーク条件の変化に動的に適応することを示した。

This article provides a methodology and open-source implementation of Reinforcement Learning algorithms for finding optimal routes in a packet-optical network scenario. The algorithm uses measurements provided by the physical layer (pre-FEC bit error rate and propagation delay) and the link layer (link load) to configure a set of latency-based rewards and penalties based on such measurements. Then, the algorithm executes Q-learning based on this set of rewards for finding the optimal routing strategies. It is further shown that the algorithm dynamically adapts to changing network conditions by re-calculating optimal policies upon either link load changes or link degradation as measured by pre-FEC BER.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# Web攻撃検出分野におけるディープラーニングモデルの攻撃と防御

Attack and Defense of Deep Learning Models in the Field of Web Attack Detection ( http://arxiv.org/abs/2406.12605v1 )

ライセンス: Link先を確認
Lijia Shi, Shihao Dong, (参考訳) WAD(Web攻撃検出)の課題は、ハッカーが従来の検出を回避するための方法を継続的に洗練することにある。 ディープラーニングモデルは、その強力な一般化と適応性のために、複雑な未知の攻撃を扱うのに優れている。 しかし、それらはバックドア攻撃に弱いため、コンテキスト的に無関係なフラグメントがリクエストに挿入され、モデルの安定性が損なわれる。 バックドア攻撃は画像認識においてよく研究されているが、WADでは研究されていない。 本稿では,WADにおけるバックドア攻撃について紹介し,その対策と対策について述べる。 textCNN、biLSTM、および littlebertモデルでのテストでは、微調整によって再現可能な87%以上の攻撃成功率を示している。 今後の研究は、WADのバックドア防衛に焦点を当てるべきである。 この論文のコードとデータは、https://anonymous.4open.science/r/ attackDefenceinDL-7E05で取得できる。

The challenge of WAD (web attack detection) is growing as hackers continuously refine their methods to evade traditional detection. Deep learning models excel in handling complex unknown attacks due to their strong generalization and adaptability. However, they are vulnerable to backdoor attacks, where contextually irrelevant fragments are inserted into requests, compromising model stability. While backdoor attacks are well studied in image recognition, they are largely unexplored in WAD. This paper introduces backdoor attacks in WAD, proposing five methods and corresponding defenses. Testing on textCNN, biLSTM, and tinybert models shows an attack success rate over 87%, reducible through fine-tuning. Future research should focus on backdoor defenses in WAD. All the code and data of this paper can be obtained at https://anonymous.4open.science/r/attackDefenceinDL-7E05
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# 大規模言語モデルアライメントのための低冗長最適化

Low-Redundant Optimization for Large Language Model Alignment ( http://arxiv.org/abs/2406.12606v1 )

ライセンス: Link先を確認
Zhipeng Chen, Kun Zhou, Wayne Xin Zhao, Jingyuan Wang, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。 トレーニングデータの予期せぬパターンや表面的なスタイルに過度に適合する傾向があります。 我々は,LLMにおけるアライメントトレーニングにおける最上位10倍のパラメータのみを選択する実験的な研究を行い,収束過程と最終性能の改善を確認した。 これは、アライメントトレーニングのためのLSMに冗長ニューロンが存在することを示している。 その影響を低減するために,最も有用な教師付き信号で最も関連性の高いニューロンを最適化することを目的とした,低輝度アライメント法である「textbf{ALLO}」を提案する。 具体的には、まず、勾配に基づく戦略により人間の嗜好データに関連するニューロンを特定し、次に、計算損失に対する報酬モデルによりアライメント関連キートークンを同定する。 さらに、アライメントプロセスを、まず不整合知識を持つトークンを忘れ、次に、それぞれ異なるニューロンの比率を更新することによって、アライメントの過程を忘れ、学習段階に分解する。 10個のデータセットに対する実験結果から、ALLOの有効性が示された。 私たちのコードとデータは、 \url{https://github.com/RUCAIBox/ALLO}で利用可能です。

Large language models (LLMs) are still struggling in aligning with human preference in complex tasks and scenarios. They are prone to overfit into the unexpected patterns or superficial styles in the training data. We conduct an empirical study that only selects the top-10\% most updated parameters in LLMs for alignment training, and see improvements in the convergence process and final performance. It indicates the existence of redundant neurons in LLMs for alignment training. To reduce its influence, we propose a low-redundant alignment method named \textbf{ALLO}, focusing on optimizing the most related neurons with the most useful supervised signals. Concretely, we first identify the neurons that are related to the human preference data by a gradient-based strategy, then identify the alignment-related key tokens by reward models for computing loss. Besides, we also decompose the alignment process into the forgetting and learning stages, where we first forget the tokens with unaligned knowledge and then learn aligned knowledge, by updating different ratios of neurons, respectively. Experimental results on 10 datasets have shown the effectiveness of ALLO. Our code and data are available at \url{https://github.com/RUCAIBox/ALLO}.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# テキスト分散グラフにおける局所的詳細とグローバルコンテキスト

Bridging Local Details and Global Context in Text-Attributed Graphs ( http://arxiv.org/abs/2406.12608v1 )

ライセンス: Link先を確認
Yaoke Wang, Yun Zhu, Wenqiao Zhang, Yueting Zhuang, Yunfei Li, Siliang Tang, (参考訳) テキスト分散グラフ(TAG)上の表現学習は、意味的テキストと文脈的構造情報を組み合わせた実世界のアプリケーションにとって不可欠である。 この分野での研究は一般的に、局所的なエンコーディングとグローバルなアグリゲーションという2つの主要な視点から成り、それぞれがテキストノード情報の統合(例えば、言語モデル)と構造拡張モデリング(例えば、グラフニューラルネットワーク)を参照する。 既存のほとんどの研究は、異なる情報レベルを組み合わせることに集中しているが、相互接続、すなわち、局所的およびグローバルなレベルを橋渡しするための意味的な洞察を提供するノード間のコンテキスト的テキスト情報を見落としている。 本稿では,テクスチャ情報を活用し,TAGのきめ細かい理解を高めることで,局所的およびグローバルな視点を橋渡しする多言語統合フレームワークであるGraphBridgeを提案する。 さらに,スケーラビリティと効率の課題に対処するために,グラファイア・トークン削減モジュールを導入する。 各種モデルおよびデータセットにわたる大規模な実験により,本手法は最先端の性能を実現する一方,グラフ対応トークン低減モジュールは効率を著しく向上し,スケーラビリティの問題を解決している。

Representation learning on text-attributed graphs (TAGs) is vital for real-world applications, as they combine semantic textual and contextual structural information. Research in this field generally consist of two main perspectives: local-level encoding and global-level aggregating, respectively refer to textual node information unification (e.g., using Language Models) and structure-augmented modeling (e.g., using Graph Neural Networks). Most existing works focus on combining different information levels but overlook the interconnections, i.e., the contextual textual information among nodes, which provides semantic insights to bridge local and global levels. In this paper, we propose GraphBridge, a multi-granularity integration framework that bridges local and global perspectives by leveraging contextual textual information, enhancing fine-grained understanding of TAGs. Besides, to tackle scalability and efficiency challenges, we introduce a graphaware token reduction module. Extensive experiments across various models and datasets show that our method achieves state-of-theart performance, while our graph-aware token reduction module significantly enhances efficiency and solves scalability issues.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# Encoder Prompting を用いた多言語E2E音声認識のための高速言語適応

Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting ( http://arxiv.org/abs/2406.12611v1 )

ライセンス: Link先を確認
Yosuke Kashiwagi, Hayato Futami, Emiru Tsunoo, Siddhant Arora, Shinji Watanabe, (参考訳) エンドツーエンドの多言語音声認識モデルは、1つのモデルを通して複数の言語を処理し、しばしば言語識別を組み込んで言語を自動的に検出する。 一般的なシナリオは、言語が既に知られている場所にあるため、これらのモデルは言語情報をプロンプトとして使うことで言語固有のものとして機能し、特に注意に基づくエンコーダ・デコーダアーキテクチャにおいて有益である。 しかし、コネクショニスト時間分類(CTC)アプローチは、ジョイントデコーディングとマルチタスクトレーニングを通じて認識を高めるが、条件に依存しない出力トークンのため、通常は言語プロンプトを組み込まない。 これを解決するために, 自己条件付きCTCフレームワーク内にエンコーダプロンプト技術を導入し, ゼロショット方式でCTCモデルの言語固有の適応を可能にする。 提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。

End-to-end multilingual speech recognition models handle multiple languages through a single model, often incorporating language identification to automatically detect the language of incoming speech. Since the common scenario is where the language is already known, these models can perform as language-specific by using language information as prompts, which is particularly beneficial for attention-based encoder-decoder architectures. However, the Connectionist Temporal Classification (CTC) approach, which enhances recognition via joint decoding and multi-task training, does not normally incorporate language prompts due to its conditionally independent output tokens. To overcome this, we introduce an encoder prompting technique within the self-conditioned CTC framework, enabling language-specific adaptation of the CTC model in a zero-shot manner. Our method has shown to significantly reduce errors by 28% on average and by 41% on low-resource languages.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# EUvsDisinfo:ニュース記事におけるプロクレムリン情報の多言語検出用データセット

EUvsDisinfo: a Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles ( http://arxiv.org/abs/2406.12614v1 )

ライセンス: Link先を確認
João A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton, (参考訳) この研究は、EUvsDisinfoという、親クレムリンのテーマに関連する信頼に値する、偽情報の多言語データセットを紹介している。 EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。 我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。 また、最大の話題や時間的報道も提供している。 本データセットを用いて,各言語にまたがるプロクレムリン情報の拡散について検討し,特定の偽情報トピックを対象とする言語固有のパターンを明らかにする。 さらに、2022年のウクライナ侵攻以前には、偽情報の内容が顕著に急増していたことを指摘し、8年間の話題分布の進化を分析した。 最後に、トレーニングモデルにおけるデータセットの適用性を示し、多言語設定における偽情報と信頼できるコンテンツを効果的に区別する。

This work introduces EUvsDisinfo, a multilingual dataset of trustworthy and disinformation articles related to pro-Kremlin themes. It is sourced directly from the debunk articles written by experts leading the EUvsDisinfo project. Our dataset is the largest to-date resource in terms of the overall number of articles and distinct languages. It also provides the largest topical and temporal coverage. Using this dataset, we investigate the dissemination of pro-Kremlin disinformation across different languages, uncovering language-specific patterns targeting specific disinformation topics. We further analyse the evolution of topic distribution over an eight-year period, noting a significant surge in disinformation content before the full-scale invasion of Ukraine in 2022. Lastly, we demonstrate the dataset's applicability in training models to effectively distinguish between disinformation and trustworthy content in multilingual settings.
翻訳日:2024-06-19 18:58:07 公開日:2024-06-18
# バイアスフリーのReLUネットワークはいつリニアネットワークになるのか?

When Are Bias-Free ReLU Networks Like Linear Networks? ( http://arxiv.org/abs/2406.12615v1 )

ライセンス: Link先を確認
Yedi Zhang, Andrew Saxe, Peter E. Latham, (参考訳) バイアスのないReLUネットワークの表現性と学習ダイナミクスについて検討する。 まず、2層バイアスのないReLUネットワークは限定的な表現性を持つことを示す: 唯一の奇関数である2層バイアスのないReLUネットワークは線形である。 次に、データ上の対称性条件下では、これらのネットワークは線形ネットワークと同じ学習力学を持つことを示す。 これにより、遅延学習体制以外の非線形ネットワークでは行われていない2層バイアスのないReLUネットワークに対して、閉形式の時間軸解を与えることができる。 ディープバイアスのないReLUネットワークは2層ネットワークよりも表現力が高いが、ディープ線形ネットワークと多くの類似点を共有している。 これらの類似性により線形ネットワークからの洞察を活用でき、バイアスのないReLUネットワークの新たな理解につながる。 以上の結果から, 線形ネットワークと等価性から, バイアスのないReLUネットワークに確立されたいくつかの特性が生じることが示唆され, バイアスや非対称データを考慮した場合の非線形挙動への関与が示唆された。

We investigate the expressivity and learning dynamics of bias-free ReLU networks. We firstly show that two-layer bias-free ReLU networks have limited expressivity: the only odd function two-layer bias-free ReLU networks can express is a linear one. We then show that, under symmetry conditions on the data, these networks have the same learning dynamics as linear networks. This allows us to give closed-form time-course solutions to certain two-layer bias-free ReLU networks, which has not been done for nonlinear networks outside the lazy learning regime. While deep bias-free ReLU networks are more expressive than their two-layer counterparts, they still share a number of similarities with deep linear networks. These similarities enable us to leverage insights from linear networks, leading to a novel understanding of bias-free ReLU networks. Overall, our results show that some properties established for bias-free ReLU networks arise due to equivalence to linear networks, and suggest that including bias or considering asymmetric data are avenues to engage with nonlinear behaviors.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 光速での拡散学習

Learning Diffusion at Lightspeed ( http://arxiv.org/abs/2406.12616v1 )

ライセンス: Link先を確認
Antonio Terpin, Nicolas Lanzetti, Florian Dörfler, (参考訳) 拡散は自然過程の現象の数と多くの成功した生成モデルの力学を調節する。 観測データから拡散項を学習する既存のモデルは、複雑な二段階最適化問題に依存し、システムのドリフトのみを適切にモデル化する。 JKOnet*は、既存のアーキテクチャの複雑さを完全に回避し、表現能力を大幅に向上させる新しい単純なモデルであるJKOnet*を提案する。 JKOnet*は、単純な二次的な損失を最小限に抑え、光速で走り、実際は他のベースラインよりも大幅に優れています。 さらに、JKOnet* は線型パラメトリズド汎函数に対する閉形式最適解を提供する。 提案手法は, 拡散過程を, 確率空間におけるエネルギー最小化軌道として解釈し, 確率空間における最適化の2、3週間の進歩を考慮し, JKOスキームと呼ばれる一階最適性条件を用いて研究する。

Diffusion regulates a phenomenal number of natural processes and the dynamics of many successful generative models. Existing models to learn the diffusion terms from observational data rely on complex bilevel optimization problems and properly model only the drift of the system. We propose a new simple model, JKOnet*, which bypasses altogether the complexity of existing architectures while presenting significantly enhanced representational capacity: JKOnet* recovers the potential, interaction, and internal energy components of the underlying diffusion process. JKOnet* minimizes a simple quadratic loss, runs at lightspeed, and drastically outperforms other baselines in practice. Additionally, JKOnet* provides a closed-form optimal solution for linearly parametrized functionals. Our methodology is based on the interpretation of diffusion processes as energy-minimizing trajectories in the probability space via the so-called JKO scheme, which we study via its first-order optimality conditions, in light of few-weeks-old advancements in optimization in the probability space.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 洞察から行動へ:解釈可能性と分析研究がNLPに与える影響

From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP ( http://arxiv.org/abs/2406.12618v1 )

ライセンス: Link先を確認
Marius Mosbach, Vagrant Gautam, Tomás Vergara-Browne, Dietrich Klakow, Mor Geva, (参考訳) 解釈可能性と分析(IA: Interpretability and Analysis)研究は、NLPシステムや手法の振る舞いや内部動作をより深く理解することを目的として、NLP内の成長するサブフィールドである。 サブフィールドへの関心が高まっているにもかかわらず、一般的に声高に言われる批判は、それが実行可能な洞察を欠いているため、NLPにはほとんど影響を与えないということである。 本稿では,IA研究がNLPの幅広い分野に与える影響を定量化する。 1)2018年から2023年までのACLおよびEMNLP会議の全論文から作成された185K以上の論文の引用グラフと,(2)NLPコミュニティの138名を対象にした調査を行った。 定量分析の結果,IAの作用はIAの外部でよく活性化され,NLPの励起グラフの中心にあることが明らかとなった。 調査回答の質的分析と556論文のマニュアルアノテーションにより,NLP研究者はIA研究の成果に基づいて,NLP,複数のサブフィールドの進展に重要であると認識し,その発見と用語を自身の研究に頼っている。 多くの新しい方法がIAの発見に基づいて提案され、その影響が強いが、非IAの研究の影響力は、IAの発見に駆り立てられることなく、IAの発見を引用している。 我々は、IA研究のより影響力のある未来への道を開くために、今日の仕事で欠落しているものを要約し、行動を呼び起こすことで、最終的に終わります。

Interpretability and analysis (IA) research is a growing subfield within NLP with the goal of developing a deeper understanding of the behavior or inner workings of NLP systems and methods. Despite growing interest in the subfield, a commonly voiced criticism is that it lacks actionable insights and therefore has little impact on NLP. In this paper, we seek to quantify the impact of IA research on the broader field of NLP. We approach this with a mixed-methods analysis of: (1) a citation graph of 185K+ papers built from all papers published at ACL and EMNLP conferences from 2018 to 2023, and (2) a survey of 138 members of the NLP community. Our quantitative results show that IA work is well-cited outside of IA, and central in the NLP citation graph. Through qualitative analysis of survey responses and manual annotation of 556 papers, we find that NLP researchers build on findings from IA work and perceive it is important for progress in NLP, multiple subfields, and rely on its findings and terminology for their own work. Many novel methods are proposed based on IA findings and highly influenced by them, but highly influential non-IA work cites IA findings without being driven by them. We end by summarizing what is missing in IA work today and provide a call to action, to pave the way for a more impactful future of IA research.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 2つのモデルが似ていますか?

What makes two models think alike? ( http://arxiv.org/abs/2406.12620v1 )

ライセンス: Link先を確認
Jeanne Salle, Louis Jalouzot, Nur Lan, Emmanuel Chemla, Yair Lakretz, (参考訳) アーキテクチャの違いは、モデルの表現方法やプロセス言語に大きく影響しますか? 本稿では,メタラーニング符号化モデル(MLEM)に基づく新しい手法を提案する。 このアプローチは、どの2つのモデルの2つの層が言語情報をどのように表現するかを特徴ベースの比較を提供する。 本手法をBERT, GPT-2, Mambaに適用する。 従来の方法とは異なり、MLEMは類似性と相違の原因となる特定の言語的特徴を特定することによって、透過的な比較を提供する。 より一般的には、この手法はドメインの形式的で象徴的な記述を使用し、これらを用いて神経表現を比較する。 そのため、アプローチは音声や視覚などの他の領域や、人間の脳を含む他の神経系にも直接拡張できる。

Do architectural differences significantly affect the way models represent and process language? We propose a new approach, based on metric-learning encoding models (MLEMs), as a first step to answer this question. The approach provides a feature-based comparison of how any two layers of any two models represent linguistic information. We apply the method to BERT, GPT-2 and Mamba. Unlike previous methods, MLEMs offer a transparent comparison, by identifying the specific linguistic features responsible for similarities and differences. More generally, the method uses formal, symbolic descriptions of a domain, and use these to compare neural representations. As such, the approach can straightforwardly be extended to other domains, such as speech and vision, and to other neural systems, including human brains.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 音に木が生える:音声の終端依存パーシングのための戦略の評価

Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech ( http://arxiv.org/abs/2406.12621v1 )

ライセンス: Link先を確認
Adrien Pupier, Maximin Coavoux, Jérôme Goulian, Benjamin Lecouteux, (参考訳) 音声信号の直接依存性解析は、最近、構文解析システムに韻律情報を導入し、最初の自動音声認識(ASR)システムと構文解析システムを使用するパイプラインアプローチの制限を回避し、タスクとして提案されている(Pupier et al 2022)。 本稿では,音声解析における2つの解析パラダイム(グラフベース解析とシーケンスラベリングに基づく解析)の性能評価を目的とした一連の実験について報告する。 我々はこの評価をフランス語の大きな木バンクで行い、現実的な自発的な会話を特徴とする。 以上の結果から (i)グラフベースのアプローチは、ボード全体でより良い結果を得る (ii) パラメータが30%少ないにもかかわらず, 音声から直接の解析はパイプラインアプローチより優れている。

Direct dependency parsing of the speech signal -- as opposed to parsing speech transcriptions -- has recently been proposed as a task (Pupier et al. 2022), as a way of incorporating prosodic information in the parsing system and bypassing the limitations of a pipeline approach that would consist of using first an Automatic Speech Recognition (ASR) system and then a syntactic parser. In this article, we report on a set of experiments aiming at assessing the performance of two parsing paradigms (graph-based parsing and sequence labeling based parsing) on speech parsing. We perform this evaluation on a large treebank of spoken French, featuring realistic spontaneous conversations. Our findings show that (i) the graph based approach obtain better results across the board (ii) parsing directly from speech outperforms a pipeline approach, despite having 30% fewer parameters.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# He-stained Histopathological Images におけるステンデコンボリューションによる画像圧縮

Learned Image Compression for HE-stained Histopathological Images via Stain Deconvolution ( http://arxiv.org/abs/2406.12623v1 )

ライセンス: Link先を確認
Maximilian Fischer, Peter Neher, Tassilo Wald, Silvia Dias Almeida, Shuhan Xiao, Peter Schüffler, Rickmer Braren, Michael Götz, Alexander Muckenhuber, Jens Kleesiek, Marco Nolden, Klaus Maier-Hein, (参考訳) 病理組織学的全スライド画像(WSI)の処理は、世界中のクリニックに大量の保存要件をもたらす。 画像取得中に画像圧縮が失われても、深層学習ベース(DL)下流タスクの性能に悪影響を及ぼすことなく、余分な画像圧縮が可能となる。 本稿では,一般のJPEGアルゴリズムがさらなる圧縮に適さないことを示すとともに,新しいDLベースの病理組織データ圧縮手法であるStain Quantized Latent Compression (SQLC)を提案する。 SQLCは圧縮オートエンコーダ(CAE)を通す前に染色とRGBチャネルを圧縮し、圧縮を最大化する量子化潜在表現を得る。 提案手法はJPEGのような従来の手法と比較して,分類ダウンストリームタスクにおいて優れた性能を示し,マルチスケール構造類似度指数(MS-SSIM)のような画像品質指標はほとんど保存されている。 私たちの方法はオンラインで利用可能です。

Processing histopathological Whole Slide Images (WSI) leads to massive storage requirements for clinics worldwide. Even after lossy image compression during image acquisition, additional lossy compression is frequently possible without substantially affecting the performance of deep learning-based (DL) downstream tasks. In this paper, we show that the commonly used JPEG algorithm is not best suited for further compression and we propose Stain Quantized Latent Compression (SQLC ), a novel DL based histopathology data compression approach. SQLC compresses staining and RGB channels before passing it through a compression autoencoder (CAE ) in order to obtain quantized latent representations for maximizing the compression. We show that our approach yields superior performance in a classification downstream task, compared to traditional approaches like JPEG, while image quality metrics like the Multi-Scale Structural Similarity Index (MS-SSIM) is largely preserved. Our method is online available.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 審査員の判断:LCMにおけるアライメントと脆弱性の評価

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges ( http://arxiv.org/abs/2406.12624v1 )

ライセンス: Link先を確認
Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes, (参考訳) LLM-as-a-judgeパラダイムは、人間の評価に関連するスケーラビリティの課題に対して、大きな言語モデル(LLM)を評価するアプローチとして、急速に注目を集めています。 しかし、このパラダイムの強みと弱み、そしてそれが保持する潜在的なバイアスについて、まだ多くのオープンな疑問がある。 本稿では,審査員として機能する多種多様なLLMの性能に関する総合的研究について述べる。 我々は,LLMの客観的知識推論のベンチマークとしてTriviaQAを活用し,高いアノテーション間合意が得られた人間のアノテーションとともに評価する。 私たちの研究には、9つの審査モデルと9つの試験テイカーモデルが含まれています。 審査員モデルのアライメントを、異なるモデルサイズ、家族、および審査員のプロンプトで評価する。 その結果,コーエンのカッパを単純なパーセンテージ合意とは対照的にアライメントの指標として用いることの重要性を再検討し,高いパーセンテージの審査員が依然として極めて異なるスコアを割り当てることができることを示した。 Llama-370B と GPT-4 Turbo はどちらも人間に優れたアライメントを持つが,評価試験のテイカーモデルでは,最大34ポイントのアライメントを有するJiceLM-7B とLexical judge Contains の双方で優れていた。 エラー分析や,命令長や待ち時間バイアスの影響など,さまざまな研究を通じて,今後,LCMを裁判官として活用するための貴重な教訓を提供していきたいと考えています。

Offering a promising solution to the scalability challenges associated with human evaluation, the LLM-as-a-judge paradigm is rapidly gaining traction as an approach to evaluating large language models (LLMs). However, there are still many open questions about the strengths and weaknesses of this paradigm, and what potential biases it may hold. In this paper, we present a comprehensive study of the performance of various LLMs acting as judges. We leverage TriviaQA as a benchmark for assessing objective knowledge reasoning of LLMs and evaluate them alongside human annotations which we found to have a high inter-annotator agreement. Our study includes 9 judge models and 9 exam taker models -- both base and instruction-tuned. We assess the judge model's alignment across different model sizes, families, and judge prompts. Among other results, our research rediscovers the importance of using Cohen's kappa as a metric of alignment as opposed to simple percent agreement, showing that judges with high percent agreement can still assign vastly different scores. We find that both Llama-3 70B and GPT-4 Turbo have an excellent alignment with humans, but in terms of ranking exam taker models, they are outperformed by both JudgeLM-7B and the lexical judge Contains, which have up to 34 points lower human alignment. Through error analysis and various other studies, including the effects of instruction length and leniency bias, we hope to provide valuable lessons for using LLMs as judges in the future.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# SeTAR:選択的低ランク近似によるアウト・オブ・ディストリビューション検出

SeTAR: Out-of-Distribution Detection with Selective Low-Rank Approximation ( http://arxiv.org/abs/2406.12629v1 )

ライセンス: Link先を確認
Yixia Li, Boya Xiong, Guanhua Chen, Yun Chen, (参考訳) ニューラルネットワークの安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。 既存のCLIPベースのアプローチでは、新しいスコアリング機能や洗練された微調整方法を考案してOOD検出を行う。 本研究では,視覚言語および視覚のみのモデルにおける重み行列の選択的低ランク近似を利用する,新しいトレーニング不要なOOD検出手法であるSeTARを提案する。 SeTARは、単純な欲求探索アルゴリズムを用いて、モデルの重量行列のポストホックな修正によるOOD検出を強化する。 さらに,SETARに基づいて,OOD検出タスクのモデル性能を最適化する細調整拡張であるSeTAR+FTを提案する。 ImageNet1KとPascal-VOCベンチマークの大規模な評価は、SeTARの優れた性能を示し、ゼロショットや微調整のベースラインと比較して、偽陽性率を最大18.95%、36.80%削減した。 アブレーション研究は、異なるモデルバックボーン間のアプローチの有効性、堅牢性、一般化可能性をさらに検証する。 私たちの研究は、OOD検出のためのスケーラブルで効率的なソリューションを提供し、この分野で新しい最先端を設定します。

Out-of-distribution (OOD) detection is crucial for the safe deployment of neural networks. Existing CLIP-based approaches perform OOD detection by devising novel scoring functions or sophisticated fine-tuning methods. In this work, we propose SeTAR, a novel, training-free OOD detection method that leverages selective low-rank approximation of weight matrices in vision-language and vision-only models. SeTAR enhances OOD detection via post-hoc modification of the model's weight matrices using a simple greedy search algorithm. Based on SeTAR, we further propose SeTAR+FT, a fine-tuning extension optimizing model performance for OOD detection tasks. Extensive evaluations on ImageNet1K and Pascal-VOC benchmarks show SeTAR's superior performance, reducing the false positive rate by up to 18.95% and 36.80% compared to zero-shot and fine-tuning baselines. Ablation studies further validate our approach's effectiveness, robustness, and generalizability across different model backbones. Our work offers a scalable, efficient solution for OOD detection, setting a new state-of-the-art in this area.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 量子絡み合ったペアの非相互結合発光

Nonreciprocal Bundle Emissions of Quantum Entangled Pairs ( http://arxiv.org/abs/2406.12631v1 )

ライセンス: Link先を確認
Qian Bin, Hui Jing, Ying Wu, Franco Nori, Xin-You Lü, (参考訳) 量子情報処理において、特に量子状態を操作する高度な技術と統合された場合、マルチカンタ発光の正確な制御を実現することが重要である。 ここでは、共振器を回転させてサニャック効果を誘導することにより、光駆動共鳴遷移の条件下で非相互フォトンフォノンとフォトンマグノン超ラビ振動を得ることができる。 このような超ラビ振動に対する散逸チャネルを開くことで、システム外部の束状多量子体に純粋な多重量子状態を移すことで、絡み合った光子-フォノン対と光子-マグノン対の方向束放出を実現することができる。 この非相互放出は、精度で制御できるフレキシブルスイッチであり、異なる絡み合ったペア(フォトンフォノンやフォトンマグノンペアなど)の同時放出は、異なる方向から共振器を駆動することで、反対方向にも現れる。 このシステムを柔軟に操作することで、指向性に絡み合ったマルチクアンタエミッタを実現することができ、ハイブリッド量子ネットワークの構築やオンチップ量子通信にも応用できる可能性がある。

Realizing precise control over multiquanta emission is crucial for quantum information processing, especially when integrated with advanced techniques of manipulating quantum states. Here, by spinning the resonator to induce the Sagnac effect, we can obtain nonreciprocal photon-phonon and photon-magnon super-Rabi oscillations under conditions of optically driving resonance transitions. Opening dissipative channels for such super-Rabi oscillations enables the realization of directional bundle emissions of entangled photon-phonon pairs and photon-magnon pairs by transferring pure multiquanta state to bundled multiquanta outside of the system. This nonreciprocal emission is a flexible switch that can be controlled with precision, and simultaneous emissions of different entangled pairs (such as photon-phonon or photon-magnon pairs) can even emerge but in opposite directions by driving the resonator from different directions. This ability to flexibly manipulate the system allows us to achieve directional entangled multiquanta emitters, and has also potential applications for building hybrid quantum networks and on-chip quantum communications.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# クロスモーダル3次元画像合成における2.5次元周期的損失:T1 MRIからTau-PET

Cyclic 2.5D Perceptual Loss for Cross-Modal 3D Image Synthesis: T1 MRI to Tau-PET ( http://arxiv.org/abs/2406.12632v1 )

ライセンス: Link先を確認
Symac Kim, Junho Moon, Haejun Chung, Ikbeom Jang, (参考訳) アルツハイマー病(英語: Alzheimer's Disease、AD)は認知機能低下とタウタンパク質などのバイオマーカーによって特徴づけられる認知症である。 タウポジトロン・エミッション・トモグラフィー(タウポジトロン・エミッション・トモグラフィ、タウポジトロン・エミッション・トモグラフィ)は、タウタンパク質凝集体を選択的に脳内に結合、検出、可視化するためにラジオトラクサーを用いており、早期AD診断には有用であるが、高いコスト、限られた可用性、その侵襲的な性質のためにアクセスし難い。 ニューラルネットワークを用いた画像合成により、よりアクセスしやすいT1強調磁気共鳴イメージング(MRI)画像からタウPET画像を生成することができる。 高品質な画像合成を実現するため、平均二乗誤差と構造類似度指標(SSIM)損失とを組み合わせた2.5Dの周期的知覚損失を提案する。 周期2.5D知覚損失は、所定のエポック数の軸2D平均知覚損失を逐次計算し、同じエポック数のコロナ面とサジタル面が続く。 この配列は周期的に実行され、周期が繰り返されるにつれて間隔が減少する。 516対のT1w MRIとADNIデータベースからのtau-PET 3D画像を用いて,T1w MRI画像からのtau-PET画像の教師あり合成を行う。 収集したデータに対して,各メーカーのtau-PET画像の強度標準化を含む事前処理を行う。 提案した損失は生成的3D U-Netとその変種に適用され,SSIMの2.5Dおよび3D知覚的損失とピーク信号-雑音比(PSNR)に優れていた。 さらに、サイクロンGANやPix2PixのようなGANベースの画像合成モデルのオリジナルの損失に対する2.5Dの周期的損失を含め、SSIMとPSNRを少なくとも2%と3%改善する。 さらに、バイマニュファクチャラーPET標準化は、min-max PET正規化よりも高品質な画像の合成に有効である。

Alzheimer's Disease (AD) is the most common form of dementia, characterised by cognitive decline and biomarkers such as tau-proteins. Tau-positron emission tomography (tau-PET), which employs a radiotracer to selectively bind, detect, and visualise tau protein aggregates within the brain, is valuable for early AD diagnosis but is less accessible due to high costs, limited availability, and its invasive nature. Image synthesis with neural networks enables the generation of tau-PET images from more accessible T1-weighted magnetic resonance imaging (MRI) images. To ensure high-quality image synthesis, we propose a cyclic 2.5D perceptual loss combined with mean squared error and structural similarity index measure (SSIM) losses. The cyclic 2.5D perceptual loss sequentially calculates the axial 2D average perceptual loss for a specified number of epochs, followed by the coronal and sagittal planes for the same number of epochs. This sequence is cyclically performed, with intervals reducing as the cycles repeat. We conduct supervised synthesis of tau-PET images from T1w MRI images using 516 paired T1w MRI and tau-PET 3D images from the ADNI database. For the collected data, we perform preprocessing, including intensity standardisation for tau-PET images from each manufacturer. The proposed loss, applied to generative 3D U-Net and its variants, outperformed those with 2.5D and 3D perceptual losses in SSIM and peak signal-to-noise ratio (PSNR). In addition, including the cyclic 2.5D perceptual loss to the original losses of GAN-based image synthesis models such as CycleGAN and Pix2Pix improves SSIM and PSNR by at least 2% and 3%. Furthermore, by-manufacturer PET standardisation helps the models in synthesising high-quality images than min-max PET normalisation.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 境界のないニュース: 言語横断ニュースレコメンデーションのための多言語文埋め込みのドメイン適応

News Without Borders: Domain Adaptation of Multilingual Sentence Embeddings for Cross-lingual News Recommendation ( http://arxiv.org/abs/2406.12634v1 )

ライセンス: Link先を確認
Andreea Iana, Fabian David Schmidt, Goran Glavaš, Heiko Paulheim, (参考訳) ニュースレコメンデーションを提供するという点で、ニュースレコメンデーションシステムには、急速に多くの多言語ニュースコンシューマーが挑戦している。 まず、既存のニューラルニュースレコメンダは、マルチリンガル言語モデル(LM)を使用しても、ゼロショットクロスリンガル転送(ZS-XLT)でかなりのパフォーマンス損失を被る。 第2に、タスク固有のデータに対するニューラルレコメンダのバックボーンLMを微調整する現在のパラダイムは、データが不足している、あるいは完全に利用できない、数ショットのレコメンデーションやコールドスタートセットアップにおいて、計算的に高価で実現不可能である。 本研究では,事前訓練された大規模多言語文エンコーダ(SE)からドメイン特化したニュース適応文エンコーダ(NaSE)を提案する。 この目的のために,多言語ニュース特化コーパスであるPolyNewsとPolyNewsParallelを構築し,活用する。 ニュース適応型多言語SEを導入することで、ニュースレコメンデーションのための教師付き微調整の有効性を検証し、シンプルで強力なベースラインを提案する。 (i)冷凍NaSE埋め込み (ii)後期クリック・ビヘイビア融合。 我々は,ZS-XLTにおけるNaSEが,真のコールドスタートおよび少数ショットのニュースレコメンデーションにおいて,最先端のパフォーマンスを達成することを示す。

Rapidly growing numbers of multilingual news consumers pose an increasing challenge to news recommender systems in terms of providing customized recommendations. First, existing neural news recommenders, even when powered by multilingual language models (LMs), suffer substantial performance losses in zero-shot cross-lingual transfer (ZS-XLT). Second, the current paradigm of fine-tuning the backbone LM of a neural recommender on task-specific data is computationally expensive and infeasible in few-shot recommendation and cold-start setups, where data is scarce or completely unavailable. In this work, we propose a news-adapted sentence encoder (NaSE), domain-specialized from a pretrained massively multilingual sentence encoder (SE). To this end, we construct and leverage PolyNews and PolyNewsParallel, two multilingual news-specific corpora. With the news-adapted multilingual SE in place, we test the effectiveness of (i.e., question the need for) supervised fine-tuning for news recommendation, and propose a simple and strong baseline based on (i) frozen NaSE embeddings and (ii) late click-behavior fusion. We show that NaSE achieves state-of-the-art performance in ZS-XLT in true cold-start and few-shot news recommendation.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# ScenEval: シナリオベースのコード生成評価ベンチマーク

ScenEval: A Benchmark for Scenario-Based Evaluation of Code Generation ( http://arxiv.org/abs/2406.12635v1 )

ライセンス: Link先を確認
Debalina Ghosh Paul, Hong Zhu, Ian Bayley, (参考訳) シナリオベースの機械学習モデルの評価において、重要な問題は、さまざまなシナリオを表すテストデータセットを構築する方法である。 本稿では,ベンチマークを構築し,各テストケースにメタデータを付加する手法を提案する。 すると、テストシステムは、メタデータに基づいてテストケースをフィルタリングしてデータセットを形成するテスト型で構築できます。 本稿では,この手法をコード生成のための大規模言語モデルを用いて実証する。 ScenEvalと呼ばれるベンチマークは、教科書、オンラインチュートリアルウェブサイト、Stack Overflowの問題から構築されている。 シナリオによるフィルタリングを実証し、テストセットを使用してJavaコード生成のためのChatGPTを評価する。 実験の結果,ChatGPTの性能はコーディング作業の複雑さによって低下することがわかった。 マルチスレッド、データ構造アルゴリズム、再帰的手法といった先進的なトピックでは最も弱い。 ChatGPTが生成するJavaコードは、行数の観点からは参照ソリューションよりもはるかに短い傾向がありますが、生成されたコードが正しい場合、シクロマティックと認知の複雑さのメトリクスでより複雑になる傾向があります。 しかし、コードが間違っていれば、生成されたコードは参照ソリューションよりも複雑になりがちである。

In the scenario-based evaluation of machine learning models, a key problem is how to construct test datasets that represent various scenarios. The methodology proposed in this paper is to construct a benchmark and attach metadata to each test case. Then a test system can be constructed with test morphisms that filter the test cases based on metadata to form a dataset. The paper demonstrates this methodology with large language models for code generation. A benchmark called ScenEval is constructed from problems in textbooks, an online tutorial website and Stack Overflow. Filtering by scenario is demonstrated and the test sets are used to evaluate ChatGPT for Java code generation. Our experiments found that the performance of ChatGPT decreases with the complexity of the coding task. It is weakest for advanced topics like multi-threading, data structure algorithms and recursive methods. The Java code generated by ChatGPT tends to be much shorter than reference solution in terms of number of lines, while it is more likely to be more complex in both cyclomatic and cognitive complexity metrics, if the generated code is correct. However, the generated code is more likely to be less complex than the reference solution if the code is incorrect.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# 事前学習型視覚言語モデルの効率的・長期一般化

Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model ( http://arxiv.org/abs/2406.12638v1 )

ライセンス: Link先を確認
Jiang-Xin Shi, Chi Zhang, Tong Wei, Yu-Feng Li, (参考訳) CLIPのような事前訓練された視覚言語モデルは、画像テキストマッチングを通じて強力なゼロショット推論能力を示し、様々な下流タスクにおいて強力な数ショット学習者であることが証明されている。 しかし、現実世界のシナリオでは、CLIPを下流のタスクに適用することは、以下の課題に直面するかもしれない。 1)データは,長い尾を持つデータ分布を示すことができ,かつ,すべてのクラスに対して豊富なサンプルを持たない場合がある。 2) サンプルを全く含まない新しいクラスでタスクが生まれているかもしれません。 そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。 トレーニングの過程では,プロトタイプの大きなマージンを助長し,ベースクラス内およびベースクラスと新しいクラス間の不均衡を軽減するために,ロジット調整損失の補償を提案する。 効率的に適応するために、我々はCLIPモデルをブラックボックスとして扱い、抽出した特徴を活用して、予測のための視覚的およびテキスト的プロトタイプを得る。 マルチモーダル情報を完全に活用するために,両モーダル情報の特徴を充実させるために,クロスモーダルアテンションを提案する。 効果的な一般化のために、トレーニング画像の欠如を補うために、新しいクラスのための仮想プロトタイプを導入する。 Candleは、11の多様なデータセットに関する広範な実験に対して最先端のパフォーマンスを実現しつつ、トレーニング時間を大幅に短縮し、私たちのアプローチの優位性を実証しています。 ソースコードはhttps://github.com/shijxcs/Candle.comで入手できる。

Pre-trained vision-language models like CLIP have shown powerful zero-shot inference ability via image-text matching and prove to be strong few-shot learners in various downstream tasks. However, in real-world scenarios, adapting CLIP to downstream tasks may encounter the following challenges: 1) data may exhibit long-tailed data distributions and might not have abundant samples for all the classes; 2) There might be emerging tasks with new classes that contain no samples at all. To overcome them, we propose a novel framework to achieve efficient and long-tailed generalization, which can be termed as Candle. During the training process, we propose compensating logit-adjusted loss to encourage large margins of prototypes and alleviate imbalance both within the base classes and between the base and new classes. For efficient adaptation, we treat the CLIP model as a black box and leverage the extracted features to obtain visual and textual prototypes for prediction. To make full use of multi-modal information, we also propose cross-modal attention to enrich the features from both modalities. For effective generalization, we introduce virtual prototypes for new classes to make up for their lack of training images. Candle achieves state-of-the-art performance over extensive experiments on 11 diverse datasets while substantially reducing the training time, demonstrating the superiority of our approach. The source code is available at https://github.com/shijxcs/Candle.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# Ask-before-Plan: 実世界の計画のためのプロアクティブ言語エージェント

Ask-before-Plan: Proactive Language Agents for Real-World Planning ( http://arxiv.org/abs/2406.12639v1 )

ライセンス: Link先を確認
Xuan Zhang, Yang Deng, Zifeng Ren, See-Kiong Ng, Tat-Seng Chua, (参考訳) 大規模言語モデル(LLM)の進化により、様々な現実シナリオにおける言語エージェントの計画能力が向上した。 これらの進歩にもかかわらず、LCMによる推論と意思決定のための曖昧なユーザー指示を理解する可能性はまだ探究中である。 本研究では,ユーザエージェントによる対話とエージェント環境のインタラクションに基づいて,言語エージェントが明確化のニーズを予測し,有効な情報収集のための外部ツールを起動し,ユーザの要求を満たすための計画を生成する,プロアクティブエージェントプランニング(Proactive Agent Planning)というタスクを導入する。 そこで本研究では,新しいベンチマークデータセットAsk-before-Planを構築した。 プロアクティブプランニングにおけるLCMの欠如に対処するために, 明確化, 実行, 計画に特化する3つのエージェントからなる, 新たなマルチエージェントフレームワークであるClarification-Execution-Planning(\texttt{CEP})を提案する。 本稿では, 動的実行エージェントのメモリ再コンパイル機構と同様に, 明確化エージェントと静的実行エージェントのトラジェクトリチューニング方式を紹介する。 Ask-before-Planデータセットを用いた大規模評価と包括的分析により,提案手法の有効性が検証された。

The evolution of large language models (LLMs) has enhanced the planning capabilities of language agents in diverse real-world scenarios. Despite these advancements, the potential of LLM-powered agents to comprehend ambiguous user instructions for reasoning and decision-making is still under exploration. In this work, we introduce a new task, Proactive Agent Planning, which requires language agents to predict clarification needs based on user-agent conversation and agent-environment interaction, invoke external tools to collect valid information, and generate a plan to fulfill the user's demands. To study this practical problem, we establish a new benchmark dataset, Ask-before-Plan. To tackle the deficiency of LLMs in proactive planning, we propose a novel multi-agent framework, Clarification-Execution-Planning (\texttt{CEP}), which consists of three agents specialized in clarification, execution, and planning. We introduce the trajectory tuning scheme for the clarification agent and static execution agent, as well as the memory recollection mechanism for the dynamic execution agent. Extensive evaluations and comprehensive analyses conducted on the Ask-before-Plan dataset validate the effectiveness of our proposed framework.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# グラフニューラルネットワークのためのデータ強化手法の研究と実装

Research and Implementation of Data Enhancement Techniques for Graph Neural Networks ( http://arxiv.org/abs/2406.12640v1 )

ライセンス: Link先を確認
Jingzhao Gu, Haoyang Huang, (参考訳) データ、アルゴリズム、算術能力は、ディープラーニングがアプリケーションドメインで有効になるための3つの基本的な条件である。 データはディープラーニングアルゴリズムの開発に重点を置いている。 実用工学の応用では、より多くのデータが取得できない状況や、データを取得するコストが高すぎる状況の影響を受け、結果として、より小さなデータセット(一般的には数百から数千)と大規模なデータセット(数千)よりもはるかに小さいデータサイズが生じる。 上記の2つの方法は、生成する元のデータセットに基づいており、原データの不十分なデータ量が、光、シルエット、その他の情報の実際の環境を反映していない場合、データ量が十分でなければ、単純な変換やニューラルネットワーク生成モデルを使用して必要なデータを生成することは困難である。 本稿では,まず,グラフニューラルネットワークのデータ拡張技術の重要点を解析し,同時にグラフニューラルネットワークのデータ強化技術が最適化され分析されていることに基づいて,グラフニューラルネットワークの深部における合成基盤を導入する。

Data, algorithms, and arithmetic power are the three foundational conditions for deep learning to be effective in the application domain. Data is the focus for developing deep learning algorithms. In practical engineering applications, some data are affected by the conditions under which more data cannot be obtained or the cost of obtaining data is too high, resulting in smaller data sets (generally several hundred to several thousand) and data sizes that are far smaller than the size of large data sets (tens of thousands). The above two methods are based on the original dataset to generate, in the case of insufficient data volume of the original data may not reflect all the real environment, such as the real environment of the light, silhouette and other information, if the amount of data is not enough, it is difficult to use a simple transformation or neural network generative model to generate the required data. The research in this paper firstly analyses the key points of the data enhancement technology of graph neural network, and at the same time introduces the composition foundation of graph neural network in depth, on the basis of which the data enhancement technology of graph neural network is optimized and analysed.
翻訳日:2024-06-19 18:48:22 公開日:2024-06-18
# DetectBench: 大規模言語モデルでは、暗黙の証拠を検出および分析できますか?

DetectBench: Can Large Language Model Detect and Piece Together Implicit Evidence? ( http://arxiv.org/abs/2406.12641v1 )

ライセンス: Link先を確認
Zhouhong Gu, Lin Zhang, Xiaoxuan Zhu, Jiangjie Chen, Wenhao Huang, Yikai Zhang, Shusen Wang, Zheyu Ye, Yan Gao, Hongwei Feng, Yanghua Xiao, (参考訳) コンテキスト内のエビデンスを検出することは、推論タスクのプロセスにおける重要なステップである。 証拠検出におけるLCMの性能評価と強化により,文脈に基づく推論性能が向上する。 本稿では,長いコンテキスト内で暗黙的な証拠を検出し,まとめる能力を検証するために,DeuterBenchというベンチマークを提案する。 DetectBenchには3,928の多重選択質問があり、1問あたり平均994のトークンがある。 各質問には平均4.55個の暗黙の証拠が含まれており、解法は正しい解を見つけるためには7.62個の論理ジャンプが必要である。 証拠検出におけるLLMの性能向上を目的として, 検出共振器とファインチューンを提案する。 実験により、LLMが長い文脈で証拠を検出する能力は人間よりもはるかに劣っていることが示された。 しかし,検出推論プロンプトは証拠検出における強力なLDMの能力を効果的に向上させる一方で,ファインタニング法は弱いLDMの性能向上に重要な効果を示す。 また、証拠検出におけるLCMの能力が向上すると、その最終的な推論性能も向上する。

Detecting evidence within the context is a key step in the process of reasoning task. Evaluating and enhancing the capabilities of LLMs in evidence detection will strengthen context-based reasoning performance. This paper proposes a benchmark called DetectBench for verifying the ability to detect and piece together implicit evidence within a long context. DetectBench contains 3,928 multiple-choice questions, with an average of 994 tokens per question. Each question contains an average of 4.55 pieces of implicit evidence, and solving the problem typically requires 7.62 logical jumps to find the correct answer. To enhance the performance of LLMs in evidence detection, this paper proposes Detective Reasoning Prompt and Finetune. Experiments demonstrate that the existing LLMs' abilities to detect evidence in long contexts are far inferior to humans. However, the Detective Reasoning Prompt effectively enhances the capability of powerful LLMs in evidence detection, while the Finetuning method shows significant effects in enhancing the performance of weaker LLMs. Moreover, when the abilities of LLMs in evidence detection are improved, their final reasoning performance is also enhanced accordingly.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# 階層型プロンプト分類:大規模言語モデルのための普遍的評価フレームワーク

Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models ( http://arxiv.org/abs/2406.12644v1 )

ライセンス: Link先を確認
Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha, (参考訳) 大きな言語モデル(LLM)が様々なタスクに対処する効果を評価することは、その強みと弱さを理解するのに不可欠である。 従来の評価手法は、通常、タスクの複雑さの度合いを考慮せず、データセット全体で一様に単一のプロンプト戦略を適用する。 階層型プロンプト・フレームワーク(HPF)を用いた分類法である階層型プロンプト分類法(HPT)を導入し,最も単純なものから最も複雑なものへと配置し,LCMをより正確に評価し,より明確な視点を提供する。 この分類学はヒエラルキー・プロンプトスコア(HP-Score)と呼ばれるスコアを分類学の規則に基づくデータセットとLLMに割り当て、多様なタスクを解く能力の微妙な理解を提供し、タスクの複雑さの普遍的な尺度を提供する。 さらに,タスク毎に適切なプロンプト戦略の選択を自動化するAdaptive Hierarchical Promptフレームワークを導入する。 本研究では,Llama 3 8B,Phi 3 3.8B,Mistral 7B,Gemma 7Bの4つの命令調整LDMを,BoolQ,CommonSenseQA (CSQA),IWSLT-2017 en-fr (IWSLT),SamSumの4つのデータセットで比較した。 実験はHPTの有効性を示し、異なるタスクとLLM機能を比較する信頼性の高い方法を提供する。 本稿では,LLMの複雑性と能力の両面を評価できる普遍的評価指標の開発に繋がる。 手動HPFと適応HPFの両方の実装が公開されている。

Assessing the effectiveness of large language models (LLMs) in addressing diverse tasks is essential for comprehending their strengths and weaknesses. Conventional evaluation techniques typically apply a single prompting strategy uniformly across datasets, not considering the varying degrees of task complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy that employs a Hierarchical Prompt Framework (HPF) composed of five unique prompting strategies, arranged from the simplest to the most complex, to assess LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a score, called the Hierarchical Prompting Score (HP-Score), to datasets as well as LLMs based on the rules of the taxonomy, providing a nuanced understanding of their ability to solve diverse tasks and offering a universal measure of task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt framework, which automates the selection of appropriate prompting strategies for each task. This study compares manual and adaptive hierarchical prompt frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B, Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness of HPT, providing a reliable way to compare different tasks and LLM capabilities. This paper leads to the development of a universal evaluation metric that can be used to evaluate both the complexity of the datasets and the capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is publicly available.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# マシン生成 Fact Checking Explanations の透明性評価

Evaluating Transparency of Machine Generated Fact Checking Explanations ( http://arxiv.org/abs/2406.12645v1 )

ライセンス: Link先を確認
Rui Xing, Timothy Baldwin, Jey Han Lau, (参考訳) 事実チェックの説明を生成する上で重要な要素は、証拠の選択である。 そこで本研究では,大規模言語モデルを用いた説明生成における人間計算と機械選択による証拠の影響について検討する。 説明の質を評価するために、透明性(説明が適切な情報源を引用するかどうか)と実用性(説明が主張を明確にするのに役立つかどうか)に焦点を当てる。 意外なことに、大きな言語モデルでは、機械選択された証拠を用いて、類似またはより高品質な説明が生成され、慎重にキュレートされた証拠(人間による)が不要である可能性が示唆された。 とはいえ、最良のモデルであっても、生成された説明が必ずしも情報源に忠実であるとは限らないため、事実確認のための説明生成の改善の余地が示唆されている。

An important factor when it comes to generating fact-checking explanations is the selection of evidence: intuitively, high-quality explanations can only be generated given the right evidence. In this work, we investigate the impact of human-curated vs. machine-selected evidence for explanation generation using large language models. To assess the quality of explanations, we focus on transparency (whether an explanation cites sources properly) and utility (whether an explanation is helpful in clarifying a claim). Surprisingly, we found that large language models generate similar or higher quality explanations using machine-selected evidence, suggesting carefully curated evidence (by humans) may not be necessary. That said, even with the best model, the generated explanations are not always faithful to the sources, suggesting further room for improvement in explanation generation for fact-checking.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# マルチオーガン画像分割のための基礎モデルの公平性に関する実証的研究

An Empirical Study on the Fairness of Foundation Models for Multi-Organ Image Segmentation ( http://arxiv.org/abs/2406.12646v1 )

ライセンス: Link先を確認
Qin Li, Yizhe Zhang, Yan Li, Jun Lyu, Meng Liu, Longyu Sun, Mengting Sun, Qirong Li, Wenyue Mao, Xinran Wu, Yajing Zhang, Yinghua Chu, Shuo Wang, Chengyan Wang, (参考訳) セグメンテーション基盤モデルであるSAM(Segment Anything Model)は、医療画像コミュニティへの関心が高まっている。 初期の先駆的な研究はSAMのパフォーマンスを総合的精度と効率の観点から評価し改善することに集中していたが、公平性の観点からはほとんど注目されなかった。 この監視は、nnU-Netのようなタスク固有のディープラーニングモデルに見られることを反映したパフォーマンスバイアスの可能性に関する疑問を提起する。 本稿では,大規模なセグメンテーション基礎モデルに関する公平性ジレンマについて検討する。 健常者1056名を対象に, 肝臓, 腎臓, 脾臓, 肺, 大動脈などの臓器の3次元MRIおよびCTのベンチマークデータセットを前向きに収集した。 さらに, 性別, 年齢, 身体集団指数 (BMI) などの人口統計学的詳細を整理し, ニュアンスド・フェアネス分析を行った。 従来のSAM, SAM, SATモデルを含む医用画像セグメンテーションの最先端基盤モデルを検証し, 異なる人口集団間でのセグメンテーションの有効性を評価し, 格差を同定する。 様々な要因を考慮に入れた包括的分析により,これらの基礎モデルにおいて,重要な公平性に関する懸念が浮かび上がっている。 さらに,Dice similarity Coefficient などのセグメンテーション指標の相違だけでなく,セグメンテーション誤差の空間分布にも有意な変化が見られ,医用画像セグメンテーションにおける公平性を確保する上での課題の実証的証拠が提示された。

The segmentation foundation model, e.g., Segment Anything Model (SAM), has attracted increasing interest in the medical image community. Early pioneering studies primarily concentrated on assessing and improving SAM's performance from the perspectives of overall accuracy and efficiency, yet little attention was given to the fairness considerations. This oversight raises questions about the potential for performance biases that could mirror those found in task-specific deep learning models like nnU-Net. In this paper, we explored the fairness dilemma concerning large segmentation foundation models. We prospectively curate a benchmark dataset of 3D MRI and CT scans of the organs including liver, kidney, spleen, lung and aorta from a total of 1056 healthy subjects with expert segmentations. Crucially, we document demographic details such as gender, age, and body mass index (BMI) for each subject to facilitate a nuanced fairness analysis. We test state-of-the-art foundation models for medical image segmentation, including the original SAM, medical SAM and SAT models, to evaluate segmentation efficacy across different demographic groups and identify disparities. Our comprehensive analysis, which accounts for various confounding factors, reveals significant fairness concerns within these foundational models. Moreover, our findings highlight not only disparities in overall segmentation metrics, such as the Dice Similarity Coefficient but also significant variations in the spatial distribution of segmentation errors, offering empirical evidence of the nuanced challenges in ensuring fairness in medical image segmentation.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# 確率論的概念記述者:ビジョン基礎モデルのための信頼できる概念記述

Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models ( http://arxiv.org/abs/2406.12649v1 )

ライセンス: Link先を確認
Hengyi Wang, Shiwei Tan, Hao Wang, (参考訳) ビジョントランスフォーマー(ViT)は、特に大きな言語モデルと共同でトレーニングし、堅牢なビジョン基盤モデルとして機能する能力に重点を置いている。 しかし、ViTの信頼性のある説明法の開発は、特にViT予測のポストホック解釈の文脈において遅れを取っている。 特徴属性や概念モデルといった既存のサブイメージ選択アプローチは、この点では不十分である。 本稿では, 信頼度, 安定度, 疎度, マルチレベル構造, パーシモニーを5つのデシラタで説明し, これらの基準を包括的に満たす上での現在の手法の不十分さを実証する。 本稿では,PACE (ProbAbilistic Concept Explainers) と呼ばれる変分ベイズ的説明フレームワークを導入し,パッチ埋め込みの分布をモデル化し,信頼性の高いポストホックな概念的説明を提供する。 我々の定性的分析はパッチレベルの概念の分布を明らかにし、パッチ埋め込みとViTの予測の連成分布をモデル化することにより、ViTsの有効性を解明する。 さらに、これらのパッチレベルの説明は、画像レベルとデータセットレベルの説明のギャップを埋め、PACEのマルチレベル構造を完成させる。 合成と実世界の両方のデータセットに関する広範な実験を通じて、PACEが定義されたデシダラタ(deiderata)の観点で最先端の手法を超越していることが実証された。

Vision transformers (ViTs) have emerged as a significant area of focus, particularly for their capacity to be jointly trained with large language models and to serve as robust vision foundation models. Yet, the development of trustworthy explanation methods for ViTs has lagged, particularly in the context of post-hoc interpretations of ViT predictions. Existing sub-image selection approaches, such as feature-attribution and conceptual models, fall short in this regard. This paper proposes five desiderata for explaining ViTs -- faithfulness, stability, sparsity, multi-level structure, and parsimony -- and demonstrates the inadequacy of current methods in meeting these criteria comprehensively. We introduce a variational Bayesian explanation framework, dubbed ProbAbilistic Concept Explainers (PACE), which models the distributions of patch embeddings to provide trustworthy post-hoc conceptual explanations. Our qualitative analysis reveals the distributions of patch-level concepts, elucidating the effectiveness of ViTs by modeling the joint distribution of patch embeddings and ViT's predictions. Moreover, these patch-level explanations bridge the gap between image-level and dataset-level explanations, thus completing the multi-level structure of PACE. Through extensive experiments on both synthetic and real-world datasets, we demonstrate that PACE surpasses state-of-the-art methods in terms of the defined desiderata.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# 超音波ロボティクスのための身体知による外科的介入

Transforming Surgical Interventions with Embodied Intelligence for Ultrasound Robotics ( http://arxiv.org/abs/2406.12651v1 )

ライセンス: Link先を確認
Huan Xu, Jinlin Wu, Guanglin Cao, Zhen Chen, Zhen Lei, Hongbin Liu, (参考訳) 超音波検査は非侵襲的診断法に革命をもたらし、様々な医療領域で患者の予後を著しく向上させた。 その進歩にもかかわらず、自動スキャンのためのロボットシステムと超音波技術を統合することで、コマンド理解や動的実行能力の制限を含む課題が浮かび上がっている。 これらの課題に対処するために,超音波ロボットと大規模言語モデル(LLM)とドメイン固有知識拡張を相乗的に組み合わせ,超音波ロボットの知能と操作効率を向上する,新しい超音波エンボディードインテリジェンスシステムを提案する。 まず, LLMを超音波ロボットと組み合わせて, API や操作マニュアルを含む超音波領域の知識を包括的に理解することで, 医師の言葉による指示を正確な動作計画に解釈する。 本システムの有効性は,様々なモデルを対象としたアブレーション研究や比較を含む広範囲な実験により実証され,言語コマンドによる医療処置の大幅な改善が示された。 提案システムは, 超音波スキャンの効率と品質を向上し, 非侵襲的診断や医療ワークフローの合理化を図り, 自律型医療スキャン技術のさらなる進歩の道を開くことを示唆している。

Ultrasonography has revolutionized non-invasive diagnostic methodologies, significantly enhancing patient outcomes across various medical domains. Despite its advancements, integrating ultrasound technology with robotic systems for automated scans presents challenges, including limited command understanding and dynamic execution capabilities. To address these challenges, this paper introduces a novel Ultrasound Embodied Intelligence system that synergistically combines ultrasound robots with large language models (LLMs) and domain-specific knowledge augmentation, enhancing ultrasound robots' intelligence and operational efficiency. Our approach employs a dual strategy: firstly, integrating LLMs with ultrasound robots to interpret doctors' verbal instructions into precise motion planning through a comprehensive understanding of ultrasound domain knowledge, including APIs and operational manuals; secondly, incorporating a dynamic execution mechanism, allowing for real-time adjustments to scanning plans based on patient movements or procedural errors. We demonstrate the effectiveness of our system through extensive experiments, including ablation studies and comparisons across various models, showcasing significant improvements in executing medical procedures from verbal commands. Our findings suggest that the proposed system improves the efficiency and quality of ultrasound scans and paves the way for further advancements in autonomous medical scanning technologies, with the potential to transform non-invasive diagnostics and streamline medical workflows.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# 2レベル原子を用いた3波混合系における単一光子および2光子遮断

Single-photon and two-photon blockade in a three-wave mixing system with a two-level atom ( http://arxiv.org/abs/2406.12653v1 )

ライセンス: Link先を確認
HongYu Lin, (参考訳) 本稿では,高周波共振器内に2レベル原子を埋め込んだ3波長混合系において,従来の光子遮断 (CPB) と2光子遮断 (2PB) について述べる。 CPBおよび2PBを達成するための解析条件は、ハミルトニアン系の固有値を分析することによって得られる。 切り刻まれたフォック空間におけるマスター方程式の解法から導かれる数値解は解析条件と一致する。 システムパラメータの詳細な分析により、埋め込み原子が異なる種類の光子遮断を達成するために与える影響が明らかになる。 従来の方式とは異なり、このシステムは3つの光子モードで同時に単一光子遮断を行うことができる。 また、原子と高周波モード光子の結合係数を調整することにより、高周波モードで単一光子遮断と2光子遮断を切り替えることができる。

This paper discusses conventional photon blockade (CPB) and two-photon blockade (2PB) in a three-wave mixing system embedded with a two-level atom in the high-frequency cavity. Analytical conditions for achieving CPB and 2PB are obtained by analyzing the eigenvalues of the system Hamiltonian. Numerical solutions, derived by solving the master equation in a truncated Fock space, are consistent with the analytical conditions. Detailed analysis of system parameters reveals the influence of the embedded atom on achieving different types of photon blockade. Unlike previous schemes, this system can achieve single-photon blockade simultaneously in three photon modes. Additionally, by adjusting the coupling coefficient between the atom and high-frequency mode photons, the system can switch between single-photon blockade and two-photon blockade in the high-frequency mode.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# コード生成の評価のためのベンチマークとメトリクス:批判的レビュー

Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review ( http://arxiv.org/abs/2406.12655v1 )

ライセンス: Link先を確認
Debalina Ghosh Paul, Hong Zhu, Ian Bayley, (参考訳) LLM(Large Language Models)の急速な開発に伴い、自然言語入力からプログラムコードを生成することを含むプログラミングタスクを支援する機械学習モデルが多数開発されている。 しかし,このようなLCMの課題に対する評価方法はまだ未解決の課題であり,その評価・比較に大量の研究成果が報告されているにもかかわらず,まだ未解決の課題である。 本稿では、これらのツールのテストと評価に関する既存の研究について、ベンチマークと評価に使用されるメトリクスの2つの重要な側面に焦点をあてて、批判的なレビューを行う。 レビューに基づき、さらなる研究の方向性について論じる。

With the rapid development of Large Language Models (LLMs), a large number of machine learning models have been developed to assist programming tasks including the generation of program code from natural language input. However, how to evaluate such LLMs for this task is still an open problem despite of the great amount of research efforts that have been made and reported to evaluate and compare them. This paper provides a critical review of the existing work on the testing and evaluation of these tools with a focus on two key aspects: the benchmarks and the metrics used in the evaluations. Based on the review, further research directions are discussed.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# 単一共有画像によるフェデレーション学習

Federated Learning with a Single Shared Image ( http://arxiv.org/abs/2406.12658v1 )

ライセンス: Link先を確認
Sunny Soni, Aaqib Saeed, Yuki M. Asano, (参考訳) フェデレートラーニング(FL)は、複数のマシンがプライベートトレーニングデータを共有することなく、機械学習モデルを協調的にトレーニングすることを可能にする。 しかし、特に異種モデルでは、各クライアントモデルから得られた知識をサーバに転送する上で重要なボトルネックが残っています。 1つの一般的な方法であるFedDFは、このタスクに、予測が交換される共通の共有データセットを使用することで、蒸留を用いて対処する。 しかし、多くのコンテキストにおいて、このようなデータセットはプライバシのため取得が困難になり、クライアントは大規模な共有データセットのストレージを許可しない可能性がある。 そこで本研究では,クライアントとサーバ間の共有画像の共有化にのみ依存するように,この知識蒸留法を改善する新しい手法を提案する。 特に,1つの画像のみから生成した最も情報性の高い作物を選択する適応的データセットプルーニングアルゴリズムを提案する。 これにより, 限られた共有データセット予算下での蒸留によるフェデレート学習は, 複数の個人と比較して単一の画像を使用することで, よりうまく機能することを示す。 最後に、不均一な蒸留スケジュールとクライアントモデルミラーリングをサーバ側に組み込むことで、異種クライアントアーキテクチャのトレーニングを可能にするためのアプローチを拡張します。

Federated Learning (FL) enables multiple machines to collaboratively train a machine learning model without sharing of private training data. Yet, especially for heterogeneous models, a key bottleneck remains the transfer of knowledge gained from each client model with the server. One popular method, FedDF, uses distillation to tackle this task with the use of a common, shared dataset on which predictions are exchanged. However, in many contexts such a dataset might be difficult to acquire due to privacy and the clients might not allow for storage of a large shared dataset. To this end, in this paper, we introduce a new method that improves this knowledge distillation method to only rely on a single shared image between clients and server. In particular, we propose a novel adaptive dataset pruning algorithm that selects the most informative crops generated from only a single image. With this, we show that federated learning with distillation under a limited shared dataset budget works better by using a single image compared to multiple individual ones. Finally, we extend our approach to allow for training heterogeneous client architectures by incorporating a non-uniform distillation schedule and client-model mirroring on the server side.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# 高次元線形回帰における低次元パラメータの偏り推論に対する変分ベイズアプローチ

A variational Bayes approach to debiased inference for low-dimensional parameters in high-dimensional linear regression ( http://arxiv.org/abs/2406.12659v1 )

ライセンス: Link先を確認
Ismaël Castillo, Alice L'Huillier, Kolyan Ray, Luke Travis, (参考訳) 疎線形回帰における高次元パラメータの座標の1次元あるいは低次元の部分集合に対する統計的推測のためのスケーラブルな変分ベイズ法を提案する。 提案手法は,Nuisance座標に平均場近似を割り当てることと,Nuisanceが与えられたターゲットの条件分布を慎重にモデル化することに依存する。 これは事前処理のステップに過ぎず、平均場変動ベイズの計算上の優位性を保ちつつ、不確実性定量化を含む対象パラメータに対する正確かつ信頼性の高い推論を保証する。 提案アルゴリズムの数値性能について検討し,既存の手法と競合することを示す。 さらに、ベルンシュタイン-ヴォン・ミセスの定理の形で、推定と不確実性の定量化に関する理論的な保証を確立する。

We propose a scalable variational Bayes method for statistical inference for a single or low-dimensional subset of the coordinates of a high-dimensional parameter in sparse linear regression. Our approach relies on assigning a mean-field approximation to the nuisance coordinates and carefully modelling the conditional distribution of the target given the nuisance. This requires only a preprocessing step and preserves the computational advantages of mean-field variational Bayes, while ensuring accurate and reliable inference for the target parameter, including for uncertainty quantification. We investigate the numerical performance of our algorithm, showing that it performs competitively with existing methods. We further establish accompanying theoretical guarantees for estimation and uncertainty quantification in the form of a Bernstein--von Mises theorem.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# ユーザコンプライアンスにおける説明可能性とAIリテラシーの役割の検討

Investigating the Role of Explainability and AI Literacy in User Compliance ( http://arxiv.org/abs/2406.12660v1 )

ライセンス: Link先を確認
Niklas Kühl, Christian Meske, Maximilian Nitsche, Jodie Lobana, (参考訳) AIは、さまざまなドメインでますます一般的になっています。 しかし、洗練されたAIベースのシステムは、しばしばブラックボックス化され、意思決定ロジックが不透明になるため、ユーザーは推奨に従わざるを得ない。 研究者たちは、基礎となる機械学習モデルの透明性を高めるために、説明可能なAI(XAI)を調査しているが、どのような説明が有効であるか、他の要因がコンプライアンスを向上させるのかは明らかではない。 これらの要因の相互作用をよりよく理解するために,AIと2種類のXAIを推奨する参加者562名を対象に実験を行った。 XAIの導入によってユーザのコンプライアンスが増加するが、AIリテラシーの影響も受けている。 また,AIリテラシーXAIとユーザのコンプライアンスの関係は,ユーザのメンタルモデルが介在していることも確認した。 我々の研究は、XAIを利用したAIベースのシステムの設計にいくつかの意味を持っている。

AI is becoming increasingly common across different domains. However, as sophisticated AI-based systems are often black-boxed, rendering the decision-making logic opaque, users find it challenging to comply with their recommendations. Although researchers are investigating Explainable AI (XAI) to increase the transparency of the underlying machine learning models, it is unclear what types of explanations are effective and what other factors increase compliance. To better understand the interplay of these factors, we conducted an experiment with 562 participants who were presented with the recommendations of an AI and two different types of XAI. We find that users' compliance increases with the introduction of XAI but is also affected by AI literacy. We also find that the relationships between AI literacy XAI and users' compliance are mediated by the users' mental model of AI. Our study has several implications for successfully designing AI-based systems utilizing XAI.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# SCORE:ベイズ最適化の次元曲線を破る1次元再パラメータ化手法

SCORE: A 1D Reparameterization Technique to Break Bayesian Optimization's Curse of Dimensionality ( http://arxiv.org/abs/2406.12661v1 )

ライセンス: Link先を確認
Joseph Chakar, (参考訳) ベイズ最適化(BO)は複雑な探索空間をナビゲートする強力なツールとして登場し、科学と工学の分野における実践的応用を示すが、目的関数を近似する代理モデルに依存しているため、パラメータや実験の数が増加するにつれてエスカレートする計算コストが増大する傾向にある。 並列化、サロゲートモデル近似、メモリプルーニングといったいくつかの手法が提案され、計算時間を削減しているが、BOの次元性の呪いの根底にある問題の解決には至らなかった。 本稿では, この呪文を破り, 高次元景観におけるBOの線形時間複雑性を持続する1次元再パラメータ化手法を提案する。 SCOREという名前のこの高速でスケーラブルなアプローチは、世界中のニードル・イン・ア・ヘイスタック最適化関数を見つけ出し、最先端技術で通常必要とされる高性能な計算資源を使わずに実世界のデータに適合させることができる。

Bayesian optimization (BO) has emerged as a powerful tool for navigating complex search spaces, showcasing practical applications in the fields of science and engineering.However, since it typically relies on a surrogate model to approximate the objective function, BO grapples with heightened computational costs that tend to escalate as the number of parameters and experiments grows. Several methods such as parallelization, surrogate model approximations, and memory pruning have been proposed to cut down computing time, but they all fall short of resolving the core issue behind BO's curse of dimensionality. In this paper, a 1D reparametrization trick is proposed to break this curse and sustain linear time complexity for BO in high-dimensional landscapes. This fast and scalable approach named SCORE can successfully find the global minimum of needle-in-a-haystack optimization functions and fit real-world data without the high-performance computing resources typically required by state-of-the-art techniques.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# オンラインアンカーによる画像分類課題の訓練

Online Anchor-based Training for Image Classification Tasks ( http://arxiv.org/abs/2406.12662v1 )

ライセンス: Link先を確認
Maria Tzelepi, Vasileios Mezaris, (参考訳) 本稿では,画像分類タスクに対するディープラーニングモデルの性能向上を目標とし,新しいアンカーベーストレーニング手法である「textit{Online Anchor-based Training} (OAT)」を提案する。 OAT法は,クラスラベルを直接学習する代わりに,アンカーに基づくオブジェクト検出手法で提供される知見によって導かれる。 私たちは、モデルの出力でバッチセンタをアンカーとして定義します。 そして、テストフェーズ中に予測を元のクラスラベル空間に戻し、性能を評価する。 OAT法の有効性を4つのデータセットで検証した。

In this paper, we aim to improve the performance of a deep learning model towards image classification tasks, proposing a novel anchor-based training methodology, named \textit{Online Anchor-based Training} (OAT). The OAT method, guided by the insights provided in the anchor-based object detection methodologies, instead of learning directly the class labels, proposes to train a model to learn percentage changes of the class labels with respect to defined anchors. We define as anchors the batch centers at the output of the model. Then, during the test phase, the predictions are converted back to the original class label space, and the performance is evaluated. The effectiveness of the OAT method is validated on four datasets.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# LVLMをベースとした画像キャプションでは、より詳細な幻覚が常に導入されるのか?

Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? ( http://arxiv.org/abs/2406.12663v1 )

ライセンス: Link先を確認
Mingqian Feng, Yunlong Tang, Zeliang Zhang, Chenliang Xu, (参考訳) LVLM(Large Vision-Language Models)は、視覚的コンテキストと言語的コンテキストを統合して詳細なコンテンツを生成し、画像キャプションなどの応用を容易にする。 しかし、LVLMを使用して記述を生成する場合、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚(OH)の課題に直面することが多い。 従来の研究では、OHの発生はより詳細な情報を含むことに起因するが、既存のメトリクスの技術的欠陥が発見され、OHに関するモデルや結論の信頼性の低い評価につながった。 LVLMをベースとした画像キャプションでは、より詳細な情報に幻覚が常に導入されますか? 本稿では,新たな復号化戦略である差分ビーム復号法(DBD)を提案するとともに,CLIP-Precision,CLIP-Recall,CLIP-F1といった信頼性の高い新しい評価指標を提案する。 DBDは視覚入力に隠された情報の富を単位事実と呼ばれる異なる言語表現に並列にデコードする。 この復号化は、並列探索と候補スクリーニングを導くよく設計された差分スコアによって達成される。 選択された単位事実を集約して最終キャプションを生成する。 提案手法は,画像領域の埋め込みグループと生成されたテキスト分割を比較し,画像キャプションの包括性と精度を評価する。 視覚ゲノムデータセットの広範囲な実験により,低幻覚レベルを維持しながら詳細な記述を生成できることが実証された。

Large Vision-Language Models (LVLMs) excel in integrating visual and linguistic contexts to produce detailed content, facilitating applications such as image captioning. However, using LVLMs to generate descriptions often faces the challenge of object hallucination (OH), where the output text misrepresents actual objects in the input image. While previous studies attribute the occurrence of OH to the inclusion of more details, our study finds technical flaws in existing metrics, leading to unreliable evaluations of models and conclusions about OH. This has sparked a debate on the question: Do more details always introduce more hallucinations in LVLM-based image captioning? In this paper, we address this debate by proposing a novel decoding strategy, Differentiated Beam Decoding (DBD), along with a reliable new set of evaluation metrics: CLIP-Precision, CLIP-Recall, and CLIP-F1. DBD decodes the wealth of information hidden in visual input into distinct language representations called unit facts in parallel. This decoding is achieved via a well-designed differential score that guides the parallel search and candidate screening. The selected unit facts are then aggregated to generate the final caption. Our proposed metrics evaluate the comprehensiveness and accuracy of image captions by comparing the embedding groups of ground-truth image regions and generated text partitions. Extensive experiments on the Visual Genome dataset validate the effectiveness of our approach, demonstrating that it produces detailed descriptions while maintaining low hallucination levels.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# CollabStory: マルチLLMコラボレーションによるストーリ生成とオーサリング分析

CollabStory: Multi-LLM Collaborative Story Generation and Authorship Analysis ( http://arxiv.org/abs/2406.12665v1 )

ライセンス: Link先を確認
Saranya Venkatraman, Nafis Irtiza Tripto, Dongwon Lee, (参考訳) LLM(Large Language Models)のシームレスな相互運用性を可能にする統一フレームワークの台頭により、オープンエンドタスクのためのLLM-LLMコラボレーションが可能になった。 それにもかかわらず、このような共同執筆を探求する努力は行われていない。 私たちは、このマルチLLMシナリオを探求するために、人間とLLMのコラボレーションを超えて、CollabStoryと呼ばれる最初のLLM生成コラボレーティブなストーリーデータセットを生成します。 我々は、複数のLLMが共著者ストーリーを共著者とする(最大$N=5$)シナリオへのシングル著者(N=1$)に焦点を当てる。 オープンソース命令チューニング LLM を用いて,32k 以上のストーリーを生成する。 さらに,人間-人間共著者によるタスク・分析の標準となるPANタスクから着想を得た。 複数LLM設定のためのオーサシップ関連タスクを拡張し,LLM-LLMコラボレーションのためのベースラインを提示する。 現在のベースラインでは、この新たなシナリオに対処できません。 CollabStoryは、複数のLSMの使用を識別する技術開発だけでなく、理解を促進するのに役立つリソースである。 LLMとLLMのコラボレーションは、盗作行為の検出、クレジットの割り当て、教育環境における学術的整合性の維持、著作権侵害の懸念への対処など、進行中の課題を克服する可能性がある。 データセットとコードは、texttt{\url{https://github.com/saranya-venkatraman/multi_llm_story_writing}}で公開しています。

The rise of unifying frameworks that enable seamless interoperability of Large Language Models (LLMs) has made LLM-LLM collaboration for open-ended tasks a possibility. Despite this, there have not been efforts to explore such collaborative writing. We take the next step beyond human-LLM collaboration to explore this multi-LLM scenario by generating the first exclusively LLM-generated collaborative stories dataset called CollabStory. We focus on single-author ($N=1$) to multi-author (up to $N=5$) scenarios, where multiple LLMs co-author stories. We generate over 32k stories using open-source instruction-tuned LLMs. Further, we take inspiration from the PAN tasks that have set the standard for human-human multi-author writing tasks and analysis. We extend their authorship-related tasks for multi-LLM settings and present baselines for LLM-LLM collaboration. We find that current baselines are not able to handle this emerging scenario. Thus, CollabStory is a resource that could help propel an understanding as well as the development of techniques to discern the use of multiple LLMs. This is crucial to study in the context of writing tasks since LLM-LLM collaboration could potentially overwhelm ongoing challenges related to plagiarism detection, credit assignment, maintaining academic integrity in educational settings, and addressing copyright infringement concerns. We make our dataset and code available at \texttt{\url{https://github.com/saranya-venkatraman/multi_llm_story_writing}}.
翻訳日:2024-06-19 18:38:36 公開日:2024-06-18
# Wagnerフレームワークの体系化:グラフ理論の導出と強化学習

A Systematization of the Wagner Framework: Graph Theory Conjectures and Reinforcement Learning ( http://arxiv.org/abs/2406.12667v1 )

ライセンス: Link先を確認
Flora Angileri, Giulia Lombardi, Andrea Fois, Renato Faraone, Carlo Metta, Michele Salvi, Luigi Amedeo Bianchi, Marco Fantozzi, Silvia Giulia Galfrè, Daniele Pavesi, Maurizio Parton, Francesco Morandin, (参考訳) 2021年、アダム・ゾルト・ワグナー (Adam Zsolt Wagner) はReinforcement Learning (RL) を用いてグラフ理論の予想を解き放つアプローチを提案した。 ワグナーの考えは、すべてのグラフ G に対してある量 f(G) < 0 のような予想を考えると、単一のプレイヤーグラフ構築ゲーム(英語版)をプレイでき、各ターンでプレイヤーがエッジを追加するかどうかを決定することができる。 ゲームは、すべてのエッジが考慮されたときに終了し、あるグラフ G_T となり、f(G_T) がゲームの最終スコアとなり、RL がこのスコアを最大化する。 この素晴らしいアイデアは革新的で、体系的な一般化に役立ちます。 様々なRLアルゴリズムとともに、いくつかの異なるシングルプレイヤーグラフ構築ゲームが利用可能である。 さらに、RLは累積報酬を最大化し、最終的な累積報酬が利息f(G_T)の量を表すならば、単一の最終スコアではなくステップバイステップの報酬を可能にする。 本稿では,ワグナーの枠組みにおいて重要な,これらおよび他の様々な選択肢について論じる。 この体系化への貢献として、我々は4つの異なるシングルプレイヤーグラフ構築ゲームを示す。 各ゲームはステップバイステップの報酬システムと1つのファイナルスコアの両方を使用する。 また、任意の予想に対して最も適切なニューラルネットワークアーキテクチャを選択するための原則的アプローチを提案し、ラプラシアンスペクトルをラベル付けしたグラフの新しいデータセットを導入する。 さらに、一致した数とスペクトル半径の和に関する予想に対する反例を示し、これはワグナーの原論文の例よりも単純である。 ゲームは、Gymnasiumフレームワークの環境として実装され、データセットとともに、オープンソースサプリメント素材として利用可能である。

In 2021, Adam Zsolt Wagner proposed an approach to disprove conjectures in graph theory using Reinforcement Learning (RL). Wagner's idea can be framed as follows: consider a conjecture, such as a certain quantity f(G) < 0 for every graph G; one can then play a single-player graph-building game, where at each turn the player decides whether to add an edge or not. The game ends when all edges have been considered, resulting in a certain graph G_T, and f(G_T) is the final score of the game; RL is then used to maximize this score. This brilliant idea is as simple as innovative, and it lends itself to systematic generalization. Several different single-player graph-building games can be employed, along with various RL algorithms. Moreover, RL maximizes the cumulative reward, allowing for step-by-step rewards instead of a single final score, provided the final cumulative reward represents the quantity of interest f(G_T). In this paper, we discuss these and various other choices that can be significant in Wagner's framework. As a contribution to this systematization, we present four distinct single-player graph-building games. Each game employs both a step-by-step reward system and a single final score. We also propose a principled approach to select the most suitable neural network architecture for any given conjecture, and introduce a new dataset of graphs labeled with their Laplacian spectra. Furthermore, we provide a counterexample for a conjecture regarding the sum of the matching number and the spectral radius, which is simpler than the example provided in Wagner's original paper. The games have been implemented as environments in the Gymnasium framework, and along with the dataset, are available as open-source supplementary materials.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# LMMを用いた感情埋め込みを用いたゆらぎ画像検出

Disturbing Image Detection Using LMM-Elicited Emotion Embeddings ( http://arxiv.org/abs/2406.12668v1 )

ライセンス: Link先を確認
Maria Tzelepi, Vasileios Mezaris, (参考訳) 本稿では,LMM(Large Multimodal Models)に符号化された知識を活用するDID(Disturbing Image Detection)の課題に対処する。 具体的には、まず、ジェネリックセマンティックな記述を抽出し、次に、誘発された感情を抽出することによってLMMの知識を活用することを提案する。 次に、CLIPのテキストエンコーダを用いて、ジェネリックセマンティック記述とLMMによる感情の両方のテキスト埋め込みを得る。 最後に、上記のテキスト埋め込みと対応するCLIPのイメージ埋め込みを用いて、DIDタスクを実行する。 提案手法はベースライン分類精度を著しく向上させ, 改良されたディスチャビング画像検出データセットにおける最先端性能を実現する。

In this paper we deal with the task of Disturbing Image Detection (DID), exploiting knowledge encoded in Large Multimodal Models (LMMs). Specifically, we propose to exploit LMM knowledge in a two-fold manner: first by extracting generic semantic descriptions, and second by extracting elicited emotions. Subsequently, we use the CLIP's text encoder in order to obtain the text embeddings of both the generic semantic descriptions and LMM-elicited emotions. Finally, we use the aforementioned text embeddings along with the corresponding CLIP's image embeddings for performing the DID task. The proposed method significantly improves the baseline classification accuracy, achieving state-of-the-art performance on the augmented Disturbing Image Detection dataset.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# 大規模言語モデルの修正や攻撃を確実にするためのステルス編集

Stealth edits for provably fixing or attacking large language models ( http://arxiv.org/abs/2406.12670v1 )

ライセンス: Link先を確認
Oliver J. Sutton, Qinghua Zhou, Wei Wang, Desmond J. Higham, Alexander N. Gorban, Alexander Bastounis, Ivan Y. Tyukin, (参考訳) 我々は,大規模言語モデルを編集するための新しい手法と理論基盤を明らかにする。 また,新たな理論を用いてモデルの編集可能性を評価し,これまで未知の悪質な攻撃に対する感受性を明らかにする方法を示す。 我々の理論的アプローチは、一般的な編集手法の成功を予測するために、1つのメートル法(モデルの特徴の固有次元の特定尺度)が基本であることを示し、異なる編集手法のファミリー間の新しいブリッジを明らかにする。 これらの手法をステルス編集手法と呼ぶのは、モデルの重みを直接的かつ安価に更新して、モデルの再訓練を必要とせずに、既知の幻覚的プロンプトに対するモデル応答を補正することを目的としているからである。 理論的な調査から得られた洞察を慎重に適用することで、高度に選択的なモデル編集のために最適化された、既存のネットワークに挿入可能な、新しいネットワークブロック、Jet-packブロックを導入することができます。 内在的次元距離は、言語モデルがステルス攻撃に対する脆弱性を決定づける:モデルの重みへの小さな変更で、単一のアタッカー・チョーゼンプロンプトに対する応答が変化する。 ステルス攻撃は、モデルのトレーニングデータへのアクセスや知識を必要とせず、したがって、再配布された基礎モデルに対する強力な、かつこれまで認識されていなかった脅威を表している。 それらは、多くの場合、マルウェアに実装できるほど単純である。 大規模な実験結果から、この方法とその理論的基盤が示され、支持されている。 言語モデルを編集するためのデモとソースコードはhttps://github.com/qinghua-zhou/stealth-editsで入手できる。

We reveal new methods and the theoretical foundations of techniques for editing large language models. We also show how the new theory can be used to assess the editability of models and to expose their susceptibility to previously unknown malicious attacks. Our theoretical approach shows that a single metric (a specific measure of the intrinsic dimensionality of the model's features) is fundamental to predicting the success of popular editing approaches, and reveals new bridges between disparate families of editing methods. We collectively refer to these approaches as stealth editing methods, because they aim to directly and inexpensively update a model's weights to correct the model's responses to known hallucinating prompts without otherwise affecting the model's behaviour, without requiring retraining. By carefully applying the insight gleaned from our theoretical investigation, we are able to introduce a new network block -- named a jet-pack block -- which is optimised for highly selective model editing, uses only standard network operations, and can be inserted into existing networks. The intrinsic dimensionality metric also determines the vulnerability of a language model to a stealth attack: a small change to a model's weights which changes its response to a single attacker-chosen prompt. Stealth attacks do not require access to or knowledge of the model's training data, therefore representing a potent yet previously unrecognised threat to redistributed foundation models. They are computationally simple enough to be implemented in malware in many cases. Extensive experimental results illustrate and support the method and its theoretical underpinnings. Demos and source code for editing language models are available at https://github.com/qinghua-zhou/stealth-edits.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# GeoBench: 単眼形状推定モデルのベンチマークと解析

GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models ( http://arxiv.org/abs/2406.12671v1 )

ライセンス: Link先を確認
Yongtao Ge, Guangkai Xu, Zhiyue Zhao, Libo Sun, Zheng Huang, Yanlong Sun, Hao Chen, Chunhua Shen, (参考訳) 識別的および生成的事前学習の最近の進歩は、強力な一般化能力を持つ幾何推定モデルを生み出している。 識別的単分子幾何推定法は、ゼロショットの一般化を達成するために大規模な微調整データに依存するが、いくつかの生成的パラダイムは、事前学習された拡散モデルを活用し、少量の合成訓練データに対して微調整を行うことで、目に見えないシーンにおける印象的な一般化性能を達成する可能性を示している。 不満なことに、これらのモデルは異なるデータセット上の異なるレシピでトレーニングされており、評価性能を決定する重要な要因を見つけることは困難である。 さらに、現在の幾何評価ベンチマークは、フィールドの開発を妨げる2つの主な欠点、すなわち限られたシーンの多様性と好ましくないラベル品質を持っている。 上記の課題を解決するため,(1)幾何推定モデルの評価と解析のための統一コードベースにおいて,公正で強力なベースラインを構築し,(2)多様な場面と高品質なアノテーションを用いた幾何推定タスクのためのより困難なベンチマークにおいて,単色幾何推定器の評価を行った。 以上の結果から,DINOv2のような大容量データを用いた事前学習は,データスケールやモデルアーキテクチャよりも微調整データの品質が重要な要素であることが示唆された。 少量の合成深度データを用いてDINOv2のような一般的な視覚モデルを微調整するだけでSOTA結果が得られるなら、深度推定に複雑な生成モデルが必要だろうか? この研究は、幾何推定タスクの進歩と、幅広い下流アプリケーションを促進することができると信じている。

Recent advances in discriminative and generative pretraining have yielded geometry estimation models with strong generalization capabilities. While discriminative monocular geometry estimation methods rely on large-scale fine-tuning data to achieve zero-shot generalization, several generative-based paradigms show the potential of achieving impressive generalization performance on unseen scenes by leveraging pre-trained diffusion models and fine-tuning on even a small scale of synthetic training data. Frustratingly, these models are trained with different recipes on different datasets, making it hard to find out the critical factors that determine the evaluation performance. Besides, current geometry evaluation benchmarks have two main drawbacks that may prevent the development of the field, i.e., limited scene diversity and unfavorable label quality. To resolve the above issues, (1) we build fair and strong baselines in a unified codebase for evaluating and analyzing the geometry estimation models; (2) we evaluate monocular geometry estimators on more challenging benchmarks for geometry estimation task with diverse scenes and high-quality annotations. Our results reveal that pre-trained using large data, discriminative models such as DINOv2, can outperform generative counterparts with a small amount of high-quality synthetic data under the same training configuration, which suggests that fine-tuning data quality is a more important factor than the data scale and model architecture. Our observation also raises a question: if simply fine-tuning a general vision model such as DINOv2 using a small amount of synthetic depth data produces SOTA results, do we really need complex generative models for depth estimation? We believe this work can propel advancements in geometry estimation tasks as well as a wide range of downstream applications.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# Bregman学習によるPDEソリューションデータのスポーザライズ次元削減

Sparsifying dimensionality reduction of PDE solution data with Bregman learning ( http://arxiv.org/abs/2406.12672v1 )

ライセンス: Link先を確認
Tjeerd Jan Heeringa, Christoph Brune, Mengwu Guo, (参考訳) 古典的モデル還元技術は、支配方程式を元の状態空間の線型部分空間に投影する。 近年のデータ駆動技術は非線形投影を可能にするためにニューラルネットワークを使用している。 これらはしばしばより強い圧縮を可能にするが、冗長なパラメータを持ち、最適下限次元に繋がる。 そこで本研究では,エンコーダ・デコーダネットワークにおいて,パラメータ数を効果的に削減し,潜在空間を圧縮する多段階アルゴリズムを提案する。 このアルゴリズムは、わずかに初期化されたネットワークから始まり、線形化されたブレグマン反復を用いてそれを訓練する。 これらのイテレーションはコンピュータビジョンと圧縮されたセンシングタスクで非常に成功したが、まだ低次モデリングには使われていない。 訓練後, 正規直交分解の形式を用いて, 潜時空間次元をさらに圧縮する。 最後に、バイアス伝搬法を用いて、誘導された空間を効果的にパラメータの還元に変換する。 本アルゴリズムは, 3種類のPDEモデル, 1次元拡散, 1次元対流, 2次元反応拡散に適用する。 従来のAdamのようなトレーニング手法と比較して、提案手法はパラメータが30%少なく、潜在空間が著しく小さいため、同様の精度が得られる。

Classical model reduction techniques project the governing equations onto a linear subspace of the original state space. More recent data-driven techniques use neural networks to enable nonlinear projections. Whilst those often enable stronger compression, they may have redundant parameters and lead to suboptimal latent dimensionality. To overcome these, we propose a multistep algorithm that induces sparsity in the encoder-decoder networks for effective reduction in the number of parameters and additional compression of the latent space. This algorithm starts with sparsely initialized a network and training it using linearized Bregman iterations. These iterations have been very successful in computer vision and compressed sensing tasks, but have not yet been used for reduced-order modelling. After the training, we further compress the latent space dimensionality by using a form of proper orthogonal decomposition. Last, we use a bias propagation technique to change the induced sparsity into an effective reduction of parameters. We apply this algorithm to three representative PDE models: 1D diffusion, 1D advection, and 2D reaction-diffusion. Compared to conventional training methods like Adam, the proposed method achieves similar accuracy with 30% less parameters and a significantly smaller latent space.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# 単一トークンを生成せずに大規模言語モデルの知識を推定する

Estimating Knowledge in Large Language Models Without Generating a Single Token ( http://arxiv.org/abs/2406.12673v1 )

ライセンス: Link先を確認
Daniela Gottesman, Mor Geva, (参考訳) 大規模言語モデル(LLM)における知識を評価するために、現在のメソッドはモデルをクエリし、生成した応答を評価する。 この作業では、評価が$\textit{before}$でできるかどうかを問う。 具体的には、モデルがその内部計算からのみ、あるエンティティについてどれだけの知識を持つかを推定することは可能か? 我々はこの問題を2つのタスクで研究する: 主観的実体が与えられたら、目標は予測することである (a)モデルが実体に関する一般的な疑問に答える能力、及び b)エンティティに関するモデルによって生成された応答の事実性。 様々なLSMを用いた実験により、内部の主観的表現に基づいて訓練された単純なプローブであるKEENが、モデルごとのQA精度と、最近のオープンエンド世代におけるファクトスコア(FActScore)の両方に強く相関する、両方のタスクで成功することが示された。 さらに、KEENはモデルのヘッジな振る舞いと自然に一致し、微調整後のモデルの知識の変化を忠実に反映する。 最後に、モデルの知識の欠如と相関するトークンの小さなセットを強調する、より解釈可能なKEENの等価な変形を示す。 シンプルで軽量なKEENは、LLM内のエンティティ知識のギャップとクラスタを識別し、検索によるクエリの強化などのガイド決定に利用することができる。

To evaluate knowledge in large language models (LLMs), current methods query the model and then evaluate its generated responses. In this work, we ask whether evaluation can be done $\textit{before}$ the model has generated any text. Concretely, is it possible to estimate how knowledgeable a model is about a certain entity, only from its internal computation? We study this question with two tasks: given a subject entity, the goal is to predict (a) the ability of the model to answer common questions about the entity, and (b) the factuality of responses generated by the model about the entity. Experiments with a variety of LLMs show that KEEN, a simple probe trained over internal subject representations, succeeds at both tasks - strongly correlating with both the QA accuracy of the model per-subject and FActScore, a recent factuality metric in open-ended generation. Moreover, KEEN naturally aligns with the model's hedging behavior and faithfully reflects changes in the model's knowledge after fine-tuning. Lastly, we show a more interpretable yet equally performant variant of KEEN, which highlights a small set of tokens that correlates with the model's lack of knowledge. Being simple and lightweight, KEEN can be leveraged to identify gaps and clusters of entity knowledge in LLMs, and guide decisions such as augmenting queries with retrieval.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# ガウス過程回帰における共役勾配とランツォス近似後続の収縮速度

Contraction rates for conjugate gradient and Lanczos approximate posteriors in Gaussian process regression ( http://arxiv.org/abs/2406.12678v1 )

ライセンス: Link先を確認
Bernhard Stankewitz, Botond Szabo, (参考訳) その柔軟性と理論的トラクタビリティ(英語版)(GP)回帰モデルが現代の統計学や機械学習において中心的な話題となっている。 これらのモデルの真の後部は明示的に与えられるが、数値評価は強化されたカーネル行列 $ K + \sigma^2 I $ の反転に依存し、最大$ O(n^3) $ 演算を必要とする。 一般に現代の応用で与えられる大きなサンプルサイズ n の場合、これは計算不可能であり、後部の近似バージョンを使用する必要がある。 このような手法は実際は広く使われているが、一般的には理論的な基盤が非常に緩やかである。 この文脈では、確率的数値の分野から最近提案された近似アルゴリズムのクラスを分析する。 それらは、カーネル行列の近似固有ベクトル(英語版)や後進平均の共役勾配近似(英語版)の言葉で解釈できるが、これは特に真に大規模な応用において有利である。 数値解析結果とカーネル行列のスペクトルに対する最先端濃度の結果を組み合わせることで,最小値の収縮率を得る。 我々の理論的知見は数値実験によって示される。

Due to their flexibility and theoretical tractability Gaussian process (GP) regression models have become a central topic in modern statistics and machine learning. While the true posterior in these models is given explicitly, numerical evaluations depend on the inversion of the augmented kernel matrix $ K + \sigma^2 I $, which requires up to $ O(n^3) $ operations. For large sample sizes n, which are typically given in modern applications, this is computationally infeasible and necessitates the use of an approximate version of the posterior. Although such methods are widely used in practice, they typically have very limtied theoretical underpinning. In this context, we analyze a class of recently proposed approximation algorithms from the field of Probabilistic numerics. They can be interpreted in terms of Lanczos approximate eigenvectors of the kernel matrix or a conjugate gradient approximation of the posterior mean, which are particularly advantageous in truly large scale applications, as they are fundamentally only based on matrix vector multiplications amenable to the GPU acceleration of modern software frameworks. We combine result from the numerical analysis literature with state of the art concentration results for spectra of kernel matrices to obtain minimax contraction rates. Our theoretical findings are illustrated by numerical experiments.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# めちゃめちゃ? スタイルコントロールとステレオタイピングの課題

Vernacular? I Barely Know Her: Challenges with Style Control and Stereotyping ( http://arxiv.org/abs/2406.12679v1 )

ライセンス: Link先を確認
Ankit Aich, Tingting Liu, Salvatore Giorgi, Kelsey Isman, Lyle Ungar, Brenda Curtis, (参考訳) 大規模言語モデル(LLM)は、教育や学習のアプリケーションでますます使われている。 研究は、学習者の要求に合ったスタイルの制御が、理解を高め、包摂性を高め、知識の蒸留を助けることを実証している。 GPT-3.5, GPT-4, GPT-4o, Llama-3, Mistral-instruct- 7Bの5種類の最先端モデルの評価を行った。 その結果,第1課題では,第5学年と第8学年の平均読解レベル,標準偏差が27.6。 第2の課題では,0.02から0.26までの統計的に有意な性能向上が見られた。 しかし、参照テキストにステレオタイプがなくても、LCMはタスク中に文化的に不感なコンテンツを生成することが多い。 結果の徹底的な分析と議論を行う。

Large Language Models (LLMs) are increasingly being used in educational and learning applications. Research has demonstrated that controlling for style, to fit the needs of the learner, fosters increased understanding, promotes inclusion, and helps with knowledge distillation. To understand the capabilities and limitations of contemporary LLMs in style control, we evaluated five state-of-the-art models: GPT-3.5, GPT-4, GPT-4o, Llama-3, and Mistral-instruct- 7B across two style control tasks. We observed significant inconsistencies in the first task, with model performances averaging between 5th and 8th grade reading levels for tasks intended for first-graders, and standard deviations up to 27.6. For our second task, we observed a statistically significant improvement in performance from 0.02 to 0.26. However, we find that even without stereotypes in reference texts, LLMs often generated culturally insensitive content during their tasks. We provide a thorough analysis and discussion of the results.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# 言語モデルにおける心理的深度の測定

Measuring Psychological Depth in Language Models ( http://arxiv.org/abs/2406.12680v1 )

ライセンス: Link先を確認
Fabrice Harel-Canada, Hanyu Zhou, Sreya Mupalla, Zeynep Yildiz, Amit Sahai, Nanyun Peng, (参考訳) 大きな言語モデル(LLM)によって生成された創造的ストーリーの評価は、しばしば、そのスタイル、コヒーレンス、毒性など、テキストの客観的な特性に焦点を当てる。 これらの指標は不可欠であるが、読者の視点からの物語の主観的、心理的影響には触れない。 本稿では, LLMが感情, 共感, エンゲージメントを喚起する, 真正かつ物語的に複雑な物語を創出する能力を測定する, 文学理論に根ざした新しい枠組みであるPDSを紹介する。 我々は PDS (0.72 クリッペンドルフのα) に基づいた物語を連続的に評価できることを示し、我々の枠組みを実証的に検証した。 また,PSDを自動化して将来の分析を容易にスケールする手法についても検討する。 GPT-4oは新たなMixture-of-Personas(MoP)促進戦略と組み合わされ、平均スピアマン相関が0.51ドル、Llama-3-70Bは0.68ドルである。 最後に、人間とLLMの両方で書かれたストーリーの深さを比較した。 驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。 テキストから読者に焦点を移すことによって、心理学的深度尺度は、LLMが語る物語を通して人間と接続する能力を測定する、検証され、自動化され、体系化された手段である。

Evaluations of creative stories generated by large language models (LLMs) often focus on objective properties of the text, such as its style, coherence, and toxicity. While these metrics are indispensable, they do not speak to a story's subjective, psychological impact from a reader's perspective. We introduce the Psychological Depth Scale (PDS), a novel framework rooted in literary theory that measures an LLM's ability to produce authentic and narratively complex stories that provoke emotion, empathy, and engagement. We empirically validate our framework by showing that humans can consistently evaluate stories based on PDS (0.72 Krippendorff's alpha). We also explore techniques for automating the PDS to easily scale future analyses. GPT-4o, combined with a novel Mixture-of-Personas (MoP) prompting strategy, achieves an average Spearman correlation of $0.51$ with human judgment while Llama-3-70B scores as high as 0.68 for empathy. Finally, we compared the depth of stories authored by both humans and LLMs. Surprisingly, GPT-4 stories either surpassed or were statistically indistinguishable from highly-rated human-written stories sourced from Reddit. By shifting the focus from text to reader, the Psychological Depth Scale is a validated, automated, and systematic means of measuring the capacity of LLMs to connect with humans through the stories they tell.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# 構造脳MRI画像からの統合失調症分類のための空間配列注意ネットワーク

Spatial Sequence Attention Network for Schizophrenia Classification from Structural Brain MR Images ( http://arxiv.org/abs/2406.12683v1 )

ライセンス: Link先を確認
Nagur Shareef Shaik, Teja Krishna Cherukuri, Vince Calhoun, Dong Hye Ye, (参考訳) 統合失調症 (Schizophrenia) は、個人の認知能力、行動、社会的相互作用に大きな影響を及ぼす、不安定で慢性的な精神障害である。 特に灰白質において、脳の微妙な形態変化を特徴とする。 これらの変化は手動による観察によって認識できないことが多く、診断に自動的なアプローチを必要とする。 本研究は、統合失調症患者の分類のための深層学習手法を紹介する。 本研究では,SSA(Spatial Sequence Attention)と呼ばれる,構造的MRI(sMRI)から重要な特徴表現を抽出し,強調する多角化アテンション機構を実装した。 まず,統合失調症に関連する形態変化を含む最終畳み込みブロックから,事前学習したDenseNetを用いて初期特徴写像を抽出する。 これらの特徴は、より複雑な空間的相互作用と脳内の体積間の関係を捉え、強調するために提案されたSSAによってさらに処理される。 本研究は, 統合失調症分類のための既存のSqueeze & Excitation Networkよりも注意機構が優れていることを示すものである。

Schizophrenia is a debilitating, chronic mental disorder that significantly impacts an individual's cognitive abilities, behavior, and social interactions. It is characterized by subtle morphological changes in the brain, particularly in the gray matter. These changes are often imperceptible through manual observation, demanding an automated approach to diagnosis. This study introduces a deep learning methodology for the classification of individuals with Schizophrenia. We achieve this by implementing a diversified attention mechanism known as Spatial Sequence Attention (SSA) which is designed to extract and emphasize significant feature representations from structural MRI (sMRI). Initially, we employ the transfer learning paradigm by leveraging pre-trained DenseNet to extract initial feature maps from the final convolutional block which contains morphological alterations associated with Schizophrenia. These features are further processed by the proposed SSA to capture and emphasize intricate spatial interactions and relationships across volumes within the brain. Our experimental studies conducted on a clinical dataset have revealed that the proposed attention mechanism outperforms the existing Squeeze & Excitation Network for Schizophrenia classification.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# LLMを用いた双極性障害と統合失調症の診断・収集

Using LLMs to Aid Annotation and Collection of Clinically-Enriched Data in Bipolar Disorder and Schizophrenia ( http://arxiv.org/abs/2406.12687v1 )

ライセンス: Link先を確認
Ankit Aich, Avery Quynh, Pamela Osseyi, Amy Pinkham, Philip Harvey, Brenda Curtis, Colin Depp, Natalie Parde, (参考訳) メンタルヘルスにおけるNLPは主にソーシャルメディアに焦点を当てている。 現実の実践者は、ケース負荷が高く、しばしばドメイン固有の変数を持ち、現代のLLMにはコンテキストがない。 両極性障害 (BD) 、統合失調症 (SZ) 、健康管理 (HC) と診断された個人を含む644人の参加者を募集した。 参加者は、標準化されたメンタルヘルス機器から派生したタスクを実行し、その結果は5つの臨床変数の専門家によって書き起こされ、注釈付けされた。 本稿では、メンタルヘルス研究の強化を目的としたシーケンシャル・ツー・シークエンス・タスクにおける現代言語モデルの応用について述べる。 具体的には、これらのモデルがメンタルヘルス機器、データ収集、データアノテーションの展開を、高い精度とスケーラビリティで促進する方法について説明する。 そこで本研究では,小モデルにおいて,ドメイン固有の臨床変数のアノテーション,メンタルヘルス機器のデータ収集が可能であること,そして,より優れた商用大規模モデルの実現が期待できることを示す。

NLP in mental health has been primarily social media focused. Real world practitioners also have high case loads and often domain specific variables, of which modern LLMs lack context. We take a dataset made by recruiting 644 participants, including individuals diagnosed with Bipolar Disorder (BD), Schizophrenia (SZ), and Healthy Controls (HC). Participants undertook tasks derived from a standardized mental health instrument, and the resulting data were transcribed and annotated by experts across five clinical variables. This paper demonstrates the application of contemporary language models in sequence-to-sequence tasks to enhance mental health research. Specifically, we illustrate how these models can facilitate the deployment of mental health instruments, data collection, and data annotation with high accuracy and scalability. We show that small models are capable of annotation for domain-specific clinical variables, data collection for mental-health instruments, and perform better then commercial large models.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# MAGIC: In-Context Text-to-SQLのための自己補正ガイドラインの生成

MAGIC: Generating Self-Correction Guideline for In-Context Text-to-SQL ( http://arxiv.org/abs/2406.12692v1 )

ライセンス: Link先を確認
Arian Askari, Christian Poelitz, Xinye Tang, (参考訳) テキストからSQLへの自己訂正(Self-correction in text-to-SQL)とは、大きな言語モデル(LLM)に対して、以前誤って生成したSQLの修正を促すプロセスであり、一般的には人間の専門家による手作業による自己訂正ガイドラインに依存している。 本稿では,自己補正ガイドライン作成を自動化する新しいマルチエージェント手法であるMAGICを紹介する。 MAGICは、マネージャ、修正、フィードバックエージェントの3つの特殊エージェントを使用する。 これらのエージェントは、LLMのミスに合わせた自己補正ガイドラインを反復的に生成し、人間のプロセスに反映するが、人間の関与を伴わない訓練セットにおけるLLMベースの手法の失敗に協力する。 我々の広範な実験により、MAGICのガイドラインは、人間の作ったものよりも優れています。 MAGICが作成したガイドラインは, 自己補正におけるLPMの失敗や成功の背景にある理由を解析し, 修正の解釈可能性を高めることを実証的に見出した。 我々は,すべてのエージェントインタラクションを研究コミュニティに公開し,この分野のさらなる研究を奨励し,自動自己補正ガイドライン生成に向けた将来の探索のための合成データセットを提供する。

Self-correction in text-to-SQL is the process of prompting large language model (LLM) to revise its previously incorrectly generated SQL, and commonly relies on manually crafted self-correction guidelines by human experts that are not only labor-intensive to produce but also limited by the human ability in identifying all potential error patterns in LLM responses. We introduce MAGIC, a novel multi-agent method that automates the creation of the self-correction guideline. MAGIC uses three specialized agents: a manager, a correction, and a feedback agent. These agents collaborate on the failures of an LLM-based method on the training set to iteratively generate and refine a self-correction guideline tailored to LLM mistakes, mirroring human processes but without human involvement. Our extensive experiments show that MAGIC's guideline outperforms expert human's created ones. We empirically find out that the guideline produced by MAGIC enhance the interpretability of the corrections made, providing insights in analyzing the reason behind the failures and successes of LLMs in self-correction. We make all agent interactions publicly available to the research community, to foster further research in this area, offering a synthetic dataset for future explorations into automatic self-correction guideline generation.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# XXLTraffic:超ダイナミックな予測のための拡張と極長のトラフィックデータセット

XXLTraffic: Expanding and Extremely Long Traffic Dataset for Ultra-Dynamic Forecasting Challenges ( http://arxiv.org/abs/2406.12693v1 )

ライセンス: Link先を確認
Du Yin, Hao Xue, Arian Prabowo, Shuang Ao, Flora Salim, (参考訳) 近年、ディープラーニングが複雑な時空間パターンをモデル化する上で大きな進歩を遂げているスマートシティやインテリジェントトランスポートイニシアチブにとって、交通予測は不可欠である。 しかし、現在のパブリックデータセットは、インフラの継続的な進化、時間分布の変化、センサのダウンタイムやトラフィックパターンの変化による時間的ギャップを特徴とする、現実世界のシナリオの超ダイナミックな性質を反映する制限がある。 これらの制限は、必然的に既存のトラフィック予測データセットの実用性を制限する。 このギャップを埋めるため、このデータで数年にわたって観測されたセンサノード数の増加と、超ダイナミックな予測の研究を支援するために算出されたXXLTrafficを提案する。 我々のベンチマークには、時間と日毎の集計データによる典型的な時系列予測設定と、実際の制約をより良くシミュレートするためにトレーニングサイズを縮小し、ギャップを導入する新しい設定の両方が含まれています。 我々は,新しいXXLTrafficが,時系列および交通予報コミュニティに新たな視点を提供することを期待している。 また、超ダイナミックで非常に長い予測問題に取り組むために設計されたモデルの開発と評価のための堅牢なプラットフォームを提供する。 我々のデータセットは、既存の時空間データ資源を補完し、この領域における新たな研究方向へと導かれる。

Traffic forecasting is crucial for smart cities and intelligent transportation initiatives, where deep learning has made significant progress in modeling complex spatio-temporal patterns in recent years. However, current public datasets have limitations in reflecting the ultra-dynamic nature of real-world scenarios, characterized by continuously evolving infrastructures, varying temporal distributions, and temporal gaps due to sensor downtimes or changes in traffic patterns. These limitations inevitably restrict the practical applicability of existing traffic forecasting datasets. To bridge this gap, we present XXLTraffic, the largest available public traffic dataset with the longest timespan and increasing number of sensor nodes over the multiple years observed in the data, curated to support research in ultra-dynamic forecasting. Our benchmark includes both typical time-series forecasting settings with hourly and daily aggregated data and novel configurations that introduce gaps and down-sample the training size to better simulate practical constraints. We anticipate the new XXLTraffic will provide a fresh perspective for the time-series and traffic forecasting communities. It would also offer a robust platform for developing and evaluating models designed to tackle ultra-dynamic and extremely long forecasting problems. Our dataset supplements existing spatio-temporal data resources and leads to new research directions in this domain.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# オープンバウンダリ駆動量子回路の積分性

Integrability of open boundary driven quantum circuits ( http://arxiv.org/abs/2406.12695v1 )

ライセンス: Link先を確認
Chiara Paletta, Tomaž Prosen, (参考訳) 本稿では,2つの回路レプリカが左右境界でのみ結合される開放境界条件で,量子ビット(スピン1/2)の二重量子回路のヤン・バクスター積分性の問題に対処する。 バルクが自由フェルミオンXX型と相互作用するXXZ型のいずれかの6頂点ユニタリゲートによって与えられる場合について検討した。 スクリアニンの反射代数の構成を用いることで、そのようなセットアップのために境界ヤン・バクスター方程式の最も一般的な解を得る。 この解を用いて、2ステップの離散時間Floquet(いわゆるブリックワーク)ダイナミクスを持つ変換行列形式から積分可能な回路を構築する。 バルクが自由モデルである場合に限って、境界行列は一般には非分解可能であり、自由パラメータの選択は2つの鎖間の境界相互作用を持つ非自明なユニタリダイナミクスをもたらすことを証明している。 そして、連続時間進化の極限を考察し、リンドブラディアン設定における境界項の制限された集合の解釈を与える。 具体的には、自由パラメータの特定の選択に対して、解はスピン鎖の境界から粒子を注入または除去する元項を表す開量子系力学に対応する。

In this paper, we address the problem of Yang-Baxter integrability of doubled quantum circuit of qubits (spins 1/2) with open boundary conditions where the two circuit replicas are only coupled at the left or right boundary. We investigate the cases where the bulk is given by elementary six vertex unitary gates of either the free fermionic XX type or interacting XXZ type. By using the Sklyanin's construction of reflection algebra, we obtain the most general solutions of the boundary Yang-Baxter equation for such a setup. We use this solution to build, from the transfer matrix formalism, integrable circuits with two step discrete time Floquet (aka brickwork) dynamics. We prove that, only if the bulk is a free-model, the boundary matrices are in general non-factorizable, and for particular choice of free parameters yield non-trivial unitary dynamics with boundary interaction between the two chains. Then, we consider the limit of continuous time evolution and we give the interpretation of a restricted set of the boundary terms in the Lindbladian setting. Specifically, for a particular choice of free parameters, the solutions correspond to an open quantum system dynamics with the source terms representing injecting or removing particles from the boundary of the spin chain.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# 航空機組立における欠陥識別のためのオンライン適応型異常検出

Online-Adaptive Anomaly Detection for Defect Identification in Aircraft Assembly ( http://arxiv.org/abs/2406.12698v1 )

ライセンス: Link先を確認
Siddhant Shete, Dennis Mronga, Ankita Jadhav, Frank Kirchner, (参考訳) 異常検出は、データ内の確立されたパターンから逸脱を検出する。 自律運転、予測保守、医療診断など様々な応用がある。 異常検出精度を向上させるために、転送学習を大規模で事前訓練されたモデルに適用し、特定のアプリケーションコンテキストに適応させることができる。 本稿では,移動学習を用いたオンライン適応型異常検出のための新しいフレームワークを提案する。 このアプローチは、視覚的に類似したトレーニングイメージを選択し、トレーニングサブセットから抽出したEfficientNet機能に正規性モデルを適用することで、異なる環境に適応する。 次に、正規度モデルとテスト画像特徴との間のマハラノビス距離を計算して異常検出を行う。 異なる類似度尺度 (SIFT/FLANN, Cosine) と正規度モデル (MVG, OCSVM) が採用され、互いに比較される。 本研究では,異なる異常検出ベンチマークと,制御された実験室で収集したデータに対するアプローチを評価する。 実験結果は0.975を超える検出精度を示し、最先端のET-NETアプローチよりも優れていた。

Anomaly detection deals with detecting deviations from established patterns within data. It has various applications like autonomous driving, predictive maintenance, and medical diagnosis. To improve anomaly detection accuracy, transfer learning can be applied to large, pre-trained models and adapt them to the specific application context. In this paper, we propose a novel framework for online-adaptive anomaly detection using transfer learning. The approach adapts to different environments by selecting visually similar training images and online fitting a normality model to EfficientNet features extracted from the training subset. Anomaly detection is then performed by computing the Mahalanobis distance between the normality model and the test image features. Different similarity measures (SIFT/FLANN, Cosine) and normality models (MVG, OCSVM) are employed and compared with each other. We evaluate the approach on different anomaly detection benchmarks and data collected in controlled laboratory settings. Experimental results showcase a detection accuracy exceeding 0.975, outperforming the state-of-the-art ET-NET approach.
翻訳日:2024-06-19 18:28:51 公開日:2024-06-18
# SuperPER:Selfie Undistortion and Head PoseEditing with Identity Preservation

SUPER: Selfie Undistortion and Head Pose Editing with Identity Preservation ( http://arxiv.org/abs/2406.12700v1 )

ライセンス: Link先を確認
Polina Karpikova, Andrei Spiridonov, Anna Vorontsova, Anastasia Yaschenko, Ekaterina Radionova, Igor Medvedev, Alexander Limonov, (参考訳) 短い距離から捉えた自画像は、顔の特徴が悪くなったり、位置が不適切な頭部のポーズをしていたりして、不自然あるいは不自然に見えるかもしれない。 本稿では, クローズアップ顔作物における歪みを除去し, 頭部ポーズを調整する新しい方法であるSUPERを提案する。 カメラパラメータと顔潜時符号を最適化して顔画像の3D GANインバージョンを行い、生成画像を生成する。 さらに,得られた潜伏符号から深度を推定し,深度誘導型3Dメッシュを作成し,更新されたカメラパラメータでレンダリングし,歪んだポートレートを得る。 最後に、可視領域が再投影され、閉塞された部分が生成モデルで復元されるように、可視性に基づくブレンディングを適用する。 顔の歪まないベンチマークと自己コンパイル型ヘッドローテーションデータセット(HeRo)の実験では、SUPERは定性的にも量的にも従来のアプローチよりも優れており、フォトリアリスティックなセルフィー編集の新たな可能性を示している。

Self-portraits captured from a short distance might look unnatural or even unattractive due to heavy distortions making facial features malformed, and ill-placed head poses. In this paper, we propose SUPER, a novel method of eliminating distortions and adjusting head pose in a close-up face crop. We perform 3D GAN inversion for a facial image by optimizing camera parameters and face latent code, which gives a generated image. Besides, we estimate depth from the obtained latent code, create a depth-induced 3D mesh, and render it with updated camera parameters to obtain a warped portrait. Finally, we apply the visibility-based blending so that visible regions are reprojected, and occluded parts are restored with a generative model. Experiments on face undistortion benchmarks and on our self-collected Head Rotation dataset (HeRo), show that SUPER outperforms previous approaches both qualitatively and quantitatively, opening new possibilities for photorealistic selfie editing.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# Jailbreak Paradox: The Achilles' Heel of LLMs

Jailbreak Paradox: The Achilles' Heel of LLMs ( http://arxiv.org/abs/2406.12702v1 )

ライセンス: Link先を確認
Abhinav Rao, Monojit Choudhury, Somak Aditya, (参考訳) 基礎モデルのジェイルブレイクに関する2つのパラドックスを紹介する: まず、完璧なジェイルブレイク分類器を構築することは不可能であり、第二に、より弱いモデルでは、より強い(パレト支配的な意味で)モデルがジェイルブレイクされているかどうかを一貫して検出できない。 これらのパラドックスの形式的証明と、Llama と GPT4-o の簡単なケーススタディによりこれを実証する。 これらの結果のより広範な理論的および実践的な反感について論じる。

We introduce two paradoxes concerning jailbreak of foundation models: First, it is impossible to construct a perfect jailbreak classifier, and second, a weaker model cannot consistently detect whether a stronger (in a pareto-dominant sense) model is jailbroken or not. We provide formal proofs for these paradoxes and a short case study on Llama and GPT4-o to demonstrate this. We discuss broader theoretical and practical repercussions of these results.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# ハイパースペクトル画像再構成のための粗面スペクトル対応変形性コンボリューション

Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2406.12703v1 )

ライセンス: Link先を確認
Jincheng Yang, Lishun Wang, Miao Cao, Huan Wang, Yinping Zhao, Xin Yuan, (参考訳) スナップショット2次元計測を用いて空間スペクトルデータキューブをキャプチャし,アルゴリズムを用いて3次元ハイパースペクトル画像(HSI)を再構成する,符号化開口スナップショット分光画像(CASSI)の逆問題について検討する。 しかし、畳み込みニューラルネットワーク(CNN)に基づく現在の手法は、長距離依存や非局所的な類似性を捉えるのに苦労している。 最近普及したTransformerベースの手法は、自己注意による計算コストが高いため、下流タスクには不十分である。 本稿では、この課題に初めて、変形可能な畳み込みネットワーク(DCN)を適用した、粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。 HSIの空間性を考慮した変形可能な畳み込みモジュールを設計し,その変形性を利用して長距離依存や非局所類似性を捕捉する。 さらに、粗粒度と微細粒度の両方のスペクトル類似性を考慮した新しいスペクトル情報相互作用モジュールを提案する。 我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れていた。

We study the inverse problem of Coded Aperture Snapshot Spectral Imaging (CASSI), which captures a spatial-spectral data cube using snapshot 2D measurements and uses algorithms to reconstruct 3D hyperspectral images (HSI). However, current methods based on Convolutional Neural Networks (CNNs) struggle to capture long-range dependencies and non-local similarities. The recently popular Transformer-based methods are poorly deployed on downstream tasks due to the high computational cost caused by self-attention. In this paper, we propose Coarse-Fine Spectral-Aware Deformable Convolution Network (CFSDCN), applying deformable convolutional networks (DCN) to this task for the first time. Considering the sparsity of HSI, we design a deformable convolution module that exploits its deformability to capture long-range dependencies and non-local similarities. In addition, we propose a new spectral information interaction module that considers both coarse-grained and fine-grained spectral similarities. Extensive experiments demonstrate that our CFSDCN significantly outperforms previous state-of-the-art (SOTA) methods on both simulated and real HSI datasets.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# 人間のようなエージェントとの会話:知覚的音響受容と反応を通しての共感的対話

Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction ( http://arxiv.org/abs/2406.12707v1 )

ライセンス: Link先を確認
Haoqiu Yan, Yongxin Zhu, Kai Zheng, Bing Liu, Haoyu Cao, Deqiang Jiang, Linli Xu, (参考訳) 大型言語モデル (LLM) に強化されたエージェントは、エンターテイメントからプロのドメインへの大きな可能性を秘めている。 しかし、現在のマルチモーダル対話システムは、人間のコミュニケーションのニュアンスを理解する上で重要な音声情報を見落としている。 この監視は、話者の意図を誤解させ、対話の中で矛盾する、あるいは矛盾する応答をもたらす。 このギャップを埋めるため、本論文では、音声モーダル知覚の統合により、単語のリテラル解釈を超えて、より深く、より微妙な意味を識別するための共感的マルチモーダル対話システムであるPerceptiveAgentを提案する。 PerceptiveAgentは、LLMを認知的中心として、入力音声から音響情報を知覚し、自然言語で記述された話し方に基づいた共感応答を生成する。 実験結果から, 言語的意味が話者の本当の感情に反するか矛盾している場合において, 話者の真意を正確に把握し, よりニュアンスで表現力のある音声対話を生み出すことにより, 文脈的理解に優れることが示唆された。 コードは: \url{https://github.com/Haoqiu-Yan/PerceptiveAgent}で公開されている。

Large Language Model (LLM)-enhanced agents become increasingly prevalent in Human-AI communication, offering vast potential from entertainment to professional domains. However, current multi-modal dialogue systems overlook the acoustic information present in speech, which is crucial for understanding human communication nuances. This oversight can lead to misinterpretations of speakers' intentions, resulting in inconsistent or even contradictory responses within dialogues. To bridge this gap, in this paper, we propose PerceptiveAgent, an empathetic multi-modal dialogue system designed to discern deeper or more subtle meanings beyond the literal interpretations of words through the integration of speech modality perception. Employing LLMs as a cognitive core, PerceptiveAgent perceives acoustic information from input speech and generates empathetic responses based on speaking styles described in natural language. Experimental results indicate that PerceptiveAgent excels in contextual understanding by accurately discerning the speakers' true intentions in scenarios where the linguistic meaning is either contrary to or inconsistent with the speaker's true feelings, producing more nuanced and expressive spoken dialogues. Code is publicly available at: \url{https://github.com/Haoqiu-Yan/PerceptiveAgent}.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# AgentReview: LLMエージェントによるピアレビューダイナミクスの探索

AgentReview: Exploring Peer Review Dynamics with LLM Agents ( http://arxiv.org/abs/2406.12708v1 )

ライセンス: Link先を確認
Yiqiao Jin, Qinlin Zhao, Yiyang Wang, Hao Chen, Kaijie Zhu, Yijia Xiao, Jindong Wang, (参考訳) ピアレビューは、科学出版の完全性と進歩の基礎である。 従来のピアレビュー分析の手法は、しばしば既存のピアレビューデータの探索と統計に依存するが、これはプロセスの多変量の性質に適切に対処せず、潜伏変数を考慮に入れており、データの繊細な性質のためにプライバシー上の懸念によってさらに制限されている。 本稿では,最初の大規模言語モデル(LLM)に基づくピアレビューシミュレーションフレームワークであるAgentReviewを紹介し,複数の潜在要因の影響を効果的に解消し,プライバシ問題に対処する。 本研究は, 社会的影響論, 利他的疲労, 権威的偏見などの社会学理論が支持する, レビュー者の偏見による紙判断の37.1%の顕著な変化を含む, 重要な知見を明らかにする。 本研究は、ピアレビュー機構の設計を改善するための貴重な洞察を与えることができると考えている。

Peer review is fundamental to the integrity and advancement of scientific publication. Traditional methods of peer review analyses often rely on exploration and statistics of existing peer review data, which do not adequately address the multivariate nature of the process, account for the latent variables, and are further constrained by privacy concerns due to the sensitive nature of the data. We introduce AgentReview, the first large language model (LLM) based peer review simulation framework, which effectively disentangles the impacts of multiple latent factors and addresses the privacy issue. Our study reveals significant insights, including a notable 37.1% variation in paper decisions due to reviewers' biases, supported by sociological theories such as the social influence theory, altruism fatigue, and authority bias. We believe that this study could offer valuable insights to improve the design of peer review mechanisms.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# カリキュラム学習による時空間量子予測の時空間化

Enhancing Spatio-temporal Quantile Forecasting with Curriculum Learning: Lessons Learned ( http://arxiv.org/abs/2406.12709v1 )

ライセンス: Link先を確認
Du Yin, Jinliang Deng, Shuang Ao, Zechen Li, Hao Xue, Arian Prabowo, Renhe Jiang, Xuan Song, Flora Salim, (参考訳) 時空間データ(ST)データのトレーニングモデルは、データ自体の複雑で多様な性質のため、オープンな問題を引き起こす。 さまざまなトレーニングデータを制限することで、トレーニングが容易になる一方で、モデルに関する知識や情報が不足しているため、パフォーマンスが低下する可能性がある。 この課題に対処するために,空間的,時間的,量的な視点を対象とする3種類のカリキュラム学習を取り入れた,革新的なパラダイムを紹介した。 さらに,本フレームワークは,3種類のカリキュラム学習から多種多様な情報を組み合わせた積み重ね融合モジュールを組み込んで,強力かつ徹底的な学習プロセスを実現する。 このフレームワークの有効性を実証的な評価で実証し、複雑なST課題に対処する上での優れた性能を強調した。 カリキュラムの有効性を調査し,STデータにおける学習効率の向上にどのように貢献するかを説明するために,徹底的なアブレーション研究を行った。

Training models on spatio-temporal (ST) data poses an open problem due to the complicated and diverse nature of the data itself, and it is challenging to ensure the model's performance directly trained on the original ST data. While limiting the variety of training data can make training easier, it can also lead to a lack of knowledge and information for the model, resulting in a decrease in performance. To address this challenge, we presented an innovative paradigm that incorporates three separate forms of curriculum learning specifically targeting from spatial, temporal, and quantile perspectives. Furthermore, our framework incorporates a stacking fusion module to combine diverse information from three types of curriculum learning, resulting in a strong and thorough learning process. We demonstrated the effectiveness of this framework with extensive empirical evaluations, highlighting its better performance in addressing complex ST challenges. We provided thorough ablation studies to investigate the effectiveness of our curriculum and to explain how it contributes to the improvement of learning efficiency on ST data.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# Chrome Web Storeに何があるのか? セキュリティに注目すべきブラウザ拡張を調査中

What is in the Chrome Web Store? Investigating Security-Noteworthy Browser Extensions ( http://arxiv.org/abs/2406.12710v1 )

ライセンス: Link先を確認
Sheryl Hsu, Manda Tran, Aurore Fass, (参考訳) 本稿は、Chrome Web Store(CWS)の全体像を提供するための最初の試みである。 我々はChromeStatsが提供する履歴データを活用して、CWSのグローバルなトレンドとセキュリティへの影響を調査します。 拡張の約60%が1年間CWSに留まっています。 次に、Security-Noteworthy Extensions(SNE)が重要な問題であると定義し、示す。 第3に、同様のコードベースを持つ拡張のクラスタを特定します。 疑わしい拡張をフラグするコード類似性技術について論じる。 エクステンションのコメントからURLを抽出するアプローチを開発することで、エクステンションがパブリックリポジトリやフォーラムからコードスニペットを再利用し、時代遅れのコードや脆弱性の拡散につながることを示す。 CWSの拡張機能の60%は更新されておらず、脆弱であることが知られている拡張の半数はCWSにあり、開示から2年経ってもまだ脆弱である。 これらの問題は、より安全なCWSの道を開くために広く知られるべきだと考えています。

This paper is the first attempt at providing a holistic view of the Chrome Web Store (CWS). We leverage historical data provided by ChromeStats to study global trends in the CWS and security implications. We first highlight the extremely short life cycles of extensions: roughly 60% of extensions stay in the CWS for one year. Second, we define and show that Security-Noteworthy Extensions (SNE) are a significant issue: they pervade the CWS for years and affect almost 350 million users. Third, we identify clusters of extensions with a similar code base. We discuss how code similarity techniques could be used to flag suspicious extensions. By developing an approach to extract URLs from extensions' comments, we show that extensions reuse code snippets from public repositories or forums, leading to the propagation of dated code and vulnerabilities. Finally, we underline a critical lack of maintenance in the CWS: 60% of the extensions in the CWS have never been updated; half of the extensions known to be vulnerable are still in the CWS and still vulnerable 2 years after disclosure; a third of extensions use vulnerable library versions. We believe that these issues should be widely known in order to pave the way for a more secure CWS.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# 自己ローカライズされた協調的知覚

Self-Localized Collaborative Perception ( http://arxiv.org/abs/2406.12712v1 )

ライセンス: Link先を確認
Zhenyang Ni, Zixing Lei, Yifan Lu, Dingju Wang, Chen Feng, Yanfeng Wang, Siheng Chen, (参考訳) 協調的知覚は、排他的・外的問題を含む、単一エージェント的知覚におけるいくつかの固有の課題に対処する能力のために、かなりの注目を集めている。 しかし、既存の協調認識システムはエージェント間の一貫した空間座標系を確立するために正確な位置決めシステムに大きく依存している。 この依存により、大きなポーズエラーや悪意のある攻撃を受けやすくなり、認識性能が大幅に低下する。 そこで本稿では, 外部ローカライゼーションシステムを使わずに, より包括的で堅牢なコラボレーションを実現する, 自己局在型協調認識システムである~$\matht{CoBEVGlue}$を提案する。 The core of~$\mathtt{CoBEVGlue}$ is a novel spatial alignment module, which provides the relative poses between agent by effectively matching co-visible objects across agent。 本手法を実世界とシミュレーションデータセットの両方で検証する。 その結果は i) $\mathtt{CoBEVGlue}$は任意のローカライゼーションノイズとアタックの下で最先端検出性能を達成する。 二 空間アライメントモジュールは、従来手法の大多数とシームレスに統合することができ、平均57.7\%$で性能を向上させることができる。 コードはhttps://github.com/VincentNi0107/CoBEVGlueで入手できる。

Collaborative perception has garnered considerable attention due to its capacity to address several inherent challenges in single-agent perception, including occlusion and out-of-range issues. However, existing collaborative perception systems heavily rely on precise localization systems to establish a consistent spatial coordinate system between agents. This reliance makes them susceptible to large pose errors or malicious attacks, resulting in substantial reductions in perception performance. To address this, we propose~$\mathtt{CoBEVGlue}$, a novel self-localized collaborative perception system, which achieves more holistic and robust collaboration without using an external localization system. The core of~$\mathtt{CoBEVGlue}$ is a novel spatial alignment module, which provides the relative poses between agents by effectively matching co-visible objects across agents. We validate our method on both real-world and simulated datasets. The results show that i) $\mathtt{CoBEVGlue}$ achieves state-of-the-art detection performance under arbitrary localization noises and attacks; and ii) the spatial alignment module can seamlessly integrate with a majority of previous methods, enhancing their performance by an average of $57.7\%$. Code is available at https://github.com/VincentNi0107/CoBEVGlue
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# 抽象有限状態モデルによる実行時検証

Runtime Verification on Abstract Finite State Models ( http://arxiv.org/abs/2406.12715v1 )

ライセンス: Link先を確認
KP Jevitha, Bharat Jayaraman, M Sethumadhavan, (参考訳) 有限状態モデルは並列システム、特に反復サイクルで動作するコントローラやサーバの研究においてユビキタスである。 本稿では,マルチスレッドJavaプログラムの実行から有限状態モデルを抽出し,精度特性のランタイム検証を行う方法について述べる。 これらの特性には、データ指向および制御指向の特性が含まれており、前者はオブジェクトのデータフィールド上での表現正当性条件を示し、後者はより大きなソフトウェアモジュール間での制御の正しいフローに関するものである。 抽出されたモデルは長期にわたって非常に大きくなりうるため、この論文の焦点は、より大きなドメイン空間をより小さなドメイン空間にマッピングするユーザ定義の抽象関数を持つ縮小モデルの構築である。 抽象関数は、結果のモデルがプロパティ保存であるように選択されるべきである。 本論文の主な貢献は,プロパティ保存抽象モデルのオンラインプロパティチェックを通じて,実行時検証の効率性を示すことである。 プロパティ仕様言語は、単純なデータ型と演算子で拡張された命題線形時間論理に似ている。 従来の並列処理の例とより大きなケーススタディ(Multi-rotor Drone Controller, OAuth Protocol)を提示し,Javaプログラムの実行時ビジュアライゼーションと検証のためのEclipseプラグインに組み込まれた提案手法の有用性を実証した。

Finite-state models are ubiquitous in the study of concurrent systems, especially controllers and servers that operate in a repetitive cycle. In this paper, we show how to extract finite state models from a run of a multi-threaded Java program and carry out runtime verification of correctness properties. These properties include data-oriented and control-oriented properties; the former express correctness conditions over the data fields of objects, while the latter are concerned with the correct flow of control among the modules of larger software. As the extracted models can become very large for long runs, the focus of this paper is on constructing reduced models with user-defined abstraction functions that map a larger domain space to a smaller one. The abstraction functions should be chosen so that the resulting model is property preserving, i.e., proving a property on the abstract model carries over to the concrete model. The main contribution of this paper is in showing how runtime verification can be made efficient through online property checking on property-preserving abstract models. The property specification language resembles a propositional linear temporal logic augmented with simple datatypes and operators. Classic concurrency examples and larger case studies (Multi-rotor Drone Controller, OAuth Protocol) are presented in order to demonstrate the usefulness of our proposed techniques, which are incorporated in an Eclipse plug-in for runtime visualization and verification of Java programs.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# AGLA:グローバル・ローカル・アテンションを組み込んだ大規模視覚言語モデルにおける物体の幻覚の緩和

AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention ( http://arxiv.org/abs/2406.12718v1 )

ライセンス: Link先を確認
Wenbin An, Feng Tian, Sicong Leng, Jiahao Nie, Haonan Lin, QianYing Wang, Guang Dai, Ping Chen, Shijian Lu, (参考訳) 様々なマルチモーダルタスクにおいて大きな成功を収めたにもかかわらず、LVLM(Large Vision-Language Models)は、オブジェクト幻覚において一般的な問題に直面している。 本稿では, 種々のLVLMについて検討し, 物体幻覚の根本原因としての識別的局所像の特徴に着目した。 特に、LVLMはプロンプト非依存のグローバルな画像の特徴に主に関与するが、プロンプト関連ローカルな特徴を捉えなかったため、LVLMの視覚的接地能力が損なわれ、幻覚がもたらされる。 この目的のために我々は,学習自由でプラグアンドプレイなアプローチであるグローバル・ローカル・アテンション(AGLA, Assembly of Global and Local Attention)を提案し,応答生成のためのグローバルな特徴と視覚的識別のためのローカル特徴のアンサンブルを同時に探索することによって,対象の幻覚を緩和する。 提案手法では,画像から急激な局所的特徴を抽出する画像プロンプトマッチング方式を提示し,無関係な注意を隠蔽しながら,急激な関連コンテンツが予約されている入力画像の視認性を高めた。 拡張ビューでは、原画像からの生成的グローバル特徴と、拡張画像からの識別的ローカル特徴を統合することで、校正復号分布を導出することができる。 広範囲にわたる実験により、AGLAは、様々な識別的および生成的ベンチマークにおいて、オブジェクト幻覚を一貫して緩和し、LVLMの一般的な知覚能力を高めることが示されている。 私たちのコードはhttps://github.com/Lackel/AGLA.comでリリースされます。

Despite their great success across various multimodal tasks, Large Vision-Language Models (LVLMs) are facing a prevalent problem with object hallucinations, where the generated textual responses are inconsistent with ground-truth objects in the given image. This paper investigates various LVLMs and pinpoints attention deficiency toward discriminative local image features as one root cause of object hallucinations. Specifically, LVLMs predominantly attend to prompt-independent global image features, while failing to capture prompt-relevant local features, consequently undermining the visual grounding capacity of LVLMs and leading to hallucinations. To this end, we propose Assembly of Global and Local Attention (AGLA), a training-free and plug-and-play approach that mitigates object hallucinations by exploring an ensemble of global features for response generation and local features for visual discrimination simultaneously. Our approach exhibits an image-prompt matching scheme that captures prompt-relevant local features from images, leading to an augmented view of the input image where prompt-relevant content is reserved while irrelevant distractions are masked. With the augmented view, a calibrated decoding distribution can be derived by integrating generative global features from the original image and discriminative local features from the augmented image. Extensive experiments show that AGLA consistently mitigates object hallucinations and enhances general perception capability for LVLMs across various discriminative and generative benchmarks. Our code will be released at https://github.com/Lackel/AGLA.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# 質問応答における言語モデルのロバスト性について

On the Robustness of Language Models for Tabular Question Answering ( http://arxiv.org/abs/2406.12719v1 )

ライセンス: Link先を確認
Kushal Raj Bhandari, Sixue Xing, Soham Dan, Jianxi Gao, (参考訳) 大規模言語モデル(LLM)は、もともと様々なテキスト理解タスクをこなすために示され、特定の訓練なしにテーブル理解タスクに取り組むことが顕著に示されている。 従来の研究は,表付きデータセットタスクを用いたLCM機能について検討してきたが,本研究では,$\textit{in-context learning}$,$ \textit{model scale}$,$\textit{instruction tuning}$,$\textit{ biases}$ on Tabular Question Answering (TQA)の影響を評価した。 我々は、ウィキペディアベースの$\textbf{WTQ}$および財務報告ベースの$\textbf{TAT-QA}$TQAデータセット上でのLCMの堅牢性を評価し、様々な拡張と摂動の下で表形式のデータを堅牢に解釈できることに焦点を当てた。 以上の結果から,Llama3のような最近のモデルでは,従来のモデルよりもロバスト性が高いことが示唆された。 しかし、特にWTQでは、データ汚染と実用的な信頼性の問題が続いている。 本稿では、テーブル理解のための信頼性の高いLCMを開発するために、構造認識型自己認識機構やドメイン固有の表データ処理の改善など、改善された方法論の必要性を強調した。

Large Language Models (LLMs), originally shown to ace various text comprehension tasks have also remarkably been shown to tackle table comprehension tasks without specific training. While previous research has explored LLM capabilities with tabular dataset tasks, our study assesses the influence of $\textit{in-context learning}$,$ \textit{model scale}$, $\textit{instruction tuning}$, and $\textit{domain biases}$ on Tabular Question Answering (TQA). We evaluate the robustness of LLMs on Wikipedia-based $\textbf{WTQ}$ and financial report-based $\textbf{TAT-QA}$ TQA datasets, focusing on their ability to robustly interpret tabular data under various augmentations and perturbations. Our findings indicate that instructions significantly enhance performance, with recent models like Llama3 exhibiting greater robustness over earlier versions. However, data contamination and practical reliability issues persist, especially with WTQ. We highlight the need for improved methodologies, including structure-aware self-attention mechanisms and better handling of domain-specific tabular data, to develop more reliable LLMs for table comprehension.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# BIOSCAN-5M:昆虫の生物多様性のためのマルチモーダルデータセット

BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity ( http://arxiv.org/abs/2406.12723v1 )

ライセンス: Link先を確認
Zahra Gharaee, Scott C. Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Lila Kari, Dirk Steinke, Graham W. Taylor, Paul Fieguth, Angel X. Chang, (参考訳) 本稿では,昆虫の生物多様性を理解・監視するための国際的な取り組みの一環として,BIOSCAN-5M Insectデータセットを機械学習コミュニティに提示し,いくつかのベンチマークタスクを確立する。 BIOSCAN-5Mは500万以上の昆虫標本のマルチモーダル情報を含む包括的データセットであり、分類学的ラベル、生ヌクレオチドバーコード配列、割り当てられたバーコードインデックス番号、地理的情報を含む既存の画像ベースの生物学的データセットを著しく拡張する。 マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。 まず,<mbox{BIOSCAN-5M} データセットのDNAバーコード配列にマスク付き言語モデルを事前学習し,この大規模な参照ライブラリが種と種レベルの分類性能に与える影響を実証する。 次に、自己教師付き学習から得られたクラスタ特徴埋め込みに画像やDNAバーコードに適用したゼロショット転送学習タスクを提案し、これらの表現埋め込みから有意義なクラスタを抽出できるかどうかを検討する。 第3に、DNAバーコード、画像データ、分類情報に対してコントラスト学習を行うことにより、マルチモダリティをベンチマークする。 これにより、複数の種類の情報とモダリティを用いた分類学的分類を可能にする一般的な共有埋め込み空間が得られる。 BIOSCAN-5M Insectデータセットのコードリポジトリは {\url{https://github.com/zahrag/BIOSCAN-5M}}で公開されている。

As part of an ongoing worldwide effort to comprehend and monitor insect biodiversity, this paper presents the BIOSCAN-5M Insect dataset to the machine learning community and establish several benchmark tasks. BIOSCAN-5M is a comprehensive dataset containing multi-modal information for over 5 million insect specimens, and it significantly expands existing image-based biological datasets by including taxonomic labels, raw nucleotide barcode sequences, assigned barcode index numbers, and geographical information. We propose three benchmark experiments to demonstrate the impact of the multi-modal data types on the classification and clustering accuracy. First, we pretrain a masked language model on the DNA barcode sequences of the \mbox{BIOSCAN-5M} dataset, and demonstrate the impact of using this large reference library on species- and genus-level classification performance. Second, we propose a zero-shot transfer learning task applied to images and DNA barcodes to cluster feature embeddings obtained from self-supervised learning, to investigate whether meaningful clusters can be derived from these representation embeddings. Third, we benchmark multi-modality by performing contrastive learning on DNA barcodes, image data, and taxonomic information. This yields a general shared embedding space enabling taxonomic classification using multiple types of information and modalities. The code repository of the BIOSCAN-5M Insect dataset is available at {\url{https://github.com/zahrag/BIOSCAN-5M}}
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# 大規模言語モデルは言語学者のようにコード化できるか?-低資源音声法則の導出を事例として

Can Large Language Models Code Like a Linguist?: A Case Study in Low Resource Sound Law Induction ( http://arxiv.org/abs/2406.12725v1 )

ライセンス: Link先を確認
Atharva Naik, Kexun Zhang, Nathaniel Robinson, Aravind Mysore, Clayton Marr, Hong Sng Rebecca Byrnes, Anna Cai, Kalvin Chang, David Mortensen, (参考訳) 歴史的言語学者は、祖先言語の再構成された単語を、一連の順序付けられた文字列書き直し機能(音声法則)からなる証明された子孫の1つに変換する、不完全な形式化された「プログラム」を長年にわたって書いてきた。 彼らは、再構成された言語(プロトフォルム)と子孫言語(リフレクション)で一対の単語を観察し、プロトフォルムをリフレクションに変換するプログラムを構築することでこれを実現している。 しかし、これらのプログラムを書くのはエラーを起こしやすく、時間がかかる。 従来の研究は、このプロセスの足場を計算的に構築していましたが、SLI(Sound Law Injection)に取り組む研究者は少ないです。 本稿では,Pythonの音声法則プログラムを音響変化例から生成することで,Large Language Models (LLMs) のプログラミング能力を活用する言語非依存のソリューションを提案する。 各種LLMに対するアプローチの有効性を評価し,SLIのための微調整LLMに言語に依存しない合成データを生成するための効果的な手法を提案し,既存の自動SLI法と比較したところ,LLMが遅れている場合,その弱点を補うことができることがわかった。

Historical linguists have long written a kind of incompletely formalized ''program'' that converts reconstructed words in an ancestor language into words in one of its attested descendants that consist of a series of ordered string rewrite functions (called sound laws). They do this by observing pairs of words in the reconstructed language (protoforms) and the descendent language (reflexes) and constructing a program that transforms protoforms into reflexes. However, writing these programs is error-prone and time-consuming. Prior work has successfully scaffolded this process computationally, but fewer researchers have tackled Sound Law Induction (SLI), which we approach in this paper by casting it as Programming by Examples. We propose a language-agnostic solution that utilizes the programming ability of Large Language Models (LLMs) by generating Python sound law programs from sound change examples. We evaluate the effectiveness of our approach for various LLMs, propose effective methods to generate additional language-agnostic synthetic data to fine-tune LLMs for SLI, and compare our method with existing automated SLI methods showing that while LLMs lag behind them they can complement some of their weaknesses.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# 機械学習回帰アルゴリズムによるエネルギー陽子フラックスの予測

Predicting the energetic proton flux with a machine learning regression algorithm ( http://arxiv.org/abs/2406.12730v1 )

ライセンス: Link先を確認
Mirko Stumpo, Monica Laurenza, Simone Benella, Maria Federica Marcucci, (参考訳) 過去20年間で、宇宙気象の脅威に対するリアルタイム監視と警報システムの必要性は著しく増大している。 宇宙ミッションの運用と計画において最も重要な課題の1つは、太陽陽子事象(SPE)の予測である。 この文脈では、人工知能と機械学習技術が新たなフロンティアを開き、統計予測アルゴリズムの新しいパラダイムを提供する。 これらのモデルの大部分は、SPEの発生を予測することを目的としており、分類アプローチに基づいている。 本研究では,電子束のみから得られる特徴を利用することで,最大1時間前にエネルギープロトンフラックスを予測できる,シンプルで効率的な機械学習回帰アルゴリズムを提案する。 このアプローチは、深宇宙と地球近傍の両方の環境における放射線リスクの監視システムを改善するのに役立つかもしれない。 このモデルは非常にミッションの運用と計画に関係しており、特に火星からの距離のようなフレア特性と源の位置がリアルタイムで利用できない場合である。

The need of real-time of monitoring and alerting systems for Space Weather hazards has grown significantly in the last two decades. One of the most important challenge for space mission operations and planning is the prediction of solar proton events (SPEs). In this context, artificial intelligence and machine learning techniques have opened a new frontier, providing a new paradigm for statistical forecasting algorithms. The great majority of these models aim to predict the occurrence of a SPE, i.e., they are based on the classification approach. In this work we present a simple and efficient machine learning regression algorithm which is able to forecast the energetic proton flux up to 1 hour ahead by exploiting features derived from the electron flux only. This approach could be helpful to improve monitoring systems of the radiation risk in both deep space and near-Earth environments. The model is very relevant for mission operations and planning, especially when flare characteristics and source location are not available in real time, as at Mars distance.
翻訳日:2024-06-19 18:18:55 公開日:2024-06-18
# 説明可能な機械学習を用いた産業ワークフローにおける労働者の行動からの洞察の自動生成

Automatic generation of insights from workers' actions in industrial workflows with explainable Machine Learning ( http://arxiv.org/abs/2406.12732v1 )

ライセンス: Link先を確認
Francisco de Arriba-Pérez, Silvia García-Méndez, Javier Otero-Mosquera, Francisco J. González-Castaño, Felipe Gil-Castiñeira, (参考訳) 機械学習(ML)のような新しい技術は、業界ワークフローを評価し、キーパフォーマンス指標(KPI)を自動的に生成する大きな可能性を与えました。 しかし、産業機械の効率を測る基準が確立されているにもかかわらず、労働者の生産性には正確に同等なものはなく、次世代の産業ワークフローに熟練した労働力が欠如していることを考えると、非常に望ましい。 したがって、その目的のために製造プロセスからのデータと作業者のパフォーマンスを組み合わせるMLソリューションが必要である。 さらに、近年では、人間のオペレータに自動的に判断を説明できるMLアプローチの説明に、激しい努力が注がれているため、信頼性が向上している。 産業ワークフローにおける熟練労働者と熟練労働者を区別するために、説明可能なMLソリューションを適用し、品質評価産業ワークステーションで検証する。 使用する方法論に関しては、入力データは製造機械によってキャプチャされ、NoSQLデータベースに格納される。 データは、自動分類で使用されるエンジニアの機能に処理され、労働者のKPIを計算して、専門知識のレベルを予測する(すべての分類基準が90%を超える)。 これらのKPIとその決定に関連する機能は、説明可能性ダッシュボード上で自然言語拡張によってテキストで説明される。 これらの自動的な説明は、専門家労働者の知識を専門家労働者から推測することを可能にした。 後者は、産業ワークフローにおける生産性向上のための洞察を自動的に生成する、自己説明可能なMLの研究の関心を示しています。

New technologies such as Machine Learning (ML) gave great potential for evaluating industry workflows and automatically generating key performance indicators (KPIs). However, despite established standards for measuring the efficiency of industrial machinery, there is no precise equivalent for workers' productivity, which would be highly desirable given the lack of a skilled workforce for the next generation of industry workflows. Therefore, an ML solution combining data from manufacturing processes and workers' performance for that goal is required. Additionally, in recent times intense effort has been devoted to explainable ML approaches that can automatically explain their decisions to a human operator, thus increasing their trustworthiness. We propose to apply explainable ML solutions to differentiate between expert and inexpert workers in industrial workflows, which we validate at a quality assessment industrial workstation. Regarding the methodology used, input data are captured by a manufacturing machine and stored in a NoSQL database. Data are processed to engineer features used in automatic classification and to compute workers' KPIs to predict their level of expertise (with all classification metrics exceeding 90 %). These KPIs, and the relevant features in the decisions are textually explained by natural language expansion on an explainability dashboard. These automatic explanations made it possible to infer knowledge from expert workers for inexpert workers. The latter illustrates the interest of research in self-explainable ML for automatically generating insights to improve productivity in industrial workflows.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# 視覚的外観を超えて:ハイブリッドグラフ推論によるプライバシに敏感なオブジェクトの識別

Beyond Visual Appearances: Privacy-sensitive Objects Identification via Hybrid Graph Reasoning ( http://arxiv.org/abs/2406.12736v1 )

ライセンス: Link先を確認
Zhuohang Jiang, Bingkui Tong, Xia Du, Ahmed Alhammadi, Jizhe Zhou, (参考訳) プライバシに敏感なオブジェクト識別(POI)タスクは、シーン内のプライバシに敏感なオブジェクトのバウンディングボックスを割り当てる。 POIの鍵は、オブジェクトのプライバシクラス(プライバシ感受性または非プライバシ感受性)をセッティングすることだ。 オブジェクトの視覚的外観によって決定される従来のオブジェクトクラスとは対照的に、あるオブジェクトのプライバシクラスはシーンコンテキストから派生し、視覚的外観を超えた様々な暗黙的要因を被る。 つまり、視覚的に類似したオブジェクトは、彼らのプライバシークラスでは完全に正反対かもしれない。 本稿では,シーンコンテキストからオブジェクトのプライバシクラスを明確に導出するために,シーン内の各オブジェクトのプライバシを目標とした視覚的推論タスクとしてPOIタスクを解釈する。 この解釈に従って,POIのためのPrivacyGuardフレームワークを提案する。 PrivacyGuardには3つのステージがある。 i) 構造化: 構造化されていない画像は、まず、リッチなシーンコンテキストを埋め込んだ構造化された異種シーングラフに変換される。 ii)データ強化:シーングラフにわずかに摂動されたプライバシに敏感なオブジェクトを作成するために,コンテキスト的摂動オーバーサンプリング戦略を提案する。 三 ハイブリッドグラフ生成及び推論:バランスの取れた異質なシーングラフは、余分な「ノード」と「エッジ」同質なパスを付与することによりハイブリッドグラフに変換される。 これらの均質なパスは、ノードまたはエッジ間の直接メッセージパッシングを可能にし、推論を加速し、微妙なコンテキスト変化のキャプチャを容易にする。 このハイブリッドグラフ...* 完全な抽象性については、オリジナルの論文を参照してください。 ※※

The Privacy-sensitive Object Identification (POI) task allocates bounding boxes for privacy-sensitive objects in a scene. The key to POI is settling an object's privacy class (privacy-sensitive or non-privacy-sensitive). In contrast to conventional object classes which are determined by the visual appearance of an object, one object's privacy class is derived from the scene contexts and is subject to various implicit factors beyond its visual appearance. That is, visually similar objects may be totally opposite in their privacy classes. To explicitly derive the objects' privacy class from the scene contexts, in this paper, we interpret the POI task as a visual reasoning task aimed at the privacy of each object in the scene. Following this interpretation, we propose the PrivacyGuard framework for POI. PrivacyGuard contains three stages. i) Structuring: an unstructured image is first converted into a structured, heterogeneous scene graph that embeds rich scene contexts. ii) Data Augmentation: a contextual perturbation oversampling strategy is proposed to create slightly perturbed privacy-sensitive objects in a scene graph, thereby balancing the skewed distribution of privacy classes. iii) Hybrid Graph Generation & Reasoning: the balanced, heterogeneous scene graph is then transformed into a hybrid graph by endowing it with extra "node-node" and "edge-edge" homogeneous paths. These homogeneous paths allow direct message passing between nodes or edges, thereby accelerating reasoning and facilitating the capturing of subtle context changes. Based on this hybrid graph... **For the full abstract, see the original paper.**
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# ユニバーサル・マルチタスク・デコーダとしての大規模言語モデル

Large Language Model as a Universal Clinical Multi-task Decoder ( http://arxiv.org/abs/2406.12738v1 )

ライセンス: Link先を確認
Yujiang Wu, Hongjian Song, Jiawen Zhang, Xumeng Wen, Shun Zheng, Jiang Bian, (参考訳) 臨床システムの効率性と精度を高めるための効果的な機械学習手法の開発が重要である。 大きな研究努力にもかかわらず、多種多様な臨床タスクを管理し、新たなタスクに適応することは大きな課題である。 本稿では,臨床用マルチタスクデコーダとして,事前学習された大規模言語モデルを用いた新しいパラダイムを提案する。 このアプローチは、タスクトピックのバリエーションと関連する引数を扱うために、言語表現の柔軟性と多様性を活用する。 新しいタスクを導入するには、単に新しい命令テンプレートを追加するだけでよい。 我々はこのフレームワークを数百のタスクにわたって検証し、マルチタスク予測の容易性を示すとともに、従来のマルチタスク学習とシングルタスク学習のアプローチと同等のパフォーマンスを示す。 さらに、新しいタスクへの例外的な適応性を示し、いくつかのケースでは印象的なゼロショットのパフォーマンスと、少数のシナリオではデータ効率が優れている。 この新しいアプローチは、臨床応用において、幅広い新しいタスクと新しいタスクを管理する統一されたソリューションを提供する。

The development of effective machine learning methodologies for enhancing the efficiency and accuracy of clinical systems is crucial. Despite significant research efforts, managing a plethora of diversified clinical tasks and adapting to emerging new tasks remain significant challenges. This paper presents a novel paradigm that employs a pre-trained large language model as a universal clinical multi-task decoder. This approach leverages the flexibility and diversity of language expressions to handle task topic variations and associated arguments. The introduction of a new task simply requires the addition of a new instruction template. We validate this framework across hundreds of tasks, demonstrating its robustness in facilitating multi-task predictions, performing on par with traditional multi-task learning and single-task learning approaches. Moreover, it shows exceptional adaptability to new tasks, with impressive zero-shot performance in some instances and superior data efficiency in few-shot scenarios. This novel approach offers a unified solution to manage a wide array of new and emerging tasks in clinical applications.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# 200以上の言語で言語間NLUをアンロックするモデル構築のための自己蒸留法

Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages ( http://arxiv.org/abs/2406.12739v1 )

ライセンス: Link先を確認
Fabian David Schmidt, Philipp Borchert, Ivan Vulić, Goran Glavaš, (参考訳) LLMはテキスト生成だけでなく、自然言語理解(NLU)タスクにも活用されている。 Webスケールのコーパスで言語モデリングを通じて広範な知識を取得することで、彼らは英語のNLUに長けているが、表現不足の言語にNLUの機能を拡張するのに苦労している。 対照的に、機械翻訳モデル(MT)は優れた多言語表現を生成するため、低リソース言語でも強い翻訳性能が得られる。 しかし、MTエンコーダは、LLMが膨大なコーパスの言語モデリングトレーニングを通じて得られる包括的NLUに必要な知識を欠いている。 本研究では, MTエンコーダを試料効率のよい自己蒸留法により, LLMバックボーンに直接組み込むことにより, 両世界のベストを得られる。 MT-LLMは、MTエンコーダから固有の多言語表現アライメントを保持し、低リソース言語が英語中心のLLMに埋め込まれた豊富な知識を活用できるようにする。 MTエンコーダとLLMを1つのモデルで組み合わせることで、翻訳エラーの伝播と、離散的な翻訳に基づく言語間変換(例えば、翻訳-テスト)に固有のMT復号の推論オーバーヘッドを軽減する。 3つの顕著なNLUタスクと127の低リソース言語にまたがる評価は、MT-LLMを言語間移動に非常に効果的にする。 MT-LLMは、同じMTモデルに基づいて翻訳テストを大幅に上回り、LLMの多言語言語理解を真に解き放つことを示す。

LLMs have become a go-to solution not just for text generation, but also for natural language understanding (NLU) tasks. Acquiring extensive knowledge through language modeling on web-scale corpora, they excel on English NLU, yet struggle to extend their NLU capabilities to underrepresented languages. In contrast, machine translation models (MT) produce excellent multilingual representations, resulting in strong translation performance even for low-resource languages. MT encoders, however, lack the knowledge necessary for comprehensive NLU that LLMs obtain through language modeling training on immense corpora. In this work, we get the best both worlds by integrating MT encoders directly into LLM backbones via sample-efficient self-distillation. The resulting MT-LLMs preserve the inherent multilingual representational alignment from the MT encoder, allowing lower-resource languages to tap into the rich knowledge embedded in English-centric LLMs. Merging the MT encoder and LLM in a single model, we mitigate the propagation of translation errors and inference overhead of MT decoding inherent to discrete translation-based cross-lingual transfer (e.g., translate-test). Evaluation spanning three prominent NLU tasks and 127 predominantly low-resource languages renders MT-LLMs highly effective in cross-lingual transfer. MT-LLMs substantially and consistently outperform translate-test based on the same MT model, showing that we truly unlock multilingual language understanding for LLMs.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# 視覚・言語モデルにおけるマルチイメージ理解のベンチマーク:知覚・知識・推論・マルチホップ推論

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning ( http://arxiv.org/abs/2406.12742v1 )

ライセンス: Link先を確認
Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales, (参考訳) 大規模言語モデル(LLM)の進歩により、自然言語処理におけるアプリケーションの範囲が大幅に拡大し、マルチモーダル LLM がこれらの機能を拡張して視覚データの統合と解釈を行っている。 しかしながら、既存のビジュアル言語モデル(VLM)のベンチマークは、主にシングルイメージの入力に焦点を当てており、マルチイメージ理解の重要な側面を無視している。 本稿では,VLMが複数の画像に対して比較,解析,推論を行う能力を評価するためのマルチイメージリレーショナルベンチマークMIRBを提案する。 私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。 オープンソース・クローズド・ソース・モデルの包括的評価を通じて,シングルイメージタスクにおけるGPT-4Vの性能にアプローチするオープンソースVLMが示されたが,マルチイメージ推論タスクでは大きな性能差が残っていることを実証した。 また,現在最先端のGPT-4Vモデルでさえベンチマークに苦戦しており,この分野のさらなる研究・開発の必要性が強調されている。 我々は、次世代マルチモーダルモデルを開発するためのテストベッドとして、MIRBの貢献が役立つと信じている。

The advancement of large language models (LLMs) has significantly broadened the scope of applications in natural language processing, with multi-modal LLMs extending these capabilities to integrate and interpret visual data. However, existing benchmarks for visual language models (VLMs) predominantly focus on single-image inputs, neglecting the crucial aspect of multi-image understanding. In this paper, we introduce a Multi-Image Relational Benchmark MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across multiple images. Our benchmark encompasses four categories: perception, visual world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive evaluation of a wide range of open-source and closed-source models, we demonstrate that while open-source VLMs were shown to approach the performance of GPT-4V in single-image tasks, a significant performance gap remains in multi-image reasoning tasks. Our findings also reveal that even the state-of-the-art GPT-4V model struggles with our benchmark, underscoring the need for further research and development in this area. We believe our contribution of MIRB could serve as a testbed for developing the next-generation multi-modal models.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# ニューラルネットワーク制御系におけるセクタ境界非線形性を用いた確率と安定性の両立

Ensuring Both Positivity and Stability Using Sector-Bounded Nonlinearity for Systems with Neural Network Controllers ( http://arxiv.org/abs/2406.12744v1 )

ライセンス: Link先を確認
Hamidreza Montazeri Hedesh, Milad Siami, (参考訳) 本稿では,完全結合型フィードフォワードニューラルネットワーク(FFNN)制御系を用いた正のフィードバックシステムの安定性解析手法を提案する。 偏りのない完全連結FFNNのセクタ境界を確立することにより、完全連結FFNN制御の下での線形システムの大域的指数的安定性を示す安定性定理を示す。 正のLur'e系と正のAizerman予想から原理を生かし、高非線形系の安定性を確保するという課題を効果的に解決する。 我々の手法の要点は、ルールの系全体の正性およびフルヴィッツ性を保持するセクター境界の維持にある。 出力フィードバックコントローラデータに基づいて訓練されたFFNNが管理する線形システムにおいて,本手法の実践的適用性を示し,動的システムの安定性向上の可能性を明らかにする。

This paper introduces a novel method for the stability analysis of positive feedback systems with a class of fully connected feedforward neural networks (FFNN) controllers. By establishing sector bounds for fully connected FFNNs without biases, we present a stability theorem that demonstrates the global exponential stability of linear systems under fully connected FFNN control. Utilizing principles from positive Lur'e systems and the positive Aizerman conjecture, our approach effectively addresses the challenge of ensuring stability in highly nonlinear systems. The crux of our method lies in maintaining sector bounds that preserve the positivity and Hurwitz property of the overall Lur'e system. We showcase the practical applicability of our methodology through its implementation in a linear system managed by a FFNN trained on output feedback controller data, highlighting its potential for enhancing stability in dynamic systems.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# ゼロショット知識に基づくVQAのためのRationaleに基づく複数QAストラテジーのアンサンブル

Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA ( http://arxiv.org/abs/2406.12746v1 )

ライセンス: Link先を確認
Miaoyu Li, Haoxin Li, Zilin Du, Boyang Li, (参考訳) K-VQA(Knowledge-based Visual Qustion-Awering)は、画像に描かれているもの以外の背景知識の使用を必要とする。 現在のゼロショットK-VQA法は、通常、1種類のテキスト決定コンテキストに画像を変換し、それに基づいてテキストベースのモデルを使用して質問に答えるが、K-VQAの質問は複数の質問答え戦略の組み合わせを必要とすることが多いという事実と矛盾する。 そこで本研究では,Rationale-based Ensemble of Answer Context Tactics (REACT) を提案し,AcG(Answer Candidate Generation)とRSF(Rationale-based Strategy Fusion)を含む複数の質問回答戦術の動的アンサンブルを実現する。 ACGでは、各質問に対して異なる戦略を提供するために3つの決定コンテキストを生成し、その結果、3つの回答候補が生成される。 RSFは、各候補に対する決定コンテキストから自動的および機械的合理性を生成し、モデルがすべての候補から正しい答えを選択することを可能にする。 我々はOK-VQAデータセットとA-OKVQAデータセットの総合的な実験を行い、この手法は全てのデータセットにおける最先端のLCMベースラインを大幅に上回っている。

Knowledge-based Visual Qustion-answering (K-VQA) necessitates the use of background knowledge beyond what is depicted in the image. Current zero-shot K-VQA methods usually translate an image to a single type of textual decision context and use a text-based model to answer the question based on it, which conflicts with the fact that K-VQA questions often require the combination of multiple question-answering strategies. In light of this, we propose Rationale-based Ensemble of Answer Context Tactics (REACT) to achieve a dynamic ensemble of multiple question-answering tactics, comprising Answer Candidate Generation (ACG) and Rationale-based Strategy Fusion (RSF). In ACG, we generate three distinctive decision contexts to provide different strategies for each question, resulting in the generation of three answer candidates. RSF generates automatic and mechanistic rationales from decision contexts for each candidate, allowing the model to select the correct answer from all candidates. We conduct comprehensive experiments on the OK-VQA and A-OKVQA datasets, and our method significantly outperforms state-of-the-art LLM-based baselines on all datasets.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# TSI-Bench: 時系列インプットのベンチマーク

TSI-Bench: Benchmarking Time Series Imputation ( http://arxiv.org/abs/2406.12747v1 )

ライセンス: Link先を確認
Wenjie Du, Jun Wang, Linglong Qian, Yiyuan Yang, Fanxing Liu, Zepu Wang, Zina Ibrahim, Haoxin Liu, Zhiyuan Zhao, Yingjie Zhou, Wenjia Wang, Kaize Ding, Yuxuan Liang, B. Aditya Prakash, Qingsong Wen, (参考訳) 実効計算は時系列解析において重要な前処理ステップである。 時系列計算のための多くのディープラーニングアルゴリズムが開発されているにもかかわらず、コミュニティは異なる設定にわたる命令処理のパフォーマンスを効果的に評価する標準的で包括的なベンチマークプラットフォームを欠いている。 さらに、多くのディープラーニング予測アルゴリズムは優れた性能を示したが、それらのモデリング成果を時系列計算タスクに転送できるかどうかは未定のままである。 これらのギャップを埋めるため,我々は,ディープラーニング技術を利用した時系列計算のための総合的なベンチマークスイートであるTSI-Benchを開発した。 TSI-Benchパイプラインは、実験的な設定を標準化し、計算アルゴリズムの公正な評価と、ドメイン不適切な欠陥率とパターンがモデルパフォーマンスに与える影響に関する意味のある洞察を識別する。 さらに、TSI-Benchは、計算目的のために時系列予測アルゴリズムを調整するための体系的なパラダイムを革新的に提供する。 多様な不足シナリオを持つ34,804の実験、28のアルゴリズム、および8つのデータセットにわたる広範な研究は、TSI-Benchが下流の様々なタスクにおいて有効であること、時系列計算の研究と分析において将来の方向性を解き放つ可能性を実証している。 ソースコードと実験ログはhttps://github.com/WenjieDu/AwesomeImputation.comで入手できる。

Effective imputation is a crucial preprocessing step for time series analysis. Despite the development of numerous deep learning algorithms for time series imputation, the community lacks standardized and comprehensive benchmark platforms to effectively evaluate imputation performance across different settings. Moreover, although many deep learning forecasting algorithms have demonstrated excellent performance, whether their modeling achievements can be transferred to time series imputation tasks remains unexplored. To bridge these gaps, we develop TSI-Bench, the first (to our knowledge) comprehensive benchmark suite for time series imputation utilizing deep learning techniques. The TSI-Bench pipeline standardizes experimental settings to enable fair evaluation of imputation algorithms and identification of meaningful insights into the influence of domain-appropriate missingness ratios and patterns on model performance. Furthermore, TSI-Bench innovatively provides a systematic paradigm to tailor time series forecasting algorithms for imputation purposes. Our extensive study across 34,804 experiments, 28 algorithms, and 8 datasets with diverse missingness scenarios demonstrates TSI-Bench's effectiveness in diverse downstream tasks and potential to unlock future directions in time series imputation research and analysis. The source code and experiment logs are available at https://github.com/WenjieDu/AwesomeImputation.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# リンドブラッドマスター方程式をシミュレートする量子アルゴリズム

A quantum algorithm to simulate Lindblad master equations ( http://arxiv.org/abs/2406.12748v1 )

ライセンス: Link先を確認
Evan Borras, Milad Marvian, (参考訳) 本稿では、一意チャネルと状態準備の確率的応用により実現可能なマルコフマスター方程式の族をシミュレートする量子アルゴリズムを提案する。 このアプローチでは、動力学を散逸成分とハミルトン成分に分解し、散逸セグメントをランダムにコンパイルされ容易に実装可能な要素に置き換えることによって達成されるリンドブラッドマスター方程式の2階積公式を用いている。 サンプリング手法では、散逸過程をシミュレートする補助量子ビットの必要性を排除し、ジャンプ演算子の数の観点からゲートの複雑さを減少させる。 アルゴリズムの厳密な性能解析を行う。 また、このアルゴリズムを時間依存のリンドブラッド方程式に拡張し、限られた補助システムにアクセスできるときのノイズモデルを一般化し、マルコフ雑音モデル以外の応用を探索する。 ダイヤモンドノルムの観点からは、時間依存のリウヴィリアスに対する二階積公式に対する新しい誤差境界が、独立な関心を持つ可能性がある。

We present a quantum algorithm for simulating a family of Markovian master equations that can be realized through a probabilistic application of unitary channels and state preparation. Our approach employs a second-order product formula for the Lindblad master equation, achieved by decomposing the dynamics into dissipative and Hamiltonian components and replacing the dissipative segments with randomly compiled, easily implementable elements. The sampling approach eliminates the need for ancillary qubits to simulate the dissipation process and reduces the gate complexity in terms of the number of jump operators. We provide a rigorous performance analysis of the algorithm. We also extend the algorithm to time-dependent Lindblad equations, generalize the noise model when there is access to limited ancillary systems, and explore applications beyond the Markovian noise model. A new error bound, in terms of the diamond norm, for second-order product formulas for time-dependent Liouvillians is provided that might be of independent interest.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# 非条件拡散モデルからトレーニングデータを抽出する

Extracting Training Data from Unconditional Diffusion Models ( http://arxiv.org/abs/2406.12752v1 )

ライセンス: Link先を確認
Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang, (参考訳) 拡散確率モデル(DPM)が生成人工知能(AI)の主流モデルとして採用されているため、生のトレーニングデータの記憶の研究が注目されている。 この方向の既存の研究は、DPMが記憶によってどの程度の程度に学習するかの理解を確立することを目的としている。 このような理解は、拡散モデルにおけるデータ漏洩や著作権侵害の潜在的なリスクを特定し、より制御可能な生成と信頼できるAIGC(Artificial Intelligence Generated Content)の適用のために重要である。 過去の研究では、DPMが暗記の傾向を示す重要な観測がなされてきたが、これらの発見は主に経験的であり、発達したデータ抽出法は条件付き拡散モデルにのみ有効である。 本研究は,DPMにおける記憶の理論的理解を確立することを目的としている。 1) 理論的解析のための記憶基準 2【情報・ランダムラベルによる条件記憶の分析】 3)記憶度を測定するための2つのより良い評価指標。 理論解析に基づき,生成したデータに基づいて訓練された分類器を代用条件として利用し,非条件拡散モデルから直接トレーニングデータを抽出する新しいデータ抽出手法である「textbf{Surrogate condItional Data extract (SIDE)」を提案する。 実験の結果、SIDEは従来の手法が失敗する拡散モデルからトレーニングデータを抽出でき、CelebAデータセットの異なるスケールで平均50%以上有効であることがわかった。

As diffusion probabilistic models (DPMs) are being employed as mainstream models for generative artificial intelligence (AI), the study of their memorization of the raw training data has attracted growing attention. Existing works in this direction aim to establish an understanding of whether or to what extent DPMs learn by memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for more controllable generation and trustworthy application of Artificial Intelligence Generated Content (AIGC). While previous works have made important observations of when DPMs are prone to memorization, these findings are mostly empirical, and the developed data extraction methods only work for conditional diffusion models. In this work, we aim to establish a theoretical understanding of memorization in DPMs with 1) a memorization metric for theoretical analysis, 2) an analysis of conditional memorization with informative and random labels, and 3) two better evaluation metrics for measuring memorization. Based on the theoretical analysis, we further propose a novel data extraction method called \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a classifier trained on generated data as a surrogate condition to extract training data directly from unconditional diffusion models. Our empirical results demonstrate that SIDE can extract training data from diffusion models where previous methods fail, and it is on average over 50\% more effective across different scales of the CelebA dataset.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# OlympicArena:超知能AIのための多分野認知推論のベンチマーク

OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI ( http://arxiv.org/abs/2406.12753v1 )

ライセンス: Link先を確認
Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu, (参考訳) 人工知能(AI)の進化は、LMM(Large Language Models)とLMM(Large Multimodal Models)の進歩によって著しく加速され、問題解決と科学的発見(AI4Science)における潜在的な認知的推論能力を示すようになった。 認知的推論能力における現在のモデルの性能を包括的に評価するために,11,163のバイリンガル問題を含むオリンピックアレーナを導入する。 これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。 オリンピック競技問題の課題は、複雑な科学的課題に対処し発見を促進するために不可欠である、その複雑さと学際的な性質から、AIの認知的推論を評価するのに理想的である、と我々は主張する。 回答のみの基準を用いて様々な分野のパフォーマンスを評価するだけでなく、複数の観点から詳細な実験と分析を行う。 我々は、モデルの認知的推論能力、異なるモダリティをまたいだパフォーマンス、プロセスレベルの評価の結果を掘り下げる。 我々の広範な評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%にしか達していない。 オリンピックアリーナを通じて、私たちはAIを超知性に向けて前進させ、科学やそれ以上の複雑な課題に対処することを目指しています。 ベンチマークデータセット、オープンソースのアノテーションプラットフォーム、詳細な評価ツール、自動提出機能を備えたリーダボードなど、AI研究をサポートするための包括的なリソースセットも提供しています。

The evolution of Artificial Intelligence (AI) has been significantly accelerated by advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), gradually showcasing potential cognitive reasoning abilities in problem-solving and scientific discovery (i.e., AI4Science) once exclusive to human intellect. To comprehensively evaluate current models' performance in cognitive reasoning abilities, we introduce OlympicArena, which includes 11,163 bilingual problems across both text-only and interleaved text-image modalities. These challenges encompass a wide range of disciplines spanning seven fields and 62 international Olympic competitions, rigorously examined for data leakage. We argue that the challenges in Olympic competition problems are ideal for evaluating AI's cognitive reasoning due to their complexity and interdisciplinary nature, which are essential for tackling complex scientific challenges and facilitating discoveries. Beyond evaluating performance across various disciplines using answer-only criteria, we conduct detailed experiments and analyses from multiple perspectives. We delve into the models' cognitive reasoning abilities, their performance across different modalities, and their outcomes in process-level evaluations, which are vital for tasks requiring complex reasoning with lengthy solutions. Our extensive evaluations reveal that even advanced models like GPT-4o only achieve a 39.97% overall accuracy, illustrating current AI limitations in complex reasoning and multimodal integration. Through the OlympicArena, we aim to advance AI towards superintelligence, equipping it to address more complex challenges in science and beyond. We also provide a comprehensive set of resources to support AI research, including a benchmark dataset, an open-source annotation platform, a detailed evaluation tool, and a leaderboard with automatic submission features.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# Chumor 1.0:Ruo Zhi Baの中国風雲理解データセット

Chumor 1.0: A Truly Funny and Challenging Chinese Humor Understanding Dataset from Ruo Zhi Ba ( http://arxiv.org/abs/2406.12754v1 )

ライセンス: Link先を確認
Ruiqi He, Yushu He, Longju Bai, Jiarui Liu, Zhenjie Sun, Zenghao Tang, He Wang, Hanchen Xia, Naihao Deng, (参考訳) 既存のユーモアデータセットと評価は主に英語に焦点を当てており、中国語のような非英語の言語では文化的にニュアンスのあるユーモアの資源が不足している。 このギャップに対処するため、中国のRedditのようなプラットフォームであるRuo Zhi Ba(RZB)をベースとしたデータセットであるChumorを構築した。 我々は,中国語話者によるA/Bテストを通じて,各ジョークの解説を行い,最先端のLLMである GPT-4o と ERNIE Bot に対する人間の説明を評価する。 評価の結果,SOTA LLMにおいてもChumorは難易度が高く,人間によるChumorのジョークの説明はLLMによる説明よりもはるかに優れていることがわかった。

Existing humor datasets and evaluations predominantly focus on English, lacking resources for culturally nuanced humor in non-English languages like Chinese. To address this gap, we construct Chumor, a dataset sourced from Ruo Zhi Ba (RZB), a Chinese Reddit-like platform dedicated to sharing intellectually challenging and culturally specific jokes. We annotate explanations for each joke and evaluate human explanations against two state-of-the-art LLMs, GPT-4o and ERNIE Bot, through A/B testing by native Chinese speakers. Our evaluation shows that Chumor is challenging even for SOTA LLMs, and the human explanations for Chumor jokes are significantly better than explanations generated by the LLMs.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# GFM4MPM:鉱物探査のための地空間基盤モデルに向けて

GFM4MPM: Towards Geospatial Foundation Models for Mineral Prospectivity Mapping ( http://arxiv.org/abs/2406.12756v1 )

ライセンス: Link先を確認
Angel Daruna, Vasily Zadorozhnyy, Georgina Lukoczki, Han-Pang Chiu, (参考訳) 大規模マルチモーダル地理空間データと数少ない歴史的鉱物資源観測(正のラベル)の関連を解析する必要があるため, 機械学習(ML)による鉱物探査(MPM)は依然として困難な問題である。 最近のMPM研究は、より表現力のあるモデリングツールとしてDeep Learning (DL)を調査している。 しかし、これらの過パラメータ化手法はラベル付きデータに頼っているため、過度に適合する傾向にある。 大量のラベルのない地理空間データが存在するが、事前のMPM研究は、そのような情報を自己管理的に利用することを検討していない。 我々のMPMアプローチは、マスク付き画像モデリングフレームワークを使用して、ラベルのない地理空間データのみを使用して、バックボーンニューラルネットワークを自己教師付きで事前訓練する。 事前トレーニング後、バックボーンネットワークは下流MPMタスクの機能抽出を提供する。 北米およびオーストラリアにおけるミシシッピ・バレー型(MVT)およびクラスティック・ドミネート型(CD)鉛亜鉛鉱床の鉱脈探査手法について検討した。 以上の結果から,自己超越が学習特徴の堅牢性を促進し,予測精度が向上することが示唆された。 さらに、説明可能な人工知能技術を活用し、地質学的観点から個々の予測を解釈できることを実証する。

Machine Learning (ML) for Mineral Prospectivity Mapping (MPM) remains a challenging problem as it requires the analysis of associations between large-scale multi-modal geospatial data and few historical mineral commodity observations (positive labels). Recent MPM works have explored Deep Learning (DL) as a modeling tool with more representation capacity. However, these overparameterized methods may be more prone to overfitting due to their reliance on scarce labeled data. While a large quantity of unlabeled geospatial data exists, no prior MPM works have considered using such information in a self-supervised manner. Our MPM approach uses a masked image modeling framework to pretrain a backbone neural network in a self-supervised manner using unlabeled geospatial data alone. After pretraining, the backbone network provides feature extraction for downstream MPM tasks. We evaluated our approach alongside existing methods to assess mineral prospectivity of Mississippi Valley Type (MVT) and Clastic-Dominated (CD) Lead-Zinc deposits in North America and Australia. Our results demonstrate that self-supervision promotes robustness in learned features, improving prospectivity predictions. Additionally, we leverage explainable artificial intelligence techniques to demonstrate that individual predictions can be interpreted from a geological perspective.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# MAC: 合成ゼロショット学習のためのマルチ属性ベンチマーク

MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning ( http://arxiv.org/abs/2406.12757v1 )

ライセンス: Link先を確認
Shuo Xu, Sai Wang, Xinyue Hu, Yutian Lin, Bo Du, Yu Wu, (参考訳) 合成ゼロショット学習(CZSL)は、目に見えない属性オブジェクトの合成から意味的プリミティブ(属性とオブジェクト)を学習することを目的としている。 既存のCZSLデータセットは単一の属性に焦点を当てており、オブジェクトが自然に複数の相互関連属性を示すという事実を無視している。 現実世界のオブジェクトは、しばしば複数の相互関連属性を持ち、現在のデータセットの狭い属性スコープと単一属性ラベルは、アノテーションバイアスを導入し、モデルのパフォーマンスと評価を損なう。 これらの制約に対処するため、多属性合成(MAC)データセットを導入し、18,217のイメージと11,067のコンポジションを包括的、代表的、多彩な属性アノテーションで包含する。 MACは、オブジェクトあたり平均30.2の属性と、属性あたり65.4のオブジェクトを含み、より優れたマルチ属性合成予測を促進する。 我々のデータセットはより深い意味理解と高次属性関連をサポートし、CZSLタスクのより現実的で挑戦的なベンチマークを提供する。 また,多属性合成学習のためのソリューションを開発し,属性とオブジェクトをアンタングするMMエンコーダを提案する。

Compositional Zero-Shot Learning (CZSL) aims to learn semantic primitives (attributes and objects) from seen compositions and recognize unseen attribute-object compositions. Existing CZSL datasets focus on single attributes, neglecting the fact that objects naturally exhibit multiple interrelated attributes. Real-world objects often possess multiple interrelated attributes, and current datasets' narrow attribute scope and single attribute labeling introduce annotation biases, undermining model performance and evaluation. To address these limitations, we introduce the Multi-Attribute Composition (MAC) dataset, encompassing 18,217 images and 11,067 compositions with comprehensive, representative, and diverse attribute annotations. MAC includes an average of 30.2 attributes per object and 65.4 objects per attribute, facilitating better multi-attribute composition predictions. Our dataset supports deeper semantic understanding and higher-order attribute associations, providing a more realistic and challenging benchmark for the CZSL task. We also develop solutions for multi-attribute compositional learning and propose the MM-encoder to disentangling the attributes and objects.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# 実験データを用いた北陸競歩における教師なし動作予測

Unsupervised explainable activity prediction in competitive Nordic Walking from experimental data ( http://arxiv.org/abs/2406.12762v1 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, Francisco J. González-Castaño, Javier Vales-Alonso, (参考訳) 人工知能(AI)は、競争スポーツにおけるヒューマンアクティビティ認識(HAR)に応用されている。 これまで、HARの機械学習(ML)アプローチのほとんどは、オフライン(バッチ)トレーニングに依存しており、オンライン処理の教師なしアプローチよりも高い計算とタグ付けの負担を課している。 さらに、従来のML予測器の背後にある決定は不透明であり、人間の解釈を必要とする。 本研究では,低コストなウェアラブルIMU(Inertial Measurement Units)をベースとしたオンラインクラスタリング手法を提案する。 システムによって生成された結果は、これらのクラスタ内で利用可能な限定タグ(例えば、レフェリーによる)の自動拡張を可能にし、説明可能な分類段階の関連する情報を生成する。 具体的には,ノルディックウォーキングにおいて,スポーツ選手の活動に関する予測を自動説明し,正しい,間違って,不正な実践を区別することに焦点を当てた。 提案したソリューションは、平均して100パーセント近いパフォーマンス指標を達成した。

Artificial Intelligence (AI) has found application in Human Activity Recognition (HAR) in competitive sports. To date, most Machine Learning (ML) approaches for HAR have relied on offline (batch) training, imposing higher computational and tagging burdens compared to online processing unsupervised approaches. Additionally, the decisions behind traditional ML predictors are opaque and require human interpretation. In this work, we apply an online processing unsupervised clustering approach based on low-cost wearable Inertial Measurement Units (IMUs). The outcomes generated by the system allow for the automatic expansion of limited tagging available (e.g., by referees) within those clusters, producing pertinent information for the explainable classification stage. Specifically, our work focuses on achieving automatic explainability for predictions related to athletes' activities, distinguishing between correct, incorrect, and cheating practices in Nordic Walking. The proposed solution achieved performance metrics of close to 100 % on average.
翻訳日:2024-06-19 18:09:06 公開日:2024-06-18
# 分離データを用いた鏡面流れの入射バイアス

Implicit Bias of Mirror Flow on Separable Data ( http://arxiv.org/abs/2406.12763v1 )

ライセンス: Link先を確認
Scott Pesme, Radu-Alexandru Dragomir, Nicolas Flammarion, (参考訳) 線形分離可能な分類問題に対して,ミラー降下の連続時間,すなわちミラーフローについて検討する。 このような問題は'at infinity'と最小化され、多くの可能な解を持ち、ミラーポテンシャルに依存するアルゴリズムによってどの解が好まれるかを研究する。 指数的尾尾の損失とポテンシャルに対する軽度の仮定に対して、イテレートは$\phi_\infty$-maximum margin classifierに向かって収束することを示す。 関数 $\phi_\infty$ はミラーポテンシャルの $\textit{horizon function}$ であり、その形の 'at infinity' を特徴づける。 ポテンシャルが分離可能であれば、単純な公式でこの関数を計算することができる。 我々は、ポテンシャルのいくつかの例を分析し、その結果を浮き彫りにした数値実験を行う。

We examine the continuous-time counterpart of mirror descent, namely mirror flow, on classification problems which are linearly separable. Such problems are minimised `at infinity' and have many possible solutions; we study which solution is preferred by the algorithm depending on the mirror potential. For exponential tailed losses and under mild assumptions on the potential, we show that the iterates converge in direction towards a $\phi_\infty$-maximum margin classifier. The function $\phi_\infty$ is the $\textit{horizon function}$ of the mirror potential and characterises its shape `at infinity'. When the potential is separable, a simple formula allows to compute this function. We analyse several examples of potentials and provide numerical experiments highlighting our results.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# Quasi-Bayes、Vinesと出会う

Quasi-Bayes meets Vines ( http://arxiv.org/abs/2406.12764v1 )

ライセンス: Link先を確認
David Huk, Yuanhe Zhang, Mark Steel, Ritabrata Dutta, (参考訳) 最近提案された準ベイジアン法(QB)はベイジアン予測分布を直接再帰的に構築し,ベイジアン後部分布のサンプリングに要する高価な計算を不要にすることで,ベイジアン計算の新しい時代を開始した。 これは単変量予測においてデータ効率が良いことが証明されているが、複数の次元への拡張は、暗黙の非パラメトリックモデルであるディリクレプロセス混合モデルのカーネルに対する事前定義された仮定から生じる条件分解に依存する。 ここでは、予測分布を1次元の予測限界と高次元のコプラに分解することで、Sklarの定理を用いて準ベイズ予想を高次元に拡張する別の方法を提案する。 したがって, 1次元の辺縁に対して効率的な再帰的QB構成を用い, 高表現性ブドウパウラを用いた依存性をモデル化する。 さらに、高パラメータを頑健な発散量(例えばエネルギースコア)を用いてチューニングし、提案した準ベイジアンVine (QB-Vine) が完全に非パラメトリックな密度推定器であることを示す。 実験の結果,QB-Vineは高次元分布($64)に適しており,トレーニングに必要なサンプルはごく少数($200)であり,密度推定のための解析形式と教師付きタスクをかなりのマージンで上回っていることがわかった。

Recently proposed quasi-Bayesian (QB) methods initiated a new era in Bayesian computation by directly constructing the Bayesian predictive distribution through recursion, removing the need for expensive computations involved in sampling the Bayesian posterior distribution. This has proved to be data-efficient for univariate predictions, but extensions to multiple dimensions rely on a conditional decomposition resulting from predefined assumptions on the kernel of the Dirichlet Process Mixture Model, which is the implicit nonparametric model used. Here, we propose a different way to extend Quasi-Bayesian prediction to high dimensions through the use of Sklar's theorem by decomposing the predictive distribution into one-dimensional predictive marginals and a high-dimensional copula. Thus, we use the efficient recursive QB construction for the one-dimensional marginals and model the dependence using highly expressive vine copulas. Further, we tune hyperparameters using robust divergences (eg. energy score) and show that our proposed Quasi-Bayesian Vine (QB-Vine) is a fully non-parametric density estimator with \emph{an analytical form} and convergence rate independent of the dimension of data in some situations. Our experiments illustrate that the QB-Vine is appropriate for high dimensional distributions ($\sim$64), needs very few samples to train ($\sim$200) and outperforms state-of-the-art methods with analytical forms for density estimation and supervised tasks by a considerable margin.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# 隠れた物理学を3Dビデオから学べる「潜在直観物理学」

Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video ( http://arxiv.org/abs/2406.12769v1 )

ライセンス: Link先を確認
Xiangming Zhu, Huayu Deng, Haochen Yuan, Yunbo Wang, Xiaokang Yang, (参考訳) 一つの3次元映像から流体の隠れた性質を推測し,新しい場面で観察された流体をシミュレートする物理シミュレーションのための伝達学習フレームワークである潜在直感物理学を紹介する。 我々の重要な洞察は、基礎となる粒子状態に条件付けられた学習可能な事前分布から引き出された潜在的特徴を使って、目に見えない複雑な物理的特性を捉えることである。 これを実現するために、逆グラフの視覚的後部を近似するために視覚的観察を与えられたパラメータ化された事前学習者を訓練し、学習したニューラルレンダから粒子状態と視覚的後部の両方を得る。 収束した事前学習者は確率論的物理エンジンに埋め込まれており、真の物理パラメータを知らずに、未知の測地、境界、ダイナミックスに関する新しいシミュレーションを行うことができる。 私たちはモデルを3つの方法で検証します。 (i)学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション (II)観測された流体力学の将来予測、及び (iii) 粒子シミュレーションを監督する。 私たちのモデルは3つのタスクすべてで強いパフォーマンスを示します。

We introduce latent intuitive physics, a transfer learning framework for physics simulation that can infer hidden properties of fluids from a single 3D video and simulate the observed fluid in novel scenes. Our key insight is to use latent features drawn from a learnable prior distribution conditioned on the underlying particle states to capture the invisible and complex physical properties. To achieve this, we train a parametrized prior learner given visual observations to approximate the visual posterior of inverse graphics, and both the particle states and the visual posterior are obtained from a learned neural renderer. The converged prior learner is embedded in our probabilistic physics engine, allowing us to perform novel simulations on unseen geometries, boundaries, and dynamics without knowledge of the true physical parameters. We validate our model in three ways: (i) novel scene simulation with the learned visual-world physics, (ii) future prediction of the observed fluid dynamics, and (iii) supervised particle simulation. Our model demonstrates strong performance in all three tasks.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# フォマティクスと乳製品産業連合 : AIの動向と課題

Formatics & dairy industry coalition: AI trends and present challenges ( http://arxiv.org/abs/2406.12770v1 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, María del Carmen Somoza-López, (参考訳) 人工知能(AI)は、産業を変革し、生産プロセスを強化し、手動で反復的なタスクを最小限にする可能性がある。 したがって、高性能コンピューティングと強力な数学的モデルとの相乗効果により、機械学習のような高度なデータ解析手法の適用が可能になる。 しかし、価値ある知識を生み出すために、効果的で効率的で柔軟な処理に関する課題が存在する。 結果として、この研究はAIを活用できる産業上の課題を包括的に記述し、乳製品産業に焦点を当てている。 結論は、牛のモニタリングと農家に対する新しいアプローチを、彼らのニーズに先進的な技術ソリューションを提案して適用する上で有効である。

Artificial Intelligence (AI) can potentially transform the industry, enhancing the production process and minimizing manual, repetitive tasks. Accordingly, the synergy between high-performance computing and powerful mathematical models enables the application of sophisticated data analysis procedures like Machine Learning. However, challenges exist regarding effective, efficient, and flexible processing to generate valuable knowledge. Consequently, this work comprehensively describes industrial challenges where AI can be exploited, focusing on the dairy industry. The conclusions presented can help researchers apply novel approaches for cattle monitoring and farmers by proposing advanced technological solutions to their needs.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# 線形制約付き二値最適化のための一階法

First-Order Methods for Linearly Constrained Bilevel Optimization ( http://arxiv.org/abs/2406.12771v1 )

ライセンス: Link先を確認
Guy Kornowski, Swati Padmanabhan, Kai Wang, Zhe Zhang, Suvrit Sra, (参考訳) 双レベル最適化のためのアルゴリズムは、高次元では禁止されるヘッセン計算にしばしば遭遇する。 近年の研究では、制約のない二段階問題に対する一階述語法が提案されているが、制約付き設定はいまだに未探索である。 有限時間過次定常性保証を用いた一階線形制約最適化法を提案する。 線形等式制約に対して、$\widetilde{O}(\epsilon^{-2})$ gradient oracle callで$\epsilon$-stationarityを得る。 線形不等式制約に対して、$(\delta,\epsilon)$-Goldstein stationarity in $\widetilde{O}(d{\delta^{-1} \epsilon^{-3}})$ gradient oracle call, ここで$d$は上限次元である。 最後に、最適双対変数へのオラクルアクセスという追加の仮定の下で、$\widetilde{O}({\delta^{-1} \epsilon^{-4}})$ oracle complexity の線型不等式設定の次元自由率を求める。 その過程で,不正確なオラクルを用いた非滑らかな非凸最適化手法を開発した。 我々はこれらの保証を予備的な数値実験で検証する。

Algorithms for bilevel optimization often encounter Hessian computations, which are prohibitive in high dimensions. While recent works offer first-order methods for unconstrained bilevel problems, the constrained setting remains relatively underexplored. We present first-order linearly constrained optimization methods with finite-time hypergradient stationarity guarantees. For linear equality constraints, we attain $\epsilon$-stationarity in $\widetilde{O}(\epsilon^{-2})$ gradient oracle calls, which is nearly-optimal. For linear inequality constraints, we attain $(\delta,\epsilon)$-Goldstein stationarity in $\widetilde{O}(d{\delta^{-1} \epsilon^{-3}})$ gradient oracle calls, where $d$ is the upper-level dimension. Finally, we obtain for the linear inequality setting dimension-free rates of $\widetilde{O}({\delta^{-1} \epsilon^{-4}})$ oracle complexity under the additional assumption of oracle access to the optimal dual variable. Along the way, we develop new nonsmooth nonconvex optimization methods with inexact oracles. We verify these guarantees with preliminary numerical experiments.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# パリティ公開多重化タスクの量化器としての異なる種類の雑音下での文脈性のロバスト性

Robustness of contextuality under different types of noise as quantifiers for parity-oblivious multiplexing tasks ( http://arxiv.org/abs/2406.12773v1 )

ライセンス: Link先を確認
Amanda M. Fonseca, Vinicius P. Rossi, Roberto D. Baldijão, John H. Selby, Ana Belén Sainz, (参考訳) 一般化された文脈性(英: generalized contextuality)とは、無数の量子タスクを駆動する非古典性の概念である。 成功率は、このタスクのリソースフルネスの標準的な定量化器であり、ロバストネスに基づく定量化器は、操作的に動機付けされ、既知の一般的な性質を持つ。 本研究では,異なる種類の雑音下でのPOMシナリオにおいて,解析的・数値的手法を用いて文脈性のロバスト性を推定する。 3 から 1 の場合には、非古典的優位性のために、文脈性から非分極へのロバスト性、および全ての基底を軽視する文脈性へのロバスト性の最小化が良い量化器である、と結論付けている。 さらに,任意の$n$-to-1 POMシナリオにおける文脈性から非分極へのロバスト性と成功率の関係を一般化し,このタスクで符号化されたビット数にどのように適用できるかを示す。

Generalised contextuality is a well-motivated notion of nonclassicality powering up a myriad of quantum tasks, among which is the celebrated case of a two-party information processing task where classical information is compressed in a quantum channel, the parity-oblivious multiplexing (POM) task. The success rate is the standard quantifier of resourcefulness for this task, while robustness-based quantifiers are as operationally motivated and have known general properties. In this work, we leverage analytical and numerical tools to estimate robustness of contextuality in POM scenarios under different types of noise. We conclude that for the 3-to-1 case the robustness of contextuality to depolarisation, as well as a minimisation of the robustness of contextuality to dephasing over all bases, are good quantifiers for the nonclassical advantage of this scenario. Moreover, we obtain a general relation between robustness of contextuality to depolarisation and the success rate in any $n$-to-1 POM scenario and show how it can be used to bound the number of bits encoded in this task.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# アナログインメモリコンピューティングにおける厳密なグラディエントベーストレーニングに向けて

Towards Exact Gradient-based Training on Analog In-memory Computing ( http://arxiv.org/abs/2406.12774v1 )

ライセンス: Link先を確認
Zhaoxian Wu, Tayfun Gokmen, Malte J. Rasch, Tianyi Chen, (参考訳) 大きなビジョンや言語モデルを使用する場合の経済的・環境的なコストが高いことから、アナログインメモリアクセラレータはエネルギー効率のよいAIに有望なソリューションを提供する。 アナログ加速器に関する推論は近年研究されているが、トレーニングの観点は過小評価されている。 近年の研究では、非理想デバイスでのモデルトレーニングに適用した場合、確率勾配降下(SGD)アルゴリズムの「ワークホース」が不正確に収束することが示されている。 本稿では,アナログデバイスにおける勾配学習の理論的基礎について述べる。 まず、アナログ装置の非対称な更新によって引き起こされるSGDの非収束問題を特徴付ける。 そこで我々は,SGDに基づくアナログトレーニングの基本的な性能限界があることを示すために,漸近誤差の低い境界を提供する。 この問題に対処するため,最近SGDよりも優れた経験的性能を示したTiki-Takaというヒューリスティックなアナログアルゴリズムについて検討した。 シミュレーションは解析の正確性を検証する。

Given the high economic and environmental costs of using large vision or language models, analog in-memory accelerators present a promising solution for energy-efficient AI. While inference on analog accelerators has been studied recently, the training perspective is underexplored. Recent studies have shown that the "workhorse" of digital AI training - stochastic gradient descent (SGD) algorithm converges inexactly when applied to model training on non-ideal devices. This paper puts forth a theoretical foundation for gradient-based training on analog devices. We begin by characterizing the non-convergent issue of SGD, which is caused by the asymmetric updates on the analog devices. We then provide a lower bound of the asymptotic error to show that there is a fundamental performance limit of SGD-based analog training rather than an artifact of our analysis. To address this issue, we study a heuristic analog algorithm called Tiki-Taka that has recently exhibited superior empirical performance compared to SGD and rigorously show its ability to exactly converge to a critical point and hence eliminates the asymptotic error. The simulations verify the correctness of the analyses.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# ホッピングが遅すぎる - マルチホップクエリによる大規模言語モデルの限界を探る

Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries ( http://arxiv.org/abs/2406.12775v1 )

ライセンス: Link先を確認
Eden Biran, Daniela Gottesman, Sohee Yang, Mor Geva, Amir Globerson, (参考訳) 大規模言語モデル(LLM)は複雑な多段階問題を解くことができるが、これらの計算を内部でどのように実装するかは分かっていない。 そこで本研究では,LLMがマルチホップクエリにどのように答えるのかを考察する。 これらのクエリには2つの情報抽出ステップが必要であり、第1ホップ("Imagine"のパフォーマー)をブリッジエンティティ("John Lennon")に解決するための潜伏したステップと、第2ホップ("John Lennon"の配偶者)をターゲットエンティティ("Yoko Ono")に解決するためのステップである。 潜在ステップが内部でどのように計算されるかを理解することは、全体的な計算を理解する上で重要である。 変換器をベースとしたLLMの内部計算を慎重に解析することにより,モデルの初期層においてブリッジ実体が解決されることが分かる。 そして、この解決後のみ、後続のレイヤで2つのホップクエリが解決される。 2番目のホップは後続のレイヤで始まるので、これらのレイヤが解を正しく予測するために必要な知識をコード化していない場合もあります。 そこで本研究では,後層からの隠れ表現を以前の層にパッチバックする「バックパッチ」解析手法を提案する。 以前間違っていたケースの最大57%には、正しい回答を生成するバックパッチが存在しており、後続のレイヤが本当に必要な機能を欠いていることが示されています。 全体的な方法と知見は,トランスフォーマーを用いたLCMにおける潜伏推論の理解と改善のさらなる機会を開放する。

Large language models (LLMs) can solve complex multi-step problems, but little is known about how these computations are implemented internally. Motivated by this, we study how LLMs answer multi-hop queries such as "The spouse of the performer of Imagine is". These queries require two information extraction steps: a latent one for resolving the first hop ("the performer of Imagine") into the bridge entity (John Lennon), and one for resolving the second hop ("the spouse of John Lennon") into the target entity (Yoko Ono). Understanding how the latent step is computed internally is key to understanding the overall computation. By carefully analyzing the internal computations of transformer-based LLMs, we discover that the bridge entity is resolved in the early layers of the model. Then, only after this resolution, the two-hop query is solved in the later layers. Because the second hop commences in later layers, there could be cases where these layers no longer encode the necessary knowledge for correctly predicting the answer. Motivated by this, we propose a novel "back-patching" analysis method whereby a hidden representation from a later layer is patched back to an earlier layer. We find that in up to 57% of previously incorrect cases there exists a back-patch that results in the correct generation of the answer, showing that the later layers indeed sometimes lack the needed functionality. Overall our methods and findings open further opportunities for understanding and improving latent reasoning in transformer-based LLMs.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# Nested Named Entity Recognition のためのデータ拡張による複合学習

Composited-Nested-Learning with Data Augmentation for Nested Named Entity Recognition ( http://arxiv.org/abs/2406.12779v1 )

ライセンス: Link先を確認
Xingming Liao, Nankai Lin, Haowen Li, Lianglun Cheng, Zhuowei Wang, Chong Chen, (参考訳) Nested Named Entity Recognition (NNER)は、重複したエンティティ認識に対処することに焦点を当てている。 Flat Named Entity Recognition (FNER)と比較して、NNERのコーパスには注釈付きリソースが不足している。 データ拡張は、アノテートされたコーパスの不足に対処するための効果的なアプローチである。 しかし,NNERのデータ拡張手法の探索は極めて不十分である。 NNERにネストされたエンティティが存在するため、既存のデータ拡張メソッドはNNERタスクに直接適用できない。 そこで本研究では,ネストワードとネストラベルを組み合わせ,ネストしたエンティティをモデル化するCNLC(Composited-Nested-Label Classification)を提案する。 データセットはComposited-Nested-Learning (CNL)を使用して拡張される。 さらに、より効率的なデータ選択のための信頼度フィルタリング機構(CFM)を提案する。 実験の結果,ACE2004とACE2005は改善され,サンプルの不均衡の影響が軽減された。

Nested Named Entity Recognition (NNER) focuses on addressing overlapped entity recognition. Compared to Flat Named Entity Recognition (FNER), annotated resources are scarce in the corpus for NNER. Data augmentation is an effective approach to address the insufficient annotated corpus. However, there is a significant lack of exploration in data augmentation methods for NNER. Due to the presence of nested entities in NNER, existing data augmentation methods cannot be directly applied to NNER tasks. Therefore, in this work, we focus on data augmentation for NNER and resort to more expressive structures, Composited-Nested-Label Classification (CNLC) in which constituents are combined by nested-word and nested-label, to model nested entities. The dataset is augmented using the Composited-Nested-Learning (CNL). In addition, we propose the Confidence Filtering Mechanism (CFM) for a more efficient selection of generated data. Experimental results demonstrate that this approach results in improvements in ACE2004 and ACE2005 and alleviates the impact of sample imbalance.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# 時変複素共役行列方程式を解くゼロリングニューラルダイナミクス

Zeroing neural dynamics solving time-variant complex conjugate matrix equation ( http://arxiv.org/abs/2406.12783v1 )

ライセンス: Link先を確認
Jiakuang He, Dongqing Wu, (参考訳) 複素共役行列方程式(CCME)は、計算と反線形系のために多くの研究者の関心を喚起している。 既存の研究は時間不変の解法によって支配されているが、時間不変の解法を解くための理論が提案されていない。 さらに、人工ニューラルネットワークはCCMEを解くために研究されることは稀である。 本稿では,最初期のCCMEからZNDを適用し,その時間変化バージョンを解く。 まず、複素体におけるベクトル化とクロネッカー積が一様に定義される。 次に、Con-CZND1モデルとCon-CZND2モデルを提案し、理論的に収束と有効性を証明した。 第三に、3つの数値実験は、2つのモデルの有効性を説明し、それらの違いを比較し、複雑な分野における神経力学の重要性を強調し、ZNDに関する理論を洗練させるように設計されている。

Complex conjugate matrix equations (CCME) have aroused the interest of many researchers because of computations and antilinear systems. Existing research is dominated by its time-invariant solving methods, but lacks proposed theories for solving its time-variant version. Moreover, artificial neural networks are rarely studied for solving CCME. In this paper, starting with the earliest CCME, zeroing neural dynamics (ZND) is applied to solve its time-variant version. Firstly, the vectorization and Kronecker product in the complex field are defined uniformly. Secondly, Con-CZND1 model and Con-CZND2 model are proposed and theoretically prove convergence and effectiveness. Thirdly, three numerical experiments are designed to illustrate the effectiveness of the two models, compare their differences, highlight the significance of neural dynamics in the complex field, and refine the theory related to ZND.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# UBENCH: 複数質問による大規模言語モデルにおける不確かさのベンチマーク

UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions ( http://arxiv.org/abs/2406.12784v1 )

ライセンス: Link先を確認
Xunzhi Wang, Zhuowei Zhang, Qiongyu Li, Gaonan Chen, Mengting Hu, Zhiyu li, Bitong Luo, Hang Gao, Zhixin Han, Haotian Wang, (参考訳) 大規模言語モデル(LLM)の急速な開発は、有望な実用的な結果を示している。 しかし、その低い解釈可能性はしばしば、予期せぬ状況でエラーを引き起こし、実用性は制限される。 多くの研究は総合的な評価システムの構築に重点を置いてきたが、以前のベンチマークでは主に問題解決能力を評価し、応答の不確実性を無視した。 近年のLCMの信頼性測定手法は資源集約的であり,ブラックボックスモデルのテストは不可能である。 そこで本研究では,LLMの信頼性を評価するための総合的なベンチマークUBENCHを提案する。 UBENCHには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。 実験結果から,UBENCHは最先端性能を実現しているが,単一サンプリング方式では,複数のサンプリングを必要とするベースライン方式に比べて,計算資源を著しく削減できることがわかった。 さらに,UBENCHをベースとした15のLLMの信頼性を評価し,GLM4が最も優れており,GPT-4がそれに近づいた。 また,LLMの信頼性に及ぼすChain-of-Thoughtプロンプト,ロールプレイングプロンプト,オプションオーダー,温度の影響を検討した。

The rapid development of large language models (LLMs) has shown promising practical results. However, their low interpretability often leads to errors in unforeseen circumstances, limiting their utility. Many works have focused on creating comprehensive evaluation systems, but previous benchmarks have primarily assessed problem-solving abilities while neglecting the response's uncertainty, which may result in unreliability. Recent methods for measuring LLM reliability are resource-intensive and unable to test black-box models. To address this, we propose UBENCH, a comprehensive benchmark for evaluating LLM reliability. UBENCH includes 3,978 multiple-choice questions covering knowledge, language, understanding, and reasoning abilities. Experimental results show that UBENCH has achieved state-of-the-art performance, while its single-sampling method significantly saves computational resources compared to baseline methods that require multiple samplings. Additionally, based on UBENCH, we evaluate the reliability of 15 popular LLMs, finding GLM4 to be the most outstanding, closely followed by GPT-4. We also explore the impact of Chain-of-Thought prompts, role-playing prompts, option order, and temperature on LLM reliability, analyzing the varying effects on different LLMs.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# エネルギー関数の文脈学習

In-Context Learning of Energy Functions ( http://arxiv.org/abs/2406.12785v1 )

ライセンス: Link先を確認
Rylan Schaeffer, Mikail Khona, Sanmi Koyejo, (参考訳) コンテキスト内学習は、今日のフロンティアAIモデルの成功を支える、特定の機械学習モデルの強力な能力である。 しかし、文脈内学習は、関心事の文脈内分布である$p_{\theta}^{ICL}(x|\mathcal{D})$がモデルによって直接表現され/またはパラメータ化されるような設定に限られる。 本研究では、エネルギー関数の「textit{in-context learning」と呼ばれるような制限を伴わない、より一般的な文脈内学習法を提案する。 その考え方は、制約のない任意の非コンテキストエネルギー関数 $E_{\theta}^{ICL}(x|\mathcal{D})$ を、非コンテキスト分布 $p_{\theta}^{ICL}(x|\mathcal{D})$ に対応するものとすることである。 これを実現するために、私たちはエネルギーベースモデリングの古典的なアイデアを使用します。 本手法が人工データに有効であることを示す予備的証拠を提供する。 興味深いことに、我々の研究は、入力空間と出力空間が互いに異なるインコンテキスト学習の最初の例として(私たちの知る限り)貢献しており、インコンテキスト学習は以前実現されたよりも汎用的な能力であることを示唆している。

In-context learning is a powerful capability of certain machine learning models that arguably underpins the success of today's frontier AI models. However, in-context learning is critically limited to settings where the in-context distribution of interest $p_{\theta}^{ICL}( x|\mathcal{D})$ can be straightforwardly expressed and/or parameterized by the model; for instance, language modeling relies on expressing the next-token distribution as a categorical distribution parameterized by the network's output logits. In this work, we present a more general form of in-context learning without such a limitation that we call \textit{in-context learning of energy functions}. The idea is to instead learn the unconstrained and arbitrary in-context energy function $E_{\theta}^{ICL}(x|\mathcal{D})$ corresponding to the in-context distribution $p_{\theta}^{ICL}(x|\mathcal{D})$. To do this, we use classic ideas from energy-based modeling. We provide preliminary evidence that our method empirically works on synthetic data. Interestingly, our work contributes (to the best of our knowledge) the first example of in-context learning where the input space and output space differ from one another, suggesting that in-context learning is a more-general capability than previously realized.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# LLMを用いた読みやすさの異なる教材の作成

Generating Educational Materials with Different Levels of Readability using LLMs ( http://arxiv.org/abs/2406.12787v1 )

ライセンス: Link先を確認
Chieh-Yang Huang, Jing Wei, Ting-Hao 'Kenneth' Huang, (参考訳) 本研究は,学習資料を特定の読みやすさレベルに書き換えつつ,意味を保ちながら書き直すことを目的としたレベル付きテキスト生成タスクを提案する。 我々は,GPT-3.5,LLaMA-2 70B,Mixtral 8x7Bを用いて,ゼロショットと少数ショットのプロンプトによって,様々な可読性レベルのコンテンツを生成する能力を評価する。 処理した100の教材を評価すると、少ないショットが可読性操作や情報保存の性能を大幅に向上させることが明らかとなった。 LLaMA-2 70Bは所望の難易度域を達成するのに優れ、GPT-3.5は本来の意味を維持している。 しかし,手動検査では誤情報の導入や編集の不整合といった懸念が浮き彫りになっている。 これらの知見は、生成した教育コンテンツの品質を確保するためのさらなる研究の必要性を強調している。

This study introduces the leveled-text generation task, aiming to rewrite educational materials to specific readability levels while preserving meaning. We assess the capability of GPT-3.5, LLaMA-2 70B, and Mixtral 8x7B, to generate content at various readability levels through zero-shot and few-shot prompting. Evaluating 100 processed educational materials reveals that few-shot prompting significantly improves performance in readability manipulation and information preservation. LLaMA-2 70B performs better in achieving the desired difficulty range, while GPT-3.5 maintains original meaning. However, manual inspection highlights concerns such as misinformation introduction and inconsistent edit distribution. These findings emphasize the need for further research to ensure the quality of generated educational content.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# ChatGLM: GLM-130B から GLM-4 に至るまでの大規模言語モデルのファミリー

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools ( http://arxiv.org/abs/2406.12793v1 )

ライセンス: Link先を確認
Team GLM, :, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang, (参考訳) 私たちはChatGLMを紹介します。ChatGLMは、私たちが時間をかけて開発してきた大規模言語モデルの進化したファミリーです。 本報告は, GLM-4, GLM-4-Air, GLM-4-9B を含む GLM-4 言語シリーズに主眼を置いている。 それらは、前世代のChatGLMから得られたすべての洞察と教訓で訓練された、最も有能なモデルを表しています。 現在、GLM-4モデルは、主に中国語と英語で10兆のトークンで事前訓練されており、24言語からの小さなコーパスも用意されており、主に中国語と英語で使用されている。 高品質なアライメントは、教師付き微調整と人間のフィードバックからの学習を含む、多段階のポストトレーニングプロセスを通じて達成される。 GLM-4の評価結果 1)MMLU,GSM8K,MATH,BBH,GPQA,HumanEvalなどの一般的な指標では,GPT-4と密接に競合するか,あるいは優れる。 2) IFEvalで測定された指示に従ってGPT-4-Turboに近づく。 3) GPT-4 Turbo (128K) と Claude 3 にマッチする。 4)AlignBenchによる中国のアライメントではGPT-4よりも優れていた。 GLM-4 All Toolsモデルはさらに、ユーザの意図を理解し、Webブラウザ、Pythonインタプリタ、テキスト・ツー・イメージモデル、ユーザ定義関数など、どのツールがいつ、いつ、どのツールが、複雑なタスクを効果的に完了するかを自律的に決定するように調整されている。 実際のアプリケーションでは、Webブラウジングを通じてオンライン情報にアクセスしたり、Pythonインタプリタを使って数学の問題を解決するといったタスクにおいて、GPT-4 All Toolsと一致し、さらに上回っている。 ChatGLM-6B (3世代), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, CodeGeeXなど,一連のモデルをオープンソースとして公開しています。 オープンモデルはhttps://github.com/THUDMとhttps://huggingface.co/THUDMを通じてアクセスすることができる。

We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse -- including web browser, Python interpreter, text-to-image model, and user-defined functions -- to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# POMDPにおける純粋探査の限界--観測エントロピーが十分である場合-

The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough ( http://arxiv.org/abs/2406.12795v1 )

ライセンス: Link先を確認
Riccardo Zamboni, Duilio Cirino, Marcello Restelli, Mirco Mutti, (参考訳) マルコフ決定過程における純粋探索の問題は、エージェントの政策によって引き起こされる状態分布に対するエントロピーを最大化するものとして、広く研究されている。 しかしながら、部分的に可観測性の下での状態エントロピーの最大化にはほとんど注意が向けられていないが、後者は例えば金融やロボティクスなどの応用においてユビキタスであり、エージェントはシステムのダイナミクスを管理する真の状態のノイズしか受け取らない。 これらの領域における状態エントロピーの最大化にどう対処すればよいか? 本稿では,真の潜伏状態の代わりに観測よりもエントロピーを最大化するための簡単なアプローチについて検討する。 まず、観測関数のいくつかの性質にのみ依存する真の状態エントロピーの近似に対する下界と上界を与える。 次に,後者の知識を用いて観測エントロピーの原理的正規化を計算し,性能を向上させる方法を示す。 本研究は,POMDP設定に状態エントロピー最大化の進歩をもたらすフレキシブルなアプローチと,本質的な限界の理論的特徴を提供する。

The problem of pure exploration in Markov decision processes has been cast as maximizing the entropy over the state distribution induced by the agent's policy, an objective that has been extensively studied. However, little attention has been dedicated to state entropy maximization under partial observability, despite the latter being ubiquitous in applications, e.g., finance and robotics, in which the agent only receives noisy observations of the true state governing the system's dynamics. How can we address state entropy maximization in those domains? In this paper, we study the simple approach of maximizing the entropy over observations in place of true latent states. First, we provide lower and upper bounds to the approximation of the true state entropy that only depends on some properties of the observation function. Then, we show how knowledge of the latter can be exploited to compute a principled regularization of the observation entropy to improve performance. With this work, we provide both a flexible approach to bring advances in state entropy maximization to the POMDP setting and a theoretical characterization of its intrinsic limits.
翻訳日:2024-06-19 17:59:05 公開日:2024-06-18
# 大規模言語モデルを用いた有害コンテンツ検出によるヒューマンレーティング支援

Supporting Human Raters with the Detection of Harmful Content using Large Language Models ( http://arxiv.org/abs/2406.12800v1 )

ライセンス: Link先を確認
Kurt Thomas, Patrick Gage Kelley, David Tao, Sarah Meiklejohn, Owen Vallis, Shunwen Tan, Blaž Bratanič, Felipe Tiengo Ferreira, Vijay Kumar Eranti, Elie Bursztein, (参考訳) 本稿では, ヘイトスピーチ, ハラスメント, 暴力的過激主義, 選挙誤情報など, 有害コンテンツを識別して, 大規模言語モデル(LLM)を自動化・支援する可能性を検討する。 5万件のコメントのデータセットを用いて,LLMが人間の判断と比較して90%の精度を達成できることを実証した。 我々は、これらの能力を最大限に活用する方法を探り、LLMを人間の評価と統合する5つのデザインパターンを提案し、例えば、非暴力的コンテンツの事前フィルタリング、人間の評価における潜在的なエラーの検出、または人間の評価をサポートするために批判的コンテキストを提示する。 最適化された1つのプロンプトを使って、これらのデザインパターンをすべてサポートする方法について概説する。 これらの合成実験の他に、実世界のレビューキューで提案した手法のパイロット化によって、人間のレーダ容量の最適化が41.5%向上し、違反内容を検出するための精度とリコールの精度が9-11%向上した(絶対値)。

In this paper, we explore the feasibility of leveraging large language models (LLMs) to automate or otherwise assist human raters with identifying harmful content including hate speech, harassment, violent extremism, and election misinformation. Using a dataset of 50,000 comments, we demonstrate that LLMs can achieve 90% accuracy when compared to human verdicts. We explore how to best leverage these capabilities, proposing five design patterns that integrate LLMs with human rating, such as pre-filtering non-violative content, detecting potential errors in human rating, or surfacing critical context to support human rating. We outline how to support all of these design patterns using a single, optimized prompt. Beyond these synthetic experiments, we share how piloting our proposed techniques in a real-world review queue yielded a 41.5% improvement in optimizing available human rater capacity, and a 9--11% increase (absolute) in precision and recall for detecting violative content.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# サンプリングで学ぶスケーラブルなルールリスト

Scalable Rule Lists Learning with Sampling ( http://arxiv.org/abs/2406.12803v1 )

ライセンス: Link先を確認
Leonardo Pellegrina, Fabio Vandin, (参考訳) 解釈可能なモデルを学ぶことは、社会的に重要な意思決定における機械学習の優位性の高まりを考えると、機械学習研究の大きな焦点となっている。 解釈可能なモデルの中で、ルールリストは最もよく知られ、容易に解釈できるモデルの一つである。 しかし、最適なルールリストを見つけることは計算的に困難であり、現在のアプローチは大規模なデータセットでは実用的ではない。 大規模データセットからほぼ最適なルールリストを学習するための,新しい,スケーラブルなアプローチを提案する。 提案アルゴリズムはサンプリングを用いて最適規則リストの近似を効率よく取得し,近似の精度を厳格に保証する。 特に,高精度なルールリストが存在する場合に,最適なルールリストに非常に近い精度のルールリストを見つけることを保証している。 我々のアルゴリズムは、新しい上限と下限を証明した規則リストのVC次元に基づいている。 大規模データセットに対する実験により,我々のアルゴリズムは,最先端の厳密なアプローチに対して,最大2桁の速度で,ほぼ最適なルールリストを同定することを示した。 さらに、我々のアルゴリズムは、最近のヒューリスティックなアプローチと同じくらい高速であり、時には高速であると同時に、より高い品質のルールリストを報告している。 さらに,本アルゴリズムにより報告された規則は,ヒューリスティックな手法による規則よりも,最適規則リストの規則に類似している。

Learning interpretable models has become a major focus of machine learning research, given the increasing prominence of machine learning in socially important decision-making. Among interpretable models, rule lists are among the best-known and easily interpretable ones. However, finding optimal rule lists is computationally challenging, and current approaches are impractical for large datasets. We present a novel and scalable approach to learn nearly optimal rule lists from large datasets. Our algorithm uses sampling to efficiently obtain an approximation of the optimal rule list with rigorous guarantees on the quality of the approximation. In particular, our algorithm guarantees to find a rule list with accuracy very close to the optimal rule list when a rule list with high accuracy exists. Our algorithm builds on the VC-dimension of rule lists, for which we prove novel upper and lower bounds. Our experimental evaluation on large datasets shows that our algorithm identifies nearly optimal rule lists with a speed-up up to two orders of magnitude over state-of-the-art exact approaches. Moreover, our algorithm is as fast as, and sometimes faster than, recent heuristic approaches, while reporting higher quality rule lists. In addition, the rules reported by our algorithm are more similar to the rules in the optimal rule list than the rules from heuristic approaches.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# AITTI:テキスト・画像生成のための適応型包括学習

AITTI: Learning Adaptive Inclusive Token for Text-to-Image Generation ( http://arxiv.org/abs/2406.12805v1 )

ライセンス: Link先を確認
Xinyu Hou, Xiaoming Li, Chen Change Loy, (参考訳) テキスト・ツー・イメージ生成の高品質な結果にもかかわらず、その生成内容にステレオタイプバイアスが見られ、生成モデルの公正さを損なう。 本研究では,最終的な生成出力の属性分布をシフトするために適応的包摂的トークンを学習することを提案する。 既存の非バイアス化手法とは異なり、本手法では明示的な属性仕様やバイアス分布の事前知識は必要としない。 具体的には、本手法のコアとなるのは軽量適応型マッピングネットワークであり、デバイアスの概念に対して包括的トークンをカスタマイズすることで、元のバイアス分布によらず、未確認の概念を一般化することができる。 これは、アダプティブマッピングネットワークをアンカーロスを使用して、少数のバランスのとれた、包括的なサンプルでチューニングすることで達成される。 実験結果から,提案手法は,生成結果とテキスト記述との整合性を保ちつつ,属性仕様を使わずに従来のバイアス軽減手法よりも優れていることが示された。 さらに,本手法は,特定の属性や編集方向を必要とするモデルに匹敵する性能を実現する。 大規模実験では,テキスト・画像生成におけるステレオタイプバイアスの緩和に適応的包括トークンの有効性が示された。 コードはhttps://github.com/itsmag11/AITTIで入手できる。

Despite the high-quality results of text-to-image generation, stereotypical biases have been spotted in their generated contents, compromising the fairness of generative models. In this work, we propose to learn adaptive inclusive tokens to shift the attribute distribution of the final generative outputs. Unlike existing de-biasing approaches, our method requires neither explicit attribute specification nor prior knowledge of the bias distribution. Specifically, the core of our method is a lightweight adaptive mapping network, which can customize the inclusive tokens for the concepts to be de-biased, making the tokens generalizable to unseen concepts regardless of their original bias distributions. This is achieved by tuning the adaptive mapping network with a handful of balanced and inclusive samples using an anchor loss. Experimental results demonstrate that our method outperforms previous bias mitigation methods without attribute specification while preserving the alignment between generative results and text descriptions. Moreover, our method achieves comparable performance to models that require specific attributes or editing directions for generation. Extensive experiments showcase the effectiveness of our adaptive inclusive tokens in mitigating stereotypical bias in text-to-image generation. The code will be available at https://github.com/itsmag11/AITTI.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# LLMエージェントを用いたコード解析によるソフトウェアシステムの性能感度設定の同定

Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents ( http://arxiv.org/abs/2406.12806v1 )

ライセンス: Link先を確認
Zehao Wang, Dong Jae Kim, Tse-Hsun Chen, (参考訳) 特定のパフォーマンス要件を満たすようにソフトウェア動作を調整するためには、構成設定が不可欠です。 しかし、誤った設定が広まっており、システムパフォーマンスに影響を与えるものを特定することは、考えられる設定の膨大な数と複雑さのために困難である。 本稿では、LLM(Large Language Models)を利用した軽量フレームワークPerfSenseを紹介し、最小限のオーバーヘッドでパフォーマンスに敏感な構成を効率的に識別する。 PerfSenseは、プロンプトチェーンや検索拡張生成(RAG)といった高度なプロンプト技術を使用して、開発者とパフォーマンスエンジニア間のインタラクションをシミュレートするためにLLMエージェントを使用している。 7つのオープンソースJavaシステムについて評価した結果、PerfSenseはパフォーマンスに敏感な構成を64.77%の精度で分類し、LLMベースライン(50.36%)と従来の最先端手法(61.75%)の両方を上回りました。 特に,本手法は,類似の精度を維持しつつ,リコール率を10%から30%向上させる。 さらに、362の誤分類を手動で分析した結果、LCMの要求誤解(26.8%)など、一般的な問題が明らかになった。 まとめると、PerfSenseはパフォーマンスに敏感な構成を分類する作業を大幅に減らし、将来のLCMベースのコード分析研究に貴重な洞察を提供する。

Configuration settings are essential for tailoring software behavior to meet specific performance requirements. However, incorrect configurations are widespread, and identifying those that impact system performance is challenging due to the vast number and complexity of possible settings. In this work, we present PerfSense, a lightweight framework that leverages Large Language Models (LLMs) to efficiently identify performance-sensitive configurations with minimal overhead. PerfSense employs LLM agents to simulate interactions between developers and performance engineers using advanced prompting techniques such as prompt chaining and retrieval-augmented generation (RAG). Our evaluation of seven open-source Java systems demonstrates that PerfSense achieves an average accuracy of 64.77% in classifying performance-sensitive configurations, outperforming both our LLM baseline (50.36%) and the previous state-of-the-art method (61.75%). Notably, our prompt chaining technique improves recall by 10% to 30% while maintaining similar precision levels. Additionally, a manual analysis of 362 misclassifications reveals common issues, including LLMs' misunderstandings of requirements (26.8%). In summary, PerfSense significantly reduces manual effort in classifying performance-sensitive configurations and offers valuable insights for future LLM-based code analysis research.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 持続性疾患軌跡の確率的時間予測とニューラルSDEによる治療効果

Probabilistic Temporal Prediction of Continuous Disease Trajectories and Treatment Effects Using Neural SDEs ( http://arxiv.org/abs/2406.12807v1 )

ライセンス: Link先を確認
Joshua Durso-Finley, Berardino Barile, Jean-Pierre Falet, Douglas L. Arnold, Nick Pawlowski, Tal Arbel, (参考訳) 医療画像に基づくパーソナライズド医療は、将来の個別化臨床疾患の進行と治療反応を予測し、特に長期、複雑で異質な進化と治療法のない疾患(例えば多発性硬化症(MS))に対して、医療と薬物開発に大きな影響を与える。 本研究では,神経確率微分方程式(NSDE)を用いて,疾患進行の持続的時間的進化をモデル化するための最初の確率因果時間的枠組みを示す。 提案した因果推論モデルは,患者の高次元画像(MRI)と表型データを入力として,潜時空間の異なる治療における現実的および対実的進行軌跡を予測する。 NSDEは信頼性の高いパーソナライズされた軌道の推定と治療効果を許可する。 患者3次元MRIとMS治療のためのランダム化臨床試験で得られた臨床データを、多中心でプロプライエタリなデータセットを用いて、広範囲にわたる実験を行った。 以上の結果から,不確実性に基づく因果ディープラーニング(DL)モデルの最初の成功例が示唆された。 (a) 将来のMS障害の進展(例えばEDSS)とベースラインMRIによる治療効果を正確に予測し、 b) 臨床的エンドポイントに届かなかった臨床試験においても, モデルが治療に対する反応に高い信頼性を有する患者のサブグループを発見できる。

Personalized medicine based on medical images, including predicting future individualized clinical disease progression and treatment response, would have an enormous impact on healthcare and drug development, particularly for diseases (e.g. multiple sclerosis (MS)) with long term, complex, heterogeneous evolutions and no cure. In this work, we present the first stochastic causal temporal framework to model the continuous temporal evolution of disease progression via Neural Stochastic Differential Equations (NSDE). The proposed causal inference model takes as input the patient's high dimensional images (MRI) and tabular data, and predicts both factual and counterfactual progression trajectories on different treatments in latent space. The NSDE permits the estimation of high-confidence personalized trajectories and treatment effects. Extensive experiments were performed on a large, multi-centre, proprietary dataset of patient 3D MRI and clinical data acquired during several randomized clinical trials for MS treatments. Our results present the first successful uncertainty-based causal Deep Learning (DL) model to: (a) accurately predict future patient MS disability evolution (e.g. EDSS) and treatment effects leveraging baseline MRI, and (b) permit the discovery of subgroups of patients for which the model has high confidence in their response to treatment even in clinical trials which did not reach their clinical endpoints.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 病理組織学におけるグラフニューラルネットワークの新たな動向と今後の方向性

Graph Neural Networks in Histopathology: Emerging Trends and Future Directions ( http://arxiv.org/abs/2406.12808v1 )

ライセンス: Link先を確認
Siemen Brussee, Giorgio Buzzanca, Anne M. R. Schrader, Jesper Kers, (参考訳) 深層学習,特に畳み込みニューラルネットワーク(CNN)の利用が増加し,全スライド画像(WSI)の病理組織学的解析が進んでいる。 しかし、CNNはWSIに固有の複雑な空間依存を捉えるのに不足することが多い。 グラフニューラルネットワーク(GNN)は、ペアの相互作用を直接モデル化し、WSI内のトポロジ組織と細胞構造を効果的に識別する、有望な代替手段を提供する。 WSIsのトポロジ的構造を利用する深層学習技術の必要性を認識し、GNNsの病理組織学への応用は急速に成長してきた。 本総説では,GNNを病理組織学的に調査し,その応用を議論し,今後の発展への道を開く新たなトレンドを探求する。 まず、GNNの基礎と、その病理組織学への応用を解明することから始める。 定量的文献分析を活用することで,階層型GNN,適応型グラフ構造学習,マルチモーダルGNN,高次GNNの4つのトレンドが明らかになった。 これらの傾向の詳細な調査を通じて、病理組織学的解析において、GNNの進化する景観に関する洞察を提供する。 本研究は,本研究の成果を踏まえ,今後の方向性を推し進めるものである。 我々の分析は、研究者や実践者が革新的なアプローチや方法論を導き、グラフニューラルネットワークのレンズによる病理学的分析の進歩を促進するのに役立つ。

Histopathological analysis of Whole Slide Images (WSIs) has seen a surge in the utilization of deep learning methods, particularly Convolutional Neural Networks (CNNs). However, CNNs often fall short in capturing the intricate spatial dependencies inherent in WSIs. Graph Neural Networks (GNNs) present a promising alternative, adept at directly modeling pairwise interactions and effectively discerning the topological tissue and cellular structures within WSIs. Recognizing the pressing need for deep learning techniques that harness the topological structure of WSIs, the application of GNNs in histopathology has experienced rapid growth. In this comprehensive review, we survey GNNs in histopathology, discuss their applications, and exploring emerging trends that pave the way for future advancements in the field. We begin by elucidating the fundamentals of GNNs and their potential applications in histopathology. Leveraging quantitative literature analysis, we identify four emerging trends: Hierarchical GNNs, Adaptive Graph Structure Learning, Multimodal GNNs, and Higher-order GNNs. Through an in-depth exploration of these trends, we offer insights into the evolving landscape of GNNs in histopathological analysis. Based on our findings, we propose future directions to propel the field forward. Our analysis serves to guide researchers and practitioners towards innovative approaches and methodologies, fostering advancements in histopathological analysis through the lens of graph neural networks.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 大規模言語モデルは、困難を解決できれば、いつでも簡単に解決できるのか?

Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? ( http://arxiv.org/abs/2406.12809v1 )

ライセンス: Link先を確認
Zhe Yang, Yichang Zhang, Tianyu Liu, Jian Yang, Junyang Lin, Chang Zhou, Zhifang Sui, (参考訳) 大きな言語モデル(LLM)は印象的な機能を示しているが、いまだに矛盾した問題に悩まされている(例えば、LLMはリフレッシングや不適切な順序変更といった障害に対して異なる反応をすることができる)。 これらの不整合に加えて、LLMは難解な問題を解くことができるが、パラドックス的により簡単な問題で失敗する可能性があることも観察した。 この難易度不整合性を評価するために,コンシエバルベンチマークを開発した。 さらに, この不整合を定量的に測定し, 相対的整合性スコアによる整合性向上の可能性を分析するために, 整合性スコアの概念を導入する。 1) GPT-4 は 92.2 % の最高一貫性を達成しているが, 冗長な情報や質問の誤解釈などによる特定の問題には相容れない。 2) より強力な能力を持つモデルは一般的に高い一貫性を示すが、例外も存在し、(3) ハードデータは微調整と文脈内学習の両方の一貫性を高める。 当社のデータとコードはGitHubで公開されます。

Large language models (LLMs) have demonstrated impressive capabilities, but still suffer from inconsistency issues (e.g. LLMs can react differently to disturbances like rephrasing or inconsequential order change). In addition to these inconsistencies, we also observe that LLMs, while capable of solving hard problems, can paradoxically fail at easier ones. To evaluate this hard-to-easy inconsistency, we develop the ConsisEval benchmark, where each entry comprises a pair of questions with a strict order of difficulty. Furthermore, we introduce the concept of consistency score to quantitatively measure this inconsistency and analyze the potential for improvement in consistency by relative consistency score. Based on comprehensive experiments across a variety of existing models, we find: (1) GPT-4 achieves the highest consistency score of 92.2\% but is still inconsistent to specific questions due to distraction by redundant information, misinterpretation of questions, etc.; (2) models with stronger capabilities typically exhibit higher consistency, but exceptions also exist; (3) hard data enhances consistency for both fine-tuning and in-context learning. Our data and code will be publicly available on GitHub.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# マルチモーダルエージェントの敵攻撃

Adversarial Attacks on Multimodal Agents ( http://arxiv.org/abs/2406.12814v1 )

ライセンス: Link先を確認
Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan, (参考訳) 視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。 本稿では,マルチモーダルエージェントが環境へのアクセスや知識の制限により,攻撃エージェントが以前の攻撃よりも困難であるにもかかわらず,新たな安全リスクを生じさせることを示す。 我々の攻撃は、環境中の1つのトリガ画像上で勾配に基づく摂動を誘導するために、敵対的なテキスト文字列を使用する: 1) キャプタ攻撃は、VLMへの追加入力としてイメージをキャプタに処理するために使用される場合、ホワイトボックスキャプタ攻撃; (2) CLIP攻撃は、プロプライエタリなVLMに転送可能な一連のCLIPモデルを攻撃する。 攻撃を評価するため、Webベースのマルチモーダルエージェントタスクの環境であるVisualWebArenaをベースとした敵タスクのセットであるVisualWebArena-Advをキュレートした。 単一の画像上で16/256$のL無限ノルム内で、キャプタ攻撃はキャプタ増強されたGPT-4Vエージェントを75%の成功率で敵目標を実行することができる。 キャプターを除去したり、独自のキャプションを生成するためにGPT-4Vを使用すると、CLIP攻撃は21%と43%の成功率を達成することができる。 Gemini-1.5、Claude-3、GPT-4oなどの他のVLMをベースとしたエージェントの実験は、その堅牢性に興味深い違いを示している。 さらなる分析により、攻撃の成功に寄与するいくつかの重要な要因が明らかとなり、また、防衛への影響についても議論する。 プロジェクトページ: https://chenwu.io/ attack-agent Code and data: https://github.com/ChenWu98/agent- attack

Vision-enabled language models (VLMs) are now used to build autonomous multimodal agents capable of taking actions in real environments. In this paper, we show that multimodal agents raise new safety risks, even though attacking agents is more challenging than prior attacks due to limited access to and knowledge about the environment. Our attacks use adversarial text strings to guide gradient-based perturbation over one trigger image in the environment: (1) our captioner attack attacks white-box captioners if they are used to process images into captions as additional inputs to the VLM; (2) our CLIP attack attacks a set of CLIP models jointly, which can transfer to proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set of adversarial tasks based on VisualWebArena, an environment for web-based multimodal agent tasks. Within an L-infinity norm of $16/256$ on a single image, the captioner attack can make a captioner-augmented GPT-4V agent execute the adversarial goals with a 75% success rate. When we remove the captioner or use GPT-4V to generate its own captions, the CLIP attack can achieve success rates of 21% and 43%, respectively. Experiments on agents based on other VLMs, such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their robustness. Further analysis reveals several key factors contributing to the attack's success, and we also discuss the implications for defenses as well. Project page: https://chenwu.io/attack-agent Code and data: https://github.com/ChenWu98/agent-attack
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 不確実性推定を用いた医用画像におけるフェデレーション学習のプライバシ保護

Privacy Preserving Federated Learning in Medical Imaging with Uncertainty Estimation ( http://arxiv.org/abs/2406.12815v1 )

ライセンス: Link先を確認
Nikolas Koutsoubis, Yasin Yilmaz, Ravi P. Ramachandran, Matthew Schabath, Ghulam Rasool, (参考訳) 機械学習(ML)と人工知能(AI)は、特に医療において顕著な進歩をもたらした。 医療画像内では、MLモデルは疾患診断の改善、治療計画、治療後のモニタリングを約束する。 画像分類、物体検出、画像分割といった様々なコンピュータビジョンタスクは、臨床分析においてルーチンとなる。 しかし、患者のデータを取り巻くプライバシー上の懸念は、正確で堅牢で一般化可能なモデルの開発とトレーニングに必要な大規模なトレーニングデータセットの組み立てを妨げる。 フェデレートラーニング(FL)は魅力的なソリューションとして登場し、データ(医療画像など)ではなくモデルトレーニング情報(段階的)を共有することで、MLモデルのトレーニングに協力することが可能になる。 FLの分散学習フレームワークは、患者のプライバシーを維持しながら、制度間コラボレーションを促進する。 しかし、FLはプライバシー保護に頑健だが、いくつかの課題に直面している。 敏感な情報は、モデルトレーニング中に組織間で渡される共有の勾配から、いまだに取り除くことができる。 さらに、医用画像では、データのノイズやアーティファクトのために、モデルの信頼性を正確に定量化することが重要である。 FLにおける不確実性推定は、組織間のデータの異質性に起因する、ユニークなハードルに直面する。 本稿では,FL,プライバシ保護,不確実性評価を包括的に検討し,医用画像に焦点をあてる。 現在の研究の他に、フィールドのギャップを特定し、プライバシーを高め、ノイズの多い医療画像データ問題に対処するためのFL研究の今後の方向性を提案する。

Machine learning (ML) and Artificial Intelligence (AI) have fueled remarkable advancements, particularly in healthcare. Within medical imaging, ML models hold the promise of improving disease diagnoses, treatment planning, and post-treatment monitoring. Various computer vision tasks like image classification, object detection, and image segmentation are poised to become routine in clinical analysis. However, privacy concerns surrounding patient data hinder the assembly of large training datasets needed for developing and training accurate, robust, and generalizable models. Federated Learning (FL) emerges as a compelling solution, enabling organizations to collaborate on ML model training by sharing model training information (gradients) rather than data (e.g., medical images). FL's distributed learning framework facilitates inter-institutional collaboration while preserving patient privacy. However, FL, while robust in privacy preservation, faces several challenges. Sensitive information can still be gleaned from shared gradients that are passed on between organizations during model training. Additionally, in medical imaging, quantifying model confidence\uncertainty accurately is crucial due to the noise and artifacts present in the data. Uncertainty estimation in FL encounters unique hurdles due to data heterogeneity across organizations. This paper offers a comprehensive review of FL, privacy preservation, and uncertainty estimation, with a focus on medical imaging. Alongside a survey of current research, we identify gaps in the field and suggest future directions for FL research to enhance privacy and address noisy medical imaging data challenges.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 拘束拡散モデルのためのニューラル近似ミラーマップ

Neural Approximate Mirror Maps for Constrained Diffusion Models ( http://arxiv.org/abs/2406.12816v1 )

ライセンス: Link先を確認
Berthy T. Feng, Ricardo Baptista, Katherine L. Bouman, (参考訳) 拡散モデルは視覚的に拘束力のある画像を作成するのに優れているが、トレーニングデータに固有の微妙な制約を満たすのに苦労することが多い。 そのような制約は物理学に基づく(例えば、PDEを満たす)、幾何学的(例えば、対称性を尊重する)、意味論的(例えば、特定の数の対象を含む)である。 トレーニングデータが一定の制約を満たす場合、拡散モデルにこの制約を課すことで、その分布マッチング精度が向上するだけでなく、有効な合成データの生成や制約付き逆問題の解決にも信頼性が向上する。 しかし、制約付き拡散モデルに対する既存の手法は、異なる種類の制約で非柔軟である。 近年,ミラーマップによって定義された制約のない空間でミラー拡散モデル(MDM)を学習し,逆ミラーマップとの制約を課すことが提案されているが,解析ミラーマップは複雑な制約を導出することが困難である。 一般制約に対するニューラル近似ミラーマップ(NAMM)を提案する。 我々のアプローチは制約集合から微分可能な距離関数のみを必要とする。 我々は、制約のない空間にデータをプッシュする近似ミラーマップと、制約セットにデータをマップする対応する近似逆写像を学習する。 MDMのような生成モデルは、学習されたミラー空間で訓練され、そのサンプルは逆写像によって設定された制約に復元される。 我々は,制約のない拡散モデルと比較して,NAMMベースのMDMは制約満足度を大幅に改善することを示す。 また,既存の拡散型逆問題解法を学習ミラー空間に適用して,制約付き逆問題を容易に解けることを示す。

Diffusion models excel at creating visually-convincing images, but they often struggle to meet subtle constraints inherent in the training data. Such constraints could be physics-based (e.g., satisfying a PDE), geometric (e.g., respecting symmetry), or semantic (e.g., including a particular number of objects). When the training data all satisfy a certain constraint, enforcing this constraint on a diffusion model not only improves its distribution-matching accuracy but also makes it more reliable for generating valid synthetic data and solving constrained inverse problems. However, existing methods for constrained diffusion models are inflexible with different types of constraints. Recent work proposed to learn mirror diffusion models (MDMs) in an unconstrained space defined by a mirror map and to impose the constraint with an inverse mirror map, but analytical mirror maps are challenging to derive for complex constraints. We propose neural approximate mirror maps (NAMMs) for general constraints. Our approach only requires a differentiable distance function from the constraint set. We learn an approximate mirror map that pushes data into an unconstrained space and a corresponding approximate inverse that maps data back to the constraint set. A generative model, such as an MDM, can then be trained in the learned mirror space and its samples restored to the constraint set by the inverse map. We validate our approach on a variety of constraints, showing that compared to an unconstrained diffusion model, a NAMM-based MDM substantially improves constraint satisfaction. We also demonstrate how existing diffusion-based inverse-problem solvers can be easily applied in the learned mirror space to solve constrained inverse problems.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 弦-網凝縮の実現: 普遍ゲートに対するフィボナッチ・アロンブレイディングと色多項式のサンプリング

Realizing string-net condensation: Fibonacci anyon braiding for universal gates and sampling chromatic polynomials ( http://arxiv.org/abs/2406.12820v1 )

ライセンス: Link先を確認
Zlatko K. Minev, Khadijeh Najafi, Swarnadeep Majumder, Juven Wang, Ady Stern, Eun-Ah Kim, Chao-Ming Jian, Guanyu Zhu, (参考訳) 非アベリア・アノン励起をサポートする複雑なトポロジカル状態であるフィボナッチ・ストリングネット凝縮は、フォールトトレラントな普遍量子計算の可能性を秘めている。 しかし、静的格子ハミルトニアンによる実現は、要求される本質的に高次相互作用のため、解明され続けている。 本稿では,拡張性のある動的文字列-ネット準備(DSNP)手法を導入する。これは,短期量子プロセッサにも適しており,再構成可能なグラフを用いて動的に状態を作成することができる。 DSNPはFibonacci string-net condensate (Fib-SNC)の作成と操作を可能にする。 超伝導量子プロセッサを用いて、DSNPアプローチを深部回路上の複合誤差緩和戦略と組み合わせて、2次元(2次元)のフィボナッチアロンの生成、測定、編み込みを成功させ、普遍的な量子計算の可能性を示す。 この目的のために、Fid-SNCの基礎となる2つの位相場の量子場理論に関連する2種類の電子の電荷を平均94%の精度で測定する。 3つのオンに符号化された論理量子ビット上のスケーラブルな2次元ブレイディング動作は、平均精度98%、測定の不確かさ8%の黄金比$\phi$が得られることを検証した。 さらにFib-SNC波動関数をサンプリングし、色多項式を様々なグラフに対して$\phi+2$と推定する。 色多項式の確立された計算硬度を考えると、波動関数の振幅は古典的には評価が難しい。 この結果から,拡張性DSNPはフォールトトレラントな普遍量子計算や古典的ハード問題への扉を開くことができるという原理が確立された。

Fibonacci string-net condensate, a complex topological state that supports non-Abelian anyon excitations, holds promise for fault-tolerant universal quantum computation. However, its realization by a static-lattice Hamiltonian has remained elusive due to the inherent high-order interactions demanded. Here, we introduce a scalable dynamical string-net preparation (DSNP) approach, suitable even for near-term quantum processors, that can dynamically prepare the state through reconfigurable graphs. DSNP enables the creation and manipulation of the Fibonacci string-net condensate (Fib-SNC). Using a superconducting quantum processor, we couple the DSNP approach with a composite error-mitigation strategy on deep circuits to successfully create, measure, and braid Fibonacci anyons in two spatial dimensions (2D) demonstrating their potential for universal quantum computation. To this end, we measure anyon charges for two species of anyons associated with the doubled topological quantum field theory underlying Fid-SNC, with an average experimental accuracy of 94%. We validate that a scalable 2D braiding operation on a logical qubit encoded on three anyons yields the golden ratio $\phi$ with 98% average accuracy and 8% measurement uncertainty. We further sample the Fib-SNC wavefunction to estimate the chromatic polynomial at $\phi+2$ for various graphs. Given the established computational hardness of the chromatic polynomial, the wavefunction amplitude is classically hard to evaluate. Our results establish the first proof of principle that scalable DSNP can open doors to fault-tolerant universal quantum computation and to classically-hard problems.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 大規模言語モデルの多言語指導チューニングに良いデータか、それとも単に多言語評価に悪いデータか?

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? ( http://arxiv.org/abs/2406.12822v1 )

ライセンス: Link先を確認
Pinzhen Chen, Simon Yu, Zhicheng Guo, Barry Haddow, (参考訳) 大規模言語モデル、特に多言語モデルは設計され、主張され、様々な言語の母語話者に適応することが期待されている。 これらのモデルを微調整し評価する現在の実践は、翻訳に大きく依存しているため、翻訳アーチファクトや欠陥を導入できるため、この意図を間違える可能性があると推測する。 命令データの性質がモデル出力に影響を与えているかどうかは不明であるが、翻訳されたテストセットがそのようなニュアンスを捕捉できるかどうかについては疑問が残る。 両段階での翻訳データの使用は、しばしば混在しているため、このような不完全性は見過ごされた可能性がある。 本研究は,制御されたネイティブデータや翻訳データを用いて,授業のチューニングと評価の段階とモデル結果の観察を行うことにより,これらの課題を考察する。 8つのベースモデルと8つの異なるベンチマーク実験により、ネイティブまたはジェネレーションベンチマークは、特にモデルの性能が高い場合、特にネイティブとトランスフォーメーションのインストラクションデータに顕著な違いを示す。 最後に、このギャップを構造的だが生成的タスクで埋めるには、正規化が有益であることを示す。

Large language models, particularly multilingual ones, are designed, claimed, and expected to cater to native speakers of varied languages. We hypothesise that the current practices of fine-tuning and evaluating these models may mismatch this intention owing to a heavy reliance on translation, which can introduce translation artefacts and defects. It remains unknown whether the nature of the instruction data has an impact on the model output; on the other hand, it remains questionable whether translated test sets can capture such nuances. Due to the often coupled practices of using translated data in both stages, such imperfections could have been overlooked. This work investigates these issues by using controlled native or translated data during instruction tuning and evaluation stages and observing model results. Experiments on eight base models and eight different benchmarks reveal that native or generation benchmarks display a notable difference between native and translated instruction data especially when model performance is high, whereas other types of test sets cannot. Finally, we demonstrate that regularization is beneficial to bridging this gap on structured but not generative tasks.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 3-outcome multipartite Bell inequality:多体系における次元観察とスピンネマティックスキューズへの応用

Three-outcome multipartite Bell inequalities: applications to dimension witnessing and spin-nematic squeezing in many-body systems ( http://arxiv.org/abs/2406.12823v1 )

ライセンス: Link先を確認
Guillem Müller-Rigat, Albert Aloy, Maciej Lewenstein, Matteo Fadel, Jordi Tura, (参考訳) 我々は,多体スピン-1系やSU(3)モデルにおける非局所的相関の探索に自然に適するベル不等式を示す。 具体的には,この不等式を実験的に実施したベル相関証人から,集団スピン成分の測定に基づいて導出する方法を示す。 さらに, ある次元の単一粒子ヒルベルト空間で観測された統計を再現できないという, 違反する基準が示されるような, スケーラブルなベル次元の証人を導出する手法を提案する。 例えば、スピン-1 ボース-アインシュタイン凝縮体で生成できるようなスピンネマティック圧縮状態におけるこれらの証人の応用を示す。

We present a three-outcome permutationally-invariant Bell inequality, which we show to be naturally suited to explore nonlocal correlations in many-body spin-1 systems or SU(3) models. In the specific, we show how to derive from this inequality experimentally practical Bell correlation witnesses based on the measurement of collective spin components. Moreover, we present approaches that allow us to derive scalable Bell dimension witnesses, namely criteria whose violation signals the impossibility of reproducing the observed statistics by single-particle Hilbert spaces of a certain dimension.This enables the certification of genuine three-level correlations that cannot occur in two-level, i.e. qubit, systems. As an example, we show the application of these witnesses in spin-nematic squeezed states, such as the one that can be prepared in spin-1 Bose-Einstein condensates.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# RAGからリッチパラメータへ:言語モデルが事実クエリのパラメトリック情報よりも外部知識をどのように活用するか

From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries ( http://arxiv.org/abs/2406.12824v1 )

ライセンス: Link先を確認
Hitesh Wadhwa, Rahul Seetharaman, Somyaa Aggarwal, Reshmi Ghosh, Samyadeep Basu, Soundararajan Srinivasan, Wenlong Zhao, Shreyas Chaudhari, Ehsan Aghazadeh, (参考訳) Retrieval Augmented Generation (RAG) は、あるユーザプロンプトに対する応答を増やすために、外部コンテキストを使って言語モデルを推論する能力を強化する。 このアプローチは、検索、質問/回答、チャットボットにおける言語モデルの様々な応用における実践的な応用により、人気が高まっている。 しかし、このアプローチの動作の正確な性質は明確には分かっていない。 本稿では,RAGパイプラインを機械的に検討し,言語モデルがショートカットをとっており,パラメトリックメモリを最小限に頼りながら,文脈情報のみを活用することに強いバイアスを持つことを示す。 我々は、言語モデルにおけるこの力学挙動を次のように探求する。 一 質問に答える際に、パラメトリックメモリを最小限に活用することを示す因果メディエーション分析 (ii)注意貢献とノックアウトは、最後のトークン残差ストリームが課題の主題トークンから豊かになるのではなく、文脈における他の情報トークンから豊かになることを示すものである。 この顕著なショートカット動作は、LLaMaとPhiファミリの両方のモデルで真である。

Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# 言語モデルは確率論的推論が可能に

What Are the Odds? Language Models Are Capable of Probabilistic Reasoning ( http://arxiv.org/abs/2406.12830v1 )

ライセンス: Link先を確認
Akshay Paruchuri, Jake Garrison, Shun Liao, John Hernandez, Jacob Sunshine, Tim Althoff, Xin Liu, Daniel McDuff, (参考訳) 言語モデル (LM) は極めて複雑な言語処理を行うことができるが、数値推論はそれらがしばしば苦労する分野である。 推論の重要であるが稀に評価される形式は確率分布の理解である。 本稿では,理想化および実世界の統計分布を用いたLMの確率論的推論能力の評価に焦点をあてる。 本研究では,パーセンタイルの推定,サンプルの描画,確率の計算という3つのタスクにおいて,最先端のLMの体系的評価を行う。 LMにコンテキストを提供する3つの方法を評価する。 1) 配当又は配当系統の例を固定すること。 2)現実世界の文脈。 3) 正規近似を基礎とする統計の要約。 モデルは分布に関する推論を行うことができ、たとえこれらの仮定が間違っていたり間違っていたとしても、実世界の文脈、例えばショットや単純化された仮定を組み込むことによってさらに助けられる。 この作業を行うために,我々は,関連する質問応答ペアを用いた総合的なベンチマーク分布データセットを開発し,公開する。

Language models (LM) are capable of remarkably complex linguistic tasks; however, numerical reasoning is an area in which they frequently struggle. An important but rarely evaluated form of reasoning is understanding probability distributions. In this paper, we focus on evaluating the probabilistic reasoning capabilities of LMs using idealized and real-world statistical distributions. We perform a systematic evaluation of state-of-the-art LMs on three tasks: estimating percentiles, drawing samples, and calculating probabilities. We evaluate three ways to provide context to LMs 1) anchoring examples from within a distribution or family of distributions, 2) real-world context, 3) summary statistics on which to base a Normal approximation. Models can make inferences about distributions, and can be further aided by the incorporation of real-world context, example shots and simplified assumptions, even if these assumptions are incorrect or misspecified. To conduct this work, we developed a comprehensive benchmark distribution dataset with associated question-answer pairs that we will release publicly.
翻訳日:2024-06-19 17:49:20 公開日:2024-06-18
# VIA: グローバルおよびローカルビデオ編集のための時空間ビデオ適応フレームワーク

VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing ( http://arxiv.org/abs/2406.12831v1 )

ライセンス: Link先を確認
Jing Gu, Yuwei Fang, Ivan Skorokhodov, Peter Wonka, Xinya Du, Sergey Tulyakov, Xin Eric Wang, (参考訳) ビデオ編集は、エンターテイメントや教育からプロのコミュニケーションまで、デジタルメディアの基盤となっている。 しかし、従来の手法は、グローバルな文脈とローカルな文脈の両方を包括的に理解する必要性を無視することが多く、特に長いビデオの場合、時空間における不正確で矛盾した編集につながる。 本稿では,グローバルおよびローカルなビデオ編集のための一貫した時空間VIdeo AdaptationフレームワークであるVIAを紹介し,一貫したビデオ編集の限界を推し進める。 まず、各フレーム内の局所的な一貫性を確保するため、VIAの基礎となる新しいテスト時間編集適応法は、潜在的な編集方向とテキスト命令との整合性を改善するために事前訓練された画像編集モデルを適用し、マスク付き潜伏変数を正確な局所制御に適応させる。 さらに,映像系列に対するグローバルな一貫性を維持するために,キーフレーム内の一貫した注意変数を適応させる時空間適応を導入し,その編集効果を実現するために全シーケンスにわたって戦略的に適用する。 広範にわたる実験により,本手法はベースライン手法と比較して,ソースビデオに忠実な編集,時空間のコヒーレント化,局所制御の精度の向上を実証した。 さらに重要なことは、VIAが一貫した長いビデオ編集を数分で達成できることを示し、長いビデオシーケンスの先進的なビデオ編集タスクの可能性を解き放ちます。

Video editing stands as a cornerstone of digital media, from entertainment and education to professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistency edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal VIdeo Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, the foundation of VIA is a novel test-time editing adaptation method, which adapts a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapts masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that adapts consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potentials for advanced video editing tasks over long video sequences.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# LaMDA:分光分解低次元適応による大型モデル微調整

LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation ( http://arxiv.org/abs/2406.12832v1 )

ライセンス: Link先を確認
Seyedarmin Azizi, Souvik Kundu, Massoud Pedram, (参考訳) 低ランク適応 (LoRA) は、訓練可能なパラメータの大幅な削減により、ファインチューン大言語モデル (LLM) に対するデフォルトのアプローチとなっている。 しかし、モデル埋め込み次元の増大に伴い、LoRAのトレーニング可能なパラメータ要求が増加し、高い計算コストがもたらされる。 さらに、後方更新には高次元の中間アクティベーションとオプティマイザ状態の保存が必要で、高いピークGPUメモリが要求される。 本稿では、スペクトル分解型低次元適応(LaMDA)による大規模モデル微調整について紹介する。これは、低次元適応を利用してトレーニング可能なパラメータとピークGPUメモリフットプリントの大幅な削減を実現する、大規模言語モデルに対する新しいアプローチである。 LaMDAは、低次元のトレーニング可能な2乗行列を導入しながら、適応経路で第1のプロジェクション行列(PMA)を凍結し、トレーニング可能なパラメータとピークGPUメモリ使用量を大幅に削減する。 LaMDAは、初期微調整段階で徐々に第2のプロジェクションマトリックス(PMB)を凍結し、重み更新に伴う計算コストを削減し、パラメータ効率をさらに高める。 また,事前学習したモデル重みの正規化スペクトル解析により,LoRA経路の「ライトウェイト」適応ランクアロケーションを組み込んだLaMDA++も提案する。 GLUEベンチマークによる自然言語理解,テキスト要約,自然言語生成,LLMの複雑な推論など,さまざまなタスクを対象としたLaMDA/LaMDA++の評価を行った。 その結果、LaMDAは17.7倍のパラメータ更新と1.32倍のピークGPUメモリ使用率を必要とする一方で、既存の代替品のパフォーマンスと一致または上回っていることがわかった。 コードは公開されます。

Low-rank adaptation (LoRA) has become the default approach to fine-tune large language models (LLMs) due to its significant reduction in trainable parameters. However, trainable parameter demand for LoRA increases with increasing model embedding dimensions, leading to high compute costs. Additionally, its backward updates require storing high-dimensional intermediate activations and optimizer states, demanding high peak GPU memory. In this paper, we introduce large model fine-tuning via spectrally decomposed low-dimensional adaptation (LaMDA), a novel approach to fine-tuning large language models, which leverages low-dimensional adaptation to achieve significant reductions in trainable parameters and peak GPU memory footprint. LaMDA freezes a first projection matrix (PMA) in the adaptation path while introducing a low-dimensional trainable square matrix, resulting in substantial reductions in trainable parameters and peak GPU memory usage. LaMDA gradually freezes a second projection matrix (PMB) during the early fine-tuning stages, reducing the compute cost associated with weight updates to enhance parameter efficiency further. We also present an enhancement, LaMDA++, incorporating a ``lite-weight" adaptive rank allocation for the LoRA path via normalized spectrum analysis of pre-trained model weights. We evaluate LaMDA/LaMDA++ across various tasks, including natural language understanding with the GLUE benchmark, text summarization, natural language generation, and complex reasoning on different LLMs. Results show that LaMDA matches or surpasses the performance of existing alternatives while requiring up to 17.7x fewer parameter updates and up to 1.32x lower peak GPU memory usage during fine-tuning. Code will be publicly available.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# GroPrompt: ビデオオブジェクトのセグメンテーションの効率化と適応

GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation ( http://arxiv.org/abs/2406.12834v1 )

ライセンス: Link先を確認
Ci-Siang Lin, I-Jieh Liu, Min-Hung Chen, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang, (参考訳) Referring Video Object Segmentation (RVOS)は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメントすることを目的としている。 既存のほとんどのメソッドでは、高密度なマスクアノテーションによるエンドツーエンドのトレーニングが必要です。 本研究では,提案するGroPrompting(GroPrompt)フレームワークを用いて,RVOSに対処するための基盤セグメンテーションモデルを弱監督から効率的に適用することを目的とする。 具体的には,テキストコントラスト学習 (TextCon) とモダリティコントラスト学習 (ModalCon) をそれぞれフレームレベルとビデオレベルで行うことで,テキストコントラスト学習 (ModalCon) やモダリティコントラスト学習 (ModalCon) などのボックスインスペクタのみによる位置プロンプトと参照文の関連性を高めるために,TAP-CL (Text-Aware Prompt Contrastive Learning) を提案する。 提案したTAP-CLにより、GroPromptフレームワークは、ビデオから参照対象の位置と動きを記述した時間一貫性のあるテキスト対応の位置プロンプトを生成することができる。 標準RVOSベンチマーク(Ref-YouTube-VOS,Ref-DAVIS17,A2D-Sentences,JHMDB-Sentences)における実験結果は,バウンディングボックスの弱い監視のみを前提として提案したGroPromptフレームワークの競合性能を示す。

Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence throughout the entire video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we aim to efficiently adapt foundation segmentation models for addressing RVOS from weak supervision with the proposed Grounded Prompting (GroPrompt) framework. More specifically, we propose Text-Aware Prompt Contrastive Learning (TAP-CL) to enhance the association between the position prompts and the referring sentences with only box supervisions, including Text-Contrastive Prompt Learning (TextCon) and Modality-Contrastive Prompt Learning (ModalCon) at frame level and video level, respectively. With the proposed TAP-CL, our GroPrompt framework can generate temporal-consistent yet text-aware position prompts describing locations and movements for the referred object from the video. The experimental results in the standard RVOS benchmarks (Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences, and JHMDB-Sentences) demonstrate the competitive performance of our proposed GroPrompt framework given only bounding box weak supervisions.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# グラフニューラルバンドによる影響の最大化

Influence Maximization via Graph Neural Bandits ( http://arxiv.org/abs/2406.12835v1 )

ライセンス: Link先を確認
Yuting Feng, Vincent Y. F. Tan, Bogdan Cautis, (参考訳) 本研究では,拡散ネットワークのトポロジに関する知識が限られている影響最大化(IM)の研究において,ユビキタスなシナリオを考える。 IM問題を多ラウンド拡散キャンペーンに設定し,影響を受けやすいユーザ数を最大化することを目的とした。 本研究は,探索と利用の目的とニューラルネットワークの表現性を効果的にバランスさせるバンディットアルゴリズムの能力を活用し,IM問題へのニューラルバンディットアルゴリズムの適用について検討する。 本稿では,インフルエンサー(拡散シード)の影響を受けやすい確率を推定するフレームワークIM-GNB(Influence Maximization with Graph Neural Bandits)を提案する。 この最初の見積もりは、エクスプロイトグラフと探索グラフの両方を構築するための基礎を形成する。 その後、IM-GNBはグラフ畳み込みネットワーク(GCN)を用いてシードノードをリアルタイムで選択することで探索・探索トレードオフを処理する。 2つの大規模な実世界のデータセットに対する広範な実験を通じて、IM-GNBが他のベースライン手法と比較して有効であることを実証し、基礎となるネットワークが不明な場合の拡散キャンペーンの拡散効果を著しく改善する。

We consider a ubiquitous scenario in the study of Influence Maximization (IM), in which there is limited knowledge about the topology of the diffusion network. We set the IM problem in a multi-round diffusion campaign, aiming to maximize the number of distinct users that are influenced. Leveraging the capability of bandit algorithms to effectively balance the objectives of exploration and exploitation, as well as the expressivity of neural networks, our study explores the application of neural bandit algorithms to the IM problem. We propose the framework IM-GNB (Influence Maximization with Graph Neural Bandits), where we provide an estimate of the users' probabilities of being influenced by influencers (also known as diffusion seeds). This initial estimate forms the basis for constructing both an exploitation graph and an exploration one. Subsequently, IM-GNB handles the exploration-exploitation tradeoff, by selecting seed nodes in real-time using Graph Convolutional Networks (GCN), in which the pre-estimated graphs are employed to refine the influencers' estimated rewards in each contextual setting. Through extensive experiments on two large real-world datasets, we demonstrate the effectiveness of IM-GNB compared with other baseline methods, significantly improving the spread outcome of such diffusion campaigns, when the underlying network is unknown.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# LayerMerge: レイヤのプルーニングとマージによるニューラルネットワーク深さ圧縮

LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging ( http://arxiv.org/abs/2406.12837v1 )

ライセンス: Link先を確認
Jinuk Kim, Marwa El Halabi, Mingi Ji, Hyun Oh Song, (参考訳) 近年の研究では、畳み込みニューラルネットワークにおけるレイヤ数の削減は、ネットワークの性能を維持しながら効率を向上させることが示されている。 既存の深度圧縮法では、冗長な非線形活性化関数を除去し、連続する畳み込み層を単一の層にマージする。 しかし、これらの手法は、ネットワークの深さを減らすことで得られたレイテンシ低減を著しく損なうため、マージされたレイヤのカーネルサイズが大きくなるという重大な欠点に悩まされる。 畳み込み層とアクティベーション関数を併用することにより,この問題に対処できることを示す。 そこで本研究では,どのアクティベーション層と畳み込み層を除去するかを選択するディープ圧縮手法であるLayerMergeを提案する。 対応する選択問題は指数探索空間を含むため、新しい代理最適化問題を定式化し、動的プログラミングにより効率よく解く。 実験結果から,本手法は画像分類および生成タスクにおいて,既存のネットワークアーキテクチャ上での深度圧縮およびレイヤプルーニング手法を一貫して上回ることを示す。 コードをhttps://github.com/snu-mllab/LayerMerge.comでリリースします。

Recent works show that reducing the number of layers in a convolutional neural network can enhance efficiency while maintaining the performance of the network. Existing depth compression methods remove redundant non-linear activation functions and merge the consecutive convolution layers into a single layer. However, these methods suffer from a critical drawback; the kernel size of the merged layers becomes larger, significantly undermining the latency reduction gained from reducing the depth of the network. We show that this problem can be addressed by jointly pruning convolution layers and activation functions. To this end, we propose LayerMerge, a novel depth compression method that selects which activation layers and convolution layers to remove, to achieve a desired inference speed-up while minimizing performance loss. Since the corresponding selection problem involves an exponential search space, we formulate a novel surrogate optimization problem and efficiently solve it via dynamic programming. Empirical results demonstrate that our method consistently outperforms existing depth compression and layer pruning methods on various network architectures, both on image classification and generation tasks. We release the code at https://github.com/snu-mllab/LayerMerge.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# 拡散型生成モデルの設計空間の評価

Evaluating the design space of diffusion-based generative models ( http://arxiv.org/abs/2406.12839v1 )

ライセンス: Link先を確認
Yuqing Wang, Ye He, Molei Tao, (参考訳) 拡散モデルの精度に関する既存の理論的な研究は、有意であるが、スコア関数が一定の精度に近似されたと仮定し、これを用いて生成の誤差を制御する。 この記事では、生成プロセス全体、すなわち、トレーニングとサンプリングの両方について、初めて定量的に理解する。 より正確には、勾配降下下でのdenoising score matchingの非漸近収束解析を行う。 また,分散爆発モデルに対する改良されたサンプリング誤差解析も提供する。 これら2つの結果を組み合わせて完全な誤差解析を行い、効率的な生成のためのトレーニングおよびサンプリングプロセスを設計する方法を解明する(しかし、理論上は)。 例えば、我々の理論は、[Karras et al 2022]で使われているものと定性的に一致するノイズ分布と損失重み付けの好みを示唆している。 また、[Karras et al 2022]で使用される時間と分散スケジュールが[Song et al 2020]の先駆的なバージョンよりもうまく調整できる理由についても、いくつかの視点を提供している。

Most existing theoretical investigations of the accuracy of diffusion models, albeit significant, assume the score function has been approximated to a certain accuracy, and then use this a priori bound to control the error of generation. This article instead provides a first quantitative understanding of the whole generation process, i.e., both training and sampling. More precisely, it conducts a non-asymptotic convergence analysis of denoising score matching under gradient descent. In addition, a refined sampling error analysis for variance exploding models is also provided. The combination of these two results yields a full error analysis, which elucidates (again, but this time theoretically) how to design the training and sampling processes for effective generation. For instance, our theory implies a preference toward noise distribution and loss weighting that qualitatively agree with the ones used in [Karras et al. 2022]. It also provides some perspectives on why the time and variance schedule used in [Karras et al. 2022] could be better tuned than the pioneering version in [Song et al. 2020].
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# 量子コンピュータによる最適化問題の解き方

Towards an Automatic Framework for Solving Optimization Problems with Quantum Computers ( http://arxiv.org/abs/2406.12840v1 )

ライセンス: Link先を確認
Deborah Volpe, Nils Quetschlich, Mariagrazia Graziano, Giovanna Turvani, Robert Wille, (参考訳) 目的関数の最適化は、将来様々なアプリケーション領域にわたるソリューション品質の向上を約束する量子コンピュータを活用することで大きな恩恵を受ける。 しかし、量子解法の可能性を利用するには、量子計算とQUBOの定式化において重要な専門知識を必要とする二次的非制約バイナリ最適化(QUBO)モデルに従って定式化の問題を解決する必要がある。 この専門知識は量子解へのアクセスを制限する。 幸いなことに、従来の最適化問題をQUBOの定式化に自動変換することは、量子解法へのアクセシビリティーを促進するソリューションを提供する。 本稿では,従来の最適化手法によく似たインターフェースを保ちながら,最適化タスクに量子ソルバを利用するユーザを支援するための,包括的な自動フレームワークの必要性に対処する。 このフレームワークは、ユーザが変数、最適化基準、妥当性の制約を指定し、その後、希望するソルバを選択できるようにする。 その後、問題記述を選択したソルバと互換性のあるフォーマットに自動的に変換し、結果のソリューションを提供する。 さらに、このフレームワークは、ソリューションの妥当性と品質を分析するための手段を提供する。 文献における既存のライブラリとツールの比較分析は、提案フレームワークの包括的な性質を強調している。 実世界の応用におけるフレームワークの完全性と効率性を示す2つのユースケース(knapsack問題と線形回帰)が検討されている。 最後に、提案するフレームワークは、量子コンピューティングソリューションの自動化と、より広い範囲のユーザに対する量子最適化へのアクセスの拡大に向けた大きな進歩を示している。

Optimizing objective functions stands to benefit significantly from leveraging quantum computers, promising enhanced solution quality across various application domains in the future. However, harnessing the potential of quantum solvers necessitates formulating problems according to the Quadratic Unconstrained Binary Optimization (QUBO) model, demanding significant expertise in quantum computation and QUBO formulations. This expertise barrier limits access to quantum solutions. Fortunately, automating the conversion of conventional optimization problems into QUBO formulations presents a solution for promoting accessibility to quantum solvers. This article addresses the unmet need for a comprehensive automatic framework to assist users in utilizing quantum solvers for optimization tasks while preserving interfaces that closely resemble conventional optimization practices. The framework prompts users to specify variables, optimization criteria, as well as validity constraints and, afterwards, allows them to choose the desired solver. Subsequently, it automatically transforms the problem description into a format compatible with the chosen solver and provides the resulting solution. Additionally, the framework offers instruments for analyzing solution validity and quality. Comparative analysis against existing libraries and tools in the literature highlights the comprehensive nature of the proposed framework. Two use cases (the knapsack problem and linear regression) are considered to show the completeness and efficiency of the framework in real-world applications. Finally, the proposed framework represents a significant advancement towards automating quantum computing solutions and widening access to quantum optimization for a broader range of users.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# 高次グラフニューラルネットワークのデミスティフィケーション

Demystifying Higher-Order Graph Neural Networks ( http://arxiv.org/abs/2406.12841v1 )

ライセンス: Link先を確認
Maciej Besta, Florian Scheidl, Lukas Gianinazzi, Shachar Klaiman, Jürgen Müller, Torsten Hoefler, (参考訳) 高階グラフニューラルネットワーク (HOGNN) は、平辺を超える頂点間の多進的関係を利用するGNNモデルの重要なクラスである。 オーバー・スムースやオーバー・スカッシングといった問題を排除し、GNN予測の精度を大幅に向上させ、GNNアーキテクチャの表現性を向上し、その他多くの目標を達成するために使われてきた。 HOGNNモデルは多種多様なニューラルアーキテクチャを備えており、"高階"の意味に関するさまざまな概念がある。 この豊かさは、HOGNNモデルを適切に分析し、比較し、特定のモデルを使用するシナリオを決定することを非常に困難にします。 これを緩和するために、私たちはまず、深い分類とHOGNNのための青写真を作成します。 これにより、パフォーマンスを最大化するモデルの設計が容易になる。 次に、我々の分類学を用いて、利用可能なHOGNNモデルを分析し、比較する。 分析の結果は、与えられたシナリオにおいて最も有益なGNNモデルを選択するのに役立つ洞察と、より強力なHOGNNについてさらなる研究を行うための課題と機会の包括的リストで合成される。

Higher-order graph neural networks (HOGNNs) are an important class of GNN models that harness polyadic relations between vertices beyond plain edges. They have been used to eliminate issues such as over-smoothing or over-squashing, to significantly enhance the accuracy of GNN predictions, to improve the expressiveness of GNN architectures, and for numerous other goals. A plethora of HOGNN models have been introduced, and they come with diverse neural architectures, and even with different notions of what the "higher-order" means. This richness makes it very challenging to appropriately analyze and compare HOGNN models, and to decide in what scenario to use specific ones. To alleviate this, we first design an in-depth taxonomy and a blueprint for HOGNNs. This facilitates designing models that maximize performance. Then, we use our taxonomy to analyze and compare the available HOGNN models. The outcomes of our analysis are synthesized in a set of insights that help to select the most beneficial GNN model in a given scenario, and a comprehensive list of challenges and opportunities for further research into more powerful HOGNNs.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# 半インボリュートリーMDS行列のキャラクタリゼーション

A Characterization of Semi-Involutory MDS Matrices ( http://arxiv.org/abs/2406.12842v1 )

ライセンス: Link先を確認
Tapas Chatterjee, Ayantika Laha, (参考訳) 対称暗号において、計算学的に単純な逆数を持つ最大距離分離行列は広い用途を持つ。 AES、SQUARE、SHARK、およびPHOTONのようなハッシュ関数のような多くのブロック暗号は拡散層にMDS行列を使用する。 この記事では、標数 2$ の有限体上の既約半インボリュート行列を、まず3$ 3$ で特徴づける。 この行列のキャラクタリゼーションを用いて, 対角行列の成分と対応する対角行列の成分のみを用いて, MDS半インボリュートリー行列を構成する必要十分条件を提供する。 最後に、標数 2$ の任意の有限体上の半インボリュート的 MDS 行列 3$ の数を数える。

In symmetric cryptography, maximum distance separable (MDS) matrices with computationally simple inverses have wide applications. Many block ciphers like AES, SQUARE, SHARK, and hash functions like PHOTON use an MDS matrix in the diffusion layer. In this article, we first characterize all $3 \times 3$ irreducible semi-involutory matrices over the finite field of characteristic $2$. Using this matrix characterization, we provide a necessary and sufficient condition to construct MDS semi-involutory matrices using only their diagonal entries and the entries of an associated diagonal matrix. Finally, we count the number of $3 \times 3$ semi-involutory MDS matrices over any finite field of characteristic $2$.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# Go AIは逆向きに堅牢か?

Can Go AIs be adversarially robust? ( http://arxiv.org/abs/2406.12843v1 )

ライセンス: Link先を確認
Tom Tseng, Euan McLean, Kellin Pelrine, Tony T. Wang, Adam Gleave, (参考訳) これまでの研究によると、KataGoのような超人的なGo AIは、単純な敵の戦略によって倒される。 本論文では,カタゴの最悪のケース性能を改善するため,簡単な防御効果が期待できるかどうかを考察する。 筆者らは,手作り位置における敵の訓練,反復的敵の訓練,ネットワークアーキテクチャの変更の3つの自然防御を検証した。 これらの防御策のいくつかは、以前に発見された攻撃から守ることができる。 残念ながら、これらの防御はいずれも適応的な攻撃に耐えられないこともわかりました。 特に我々は、防御されたエージェントを確実に倒す新しい敵を訓練することができる。 我々の結果は、Goのような狭い領域でさえ、堅牢なAIシステムの構築は難しいことを示唆している。 攻撃のインタラクティブな例とコードベースへのリンクについては、https://goattack.far.ai.com/ をご覧ください。

Prior work found that superhuman Go AIs like KataGo can be defeated by simple adversarial strategies. In this paper, we study if simple defenses can improve KataGo's worst-case performance. We test three natural defenses: adversarial training on hand-constructed positions, iterated adversarial training, and changing the network architecture. We find that some of these defenses are able to protect against previously discovered attacks. Unfortunately, we also find that none of these defenses are able to withstand adaptive attacks. In particular, we are able to train new adversaries that reliably defeat our defended agents by causing them to blunder in ways humans would not. Our results suggest that building robust AI systems is challenging even in narrow domains such as Go. For interactive examples of attacks and a link to our codebase, see https://goattack.far.ai.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# ファウンデーションモデルとフェデレーションラーニングの相乗効果に関する調査

Synergizing Foundation Models and Federated Learning: A Survey ( http://arxiv.org/abs/2406.12844v1 )

ライセンス: Link先を確認
Shenghui Li, Fanghua Ye, Meng Fang, Jiaxu Zhao, Yun-Hin Chan, Edith C. -H. Ngai, Thiemo Voigt, (参考訳) 大規模言語モデル、ビジョントランスフォーマー、マルチモーダルモデルで代表されるファンデーションモデル(FM)の最近の開発は、アカデミックと産業の両方に大きな影響を与えている。 小型モデルと比較して、FMは事前学習期間中に大量のデータに対してはるかに強い需要を持つ。 一般FMは、インターネットなどのオープンソースから収集されたデータに基づいて事前トレーニングすることができるが、ドメイン固有のFMにはプロプライエタリなデータが必要であるため、プライバシー上の懸念から利用可能なデータ量に関して現実的な課題が生じる。 Federated Learning(FL)は、さまざまな参加者からのデータ可用性の障壁を破る、共同学習パラダイムである。 そのため、プライバシを保護しながら分散データセットを使用して、幅広いドメイン固有のタスクにFMをカスタマイズし、適応する有望なソリューションを提供する。 本稿では,FLとFMの相乗化の可能性と課題について論じ,コア技術,今後の方向性,応用について概説する。 定期的に更新されたFM-FLのペーパーコレクションはhttps://github.com/lishenghui/awesome-fm-fl.comで入手できる。

The recent development of Foundation Models (FMs), represented by large language models, vision transformers, and multimodal models, has been making a significant impact on both academia and industry. Compared with small-scale models, FMs have a much stronger demand for high-volume data during the pre-training phase. Although general FMs can be pre-trained on data collected from open sources such as the Internet, domain-specific FMs need proprietary data, posing a practical challenge regarding the amount of data available due to privacy concerns. Federated Learning (FL) is a collaborative learning paradigm that breaks the barrier of data availability from different participants. Therefore, it provides a promising solution to customize and adapt FMs to a wide range of domain-specific tasks using distributed datasets whilst preserving privacy. This survey paper discusses the potentials and challenges of synergizing FL and FMs and summarizes core techniques, future directions, and applications. A periodically updated paper collection on FM-FL is available at https://github.com/lishenghui/awesome-fm-fl.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# 多目的リワードモデリングとMixture-of-Expertsによる解釈可能な選好

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts ( http://arxiv.org/abs/2406.12845v1 )

ライセンス: Link先を確認
Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, Tong Zhang, (参考訳) 人間からのフィードバックからの強化学習(RLHF)が,大規模言語モデル(LLM)と人間の嗜好を整合させる主要な手法として登場した。 RLHFプロセスは通常、人間の嗜好データを使用して報酬モデル(RM)をトレーニングすることから始まる。 従来のRMは、人間がどの反応を好むかを示す相対的な評価で、同じユーザ要求に対してペアワイズに反応するよう訓練されている。 訓練されたRMは人間の嗜好のプロキシとして機能する。 しかしながら、RMのブラックボックスの性質のため、その出力は解釈可能性に欠けており、RMが応答が良いとみなす理由を人間が直感的に理解できない。 RMは人間の嗜好のプロキシとして機能するので、内部決定プロセスが人間の嗜好と一致していることを確認し、LLMアライメントにおける報酬ハッキングを防止するために、人間解釈可能であるべきだと考えています。 解釈可能な好みを持つRMを構築するために,我々は2段階のアプローチを提案する。 一 絶対関係多目的回帰モデル(ArmoRM)を多次元絶対値データで訓練し、それぞれが人間の解釈可能な目的(例えば、正直性、冗長性、安全性)に対応する。 ii)Mixture-of-Experts(MoE)戦略とゲーティングネットワークを用いて、コンテキストに基づいて最適な報酬目標を自動的に選択する。 我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上に浅いMLPからなるゲーティングネットワークを構築した。 我々のトレーニングモデルであるArmoRM-Llama3-8Bは、言語モデリングのためのRMを評価するベンチマークであるRewardBench上で最先端のパフォーマンスを得る。 特に,本モデルの性能は,GPT-4判定器を用いたLCM-as-a-judge法をはるかに上回り,さらに大きなNemotron-4 340B報酬モデルの性能に近づいた。

Reinforcement learning from human feedback (RLHF) has emerged as the primary method for aligning large language models (LLMs) with human preferences. The RLHF process typically starts by training a reward model (RM) using human preference data. Conventional RMs are trained on pairwise responses to the same user request, with relative ratings indicating which response humans prefer. The trained RM serves as a proxy for human preferences. However, due to the black-box nature of RMs, their outputs lack interpretability, as humans cannot intuitively understand why an RM thinks a response is good or not. As RMs act as human preference proxies, we believe they should be human-interpretable to ensure that their internal decision processes are consistent with human preferences and to prevent reward hacking in LLM alignment. To build RMs with interpretable preferences, we propose a two-stage approach: i) train an Absolute-Rating Multi-Objective Reward Model (ArmoRM) with multi-dimensional absolute-rating data, each dimension corresponding to a human-interpretable objective (e.g., honesty, verbosity, safety); ii) employ a Mixture-of-Experts (MoE) strategy with a gating network that automatically selects the most suitable reward objectives based on the context. We efficiently trained an ArmoRM with Llama-3 8B and a gating network consisting of a shallow MLP on top of the ArmoRM. Our trained model, ArmoRM-Llama3-8B, obtains state-of-the-art performance on RewardBench, a benchmark evaluating RMs for language modeling. Notably, the performance of our model surpasses the LLM-as-a-judge method with GPT-4 judges by a margin, and approaches the performance of the much larger Nemotron-4 340B reward model.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# DrVideo: ドキュメント検索によるロングビデオ理解

DrVideo: Document Retrieval Based Long Video Understanding ( http://arxiv.org/abs/2406.12846v1 )

ライセンス: Link先を確認
Ziyu Ma, Chenhui Gou, Hengcan Shi, Bin Sun, Shutao Li, Hamid Rezatofighi, Jianfei Cai, (参考訳) ビデオの長い理解のための既存の方法は、主に数秒間しかビデオに焦点を合わせておらず、長いビデオを扱うための技術は限られている。 長編ビデオにおけるフレーム数の増加は、キー情報を見つけることの難しさと、長距離推論の実行の2つの大きな課題を示している。 そこで本稿では,長いビデオ理解を目的とした文書検索システムであるDrVideoを提案する。 我々のキーとなる考え方は、長いビデオ理解問題を文書理解タスクに変換して、大きな言語モデルのパワーを効果的に活用することである。 具体的には、DrVideoは長いビデオをテキストベースの長文に変換することで、まずはキーフレームを検索し、これらのフレームの情報を増やす。 その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、関連するデータを拡大し、十分な質問関連情報が収集されたら、チェーン・オブ・シントな方法で最終的な予測を行う。 長大なビデオベンチマーク実験により,本手法の有効性が確認された。 DrVideoは、EgoSchemaベンチマーク(3分)で+3.8、MovieChat-1Kブレークモードで+17.9、MovieChat-1Kグローバルモード(10分)で+38.0、LLama-Vid QAデータセット(60分以上)で+30.2で既存の最先端の手法より優れている。

Existing methods for long video understanding primarily focus on videos only lasting tens of seconds, with limited exploration of techniques for handling longer videos. The increased number of frames in longer videos presents two main challenges: difficulty in locating key information and performing long-range reasoning. Thus, we propose DrVideo, a document-retrieval-based system designed for long video understanding. Our key idea is to convert the long-video understanding problem into a long-document understanding task so as to effectively leverage the power of large language models. Specifically, DrVideo transforms a long video into a text-based long document to initially retrieve key frames and augment the information of these frames, which is used this as the system's starting point. It then employs an agent-based iterative loop to continuously search for missing information, augment relevant data, and provide final predictions in a chain-of-thought manner once sufficient question-related information is gathered. Extensive experiments on long video benchmarks confirm the effectiveness of our method. DrVideo outperforms existing state-of-the-art methods with +3.8 accuracy on EgoSchema benchmark (3 minutes), +17.9 in MovieChat-1K break mode, +38.0 in MovieChat-1K global mode (10 minutes), and +30.2 on the LLama-Vid QA dataset (over 60 minutes).
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# ChangeViT: 変更検出のためのプレーンビジョン変換器を公開

ChangeViT: Unleashing Plain Vision Transformers for Change Detection ( http://arxiv.org/abs/2406.12847v1 )

ライセンス: Link先を確認
Duowang Zhu, Xiaohu Huang, Haiyan Huang, Zhenfeng Shao, Qimin Cheng, (参考訳) リモートセンシング画像の変化検出は、地球表面の環境変化を追跡するために不可欠である。 多くのコンピュータビジョンアプリケーションにおけるバックボーンとしての視覚トランスフォーマー(ViT)の成功にもかかわらず、それらは変化検出において未使用のままであり、そこでは畳み込みニューラルネットワーク(CNN)がその強力な特徴抽出能力のために支配され続けている。 本稿では,大規模な変更を識別する上でのViTsの独特な優位性を明らかにする。 この知見に基づいて、大規模な変更のパフォーマンスを高めるために、プレーンなViTバックボーンを採用するフレームワークであるChangeViTを紹介します。 このフレームワークは、詳細な空間特徴を生成するディテールキャプチャモジュールと、きめ細かい空間情報を高レベルのセマンティックラーニングに効率的に統合する特徴インジェクタによって補完される。 機能統合により、ChangeViTは大規模な変更の検出と細かな詳細のキャプチャの両方に優れ、さまざまなスケールにわたる包括的な変更検出を提供する。 ベルとホイッスルなしで、ChangeViTは3つの一般的な高解像度データセット(LEVIR-CD、WHU-CD、CLCD)と1つの低解像度データセット(OSCD)で最先端のパフォーマンスを達成する。 さらに,導入モジュールの有効性を定量的・定性的に検証し,本手法の有効性を検証した。 ソースコードはhttps://github.com/zhuduowang/ChangeViT.comで入手できる。

Change detection in remote sensing images is essential for tracking environmental changes on the Earth's surface. Despite the success of vision transformers (ViTs) as backbones in numerous computer vision applications, they remain underutilized in change detection, where convolutional neural networks (CNNs) continue to dominate due to their powerful feature extraction capabilities. In this paper, our study uncovers ViTs' unique advantage in discerning large-scale changes, a capability where CNNs fall short. Capitalizing on this insight, we introduce ChangeViT, a framework that adopts a plain ViT backbone to enhance the performance of large-scale changes. This framework is supplemented by a detail-capture module that generates detailed spatial features and a feature injector that efficiently integrates fine-grained spatial information into high-level semantic learning. The feature integration ensures that ChangeViT excels in both detecting large-scale changes and capturing fine-grained details, providing comprehensive change detection across diverse scales. Without bells and whistles, ChangeViT achieves state-of-the-art performance on three popular high-resolution datasets (i.e., LEVIR-CD, WHU-CD, and CLCD) and one low-resolution dataset (i.e., OSCD), which underscores the unleashed potential of plain ViTs for change detection. Furthermore, thorough quantitative and qualitative analyses validate the efficacy of the introduced modules, solidifying the effectiveness of our approach. The source code is available at https://github.com/zhuduowang/ChangeViT.
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# 深度 - パースペクティブ蒸留とラベルなしデータ拡張による360度単眼深度推定の強化

Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation ( http://arxiv.org/abs/2406.12849v1 )

ライセンス: Link先を確認
Ning-Hsu Wang, Yu-Lun Liu, (参考訳) 360度画像の深さを正確に推定することは、仮想現実、自律ナビゲーション、没入型メディアアプリケーションにとって不可欠である。 カメラの投影や歪みが異なるため、360度画像に適用した場合、視線画像のための既存の深度推定法は失敗するが、ラベル付きデータペアの欠如により、360度手法は劣る。 ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。 筆者らは6面立方体投影法により,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。 この方法は、大規模データセットの可用性の向上を活用する。 当社のアプローチには,障害領域に対するオフラインマスク生成と,オンライン半教師付き共同トレーニング体制の2つの主要な段階がある。 我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、特にゼロショットシナリオにおいて、深さ推定の精度を大幅に改善したことを示す。 提案したトレーニングパイプラインは,360度単眼深度推定器を拡張可能であり,様々なカメラ投影とデータタイプ間の効果的な知識伝達を示す。 結果については、プロジェクトページを参照してください。

Accurately estimating depth in 360-degree imagery is crucial for virtual reality, autonomous navigation, and immersive media applications. Existing depth estimation methods designed for perspective-view imagery fail when applied to 360-degree images due to different camera projections and distortions, whereas 360-degree methods perform inferior due to the lack of labeled data pairs. We propose a new depth estimation framework that utilizes unlabeled 360-degree data effectively. Our approach uses state-of-the-art perspective depth estimation models as teacher models to generate pseudo labels through a six-face cube projection technique, enabling efficient labeling of depth in 360-degree images. This method leverages the increasing availability of large datasets. Our approach includes two main stages: offline mask generation for invalid regions and an online semi-supervised joint training regime. We tested our approach on benchmark datasets such as Matterport3D and Stanford2D3D, showing significant improvements in depth estimation accuracy, particularly in zero-shot scenarios. Our proposed training pipeline can enhance any 360 monocular depth estimator and demonstrates effective knowledge transfer across different camera projections and data types. See our project page for results: https://albert100121.github.io/Depth-Anywhere/
翻訳日:2024-06-19 17:39:34 公開日:2024-06-18
# ボックス埋め込みによる確率スコラーを用いた分類学の完成

Taxonomy Completion with Probabilistic Scorer via Box Embedding ( http://arxiv.org/abs/2305.11004v3 )

ライセンス: Link先を確認
Wei Xue, Yongliang Shen, Wenqi Ren, Jietian Guo, Shiliang Pu, Weiming Lu, (参考訳) 新たな概念を親として挿入したり、子供としてアタッチメントすることで、既存の分類学を充実させた分類学の完成が大きな関心を集めている。 以前のアプローチでは、ユークリッド空間のベクトルとして概念を組み込んでおり、分類学における非対称関係をモデル化することは困難である。 さらに、疑似リーブを導入し、アタッチメントケースを挿入ケースに変換することで、多数の擬似リーブが支配するネットワーク学習における誤ったバイアスをもたらす。 これらの問題に対処するために、私たちのフレームワークであるTaxBoxは、ボックスの包み込みと中心のクローズネスを活用して、ボックス埋め込み空間内に2つの特別な幾何学的スコアラを設計する。 これらのスコアラは挿入操作やアタッチメント操作用に調整されており、粒状箱の制約損失を最適化することにより、概念間の本質的な関係を効果的に捉えることができる。 我々はこれらのスコアのバランスをとるために動的ランキング損失機構を使用し、挿入点とアタッチメント点の適応的な調整を可能にした。 実世界の4つのデータセットに対する実験によると、TaxBoxは従来の方法よりも大幅に向上し、実世界のデータセットでは6.7%、34.9%、MRRでは51.4%、Hit@1、Prec@1では51.4%となっている。

Taxonomy completion, enriching existing taxonomies by inserting new concepts as parents or attaching them as children, has gained significant interest. Previous approaches embed concepts as vectors in Euclidean space, which makes it difficult to model asymmetric relations in taxonomy. In addition, they introduce pseudo-leaves to convert attachment cases into insertion cases, leading to an incorrect bias in network learning dominated by numerous pseudo-leaves. Addressing these, our framework, TaxBox, leverages box containment and center closeness to design two specialized geometric scorers within the box embedding space. These scorers are tailored for insertion and attachment operations and can effectively capture intrinsic relationships between concepts by optimizing on a granular box constraint loss. We employ a dynamic ranking loss mechanism to balance the scores from these scorers, allowing adaptive adjustments of insertion and attachment scores. Experiments on four real-world datasets show that TaxBox significantly outperforms previous methods, yielding substantial improvements over prior methods in real-world datasets, with average performance boosts of 6.7%, 34.9%, and 51.4% in MRR, Hit@1, and Prec@1, respectively.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-18
# Insert or Attach: Box Embeddingによる分類完了

Insert or Attach: Taxonomy Completion via Box Embedding ( http://arxiv.org/abs/2305.11004v4 )

ライセンス: Link先を確認
Wei Xue, Yongliang Shen, Wenqi Ren, Jietian Guo, Shiliang Pu, Weiming Lu, (参考訳) 新たな概念を親として挿入したり、子供としてアタッチメントすることで、既存の分類学を充実させた分類学の完成が大きな関心を集めている。 以前のアプローチでは、ユークリッド空間のベクトルとして概念を組み込んでおり、分類学における非対称関係をモデル化することは困難である。 さらに、疑似リーブを導入し、アタッチメントケースを挿入ケースに変換することで、多数の擬似リーブが支配するネットワーク学習における誤ったバイアスをもたらす。 これらの問題に対処するために、私たちのフレームワークであるTaxBoxは、ボックスの包み込みと中心のクローズネスを活用して、ボックス埋め込み空間内に2つの特別な幾何学的スコアラを設計する。 これらのスコアラは挿入操作やアタッチメント操作用に調整されており、粒状箱の制約損失を最適化することにより、概念間の本質的な関係を効果的に捉えることができる。 我々はこれらのスコアのバランスをとるために動的ランキング損失機構を使用し、挿入点とアタッチメント点の適応的な調整を可能にした。 実世界の4つのデータセットに対する実験によると、TaxBoxは従来の方法よりも大幅に向上し、実世界のデータセットでは6.7%、34.9%、MRRでは51.4%、Hit@1、Prec@1では51.4%となっている。

Taxonomy completion, enriching existing taxonomies by inserting new concepts as parents or attaching them as children, has gained significant interest. Previous approaches embed concepts as vectors in Euclidean space, which makes it difficult to model asymmetric relations in taxonomy. In addition, they introduce pseudo-leaves to convert attachment cases into insertion cases, leading to an incorrect bias in network learning dominated by numerous pseudo-leaves. Addressing these, our framework, TaxBox, leverages box containment and center closeness to design two specialized geometric scorers within the box embedding space. These scorers are tailored for insertion and attachment operations and can effectively capture intrinsic relationships between concepts by optimizing on a granular box constraint loss. We employ a dynamic ranking loss mechanism to balance the scores from these scorers, allowing adaptive adjustments of insertion and attachment scores. Experiments on four real-world datasets show that TaxBox significantly outperforms previous methods, yielding substantial improvements over prior methods in real-world datasets, with average performance boosts of 6.7%, 34.9%, and 51.4% in MRR, Hit@1, and Prec@1, respectively.
翻訳日:2024-06-19 13:10:19 公開日:2024-06-18
# StarCraft IIをプレイする大規模言語モデル - 要約アプローチのベンチマークとチェーン

Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach ( http://arxiv.org/abs/2312.11865v3 )

ライセンス: Link先を確認
Weiyu Ma, Qirui Mi, Yongcheng Zeng, Xue Yan, Yuqiao Wu, Runji Lin, Haifeng Zhang, Jun Wang, (参考訳) StarCraft IIは、正確なマイクロレベルの操作と戦略的マクロ認識の両方を必要とするため、AIエージェントにとって困難なベンチマークである。 しかし、AlphastarやSCCといった以前の研究は、StarCraft IIに対処する上で素晴らしい成果を上げているが、長期的な戦略計画と戦略解釈性には欠点がある。 VoyageやMetaGPTといった新たな大規模言語モデル(LLM)エージェントは、複雑なタスクを解決する大きな可能性を示している。 そこで我々は,高度に複雑なRTSゲームであるStarCraft IIにおけるLLMの能力を検証することを目指しており,LLMの推論能力を最大限活用するために,LLMエージェントと対話可能なテキストStratCraft II環境を開発する。 第2に,ゲーム情報の解析,コマンドレコメンデーションの提供,戦略的意思決定のための,生観測処理のための単一フレーム要約と多フレーム要約を含む要約手法を提案する。 実験は、まず、人間の専門家による評価と、ゲームにおけるLLMエージェントの熟達度の評価と、ゲーム内のLLMエージェントのパフォーマンス、そして、LLMエージェントのゲームパフォーマンスと、勝利率や要約の連鎖の影響といった側面を含む2つの部から成っている。 1. LLMは、スタークラフトIIのシナリオに対処するために必要な知識及び複雑な計画能力を有する。 2. 人間の専門家は、LLMエージェントの演奏は、スタークラフトIIを8年間プレイした平均的な選手の演奏に近いものとみなす。 3. LLMエージェントは、Harder(Lv5)の難易度で構築されたAIを倒すことができる。 コードをオープンソース化し、LLMエージェントがStarCraft IIをプレイするデモビデオを公開しました。

StarCraft II is a challenging benchmark for AI agents due to the necessity of both precise micro level operations and strategic macro awareness. Previous works, such as Alphastar and SCC, achieve impressive performance on tackling StarCraft II , however, still exhibit deficiencies in long term strategic planning and strategy interpretability. Emerging large language model (LLM) agents, such as Voyage and MetaGPT, presents the immense potential in solving intricate tasks. Motivated by this, we aim to validate the capabilities of LLMs on StarCraft II, a highly complex RTS game.To conveniently take full advantage of LLMs` reasoning abilities, we first develop textual StratCraft II environment, called TextStarCraft II, which LLM agent can interact. Secondly, we propose a Chain of Summarization method, including single frame summarization for processing raw observations and multi frame summarization for analyzing game information, providing command recommendations, and generating strategic decisions. Our experiment consists of two parts: first, an evaluation by human experts, which includes assessing the LLMs`s mastery of StarCraft II knowledge and the performance of LLM agents in the game; second, the in game performance of LLM agents, encompassing aspects like win rate and the impact of Chain of Summarization.Experiment results demonstrate that: 1. LLMs possess the relevant knowledge and complex planning abilities needed to address StarCraft II scenarios; 2. Human experts consider the performance of LLM agents to be close to that of an average player who has played StarCraft II for eight years; 3. LLM agents are capable of defeating the built in AI at the Harder(Lv5) difficulty level. We have open sourced the code and released demo videos of LLM agent playing StarCraft II.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# グラフニューラルネットワークの因果関係:機会、方法論、展望

When Graph Neural Network Meets Causality: Opportunities, Methodologies and An Outlook ( http://arxiv.org/abs/2312.12477v3 )

ライセンス: Link先を確認
Wenzhao Jiang, Hao Liu, Hui Xiong, (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ構造化データ内の複雑な依存関係をキャプチャする強力な表現学習ツールとして登場した。 幅広いグラフマイニングタスクの成功にもかかわらず、GNNは、分布シフトへの感受性、特定の人口への偏見、説明可能性の欠如など、彼らの信頼性に関する深刻な懸念を提起している。 近年、因果学習技術をGNNに組み込むことで、表面的相関ではなく基礎となるデータ因果関係を捉えることで、多くのGNNの信頼性の問題が軽減されるため、多くの基礎研究が引き起こされている。 本稿では,CIGNN(Causality-Inspired GNNs)に関する最近の研究成果を概観する。 具体的には、まず、既存のGNNの主要な信頼性リスクを分析するために因果的ツールを使用し、グラフデータ内の因果的メカニズムを理解するために、GNNが必要であることを示す。 さらに,CIGNNが備える因果的学習能力,すなわち因果的推論と因果的表現学習に基づいて,CIGNNの分類を導入する。 さらに,各カテゴリの典型的な手法を体系的に導入し,信頼性リスクを軽減する方法について論じる。 最後に、この新興分野における新たな研究の機会に光を当てて、有用なリソースを要約し、今後の方向性を議論する。 代表論文は、オープンソースデータとコードとともに、https://github.com/usail-hkust/Causality-Inspired-GNNsで公開されている。

Graph Neural Networks (GNNs) have emerged as powerful representation learning tools for capturing complex dependencies within diverse graph-structured data. Despite their success in a wide range of graph mining tasks, GNNs have raised serious concerns regarding their trustworthiness, including susceptibility to distribution shift, biases towards certain populations, and lack of explainability. Recently, integrating causal learning techniques into GNNs has sparked numerous ground-breaking studies since many GNN trustworthiness issues can be alleviated by capturing the underlying data causality rather than superficial correlations. In this survey, we comprehensively review recent research efforts on Causality-Inspired GNNs (CIGNNs). Specifically, we first employ causal tools to analyze the primary trustworthiness risks of existing GNNs, underscoring the necessity for GNNs to comprehend the causal mechanisms within graph data. Moreover, we introduce a taxonomy of CIGNNs based on the type of causal learning capability they are equipped with, i.e., causal reasoning and causal representation learning. Besides, we systematically introduce typical methods within each category and discuss how they mitigate trustworthiness risks. Finally, we summarize useful resources and discuss several future directions, hoping to shed light on new research opportunities in this emerging field. The representative papers, along with open-source data and codes, are available in https://github.com/usail-hkust/Causality-Inspired-GNNs.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# 位置エンコーディングは、ニューラルネットワークが大きな語彙を扱うのに役立つ

Positional Encoding Helps Recurrent Neural Networks Handle a Large Vocabulary ( http://arxiv.org/abs/2402.00236v3 )

ライセンス: Link先を確認
Takashi Morita, (参考訳) 本研究では、位置エンコーディングがリカレントニューラルネットワーク(RNN)の学習を促進するという直感的な発見を報告する。 位置符号化は入力データ上の時間指標の高次元表現である。 最も有名なのは、位置エンコーディングは、データ順序を表現する固有のメカニズムが欠如しているトランスフォーマーニューラルネットワークの能力を補完するものである。 対照的に、RNNはデータポイントの時間情報を自身でエンコードすることができ、位置エンコーディングの使用は冗長/不要のように見える。 それにもかかわらず、合成ベンチマークによる調査は、特に低周波トークンを生成する大きな語彙を扱うために、位置符号化とRNNの結合の利点を明らかにしている。 さらなる精査により、これらの低周波トークンがバニラRNNの勾配を不安定にし、位置エンコーディングがこの不安定を解消することが明らかになった。 これらの結果は、トランスフォーマーのタイムキーパーとしての役割を超えて、位置エンコーディングの実用性に新たな光を当てた。

This study reports an unintuitive finding that positional encoding enhances learning of recurrent neural networks (RNNs). Positional encoding is a high-dimensional representation of time indices on input data. Most famously, positional encoding complements the capabilities of Transformer neural networks, which lack an inherent mechanism for representing the data order. By contrast, RNNs can encode the temporal information of data points on their own, rendering their use of positional encoding seemingly redundant/unnecessary. Nonetheless, investigations through synthetic benchmarks reveal an advantage of coupling positional encoding and RNNs, especially for handling a large vocabulary that yields low-frequency tokens. Further scrutinization unveils that these low-frequency tokens destabilizes the gradients of vanilla RNNs, and the positional encoding resolves this instability. These results shed a new light on the utility of positional encoding beyond its canonical role as a timekeeper for Transformers.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# 凸凹損失による会員推測におけるプライバシーリスクの軽減

Mitigating Privacy Risk in Membership Inference by Convex-Concave Loss ( http://arxiv.org/abs/2402.05453v3 )

ライセンス: Link先を確認
Zhenlong Liu, Lei Feng, Huiping Zhuang, Xiaofeng Cao, Hongxin Wei, (参考訳) 機械学習モデルは、トレーニングセットにサンプルがあるかどうかを推測することを目的とした、メンバシップ推論攻撃(MIA)の影響を受けやすい。 既存の作業では、勾配上昇を利用してトレーニングデータの損失分散を拡大し、プライバシリスクを軽減する。 しかし、逆方向に向かって最適化すると、モデルパラメータが局所的なミニマ付近で振動し、不安定性と準最適性能をもたらす可能性がある。 本研究では,勾配降下によるトレーニング損失分布の分散化を可能にする新しい手法であるConvex-Concave Lossを提案する。 本手法は, 凸損失がトレーニング中の損失分散を減少させる傾向があるという理論解析によって動機づけられた。 したがって、CCLの背後にある重要な考え方は、凹凸項による損失関数の凸度を低減することである。 CCLでトレーニングされたニューラルネットワークは、トレーニングデータのばらつきの高い損失を生成し、MIAに対する防御を強化する。 大規模な実験は、プライバシーとユーティリティのトレードオフにおける最先端のバランスを達成するために、CCLの優位性を実証している。

Machine learning models are susceptible to membership inference attacks (MIAs), which aim to infer whether a sample is in the training set. Existing work utilizes gradient ascent to enlarge the loss variance of training data, alleviating the privacy risk. However, optimizing toward a reverse direction may cause the model parameters to oscillate near local minima, leading to instability and suboptimal performance. In this work, we propose a novel method -- Convex-Concave Loss, which enables a high variance of training loss distribution by gradient descent. Our method is motivated by the theoretical analysis that convex losses tend to decrease the loss variance during training. Thus, our key idea behind CCL is to reduce the convexity of loss functions with a concave term. Trained with CCL, neural networks produce losses with high variance for training data, reinforcing the defense against MIAs. Extensive experiments demonstrate the superiority of CCL, achieving state-of-the-art balance in the privacy-utility trade-off.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# SciAssess:科学文献分析におけるLCM能力のベンチマーク

SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis ( http://arxiv.org/abs/2403.01976v4 )

ライセンス: Link先を確認
Hengxing Cai, Xiaochen Cai, Junhan Chang, Sihang Li, Lin Yao, Changxin Wang, Zhifeng Gao, Hongshuai Wang, Yongge Li, Mujie Lin, Shuwen Yang, Jiankun Wang, Mingjun Xu, Jin Huang, Fang Xi, Jiaxi Zhuang, Yuqi Yin, Yaqi Li, Changhong Chen, Zheng Cheng, Zifeng Zhao, Linfeng Zhang, Guolin Ke, (参考訳) 近年のLarge Language Models(LLM)のブレークスルーは、自然言語の理解と生成に革命をもたらした。 しかし、既存のベンチマークでは、特に単なる記憶以上の高度な能力とマルチモーダルデータの処理を必要とするシナリオにおいて、この領域におけるLCMの熟練度を適切に評価することができない。 このギャップに対応するために、科学文献分析におけるLLMの総合評価のためのベンチマークであるSciAssessを紹介した。 SciAssessは, 記憶機能(L1), 理解機能(L2), 分析機能(L3)に着目し, LLMの有効性を徹底的に評価することを目的としている。 基礎科学、合金材料、生物医学、薬物発見、有機材料など、様々な科学分野から引き出された様々なタスクを包含している。 SciAssessの信頼性を確保するため、厳格な品質管理対策が実施され、正確性、匿名化、著作権基準の遵守が保証された。 SciAssessは、GPT、Claude、Geminiを含む11のLCMを評価し、改善の強さと領域を強調している。 この評価は、科学文献の分析におけるLLM応用の継続的な発展を支えている。 SciAssessとそのリソースは \url{https://sci-asses.github.io/} で入手できる。

Recent breakthroughs in Large Language Models (LLMs) have revolutionized natural language understanding and generation, sparking significant interest in applying them to scientific literature analysis. However, existing benchmarks fail to adequately evaluate the proficiency of LLMs in this domain, particularly in scenarios requiring higher-level abilities beyond mere memorization and the handling of multimodal data. In response to this gap, we introduce SciAssess, a benchmark specifically designed for the comprehensive evaluation of LLMs in scientific literature analysis. SciAssess aims to thoroughly assess the efficacy of LLMs by focusing on their capabilities in Memorization (L1), Comprehension (L2), and Analysis \& Reasoning (L3). It encompasses a variety of tasks drawn from diverse scientific fields, including fundamental science, alloy materials, biomedicine, drug discovery, and organic materials. To ensure the reliability of SciAssess, rigorous quality control measures have been implemented, ensuring accuracy, anonymization, and compliance with copyright standards. SciAssess evaluates 11 LLMs, including GPT, Claude, and Gemini, highlighting their strengths and areas for improvement. This evaluation supports the ongoing development of LLM applications in the analysis of scientific literature. SciAssess and its resources are available at \url{https://sci-assess.github.io/}.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# LLMにおけるバイアス軽減のフィードバックとしての多変数議論からの強化学習

Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs ( http://arxiv.org/abs/2404.10160v5 )

ライセンス: Link先を確認
Ruoxi Cheng, Haoxuan Ma, Shuirong Cao, Jiaqi Li, Aihua Pei, Zhiqiang Wang, Pengliang Ji, Haoyu Wang, Jiaqi Huo, (参考訳) LLMのバイアスは、ユーザエクスペリエンスや社会的成果を損なう可能性がある。 しかし、現在のバイアス緩和法は、しばしば人間の強いフィードバック、他のトピックへの伝達可能性の欠如、過信とランダムなアウトプットを必要とする。 LLMをロールプレイングシナリオに組み込むことで、バイアスを認識し緩和する能力が向上することがわかった。 そこで本研究では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。 強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。 提案手法は,(1) 自己回帰,(2) 教師学生,(2) GPT-3.5-turbo のような先進的な LLM が LLM を指導し,この課題を遂行する。 異なるLLMに対する実験結果から, バイアス緩和におけるアプローチの有効性が示された。

Bias in LLMs can harm user experience and societal outcomes. However, current bias mitigation methods often require intensive human feedback, lack transferability to other topics or yield overconfident and random outputs. We find that involving LLMs in role-playing scenario boosts their ability to recognize and mitigate biases. Based on this, we propose Reinforcement Learning from Multi-role Debates as Feedback (RLDF), a novel approach for bias mitigation replacing human feedback in traditional RLHF. We utilize LLMs in multi-role debates to create a dataset that includes both high-bias and low-bias instances for training the reward model in reinforcement learning. Our approach comprises two modes: (1) self-reflection, where the same LLM participates in multi-role debates, and (2) teacher-student, where a more advanced LLM like GPT-3.5-turbo guides the LLM to perform this task. Experimental results across different LLMs demonstrate the effectiveness of our approach in bias mitigation.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# スケーラブルなmatMulフリー言語モデリング

Scalable MatMul-free Language Modeling ( http://arxiv.org/abs/2406.02528v5 )

ライセンス: Link先を確認
Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou, Jason K. Eshraghian, (参考訳) 行列乗法 (MatMul) は一般に大規模言語モデル (LLM) の計算コストを支配している。 このコストは、LLMがより大きな埋め込み次元とコンテキスト長にスケールするにつれて増大する。 本研究では,10億パラメータスケールで高い性能を維持しながら,MateMul 演算を LLM から完全に除去できることを示す。 実験の結果,提案したMatMulフリーモデルは,少なくとも2.7Bパラメータのスケールでの推論において,はるかに多くのメモリを必要とする最先端のトランスフォーマーと同等の性能が得られることがわかった。 スケーリング法則を調査し,モデルサイズが大きくなるにつれて,我々のMatMulフリーモデルと完全精度トランスフォーマーのパフォーマンスギャップが狭まることを確かめる。 また、トレーニング中に最適化されていないベースラインに対して最大61%のメモリ使用量を削減できるGPU効率のよい実装も提供します。 推論中に最適化されたカーネルを利用することで、最適化されていないモデルと比較してメモリ消費を10倍以上削減することができる。 アーキテクチャの効率を適切に定量化するために、FPGA上にカスタムハードウェアソリューションを構築します。 13Wで10億パラメータのスケールモデルを人間の可読スループットを超えて処理し、LLMを脳に似た効率に近づけました。 この研究は、LLMがいつまで有効に機能するかを示すだけでなく、次世代軽量LLMの処理に最適化されるべき操作のタイプについても指摘する。 私たちのコード実装はhttps://github.com/ridgerchu/matmulfreellm.comで利用可能です。

Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at https://github.com/ridgerchu/matmulfreellm.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# 語彙データ分類のためのファジィ畳み込みニューラルネットワーク

Fuzzy Convolution Neural Networks for Tabular Data Classification ( http://arxiv.org/abs/2406.03506v3 )

ライセンス: Link先を確認
Arun D. Kulkarni, (参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、特に画像やテキストの分類タスクにおいて、様々な領域における顕著な性能のために、多くの注目を集めている。 しかし、表形式のデータ分類への応用はいまだ未定である。 バイオインフォマティクス、ファイナンス、非画像データが一般的である医療など、多くの分野がある。 非画像データの分類にCNNを適用することは、依然として非常に困難である。 本稿では,従来の機械学習手法と深層学習手法のギャップを埋めることを目的として,表層データ分類におけるCNNの有効性について検討する。 本稿では,特徴ベクトル内の局所パターンを捉えるための表データに適した,ファジィ畳み込みニューラルネットワーク(FCNN)を提案する。 提案手法では,特徴値をファジィメンバシップにマップする。 ファジィメンバシップベクトルは、CNNモデルのトレーニングに使用される画像に変換される。 訓練されたCNNモデルは未知の機能ベクトルを分類するために使用される。 提案手法を検証するために,6つの複雑なノイズデータセットを生成した。 各データセットからランダムに70パーセントのサンプルをトレーニングに使用し、30%をテストに使用しました。 データセットはまた、決定木(DT)、サポートベクターマシン(SVM)、ファジィニューラルネットワーク(FNN)、ベイズ分類器、ランダムフォレスト(RF)といった最先端の機械学習アルゴリズムを使用して分類された。 実験結果から,提案手法は従来の手法と比較して,有意な表現を表象データから効果的に学習し,競争力や優れた性能を達成できることが示唆された。 全体として、提案したFCNNモデルは、表型データ分類タスクの代替として有望であり、構造化データ分析におけるディープラーニングを活用する新たな機会を、新たな期待と潜在的に解放する可能性を示唆している。

Recently, convolution neural networks (CNNs) have attracted a great deal of attention due to their remarkable performance in various domains, particularly in image and text classification tasks. However, their application to tabular data classification remains underexplored. There are many fields such as bioinformatics, finance, medicine where nonimage data are prevalent. Adaption of CNNs to classify nonimage data remains highly challenging. This paper investigates the efficacy of CNNs for tabular data classification, aiming to bridge the gap between traditional machine learning approaches and deep learning techniques. We propose a novel framework fuzzy convolution neural network (FCNN) tailored specifically for tabular data to capture local patterns within feature vectors. In our approach, we map feature values to fuzzy memberships. The fuzzy membership vectors are converted into images that are used to train the CNN model. The trained CNN model is used to classify unknown feature vectors. To validate our approach, we generated six complex noisy data sets. We used randomly selected seventy percent samples from each data set for training and thirty percent for testing. The data sets were also classified using the state-of-the-art machine learning algorithms such as the decision tree (DT), support vector machine (SVM), fuzzy neural network (FNN), Bayes classifier, and Random Forest (RF). Experimental results demonstrate that our proposed model can effectively learn meaningful representations from tabular data, achieving competitive or superior performance compared to existing methods. Overall, our finding suggests that the proposed FCNN model holds promise as a viable alternative for tabular data classification tasks, offering a fresh prospective and potentially unlocking new opportunities for leveraging deep learning in structured data analysis.
翻訳日:2024-06-19 12:11:08 公開日:2024-06-18
# Ents: コミュニケーション最適化による決定木のための効率的な3要素学習フレームワーク

Ents: An Efficient Three-party Training Framework for Decision Trees by Communication Optimization ( http://arxiv.org/abs/2406.07948v2 )

ライセンス: Link先を確認
Guopeng Lin, Weili Han, Wenqiang Ruan, Ruisheng Zhou, Lushan Song, Bingshuai Li, Yunfeng Shao, (参考訳) セキュアなマルチパーティ計算に基づく意思決定ツリーのためのマルチパーティトレーニングフレームワークにより、複数のパーティが、プライバシ保護を備えた分散プライベートデータ上で、高性能モデルをトレーニングすることができる。 トレーニングプロセスは基本的に、分割基準に従って頻繁にデータセット分割を行う(e g Gini impurity)。 しかし,決定木に対する既存のマルチパーティトレーニングフレームワークは,(1)連続的な属性を持つデータセットを安全に分割する際の通信オーバーヘッドの増大に悩まされている。 2) 分割基準に対するセキュアな計算に適合するため, 大規模リング上でほぼ全ての計算を行うため, 通信オーバーヘッドの増大に悩まされる。 本稿では,コミュニケーション最適化による意思決定木のための効率的な3要素学習フレームワークであるEntsを提案する。 最初の問題として、セキュアなradixソートプロトコルに基づく一連のトレーニングプロトコルを提示し、データセットを連続的な属性で効率的に安全に分割する。 2つ目の問題として,大規模リング上でほぼ全ての計算を行うことで発生する通信オーバーヘッドを低減するために,小リングと大リング間で共有を変換する効率的な共有変換プロトコルを提案する。 8つの広く使われているデータセットによる実験結果によると、Entsは最先端のフレームワークを5.5\times \sim 9.3\times$と3.9\times \sim 5.3\times$で上回っている。 トレーニング時間の面では、Ents は $3.5\times \sim 6.7\times$ である。 その実用性を示すために、Entsは、WAN設定で245,000以上のサンプルを使用して、広く使用されている実世界のデータセット(Skin Segmentation)上で、決定ツリーをセキュアにトレーニングするのに3時間もかからない。

Multi-party training frameworks for decision trees based on secure multi-party computation enable multiple parties to train high-performance models on distributed private data with privacy preservation. The training process essentially involves frequent dataset splitting according to the splitting criterion (e.g. Gini impurity). However, existing multi-party training frameworks for decision trees demonstrate communication inefficiency due to the following issues: (1) They suffer from huge communication overhead in securely splitting a dataset with continuous attributes. (2) They suffer from huge communication overhead due to performing almost all the computations on a large ring to accommodate the secure computations for the splitting criterion. In this paper, we are motivated to present an efficient three-party training framework, namely Ents, for decision trees by communication optimization. For the first issue, we present a series of training protocols based on the secure radix sort protocols to efficiently and securely split a dataset with continuous attributes. For the second issue, we propose an efficient share conversion protocol to convert shares between a small ring and a large ring to reduce the communication overhead incurred by performing almost all the computations on a large ring. Experimental results from eight widely used datasets show that Ents outperforms state-of-the-art frameworks by $5.5\times \sim 9.3\times$ in communication sizes and $3.9\times \sim 5.3\times$ in communication rounds. In terms of training time, Ents yields an improvement of $3.5\times \sim 6.7\times$. To demonstrate its practicality, Ents requires less than three hours to securely train a decision tree on a widely used real-world dataset (Skin Segmentation) with more than 245,000 samples in the WAN setting.
翻訳日:2024-06-19 12:11:07 公開日:2024-06-18
# 大規模言語モデルのユニークなセキュリティとプライバシの脅威: 総合的な調査

Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey ( http://arxiv.org/abs/2406.07973v2 )

ライセンス: Link先を確認
Shang Wang, Tianqing Zhu, Bo Liu, Ming Ding, Xu Guo, Dayong Ye, Wanlei Zhou, Philip S. Yu, (参考訳) 人工知能の急速な発展に伴い、大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。 これらのモデルは膨大なデータセットに基づいてトレーニングされ、機械翻訳、チャットボット、エージェントなど、さまざまなアプリケーションにまたがる強力な言語理解と生成能力を示す。 しかし、LCMはライフサイクルを通して様々なプライバシーとセキュリティの問題を明らかにしており、学術的、産業的な注目を集めている。 さらに,LLMが直面するリスクは,従来の言語モデルとは大きく異なる。 現在の調査では、さまざまなシナリオにまたがるユニークな脅威モデルの明確な分類が欠如していることを踏まえ、私たちは、事前トレーニング、微調整、検索強化された生成システム、デプロイメント、LLMベースのエージェントという5つの特定のシナリオに関連する、ユニークなプライバシとセキュリティの脅威を強調しています。 それぞれのリスクの特徴に対処し、潜在的な脅威と対策の概要を概説する。 攻撃と防衛の状況に関する研究は、可能な研究の方向性を提供し、より多くの地域がLSMの恩恵を受けることができる。

With the rapid development of artificial intelligence, large language models (LLMs) have made remarkable advancements in natural language processing. These models are trained on vast datasets to exhibit powerful language understanding and generation capabilities across various applications, including machine translation, chatbots, and agents. However, LLMs have revealed a variety of privacy and security issues throughout their life cycle, drawing significant academic and industrial attention. Moreover, the risks faced by LLMs differ significantly from those encountered by traditional language models. Given that current surveys lack a clear taxonomy of unique threat models across diverse scenarios, we emphasize the unique privacy and security threats associated with five specific scenarios: pre-training, fine-tuning, retrieval-augmented generation systems, deployment, and LLM-based agents. Addressing the characteristics of each risk, this survey outlines potential threats and countermeasures. Research on attack and defense situations can offer feasible research directions, enabling more areas to benefit from LLMs.
翻訳日:2024-06-19 12:11:07 公開日:2024-06-18
# 脳波による情報ニーズの実現予測

Prediction of the Realisation of an Information Need: An EEG Study ( http://arxiv.org/abs/2406.08105v3 )

ライセンス: Link先を確認
Niall McGuire, Dr Yashar Moshfeghi, (参考訳) 情報検索 (IR) の基本的な目的の1つは、探索者の情報要求 (IN) を満たすことである。 INが物理的にどのように現れるかを理解することは、長い間複雑で解明されたプロセスであった。 しかし、脳波(EEG)データを利用した最近の研究は、INに関連する神経過程についてリアルタイムに洞察を与えている。 残念ながら、この洞察が検索体験にどう役立つかはまだ実証されていない。 そこで本研究では,質問応答(Q/A)タスクを受講しながら,脳波データ内でのINの実現を予測する能力について検討した。 さらに、最適な予測性能をもたらす脳波特徴の組み合わせについて検討し、また、被験者のINの実現がより顕著なQ/Aクエリ内の領域を特定する。 この結果から、脳波データは、73.5%(SD 2.6%)、90.1%(SD 22.1%)の精度で、すべての被験者のINの実現をリアルタイムに予測するのに十分であることが示された。 この研究は、情報検索の実践において明確な改善を施した理論的神経科学の進歩をブリッジすることでギャップを埋め、INの実現をリアルタイムで予測する道を開くことで、ギャップを埋めるのに役立つ。

One of the foundational goals of Information Retrieval (IR) is to satisfy searchers' Information Needs (IN). Understanding how INs physically manifest has long been a complex and elusive process. However, recent studies utilising Electroencephalography (EEG) data have provided real-time insights into the neural processes associated with INs. Unfortunately, they have yet to demonstrate how this insight can practically benefit the search experience. As such, within this study, we explore the ability to predict the realisation of IN within EEG data across 14 subjects whilst partaking in a Question-Answering (Q/A) task. Furthermore, we investigate the combinations of EEG features that yield optimal predictive performance, as well as identify regions within the Q/A queries where a subject's realisation of IN is more pronounced. The findings from this work demonstrate that EEG data is sufficient for the real-time prediction of the realisation of an IN across all subjects with an accuracy of 73.5% (SD 2.6%) and on a per-subject basis with an accuracy of 90.1% (SD 22.1%). This work helps to close the gap by bridging theoretical neuroscientific advancements with tangible improvements in information retrieval practices, paving the way for real-time prediction of the realisation of IN.
翻訳日:2024-06-19 12:11:07 公開日:2024-06-18
# LLaMA-3で何十億ものウェブ画像を取り返したら?

What If We Recaption Billions of Web Images with LLaMA-3? ( http://arxiv.org/abs/2406.08478v2 )

ライセンス: Link先を確認
Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie, (参考訳) Webcrawledイメージテキストペアは本質的にノイズの多いものです。 先行研究は、これらのペアのテキスト記述のセマンティックな整合と強化により、様々な視覚言語タスク、特にテキスト・ツー・イメージ生成におけるモデルトレーニングが大幅に向上することを示した。 しかし、この地域の大規模な調査は、主にクローズドソースのままである。 本稿では,GPT-4 レベル LLM である LLaMA-3 を利用して,このコミュニティの取り組みを橋渡しすることを目的としている。 まず、LLaMA-3-8B搭載のLLaVA-1.5を微調整し、DataComp-1Bデータセットから13億枚の画像を再キャプチャするために使用します。 この拡張データセットであるRecap-DataComp-1Bは、先進的な視覚言語モデルのトレーニングにおいて大きなメリットがあることを確認した。 CLIPのような識別モデルでは、クロスモーダル検索タスクにおけるゼロショット性能の強化が観察される。 テキスト・ツー・イメージ・ディフュージョン・トランスフォーマーのような生成モデルでは、生成した画像はユーザのテキスト命令、特に複雑なクエリに従う際に、大幅に改善されている。 私たちのプロジェクトページはhttps://www.haqtu.me/Recap-Datacomp-1B/です。

Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate that semantically aligning and enriching textual descriptions of these pairs can significantly enhance model training across various vision-language tasks, particularly text-to-image generation. However, large-scale investigations in this area remain predominantly closed-source. Our paper aims to bridge this community effort, leveraging the powerful and \textit{open-sourced} LLaMA-3, a GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images from the DataComp-1B dataset. Our empirical results confirm that this enhanced dataset, Recap-DataComp-1B, offers substantial benefits in training advanced vision-language models. For discriminative models like CLIP, we observe enhanced zero-shot performance in cross-modal retrieval tasks. For generative models like text-to-image Diffusion Transformers, the generated images exhibit a significant improvement in alignment with users' text instructions, especially in following complex queries. Our project page is https://www.haqtu.me/Recap-Datacomp-1B/
翻訳日:2024-06-19 12:11:07 公開日:2024-06-18
# AIM:データ不正の帰属、解釈、緩和

AIM: Attributing, Interpreting, Mitigating Data Unfairness ( http://arxiv.org/abs/2406.08819v2 )

ライセンス: Link先を確認
Zhining Liu, Ruizhong Qiu, Zhichen Zeng, Yada Zhu, Hendrik Hamann, Hanghang Tong, (参考訳) 現実世界で収集されたデータは、しばしば不利なグループや個人に対する歴史的な差別をカプセル化する。 既存の公正機械学習(FairML)の研究は、FairMLの透明性と解釈可能性に重点を置いているにも関わらず、モデル予測における差別的バイアスの軽減に重点を置いている。 このギャップを埋めるために、トレーニングデータからバイアスや偏見を反映するサンプルを発見するという、新しい研究課題を調査する。 既存の公平性の概念に基づいて,サンプルバイアス基準を定式化し,サンプルバイアスの測定と対策のための実用的なアルゴリズムを提案する。 導出バイアススコアは、データの直感的なサンプルレベルの属性と過去のバイアスの説明を提供する。 そこで本研究では,サンプルバイアスをインフォームドした最小データ編集による2つのFairML戦略をさらに設計する。 彼らは、最小またはゼロの予測ユーティリティ損失を犠牲にして、グループと個人の不公平さを緩和することができる。 複数の実世界のデータセットに関する大規模な実験と分析は、不公平を説明・緩和する手法の有効性を実証している。 コードはhttps://github.com/ZhiningLiu1998/AIMで入手できる。

Data collected in the real world often encapsulates historical discrimination against disadvantaged groups and individuals. Existing fair machine learning (FairML) research has predominantly focused on mitigating discriminative bias in the model prediction, with far less effort dedicated towards exploring how to trace biases present in the data, despite its importance for the transparency and interpretability of FairML. To fill this gap, we investigate a novel research problem: discovering samples that reflect biases/prejudices from the training data. Grounding on the existing fairness notions, we lay out a sample bias criterion and propose practical algorithms for measuring and countering sample bias. The derived bias score provides intuitive sample-level attribution and explanation of historical bias in data. On this basis, we further design two FairML strategies via sample-bias-informed minimal data editing. They can mitigate both group and individual unfairness at the cost of minimal or zero predictive utility loss. Extensive experiments and analyses on multiple real-world datasets demonstrate the effectiveness of our methods in explaining and mitigating unfairness. Code is available at https://github.com/ZhiningLiu1998/AIM.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# メカニカルCAD検索のための自己教師付きグラフニューラルネットワーク

Self-supervised Graph Neural Network for Mechanical CAD Retrieval ( http://arxiv.org/abs/2406.08863v2 )

ライセンス: Link先を確認
Yuhan Quan, Huan Zhao, Jinfeng Yi, Yuqiang Chen, (参考訳) CAD (Computer-Aided Design) は機械産業において重要な役割を担っている。 これらの部品を効果的に再利用することは、企業の設計と生産コストを減らすための鍵となる。 検索システムはCADの再利用に欠かせないが、CADモデルの複雑な形状はテキストやキーワードを正確に記述することは困難であり、従来の検索手法では有効ではない。 CADには既存の表現学習手法が開発されているが,これらの手法に類似したサンプルを手作業でラベル付けすることは高価である。 さらに,CADモデルのユニークなパラメータ化データ構造は,既存の3次元形状表現学習技術を直接適用する上での課題である。 本稿では,パラメータ化されたCAD原ファイルを直接モデル化する機械的CAD検索のための,自己教師付きコントラストグラフニューラルネットワークを用いたGC-CADを提案する。 GC-CADは、構造認識表現学習とコントラストグラフ学習フレームワークの2つの主要なモジュールから構成される。 この手法はグラフニューラルネットワークを利用してCADモデルから幾何学的および位相的情報を抽出し、特徴表現を生成する。 そこで我々は,手動ラベルを使わずにモデルをトレーニングし,検索可能な表現を生成する,シンプルで効果的なグラフ学習フレームワークを提案する。 人体評価を含む4つのデータセットの実験結果から,提案手法の精度は向上し,ベースライン法よりも最大100倍の効率向上が得られた。

CAD (Computer-Aided Design) plays a crucial role in mechanical industry, where large numbers of similar-shaped CAD parts are often created. Efficiently reusing these parts is key to reducing design and production costs for enterprises. Retrieval systems are vital for achieving CAD reuse, but the complex shapes of CAD models are difficult to accurately describe using text or keywords, making traditional retrieval methods ineffective. While existing representation learning approaches have been developed for CAD, manually labeling similar samples in these methods is expensive. Additionally, CAD models' unique parameterized data structure presents challenges for applying existing 3D shape representation learning techniques directly. In this work, we propose GC-CAD, a self-supervised contrastive graph neural network-based method for mechanical CAD retrieval that directly models parameterized CAD raw files. GC-CAD consists of two key modules: structure-aware representation learning and contrastive graph learning framework. The method leverages graph neural networks to extract both geometric and topological information from CAD models, generating feature representations. We then introduce a simple yet effective contrastive graph learning framework approach, enabling the model to train without manual labels and generate retrieval-ready representations. Experimental results on four datasets including human evaluation demonstrate that the proposed method achieves significant accuracy improvements and up to 100 times efficiency improvement over the baseline methods.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# BTS: 時系列データセットの構築 - 大規模構築分析の強化

BTS: Building Timeseries Dataset: Empowering Large-Scale Building Analytics ( http://arxiv.org/abs/2406.08990v2 )

ライセンス: Link先を確認
Arian Prabowo, Xiachong Lin, Imran Razzak, Hao Xue, Emily W. Yap, Matthew Amos, Flora D. Salim, (参考訳) 建物は人間の健康に重要な役割を担い、住民の快適さ、健康、安全に影響を及ぼす。 さらに、世界のエネルギー消費に大きく貢献し、総エネルギー使用量の3分の1を占める。 建築性能の最適化は、気候変動と闘い、人間の繁栄を促進する重要な機会である。 しかし、分析構築の研究は、複数のビルディング操作におけるアクセス可能で、利用可能な、そして包括的な現実世界のデータセットの欠如によって妨げられている。 本稿では,BTS(Building TimeSeries)データセットを紹介する。 私たちのデータセットは3年間にわたって3つの建物をカバーしており、数百のユニークなオントロジーを持つ1万以上の時系列データポイントで構成されています。 さらにメタデータはBrickスキーマを使って標準化されている。 このデータセットの有用性を実証するために、時系列オントロジー分類とゼロショット予測という2つのタスクのベンチマークを行った。 これらのタスクは、分析を構築する際の相互運用性に関連する課題に対処する上で、不可欠な最初のステップである。 データセットとベンチマークに使用されるコードへのアクセスは以下の通りである。

Buildings play a crucial role in human well-being, influencing occupant comfort, health, and safety. Additionally, they contribute significantly to global energy consumption, accounting for one-third of total energy usage, and carbon emissions. Optimizing building performance presents a vital opportunity to combat climate change and promote human flourishing. However, research in building analytics has been hampered by the lack of accessible, available, and comprehensive real-world datasets on multiple building operations. In this paper, we introduce the Building TimeSeries (BTS) dataset. Our dataset covers three buildings over a three-year period, comprising more than ten thousand timeseries data points with hundreds of unique ontologies. Moreover, the metadata is standardized using the Brick schema. To demonstrate the utility of this dataset, we performed benchmarks on two tasks: timeseries ontology classification and zero-shot forecasting. These tasks represent an essential initial step in addressing challenges related to interoperability in building analytics. Access to the dataset and the code used for benchmarking are available here: https://github.com/cruiseresearchgroup/DIEF_BTS .
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# ヤコビアン強化ニューラルネットワーク

Jacobian-Enhanced Neural Networks ( http://arxiv.org/abs/2406.09132v2 )

ライセンス: Link先を確認
Steven H. Berguin, (参考訳) ヤコビアン強化ニューラルネットワーク(JENN)は密結合された多層パーセプトロンであり、そのトレーニングプロセスは偏微分を正確に予測するために修正される。 その主な利点は、標準のニューラルネットワークに比べてトレーニングポイントが少なくて精度が良いことだ。 これらの特性はコンピュータ支援設計の分野において特に望ましいものであり、計算コストのかかる物理モデルにサロゲートモデルやメタモデルとして知られる高速な近似を置き換える必要性がしばしばある。 シュロゲートは元のモデルをほぼリアルタイムで正確にエミュレートするため、より高速な関数呼び出しの順序付けに使用できる速度の利点が得られる。 しかし、勾配拡大法の特殊な場合、部分微分が正確であるという付加価値命題があり、これは1つの重要なユースケースにとって重要な性質である。 この研究は完全理論を導出し、サロゲートに基づく最適化のための標準ニューラルネットよりも優位性を実証する。

Jacobian-Enhanced Neural Networks (JENN) are densely connected multi-layer perceptrons, whose training process is modified to predict partial derivatives accurately. Their main benefit is better accuracy with fewer training points compared to standard neural networks. These attributes are particularly desirable in the field of computer-aided design, where there is often the need to replace computationally expensive, physics-based models with fast running approximations, known as surrogate models or meta-models. Since a surrogate emulates the original model accurately in near-real time, it yields a speed benefit that can be used to carry out orders of magnitude more function calls quickly. However, in the special case of gradient-enhanced methods, there is the additional value proposition that partial derivatives are accurate, which is a critical property for one important use-case: surrogate-based optimization. This work derives the complete theory and exemplifies its superiority over standard neural nets for surrogate-based optimization.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# 適応性の効率的なテストによるスケーラブルでフレキシブルな因果発見

Scalable and Flexible Causal Discovery with an Efficient Test for Adjacency ( http://arxiv.org/abs/2406.09177v2 )

ライセンス: Link先を確認
Alan Nawzad Amin, Andrew Gordon Wilson, (参考訳) 多くの変数の系における正確な予測、メカニズム理解、設計介入を行うため、大規模データから因果グラフを学習したい。 残念なことに、すべての因果グラフの空間は、非常に辛抱強く、正確にデータに最適なものを探すことは難しい。 原則として、変数の条件付き独立性をテストすることによって、探索空間を大幅に減らしたり、グラフを完全に学習したりすることができる。 しかし、因果グラフに2つの変数が隣接しているかどうかを決定するには指数関数的な数のテストが必要になる。 ここでは、2つの変数が因果グラフ(DAT)に隣接しているかどうかを評価するためのスケーラブルで柔軟な方法を構築している。 DATは指数関数的な数のテストを、証明可能な等価な緩和問題に置き換える。 次に、2つのニューラルネットワークをトレーニングすることで、この問題を解決する。 DAT, DAT-Graphに基づくグラフ学習手法を構築し, 介入したデータからも学習できる。 DAT-Graphは1000変数のグラフを最先端の精度で学習することができる。 DAT-Graphが学習したグラフを用いて、大規模なRNAシークエンシングデータに対する介入の効果をより正確に予測するモデルを構築する。

To make accurate predictions, understand mechanisms, and design interventions in systems of many variables, we wish to learn causal graphs from large scale data. Unfortunately the space of all possible causal graphs is enormous so scalably and accurately searching for the best fit to the data is a challenge. In principle we could substantially decrease the search space, or learn the graph entirely, by testing the conditional independence of variables. However, deciding if two variables are adjacent in a causal graph may require an exponential number of tests. Here we build a scalable and flexible method to evaluate if two variables are adjacent in a causal graph, the Differentiable Adjacency Test (DAT). DAT replaces an exponential number of tests with a provably equivalent relaxed problem. It then solves this problem by training two neural networks. We build a graph learning method based on DAT, DAT-Graph, that can also learn from data with interventions. DAT-Graph can learn graphs of 1000 variables with state of the art accuracy. Using the graph learned by DAT-Graph, we also build models that make much more accurate predictions of the effects of interventions on large scale RNA sequencing data.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# $S^3$ -- 意味的信号分離

$S^3$ -- Semantic Signal Separation ( http://arxiv.org/abs/2406.09556v2 )

ライセンス: Link先を確認
Márton Kardos, Jan Kostkan, Arnault-Quentin Vermillet, Kristoffer Nielbo, Kenneth Enevoldsen, Roberta Rocca, (参考訳) トピックモデルは、大きなテキストコーパスの潜在意味構造を発見するのに有用なツールである。 歴史的には、トピックモデリングは言葉のバッグ・オブ・ワードの表現に依存していた。 このアプローチにより、モデルが停止語や雑音の存在に敏感になり、潜在的に有用な文脈情報を利用できない。 最近の研究は、トピックモデリングに文脈神経表現を取り入れることを目的としており、古典的なトピックモデルよりも優れていることが示されている。 しかしながら、これらのアプローチは一般的には遅く、揮発性であり、最適な結果を得るためには前処理が必要である。 本稿では,セマンティック信号分離法(S^3$)を提案する。 S^3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。 我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。 私たちはTurftopic Pythonパッケージに$S^3$の実装を提供しています。

Topic models are useful tools for discovering latent semantic structures in large textual corpora. Topic modeling historically relied on bag-of-words representations of language. This approach makes models sensitive to the presence of stop words and noise, and does not utilize potentially useful contextual information. Recent efforts have been oriented at incorporating contextual neural representations in topic modeling and have been shown to outperform classical topic models. These approaches are, however, typically slow, volatile and still require preprocessing for optimal results. We present Semantic Signal Separation ($S^3$), a theory-driven topic modeling approach in neural embedding spaces. $S^3$ conceptualizes topics as independent axes of semantic space, and uncovers these with blind-source separation. Our approach provides the most diverse, highly coherent topics, requires no preprocessing, and is demonstrated to be the fastest contextually sensitive topic model to date. We offer an implementation of $S^3$, among other approaches, in the Turftopic Python package.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# TabularFM: Tabular Foundational Modelsのためのオープンフレームワーク

TabularFM: An Open Framework For Tabular Foundational Models ( http://arxiv.org/abs/2406.09837v2 )

ライセンス: Link先を確認
Quan M. Tran, Suong N. Hoang, Lam M. Nguyen, Dzung Phan, Hoang Thanh Lam, (参考訳) ファンデーショナルモデル(FM)は、自己教師付き技術を用いて広範囲のデータセットで事前訓練され、大量のデータから一般化されたパターンを学習することができる。 これにより、新しいタスクごとにラベル付きデータセットを追加する必要がなくなり、事前トレーニング中に確立された幅広い知識ベースを活用することで、時間とリソースを節約できる。 FMに関するほとんどの研究は、主にテキストや画像のような非構造化データや、時系列のような半構造化データに焦点を当てている。 しかし、その頻度にもかかわらず、クリーンデータセットの欠如や、様々な表型データタスクにおけるFMの転送可能性に関する研究が不十分なため、表型データのような構造化データに対する関心は低い。 このギャップに対応するために,表データに特化してFMを開発するための最先端の手法を取り入れたTabularFMというフレームワークを導入する。 これには、GAN、VAE、Transformerなどのニューラルアーキテクチャのバリエーションが含まれる。 我々は、100万の表付きデータセットをキュレートし、表付きFMの開発を容易にするために、クリーン化されたバージョンをリリースした。 我々は、このキュレートされたデータ上でFMを事前訓練し、これらのデータセット上で様々な学習方法をベンチマークし、将来の比較研究のためのリーダーボードとともに事前訓練されたモデルをリリースした。 我々の完全オープンソースシステムは、表状FMの転送可能性に関する包括的分析を提供する。 これらのデータセット、事前訓練されたモデル、およびリーダーボードをリリースすることにより、近い将来、表型FMの有効性とユーザビリティを高めることを目指している。

Foundational models (FMs), pretrained on extensive datasets using self-supervised techniques, are capable of learning generalized patterns from large amounts of data. This reduces the need for extensive labeled datasets for each new task, saving both time and resources by leveraging the broad knowledge base established during pretraining. Most research on FMs has primarily focused on unstructured data, such as text and images, or semi-structured data, like time-series. However, there has been limited attention to structured data, such as tabular data, which, despite its prevalence, remains under-studied due to a lack of clean datasets and insufficient research on the transferability of FMs for various tabular data tasks. In response to this gap, we introduce a framework called TabularFM, which incorporates state-of-the-art methods for developing FMs specifically for tabular data. This includes variations of neural architectures such as GANs, VAEs, and Transformers. We have curated a million of tabular datasets and released cleaned versions to facilitate the development of tabular FMs. We pretrained FMs on this curated data, benchmarked various learning methods on these datasets, and released the pretrained models along with leaderboards for future comparative studies. Our fully open-sourced system provides a comprehensive analysis of the transferability of tabular FMs. By releasing these datasets, pretrained models, and leaderboards, we aim to enhance the validity and usability of tabular FMs in the near future.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# マルチモーダル大言語モデルのためのフローチャート理解の最初の多次元的評価

First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models ( http://arxiv.org/abs/2406.10057v2 )

ライセンス: Link先を確認
Enming Zhang, Ruobing Yao, Huanyong Liu, Junhui Yu, Jiale Wang, (参考訳) MLLM(Multimodal Large Language Models)技術の開発により、その汎用能力はますます強力になっている。 MLLMの様々な能力を評価するために,多くの評価システムが登場した。 しかし、フローチャートに関連するタスクにおいてMLLMを評価するための包括的な方法がまだ存在しないため、日常生活や作業において非常に重要である。 本研究では,フローチャートに関連するタスクに対して,MLLMを様々な次元にわたって評価する最初の包括的手法であるFlowCEを提案する。 フローチャート上での推論, 局所認識, 情報抽出, 論理的検証, 要約におけるMLLMの能力を評価する。 しかし GPT4o モデルでさえ 56.63 のスコアしか得られないことがわかった。 オープンソースモデルの中で、Phi-3-Visionは49.97という最高スコアを獲得した。 フローチャートに基づくタスクのためのMLLMの研究に,FlowCEが貢献できることを願っている。 \url{https://github.com/360AILAB-NLP/FlowCE} \end{abstract}

With the development of Multimodal Large Language Models (MLLMs) technology, its general capabilities are increasingly powerful. To evaluate the various abilities of MLLMs, numerous evaluation systems have emerged. But now there is still a lack of a comprehensive method to evaluate MLLMs in the tasks related to flowcharts, which are very important in daily life and work. We propose the first comprehensive method, FlowCE, to assess MLLMs across various dimensions for tasks related to flowcharts. It encompasses evaluating MLLMs' abilities in Reasoning, Localization Recognition, Information Extraction, Logical Verification, and Summarization on flowcharts. However, we find that even the GPT4o model achieves only a score of 56.63. Among open-source models, Phi-3-Vision obtained the highest score of 49.97. We hope that FlowCE can contribute to future research on MLLMs for tasks based on flowcharts. \url{https://github.com/360AILAB-NLP/FlowCE} \end{abstract}
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# CLST:学生の知識トレーサとしての生成言語モデルによる知識追跡におけるコールドスタート緩和

CLST: Cold-Start Mitigation in Knowledge Tracing by Aligning a Generative Language Model as a Students' Knowledge Tracer ( http://arxiv.org/abs/2406.10296v2 )

ライセンス: Link先を確認
Heeseok Jung, Jaesang Yoo, Yohaan Yoon, Yeonju Jang, (参考訳) 知識追跡(KT)は、学生の問題解決履歴を現在の知識レベルの推定に用い、研究者から大きな関心を集めている。 しかし、既存のほとんどのKTモデルは、コールドスタート性能の限界を示すIDベースのパラダイムで開発された。 これらの制限は、生成的大言語モデル(LLM)が持つ膨大な外部知識を活用することで緩和することができる。 本研究では,生成言語モデルを学生の知識トレーサ(CLST)として整列させることにより,知識トレースにおけるコールドスタートの緩和を提案する。 数学,社会学,科学の課題からデータを収集すると,KTタスクを自然言語処理タスクとしてフレーム化し,自然言語で問題解決データを表現し,フォーマットされたKTデータセットを用いて生成LLMを微調整した。 その後,データ不足状況におけるCLSTの性能を,各種ベースラインモデルを用いて比較した。 その結果,CLSTは,予測,信頼性,クロスドメインの一般化の観点から,100人未満の学生のデータセットで有意に性能を向上した。

Knowledge tracing (KT), wherein students' problem-solving histories are used to estimate their current levels of knowledge, has attracted significant interest from researchers. However, most existing KT models were developed with an ID-based paradigm, which exhibits limitations in cold-start performance. These limitations can be mitigated by leveraging the vast quantities of external knowledge possessed by generative large language models (LLMs). In this study, we propose cold-start mitigation in knowledge tracing by aligning a generative language model as a students' knowledge tracer (CLST) as a framework that utilizes a generative LLM as a knowledge tracer. Upon collecting data from math, social studies, and science subjects, we framed the KT task as a natural language processing task, wherein problem-solving data are expressed in natural language, and fine-tuned the generative LLM using the formatted KT dataset. Subsequently, we evaluated the performance of the CLST in situations of data scarcity using various baseline models for comparison. The results indicate that the CLST significantly enhanced performance with a dataset of fewer than 100 students in terms of prediction, reliability, and cross-domain generalization.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# LLMを用いた生成物のインターネットのための効率的なプロンプト

Efficient Prompting for LLM-based Generative Internet of Things ( http://arxiv.org/abs/2406.10382v2 )

ライセンス: Link先を確認
Bin Xiao, Burak Kantarci, Jiawen Kang, Dusit Niyato, Mohsen Guizani, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。 セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。 しかしながら、オープンソースのLLMは、算術計算や推論能力など、パフォーマンスに関する制限がより多く、IoTにLLMを適用する実践的なシステムは、まだ十分に研究されていない。 そこで本研究では,ローカルネットワーク環境に展開するテキストベースの生成IoT(GIoT)システムを提案する。 LLMの限界を緩和し、競争性能を提供するために、オープンソースのLLMの能力を高めるためにプロンプトエンジニアリング手法を適用し、プロンプト管理モジュールと後処理モジュールを設計し、異なるタスクの調整されたプロンプトを管理し、LLMが生成した結果を処理する。 提案手法の有効性を示すために,提案方式のケーススタディとして,テーブル質問回答(Table-QA)課題について論じる。 提案手法は2種類のTable-QAデータセットに対して総合的な実験を行い,提案手法は最先端のLCMと競合する性能を達成可能であることを示した。

Large language models (LLMs) have demonstrated remarkable capacities on various tasks, and integrating the capacities of LLMs into the Internet of Things (IoT) applications has drawn much research attention recently. Due to security concerns, many institutions avoid accessing state-of-the-art commercial LLM services, requiring the deployment and utilization of open-source LLMs in a local network setting. However, open-source LLMs usually have more limitations regarding their performance, such as their arithmetic calculation and reasoning capacities, and practical systems of applying LLMs to IoT have yet to be well-explored. Therefore, we propose a text-based generative IoT (GIoT) system deployed in the local network setting in this study. To alleviate the limitations of LLMs and provide service with competitive performance, we apply prompt engineering methods to enhance the capacities of the open-source LLMs, design a Prompt Management Module and a Post-processing Module to manage the tailored prompts for different tasks and process the results generated by the LLMs. To demonstrate the effectiveness of the proposed system, we discuss a challenging Table Question Answering (Table-QA) task as a case study of the proposed system, as tabular data is usually more challenging than plain text because of their complex structures, heterogeneous data types and sometimes huge sizes. We conduct comprehensive experiments on two popular Table-QA datasets, and the results show that our proposal can achieve competitive performance compared with state-of-the-art LLMs, demonstrating that the proposed LLM-based GIoT system can provide competitive performance with tailored prompting methods and is easily extensible to new tasks without training.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# Byzantine-Robust分散フェデレーションラーニング

Byzantine-Robust Decentralized Federated Learning ( http://arxiv.org/abs/2406.10416v2 )

ライセンス: Link先を確認
Minghong Fang, Zifan Zhang, Hairi, Prashant Khanduri, Jia, Liu, Songtao Lu, Yuchen Liu, Neil Gong, (参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートトレーニングデータを公開せずに、機械学習モデルを協調的にトレーニングすることを可能にする。 従来のFLでは、システムはサーバ支援アーキテクチャ(サーバ支援FL)に従い、トレーニングプロセスは中央サーバによって調整される。 しかし、サーバ支援のFLフレームワークは、サーバでの通信ボトルネックと依存関係の問題によりスケーラビリティの低下に悩まされている。 課題に対処するため、クライアントがサーバレスとピアツーピアの方法でモデルを協調的にトレーニングできるようにするために、分散フェデレーションラーニング(DFL)アーキテクチャが提案されている。 しかし、完全に分散した性質のため、DFLは有害な攻撃に対して非常に脆弱であり、悪意のあるクライアントは、近隣のクライアントに慎重に構築されたローカルモデルを送信することでシステムを操作できる。 現在では限られた数のビザンチン・ローバストDFL法が提案されており、そのほとんどは通信効率が良くないか、先進的な毒殺攻撃に弱いままである。 本稿では,DFLにおける毒殺対策として,BALANCE (Byzantine-robust averaging through local similarity in decentralization) というアルゴリズムを提案する。 BALANCEでは、各クライアントは独自のローカルモデルを類似参照として利用し、受信したモデルが悪意があるか良性があるかを判断する。 我々は, 強凸および非凸の双方において, 毒性攻撃下でのBALANCEの理論的収束保証を確立する。 さらに、毒殺攻撃によるBALANCEの収束率は、ビザンチンフリー環境での最先端のものと一致している。 大規模な実験は、BALANCEが既存のDFL法より優れており、効果的に中毒攻撃を防いでいることも示している。

Federated learning (FL) enables multiple clients to collaboratively train machine learning models without revealing their private training data. In conventional FL, the system follows the server-assisted architecture (server-assisted FL), where the training process is coordinated by a central server. However, the server-assisted FL framework suffers from poor scalability due to a communication bottleneck at the server, and trust dependency issues. To address challenges, decentralized federated learning (DFL) architecture has been proposed to allow clients to train models collaboratively in a serverless and peer-to-peer manner. However, due to its fully decentralized nature, DFL is highly vulnerable to poisoning attacks, where malicious clients could manipulate the system by sending carefully-crafted local models to their neighboring clients. To date, only a limited number of Byzantine-robust DFL methods have been proposed, most of which are either communication-inefficient or remain vulnerable to advanced poisoning attacks. In this paper, we propose a new algorithm called BALANCE (Byzantine-robust averaging through local similarity in decentralization) to defend against poisoning attacks in DFL. In BALANCE, each client leverages its own local model as a similarity reference to determine if the received model is malicious or benign. We establish the theoretical convergence guarantee for BALANCE under poisoning attacks in both strongly convex and non-convex settings. Furthermore, the convergence rate of BALANCE under poisoning attacks matches those of the state-of-the-art counterparts in Byzantine-free settings. Extensive experiments also demonstrate that BALANCE outperforms existing DFL methods and effectively defends against poisoning attacks.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# トーキングヘッド合成の包括的分類法と分析:画像生成, 運転機構, 編集のための技術

A Comprehensive Taxonomy and Analysis of Talking Head Synthesis: Techniques for Portrait Generation, Driving Mechanisms, and Editing ( http://arxiv.org/abs/2406.10553v2 )

ライセンス: Link先を確認
Ming Meng, Yufei Zhao, Bo Zhang, Yonggui Zhu, Weimin Shi, Maxwell Wen, Zhaoxin Fan, (参考訳) 特定のコンテンツによって駆動される静止画からポートレートビデオを生成する高度な方法であるトーキングヘッド合成は、仮想現実、拡張現実、ゲーム制作において広く注目を集めている。 近年,変圧器や拡散モデルといった新しいモデルの導入によって大きなブレークスルーがおこなわれている。 現在のメソッドは、新しいコンテンツを生成するだけでなく、生成された素材を編集することもできます。 本調査は,3つの重要な領域 – ポートレート生成,駆動機構,編集技術 – に分類し,その技術を体系的にレビューする。 マイルストーン研究を要約し、各ドメインにおけるイノベーションと欠点を批判的に分析します。 さらに、データセットの広範な収集を組織し、様々な評価指標に基づいて、現在の方法論の徹底的なパフォーマンス分析を提供し、将来の研究に明確なフレームワークと堅牢なデータサポートを提供することを目指しています。 最後に,音声音声合成の応用シナリオについて検討し,特定の事例で説明し,今後の方向性について検討する。

Talking head synthesis, an advanced method for generating portrait videos from a still image driven by specific content, has garnered widespread attention in virtual reality, augmented reality and game production. Recently, significant breakthroughs have been made with the introduction of novel models such as the transformer and the diffusion model. Current methods can not only generate new content but also edit the generated material. This survey systematically reviews the technology, categorizing it into three pivotal domains: portrait generation, driven mechanisms, and editing techniques. We summarize milestone studies and critically analyze their innovations and shortcomings within each domain. Additionally, we organize an extensive collection of datasets and provide a thorough performance analysis of current methodologies based on various evaluation metrics, aiming to furnish a clear framework and robust data support for future research. Finally, we explore application scenarios of talking head synthesis, illustrate them with specific cases, and examine potential future directions.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# SparseRadNet:サブサンプルレーダデータに基づくスパース知覚ニューラルネットワーク

SparseRadNet: Sparse Perception Neural Network on Subsampled Radar Data ( http://arxiv.org/abs/2406.10600v2 )

ライセンス: Link先を確認
Jialong Wu, Mirko Meuter, Markus Schoeler, Matthias Rottmann, (参考訳) レーダーに基づく認識は自律走行において注目を集めているが、レーダーの空間性は課題を生じさせている。 レーダー生データは、しばしば過剰なノイズを含むが、レーダー点雲は限られた情報しか保持しない。 本研究では,レーダ信号のグローバルおよびローカルな依存関係を発見するために,空間パターンを利用した適応型サブサンプリング手法と,適応型ネットワークアーキテクチャを導入することで,レーダデータの疎結合性を均質に扱う。 我々のサブサンプリングモジュールは、下流の知覚タスクに最も寄与するレンジドップラー(RD)スペクトルから画素のサブセットを選択する。 スパースサブサンプリングデータの特徴抽出を改善するために,レーダデータにグラフニューラルネットワークを適用する新しい手法を提案する。 両方のブランチの機能を組み合わせるために、注意深い融合モジュールが適用される。 RADIalデータセットを用いた実験により,SparseRadNetはオブジェクト検出における最先端(SOTA)性能を超え,空間分割におけるSOTA精度に近づき,スパースサブサンプル入力データを用いた。

Radar-based perception has gained increasing attention in autonomous driving, yet the inherent sparsity of radars poses challenges. Radar raw data often contains excessive noise, whereas radar point clouds retain only limited information. In this work, we holistically treat the sparse nature of radar data by introducing an adaptive subsampling method together with a tailored network architecture that exploits the sparsity patterns to discover global and local dependencies in the radar signal. Our subsampling module selects a subset of pixels from range-doppler (RD) spectra that contribute most to the downstream perception tasks. To improve the feature extraction on sparse subsampled data, we propose a new way of applying graph neural networks on radar data and design a novel two-branch backbone to capture both global and local neighbor information. An attentive fusion module is applied to combine features from both branches. Experiments on the RADIal dataset show that our SparseRadNet exceeds state-of-the-art (SOTA) performance in object detection and achieves close to SOTA accuracy in freespace segmentation, meanwhile using sparse subsampled input data.
翻訳日:2024-06-19 12:01:13 公開日:2024-06-18
# Voxel Mamba:Point Cloudによる3Dオブジェクト検出のためのグループフリーな状態空間モデル

Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection ( http://arxiv.org/abs/2406.10700v2 )

ライセンス: Link先を確認
Guowen Zhang, Lue Fan, Chenhang He, Zhen Lei, Zhaoxiang Zhang, Lei Zhang, (参考訳) 3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。 しかし、3Dボクセルを1D配列にシリアライズすることは、必然的にボクセルの空間的近接を犠牲にする。 このような問題は、機能サイズを持つトランスフォーマーの2次複雑さのため、既存のシリアライズベースのメソッドでグループサイズを拡大するのは難しい。 状態空間モデル(SSM)の最近の進歩に触発されて、Voxel Mambaと呼ばれるVoxel SSMを提示する。 SSMの線形複雑性はグループフリーな設計を奨励し、ボクセルの空間的近接の損失を軽減する。 空間的近接性をさらに高めるため, 2次元SSMブロックを用いて階層構造を構築することで, 1次元直列化曲線における受容場を大きくし, 3次元空間におけるより完全な局所領域を実現する。 さらに、位置符号化によりグループフリーなフレームワークにウィンドウ分割を暗黙的に適用し、ボクセル位置情報を符号化することで空間的近接性を高める。 Waymo Open Dataset と nuScenes データセットを用いた実験により,Voxel Mamba は最先端の手法よりも高い精度を達成できるだけでなく,計算効率において大きな優位性を示す。

Serialization-based methods, which serialize the 3D voxels and group them into multiple sequences before inputting to Transformers, have demonstrated their effectiveness in 3D object detection. However, serializing 3D voxels into 1D sequences will inevitably sacrifice the voxel spatial proximity. Such an issue is hard to be addressed by enlarging the group size with existing serialization-based methods due to the quadratic complexity of Transformers with feature sizes. Inspired by the recent advances of state space models (SSMs), we present a Voxel SSM, termed as Voxel Mamba, which employs a group-free strategy to serialize the whole space of voxels into a single sequence. The linear complexity of SSMs encourages our group-free design, alleviating the loss of spatial proximity of voxels. To further enhance the spatial proximity, we propose a Dual-scale SSM Block to establish a hierarchical structure, enabling a larger receptive field in the 1D serialization curve, as well as more complete local regions in 3D space. Moreover, we implicitly apply window partition under the group-free framework by positional encoding, which further enhances spatial proximity by encoding voxel positional information. Our experiments on Waymo Open Dataset and nuScenes dataset show that Voxel Mamba not only achieves higher accuracy than state-of-the-art methods, but also demonstrates significant advantages in computational efficiency.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# 不確実性量子化の速度歪み

A Rate-Distortion View of Uncertainty Quantification ( http://arxiv.org/abs/2406.10775v2 )

ライセンス: Link先を確認
Ifigeneia Apostolopoulou, Benjamin Eysenbach, Frank Nielsen, Artur Dubrawski, (参考訳) 教師付き学習では、入力がトレーニングデータに近接していることを理解することは、モデルが信頼できる予測に達する十分な証拠を持っているかどうかを判断するのに役立つ。 ガウス過程のような強力な確率論的モデルは自然にこの性質を持つが、ディープニューラルネットワークはそれを欠いていることが多い。 本稿では,この特性で深層ニューラルネットワークを拡張できる新しい手法であるDistance Aware Bottleneck(DAB)を紹介する。 本手法は,事前情報ボトルネックアプローチに基づいて,トレーニング中に見られるすべての入力の圧縮表現を格納するコードブックを学習する。 このコードブックからの新しい例までの距離は、その例にとって不確実な見積もりとして機能する。 結果として得られるモデルは訓練が簡単で、単一の前方通過による決定論的不確実性推定を提供する。 最後に,本手法は,高価なアンサンブル法,ディープカーネルガウス過程,標準情報ボトルネックに基づくアプローチなど,従来の手法よりも優れた分布外検出と誤分類予測を実現する。

In supervised learning, understanding an input's proximity to the training data can help a model decide whether it has sufficient evidence for reaching a reliable prediction. While powerful probabilistic models such as Gaussian Processes naturally have this property, deep neural networks often lack it. In this paper, we introduce Distance Aware Bottleneck (DAB), i.e., a new method for enriching deep neural networks with this property. Building on prior information bottleneck approaches, our method learns a codebook that stores a compressed representation of all inputs seen during training. The distance of a new example from this codebook can serve as an uncertainty estimate for the example. The resulting model is simple to train and provides deterministic uncertainty estimates by a single forward pass. Finally, our method achieves better out-of-distribution (OOD) detection and misclassification prediction than prior methods, including expensive ensemble methods, deep kernel Gaussian Processes, and approaches based on the standard information bottleneck.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# 新型コロナウイルスの重症度説明と画像症状分類のためのベイズネットワークと機械学習

Bayesian Networks and Machine Learning for COVID-19 Severity Explanation and Demographic Symptom Classification ( http://arxiv.org/abs/2406.10807v2 )

ライセンス: Link先を確認
Oluwaseun T. Ajayi, Yu Cheng, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックと闘う取り組みが盛んに行われている中、その拡大、将来の影響、回復についてはまだ不明な点がまだ残っている。 本稿では、新型コロナウイルスの隠れた情報を蒸留する3段階のデータ駆動方式を提案する。 第1段階では、バイエルンネットワーク構造学習法を用いて、新型コロナウイルスの症状とその固有の人口統計学的変数の因果関係を同定する。 第2段階として、ベイジアンネットワーク構造学習からの出力は、クラスタリングによって患者の症状の類似性を明らかにする教師なし機械学習(ML)アルゴリズムを訓練するための有用なガイドとして機能する。 最終段階は、クラスタリングから得られたラベルを利用して、患者の症状クラスとそれに対応する人口統計確率分布を予測する人口統計学的症状識別(DSID)モデルを訓練する。 本手法を米国疾病予防管理センター(CDC)から得られたCOVID-19データセットに適用した。 実験の結果、テスト精度は99.99%であり、ヒューリスティックML法の41.15%である。 このことは、ウイルス症状の関連を理解するためのベイズネットワークとMLアプローチの可能性を強く示し、ウイルスの重症度を減らすための患者の成層化に関する洞察を提供する。

With the prevailing efforts to combat the coronavirus disease 2019 (COVID-19) pandemic, there are still uncertainties that are yet to be discovered about its spread, future impact, and resurgence. In this paper, we present a three-stage data-driven approach to distill the hidden information about COVID-19. The first stage employs a Bayesian network structure learning method to identify the causal relationships among COVID-19 symptoms and their intrinsic demographic variables. As a second stage, the output from the Bayesian network structure learning, serves as a useful guide to train an unsupervised machine learning (ML) algorithm that uncovers the similarities in patients' symptoms through clustering. The final stage then leverages the labels obtained from clustering to train a demographic symptom identification (DSID) model which predicts a patient's symptom class and the corresponding demographic probability distribution. We applied our method on the COVID-19 dataset obtained from the Centers for Disease Control and Prevention (CDC) in the United States. Results from the experiments show a testing accuracy of 99.99%, as against the 41.15% accuracy of a heuristic ML method. This strongly reveals the viability of our Bayesian network and ML approach in understanding the relationship between the virus symptoms, and providing insights on patients' stratification towards reducing the severity of the virus.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# ケースセグメンテーションにおけるラベルノイズのベンチマーク:空間騒音

Benchmarking Label Noise in Instance Segmentation: Spatial Noise Matters ( http://arxiv.org/abs/2406.10891v2 )

ライセンス: Link先を確認
Eden Grad, Moshe Kimhi, Lion Halika, Chaim Baskin, (参考訳) タスクの複雑な性質のため、インスタンスセグメンテーションの正確なラベルを取得することは特に困難である。 各画像は、オブジェクトのクラスだけでなく、その正確な空間境界を含む複数のアノテーションを必要とする。 これらの要件は、手動および自動化されたアノテーションプロセスのエラーや矛盾の可能性を高める。 異なるノイズ条件をシミュレートすることにより、異なるセグメンテーションタスクにおけるインスタンスセグメンテーションモデルの堅牢性と一般化能力を評価し、COCO-NとCityscapes-Nを導入するための現実的なシナリオを提供する。 また,半自動アノテーションツールとそのノイズラベルをシミュレートするために基礎モデルと弱いアノテーションを利用するCOCO-WANと呼ばれる弱いアノテーションノイズのベンチマークも提案する。 本研究は,様々なモデルにより生成されるセグメンテーションマスクの品質に光を当て,ラベルノイズによる学習に対処するために設計された一般的な手法の有効性に挑戦する。

Obtaining accurate labels for instance segmentation is particularly challenging due to the complex nature of the task. Each image necessitates multiple annotations, encompassing not only the object's class but also its precise spatial boundaries. These requirements elevate the likelihood of errors and inconsistencies in both manual and automated annotation processes. By simulating different noise conditions, we provide a realistic scenario for assessing the robustness and generalization capabilities of instance segmentation models in different segmentation tasks, introducing COCO-N and Cityscapes-N. We also propose a benchmark for weakly annotation noise, dubbed COCO-WAN, which utilizes foundation models and weak annotations to simulate semi-automated annotation tools and their noisy labels. This study sheds light on the quality of segmentation masks produced by various models and challenges the efficacy of popular methods designed to address learning with label noise.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# マルチLLMシステムによる身体的質問応答

Embodied Question Answering via Multi-LLM Systems ( http://arxiv.org/abs/2406.10918v2 )

ライセンス: Link先を確認
Bhrij Patel, Vishnu Sashank Dorbala, Dinesh Manocha, Amrit Singh Bedi, (参考訳) EQA(Embodied Question Answering)は,ユーザの質問に答える環境を探索するエージェントが関与する重要な問題である。 既存の文献では、EQAは単一のエージェントのシナリオでのみ研究されており、探索には時間と費用がかかる。 本研究では,複数の大規模言語モデル(LLM)をベースとしたエージェントが家庭環境に関する質問に独立して答えるマルチエージェントフレームワークのEQAについて検討する。 各クエリに対して1つの回答を生成するために、個々のレスポンスを使用して、堅牢な回答のためにレスポンスを集約するCAM(Central Answer Model)をトレーニングする。 CAM を用いて,投票方式や討論会など LLM の集約手法と比較した場合,50 % の EQA 精度が得られた。 CAMはいかなる種類のエージェント通信も必要とせず、関連するコストから軽減する。 我々は,CAMを非線形(神経ネットワーク,ランダムフォレスト,決定木,XGBoost)および線形(論理回帰分類器,SVM)アルゴリズムで吸収する。 最後に、置換特徴重要度(PFI)によるCAMの特徴重要度分析を行い、各独立したエージェントとクエリコンテキストに依存するCAMの定量化を行う。

Embodied Question Answering (EQA) is an important problem, which involves an agent exploring the environment to answer user queries. In the existing literature, EQA has exclusively been studied in single-agent scenarios, where exploration can be time-consuming and costly. In this work, we consider EQA in a multi-agent framework involving multiple large language models (LLM) based agents independently answering queries about a household environment. To generate one answer for each query, we use the individual responses to train a Central Answer Model (CAM) that aggregates responses for a robust answer. Using CAM, we observe a $50\%$ higher EQA accuracy when compared against aggregation methods for ensemble LLM, such as voting schemes and debates. CAM does not require any form of agent communication, alleviating it from the associated costs. We ablate CAM with various nonlinear (neural network, random forest, decision tree, XGBoost) and linear (logistic regression classifier, SVM) algorithms. Finally, we present a feature importance analysis for CAM via permutation feature importance (PFI), quantifying CAMs reliance on each independent agent and query context.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# ホームを安全にする: ロス誘導マスクによるスマートホームの非監視的ユーザー行動異常検出

Make Your Home Safe: Time-aware Unsupervised User Behavior Anomaly Detection in Smart Homes via Loss-guided Mask ( http://arxiv.org/abs/2406.10928v2 )

ライセンス: Link先を確認
Jingyu Xiao, Zhiyao Xu, Qingsong Zou, Qing Li, Dan Zhao, Dong Fang, Ruoyu Li, Wenxin Tang, Kang Li, Xudong Zuo, Penghui Hu, Yong Jiang, Zixuan Weng, Michael R. Lyv, (参考訳) スマートホームはモノのインターネット(Internet of Things)をベースとしており、非常に便利だが、ユーザーの不適切な操作や悪意のある攻撃者による攻撃などの異常な動作のためにセキュリティ上の懸念も生じている。 いくつかの行動モデリング手法が、異常な行動を特定し、潜在的なリスクを軽減するために提案されている。 しかし、そのパフォーマンスは、頻繁な振る舞いを効果的に学ばず、時間的文脈を考慮せず、あるいは人間の行動にノイズが及ぼす影響を考慮しないため、しばしば低下する。 本稿では,自動エンコーダに基づく教師なしユーザ動作異常検出フレームワークであるSmartGuardを提案する。 まず、Los-Guided Dynamic Mask Strategy (LDMS)を設計し、学習中に見落とされがちな頻繁な行動の学習を促す。 次に,3段階の時間認識位置埋め込み (TTPE) を提案する。 第3に,騒音を考慮した重み付き再構成損失(NWRL)を提案する。 10種類の異常な振る舞いを持つ3つのデータセットに関する総合的な実験は、SmartGuardが一貫して最先端のベースラインを上回り、高い解釈可能な結果を提供することを示している。

Smart homes, powered by the Internet of Things, offer great convenience but also pose security concerns due to abnormal behaviors, such as improper operations of users and potential attacks from malicious attackers. Several behavior modeling methods have been proposed to identify abnormal behaviors and mitigate potential risks. However, their performance often falls short because they do not effectively learn less frequent behaviors, consider temporal context, or account for the impact of noise in human behaviors. In this paper, we propose SmartGuard, an autoencoder-based unsupervised user behavior anomaly detection framework. First, we design a Loss-guided Dynamic Mask Strategy (LDMS) to encourage the model to learn less frequent behaviors, which are often overlooked during learning. Second, we propose a Three-level Time-aware Position Embedding (TTPE) to incorporate temporal information into positional embedding to detect temporal context anomaly. Third, we propose a Noise-aware Weighted Reconstruction Loss (NWRL) that assigns different weights for routine behaviors and noise behaviors to mitigate the interference of noise behaviors during inference. Comprehensive experiments on three datasets with ten types of anomaly behaviors demonstrates that SmartGuard consistently outperforms state-of-the-art baselines and also offers highly interpretable results.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# City-LEO: エンド・ツー・エンド最適化 LLM を用いた透明都市管理に向けて

City-LEO: Toward Transparent City Management Using LLM with End-to-End Optimization ( http://arxiv.org/abs/2406.10958v2 )

ライセンス: Link先を確認
Zihao Jiao, Mengyi Sha, Haoyu Zhang, Xinyu Jiang, Wei Qi, (参考訳) 既存のオペレーション研究(OR)モデルとツールは、スマートシティオペレーションにおいて欠かせない役割を担っているが、その実践は、モデリングの複雑さと最適化能力の欠陥によって制限されている。 ユーザの要求に対するより関連性が高く正確なソリューションを生成するために,対話型対話による都市管理の効率化と透明性を高める大規模言語モデル(LLM)ベースのエージェント("City-LEO")を提案する。 具体的には、多様なユーザの要求を満たし、計算的トラクタビリティを向上させるために、City-LEOはLLMの論理的推論能力を活用し、大規模最適化問題を効率的に解決する。 ヒューマンライクな意思決定プロセスでは、City-LEOは予測と最適化を相乗化するためにエンド・ツー・エンド(E2E)モデルも組み込んでいる。 E2Eフレームワークは、環境の不確実性に対処し、よりクエリに関連する特徴に対処し、透過的で解釈可能な意思決定プロセスを促進する。 事例スタディでは,e-bike Share (EBS) システムの運用管理にCity-LEOを採用している。 計算結果から,City-LEOは実規模最適化問題に対するベンチマークにおいて優れた性能を示す。 計算時間が少なくなると、City-LEOはユーザの要求に対する満足度が高く、関連するソリューションを生成し、精度を著しく損なうことなく、世界全体の準最適度を低くする。 より広義に,我々の提案するエージェントは,スマートシティ運用管理のためのLDM組み込みORツールを開発することを約束する。

Existing operations research (OR) models and tools play indispensable roles in smart-city operations, yet their practical implementation is limited by the complexity of modeling and deficiencies in optimization proficiency. To generate more relevant and accurate solutions to users' requirements, we propose a large language model (LLM)-based agent ("City-LEO") that enhances the efficiency and transparency of city management through conversational interactions. Specifically, to accommodate diverse users' requirements and enhance computational tractability, City-LEO leverages LLM's logical reasoning capabilities on prior knowledge to scope down large-scale optimization problems efficiently. In the human-like decision process, City-LEO also incorporates End-to-end (E2E) model to synergize the prediction and optimization. The E2E framework be conducive to coping with environmental uncertainties and involving more query-relevant features, and then facilitates transparent and interpretable decision-making process. In case study, we employ City-LEO in the operations management of e-bike sharing (EBS) system. The numerical results demonstrate that City-LEO has superior performance when benchmarks against the full-scale optimization problem. With less computational time, City-LEO generates more satisfactory and relevant solutions to the users' requirements, and achieves lower global suboptimality without significantly compromising accuracy. In a broader sense, our proposed agent offers promise to develop LLM-embedded OR tools for smart-city operations management.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# ドットの接続:New York Times Connections Word Gameを用いたLLMの抽象推論能力の評価

Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game ( http://arxiv.org/abs/2406.11012v2 )

ライセンス: Link先を確認
Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan, (参考訳) New York Times Connectionsゲームは、ワードパズル愛好家のための人気で挑戦的な追跡ゲームとして登場した。 我々は200のConnectionsゲームを収集し、最先端の大規模言語モデル(LLM)の性能を専門家や初心者の人間プレイヤーに対して評価する。 以上の結果から,多種多様なベンチマークで顕著な推論能力を示した最高のLPMであるGPT-4oでも,ゲーム全体の8%しか解けないことがわかった。 GPT-4oと比較すると、初心者や専門家のプレイヤーはGPT-4oより優れており、専門家のプレイヤーはGPT-4oよりも優れていた。 我々の理解を深めるために、私たちはコネクティクスゲームにおける単語の分類に成功するために必要な知識タイプの分類を作成し、LLMが連想的、百科事典的、言語的知識に苦しむことを明らかにした。 我々の発見は、New York Times Connectionsゲームが、人間とAIシステムの抽象的推論能力を評価するための挑戦的なベンチマークとして確立されている。

The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 200 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best-performing LLM, GPT-4o, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 8% of the games. Compared to GPT-4o, novice and expert players perform better, with expert human players significantly outperforming GPT-4o. To deepen our understanding we create a taxonomy of the knowledge types required to successfully categorize words in the Connections game, revealing that LLMs struggle with associative, encyclopedic, and linguistic knowledge. Our findings establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in humans and AI systems.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# 動的ノルマティビティ:価値アライメントに必要な必要十分条件

Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment ( http://arxiv.org/abs/2406.11039v2 )

ライセンス: Link先を確認
Nicholas Kluge Corrêa, (参考訳) 哲学の領域に及ぼし、おそらくすべてのヒューマニティの分野にその影響力を及ぼす批判的な調査は、道徳と規範の複雑さを中心に展開している。 驚くべきことに、近年では、このテーマの糸が予期せぬ領域へと織り込まれている。 道徳とAIの中心にあるのは、人間の目標と価値を表現するという課題に関連する問題である「アライメント(alignment)」です。 より明確に、そして現在のAI開発のパラダイムを念頭に置いて、アライメントは、不透明で勾配に基づく学習技術によって訓練された非人為的エンティティに人間の価値を教えるものだと考えることができます。 この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。 これを実現するために、我々は、任意のアライメントプロセスにおいて考慮すべき必要かつ十分な条件を2つ提案する。 必要な条件は、アライメントの許容性に関連するメタ物理的およびメタ倫理的ルーツとして機能するが、十分な条件は、学習に基づくパラダイムの下でAIシステムを調整するための青写真を確立する。 このような基礎を築き上げた後、我々は、汎用言語システムの整合化のための最先端技術と手法を用いて、このアプローチの実装を提案する。 このフレームワークをDynamic Normativityと呼びます。 その中心的な主張は、必要な十分な条件を満たせない学習パラダイムの下でのアライメントプロセスは、アライメントシステムの生成に失敗する、というものである。

The critical inquiry pervading the realm of Philosophy, and perhaps extending its influence across all Humanities disciplines, revolves around the intricacies of morality and normativity. Surprisingly, in recent years, this thematic thread has woven its way into an unexpected domain, one not conventionally associated with pondering "what ought to be": the field of artificial intelligence (AI) research. Central to morality and AI, we find "alignment", a problem related to the challenges of expressing human goals and values in a manner that artificial systems can follow without leading to unwanted adversarial effects. More explicitly and with our current paradigm of AI development in mind, we can think of alignment as teaching human values to non-anthropomorphic entities trained through opaque, gradient-based learning techniques. This work addresses alignment as a technical-philosophical problem that requires solid philosophical foundations and practical implementations that bring normative theory to AI system development. To accomplish this, we propose two sets of necessary and sufficient conditions that, we argue, should be considered in any alignment process. While necessary conditions serve as metaphysical and metaethical roots that pertain to the permissibility of alignment, sufficient conditions establish a blueprint for aligning AI systems under a learning-based paradigm. After laying such foundations, we present implementations of this approach by using state-of-the-art techniques and methods for aligning general-purpose language systems. We call this framework Dynamic Normativity. Its central thesis is that any alignment process under a learning paradigm that cannot fulfill its necessary and sufficient conditions will fail in producing aligned systems.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# ヘイト音声検出のための大規模言語モデルにおけるアノテーションバイアスの検討

Investigating Annotator Bias in Large Language Models for Hate Speech Detection ( http://arxiv.org/abs/2406.11109v2 )

ライセンス: Link先を確認
Amit Das, Zheng Zhang, Fatemeh Jamshidi, Vinija Jain, Aman Chadha, Nilanjana Raychawdhary, Mary Sandage, Lauramarie Pope, Gerry Dozier, Cheryl Seals, (参考訳) データアノテーション(生データに記述ラベルを割り当てるプラクティス)は、機械学習モデルのパフォーマンスを最適化する上で重要である。 しかし、アノテータが導入したバイアスの影響を受けやすいリソース集約プロセスである。 ChatGPTのような高度なLarge Language Models(LLM)の出現は、この複雑な手続きを近代化し合理化するユニークな機会を提供する。 既存の研究は,LPMのアノテータとしての有効性を広く評価しているが,本論文では,ヘイトスピーチデータのアノテート時のLPM,特にGPT 3.5およびGPT 4oのバイアスについて検討する。 我々の研究は、性別、人種、宗教、障害の4つの主要なカテゴリーにおけるバイアスの理解に貢献する。 具体的には、これらのカテゴリ内の非常に脆弱なグループを対象として、アノテータバイアスを分析します。 さらに、アノテーション付きデータを精査することにより、これらのバイアスに寄与する潜在的な因子を網羅的に調査する。 我々は、この研究を行うために、私たちのカスタムヘイトスピーチ検出データセットであるHateSpeechCorpusを紹介します。 さらに、ETHOS(Mollas et al , 2022)データセット上でも、比較分析のために同様の実験を行う。 本論文は,LLMの可能性をデータアノテーションに活用する上で,研究者や実践者たちを指導する上で重要な資源として機能する。 https://github.com/AmitDasRup123/HateSpeechCorpus.com/HateSpeechCorpusデータセットが利用可能だ。

Data annotation, the practice of assigning descriptive labels to raw data, is pivotal in optimizing the performance of machine learning models. However, it is a resource-intensive process susceptible to biases introduced by annotators. The emergence of sophisticated Large Language Models (LLMs), like ChatGPT presents a unique opportunity to modernize and streamline this complex procedure. While existing research extensively evaluates the efficacy of LLMs, as annotators, this paper delves into the biases present in LLMs, specifically GPT 3.5 and GPT 4o when annotating hate speech data. Our research contributes to understanding biases in four key categories: gender, race, religion, and disability. Specifically targeting highly vulnerable groups within these categories, we analyze annotator biases. Furthermore, we conduct a comprehensive examination of potential factors contributing to these biases by scrutinizing the annotated data. We introduce our custom hate speech detection dataset, HateSpeechCorpus, to conduct this research. Additionally, we perform the same experiments on the ETHOS (Mollas et al., 2022) dataset also for comparative analysis. This paper serves as a crucial resource, guiding researchers and practitioners in harnessing the potential of LLMs for dataannotation, thereby fostering advancements in this critical field. The HateSpeechCorpus dataset is available here: https://github.com/AmitDasRup123/HateSpeechCorpus
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# DELRec:LCMをベースとしたレコメンデーションを促進するためにシーケンスパターンを蒸留する

DELRec: Distilling Sequential Pattern to Enhance LLM-based Recommendation ( http://arxiv.org/abs/2406.11156v2 )

ライセンス: Link先を確認
Guohao Sun, Haoyi Zhang, (参考訳) 逐次レコメンデーション(SR)タスクは、ユーザの過去のインタラクションと好みの変化を関連付けることによって、レコメンデーションの精度を高める。 従来のモデルは、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに集中し、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストやセマンティックな情報を無視することが多い。 これにより、予測力と適応性が制限される。 近年,大規模言語モデル (LLM) は,高度な理解能力と強力な一般化能力により,SRタスクにおいて有望であることが示されている。 研究者はSRモデルからの情報を取り入れることでLLMの推奨性能を向上しようと試みている。 しかし、以前のアプローチは、例えば問題に遭遇した。 1) LLMに影響を及ぼすのは, 結果レベルのみである。 2) LLM推奨法の複雑さが増し, 解釈可能性が低下する。 3) SRモデル情報のLLMによる不完全な理解と利用 これらの問題に対処するために,SRモデルから知識を抽出し,LLMがこれらの補足情報を容易に理解し,より効果的な逐次レコメンデーションに活用することを目的とした,新しいフレームワークDELRecを提案する。 DELRecは2つの主要なステージから構成される。 1)SRモデルパターン蒸留 : 2つのよく設計された戦略を通じてソフトプロンプトを用いて、SRモデルが示す行動パターンを抽出することに焦点を当てる。 2) LLMをベースとした逐次勧告は, 蒸留補助情報を効果的に活用し, SRタスクを遂行することを目的としている。 3つの実データセットで実施された大規模な実験結果から,DLRecフレームワークの有効性が検証された。

Sequential recommendation (SR) tasks enhance recommendation accuracy by capturing the connection between users' past interactions and their changing preferences. Conventional models often focus solely on capturing sequential patterns within the training data, neglecting the broader context and semantic information embedded in item titles from external sources. This limits their predictive power and adaptability. Recently, large language models (LLMs) have shown promise in SR tasks due to their advanced understanding capabilities and strong generalization abilities. Researchers have attempted to enhance LLMs' recommendation performance by incorporating information from SR models. However, previous approaches have encountered problems such as 1) only influencing LLMs at the result level; 2) increased complexity of LLMs recommendation methods leading to reduced interpretability; 3) incomplete understanding and utilization of SR models information by LLMs. To address these problems, we proposes a novel framework, DELRec, which aims to extract knowledge from SR models and enable LLMs to easily comprehend and utilize this supplementary information for more effective sequential recommendations. DELRec consists of two main stages: 1) SR Models Pattern Distilling, focusing on extracting behavioral patterns exhibited by SR models using soft prompts through two well-designed strategies; 2) LLMs-based Sequential Recommendation, aiming to fine-tune LLMs to effectively use the distilled auxiliary information to perform SR tasks. Extensive experimental results conducted on three real datasets validate the effectiveness of the DELRec framework.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# 大規模言語モデルに対する人間の嗜好学習に関する調査研究

A Survey on Human Preference Learning for Large Language Models ( http://arxiv.org/abs/2406.11191v2 )

ライセンス: Link先を確認
Ruili Jiang, Kehai Chen, Xuefeng Bai, Zhixuan He, Juntao Li, Muyun Yang, Tiejun Zhao, Liqiang Nie, Min Zhang, (参考訳) 近年の多目的大言語モデル(LLM)の急増は、より能力の高い基礎モデルと人間の意図との整合性に大きく依存している。 関連する多くの研究にもかかわらず、人間の嗜好がどのようにLLMに導入されるかという視点は限定的であり、人間の嗜好とLLMの関係の深い理解や、その制限の実現を妨げる可能性がある。 本研究では、嗜好中心の視点から、嗜好フィードバックの源泉と形式、選好信号のモデリングと利用、および、協調したLLMの評価について、人間の嗜好学習の進歩を概観する。 まず、データソースとフォーマットに基づいて人間のフィードバックを分類する。 次に、人間の嗜好モデリングのためのテクニックを要約し、異なるモデル流派の長所と短所を比較した。 また、人間の嗜好信号を利用するために、目的によって分類された様々な嗜好利用法を提案する。 最後に、人間の意図の整合性の観点からLLMを評価するためのいくつかの一般的なアプローチを要約し、LLMに対する人間の意図の整合性に関する我々の展望について議論する。

The recent surge of versatile large language models (LLMs) largely depends on aligning increasingly capable foundation models with human intentions by preference learning, enhancing LLMs with excellent applicability and effectiveness in a wide range of contexts. Despite the numerous related studies conducted, a perspective on how human preferences are introduced into LLMs remains limited, which may prevent a deeper comprehension of the relationships between human preferences and LLMs as well as the realization of their limitations. In this survey, we review the progress in exploring human preference learning for LLMs from a preference-centered perspective, covering the sources and formats of preference feedback, the modeling and usage of preference signals, as well as the evaluation of the aligned LLMs. We first categorize the human feedback according to data sources and formats. We then summarize techniques for human preferences modeling and compare the advantages and disadvantages of different schools of models. Moreover, we present various preference usage methods sorted by the objectives to utilize human preference signals. Finally, we summarize some prevailing approaches to evaluate LLMs in terms of alignment with human intentions and discuss our outlooks on the human intention alignment for LLMs.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# AvaTaR: ツール支援知識検索のためのLLMエージェントの最適化

AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval ( http://arxiv.org/abs/2406.11200v2 )

ライセンス: Link先を確認
Shirley Wu, Shiyu Zhao, Qian Huang, Kexin Huang, Michihiro Yasunaga, Kaidi Cao, Vassilis N. Ioannidis, Karthik Subbian, Jure Leskovec, James Zou, (参考訳) 大言語モデル(LLM)エージェントは、外部のツールや知識を活用して精度を高め、幻覚を減らすという印象的な能力を示した。 しかし、LLMエージェントが外部のツールや知識を効果的に活用できるようなプロンプト技術の開発は、ヒューリスティックで退屈な作業である。 本稿では、LLMエージェントを最適化し、提供するツールを効果的に利用し、与えられたタスク/ドメインの性能を向上させる新しい自動フレームワークであるAvaTaRを紹介する。 最適化中、トレーニングデータからサンプルした正と負のサンプルの推論により、LLMエージェントに洞察的で全体論的なプロンプトを反復的に提供するコンパレータモジュールを設計する。 テキスト,ビジュアル,リレーショナル情報を含む4つの複雑なマルチモーダル検索データセット上で,AvaTaRを実証する。 AvaTaRは、4つの課題にまたがる最先端のアプローチを一貫して上回り、新規事例に適用すると強力な一般化能力を示し、Hit@1測定値の平均14%の相対的改善を実現している。 コードとデータセットはhttps://github.com/zou-group/avatar.comから入手できる。

Large language model (LLM) agents have demonstrated impressive capability in utilizing external tools and knowledge to boost accuracy and reduce hallucinations. However, developing the prompting techniques that make LLM agents able to effectively use external tools and knowledge is a heuristic and laborious task. Here, we introduce AvaTaR, a novel and automatic framework that optimizes an LLM agent to effectively use the provided tools and improve its performance on a given task/domain. During optimization, we design a comparator module to iteratively provide insightful and holistic prompts to the LLM agent via reasoning between positive and negative examples sampled from training data. We demonstrate AvaTaR on four complex multimodal retrieval datasets featuring textual, visual, and relational information. We find AvaTaR consistently outperforms state-of-the-art approaches across all four challenging tasks and exhibits strong generalization ability when applied to novel cases, achieving an average relative improvement of 14% on the Hit@1 metric. Code and dataset are available at https://github.com/zou-group/avatar.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# YOLO9tr: 一般化された高効率層凝集ネットワークと注意機構を利用した舗装損傷検出軽量モデル

YOLO9tr: A Lightweight Model for Pavement Damage Detection Utilizing a Generalized Efficient Layer Aggregation Network and Attention Mechanism ( http://arxiv.org/abs/2406.11254v2 )

ライセンス: Link先を確認
Sompote Youwai, Achitaphon Chaiyaphat, Pawarotorn Chaipetch, (参考訳) 道路舗装の整合性を維持することは安全かつ効率的な交通の確保に不可欠である。 従来の舗装条件の評価方法は、しばしば手間がかかり、人間の誤りに影響を受けやすい。 本稿では,舗装損傷検出のための軽量物体検出モデルであるYOLO9trを提案する。 YOLO9trはYOLOv9アーキテクチャをベースにしており、機能抽出とアテンション機構を強化する部分的なアテンションブロックが組み込まれており、複雑なシナリオにおける検出性能が改善されている。 本モデルは,複数の国の道路被害画像からなる包括的データセットに基づいて訓練され,標準4以上の被害カテゴリが拡張されている。 この拡張された分類範囲は、舗装条件のより正確で現実的な評価を可能にする。 比較分析では、YOLO8、YOLO9、YOLO10のような最先端のモデルと比較して、YOLO9trの精度と推論速度が優れており、計算効率と検出精度のバランスが取れている。 このモデルは、最大136FPSのフレームレートを実現し、ビデオ監視や自動検査システムなどのリアルタイムアプリケーションに適合する。 本研究は,設計変更とハイパーパラメータ変動がモデル性能に及ぼす影響を解析し,部分的注意ブロックの有効性を検証するためのアブレーション研究である。 その結果, リアルタイム舗装環境モニタリングにおけるYOLO9trの実用的展開の可能性を強調し, 安全かつ機能的な道路インフラを維持するための堅牢で効率的なソリューションの開発に寄与した。

Maintaining road pavement integrity is crucial for ensuring safe and efficient transportation. Conventional methods for assessing pavement condition are often laborious and susceptible to human error. This paper proposes YOLO9tr, a novel lightweight object detection model for pavement damage detection, leveraging the advancements of deep learning. YOLO9tr is based on the YOLOv9 architecture, incorporating a partial attention block that enhances feature extraction and attention mechanisms, leading to improved detection performance in complex scenarios. The model is trained on a comprehensive dataset comprising road damage images from multiple countries, including an expanded set of damage categories beyond the standard four. This broadened classification range allows for a more accurate and realistic assessment of pavement conditions. Comparative analysis demonstrates YOLO9tr's superior precision and inference speed compared to state-of-the-art models like YOLO8, YOLO9 and YOLO10, achieving a balance between computational efficiency and detection accuracy. The model achieves a high frame rate of up to 136 FPS, making it suitable for real-time applications such as video surveillance and automated inspection systems. The research presents an ablation study to analyze the impact of architectural modifications and hyperparameter variations on model performance, further validating the effectiveness of the partial attention block. The results highlight YOLO9tr's potential for practical deployment in real-time pavement condition monitoring, contributing to the development of robust and efficient solutions for maintaining safe and functional road infrastructure.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# BaFTA: ゼロショットビジョンランゲージモデルのためのバックプロップフリーテスト時間適応

BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models ( http://arxiv.org/abs/2406.11309v2 )

ライセンス: Link先を確認
Xuefeng Hu, Ke Zhang, Min Sun, Albert Chen, Cheng-Hao Kuo, Ram Nevatia, (参考訳) CLIPのような大規模事前訓練された視覚言語モデルでは、さまざまな領域にまたがる顕著なゼロショット画像分類機能が示されている。 ゼロショットのパラダイムを保ちながらCLIPの性能を向上させるため、推論中に教師なし学習目的を通じてクラス埋め込みを洗練させる様々なテスト時プロンプトチューニング手法が導入された。 しかし、これらの手法は、テスト時間適応時の検証データがない場合に、故障したトレーニングを防止するための適切な学習率を選択する際の課題に遭遇することが多い。 本研究では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。 テキストの微調整がクラス埋め込みを洗練させる代わりに、我々のアプローチは、テキストと視覚的な埋め込みを整列する投影された埋め込み空間内のオンラインクラスタリングを用いて、クラスセンタロイドを直接推定する。 我々はR'enyi Entropyを用いて予測の信頼性を評価することにより、推定クラス埋め込みと原クラス埋め込みの両方、および異なる拡張ビューから予測を動的に集約する。 広範囲な実験により,BaFTAは最先端の試験時間適応法よりも有効性と効率性に優れていたことが実証された。

Large-scale pretrained vision-language models like CLIP have demonstrated remarkable zero-shot image classification capabilities across diverse domains. To enhance CLIP's performance while preserving the zero-shot paradigm, various test-time prompt tuning methods have been introduced to refine class embeddings through unsupervised learning objectives during inference. However, these methods often encounter challenges in selecting appropriate learning rates to prevent collapsed training in the absence of validation data during test-time adaptation. In this study, we propose a novel backpropagation-free algorithm BaFTA for test-time adaptation of vision-language models. Instead of fine-tuning text prompts to refine class embeddings, our approach directly estimates class centroids using online clustering within a projected embedding space that aligns text and visual embeddings. We dynamically aggregate predictions from both estimated and original class embeddings, as well as from distinct augmented views, by assessing the reliability of each prediction using R\'enyi Entropy. Through extensive experiments, we demonstrate that BaFTA consistently outperforms state-of-the-art test-time adaptation methods in both effectiveness and efficiency.
翻訳日:2024-06-19 11:51:14 公開日:2024-06-18
# CM2-Net:ドライバ動作認識のための連続型クロスモーダルマッピングネットワーク

CM2-Net: Continual Cross-Modal Mapping Network for Driver Action Recognition ( http://arxiv.org/abs/2406.11340v2 )

ライセンス: Link先を確認
Ruoyu Wang, Chen Cai, Wenqian Wang, Jianjun Gao, Dan Lin, Wenyang Liu, Kim-Hui Yap, (参考訳) ドライバーの行動認識は、赤外線や深度などの複数のモードを統合することにより、ドライバーと車両の相互作用を強化し、運転安全性を確保するために著しく進歩している。 それにもかかわらず、RGBのモダリティのみと比較して、車室内環境におけるRGB以外のあらゆる種類のモダリティの広範なデータ収集には、常に努力と費用がかかる。 そのため、従来の研究では、RGBビデオ上で事前訓練されたモデルを微調整することで、各非RGBモダリティを個別に学習することが提案されているが、これらの手法は、大きなドメインギャップによる新たなモダリティに直面した際の情報的特徴の抽出にはあまり効果がない。 これとは対照的に,新たに導入される各モダリティを,事前に学習したモダリティからインストラクティブプロンプトで継続的に学習する連続的クロスモーダルマッピングネットワーク(CM2-Net)を提案する。 具体的には,従来のモダリティから得られた識別的特徴と情報的特徴を,新たに登場するモダリティの特徴空間にマッピングする,累積的クロスモーダルマッピング・プロンプト(ACMP)を開発した。 そして、新しく登場するモダリティに直面すると、これらのマッピングされた機能は、どの機能を抽出して優先順位付けすべきかの効果的なプロンプトを提供することができる。 これらのプロンプトは継続学習プロセスを通じて蓄積され、さらなる認識性能が向上する。 Drive&Actデータセット上で行った大規模な実験は、一乗および多乗の両方のドライバ動作認識におけるCM2-Netの性能上の優位性を実証している。

Driver action recognition has significantly advanced in enhancing driver-vehicle interactions and ensuring driving safety by integrating multiple modalities, such as infrared and depth. Nevertheless, compared to RGB modality only, it is always laborious and costly to collect extensive data for all types of non-RGB modalities in car cabin environments. Therefore, previous works have suggested independently learning each non-RGB modality by fine-tuning a model pre-trained on RGB videos, but these methods are less effective in extracting informative features when faced with newly-incoming modalities due to large domain gaps. In contrast, we propose a Continual Cross-Modal Mapping Network (CM2-Net) to continually learn each newly-incoming modality with instructive prompts from the previously-learned modalities. Specifically, we have developed Accumulative Cross-modal Mapping Prompting (ACMP), to map the discriminative and informative features learned from previous modalities into the feature space of newly-incoming modalities. Then, when faced with newly-incoming modalities, these mapped features are able to provide effective prompts for which features should be extracted and prioritized. These prompts are accumulating throughout the continual learning process, thereby boosting further recognition performances. Extensive experiments conducted on the Drive&Act dataset demonstrate the performance superiority of CM2-Net on both uni- and multi-modal driver action recognition.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# Refiner: 質問応答能力の向上に有効な構造検索コンテンツ

Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities ( http://arxiv.org/abs/2406.11357v2 )

ライセンス: Link先を確認
Zhonghao Li, Xuming Hu, Aiwei Liu, Kening Zheng, Sirui Huang, Hui Xiong, (参考訳) 大規模言語モデル(LLM)はパラメトリックな知識によって制限され、知識集約的なタスクに幻覚をもたらす。 これを解決するために、Retrieval-Augmented Generation (RAG)は外部文書チャンクを組み込んでLCMの知識を拡張する。 さらに、抽出や要約によって文書チャンクから情報を圧縮することで、LCMの性能を向上させることができる。 にもかかわらず、LSMはいまだに「中途半端症候群」として知られる、散在する鍵情報に気づき、利用するのに苦労している。 したがって、我々は通常、重要な情報を認識するためにLLMの内容を再構成する必要がある。 我々は、RAGの検索後のプロセスで機能するエンドツーエンドの抽出・再構成パラダイムである$\textit{Refiner}$を提案する。 $\textit{Refiner}$は、単一のデコーダのみのLLMを利用して、必要なコンテキストに従ってクエリ関連コンテンツを冗長に抽出し、相互接続性に基づいてそれらを分割し、情報区別を強調し、下流のLLMを元のコンテキストと効果的に整合させる。 実験により、訓練された$\textit{Refiner}$ (7Bパラメータ)は、解答精度を向上させるために下流のLLMに顕著な利得を示し、また、様々なシングルホップおよびマルチホップQAタスクにおいて、他の最先端のRAGおよび同時圧縮アプローチよりも優れていることが示された。 特に$\textit{Refiner}$は80.5%のトークン削減と1.6-7.0%の改善率を達成する。 $\textit{Refiner}$は、RAGシステムとシームレスに統合できるプラグイン・アンド・プレイのソリューションで、様々なオープンソース・フレームワークにまたがるアプリケーションを容易にします。

Large Language Models (LLMs) are limited by their parametric knowledge, leading to hallucinations in knowledge-extensive tasks. To address this, Retrieval-Augmented Generation (RAG) incorporates external document chunks to expand LLM knowledge. Furthermore, compressing information from document chunks through extraction or summarization can improve LLM performance. Nonetheless, LLMs still struggle to notice and utilize scattered key information, a problem known as the "lost-in-the-middle" syndrome. Therefore, we typically need to restructure the content for LLM to recognize the key information. We propose $\textit{Refiner}$, an end-to-end extract-and-restructure paradigm that operates in the post-retrieval process of RAG. $\textit{Refiner}$ leverages a single decoder-only LLM to adaptively extract query-relevant contents verbatim along with the necessary context, and section them based on their interconnectedness, thereby highlights information distinction, and aligns downstream LLMs with the original context effectively. Experiments show that a trained $\textit{Refiner}$ (with 7B parameters) exhibits significant gain to downstream LLM in improving answer accuracy, and outperforms other state-of-the-art advanced RAG and concurrent compressing approaches in various single-hop and multi-hop QA tasks. Notably, $\textit{Refiner}$ achieves a 80.5% tokens reduction and a 1.6-7.0% improvement margin in multi-hop tasks compared to the next best solution. $\textit{Refiner}$ is a plug-and-play solution that can be seamlessly integrated with RAG systems, facilitating its application across diverse open-source frameworks.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# HARE: HumAn pRiors

HARE: HumAn pRiors, a key to small language model Efficiency ( http://arxiv.org/abs/2406.11410v2 )

ライセンス: Link先を確認
Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu, (参考訳) 人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。 しかし、大規模言語モデル(LLM)の開発に伴い、モデルのサイズとデータボリュームのスケーリングに重点を置いている。 これらの傾向の影響を受け、既存のSLM(Small Language Models)は、主にウェブスクラッドな大規模トレーニングデータに依存しており、人間の事前の適切な組み入れを無視している。 これにより、リソース制約のある設定での言語モデルのトレーニング効率が制限される。 本稿では,データ構築に人類の優先事項を活用するための原則を提案する。 この原理は、ベンチマークデータの漏洩を回避しつつ、意味的多様性とデータ品質の整合性の両方に対応する簡潔なデータセットをトレーニングすることで、高性能なSLMを実現することを強調する。 この原則に従って、HARE-1.1BというSLMを訓練する。 大規模ベンチマークデータセットに対する大規模な実験により、HARE-1.1Bは最先端のSLMに対して好適に機能し、提案原則の有効性を検証した。 さらに、これは、人間の優先順位の観点から、リソース制約のある環境での効率的な言語モデルトレーニングに関する新たな洞察を提供する。

Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# ソーシャルメディアコメントにおける言語進化

The Evolution of Language in Social Media Comments ( http://arxiv.org/abs/2406.11450v2 )

ライセンス: Link先を確認
Niccolò Di Marco, Edoardo Loru, Anita Bonetti, Alessandra Olga Grazia Serra, Matteo Cinelli, Walter Quattrociocchi, (参考訳) デジタルプラットフォームがユーザ行動に与える影響を理解することは、偏光、誤情報力学、ニュース消費の変動など、基本的な課題を提示する。 プラットフォーム間の比較分析は、様々な年月にわたって、これらの現象に関する重要な洞察を与えることができる。 本研究では,34年間のユーザコメントの言語的特徴について検討し,その複雑さと時間的変化に着目した。 8つのプラットフォームとトピックから約3億の英文コメントのデータセットを利用することで、ユーザコミュニケーションの語彙サイズと言語的豊かさと、時間とともにその進化について検討する。 本研究は, テキスト長のほぼ普遍的な減少, 語彙の豊かさの低下, 反復性の低下を特徴とするソーシャルメディアプラットフォームとトピック間の複雑性パターンの整合性を明らかにした。 こうした傾向にもかかわらず、ユーザーはコメントに新しい単語をほぼ一定の割合で導入する。 この分析は、プラットフォームがユーザーのコメントの複雑さに部分的にしか影響しないことを示している。 代わりに、より広範で普遍的な人間の行動パターンを反映し、オンラインで対話するユーザーの固有の言語傾向を示唆している。

Understanding the impact of digital platforms on user behavior presents foundational challenges, including issues related to polarization, misinformation dynamics, and variation in news consumption. Comparative analyses across platforms and over different years can provide critical insights into these phenomena. This study investigates the linguistic characteristics of user comments over 34 years, focusing on their complexity and temporal shifts. Utilizing a dataset of approximately 300 million English comments from eight diverse platforms and topics, we examine the vocabulary size and linguistic richness of user communications and their evolution over time. Our findings reveal consistent patterns of complexity across social media platforms and topics, characterized by a nearly universal reduction in text length, diminished lexical richness, but decreased repetitiveness. Despite these trends, users consistently introduce new words into their comments at a nearly constant rate. This analysis underscores that platforms only partially influence the complexity of user comments. Instead, it reflects a broader, universal pattern of human behaviour, suggesting intrinsic linguistic tendencies of users when interacting online.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# MedThink: 医療用大規模ビジュアル言語モデルの導入

MedThink: Inducing Medical Large-scale Visual Language Models to Hallucinate Less by Thinking More ( http://arxiv.org/abs/2406.11451v2 )

ライセンス: Link先を確認
Yue Jiang, Jiawei Chen, Dingkang Yang, Mingcheng Li, Shunli Wang, Tong Wu, Ke Li, Lihua Zhang, (参考訳) 大規模視覚言語モデル(LVLM)をマルチモーダルな医療生成タスクに適用する場合、それらは重要なモデル幻覚に悩まされる。 これにより、モデルの生成精度が著しく低下し、LVLMが現実の医療シナリオで実施され、医師が診断を行うのを助けることが困難になる。 下流医療生成タスクのトレーニングデータを強化することは、モデル幻覚に対処する効果的な方法である。 さらに、医療分野におけるトレーニングデータの可用性の制限とプライバシに関する懸念により、モデルの精度と一般化能力は大きく損なわれる。 本稿では,人間の認知過程を模倣して微細な命令ペアを構築する手法を提案し,推論シナリオからトレーニングシナリオへのチェーン・オブ・シント(CoT)の概念の適用により,MedThinkと呼ばれる手法を提案する。 種々のLVLMに関する実験により,医療領域に適した新しいデータ構築手法が,医用画像レポート作成タスクにおけるモデルの性能を大幅に改善し,幻覚を著しく軽減することを示した。 この作業のすべてのリソースはまもなくリリースされます。

When Large Vision Language Models (LVLMs) are applied to multimodal medical generative tasks, they suffer from significant model hallucination issues. This severely impairs the model's generative accuracy, making it challenging for LVLMs to be implemented in real-world medical scenarios to assist doctors in diagnosis. Enhancing the training data for downstream medical generative tasks is an effective way to address model hallucination. Moreover, the limited availability of training data in the medical field and privacy concerns greatly hinder the model's accuracy and generalization capabilities. In this paper, we introduce a method that mimics human cognitive processes to construct fine-grained instruction pairs and apply the concept of chain-of-thought (CoT) from inference scenarios to training scenarios, thereby proposing a method called MedThink. Our experiments on various LVLMs demonstrate that our novel data construction method tailored for the medical domain significantly improves the model's performance in medical image report generation tasks and substantially mitigates the hallucinations. All resources of this work will be released soon.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# テレポーター理論:世界の対物的因果関係をモデル化するための汎用的・簡便なアプローチ

Teleporter Theory: A General and Simple Approach for Modeling Cross-World Counterfactual Causality ( http://arxiv.org/abs/2406.11501v2 )

ライセンス: Link先を確認
Jiangmeng Li, Bin Qin, Qirui Ji, Yi Li, Wenwen Qiang, Jianwen Cao, Fanjiang Xu, (参考訳) 構造因果モデル(SCM)の開発を活用することで、研究者は機械学習技術の背後にある因果メカニズムを探索するためのグラフィカルモデルを確立することができる。 機械学習アプリケーションの複雑さが増大するにつれて、単一世界の介入主義因果分析は理論的適応の限界に遭遇する。 したがって、世界横断の反事実的アプローチは、観測データを超えて因果関係の理解を拡大し、代替シナリオに関する仮説的推論を可能にします。 しかし、反現実変数と実世界の変数を含むクロスワールド変数の連関は、グラフィカルモデルの構築に挑戦する。 双対ネットワークは、グラフィカルモデリングと反事実のギャップを埋める共生関係を確立するための微妙な試みである。 そこで本研究では,ある世界の対実的なシナリオにおいて,ツインネットワークの理論的分解を実証する。 そこで我々は,複数の世界を結ぶためのテレポーター変数を決定するための基準を提供する,カウンターファクトの汎用的でシンプルなグラフィカルな表現を確立するための新しいテレポーター理論を提案する。 理論的には,提案したテレポーター理論を導入することで,複素代数的導出を必要とせず,実世界の実世界の変数と反現実変数との条件独立性を直接得ることができる。 したがって、世界横断の象徴的導出により、さらに反ファクト的因果効果を特定できる。 本稿では,テレポーター理論の実用性を示す。 提案した理論に則って,プラグイン・アンド・プレイ・モジュールを構築し,ベンチマーク実験によりその妥当性を検証した。

Leveraging the development of structural causal model (SCM), researchers can establish graphical models for exploring the causal mechanisms behind machine learning techniques. As the complexity of machine learning applications rises, single-world interventionism causal analysis encounters theoretical adaptation limitations. Accordingly, cross-world counterfactual approach extends our understanding of causality beyond observed data, enabling hypothetical reasoning about alternative scenarios. However, the joint involvement of cross-world variables, encompassing counterfactual variables and real-world variables, challenges the construction of the graphical model. Twin network is a subtle attempt, establishing a symbiotic relationship, to bridge the gap between graphical modeling and the introduction of counterfactuals albeit with room for improvement in generalization. In this regard, we demonstrate the theoretical breakdowns of twin networks in certain cross-world counterfactual scenarios. To this end, we propose a novel teleporter theory to establish a general and simple graphical representation of counterfactuals, which provides criteria for determining teleporter variables to connect multiple worlds. In theoretical application, we determine that introducing the proposed teleporter theory can directly obtain the conditional independence between counterfactual variables and real-world variables from the cross-world SCM without requiring complex algebraic derivations. Accordingly, we can further identify counterfactual causal effects through cross-world symbolic derivation. We demonstrate the generality of the teleporter theory to the practical application. Adhering to the proposed theory, we build a plug-and-play module, and the effectiveness of which are substantiated by experiments on benchmarks.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# 効果的なオンライン強化学習のための線形ベルマン完全性

Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions ( http://arxiv.org/abs/2406.11640v2 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra, (参考訳) 関数近似を用いた強化学習(RL)における最も自然なアプローチの1つは値反復であり、一連の回帰問題を解くことにより、最適値関数への近似を誘導的に生成する。 値反復の成功を保証するため、一般にベルマン完全性は成り立つと仮定され、これらの回帰問題が十分に特定されることが保証される。 本稿では,線形関数近似を用いたオンラインRLモデルにおいて,ベルマン完全性の下で最適ポリシーを学習する問題について検討する。 線形設定では、統計的に効率的なアルゴリズムはベルマン完全性(2017年、Zanette et al (2020年))の下で知られているが、これらのアルゴリズムはすべて、非凸最適化問題の解法を必要とする大域的楽観主義の原理に依存している。 特に、計算効率の良いアルゴリズムが存在するかどうかについては未定のままである。 本稿では,線形ベルマン完全性の下でのRLに対する最初の多項式時間アルゴリズムについて述べる。

One of the most natural approaches to reinforcement learning (RL) with function approximation is value iteration, which inductively generates approximations to the optimal value function by solving a sequence of regression problems. To ensure the success of value iteration, it is typically assumed that Bellman completeness holds, which ensures that these regression problems are well-specified. We study the problem of learning an optimal policy under Bellman completeness in the online model of RL with linear function approximation. In the linear setting, while statistically efficient algorithms are known under Bellman completeness (e.g., Jiang et al. (2017); Zanette et al. (2020)), these algorithms all rely on the principle of global optimism which requires solving a nonconvex optimization problem. In particular, it has remained open as to whether computationally efficient algorithms exist. In this paper we give the first polynomial-time algorithm for RL under linear Bellman completeness when the number of actions is any constant.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# 効果的なPAC学習は'Yes'や'No'に応答するOracleで可能か?

Is Efficient PAC Learning Possible with an Oracle That Responds 'Yes' or 'No'? ( http://arxiv.org/abs/2406.11667v2 )

ライセンス: Link先を確認
Constantinos Daskalakis, Noah Golowich, (参考訳) 経験的リスク最小化(ERM)の原則は、機械学習において非常に影響を受けており、EMMベースの学習アルゴリズムのほぼ最適理論的保証と、近年のディープラーニングにおける経験的成功を推進している。 本稿では,与えられたデータセットに対する経験的リスクを最小化する仮説を計算したERMを実行する能力が,効率的な学習に必要であるかどうかを考察する。 本稿では,2進分類のためのPAC学習の実現可能な設定において,与えられたデータセットがクラス内の何らかの概念によって実現可能かどうかを示す単一ビットのみを返却するオラクルを用いて概念クラスを学習可能であることを示す。 アルゴリズムのサンプルの複雑さとオラクルの複雑さは、仮説クラスのVC次元に多項式的に依存しているため、より弱いオラクルを使用するために支払う多項式価格のみが示される。 また,本研究の結果は,オラクルをわずかに強化した無知学習設定や,部分的概念,マルチクラス,実価値学習設定にまで及んでいる。 部分的概念クラスの設定では, 標準的なERMオラクルであっても, オラクル効率のよいアルゴリズムは知られていない。 そこで,本研究では,アルゴリズムの原理を問うAlon et al (2021) の質問に答えた。

The empirical risk minimization (ERM) principle has been highly impactful in machine learning, leading both to near-optimal theoretical guarantees for ERM-based learning algorithms as well as driving many of the recent empirical successes in deep learning. In this paper, we investigate the question of whether the ability to perform ERM, which computes a hypothesis minimizing empirical risk on a given dataset, is necessary for efficient learning: in particular, is there a weaker oracle than ERM which can nevertheless enable learnability? We answer this question affirmatively, showing that in the realizable setting of PAC learning for binary classification, a concept class can be learned using an oracle which only returns a single bit indicating whether a given dataset is realizable by some concept in the class. The sample complexity and oracle complexity of our algorithm depend polynomially on the VC dimension of the hypothesis class, thus showing that there is only a polynomial price to pay for use of our weaker oracle. Our results extend to the agnostic learning setting with a slight strengthening of the oracle, as well as to the partial concept, multiclass and real-valued learning settings. In the setting of partial concept classes, prior to our work no oracle-efficient algorithms were known, even with a standard ERM oracle. Thus, our results address a question of Alon et al. (2021) who asked whether there are algorithmic principles which enable efficient learnability in this setting.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# 拡張3次元ガウス平滑化のための有効ランク解析と正規化

Effective Rank Analysis and Regularization for Enhanced 3D Gaussian Splatting ( http://arxiv.org/abs/2406.11672v2 )

ライセンス: Link先を確認
Junha Hyung, Susung Hong, Sungwon Hwang, Jaeseong Lee, Jaegul Choo, Jin-Hwa Kim, (参考訳) マルチビュー画像からの3D再構成は、コンピュータビジョンとグラフィックスの基本的な課題の1つである。 近年,高品質な3D再構成によるリアルタイムレンダリング技術として,3Dガウス版3DGSが登場している。 この方法は3次元ガウス表現とタイルベースのスプラッティング技術を利用して、高価なニューラルネットワーククエリをバイパスする。 その可能性にもかかわらず、3DGSは針状アーティファクト、準最適ジオメトリー、不正確な正常といった課題に遭遇する。 有効ランク解析を用いて、3Dガウス原始体の形状統計を解析し、実効ランク1の針状形状に実際に収束するガウスを同定する。 これを解決するために、ガウスの構造を制約する正規化として有効なランクを導入する。 針状アーティファクトの低減を図り, 正規化と幾何化を図った。 このアプローチは他の3DGS亜種へのアドオンモジュールとして統合することができ、視覚的忠実さを損なうことなく品質を向上させることができる。

3D reconstruction from multi-view images is one of the fundamental challenges in computer vision and graphics. Recently, 3D Gaussian Splatting (3DGS) has emerged as a promising technique capable of real-time rendering with high-quality 3D reconstruction. This method utilizes 3D Gaussian representation and tile-based splatting techniques, bypassing the expensive neural field querying. Despite its potential, 3DGS encounters challenges, including needle-like artifacts, suboptimal geometries, and inaccurate normals, due to the Gaussians converging into anisotropic Gaussians with one dominant variance. We propose using effective rank analysis to examine the shape statistics of 3D Gaussian primitives, and identify the Gaussians indeed converge into needle-like shapes with the effective rank 1. To address this, we introduce effective rank as a regularization, which constrains the structure of the Gaussians. Our new regularization method enhances normal and geometry reconstruction while reducing needle-like artifacts. The approach can be integrated as an add-on module to other 3DGS variants, improving their quality without compromising visual fidelity.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# BLoB:大規模言語モデルのバックプロパゲーションによるベイジアン低ランク適応

BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models ( http://arxiv.org/abs/2406.11675v2 )

ライセンス: Link先を確認
Yibin Wang, Haizhou Shi, Ligong Han, Dimitris Metaxas, Hao Wang, (参考訳) 大規模言語モデル(LLM)は、特にデータ制限のある下流ドメイン固有のタスクに適応する場合、推論中に過信に悩まされることが多い。 これまでの研究は、LLMを訓練した後、近似ベイズ推定を用いてこの問題に対処し、不確実性を定量化することを可能にした。 しかし、そのようなポストトレーニングアプローチのパフォーマンスは、トレーニング中に学んだパラメータによって著しく制限される。 本稿では,ベイジアン化後のベイジアン化を超越して,バックプロパゲーションによるベイジアン低ランク適応(BLoB)を提案する。 実験により,分布内および分布外データの両方で評価した場合,BLoBの有効性を一般化と不確実性推定の観点から検証した。

Large Language Models (LLMs) often suffer from overconfidence during inference, particularly when adapted to downstream domain-specific tasks with limited data. Previous work addresses this issue by employing approximate Bayesian estimation after the LLMs are trained, enabling them to quantify uncertainty. However, such post-training approaches' performance is severely limited by the parameters learned during training. In this paper, we go beyond post-training Bayesianization and propose Bayesian Low-Rank Adaptation by Backpropagation (BLoB), an algorithm that continuously and jointly adjusts both the mean and covariance of LLM parameters throughout the whole fine-tuning process. Our empirical results verify the effectiveness of BLoB in terms of generalization and uncertainty estimation, when evaluated on both in-distribution and out-of-distribution data.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# グラフ上のエッジ分類:トポロジ的不均衡の新しい方向

Edge Classification on Graphs: New Directions in Topological Imbalance ( http://arxiv.org/abs/2406.11685v2 )

ライセンス: Link先を確認
Xueqi Cheng, Yu Wang, Yunchao Liu, Yuying Zhao, Charu C. Aggarwal, Tyler Derr, (参考訳) 近年、ノード/グラフ分類とリンク予測にグラフ機械学習(GML)を適用することで、目覚ましい成功を収めている。 しかし、ソーシャルネットワーク分析やサイバーセキュリティなど、多くの現実世界の応用を享受するエッジ分類タスクは、大きな進歩をみていない。 このギャップに対処するため、我々の研究はエッジ分類への包括的アプローチを開拓した。 本稿では,各エッジの局所部分グラフに影響を及ぼし,エッジ分類の性能を損なうような,異なるクラスにまたがるエッジの歪んだ分布から生じる新しい「トポロジカル不均衡問題」を同定する。 局所構造パターンの異なるノード分類における性能差が存在するという最近の研究に着想を得て,位相的不均衡エッジ分類における性能差も局所クラス分布の分散を特徴付けることで緩和できるかどうかを検討することを目的とする。 この課題を克服するために,各エッジのトポロジ的不均衡を測定する新しいトポロジ的指標であるトポロジカルエントロピー(TE)を導入する。 実験により,TEは局所クラス分布の分散を効果的に測定し,高いTE値を持つエッジの優先順位付けがトポロジ的不均衡の問題に対処できることを示す。 そこで我々は,Topological Reweighting と TE Wedge-based Mixup という2つの戦略を開発し,TE に基づく(合成)エッジのトレーニングに焦点をあてる。 トポロジカルリウェイトは、TEに従ってトレーニングエッジを直接操作するが、このウィッジをベースとしたミックスアップは、高いTEウェッジ間の合成エッジを補間する。 最終的に、これらの戦略をエッジ分類のための新しいトポロジ的不均衡戦略、TopoEdgeに統合する。 広範にわたる実験を通じて,新たにキュレートされたデータセットに対する提案手法の有効性を実証し,(不均衡な)エッジ分類のための新しいベンチマークを確立する。

Recent years have witnessed the remarkable success of applying Graph machine learning (GML) to node/graph classification and link prediction. However, edge classification task that enjoys numerous real-world applications such as social network analysis and cybersecurity, has not seen significant advancement. To address this gap, our study pioneers a comprehensive approach to edge classification. We identify a novel `Topological Imbalance Issue', which arises from the skewed distribution of edges across different classes, affecting the local subgraph of each edge and harming the performance of edge classifications. Inspired by the recent studies in node classification that the performance discrepancy exists with varying local structural patterns, we aim to investigate if the performance discrepancy in topological imbalanced edge classification can also be mitigated by characterizing the local class distribution variance. To overcome this challenge, we introduce Topological Entropy (TE), a novel topological-based metric that measures the topological imbalance for each edge. Our empirical studies confirm that TE effectively measures local class distribution variance, and indicate that prioritizing edges with high TE values can help address the issue of topological imbalance. Based on this, we develop two strategies - Topological Reweighting and TE Wedge-based Mixup - to focus training on (synthetic) edges based on their TEs. While topological reweighting directly manipulates training edge weights according to TE, our wedge-based mixup interpolates synthetic edges between high TE wedges. Ultimately, we integrate these strategies into a novel topological imbalance strategy for edge classification: TopoEdge. Through extensive experiments, we demonstrate the efficacy of our proposed strategies on newly curated datasets and thus establish a new benchmark for (imbalanced) edge classification.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# 線形関数近似を用いたオフライン強化学習における遺伝的ベルマン誤差の役割

The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2406.11686v2 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra, (参考訳) 本稿では,線形関数近似を用いたオフラインRL問題について検討する。 我々の構造的前提は、MDP はベルマン誤差が低いことであり、これは線型値関数がグリーディポリシーに関して線形ベルマンバックアップを持つことを規定している。 この仮定は、本質的に価値の反復が成功するために必要な最小限の仮定であるという点において自然なものです。 我々は,データセット上で単一政治カバレッジ条件の下で成功する計算効率のよいアルゴリズム,すなわち,データセットがよく知っているポリシーの少なくともその値のポリシーを出力するアルゴリズムを提案する。 固有ベルマン誤差が 0 であるとき (終端線形ベルマン完全性) であっても、このアルゴリズムは単一政治被覆の下で最初の既知保証が得られる。 正固有ベルマン誤差 ${\varepsilon_{\mathrm{BE}}} > 0$ の設定において、我々のアルゴリズムの準最適誤差は $\sqrt{\varepsilon_{\mathrm{BE}}}$ でスケールすることを示す。 さらに、$\sqrt{\varepsilon_{\mathrm{BE}}}$でのサブ最適性のスケーリングは、いかなるアルゴリズムに対しても改善できないことを証明した。 我々の下限は、不特定性のある強化学習における他の多くの設定とは対照的であり、典型的には、不特定性エラーと線形に劣化する性能を得ることができる。

In this paper, we study the offline RL problem with linear function approximation. Our main structural assumption is that the MDP has low inherent Bellman error, which stipulates that linear value functions have linear Bellman backups with respect to the greedy policy. This assumption is natural in that it is essentially the minimal assumption required for value iteration to succeed. We give a computationally efficient algorithm which succeeds under a single-policy coverage condition on the dataset, namely which outputs a policy whose value is at least that of any policy which is well-covered by the dataset. Even in the setting when the inherent Bellman error is 0 (termed linear Bellman completeness), our algorithm yields the first known guarantee under single-policy coverage. In the setting of positive inherent Bellman error ${\varepsilon_{\mathrm{BE}}} > 0$, we show that the suboptimality error of our algorithm scales with $\sqrt{\varepsilon_{\mathrm{BE}}}$. Furthermore, we prove that the scaling of the suboptimality with $\sqrt{\varepsilon_{\mathrm{BE}}}$ cannot be improved for any algorithm. Our lower bound stands in contrast to many other settings in reinforcement learning with misspecification, where one can typically obtain performance that degrades linearly with the misspecification error.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# CHG共有: 信頼できる機械学習に向けた効率的なデータ評価と選択

CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning ( http://arxiv.org/abs/2406.11730v2 )

ライセンス: Link先を確認
Huaiguang Cai, (参考訳) 機械学習モデルの意思決定プロセスを理解することは、信頼できる機械学習を保証するために不可欠である。 データバリュエーションに関する目覚ましい研究であるData Shapleyは、各ダタムの精度モデルへの貢献を評価することによって、この理解を深める。 しかしながら、複数のモデル再トレーニングのリソース集約的で時間を要する性質は、大規模なデータセットにData Shapleyを適用する上での課題を提起する。 そこで本研究では,CHG(Conduct of Hardness and Gradient)スコアを提案する。 CHGスコアユーティリティ関数の下で各データポイントに対するShapley値のクローズドフォーム式を導出することにより、計算複雑性を1つのモデル再トレーニングと同程度に減らし、既存の手法よりも指数関数的に改善する。 さらに、リアルタイムデータ選択にCHG Shapleyを使用し、その高値および雑音データ同定の有効性を実証する。 CHG Shapleyは、効率的なデータバリュエーションを通じて信頼できるモデルトレーニングを促進し、信頼できる機械学習に関する新しいデータ中心の視点を導入する。

Understanding the decision-making process of machine learning models is crucial for ensuring trustworthy machine learning. Data Shapley, a landmark study on data valuation, advances this understanding by assessing the contribution of each datum to model accuracy. However, the resource-intensive and time-consuming nature of multiple model retraining poses challenges for applying Data Shapley to large datasets. To address this, we propose the CHG (Conduct of Hardness and Gradient) score, which approximates the utility of each data subset on model accuracy during a single model training. By deriving the closed-form expression of the Shapley value for each data point under the CHG score utility function, we reduce the computational complexity to the equivalent of a single model retraining, an exponential improvement over existing methods. Additionally, we employ CHG Shapley for real-time data selection, demonstrating its effectiveness in identifying high-value and noisy data. CHG Shapley facilitates trustworthy model training through efficient data valuation, introducing a novel data-centric perspective on trustworthy machine learning.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# 機械的解釈可能性によるモデル性能の保証

Provable Guarantees for Model Performance via Mechanistic Interpretability ( http://arxiv.org/abs/2406.11779v2 )

ライセンス: Link先を確認
Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip, Alex Gibson, Soufiane Noubir, Lawrence Chan, (参考訳) 本研究では,モデル性能の形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性 (リバースエンジニアリングモデルウェイトを人間解釈可能なアルゴリズムに変換する技術) を用いることを提案する。 提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。 我々は,コンピュータ支援型証明戦略を102種類作成し,それぞれのモデルに対して,その長さと厳密さを評価する。 定量的な測定値を用いることで、より短い証明が必要になり、より機械的な理解が得られます。 さらに、より忠実なメカニスティックな理解が、パフォーマンス境界の厳密化につながることが分かっています。 これらの関係は、証明のサブセットを質的に検証することで確認する。 最後に, モデル性能に関するコンパクトな証明を生成するために, 機械的解釈可能性を利用する上で重要な課題として, 合成構造のないノイズを同定する。

In this work, we propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18
# DataComp-LM:言語モデルのための次世代トレーニングセットの探索

DataComp-LM: In search of the next generation of training sets for language models ( http://arxiv.org/abs/2406.11794v2 )

ライセンス: Link先を確認
Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldaini, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, Vaishaal Shankar, (参考訳) 言語モデルを改善することを目的として,制御されたデータセット実験のためのテストベッドであるDataComp for Language Models (DCLM)を紹介した。 DCLMの一部として、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。 DCLMのベースラインとして、我々は広範囲な実験を行い、モデルに基づくフィルタリングが高品質なトレーニングセットを構成する上で鍵となることを発見した。 得られたデータセットであるDCLM-Baselineは、MMLUで7Bパラメータ言語モデルをスクラッチから64%の5ショットの精度で2.6Tのトレーニングトークンでトレーニングすることができる。 オープンデータ言語モデルにおける従来の最先端技術であるMAP-Neoと比較して、DCLM-Baseline は MMLU の6.6 パーセントの改善であり、計算能力は40% 削減された。 我々のベースラインモデルはMMLU上でのMistral-7B-v0.3とLlama 3 8B(63%と66%)に匹敵するものであり、Llama 3 8Bよりも6.6倍少ない計算でトレーニングしながら、平均53の自然言語理解タスクでも同様に機能する。 本結果は,言語モデルの学習におけるデータセット設計の重要性を強調し,データキュレーションのさらなる研究の出発点となる。

We introduce DataComp for Language Models (DCLM), a testbed for controlled dataset experiments with the goal of improving language models. As part of DCLM, we provide a standardized corpus of 240T tokens extracted from Common Crawl, effective pretraining recipes based on the OpenLM framework, and a broad suite of 53 downstream evaluations. Participants in the DCLM benchmark can experiment with data curation strategies such as deduplication, filtering, and data mixing at model scales ranging from 412M to 7B parameters. As a baseline for DCLM, we conduct extensive experiments and find that model-based filtering is key to assembling a high-quality training set. The resulting dataset, DCLM-Baseline enables training a 7B parameter language model from scratch to 64% 5-shot accuracy on MMLU with 2.6T training tokens. Compared to MAP-Neo, the previous state-of-the-art in open-data language models, DCLM-Baseline represents a 6.6 percentage point improvement on MMLU while being trained with 40% less compute. Our baseline model is also comparable to Mistral-7B-v0.3 and Llama 3 8B on MMLU (63% & 66%), and performs similarly on an average of 53 natural language understanding tasks while being trained with 6.6x less compute than Llama 3 8B. Our results highlight the importance of dataset design for training language models and offer a starting point for further research on data curation.
翻訳日:2024-06-19 11:41:25 公開日:2024-06-18