このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240402となっている論文です。

PDF登録状況(公開日: 20240402)

TitleAuthorsAbstract論文公表日・翻訳日
# 古典的および量子的相関関係の定量化のための因果モデル

A Causal Model for Quantifying Multipartite Classical and Quantum Correlations ( http://arxiv.org/abs/2401.16414v3 )

ライセンス: Link先を確認
Shuchan Wang, Gerhard Wunder, (参考訳) 我々は、与えられた複数の古典的あるいは量子的相関の中で情報理論資源の操作的定義を与える。 我々は,この相関関係の情報源符号化側として機能する因果モデルを提案し,資源レートという新しい概念を導入する。 我々は、古典的な機密性以外にも、分散コンピューティング問題のセキュリティに有用なリソースが存在しており、リソースレートによって捕捉できると論じている。 さらに,資源レートとシャノンの対数情報尺度の拡張,すなわち総相関との関係を確立する。 その後、新しい量子シークレットシーモノトンを提案し、我々の因果モデルの拡張として量子ハイブリッド鍵分布系について検討する。 最後に、最適輸送(OT)問題へのいくつかの接続について議論する。

We give an operational definition of information-theoretic resources within a given multipartite classical or quantum correlation. We present our causal model that serves as the source coding side of this correlation and introduce a novel concept of resource rate. We argue that, beyond classical secrecy, additional resources exist that are useful for the security of distributed computing problems, which can be captured by the resource rate. Furthermore, we establish a relationship between resource rate and an extension of Shannon's logarithmic information measure, namely, total correlation. Subsequently, we present a novel quantum secrecy monotone and investigate a quantum hybrid key distribution system as an extension of our causal model. Finally, we discuss some connections to optimal transport (OT) problem.
翻訳日:2024-07-22 23:56:51 公開日:2024-04-02
# 深層学習による極低出力ポケット型ドローンの害虫モニタリングシステム

A Deep Learning-based Pest Insect Monitoring System for Ultra-low Power Pocket-sized Drones ( http://arxiv.org/abs/2407.00815v1 )

ライセンス: Link先を確認
Luca Crupi, Luca Butera, Alberto Ferrante, Daniele Palossi, (参考訳) スマート農業と精密農業は、効率的で持続可能な農業のためのゲームチェンジャー技術である。 小型のパームサイズのドローンは、作物を検査する柔軟なスマートセンサーとして機能し、害虫の早期発生の兆候を探すことができる。 しかし、そのような野心的な目標を達成するためには、ハードウェア・ソフトウェア・コーデックが正確な深層学習(DL)検出モデルを開発する必要がある。 この研究は、2つの超低消費電力のSystem-on-Chips(SoCs)、すなわちデュアルコアのSTM32H74とマルチコアのGWT GAP9を備え、Popillia japonicaバグを検出するための2つのState-of-the-Art DLモデルを実行する。 イメージベース検出タスクのために両方のモデルを微調整し、8ビット整数で定量化し、2つのSoCにデプロイします。 STM32H74では,FOMO-MobileNetV2モデルをデプロイし,平均平均mAPを0.66mW,16.1fpsで498mWで動作させる。 GAP9 SoCでは、より複雑なSSDLite-MobileNetV3をデプロイします。 トップノートのRetinaNet-ResNet101-FPNのフル精度ベースラインは14.9倍のメモリと300倍のオペレーションを必要とするが、私たちの最良のモデルはmAPでわずか15倍の差しかなく、軽量で正確な害虫検出が可能な自律パームサイズのドローンへの道を歩んでいる。

Smart farming and precision agriculture represent game-changer technologies for efficient and sustainable agribusiness. Miniaturized palm-sized drones can act as flexible smart sensors inspecting crops, looking for early signs of potential pest outbreaking. However, achieving such an ambitious goal requires hardware-software codesign to develop accurate deep learning (DL) detection models while keeping memory and computational needs under an ultra-tight budget, i.e., a few MB on-chip memory and a few 100s mW power envelope. This work presents a novel vertically integrated solution featuring two ultra-low power System-on-Chips (SoCs), i.e., the dual-core STM32H74 and a multi-core GWT GAP9, running two State-of-the-Art DL models for detecting the Popillia japonica bug. We fine-tune both models for our image-based detection task, quantize them in 8-bit integers, and deploy them on the two SoCs. On the STM32H74, we deploy a FOMO-MobileNetV2 model, achieving a mean average precision (mAP) of 0.66 and running at 16.1 frame/s within 498 mW. While on the GAP9 SoC, we deploy a more complex SSDLite-MobileNetV3, which scores an mAP of 0.79 and peaks at 6.8 frame/s within 33 mW. Compared to a top-notch RetinaNet-ResNet101-FPN full-precision baseline, which requires 14.9x more memory and 300x more operations per inference, our best model drops only 15\% in mAP, paving the way toward autonomous palm-sized drones capable of lightweight and precise pest detection.
翻訳日:2024-07-22 22:38:24 公開日:2024-04-02
# プランニングドメインジェネレータとしての大規模言語モデル

Large Language Models as Planning Domain Generators ( http://arxiv.org/abs/2405.06650v1 )

ライセンス: Link先を確認
James Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi, (参考訳) ドメインモデルの開発は、AI計画において人手作業を必要とする数少ない場所の1つである。 したがって、プランニングをより使いやすくするためには、ドメインモデル生成のプロセスを自動化することが望ましい。 そこで本研究では,大規模言語モデル(LLM)を用いて,簡単なテキスト記述から計画的ドメインモデルを生成する方法について検討する。 具体的には、LLM生成ドメインの自動評価のためのフレームワークについて、ドメインインスタンスの計画セットを比較して紹介する。 最後に,9つの計画領域にまたがるコーディングモデルとチャットモデル,および自然言語ドメイン記述の3つのクラスを含む,7つの大規模言語モデルの実証分析を行う。 以上の結果から,LLM,特に高いパラメータ数を持つものは,自然言語記述から適切な計画領域を生成するのに適度な習熟度を示した。 私たちのコードはhttps://github.com/IBM/NL2PDDLで公開されています。

Developing domain models is one of the few remaining places that require manual human labor in AI planning. Thus, in order to make planning more accessible, it is desirable to automate the process of domain model generation. To this end, we investigate if large language models (LLMs) can be used to generate planning domain models from simple textual descriptions. Specifically, we introduce a framework for automated evaluation of LLM-generated domains by comparing the sets of plans for domain instances. Finally, we perform an empirical analysis of 7 large language models, including coding and chat models across 9 different planning domains, and under three classes of natural language domain descriptions. Our results indicate that LLMs, particularly those with high parameter counts, exhibit a moderate level of proficiency in generating correct planning domains from natural language descriptions. Our code is available at https://github.com/IBM/NL2PDDL.
翻訳日:2024-07-01 10:40:42 公開日:2024-04-02
# 政党内部民主主義のための人工知能

Artificial Intelligence for the Internal Democracy of Political Parties ( http://arxiv.org/abs/2405.09529v1 )

ライセンス: Link先を確認
Claudio Novelli, Giuliano Formisano, Prathm Juneja, Giulia Sandri, Luciano Floridi, (参考訳) 記事では、AIは政党内の民主的プロセスの測定と実装を強化することができる、と論じている。 形式的パラメータや自己報告データ、調査のようなツールに依存することが多いIDDを測定する従来の方法の限界を特定します。 このような制限は、部分的なデータの収集、まれな更新、リソースに対する大きな要求につながります。 これらの問題に対処するために、自然言語処理や感情分析のような特定のデータ管理と機械学習(ML)技術は、IDDの測定(ML about)と実践(ML for)を改善することができると提案する。 記事は結論として、データプライバシに関する懸念、操作の可能性、テクノロジへの過信の危険性など、IDDにおけるMLの主なリスクについて検討している。

The article argues that AI can enhance the measurement and implementation of democratic processes within political parties, known as Intra-Party Democracy (IPD). It identifies the limitations of traditional methods for measuring IPD, which often rely on formal parameters, self-reported data, and tools like surveys. Such limitations lead to the collection of partial data, rare updates, and significant demands on resources. To address these issues, the article suggests that specific data management and Machine Learning (ML) techniques, such as natural language processing and sentiment analysis, can improve the measurement (ML about) and practice (ML for) of IPD. The article concludes by considering some of the principal risks of ML for IPD, including concerns over data privacy, the potential for manipulation, and the dangers of overreliance on technology.
翻訳日:2024-07-01 08:49:26 公開日:2024-04-02
# 高精度・ロバストなサイドウォーク検出:都市環境におけるLCM制限を克服するためのアンサンブル学習の活用

Precise and Robust Sidewalk Detection: Leveraging Ensemble Learning to Surpass LLM Limitations in Urban Environments ( http://arxiv.org/abs/2405.14876v1 )

ライセンス: Link先を確認
Ibne Farabi Shihab, Benjir Islam Alvee, Sudesh Ramesh Bhagat, Anuj Sharma, (参考訳) 本研究の目的は,頑健なアンサンブルモデルと最先端のONE-PEACE大言語モデル(LLM)を比較して,歩道の正確な検出を行うことである。 正確な歩道検出は道路安全と都市計画の改善に不可欠である。 この研究は、Cityscapes、Ade20k、およびBoston Datasetにおけるモデルの性能を評価した。 その結果、アンサンブルモデルは個々のモデルよりも優れており、理想的な条件下でのデータセット上での平均Intersection Over Union(mIOU)スコアは93.1\%、90.3\%、90.6\%であった。 さらに,ソルト・アンド・ペッパー (Salt-and-Pepper) やスペックル・ノイズ (Speckle noise) といった難易度条件においても,アンサンブルモデルの性能は一貫した水準を維持した。 一方、ONE-PEACE LLMは理想的なシナリオではアンサンブルモデルよりも若干性能が優れていたが、ノイズのある条件下では性能が著しく低下した。 これらの結果から, アンサンブルモデルの堅牢性と信頼性が示され, 道路安全と空間管理の抑制に関する都市インフラ整備に有用であることが示唆された。 本研究は、都市保健と移動の幅広い文脈に肯定的な貢献をする。

This study aims to compare the effectiveness of a robust ensemble model with the state-of-the-art ONE-PEACE Large Language Model (LLM) for accurate detection of sidewalks. Accurate sidewalk detection is crucial in improving road safety and urban planning. The study evaluated the model's performance on Cityscapes, Ade20k, and the Boston Dataset. The results showed that the ensemble model performed better than the individual models, achieving mean Intersection Over Union (mIOU) scores of 93.1\%, 90.3\%, and 90.6\% on these datasets under ideal conditions. Additionally, the ensemble model maintained a consistent level of performance even in challenging conditions such as Salt-and-Pepper and Speckle noise, with only a gradual decrease in efficiency observed. On the other hand, the ONE-PEACE LLM performed slightly better than the ensemble model in ideal scenarios but experienced a significant decline in performance under noisy conditions. These findings demonstrate the robustness and reliability of the ensemble model, making it a valuable asset for improving urban infrastructure related to road safety and curb space management. This study contributes positively to the broader context of urban health and mobility.
翻訳日:2024-07-01 08:29:41 公開日:2024-04-02
# ソフトマテリアルシミュレーションによる条件評価モデルの事前学習のための視覚的変形検出

Visual Deformation Detection Using Soft Material Simulation for Pre-training of Condition Assessment Models ( http://arxiv.org/abs/2405.14877v1 )

ライセンス: Link先を確認
Joel Sol, Amir M. Soufi Enayati, Homayoun Najjaran, (参考訳) 本稿では,製造における幾何学的品質保証の課題,特に人的評価が必要な場合について論じる。 オープンソースのシミュレーションツールであるBlenderを使用して、機械学習(ML)モデルのための合成データセットを作成することを提案する。 このプロセスでは、専門家情報を形状キーパラメータに翻訳して変形をシミュレートし、変形したオブジェクトと非変形したオブジェクトの両方のイメージを生成する。 本研究は,実環境と模擬環境の相違がMLモデルの性能に及ぼす影響について検討し,異なるシミュレーション背景がモデル感度に与える影響について検討した。 さらに,様々なランダムな視点のデータセットを生成することにより,カメラ位置決めに対するモデルの堅牢性を高めることを目的とした。 データ合成からモデルトレーニング、テストに至るまで、プロセス全体は、Blenderと対面するPython APIを使用して実装されている。 ソーダ缶オブジェクトによる実験は、提案したパイプラインの精度を検証する。

This paper addresses the challenge of geometric quality assurance in manufacturing, particularly when human assessment is required. It proposes using Blender, an open-source simulation tool, to create synthetic datasets for machine learning (ML) models. The process involves translating expert information into shape key parameters to simulate deformations, generating images for both deformed and non-deformed objects. The study explores the impact of discrepancies between real and simulated environments on ML model performance and investigates the effect of different simulation backgrounds on model sensitivity. Additionally, the study aims to enhance the model's robustness to camera positioning by generating datasets with a variety of randomized viewpoints. The entire process, from data synthesis to model training and testing, is implemented using a Python API interfacing with Blender. An experiment with a soda can object validates the accuracy of the proposed pipeline.
翻訳日:2024-07-01 08:29:41 公開日:2024-04-02
# 法医学的ショットプリントマッチングのための機械学習手法の改良と評価

Improving and Evaluating Machine Learning Methods for Forensic Shoeprint Matching ( http://arxiv.org/abs/2405.14878v1 )

ライセンス: Link先を確認
Divij Jain, Saatvik Kher, Lena Liang, Yufeng Wu, Ashley Zheng, Xizhen Cai, Anna Plantinga, Elizabeth Upton, (参考訳) 本稿では,既存の手法の精度と汎用性を改善することを目的とした,法医学的な靴紋パターンマッチングのための機械学習パイプラインを提案する。 エッジ検出を用いて2D座標を抽出し,2つの靴柄を反復的最近点(ICP)に整列する。 次に、類似度指標を抽出して、2つのプリントがどれだけうまく一致しているかを定量化し、これらの指標を使用してランダムな森林をトレーニングし、2つのプリントが同じアウトソールから発生した可能性の確率的測定を生成する。 実験室の靴プリントスキャンで訓練された機械学習手法の、より現実的な犯罪現場の靴プリントデータへの一般化性を評価するために、いくつかの靴プリントシナリオにおいて、本手法の精度を評価する。 あるタイプの靴プリントでトレーニングされたモデルは、同じシナリオの靴プリントペアでテストした場合、極めて高い精度が得られるが、他のシナリオに一般化することができない。 また、さまざまなシナリオでトレーニングされたモデルが、特定のシナリオでトレーニングされたモデルと同じくらい正確に予測できることもわかりました。

We propose a machine learning pipeline for forensic shoeprint pattern matching that improves on the accuracy and generalisability of existing methods. We extract 2D coordinates from shoeprint scans using edge detection and align the two shoeprints with iterative closest point (ICP). We then extract similarity metrics to quantify how well the two prints match and use these metrics to train a random forest that generates a probabilistic measurement of how likely two prints are to have originated from the same outsole. We assess the generalisability of machine learning methods trained on lab shoeprint scans to more realistic crime scene shoeprint data by evaluating the accuracy of our methods on several shoeprint scenarios: partial prints, prints with varying levels of blurriness, prints with different amounts of wear, and prints from different shoe models. We find that models trained on one type of shoeprint yield extremely high levels of accuracy when tested on shoeprint pairs of the same scenario but fail to generalise to other scenarios. We also discover that models trained on a variety of scenarios predict almost as accurately as models trained on specific scenarios.
翻訳日:2024-07-01 08:29:41 公開日:2024-04-02
# GUARD-D-LLM:LLMの下流利用のためのLCMに基づくリスクアセスメントエンジン

GUARD-D-LLM: An LLM-Based Risk Assessment Engine for the Downstream uses of LLMs ( http://arxiv.org/abs/2406.11851v1 )

ライセンス: Link先を確認
sundaraparipurnan Narayanan, Sandeep Vishwakarma, (参考訳) AIシステムによる有害行為に対する懸念の高まりの中で、リスク管理は特に欧州連合のAI法で要求されるハイリスクな応用において、最重要事項を想定している。 ISO と NIST が提供するガイドラインは,AI のリスク管理を統括することを目的としているが,学術研究の実践は乏しい。 この空白に対処するため,本研究では,大規模言語モデル(LLM)の下流から発生するリスクについて検討し,先行研究に基づく分類学の合成を行った。 本研究は,LLMに基づくリスク評価エンジン(GUARD-D-LLM: Guided Understanding and Assessment for Risk Detection for Downstream use of LLMs)を導入し,テキストベースのユーザ入力から得られた特定のユースケースに関する脅威を特定し,ランク付けする。 30の知的エージェントを統合することで、この革新的なアプローチは、悪夢のリスクを特定し、その重症度を測定し、緩和のためのターゲットとなる提案を提供し、リスク認識開発を促進する。 また、このようなアプローチの限界と、リスクアセスメントにおける専門家の強化への提言を文書化し、早期のリスクの特定と早期の軽減を可能にするGUARD-D-LLMを活用している。 本稿とその関連コードは,LLMベースのアプリケーションに関連するリスクを軽減するために,開発者の貴重なリソースとして機能する。

Amidst escalating concerns about the detriments inflicted by AI systems, risk management assumes paramount importance, notably for high-risk applications as demanded by the European Union AI Act. Guidelines provided by ISO and NIST aim to govern AI risk management; however, practical implementations remain scarce in scholarly works. Addressing this void, our research explores risks emanating from downstream uses of large language models (LLMs), synthesizing a taxonomy grounded in earlier research. Building upon this foundation, we introduce a novel LLM-based risk assessment engine (GUARD-D-LLM: Guided Understanding and Assessment for Risk Detection for Downstream use of LLMs) designed to pinpoint and rank threats relevant to specific use cases derived from text-based user inputs. Integrating thirty intelligent agents, this innovative approach identifies bespoke risks, gauges their severity, offers targeted suggestions for mitigation, and facilitates risk-aware development. The paper also documents the limitations of such an approach along with way forward suggestions to augment experts in such risk assessment thereby leveraging GUARD-D-LLM in identifying risks early on and enabling early mitigations. This paper and its associated code serve as a valuable resource for developers seeking to mitigate risks associated with LLM-based applications.
翻訳日:2024-07-01 07:40:34 公開日:2024-04-02
# メンタルヘルス自動化のための言語モデルからのリスク--倫理と実装の構造

Risks from Language Models for Automated Mental Healthcare: Ethics and Structure for Implementation ( http://arxiv.org/abs/2406.11852v1 )

ライセンス: Link先を確認
Declan Grabb, Max Lamparth, Nina Vasan, (参考訳) 自動精神医療のためのタスク自律型AI開発への関心が高まっている中で、この問題に関連する倫理的・実践的な課題に対処し、自律性のレベルを規定し、倫理的要件を概説し、メンタルヘルスサポートの文脈においてAIエージェントの既定のデフォルト動作を定義する構造化されたフレームワークを提案する。 また,精神病,精神病,うつ病,自殺思考,殺人傾向などの精神疾患を反映した16のメンタルヘルス関連質問を用いた10の最先端言語モデルの評価を行った。 質問設計と対応評価は精神保健医(M.D.s)が行った。 既存の言語モデルは、ニュアンスをナビゲートし、文脈を理解できる人間専門家の標準に適合するには不十分である。 これは、過度に慎重な反応やサイコファンティックな反応、必要な安全策が欠如していることなど、様々な問題によるものである。 また、検査されたモデルのほとんどは、メンタルヘルスの緊急事態でアクセスされた場合、ユーザーを保護することができず、既存の症状を悪化させる可能性があることもわかりました。 現行モデルの安全性を高めるためのソリューションを探究する。 メンタルヘルスにおけるタスク自律型AIシステムのリリースの前には、これらのモデルが一般的な精神疾患の症状を確実に検出し、管理し、ユーザへの害を防ぐことが不可欠である。 これは、倫理的な枠組みと、我々の研究で概説されたデフォルトの行動と整合性を伴う。 モデル開発者は、現在のAI技術がユーザのメンタルヘルスと安全性にもたらすリスクに対して、これらのガイドラインに従ってシステムを改善する責任を負っている、と我々は主張する。 トリガー警告(Triger warning):自殺や自傷などの精神医学的トピックを包含し、議論する。

Amidst the growing interest in developing task-autonomous AI for automated mental health care, this paper addresses the ethical and practical challenges associated with the issue and proposes a structured framework that delineates levels of autonomy, outlines ethical requirements, and defines beneficial default behaviors for AI agents in the context of mental health support. We also evaluate ten state-of-the-art language models using 16 mental health-related questions designed to reflect various mental health conditions, such as psychosis, mania, depression, suicidal thoughts, and homicidal tendencies. The question design and response evaluations were conducted by mental health clinicians (M.D.s). We find that existing language models are insufficient to match the standard provided by human professionals who can navigate nuances and appreciate context. This is due to a range of issues, including overly cautious or sycophantic responses and the absence of necessary safeguards. Alarmingly, we find that most of the tested models could cause harm if accessed in mental health emergencies, failing to protect users and potentially exacerbating existing symptoms. We explore solutions to enhance the safety of current models. Before the release of increasingly task-autonomous AI systems in mental health, it is crucial to ensure that these models can reliably detect and manage symptoms of common psychiatric disorders to prevent harm to users. This involves aligning with the ethical framework and default behaviors outlined in our study. We contend that model developers are responsible for refining their systems per these guidelines to safeguard against the risks posed by current AI technologies to user mental health and safety. Trigger warning: Contains and discusses examples of sensitive mental health topics, including suicide and self-harm.
翻訳日:2024-07-01 07:40:34 公開日:2024-04-02
# デジタル誤報の社会技術次元の復号 : 総合的な文献レビュー

Decoding the Sociotechnical Dimensions of Digital Misinformation: A Comprehensive Literature Review ( http://arxiv.org/abs/2406.11853v1 )

ライセンス: Link先を確認
Alisson Andrey Puska, Luiz Adolpho Baroni, Roberto Pereira, (参考訳) 本稿では,デジタル誤報に関するイニシアチブの概要を概説する,コンピュータサイエンスにおける体系的な文献レビューについて述べる。 これは1993年から2020年までの研究をカバーし、誤情報現象の研究に焦点を当てた探索研究である。 このレビューは、SCOPUS、IEEE、ACMデジタルライブラリーによる788の研究から成っており、主要な研究方向と社会技術的課題を合成している。 これらの課題は、物理的、経験的、シンタクティック、セマンティック、プラグマティック、社会的な次元に分類され、組織的セミオティックスから引き出された。 このマッピングは、誤情報の概念に関する問題を特定し、緩和戦略の欠陥を強調し、ステークホルダーにアプローチする際の課題を議論し、デジタル誤情報の有害な影響を理解し緩和することに関連する様々な社会技術的側面を明らかにする。 本研究は, 社会工学的側面の相互関係とその影響を詳述した, 緩和戦略の新たな分類, 偽情報の種類分類のための社会工学的分類法を提示する。

This paper presents a systematic literature review in Computer Science that provide an overview of the initiatives related to digital misinformation. This is an exploratory study that covers research from 1993 to 2020, focusing on the investigation of the phenomenon of misinformation. The review consists of 788 studies from SCOPUS, IEEE, and ACM digital libraries, synthesizing the primary research directions and sociotechnical challenges. These challenges are classified into Physical, Empirical, Syntactic, Semantic, Pragmatic, and Social dimensions, drawing from Organizational Semiotics. The mapping identifies issues related to the concept of misinformation, highlights deficiencies in mitigation strategies, discusses challenges in approaching stakeholders, and unveils various sociotechnical aspects relevant to understanding and mitigating the harmful effects of digital misinformation. As contributions, this study present a novel categorization of mitigation strategies, a sociotechnical taxonomy for classifying types of false information and elaborate on the inter-relation of sociotechnical aspects and their impacts.
翻訳日:2024-07-01 07:40:34 公開日:2024-04-02
# 拡張脳波回帰のためのTCNetによる事前学習型ViTのFusing

Fusing Pretrained ViTs with TCNet for Enhanced EEG Regression ( http://arxiv.org/abs/2404.15311v1 )

ライセンス: Link先を確認
Eric Modesitt, Haicheng Yin, Williams Huang Wang, Brian Lu, (参考訳) 脳波(EEG)解析の課題は脳-コンピュータインタフェース(BCI)の発展に最重要である。 しかし、堅牢で有用なBCIを開発するという目標を達成するには、BCIが神経力学を理解する速度と精度に大きく依存する。 本論文は,脳波回帰の精度を高めるために,事前学習された視覚変換器(ViT)と時間畳み込みネットワーク(TCNet)の統合について詳述する。 このアプローチのコアとなるのは、ViTのシーケンシャルなデータ処理強度とTCNetの優れた特徴抽出能力を活用して、EEG分析の精度を大幅に向上させることである。 さらに、速度と精度のトレードオフを解析し、バランスをとるためのアテンション機構に最適なパッチを構築することの重要性を分析する。 この結果,EEGEyeNetの絶対位置タスクにおいて,ルート平均角誤差(RMSE)が55.4から51.8に削減され,既存の最先端モデルよりも精度が向上した。 性能を犠牲にすることなく、このモデルの速度を桁違いに向上させる(最大4.32倍高速)。 このブレークスルーは、EEG回帰分析の新しいベンチマークを設定するだけでなく、トランスフォーマーアーキテクチャと様々なEEGデータセットのための特別な特徴抽出メソッドの統合における将来の研究のための新たな道を開く。

The task of Electroencephalogram (EEG) analysis is paramount to the development of Brain-Computer Interfaces (BCIs). However, to reach the goal of developing robust, useful BCIs depends heavily on the speed and the accuracy at which BCIs can understand neural dynamics. In response to that goal, this paper details the integration of pre-trained Vision Transformers (ViTs) with Temporal Convolutional Networks (TCNet) to enhance the precision of EEG regression. The core of this approach lies in harnessing the sequential data processing strengths of ViTs along with the superior feature extraction capabilities of TCNet, to significantly improve EEG analysis accuracy. In addition, we analyze the importance of how to construct optimal patches for the attention mechanism to analyze, balancing both speed and accuracy tradeoffs. Our results showcase a substantial improvement in regression accuracy, as evidenced by the reduction of Root Mean Square Error (RMSE) from 55.4 to 51.8 on EEGEyeNet's Absolute Position Task, outperforming existing state-of-the-art models. Without sacrificing performance, we increase the speed of this model by an order of magnitude (up to 4.32x faster). This breakthrough not only sets a new benchmark in EEG regression analysis but also opens new avenues for future research in the integration of transformer architectures with specialized feature extraction methods for diverse EEG datasets.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-02
# 歩行分析によるリアルタイム人物識別

Realtime Person Identification via Gait Analysis ( http://arxiv.org/abs/2404.15312v1 )

ライセンス: Link先を確認
Shanmuga Venkatachalam, Harideep Nair, Prabhu Vellaisamy, Yongqi Zhou, Ziad Youssfi, John Paul Shen, (参考訳) それぞれの人は独自の歩行、すなわち歩行スタイルを持ち、個人識別のための生体認証として使用することができる。 近年の研究では、ディープニューラルネットワークを用いた効果的な歩行認識が実証されているが、これらの研究のほとんどは、モデル効率よりも分類精度に重点を置いている。 エッジ上のウェアラブルデバイスを用いて歩行認識を行うためには,マイクロコントローラなどの小型フォームファクタデバイスに展開可能な,高効率な低消費電力モデルを開発することが不可欠である。 本稿では,エッジAIの展開とリアルタイム歩行認識に非常に適した4層を有する小型CNNモデルを提案する。 このモデルは、著者が収集したデータを20のクラスに拡張した公開歩行データセットでトレーニングされ、合計24のクラスに集約された。 我々のモデルは96.7%の精度を達成し,Arduino Nano 33 BLE Sense上で連続的な推論を行いながら,70ms,125mWの推論時間で5KBのRAMしか消費しない。 そこで我々は,Arduino上で動作するモデルを用いて著者のリアルタイム同定を成功させ,その有効性を実証し,近い将来に実用システムに展開する可能性を示す。

Each person has a unique gait, i.e., walking style, that can be used as a biometric for personal identification. Recent works have demonstrated effective gait recognition using deep neural networks, however most of these works predominantly focus on classification accuracy rather than model efficiency. In order to perform gait recognition using wearable devices on the edge, it is imperative to develop highly efficient low-power models that can be deployed on to small form-factor devices such as microcontrollers. In this paper, we propose a small CNN model with 4 layers that is very amenable for edge AI deployment and realtime gait recognition. This model was trained on a public gait dataset with 20 classes augmented with data collected by the authors, aggregating to 24 classes in total. Our model achieves 96.7% accuracy and consumes only 5KB RAM with an inferencing time of 70 ms and 125mW power, while running continuous inference on Arduino Nano 33 BLE Sense. We successfully demonstrated realtime identification of the authors with the model running on Arduino, thus underscoring the efficacy and providing a proof of feasiblity for deployment in practical systems in near future.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-02
# NLOS UWBチャネルにおける直接経路成分欠如の検出

Detection of direct path component absence in NLOS UWB channel ( http://arxiv.org/abs/2404.15314v1 )

ライセンス: Link先を確認
Marcin Kolakowski, Jozef Modelski, (参考訳) 本稿では,新しいNLOS(Non-Line-of-Sight)識別手法を提案する。 文献で説明されている他の方法と比較すると、遅延したダイレクトパスコンポーネントが完全にブロックされ、導入されるバイアスがずっと高くなり、緩和するのが難しくなる状況が分かる。 本手法では,様々な信号特徴に基づいて,SVM(Support Vector Machine)アルゴリズムを用いてNLOS識別を行う。 本報告では,本手法と実験結果について述べる。

In this paper a novel NLOS (Non-Line-of-Sight) identification technique is proposed. In comparison to other methods described in the literature, it discerns a situation when the delayed direct path component is available from when it's totally blocked and introduced biases are much higher and harder to mitigate. In the method, NLOS identification is performed using Support Vector Machine (SVM) algorithm based on various signal features. The paper includes description of the method and the results of performed experiment.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-02
# 経験的達成関数を用いた単目的ブラックボックス最適化アルゴリズムの解析

Using the Empirical Attainment Function for Analyzing Single-objective Black-box Optimization Algorithms ( http://arxiv.org/abs/2404.02031v1 )

ライセンス: Link先を確認
Manuel López-Ibáñez, Diederick Vermetten, Johann Dreo, Carola Doerr, (参考訳) 繰り返しブラックボックスオプティマイザの性能を評価する方法として広く受け入れられているのは、所定のランタイムよりも遅く達成された、事前定義された品質目標の経験的累積分布関数(ECDF)を分析することである。 本研究では,経験的達成関数(EAF)に基づく代替手法を検討するとともに,対象とするECDFがAEFの近似であることを示す。 我々は、EAFがターゲットベースECDFに対していくつかの優位性を持っていると論じる。 特に、関数毎の品質目標を定義する必要はなく、パフォーマンスの違いをより正確に捉え、分析を豊かにする追加の要約統計を使用することが可能である。 また、収束曲線上の平均面積は、より単純で計算できるが、同値な任意の時間性能の測定値であることを示す。 EAFのアクセシビリティを容易にするため、IOHanalyzerプラットフォームにモジュールを統合して計算する。 最後に、合成例とBBOBスイートで利用可能なデータを通して、AEFの使用について説明する。

A widely accepted way to assess the performance of iterative black-box optimizers is to analyze their empirical cumulative distribution function (ECDF) of pre-defined quality targets achieved not later than a given runtime. In this work, we consider an alternative approach, based on the empirical attainment function (EAF) and we show that the target-based ECDF is an approximation of the EAF. We argue that the EAF has several advantages over the target-based ECDF. In particular, it does not require defining a priori quality targets per function, captures performance differences more precisely, and enables the use of additional summary statistics that enrich the analysis. We also show that the average area over the convergence curves is a simpler-to-calculate, but equivalent, measure of anytime performance. To facilitate the accessibility of the EAF, we integrate a module to compute it into the IOHanalyzer platform. Finally, we illustrate the use of the EAF via synthetic examples and via the data available for the BBOB suite.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-02
# Federated Distillation: A Survey

Federated Distillation: A Survey ( http://arxiv.org/abs/2404.08564v1 )

ライセンス: Link先を確認
Lin Li, Jianping Gou, Baosheng Yu, Lan Du, Zhang Yiand Dacheng Tao, (参考訳) Federated Learning (FL)は、個々のクライアントからプライベートトレーニングデータを共有せずに、モデルを協調的にトレーニングすることを目指している。 その約束にもかかわらず、FLは大規模モデルの通信コストの高さや、すべてのクライアントとサーバをまたがる統一モデルアーキテクチャの必要性といった課題に直面している。 これらの課題はFLの実用化を厳しく制限した。 これらの制限に対処するため、知識蒸留(KD)をFLに統合し、フェデレート蒸留(FD)と呼ばれるものを形成することが提案されている。 FDはクライアントとサーバ間のより柔軟な知識伝達を可能にし、単なるモデルパラメータの共有を超越します。 クライアントとサーバをまたいだ同一のモデルアーキテクチャの必要性をなくすことで、FDは大規模モデルのトレーニングに関連する通信コストを軽減します。 本稿は、FDの概要を概観し、その最新の進歩を明らかにすることを目的としている。 FDフレームワークの設計の基礎となる基本原則を掘り下げ、さまざまな課題に取り組むためのFDアプローチを明確にし、さまざまなシナリオにおけるFDの多様な応用に関する洞察を提供する。

Federated Learning (FL) seeks to train a model collaboratively without sharing private training data from individual clients. Despite its promise, FL encounters challenges such as high communication costs for large-scale models and the necessity for uniform model architectures across all clients and the server. These challenges severely restrict the practical applications of FL. To address these limitations, the integration of knowledge distillation (KD) into FL has been proposed, forming what is known as Federated Distillation (FD). FD enables more flexible knowledge transfer between clients and the server, surpassing the mere sharing of model parameters. By eliminating the need for identical model architectures across clients and the server, FD mitigates the communication costs associated with training large-scale models. This paper aims to offer a comprehensive overview of FD, highlighting its latest advancements. It delves into the fundamental principles underlying the design of FD frameworks, delineates FD approaches for tackling various challenges, and provides insights into the diverse applications of FD across different scenarios.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-02
# CATP: 精度保存型マルチモーダルモデル推論のためのクロスアテンショントケンプルーニング

CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference ( http://arxiv.org/abs/2404.08567v1 )

ライセンス: Link先を確認
Ruqi Liao, Chuqing Zhao, Jin Li, Weiqi Feng, (参考訳) 大規模マルチモーダルモデルへの関心が高まり,高精度なトークンプルーニング手法であるクロスアテンショントークンプルーニング(CATP)を導入する。 本手法は,BLIP-2で実証したマルチモーダルモデルのクロスアテンション層を利用して,トークンの重要度決定に有用な情報を抽出する。 CATPはモデルヘッドと層をまたいだ洗練された投票戦略を採用している。 評価において、CATPは既存のトークンプルーニング法と比較して最大12.1倍の精度を達成し、計算効率とモデル精度のトレードオフに対処する。

In response to the rising interest in large multimodal models, we introduce Cross-Attention Token Pruning (CATP), a precision-focused token pruning method. Our approach leverages cross-attention layers in multimodal models, exemplified by BLIP-2, to extract valuable information for token importance determination. CATP employs a refined voting strategy across model heads and layers. In evaluations, CATP achieves up to 12.1X higher accuracy compared to existing token pruning methods, addressing the trade-off between computational efficiency and model precision.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-02
# AIに基づく特許法に関する包括的調査

A Comprehensive Survey on AI-based Methods for Patents ( http://arxiv.org/abs/2404.08668v1 )

ライセンス: Link先を確認
Homaira Huda Shomee, Zhu Wang, Sathya N. Ravi, Sourav Medya, (参考訳) 人工知能(AI)と機械学習の最近の進歩は、さまざまな領域にまたがるトランスフォーメーション能力を示している。 この進歩は、AIベースのツールが、分類、検索、評価予測といった特許サイクルにおける重要なタスクを合理化し、強化する機会を提供する、特許分析とイノベーションの分野にまで及んでいる。 これは、特許研究者や申請者の効率を向上するだけでなく、技術革新と発見のための新たな道を開く。 私たちの調査では、2017年から2023年の間に26の会場から40以上の論文から、最近のAIツールに関する包括的な要約を公開しています。 既存の調査と異なり、特許画像とテキストデータのために機能する手法を含んでいる。 さらに,特許ライフサイクルの課題とAI手法の具体性に基づく分類のための新しい分類法を導入する。 この調査は、AIによる特許分析の分野における研究者、実践者、特許事務所のリソースとして機能することを目的としている。

Recent advancements in Artificial Intelligence (AI) and machine learning have demonstrated transformative capabilities across diverse domains. This progress extends to the field of patent analysis and innovation, where AI-based tools present opportunities to streamline and enhance important tasks in the patent cycle such as classification, retrieval, and valuation prediction. This not only accelerates the efficiency of patent researchers and applicants but also opens new avenues for technological innovation and discovery. Our survey provides a comprehensive summary of recent AI tools in patent analysis from more than 40 papers from 26 venues between 2017 and 2023. Unlike existing surveys, we include methods that work for patent image and text data. Furthermore, we introduce a novel taxonomy for the categorization based on the tasks in the patent life cycle as well as the specifics of the AI methods. This survey aims to serve as a resource for researchers, practitioners, and patent offices in the domain of AI-powered patent analysis.
翻訳日:2024-04-21 20:04:31 公開日:2024-04-02
# バルマーのピーク:実証的な検索

The Ballmer Peak: An Empirical Search ( http://arxiv.org/abs/2404.10002v1 )

ライセンス: Link先を確認
Twm Stone, Jaz Stoddart, (参考訳) Ballmer Peak」の概念は2007年に初めて提案され、超人的プログラミング能力を示す非常に特殊な血液アルコール含量が存在すると仮定した。 より一般的には、コーディングは少し飲んだ後により簡単で生産性の高いものであるという、ソフトウェアエンジニアの間では、一般的に信じられている信念がある。 コーディング能力評価のための業界標準を用いて,このようなピークを探索し,アルコールの量の違いがパフォーマンスに与える影響を概観した。 p < 0.001で、低量のアルコール(わずか2杯)がプログラミング能力に有意な効果があることが判明した。

The concept of a 'Ballmer Peak' was first proposed in 2007, postulating that there exists a very specific blood alcohol content which confers superhuman programming ability. More generally, there is a commonly held belief among software engineers that coding is easier and more productive after a few drinks. Using the industry standard for assessment of coding ability, we conducted a search for such a peak and more generally investigated the effect of different amounts of alcohol on performance. We conclusively refute the existence of a specific peak with large magnitude, but with p < 0.001 find that there was a significant positive effect to a low amount of alcohol - slightly less than two drinks - on programming ability.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-02
# 大規模言語モデルの推論効率を高める:最適化戦略とアーキテクチャ革新を探る

Enhancing Inference Efficiency of Large Language Models: Investigating Optimization Strategies and Architectural Innovations ( http://arxiv.org/abs/2404.05741v1 )

ライセンス: Link先を確認
Georgy Tyukin, (参考訳) 大きな言語モデルのサイズは拡大しています。 しかし、このサイズの増加は推論コストに深刻な影響を及ぼす。 したがって、モデル圧縮は、より大きなモデルの性能を維持するために重要であるが、それを実行するコストは削減されている。 本稿では,モデル圧縮の手法を考察し,トランスフォーマーLLMにおける後続の注意サブレイヤをスキップする簡単な手法がモデル圧縮の有効な方法であることを示す。 その結果,Llama 2 7Bでは21%の高速化が見られた。

Large Language Models are growing in size, and we expect them to continue to do so, as larger models train quicker. However, this increase in size will severely impact inference costs. Therefore model compression is important, to retain the performance of larger models, but with a reduced cost of running them. In this thesis we explore the methods of model compression, and we empirically demonstrate that the simple method of skipping latter attention sublayers in Transformer LLMs is an effective method of model compression, as these layers prove to be redundant, whilst also being incredibly computationally expensive. We observed a 21% speed increase in one-token generation for Llama 2 7B, whilst surprisingly and unexpectedly improving performance over several common benchmarks.
翻訳日:2024-04-14 13:13:23 公開日:2024-04-02
# AbelがCainを殺害したとき: 機械翻訳ができないものは何か?

When Abel Kills Cain: What Machine Translation Cannot Capture ( http://arxiv.org/abs/2404.04279v1 )

ライセンス: Link先を確認
Aurélien Bénel, Joris Falip, Philippe Lacour, (参考訳) この記事では、構造的な観点から、AIベースの自動翻訳装置が完全にキャプチャできないものを特定することを目的としている。 原因を説明するために、機械のミスに焦点を当てる。 Ca\"in"と"Abel"の聖書の物語は、その豊かな解釈と批判的な伝統から選ばれてきたが、その意味的な難しさのためにも選ばれた。 この調査は、このテキストの翻訳において、最もよく知られている機械翻訳サービス(Google Translate, DeepL)が提供する言語ペアとインターフェースの観察から始まる。 次に、最も頻繁な翻訳誤りの類型化が確立される。 最後に、それぞれの独特な貢献を説明するために、現代翻訳を比較する。 結論として, 翻訳理論の改訂, 翻訳, 翻訳, 限界, 解釈, 比較, 統一, 文化テキストに関する技術改革を提案する。

The article aims at identifying what, from a structural point of view, AI based automatic translators cannot fully capture. It focuses on the machine's mistakes, in order to try to explain its causes. The biblical story of Ca\"in and Abel has been chosen because of its rich interpretive and critical tradition, but also because of its semantic difficulty. The investigation begins with the observation, for the translation of this text, of the language pairs and interfaces offered by the best known machine translation services (Google Translate, DeepL). A typology of the most frequent translation errors is then established. Finally, contemporary translations are compared, in order to underline the unique contribution of each. In conclusion, the article suggests a revision of translation theory and, corArtificial Intelligence, Translation, Limitations, Interpretation, Comparison, Unicityelatively, a reformulation of its technology concerning cultural texts.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-02
# ガウス過程学習に基づくモデル予測制御に関する研究

A Tutorial on Gaussian Process Learning-based Model Predictive Control ( http://arxiv.org/abs/2404.03689v1 )

ライセンス: Link先を確認
Jie Wang, Youmin Zhang, (参考訳) 本チュートリアルでは,ガウス的プロセス学習に基づくモデル予測制御(GP-MPC)の体系的導入について述べる。 GP回帰の基本から始まり、予測精度の向上と不確実性の堅牢なハンドリングでMPCをいかに豊かにするかを説明する。 このチュートリアルの中心的な貢献は、GP-MPCの文献における最初の詳細な体系的な数学的定式化であり、GP多段階予測のための手段の近似と分散伝播の導出に焦点を当てている。 GP-MPCの現実的有効性と適応性を示すために, 挑戦的な地形における移動ロボットの経路追従や混合車両小隊などのロボット制御の実践的応用について論じる。 本チュートリアルは,GP-MPCを研究者や実践者に利用しやすくし,より深い理論的・実践的な洞察で学習ベースの制御分野を充実させ,複雑なシステム制御のさらなる革新を促進することを目的とする。

This tutorial provides a systematic introduction to Gaussian process learning-based model predictive control (GP-MPC), an advanced approach integrating Gaussian process (GP) with model predictive control (MPC) for enhanced control in complex systems. It begins with GP regression fundamentals, illustrating how it enriches MPC with enhanced predictive accuracy and robust handling of uncertainties. A central contribution of this tutorial is the first detailed, systematic mathematical formulation of GP-MPC in literature, focusing on deriving the approximation of means and variances propagation for GP multi-step predictions. Practical applications in robotics control, such as path-following for mobile robots in challenging terrains and mixed-vehicle platooning, are discussed to demonstrate the real-world effectiveness and adaptability of GP-MPC. This tutorial aims to make GP-MPC accessible to researchers and practitioners, enriching the learning-based control field with in-depth theoretical and practical insights and fostering further innovations in complex system control.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-02
# 電力価格の確率予測のための点予測の事後処理-多様性の問題

Postprocessing of point predictions for probabilistic forecasting of electricity prices: Diversity matters ( http://arxiv.org/abs/2404.02270v1 )

ライセンス: Link先を確認
Arkadiusz Lipiecki, Bartosz Uniejewski, Rafał Weron, (参考訳) 電力価格の予測分布に依存する運用上の決定は、ポイント予測のみに基づくものに比べて著しく高い利益をもたらす可能性がある。 しかし、学術と工業の両方で開発されたモデルのほとんどは、ポイント予測しか提供していない。 そこで本研究では,点予測を確率的に変換する3つのポストプロセッシング手法について検討する。 IDRは最も多様な性能を示すが、その予測分布と他の2つの手法を組み合わせた結果、caが向上することがわかった。 通常の分散エラーのベンチマークモデルと比べて7.5%は、新型コロナウイルスのパンデミックとウクライナでの戦争にまたがるドイツの電力市場における4.5年間のテスト期間である。 注目すべきは、この組み合わせのパフォーマンスが、最先端の分散ディープニューラルネットワークと同等であることだ。

Operational decisions relying on predictive distributions of electricity prices can result in significantly higher profits compared to those based solely on point forecasts. However, the majority of models developed in both academic and industrial settings provide only point predictions. To address this, we examine three postprocessing methods for converting point forecasts into probabilistic ones: Quantile Regression Averaging, Conformal Prediction, and the recently introduced Isotonic Distributional Regression. We find that while IDR demonstrates the most varied performance, combining its predictive distributions with those of the other two methods results in an improvement of ca. 7.5% compared to a benchmark model with normally distributed errors, over a 4.5-year test period in the German power market spanning the COVID pandemic and the war in Ukraine. Remarkably, the performance of this combination is at par with state-of-the-art Distributional Deep Neural Networks.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-02
# 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃

Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models ( http://arxiv.org/abs/2404.02928v1 )

ライセンス: Link先を確認
Jiachen Ma, Anda Cao, Zhiqing Xiao, Jie Zhang, Chao Ye, Junbo Zhao, (参考訳) 画像生成コミュニティの急速な進歩は世界中で注目を集めている。 安全性の問題をさらに精査し、研究する必要がある。 この分野には、主に後処理設計、モデル固有の、あるいは最適下画像の品質生成を実現するいくつかの研究がある。 それにもかかわらず,本稿では,三つのメリットを享受できるブラックボックス攻撃法を見出す。 可能。 一 理論上、事実上この広大なユーザコミュニティに危険をもたらす、指示的かつ意味的駆動的な攻撃。 (二)必然的にブラックボックス方式でホワイトボックス攻撃を超越し、 (iii)後処理を一切必要とせずに。 提案手法のコアとなるのは,T2Iモデルにおける分類自由誘導(CFG)の持つ特性に着想を得た概念であり,CLIP埋め込み空間において,意味的損失と付加的なセンシティブな単語リストを併用して,フラストレーションに単純なガイダンスを実行することは極めて有効であることがわかった。 さらに,既存の防御機構の脆弱性を明らかにし,強調した。

The fast advance of the image generation community has attracted attention worldwide. The safety issue needs to be further scrutinized and studied. There have been a few works around this area mostly achieving a post-processing design, model-specific, or yielding suboptimal image quality generation. Despite that, in this article, we discover a black-box attack method that enjoys three merits. It enables (i)-attacks both directed and semantic-driven that theoretically and practically pose a hazard to this vast user community, (ii)-surprisingly surpasses the white-box attack in a black-box manner and (iii)-without requiring any post-processing effort. Core to our approach is inspired by the concept guidance intriguing property of Classifier-Free guidance (CFG) in T2I models, and we discover that conducting frustratingly simple guidance in the CLIP embedding space, coupled with the semantic loss and an additionally sensitive word list works very well. Moreover, our results expose and highlight the vulnerabilities in existing defense mechanisms.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-02
# テレコム標準を理解するために大規模言語モデルを使用する

Using Large Language Models to Understand Telecom Standards ( http://arxiv.org/abs/2404.02929v1 )

ライセンス: Link先を確認
Athanasios Karapantelakis, Mukesh Shakur, Alexandros Nikou, Farnaz Moradi, Christian Orlog, Fitsum Gaim, Henrik Holm, Doumitrou Daniil Nimara, Vincent Huang, (参考訳) 第3世代パートナーシッププロジェクト(3GPP)は、グローバルモビリティの標準の導入に成功している。 しかし、これらの標準の量と複雑さは時間とともに増加し、ベンダーやサービスプロバイダの関連情報へのアクセスが複雑化しています。 生成人工知能(AI)と特にLarge Language Models(LLM)の使用は、関連する情報へのより高速なアクセスを提供する可能性がある。 本稿では,3GPP文書参照のための質問応答 (QA) アシスタントとして使用する最先端のLCMの性能を評価する。 私たちの貢献は3倍です。 まず,LLMの性能評価のためのベンチマークと測定方法を提案する。 第2に、これらのLLMの1つのデータ前処理と微調整を行い、全てのLLMに適用される応答の精度を高めるためのガイドラインを提供する。 第3に、基礎的なLCMと同等に動作するが、パラメータの桁数が桁違い少ない独自のTeleRoBERTaのモデルを提供する。 その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用でき,トラブルシューティングやメンテナンス,ネットワーク操作,ソフトウェア製品開発など,さまざまな応用の可能性が示唆された。

The Third Generation Partnership Project (3GPP) has successfully introduced standards for global mobility. However, the volume and complexity of these standards has increased over time, thus complicating access to relevant information for vendors and service providers. Use of Generative Artificial Intelligence (AI) and in particular Large Language Models (LLMs), may provide faster access to relevant information. In this paper, we evaluate the capability of state-of-art LLMs to be used as Question Answering (QA) assistants for 3GPP document reference. Our contribution is threefold. First, we provide a benchmark and measuring methods for evaluating performance of LLMs. Second, we do data preprocessing and fine-tuning for one of these LLMs and provide guidelines to increase accuracy of the responses that apply to all LLMs. Third, we provide a model of our own, TeleRoBERTa, that performs on-par with foundation LLMs but with an order of magnitude less number of parameters. Results show that LLMs can be used as a credible reference tool on telecom technical documents, and thus have potential for a number of different applications from troubleshooting and maintenance, to network operations and software product development.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-02
# ブロックチェーンのスループットをブロックするものは何か? - 許可されたブロックチェーンのボットネックを識別するための一般化可能なアプローチを開発する

What Blocks My Blockchain's Throughput? Developing a Generalizable Approach for Identifying Bottlenecks in Permissioned Blockchains ( http://arxiv.org/abs/2404.02930v1 )

ライセンス: Link先を確認
Orestis Papageorgiou, Lasse Börtzler, Egor Ermolaev, Jyoti Kumari, Johannes Sedlmeir, (参考訳) 分散化を必要とするさまざまなユースケースに対して、これまで無許可のブロックチェーンが満足できない企業要件に対処する、許可されたブロックチェーンが提案されている。しかしながら、一般的な許可されたブロックチェーンは、確立された中央集権型システムと比較して、スループットが比較的低い。その結果、研究者たちは、さまざまな許可されたブロックチェーンに関するベンチマーク調査を実施して、制限を特定し、場合によってはそのボトルネックを、改善のための方法を見つけるために実施している。 しかし、これらのアプローチは非常に異質で比較が難しいため、基盤となる特定のブロックチェーンの実装には高いレベルの専門知識が必要である。 本稿では、関連する作業の体系的レビュー、分散Ledger Performance Scan(DLPS)の実験、およびそのグラフィカル評価機能の拡張に基づいて、許可されたブロックチェーンのボトルネックを特定するためのより統一的でグラフィカルなアプローチを開発する。 Hyperledger FabricとQuorumという,異なるアーキテクチャ設計で広く使用されている2つのパーミッションブロックチェーンについて,詳細なケーススタディを実施しています。 私たちは、認可されたブロックチェーンの評価や改善に取り組んでいる研究者や実践者に対して、ツールキット、ドキュメントするデータに関するガイドライン、ボトルネックの検索プロセスの進行方法に関する洞察を提供しています。

Permissioned blockchains have been proposed for a variety of use cases that require decentralization yet address enterprise requirements that permissionless blockchains to date cannot satisfy -- particularly in terms of performance. However, popular permissioned blockchains still exhibit a relatively low maximum throughput in comparison to established centralized systems. Consequently, researchers have conducted several benchmarking studies on different permissioned blockchains to identify their limitations and -- in some cases -- their bottlenecks in an attempt to find avenues for improvement. Yet, these approaches are highly heterogeneous, difficult to compare, and require a high level of expertise in the implementation of the underlying specific blockchain. In this paper, we develop a more unified and graphical approach for identifying bottlenecks in permissioned blockchains based on a systematic review of related work, experiments with the Distributed Ledger Performance Scan (DLPS), and an extension of its graphical evaluation functionalities. We conduct in-depth case studies on Hyperledger Fabric and Quorum, two widely used permissioned blockchains with distinct architectural designs, demonstrating the adaptability of our framework across different blockchains. We provide researchers and practitioners working on evaluating or improving permissioned blockchains with a toolkit, guidelines on what data to document, and insights on how to proceed in the search process for bottlenecks.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-02
# READ: 副次的視点による関係抽出の改善

READ: Improving Relation Extraction from an ADversarial Perspective ( http://arxiv.org/abs/2404.02931v1 )

ライセンス: Link先を確認
Dawei Li, William Hogan, Jingbo Shang, (参考訳) 関係抽出(RE)における最近の研究は、有望なベンチマーク精度を達成したが、我々の敵攻撃実験は、これらの研究がエンティティに過度に依存していることを示し、それらの一般化能力を疑問視している。 そこで本研究では,REに特化して設計された対戦型トレーニング手法を提案する。 提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。 さらに,敵の訓練中にクリーントークンを文脈に残す確率的戦略を導入する。 この戦略は、エンティティに対するより大きなアタック予算を可能にし、コンテキストに埋め込まれたリレーショナルパターンを活用するためにモデルをコークスする。 実験結果から, 各種逆行訓練法と比較して, モデルの精度とロバスト性は有意に向上することがわかった。 さらに、異なるデータ可用性設定に関する実験は、低リソースシナリオにおける我々の方法の有効性を強調します。 また,提案手法の詳細な分析を行い,さらなるヒントを提供する。 コードをhttps://github.com/David-Li0406/READ.comでリリースします。

Recent works in relation extraction (RE) have achieved promising benchmark accuracy; however, our adversarial attack experiments show that these works excessively rely on entities, making their generalization capability questionable. To address this issue, we propose an adversarial training method specifically designed for RE. Our approach introduces both sequence- and token-level perturbations to the sample and uses a separate perturbation vocabulary to improve the search for entity and context perturbations. Furthermore, we introduce a probabilistic strategy for leaving clean tokens in the context during adversarial training. This strategy enables a larger attack budget for entities and coaxes the model to leverage relational patterns embedded in the context. Extensive experiments show that compared to various adversarial training methods, our method significantly improves both the accuracy and robustness of the model. Additionally, experiments on different data availability settings highlight the effectiveness of our method in low-resource scenarios. We also perform in-depth analyses of our proposed method and provide further hints. We will release our code at https://github.com/David-Li0406/READ.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-02
# 深部強化学習における自己監督探索のための変分力学

Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2010.08755v3 )

ライセンス: Link先を確認
Chenjia Bai, Peng Liu, Kaiyu Liu, Lingxiao Wang, Yingnan Zhao, Lei Han, (参考訳) 効率的な探索は強化学習において難しい問題であり、特に環境からの外因的な報酬が希少であるか、あるいは完全に無視されるタスクにおいてである。 内在的モチベーションに基づく重要な進歩は、単純な環境では有望な結果を示すが、しばしばマルチモーダルおよび確率力学を持つ環境で立ち往生する。 本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性と確率性をモデル化する。 本研究では, 環境状態-行動遷移を, 現在の状態, 行動, 潜伏変数の条件下での次状態予測を生成することによって条件生成過程とみなす。 我々は,環境遷移の負の対数類似度の上界を導出し,その上界を探索の本質的な報酬として利用することにより,外生的な報酬を観察することなく,自己監督的な探索によってスキルを学ぶことができる。 提案手法を複数の画像ベースシミュレーションタスクと実際のロボット操作タスクで評価する。 提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。

Efficient exploration remains a challenging problem in reinforcement learning, especially for tasks where extrinsic rewards from environments are sparse or even totally disregarded. Significant advances based on intrinsic motivation show promising results in simple environments but often get stuck in environments with multimodal and stochastic dynamics. In this work, we propose a variational dynamic model based on the conditional variational inference to model the multimodality and stochasticity. We consider the environmental state-action transition as a conditional generative process by generating the next-state prediction under the condition of the current state, action, and latent variable, which provides a better understanding of the dynamics and leads a better performance in exploration. We derive an upper bound of the negative log-likelihood of the environmental transition and use such an upper bound as the intrinsic reward for exploration, which allows the agent to learn skills by self-supervised exploration without observing extrinsic rewards. We evaluate the proposed method on several image-based simulation tasks and a real robotic manipulating task. Our method outperforms several state-of-the-art environment model-based exploration approaches.
翻訳日:2024-04-05 00:13:17 公開日:2024-04-02
# ノイズプローブによる量子照明:非ガウスの条件的利点

Quantum illumination with noisy probes: Conditional advantages of non-Gaussianity ( http://arxiv.org/abs/2107.02774v2 )

ライセンス: Link先を確認
Rivu Gupta, Saptarshi Roy, Tamoghna Das, Aditi Sen De, (参考訳) 2モードの圧縮真空状態と同様に、絡み合った状態は、熱背景に沈んだ弱い反射ターゲットを検出する方法である照明プロトコルにおいて量子的優位性を与えることが知られている。 非ガウス光子付加および減光状態は、全方位熱雑音の上の局所ガウス雑音の影響を受け、照明プロトコルのプローブとして用いる。 コヒーレントな状態と、同じ信号強度を持つ非ガウス状態の正の値が照明における量子的優位を示すチェルノフ境界との差に基づいて、ガウス状態は、単位信号強度の相関に相反する非ガウス状態の階層性を強調するが、ガウス状態は最高の性能を提供する。 興味深いことに、チャーノフ境界を用いて比較を行う場合、そのような階層は異なる。 全分析は、故障したツインビーム発生装置、不完全光子付加(減光)、およびノイズの多い非ガウスプローブ状態の存在下で行われる。

Entangled states, like the two-mode squeezed vacuum state, are known to give quantum advantage in the illumination protocol, a method to detect a weakly reflecting target submerged in a thermal background. We use non-Gaussian photon-added and -subtracted states, affected by local Gaussian noise on top of the omnipresent thermal noise, as probes in the illumination protocol. Based on the difference between the Chernoff bounds obtained with the coherent state and the non-Gaussian state having equal signal strengths, whose positive values denote quantum advantage in illumination, we highlight the hierarchy among non-Gaussian states, which is compatible with correlations per unit signal strength, although the Gaussian states offer the best performance. Interestingly, such hierarchy is different when comparisons are made using the Chernoff bounds. The entire analysis is performed in the presence of different imperfect apparatus like faulty twin-beam generator, imperfect photon addition (subtraction) as well as with noisy non-Gaussian probe states.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-02
# 安全な専門家によるロバスト出力制御バリア関数の学習

Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations ( http://arxiv.org/abs/2111.09971v3 )

ライセンス: Link先を確認
Lars Lindemann, Alexander Robey, Lejun Jiang, Satyajeet Das, Stephen Tu, Nikolai Matni, (参考訳) 本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。 システムダイナミクスのモデルと状態推定器が,実際のデータから推定されるエラー境界,例えばデータなどとともに利用できると仮定する。 まず,安全な集合の制御前方不変性を通じて定義された安全を保証する手段として,ロバスト出力制御障壁関数(ROCBF)を提案する。 次に、人間の操作者や専門家の制御者から収集したデータなど、安全なシステム動作を示す専門家のデモンストレーションからROCBFを学習するための最適化問題を定式化する。 ROCBFのパラメトリゼーションが線形であれば、軽微な仮定では最適化問題は凸であることを示す。 最適化問題に加えて,データの密度,システムモデルと状態推定器の滑らかさ,得られたROCBFの妥当性を保証する誤差境界の大きさなどの観点から検証可能な条件を提供する。 本稿では,現実的な制御アルゴリズムの実現に向けて,我々の理論的枠組みのアルゴリズム的実装を提案する。 我々は,自律走行シミュレータCARLAにおけるアルゴリズムの有効性を検証し,シミュレーションされたRGBカメラ画像から安全な制御法を学習する方法を実証する。

This paper addresses learning safe output feedback control laws from partial observations of expert demonstrations. We assume that a model of the system dynamics and a state estimator are available along with corresponding error bounds, e.g., estimated from data in practice. We first propose robust output control barrier functions (ROCBFs) as a means to guarantee safety, as defined through controlled forward invariance of a safe set. We then formulate an optimization problem to learn ROCBFs from expert demonstrations that exhibit safe system behavior, e.g., data collected from a human operator or an expert controller. When the parametrization of the ROCBF is linear, then we show that, under mild assumptions, the optimization problem is convex. Along with the optimization problem, we provide verifiable conditions in terms of the density of the data, smoothness of the system model and state estimator, and the size of the error bounds that guarantee validity of the obtained ROCBF. Towards obtaining a practical control algorithm, we propose an algorithmic implementation of our theoretical framework that accounts for assumptions made in our framework in practice. We validate our algorithm in the autonomous driving simulator CARLA and demonstrate how to learn safe control laws from simulated RGB camera images.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-02
# 単一量子系の量子スーパーセンス符号化と通信の古典的類似

Classical analogue of quantum superdense coding and communication advantage of a single quantum system ( http://arxiv.org/abs/2202.06796v3 )

ライセンス: Link先を確認
Ram Krishna Patra, Sahil Gopalkrishna Naik, Edwin Peter Lobo, Samrat Sen, Tamal Guha, Some Sankar Bhattacharya, Mir Alimuddin, Manik Banik, (参考訳) 我々は,送信側と受信側の間で共有される量子的あるいは古典的相関の短さがなければ通信チャネルの有用性を解析する。 そこで,本稿では,送信側から受信側へ,ノイズのない1ビットの古典的チャンネルを付与して,ゲームが獲得できないことを示す。 興味深いことに、チャンネルが古典的な共有ランダム性によってアシストされている場合、ゴールは完璧に達成できる。 これは、完全量子通信線の通信性を高めるために、事前共有された絡み合いが持つ量子超高密度符号化現象に類似した利点である。 驚くほど驚くべきことに、古典的な共有ランダム性の助けのない量子ビット通信は、その目標を達成することができ、したがって最も単純な通信シナリオにおいて、新しい量子優位性を確立することができる。 この利点のより深い起源を追求するためには、有利な量子戦略が送信者による符号化ステップと受信者による復号ステップの両方で量子干渉を起こさなければならないことを示す。 また、対称多角形状態空間によって記述された古典的でない玩具類の通信ユーティリティについても検討する。 古典的通信の1ドルビットやポリゴンシステムとの通信では達成できない通信タスクを考案する一方、1ドルキュービット通信は完全な戦略をもたらし、それらに対して量子的優位性を確立する。 この目的のために、量子優位性は不完全な符号化-復号化に対して堅牢であることを示し、現在利用可能な量子技術で実装可能なプロトコルを示す。

We analyze utility of communication channels in absence of any short of quantum or classical correlation shared between the sender and the receiver. To this aim, we propose a class of two-party communication games, and show that the games cannot be won given a noiseless $1$-bit classical channel from the sender to the receiver. Interestingly, the goal can be perfectly achieved if the channel is assisted with classical shared randomness. This resembles an advantage similar to the quantum superdense coding phenomenon where pre-shared entanglement can enhance the communication utility of a perfect quantum communication line. Quite surprisingly, we show that a qubit communication without any assistance of classical shared randomness can achieve the goal, and hence establishes a novel quantum advantage in the simplest communication scenario. In pursuit of a deeper origin of this advantage, we show that an advantageous quantum strategy must invoke quantum interference both at the encoding step by the sender and at the decoding step by the receiver. We also study communication utility of a class of non-classical toy systems described by symmetric polygonal state spaces. We come up with communication tasks that can be achieved neither with $1$-bit of classical communication nor by communicating a polygon system, whereas $1$-qubit communication yields a perfect strategy, establishing quantum advantage over them. To this end, we show that the quantum advantages are robust against imperfect encodings-decodings, making the protocols implementable with presently available quantum technologies.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-02
# 拡散変分オートエンコーダを用いた高速移動物体のリアルタイム知覚と障害物回避のための統一制御フレームワーク

Unified Control Framework for Real-Time Interception and Obstacle Avoidance of Fast-Moving Objects with Diffusion Variational Autoencoder ( http://arxiv.org/abs/2209.13628v2 )

ライセンス: Link先を確認
Apan Dastider, Hao Fang, Mingjie Lin, (参考訳) 動的環境におけるロボットアームによる高速移動物体のリアルタイムインターセプションは、しばしば動的障害物の中でミリ秒以内の迅速な反応時間を必要とするため、非常に困難な課題となる。 本稿では、動的オブジェクトを同時にインターセプトし、移動障害物を回避することにより、上記の課題に対処する統一的な制御フレームワークを提案する。 我々のアプローチの中心は、拡散に基づく変分オートエンコーダを用いて、物体のインターセプションと障害物回避の両方を実行する。 まず、ストリーミングイベントからの高次元時間情報を2次元潜在多様体に符号化し、安全トラジェクタと衝突トラジェクタの識別を可能にし、オフラインで密結合されたトラジェクタグラフを構築する。 その後、移動物体の正確なリアルタイム追跡を実現するために拡張カルマンフィルタを用いる。 確立されたオフライン高密度グラフ上でグラフトラバース戦略を活用することで、ロボットモーター制御コマンドを符号化する。 最後に、ロボットモータのリアルタイム動作を可能にするためにこれらのコマンドをデコードし、高速移動物体の効果的な障害物回避と高いインターセプション精度を確保する。 コンピュータシミュレーションと自律型7-DoFロボットアームを用いた実験により,提案手法の有効性が示された。 その結果、ロボットマニピュレータは、異なる角度から投げられた高速移動物体を手動でインターセプトしながら、さまざまな大きさと形状の複数の障害物を回避できることが示唆された。 私たちの実験の完全なビデオデモはhttps://sites.google.com/view/multirobotskill/home.comで見ることができる。

Real-time interception of fast-moving objects by robotic arms in dynamic environments poses a formidable challenge due to the need for rapid reaction times, often within milliseconds, amidst dynamic obstacles. This paper introduces a unified control framework to address the above challenge by simultaneously intercepting dynamic objects and avoiding moving obstacles. Central to our approach is using diffusion-based variational autoencoder for motion planning to perform both object interception and obstacle avoidance. We begin by encoding the high-dimensional temporal information from streaming events into a two-dimensional latent manifold, enabling the discrimination between safe and colliding trajectories, culminating in the construction of an offline densely connected trajectory graph. Subsequently, we employ an extended Kalman filter to achieve precise real-time tracking of the moving object. Leveraging a graph-traversing strategy on the established offline dense graph, we generate encoded robotic motor control commands. Finally, we decode these commands to enable real-time motion of robotic motors, ensuring effective obstacle avoidance and high interception accuracy of fast-moving objects. Experimental validation on both computer simulations and autonomous 7-DoF robotic arms demonstrates the efficacy of our proposed framework. Results indicate the capability of the robotic manipulator to navigate around multiple obstacles of varying sizes and shapes while successfully intercepting fast-moving objects thrown from different angles by hand. Complete video demonstrations of our experiments can be found in https://sites.google.com/view/multirobotskill/home.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-02
# EarthNets:地球観測におけるAIの活用

EarthNets: Empowering AI in Earth Observation ( http://arxiv.org/abs/2210.04936v3 )

ライセンス: Link先を確認
Zhitong Xiong, Fahong Zhang, Yi Wang, Yilei Shi, Xiao Xiang Zhu, (参考訳) 地球観測(EO)は、リモートセンシングデータを用いて地球の状態を監視することを目的としており、我々の日常生活や生活環境を改善するために重要である。 軌道上の衛星の増加に伴い、リモートセンシングコミュニティの研究を促進するために、多様なセンサーと研究領域を持つデータセットが増えている。 本稿では,農業,土地利用,土地被覆,災害監視,景観理解,視覚言語モデル,基礎モデル,気候変動,気象予報などの研究領域を含む,500以上の公開データセットを総合的にレビューする。 我々は,これらのEOデータセットを,ボリューム,解像度分布,研究領域,データセット間の相関の4つの側面から体系的に分析する。 データセット属性に基づいて、モデル評価のための新しいベンチマークを構築するために、データセットを計測、ランク付け、選択することを提案する。 さらに,EarthNetsと呼ばれる新しいEOプラットフォームがリリースされ,リモートセンシングデータ上でのディープラーニング手法の公平かつ一貫した評価を実現する。 EarthNetsは標準のデータセットライブラリと最先端のディープラーニングモデルをサポートし、リモートセンシングと機械学習コミュニティのギャップを埋める。 このプラットフォームに基づいて、新しいベンチマークで広範なディープラーニング手法を評価する。 洞察力のある結果は将来の研究に有益である。 プラットフォームとデータセットのコレクションはhttps://earthnets.github.io.comで公開されている。

Earth observation (EO), aiming at monitoring the state of planet Earth using remote sensing data, is critical for improving our daily lives and living environment. With a growing number of satellites in orbit, an increasing number of datasets with diverse sensors and research domains are being published to facilitate the research of the remote sensing community. This paper presents a comprehensive review of more than 500 publicly published datasets, including research domains like agriculture, land use and land cover, disaster monitoring, scene understanding, vision-language models, foundation models, climate change, and weather forecasting. We systematically analyze these EO datasets from four aspects: volume, resolution distributions, research domains, and the correlation between datasets. Based on the dataset attributes, we propose to measure, rank, and select datasets to build a new benchmark for model evaluation. Furthermore, a new platform for EO, termed EarthNets, is released to achieve a fair and consistent evaluation of deep learning methods on remote sensing data. EarthNets supports standard dataset libraries and cutting-edge deep learning models to bridge the gap between the remote sensing and machine learning communities. Based on this platform, extensive deep-learning methods are evaluated on the new benchmark. The insightful results are beneficial to future research. The platform and dataset collections are publicly available at https://earthnets.github.io.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-02
# オンデマンドサンプリング:複数分布から最適学習

On-Demand Sampling: Learning Optimally from Multiple Distributions ( http://arxiv.org/abs/2210.12529v3 )

ライセンス: Link先を確認
Nika Haghtalab, Michael I. Jordan, Eric Zhao, (参考訳) 堅牢性、公正性、社会福祉、マルチエージェントのトレードオフといった社会的および現実世界の考察は、協調学習、グループ分散的ロバストな最適化、公正なフェデレーション付き学習などの多分散学習パラダイムを生み出している。 これらの設定それぞれにおいて、学習者は、可能な限り少数のサンプルを使用しながら、予測される損失を$n$以上のデータ分散で均一に最小化する。 本稿では、これらの学習パラダイムの最適なサンプル複雑性を確立し、このサンプル複雑性を満たすアルゴリズムを提供する。 重要なことは、我々のサンプルの複雑さは、n \log(n) / \epsilon^2$の加法的因子だけで1つの分布を学習する限界を超えている。 これは、Mohriらによるフェアフェデレーション学習と、Nguyen と Zakynthinou による協調学習において、それぞれ$n$ と $\log(n)/\epsilon^3$ の乗算因子によって、最もよく知られたサンプル複雑性境界を改善している。 また、佐川らによるグループDRO目標に対する最初のサンプル複雑性境界も提供し、これらの最適なサンプル複雑性境界を保証するため、我々のアルゴリズムは要求に応じてデータ分布からサンプルを学習する。 我々のアルゴリズムの設計と解析は、確率ゼロサムゲームを解決するためのオンライン学習手法の拡張によって実現されている。 特に,プレイヤーの異なるサンプリングコストのトレードオフが可能な非回帰力学の確率的変種に寄与する。

Social and real-world considerations such as robustness, fairness, social welfare and multi-agent tradeoffs have given rise to multi-distribution learning paradigms, such as collaborative learning, group distributionally robust optimization, and fair federated learning. In each of these settings, a learner seeks to uniformly minimize its expected loss over $n$ predefined data distributions, while using as few samples as possible. In this paper, we establish the optimal sample complexity of these learning paradigms and give algorithms that meet this sample complexity. Importantly, our sample complexity bounds for multi-distribution learning exceed that of learning a single distribution by only an additive factor of $n \log(n) / \epsilon^2$. This improves upon the best known sample complexity bounds for fair federated learning by Mohri et al. and collaborative learning by Nguyen and Zakynthinou by multiplicative factors of $n$ and $\log(n)/\epsilon^3$, respectively. We also provide the first sample complexity bounds for the group DRO objective of Sagawa et al. To guarantee these optimal sample complexity bounds, our algorithms learn to sample from data distributions on demand. Our algorithm design and analysis are enabled by our extensions of online learning techniques for solving stochastic zero-sum games. In particular, we contribute stochastic variants of no-regret dynamics that can trade off between players' differing sampling costs.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-02
# マクロ経済分析のためのベイズニューラルネットワーク

Bayesian Neural Networks for Macroeconomic Analysis ( http://arxiv.org/abs/2211.04752v4 )

ライセンス: Link先を確認
Niko Hauzenberger, Florian Huber, Karin Klieber, Massimiliano Marcellino, (参考訳) マクロ経済データは、限られた数の観測(小さなT)と多くの時系列(大きなK)が特徴であるが、時間的依存も特徴である。 対照的に、ニューラルネットワークは何百万もの観測と共変量を持つデータセット用に設計されている。 本稿では,政策機関のマクロ経済分析によく用いられるデータセットを扱うのに適したベイズニューラルネットワーク(BNN)を開発する。 提案手法は, 非線形性の形式を適切に選択するアクティベーション関数の新規な混合仕様を用いて, 広範な仕様検索を回避する。 収縮前駆体はネットワークを刺激し、無関係なニューロンをゼロに強制するために用いられる。 ヘテロスケダスティック性に対処するため、BNNはエラー項に対する確率的ボラティリティモデルで拡張される。 まず、我々の異なるBNNが、通常、他の機械学習手法よりも正確な密度予測を生成することを示す。 最後に、我々のモデルを用いて、マクロ経済凝集体と金融ショックの反応における非線形性を回復する方法を示す。

Macroeconomic data is characterized by a limited number of observations (small T), many time series (big K) but also by featuring temporal dependence. Neural networks, by contrast, are designed for datasets with millions of observations and covariates. In this paper, we develop Bayesian neural networks (BNNs) that are well-suited for handling datasets commonly used for macroeconomic analysis in policy institutions. Our approach avoids extensive specification searches through a novel mixture specification for the activation function that appropriately selects the form of nonlinearities. Shrinkage priors are used to prune the network and force irrelevant neurons to zero. To cope with heteroskedasticity, the BNN is augmented with a stochastic volatility model for the error term. We illustrate how the model can be used in a policy institution by first showing that our different BNNs produce precise density forecasts, typically better than those from other machine learning methods. Finally, we showcase how our model can be used to recover nonlinearities in the reaction of macroeconomic aggregates to financial shocks.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-02
# 私のロボットは目標を達成するか? MDPポリシーがユーザ特定行動目標に到達する確率を予測する

Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target ( http://arxiv.org/abs/2211.16462v2 )

ライセンス: Link先を確認
Alexander Guyer, Thomas G. Dietterich, (参考訳) 自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。 その確率が望ましいレベルを下回ると、適切な介入ができるようにユーザに警告するべきです。 本稿では,ユーザの目標を,固定地平線で測定した累積報酬などの実数値パフォーマンスサマリーの目標区間として指定した設定について考察する。 この手法は,各時間に$t \in \{0, \ldots, H-1\}$で,最終累積報酬がユーザ指定の目標区間$[y^-,y^+]に該当する確率のキャリブレーションされた推定値を生成する。 この推定値を使用することで、確率が指定された閾値以下に低下した場合、自律システムは警報を発生させることができる。 我々は、共形予測を反転させて確率推定を計算する。 我々の出発点は、ロマノらによるコンフォーマル化量子回帰(CQR)法であり、量子回帰の結果に分割等角予測を適用する。 CQRは可逆ではないが、条件付き累積分布関数(CDF)を非整合度尺度として使用することにより、Probability-space Conformalized Quantile Regression (PCQR)と呼ばれる可逆的な修正を得る方法を示す。 CQRと同様に、PCQRは有限サンプルの限界保証付き条件付き予測区間を生成する。 PCQRを逆転することにより、ユーザ特定対象区間のカバレッジ確率を予測するために使用する応答変数(キャリブレーションCDF推定)の限界分布からサンプリングした閾値以下で自律システムの累積報酬が低下する確率が保証される。 2つの領域の実験は、これらの確率が十分に校正されていることを確認した。

As an autonomous system performs a task, it should maintain a calibrated estimate of the probability that it will achieve the user's goal. If that probability falls below some desired level, it should alert the user so that appropriate interventions can be made. This paper considers settings where the user's goal is specified as a target interval for a real-valued performance summary, such as the cumulative reward, measured at a fixed horizon $H$. At each time $t \in \{0, \ldots, H-1\}$, our method produces a calibrated estimate of the probability that the final cumulative reward will fall within a user-specified target interval $[y^-,y^+].$ Using this estimate, the autonomous system can raise an alarm if the probability drops below a specified threshold. We compute the probability estimates by inverting conformal prediction. Our starting point is the Conformalized Quantile Regression (CQR) method of Romano et al., which applies split-conformal prediction to the results of quantile regression. CQR is not invertible, but by using the conditional cumulative distribution function (CDF) as the non-conformity measure, we show how to obtain an invertible modification that we call Probability-space Conformalized Quantile Regression (PCQR). Like CQR, PCQR produces well-calibrated conditional prediction intervals with finite-sample marginal guarantees. By inverting PCQR, we obtain guarantees for the probability that the cumulative reward of an autonomous system will fall below a threshold sampled from the marginal distribution of the response variable (i.e., a calibrated CDF estimate) that we employ to predict coverage probabilities for user-specified target intervals. Experiments on two domains confirm that these probabilities are well-calibrated.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-02
# ショートカットからトリガーへ:POEによるバックドアディフェンス

From Shortcuts to Triggers: Backdoor Defense with Denoised PoE ( http://arxiv.org/abs/2305.14910v3 )

ライセンス: Link先を確認
Qin Liu, Fei Wang, Chaowei Xiao, Muhao Chen, (参考訳) 言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。 したがって, 防衛対策について検討することが重要である。 既存のバックドア防御法は主に露骨な引き金によるバックドア攻撃に重点を置いており、様々なバックドア攻撃に対する普遍的な防御は、ほとんど探索されていない。 本稿では,バックドア攻撃のショートカット性に着想を得た,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。 DPoEは、バックドアショートカットをキャプチャする浅いモデルと、バックドアショートカットを学習するのを防ぐメインモデルである。 バックドア攻撃によるラベルフリップに対処するため、DPoEはデノイングデザインを取り入れている。 SST-2データセットの実験では、DPoEは単語レベル、文レベル、構文的トリガを含む様々な種類のバックドアトリガに対する防御性能を著しく向上することが示された。 さらにDPoEは、複数の種類のトリガーを混ぜるより難しいが実用的な設定でも有効である。

Language models are often at risk of diverse backdoor attacks, especially data poisoning. Thus, it is important to investigate defense solutions for addressing them. Existing backdoor defense methods mainly focus on backdoor attacks with explicit triggers, leaving a universal defense against various backdoor attacks with diverse triggers largely unexplored. In this paper, we propose an end-to-end ensemble-based backdoor defense framework, DPoE (Denoised Product-of-Experts), which is inspired by the shortcut nature of backdoor attacks, to defend various backdoor attacks. DPoE consists of two models: a shallow model that captures the backdoor shortcuts and a main model that is prevented from learning the backdoor shortcuts. To address the label flip caused by backdoor attackers, DPoE incorporates a denoising design. Experiments on SST-2 dataset show that DPoE significantly improves the defense performance against various types of backdoor triggers including word-level, sentence-level, and syntactic triggers. Furthermore, DPoE is also effective under a more challenging but practical setting that mixes multiple types of trigger.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-02
# 候補者インセンティブ分布:投票方法が選挙インセンティブを形成する方法

Candidate Incentive Distributions: How voting methods shape electoral incentives ( http://arxiv.org/abs/2306.07147v2 )

ライセンス: Link先を確認
Marcus Ogren, (参考訳) 我々は,政治妥協を推進し,社会の緊張を軽減するための異なる投票方法の傾向を,コンピュータシミュレーションを用いて評価し,どの候補者にアピールするインセンティブがあるかを判断する。 Instant Runoff Votingは、Plurality Votingよりも広い範囲の有権者に候補者をアピールするインセンティブを与えるが、候補者は反対派よりも彼らの基盤に訴えるインセンティブをはるかに強く残している。 対照的に、コンドルチェット法とSTAR投票は最もバランスの取れたインセンティブを提供する。 我々は、反対の有権者にアピールするためのSingle Transferable Voteによるインセンティブは無視できるが、タブレーションアルゴリズムの微調整はそれらを実質的なものにしている。

We evaluate the tendency for different voting methods to promote political compromise and reduce tensions in a society by using computer simulations to determine which voters candidates are incentivized to appeal to. We find that Instant Runoff Voting incentivizes candidates to appeal to a wider range of voters than Plurality Voting, but that it leaves candidates far more strongly incentivized to appeal to their base than to voters in opposing factions. In contrast, we find that Condorcet methods and STAR (Score Then Automatic Runoff) Voting provide the most balanced incentives; these differences between voting methods become more pronounced with more candidates are in the race and less pronounced in the presence of strategic voting. We find that the incentives provided by Single Transferable Vote to appeal to opposing voters are negligible, but that a tweak to the tabulation algorithm makes them substantial.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-02
# In situモデルフリー最適化による高性能実世界の光コンピューティング

High-performance real-world optical computing trained by in situ model-free optimization ( http://arxiv.org/abs/2307.11957v5 )

ライセンス: Link先を確認
Guangyuan Zhao, Xin Shu, Renjie Zhou, (参考訳) 光コンピューティングシステムは、高速で低エネルギーなデータ処理を提供するが、計算的に要求されるトレーニングとシミュレーションと現実のギャップの欠如に直面している。 本稿では,モンテカルロ勾配推定アルゴリズムに基づく勾配に基づくモデルフリー最適化(G-MFO)手法を提案する。 このアプローチは、光学計算システムをブラックボックスとして扱い、光学計算重みの確率分布に直接損失をバックプロパゲートし、計算的に重く偏りのあるシステムシミュレーションの必要性を回避する。 G-MFO は MNIST と FMNIST のハイブリッドトレーニングより優れていることを示す。 さらに, マーカーのない位相マップから, 画像のない, 高速な細胞分類を示す。 提案手法は,計算資源の需要の低さと相まって,実験室での実証から実世界の応用への光コンピューティングの移行を加速させる方法である。

Optical computing systems provide high-speed and low-energy data processing but face deficiencies in computationally demanding training and simulation-to-reality gaps. We propose a gradient-based model-free optimization (G-MFO) method based on a Monte Carlo gradient estimation algorithm for computationally efficient in situ training of optical computing systems. This approach treats an optical computing system as a black box and back-propagates the loss directly to the optical computing weights' probability distributions, circumventing the need for a computationally heavy and biased system simulation. Our experiments on diffractive optical computing systems show that G-MFO outperforms hybrid training on the MNIST and FMNIST datasets. Furthermore, we demonstrate image-free and high-speed classification of cells from their marker-free phase maps. Our method's model-free and high-performance nature, combined with its low demand for computational resources, paves the way for accelerating the transition of optical computing from laboratory demonstrations to practical, real-world applications.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-02
# 画像脳の可視性に対する計算的限界

Computational limits to the legibility of the imaged human brain ( http://arxiv.org/abs/2309.07096v4 )

ライセンス: Link先を確認
James K Ruffle, Robert J Gray, Samia Mohinta, Guilherme Pombo, Chaitanya Kaul, Harpreet Hyare, Geraint Rees, Parashkev Nachev, (参考訳) 人口レベルでの人間の脳の組織に関する我々の知識は、個々のレベルでの機能的差異を予測し、臨床応用を制限し、推論されたメカニズムの一般化可能性に疑問を投げかける力にはまだ変換されていない。 この困難は、脳内の生物学的パターンが分別されていないことや、モデルでそれらにアクセスし、処理時に計算する能力が限られていることから生じるのかは、いまだ不明である。 本稿では,データを用いた解答可能性について包括的に検討し,前例のない規模で計算する。 英国バイオバンクの23人中810人を対象に,構造的および機能的神経画像データの組合せから,25個の生物学的特徴の予測可能性を体系的に評価した。 4526以上のGPU時間において、人口統計学、心理学的、血清学的、慢性疾患、機能的接続特性の完全接続フィードフォワードニューラルネットワーク、マクロ脳イメージングのユニモーダルとマルチモーダルの畳み込みニューラルネットワークモデルを含む700個の個人予測モデルをトレーニングし、最適化し、評価する。 性別の予測可能性(精度99.7%)、年齢(平均絶対誤差2.048年、R2 0.859)、体重(平均絶対誤差2.609Kg、R2 0.625)の間には顕著な相違が見られ、そこでは新たな最先端性能を設定し、他の特性の予想可能性も驚くほど低い。 構造像も機能像も、慢性疾患の偶然(p<0.05。 血清学的には慢性疾患 (p<0.05) と予測され, 疾患 (p<0.001) , 構造的神経画像 (p<0.05) で予測された。 以上の結果から,ヒト脳から個々のレベルの特徴を抽出するためには,より情報的な画像撮影か,より強力なモデルが必要であることが示唆された。

Our knowledge of the organisation of the human brain at the population-level is yet to translate into power to predict functional differences at the individual-level, limiting clinical applications, and casting doubt on the generalisability of inferred mechanisms. It remains unknown whether the difficulty arises from the absence of individuating biological patterns within the brain, or from limited power to access them with the models and compute at our disposal. Here we comprehensively investigate the resolvability of such patterns with data and compute at unprecedented scale. Across 23 810 unique participants from UK Biobank, we systematically evaluate the predictability of 25 individual biological characteristics, from all available combinations of structural and functional neuroimaging data. Over 4526 GPU hours of computation, we train, optimize, and evaluate out-of-sample 700 individual predictive models, including fully-connected feed-forward neural networks of demographic, psychological, serological, chronic disease, and functional connectivity characteristics, and both uni- and multi-modal 3D convolutional neural network models of macro- and micro-structural brain imaging. We find a marked discrepancy between the high predictability of sex (balanced accuracy 99.7%), age (mean absolute error 2.048 years, R2 0.859), and weight (mean absolute error 2.609Kg, R2 0.625), for which we set new state-of-the-art performance, and the surprisingly low predictability of other characteristics. Neither structural nor functional imaging predicted psychology better than the coincidence of chronic disease (p<0.05). Serology predicted chronic disease (p<0.05) and was best predicted by it (p<0.001), followed by structural neuroimaging (p<0.05). Our findings suggest either more informative imaging or more powerful models are needed to decipher individual level characteristics from the human brain.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-02
# 効果的なエンティティ・サイレンス検出のためのコンテキスト情報の活用

Leveraging Contextual Information for Effective Entity Salience Detection ( http://arxiv.org/abs/2309.07990v2 )

ライセンス: Link先を確認
Rajarshi Bhowmik, Marco Ponza, Atharva Tendle, Anant Gupta, Rebecca Jiang, Xingyu Lu, Qian Zhao, Daniel Preotiuc-Pietro, (参考訳) ニュース記事などのテキスト文書では、コンテンツや重要なイベントは通常、文書に言及されているすべてのエンティティのサブセットを中心に展開する。 これらのエンティティは、しばしば健全なエンティティと見なされ、文書の真偽の有用な手がかりを読者に提供します。 検索,ランキング,エンティティ中心の要約などの下流アプリケーションでは,エンティティのサリエンスを識別することが有効であった。 これまでは、高度な機能エンジニアリングを必要とする機械学習モデルに主眼を置いていた。 クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。 この目的のために、中規模の事前訓練言語モデルファミリーを代表するモデルを用いて、4つの公開データセットの包括的なベンチマークを行う。 さらに、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。

In text documents such as news articles, the content and key events usually revolve around a subset of all the entities mentioned in a document. These entities, often deemed as salient entities, provide useful cues of the aboutness of a document to a reader. Identifying the salience of entities was found helpful in several downstream applications such as search, ranking, and entity-centric summarization, among others. Prior work on salient entity detection mainly focused on machine learning models that require heavy feature engineering. We show that fine-tuning medium-sized language models with a cross-encoder style architecture yields substantial performance gains over feature engineering approaches. To this end, we conduct a comprehensive benchmarking of four publicly available datasets using models representative of the medium-sized pre-trained language model family. Additionally, we show that zero-shot prompting of instruction-tuned language models yields inferior results, indicating the task's uniqueness and complexity.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-02
# UniBEV:センサの欠如に対するロバスト性のための一様BEVエンコーダを用いたマルチモーダル3Dオブジェクト検出

UniBEV: Multi-modal 3D Object Detection with Uniform BEV Encoders for Robustness against Missing Sensor Modalities ( http://arxiv.org/abs/2309.14516v2 )

ライセンス: Link先を確認
Shiming Wang, Holger Caesar, Liangliang Nan, Julian F. P. Kooij, (参考訳) マルチセンサ物体検出は、自動走行において活発な研究課題であるが、センサ入力の欠如(モダリティの欠如)に対するそのような検出モデルの堅牢性は、例えば、突然のセンサ故障により、まだ検討されていない重要な問題である。 本研究で提案するUniBEVは、LiDARとカメラ入力に加えて、リトレーニングなしでLiDARのみまたはカメラのみの入力でも動作可能である。 UniBEVは、異なる入力の組み合わせを扱うための検出器ヘッドを容易にするために、利用可能な各モードから、よく整列したBird's Eye View (BEV)機能マップを作成することを目指している。 従来のBEVベースのマルチモーダル検出法とは異なり、全てのセンサモードは、ネイティブセンサー座標系からBEV機能への再サンプリングのための一様アプローチに従う。 さらに, 一般的な特徴連結だけでなく, チャネルワイド平均化, およびチャネル正規化ウェイトと呼ばれる重み付き平均化への一般化など, 様々な融合戦略のロバスト性について検討する。 その有効性を検証するため,UniBEVと最先端のBEVFusionとMetaBEVを,すべてのセンサ入力の組み合わせでnuScenes上で比較した。 この設定では、UniBEVは全ての入力の組み合わせで平均52.5 \%$ mAPを獲得し、ベースライン(BEVFusionでは平均43.5 \%$ mAP、MetaBEVでは平均48.7 \%$ mAP)よりも大幅に改善されている。 アブレーション研究は、通常の連結よりも重み付け平均化によるヒュージングの堅牢さの利点と、各モードのBEVエンコーダ間でクエリを共有することの利点を示している。 私たちのコードは受理後に解放されます。

Multi-sensor object detection is an active research topic in automated driving, but the robustness of such detection models against missing sensor input (modality missing), e.g., due to a sudden sensor failure, is a critical problem which remains under-studied. In this work, we propose UniBEV, an end-to-end multi-modal 3D object detection framework designed for robustness against missing modalities: UniBEV can operate on LiDAR plus camera input, but also on LiDAR-only or camera-only input without retraining. To facilitate its detector head to handle different input combinations, UniBEV aims to create well-aligned Bird's Eye View (BEV) feature maps from each available modality. Unlike prior BEV-based multi-modal detection methods, all sensor modalities follow a uniform approach to resample features from the native sensor coordinate systems to the BEV features. We furthermore investigate the robustness of various fusion strategies w.r.t. missing modalities: the commonly used feature concatenation, but also channel-wise averaging, and a generalization to weighted averaging termed Channel Normalized Weights. To validate its effectiveness, we compare UniBEV to state-of-the-art BEVFusion and MetaBEV on nuScenes over all sensor input combinations. In this setting, UniBEV achieves $52.5 \%$ mAP on average over all input combinations, significantly improving over the baselines ($43.5 \%$ mAP on average for BEVFusion, $48.7 \%$ mAP on average for MetaBEV). An ablation study shows the robustness benefits of fusing by weighted averaging over regular concatenation, and of sharing queries between the BEV encoders of each modality. Our code will be released upon paper acceptance.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-02
# 物理インフォームドグラフニューラルネットワークによる電力系統の動的再構成

Physics-Informed Graph Neural Network for Dynamic Reconfiguration of Power Systems ( http://arxiv.org/abs/2310.00728v2 )

ライセンス: Link先を確認
Jules Authier, Rabab Haider, Anuradha Annaswamy, Florian Dorfler, (参考訳) 信頼性のあるグリッドを維持するには、動的再構成(DyR)のような複雑な問題に対して、高速な意思決定アルゴリズムが必要です。 DyRは、グリッド損失を最小限に抑えるために、分散グリッドスイッチ設定をリアルタイムで最適化し、利用可能な世代で負荷を供給するリソースをディスパッチする。 DyRは混合整数問題であり、大きなグリッドや高速な時間スケールで計算的に解ける。 DyRに適した物理インフォームドグラフニューラルネットワーク(GNN)フレームワークであるGraPhyRを提案する。 我々は、GNNフレームワークに直接、本質的な運用と接続の制約を組み込んで、エンドツーエンドでそれをトレーニングします。 この結果から,GraPhyRはDyRタスクの最適化を学習できることがわかった。

To maintain a reliable grid we need fast decision-making algorithms for complex problems like Dynamic Reconfiguration (DyR). DyR optimizes distribution grid switch settings in real-time to minimize grid losses and dispatches resources to supply loads with available generation. DyR is a mixed-integer problem and can be computationally intractable to solve for large grids and at fast timescales. We propose GraPhyR, a Physics-Informed Graph Neural Network (GNNs) framework tailored for DyR. We incorporate essential operational and connectivity constraints directly within the GNN framework and train it end-to-end. Our results show that GraPhyR is able to learn to optimize the DyR task.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-02
# LLMコーディネーション:大規模言語モデルにおけるマルチエージェントコーディネーション能力の評価と解析

LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models ( http://arxiv.org/abs/2310.03903v2 )

ライセンス: Link先を確認
Saaket Agashe, Yue Fan, Anthony Reyna, Xin Eric Wang, (参考訳) 大規模言語モデル(LLM)によって実証された、創発的推論と心の理論(ToM)能力は、調整エージェントを開発するための有望な候補となる。 本研究では,Pure Coordination Games の文脈における LLM の詳細な分析を目的とした新しい LLM-Coordination Benchmark を提案する。 本ベンチマークは,(1) 環境理解,ToM推論,共同計画の3つの主要な理由付け能力を評価するために,LLMが4つの純粋な協調ゲームにおいて協調のための積極的な参加者として機能する,(2) の2つの異なるタスクを通じてLLMを評価する。 さらに,マルチエージェントコーディネーションのためのLLMを実現するために,純粋コーディネーションゲームのためのプラグイン・アンド・プレイモジュールとして,異なるLLMを簡単に統合できるCognitive Architecture for Coordination (CAC)フレームワークを導入する。 本研究により, GPT-4-turbo を組み込んだ LLM エージェントは, 環境に応じたコモンセンス動作を必要とするゲームにおいて, 最先端の強化学習手法に匹敵する性能を達成できることが示唆された。 さらに、ゼロショット調整実験では、RL法とは異なり、LLMエージェントは新しい未知のパートナーに対して堅牢であることが示された。 しかし, コーディネーションQAの結果は, LLMのマインド推論と共同計画能力の向上の余地が大きい。 この分析は、LLMが自身の環境とパートナーの信念や意図を理解する能力が、調整計画の能力にどのように貢献するかについても光を当てている。 我々のコードは \url{https://github.com/eric-ai-lab/llm_coordination} で利用可能です。

The emergent reasoning and Theory of Mind (ToM) abilities demonstrated by Large Language Models (LLMs) make them promising candidates for developing coordination agents. In this study, we introduce a new LLM-Coordination Benchmark aimed at a detailed analysis of LLMs within the context of Pure Coordination Games, where participating agents need to cooperate for the most gain. This benchmark evaluates LLMs through two distinct tasks: (1) \emph{Agentic Coordination}, where LLMs act as proactive participants for cooperation in 4 pure coordination games; (2) \emph{Coordination Question Answering (QA)}, where LLMs are prompted to answer 198 multiple-choice questions from the 4 games for evaluation of three key reasoning abilities: Environment Comprehension, ToM Reasoning, and Joint Planning. Furthermore, to enable LLMs for multi-agent coordination, we introduce a Cognitive Architecture for Coordination (CAC) framework that can easily integrate different LLMs as plug-and-play modules for pure coordination games. Our findings indicate that LLM agents equipped with GPT-4-turbo achieve comparable performance to state-of-the-art reinforcement learning methods in games that require commonsense actions based on the environment. Besides, zero-shot coordination experiments reveal that, unlike RL methods, LLM agents are robust to new unseen partners. However, results on Coordination QA show a large room for improvement in the Theory of Mind reasoning and joint planning abilities of LLMs. The analysis also sheds light on how the ability of LLMs to understand their environment and their partner's beliefs and intentions plays a part in their ability to plan for coordination. Our code is available at \url{https://github.com/eric-ai-lab/llm_coordination}.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-02
# 従来のMLを用いたLLMの理解 : 語彙分類における大規模言語モデルの公平性の再考

Confronting LLMs with Traditional ML: Rethinking the Fairness of Large Language Models in Tabular Classifications ( http://arxiv.org/abs/2310.14607v2 )

ライセンス: Link先を確認
Yanchen Liu, Srishti Gautam, Jiaqi Ma, Himabindu Lakkaraju, (参考訳) 近年の文献では,大規模言語モデル(LLM)を用いて表型タスクの分類を行う可能性が示唆されている。 しかし、LSMは社会に存在するステレオタイプや不平等を反映した有害な社会的偏見を示すことが示されている。 この目的のためには、多くのハイテイクアプリケーションにおける表型データの普及とともに、表型タスクの分類を行う際にLLMがもたらす情報ソース、社会的バイアスやステレオタイプに影響される表型データに対するLLM分類の程度と程度、そして、フェアネスにどのような影響があるのか、といった疑問を掘り下げることが重要である。 一連の実験を通じて、これらの疑問を掘り下げ、LLMが学習データから社会的偏見を継承し、表層分類タスクにおける公平性に大きな影響を及ぼす傾向があることを示す。 さらに、本研究では、バイアス緩和の文脈において、文脈内学習と微調整は適度な効果があるものの、ランダムフォレストや浅層ニューラルネットワークのような従来の機械学習モデルよりも、異なるサブグループ間の公平度メトリックギャップが依然として大きいことを示す。 この観察は、社会的バイアスはLLM自体に固有のものであり、下流のタスクデータセットだけでなく、事前学習コーパスから受け継がれていることを強調している。 さらに,文脈内サンプルのラベルフリップがバイアスを著しく低減し,LLM内に固有のバイアスが存在することを明らかにする。

Recent literature has suggested the potential of using large language models (LLMs) to make classifications for tabular tasks. However, LLMs have been shown to exhibit harmful social biases that reflect the stereotypes and inequalities present in society. To this end, as well as the widespread use of tabular data in many high-stake applications, it is important to explore the following questions: what sources of information do LLMs draw upon when making classifications for tabular tasks; whether and to what extent are LLM classifications for tabular data influenced by social biases and stereotypes; and what are the consequential implications for fairness? Through a series of experiments, we delve into these questions and show that LLMs tend to inherit social biases from their training data which significantly impact their fairness in tabular classification tasks. Furthermore, our investigations show that in the context of bias mitigation, though in-context learning and finetuning have a moderate effect, the fairness metric gap between different subgroups is still larger than that in traditional machine learning models, such as Random Forest and shallow Neural Networks. This observation emphasizes that the social biases are inherent within the LLMs themselves and inherited from their pretraining corpus, not only from the downstream task datasets. Besides, we demonstrate that label-flipping of in-context examples can significantly reduce biases, further highlighting the presence of inherent bias within LLMs.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-02
# 量子アルゴリズムによるアグノースティック学習のための二次的サンプル複雑度低減

A Quadratic Sample Complexity Reduction for Agnostic Learning via Quantum Algorithms ( http://arxiv.org/abs/2310.15576v6 )

ライセンス: Link先を確認
Daniel Z. Zanger, (参考訳) 量子アルゴリズムを用いて、精度$\epsilon>0$と信頼性$-\delta,0<\delta<1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ for a general agnostic learning model, if the hypothesis class is of finite finiteity。 これは、漸近次数 $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ の対応するサンプル複雑性を大幅に改善し、古典的(非量子)な学習問題と有限濃度の仮説セット(Arunachalam and de Wolf (2018) や古典的統計学習理論(英語版)(英語版)(英語版)の参考文献で知られている。 したがって、一般の無知学習の場合、これらの結果に対して得られる学習速度の量子スピードアップは、$\epsilon^{-1}$の二次的である。

Using quantum algorithms, we obtain, for accuracy $\epsilon>0$ and confidence $1-\delta,0<\delta<1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ for a general agnostic learning model, provided the hypothesis class is of finite cardinality. This greatly improves upon a corresponding sample complexity of asymptotic order $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ known in the literature to be attainable by means of classical (non-quantum) algorithms for an agnostic learning problem also with hypothesis set of finite cardinality (see, for example, Arunachalam and de Wolf (2018) and the classical statistical learning theory references cited there). Thus, for general agnostic learning, the quantum speedup in the rate of learning that we achieve with respect to these results is quadratic in $\epsilon^{-1}$.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-02
# BioImage.IO Chatbot - 高度なバイオイメージ分析とツール統合のためのコミュニティ駆動AIアシスタント

BioImage.IO Chatbot: A Community-Driven AI Assistant for Advanced Bioimage Analysis and Tool Integration ( http://arxiv.org/abs/2310.18351v4 )

ライセンス: Link先を確認
Wanlu Lei, Caterina Fuster-Barceló, Gabriel Reder, Arrate Muñoz-Barrutia, Wei Ouyang, (参考訳) BioImage$を紹介します。 $IO Chatbotは、Large Language Modelsによって支えられ、コミュニティ主導の知識ベースとツールによって強化されたAIアシスタントである。 データ検索からAI強化分析に至るまで、フレキシブルな拡張メカニズムを通じて、ユーザ要求の範囲でカスタマイズされたインタラクションを容易にする。 オープンソースの価値に則って、このチャットボットはバイオイメージコミュニティからのインプットによって常に開発されており、信頼性を改善し、AI関連の課題に協力的に対処している。 このツールは、複雑な生物像解析の展望を合理化し、そのコミュニティの集団的創発性を活用することで、生命科学の進歩を可能にする。

We introduce the BioImage$.$IO Chatbot, an AI assistant underpinned by Large Language Models and enriched by a community-driven knowledge base and tools. It facilitates customized interactions across a spectrum of user requirements via a flexible extension mechanism, from data retrieval to AI-enhanced analysis. Adhering to open-source values, the chatbot is in constant development with input from the bioimage community, improving its dependability and collaboratively tackling AI-related challenges. This tool streamlines the exploration of the complex bioimage analysis landscape, enabling life sciences to advance by harnessing the collective ingenuity of its community.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-02
# SignAvatars: 大規模3D手話のホロスティックモーションデータセットとベンチマーク

SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark ( http://arxiv.org/abs/2310.20436v2 )

ライセンス: Link先を確認
Zhengdi Yu, Shaoli Huang, Yongkang Cheng, Tolga Birdal, (参考訳) 本稿では,難聴者や難聴者のコミュニケーションギャップを埋めるために設計された,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを紹介する。 デジタルコミュニケーションに関する研究は急速に増えているが、既存のコミュニケーション技術の大部分は、聴覚障害や難聴者コミュニティにとって欠かせないコミュニケーション手法であるSLではなく、主に話し言葉や書き言葉に向いている。 既存のSLデータセット、辞書、手話生成(SLP)メソッドは通常、注釈付けされた3Dモデルとして2Dに制限され、SLのアバターは通常、SLの専門家が完全に手作業で行う労働集約的なプロセスであり、しばしば不自然なアバターをもたらす。 これらの課題に対応するために、我々はSignAvatarsデータセットをコンパイルし、キュレートする。これは153の署名者から7万のビデオで構成され、合計8.34万のフレームで構成され、孤立した記号と連続した協調記号の両方をカバーし、HamNoSys、音声言語、単語を含む複数のプロンプトを含む。 メッシュや人体,手,顔のバイオメカニカルなポーズ,および2Dおよび3Dキーポイントを含む3次元の全体的アノテーションを得るために,当社の大規模なSLビデオコーパスで動作する自動アノテーションパイプラインを導入する。 SignAvatarsは3D手話認識(SLR)や,テキストスクリプトや個々の単語,HamNoSys表記など,さまざまな入力から3D SL生成(SLP)を実現する。 したがって、SignAvatarsの可能性を評価するために、さらに3次元SL総体運動生成の統一的なベンチマークを提案する。 この取り組みは、デジタルの世界を難聴者や難聴者コミュニティ、そして彼らと対話する人々に持ち込むための大きな一歩だと私たちは信じています。

We present SignAvatars, the first large-scale, multi-prompt 3D sign language (SL) motion dataset designed to bridge the communication gap for Deaf and hard-of-hearing individuals. While there has been an exponentially growing number of research regarding digital communication, the majority of existing communication technologies primarily cater to spoken or written languages, instead of SL, the essential communication method for Deaf and hard-of-hearing communities. Existing SL datasets, dictionaries, and sign language production (SLP) methods are typically limited to 2D as annotating 3D models and avatars for SL is usually an entirely manual and labor-intensive process conducted by SL experts, often resulting in unnatural avatars. In response to these challenges, we compile and curate the SignAvatars dataset, which comprises 70,000 videos from 153 signers, totaling 8.34 million frames, covering both isolated signs and continuous, co-articulated signs, with multiple prompts including HamNoSys, spoken language, and words. To yield 3D holistic annotations, including meshes and biomechanically-valid poses of body, hands, and face, as well as 2D and 3D keypoints, we introduce an automated annotation pipeline operating on our large corpus of SL videos. SignAvatars facilitates various tasks such as 3D sign language recognition (SLR) and the novel 3D SL production (SLP) from diverse inputs like text scripts, individual words, and HamNoSys notation. Hence, to evaluate the potential of SignAvatars, we further propose a unified benchmark of 3D SL holistic motion production. We believe that this work is a significant step forward towards bringing the digital world to the Deaf and hard-of-hearing communities as well as people interacting with them.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-02
# 量子クエンチによるZ_{2}$フロケ位相の動的キャラクタリゼーション

Dynamical characterization of $Z_{2}$ Floquet topological phases via quantum quenches ( http://arxiv.org/abs/2311.00114v3 )

ライセンス: Link先を確認
Lin Zhang, (参考訳) 一般的な$d$次元フロケ位相の完全な特徴付けは、駆動期間全体を通してマイクロモーションに関する情報を必要とする場合、通常困難である。 最近の研究 (L. Zhang et al , Phys. Lett. 125, 183001 (2020)] において、量子クエンチを用いて整数フロケ位相を特徴づけるために実験的に実現可能な動的検出法が提案された。 しかし、この理論はまだ完成には程遠いもので、特に自由フェルミオン・フロケ位相(英語版)(free-fermion Floquet topological phases)では、状態は$Z_{2}$不変量によって特徴づけられる。 ここでは, 自明かつ静的な初期状態から, パラメータの急激な変更と周期的駆動の切り換えによって, 系をフロケ位相に切り換えることにより, 異なる次元および10倍方向対称性のフロケ位相に対する最初の完全かつ統一的な動的特徴付け理論を開発する。 ストロボスコープ平均スピン偏光によるフロケバンドの極小情報を測定することにより、ブルアンゾーンの離散モーメントに現れる位相的スピンテクスチャパターンが、0$または$$\pi$ギャップと呼ばれる高次バンド反転曲面が、対応する準エネルギーギャップにおけるフロケ境界モードを一意に決定し、Z_{2}$フロケトポロジーを特徴づける測定可能なダイナミックカルなZ_{2}$フロケ不変量を与えることを示した。 この理論の応用は、現在の量子シミュレーション実験で利用できる1次元と2次元のモデルを通して説明される。 我々の研究は、$Z_{2}$ Floquet位相を検出でき、フロケット位相のフル10倍級の動的特徴付けを完了し、理論と実験の研究を進めることができる。

The complete characterization of a generic $d$-dimensional Floquet topological phase is usually hard for the requirement of information about the micromotion throughout the entire driving period. In a recent work [L. Zhang et al., Phys. Rev. Lett. 125, 183001 (2020)], an experimentally feasible dynamical detection scheme was proposed to characterize the integer Floquet topological phases using quantum quenches. However, this theory is still far away from completion, especially for free-fermion Floquet topological phases, where the states can also be characterized by $Z_{2}$ invariants. Here we develop the first full and unified dynamical characterization theory for the $Z_{2}$ Floquet topological phases of different dimensionality and tenfold-way symmetry classes by quenching the system from a trivial and static initial state to the Floquet topological regime through suddenly changing the parameters and turning on the periodic driving. By measuring the minimal information of Floquet bands via the stroboscopic time-averaged spin polarizations, we show that the topological spin texture patterns emerging on certain discrete momenta of Brillouin zone called the $0$ or $\pi$ gap highest-order band-inversion surfaces provide a measurable dynamical $Z_{2}$ Floquet invariant, which uniquely determines the Floquet boundary modes in the corresponding quasienergy gap and characterizes the $Z_{2}$ Floquet topology. The applications of our theory are illustrated via one- and two-dimensional models that are accessible in current quantum simulation experiments. Our work provides a highly feasible way to detect the $Z_{2}$ Floquet topology and completes the dynamical characterization for the full tenfold classes of Floquet topological phases, which shall advance the research in theory and experiments.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-02
# データ駆動型ペルソナに向けた大規模言語モデルの操縦性について

On the steerability of large language models toward data-driven personas ( http://arxiv.org/abs/2311.04978v2 )

ライセンス: Link先を確認
Junyi Li, Ninareh Mehrabi, Charith Peris, Palash Goyal, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta, (参考訳) 大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。 そこで本研究では,複数の視点を創出し,多様な視点を反映するLLMを用いて,制御可能な視点生成を実現するための新しいアプローチを提案する。 年齢、性別、政党関係といった伝統的な人口動態への依存を超えて、協調フィルタリングに基礎を置くデータ駆動のペルソナの概念を導入し、特定の質問にまたがって同様の見解を示す個人の個人またはコホートとして定義する。 同じ人口集団の個人が異なるペルソナを持つ可能性があるため、我々のデータ駆動型ペルソナの定義は、人口に存在している異なる(最近)社会的グループをより微妙に理解することを可能にする。 さらに,LLMを,定義するペルソナに向けて効率的に操る手法についても検討する。 データ駆動型ペルソナは、最高のパフォーマンスベースラインよりも、モデルステアビリティを著しく向上し、5,7 %-77 % の改善を実現しています。

Large language models (LLMs) are known to generate biased responses where the opinions of certain groups and populations are underrepresented. Here, we present a novel approach to achieve controllable generation of specific viewpoints using LLMs, that can be leveraged to produce multiple perspectives and to reflect the diverse opinions. Moving beyond the traditional reliance on demographics like age, gender, or party affiliation, we introduce a data-driven notion of persona grounded in collaborative filtering, which is defined as either a single individual or a cohort of individuals manifesting similar views across specific inquiries. As individuals in the same demographic group may have different personas, our data-driven persona definition allows for a more nuanced understanding of different (latent) social groups present in the population. In addition to this, we also explore an efficient method to steer LLMs toward the personas that we define. We show that our data-driven personas significantly enhance model steerability, with improvements of between $57\%-77\%$ over our best performing baselines.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-02
# MEGAVERSE: 言語、モダリティ、モデル、タスクにわたる大規模言語モデルのベンチマーク

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks ( http://arxiv.org/abs/2311.07463v2 )

ライセンス: Link先を確認
Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram, (参考訳) LLMの能力と限界を理解するためのLLM評価研究が急増している。 しかし、この研究の多くは英語に限られており、LLMの構築と非英語言語の評価は比較的未調査のままである。 最近、いくつかの新しいLLMが導入され、非英語言語での評価が必要になった。 本研究の目的は、同一の多言語データセットで比較することにより、SoTA LLMs(GPT-3.5-Turbo, GPT-4, PaLM2, Gemini-Pro, Mistral, Llama2, Gemma)の非英語能力の徹底的な評価を行うことである。 私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。 また、ベンチマークに2つのマルチモーダルデータセットを含め、LLaVAモデル、GPT-4-Vision、Gemini-Pro-Visionのパフォーマンスを比較した。 実験の結果, GPT-4 や Gemini-Pro , PaLM2 などの大規模モデルは, 様々なタスク, 特に低リソース言語において, より小さなモデルより優れており, より多くのデータセットでは GPT-4 が PaLM2 や Gemini-Pro よりも優れていた。 また,データ汚染に関する調査を行い,複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。

There has been a surge in LLM evaluation research to understand LLM capabilities and limitations. However, much of this research has been confined to English, leaving LLM building and evaluation for non-English languages relatively unexplored. Several new LLMs have been introduced recently, necessitating their evaluation on non-English languages. This study aims to perform a thorough evaluation of the non-English capabilities of SoTA LLMs (GPT-3.5-Turbo, GPT-4, PaLM2, Gemini-Pro, Mistral, Llama2, and Gemma) by comparing them on the same set of multilingual datasets. Our benchmark comprises 22 datasets covering 83 languages, including low-resource African languages. We also include two multimodal datasets in the benchmark and compare the performance of LLaVA models, GPT-4-Vision and Gemini-Pro-Vision. Our experiments show that larger models such as GPT-4, Gemini-Pro and PaLM2 outperform smaller models on various tasks, notably on low-resource languages, with GPT-4 outperforming PaLM2 and Gemini-Pro on more datasets. We also perform a study on data contamination and find that several models are likely to be contaminated with multilingual evaluation benchmarks, necessitating approaches to detect and handle contamination while assessing the multilingual performance of LLMs.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-02
# ゼロショットインコンテキスト機械翻訳のためのアンチLMデコード

Anti-LM Decoding for Zero-shot In-context Machine Translation ( http://arxiv.org/abs/2311.08324v2 )

ライセンス: Link先を確認
Suzanna Sia, Alexandra DeLucia, Kevin Duh, (参考訳) Zero-shot In-context Learning(ゼロショット・イン・コンテキスト・ラーニング)は、モデルが単に命令を与えられた時にタスクを実行する現象である。 しかし、事前訓練された大きな言語モデルは、このタスクでは校正が不十分であることが知られている。 このバイアスに対処する最も効果的なアプローチの1つは、コントラスト的なデコーディングの目的を採用することである。 本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を付加したアンチランゲージモデルを提案する。 実験は、3つのモデルタイプとサイズ、3つの言語方向、およびgreedy decoding と beam search(B=5$)の両方を対象に行います。 提案手法は、いくつかの設定で観測されるデフォルトの目的から最大20ドルのBLEUポイントの改善により、他の最先端のデコーディング目標よりも優れる。

Zero-shot In-context learning is the phenomenon where models can perform the task simply given the instructions. However, pre-trained large language models are known to be poorly calibrated for this task. One of the most effective approaches to handling this bias is to adopt a contrastive decoding objective, which accounts for the prior probability of generating the next token by conditioning on some context. This work introduces an Anti-Language Model objective with a decay factor designed to address the weaknesses of In-context Machine Translation. We conduct our experiments across 3 model types and sizes, 3 language directions, and for both greedy decoding and beam search ($B=5$). The proposed method outperforms other state-of-art decoding objectives, with up to $20$ BLEU point improvement from the default objective observed in some settings.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-02
# RoFTを用いたAIによるテキスト境界検出

AI-generated text boundary detection with RoFT ( http://arxiv.org/abs/2311.08349v2 )

ライセンス: Link先を確認
Laida Kushnareva, Tatiana Gaintseva, German Magai, Serguei Barannikov, Dmitry Abulkhanov, Kristian Kuznetsov, Eduard Tulchinskii, Irina Piontkovskaya, Sergey Nikolenko, (参考訳) 大規模な言語モデルの開発が急速に進んでいるため、人々は人間によって書かれたように始まるが、機械が生成したように続くテキストに遭遇することが多い。 このような文章の人文と機械生成部分の境界を検出することは、文学的にはあまり注目されていない難しい問題である。 我々はこのギャップを埋め、最先端の人工テキスト検出分類器を境界検出設定に適応させるいくつかの方法を検討する。 我々は、RealまたはFakeのテキストベンチマークを使用して、いくつかのトピックに関する短いテキストと、さまざまな言語モデルの世代を含むすべての検出器をその限界まで押し付けます。 この多様性を利用して、クロスドメインおよびクロスモデル設定における全ての検出器の堅牢性を深く検討し、将来の研究のベースラインと洞察を提供する。 特に、境界検出の難易度に基づくアプローチは、RoBERTaモデルの教師付き微調整よりも、ドメイン固有のデータに対して堅牢である傾向があり、また、テキストのどの特徴が境界検出アルゴリズムを混乱させ、ドメイン間設定においてその性能に悪影響を及ぼすかが分かる。

Due to the rapid development of large language models, people increasingly often encounter texts that may start as written by a human but continue as machine-generated. Detecting the boundary between human-written and machine-generated parts of such texts is a challenging problem that has not received much attention in literature. We attempt to bridge this gap and examine several ways to adapt state of the art artificial text detection classifiers to the boundary detection setting. We push all detectors to their limits, using the Real or Fake text benchmark that contains short texts on several topics and includes generations of various language models. We use this diversity to deeply examine the robustness of all detectors in cross-domain and cross-model settings to provide baselines and insights for future research. In particular, we find that perplexity-based approaches to boundary detection tend to be more robust to peculiarities of domain-specific data than supervised fine-tuning of the RoBERTa model; we also find which features of the text confuse boundary detection algorithms and negatively influence their performance in cross-domain settings.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-02
# AMRFact: AMR-Driven Negative Samples 生成による要約ファクチュアリティ評価の強化

AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation ( http://arxiv.org/abs/2311.09521v2 )

ライセンス: Link先を確認
Haoyi Qiu, Kung-Hsiang Huang, Jingnong Qu, Nanyun Peng, (参考訳) 事実整合性の確保は、特に情報の整合性を維持することが最重要である抽象的な要約において、自然言語生成タスクにおいて重要である。 要約の事実整合性を評価する先行研究は、まず乱れた(実際の一貫性のない)要約を生成し、次に生成されたデータに分類器を訓練して、テスト期間中の事実整合性を検出する。 しかし、摂動要約を生成する以前のアプローチは、コヒーレンスが低いか、エラータイプのカバレッジがないかのいずれかである。 これらの問題に対処するために,抽象的意味表現(AMR)を用いて摂動要約を生成するフレームワークであるAMRFactを提案する。 提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。 さらに、自然言語推論とBARTScoreに基づくデータ選択モジュールNegFilterを提案し、生成した負のサンプルの品質を保証する。 実験の結果,AggreFact-SOTAベンチマークでは従来のシステムよりも有意に優れており,抽象的な要約の事実性を評価する上での有効性が示された。

Ensuring factual consistency is crucial for natural language generation tasks, particularly in abstractive summarization, where preserving the integrity of information is paramount. Prior works on evaluating factual consistency of summarization often take the entailment-based approaches that first generate perturbed (factual inconsistent) summaries and then train a classifier on the generated data to detect the factually inconsistencies during testing time. However, previous approaches generating perturbed summaries are either of low coherence or lack error-type coverage. To address these issues, we propose AMRFact, a framework that generates perturbed summaries using Abstract Meaning Representations (AMRs). Our approach parses factually consistent summaries into AMR graphs and injects controlled factual inconsistencies to create negative examples, allowing for coherent factually inconsistent summaries to be generated with high error-type coverage. Additionally, we present a data selection module NegFilter based on natural language inference and BARTScore to ensure the quality of the generated negative samples. Experimental results demonstrate our approach significantly outperforms previous systems on the AggreFact-SOTA benchmark, showcasing its efficacy in evaluating factuality of abstractive summarization.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-02
# 改良された接地・集権生成のための効果的な大規模言語モデル適応

Effective Large Language Model Adaptation for Improved Grounding and Citation Generation ( http://arxiv.org/abs/2311.09533v3 )

ライセンス: Link先を確認
Xi Ye, Ruoxi Sun, Sercan Ö. Arik, Tomas Pfister, (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な進歩を遂げた。 しかし、現実の世界に広く展開する上での大きな問題は、事実ではない"幻滅的な"回答を生成できることです。 そこで本論文では, 抽出した経路に応答を接地し, 引用を提供することによりLCMを改善することに焦点を当てた。 本稿では,GRounding EnhancEment のための新たなフレームワーク AGREE を提案する。 我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。 事前学習されたLLM上でのこのチューニングは、ペアクエリに対する(引用を含む)十分な応答を必要とするため、ラベルのないクエリからそのようなデータを自動的に構築する手法を導入する。 チューニングされたLLMの自己接地能力により、LLMの応答を反復的に改善する、根拠のないクレームをサポートするために、積極的に経路を検索できるテスト時適応(TTA)能力が提供される。 5つのデータセットと2つのLPMに対して,提案したチューニングベースAGREEフレームワークは,プロンプトベースアプローチやポストホック引用ベースアプローチと比較して,より正確な引用で優れた基底応答を生成することを示す。

Large language models (LLMs) have achieved remarkable advancements in natural language understanding and generation. However, one major issue towards their widespread deployment in the real world is that they can generate "hallucinated" answers that are not factual. Towards this end, this paper focuses on improving LLMs by grounding their responses in retrieved passages and by providing citations. We propose a new framework, AGREE, Adaptation for GRounding EnhancEment, that improves the grounding from a holistic perspective. Our framework tunes LLMs to selfground the claims in their responses and provide accurate citations to retrieved documents. This tuning on top of the pre-trained LLMs requires well-grounded responses (with citations) for paired queries, for which we introduce a method that can automatically construct such data from unlabeled queries. The selfgrounding capability of tuned LLMs further grants them a test-time adaptation (TTA) capability that can actively retrieve passages to support the claims that have not been grounded, which iteratively improves the responses of LLMs. Across five datasets and two LLMs, our results show that the proposed tuningbased AGREE framework generates superior grounded responses with more accurate citations compared to prompting-based approaches and post-hoc citing-based approaches
翻訳日:2024-04-04 22:47:12 公開日:2024-04-02
# 妊娠中の質問:母体健康問題回答における実用的意識の重要性

Pregnant Questions: The Importance of Pragmatic Awareness in Maternal Health Question Answering ( http://arxiv.org/abs/2311.09542v2 )

ライセンス: Link先を確認
Neha Srikanth, Rupak Sarkar, Heran Mane, Elizabeth M. Aparicio, Quynh C. Nguyen, Rachel Rudinger, Jordan Boyd-Graber, (参考訳) 情報検索ユーザーによって提起される質問は、しばしば暗黙の虚偽または潜在的に有害な仮定を含む。 母親や幼児の健康などのリスクの高い領域では、質問応答システムはこれらの現実的な制約を認識し、単にユーザーの質問に答えるだけでなく、文脈でそれらを調べて役に立つ対応をしなければならない。 そこで本研究では,母親が妊娠と乳幼児のケアについて質問したときの仮定と含意,あるいは実践的推論について,3つの異なるソースから500の質問から2727の推論データセットを収集することにより検討した。 健康の専門家は、回答を書く際にこれらの推論にどのように自然に対処するかを研究し、既存のQAパイプラインに実用的推論を伝えれば、より完全な反応が得られ、有害な信念の伝播が軽減されることを示す。

Questions posed by information-seeking users often contain implicit false or potentially harmful assumptions. In a high-risk domain such as maternal and infant health, a question-answering system must recognize these pragmatic constraints and go beyond simply answering user questions, examining them in context to respond helpfully. To achieve this, we study assumptions and implications, or pragmatic inferences, made when mothers ask questions about pregnancy and infant care by collecting a dataset of 2,727 inferences from 500 questions across three diverse sources. We study how health experts naturally address these inferences when writing answers, and illustrate that informing existing QA pipelines with pragmatic inferences produces responses that are more complete, mitigating the propagation of harmful beliefs.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-02
# デモストレーションの漸進的有用性を知るための時間的一歩を踏み出す--数ショットのインテクスト学習におけるリグレードの分析

Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning ( http://arxiv.org/abs/2311.09619v2 )

ライセンス: Link先を確認
Kazuma Hashimoto, Karthik Raman, Michael Bendersky, (参考訳) In-Context Learning (ICL) は、Large Language Models (LLM) の創発的な能力である。 LLMを新しいタスクのブラックボックスとして使用できるのは、ほんの少しのデモだけだ。 従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。 このようなラベルは、ICLにおける実演の有用性を推定することが期待されているが、異なるラベル付け戦略が目的のタスクにどのように影響するかはよく分かっていない。 本稿では,LLMの出力確率と,LLMの予測によるタスク固有報酬に着目して,異なるユーティリティ機能の解析を行う。 従来とは違って,実演によってLLMにどの程度のインクリメンタルな知識がもたらされるかを推定する,新たなラベル付け手法であるインクリメンタルユーティリティを導入する。 アラビア語、英語、フィンランド語、日本語、スペイン語の2進・複数クラス分類、分節化、翻訳を指導したLLMを用いて実験を行った。 その結果,(1) 確率値が全値範囲(分類タスク)に分散された場合,(2) 負の報酬値に長い出力(セグメント化および翻訳タスク)が与えられた場合,下流のメトリクスがより堅牢であることがわかった。 次に,提案したインクリメンタルユーティリティは,実演と実演を伴わずにLCMがどのように機能するかを対比することにより,ICLをさらに助けることを示す。

In-Context Learning (ICL) is an emergent capability of Large Language Models (LLMs). Only a few demonstrations enable LLMs to be used as blackbox for new tasks. Previous studies have shown that using LLMs' outputs as labels is effective in training models to select demonstrations. Such a label is expected to estimate utility of a demonstration in ICL; however, it has not been well understood how different labeling strategies affect results on target tasks. This paper presents an analysis on different utility functions by focusing on LLMs' output probability given ground-truth output, and task-specific reward given LLMs' prediction. Unlike the previous work, we introduce a novel labeling method, incremental utility, which estimates how much incremental knowledge is brought into the LLMs by a demonstration. We conduct experiments with instruction-tuned LLMs on binary/multi-class classification, segmentation, and translation across Arabic, English, Finnish, Japanese, and Spanish. Our results show that (1) the probability is effective when the probability values are distributed across the whole value range (on the classification tasks), and (2) the downstream metric is more robust when nuanced reward values are provided with long outputs (on the segmentation and translation tasks). We then show that the proposed incremental utility further helps ICL by contrasting how the LLMs perform with and without the demonstrations.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-02
# MetaCloak: メタラーニングによる非許可の主題駆動型テキスト-画像拡散型合成の防止

MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning ( http://arxiv.org/abs/2311.13127v3 )

ライセンス: Link先を確認
Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou, Lichao Sun, (参考訳) テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。 しかし、これらのツールは間違った手で、個人を危険にさらす、誤解を招く、有害なコンテンツを作ることができる。 この問題に対処するため、既存の毒素ベースのアプローチは、悪意のある使用からユーザイメージを“学習不能”にするために、知覚不能な方法でユーザイメージにアプローチする。 これらの防御アプローチの2つの限界を特定します。 一 難易度最適化の解決のための手作りのヒューリスティックによる準最適 二 ガウスフィルタのような単純なデータ変換に対する堅牢性の欠如。 これらの課題を解決するためにMetaCloakを提案する。MetaCloakは、トランスフォーメーションサンプリングプロセスを追加し、トランスフォーメーション可能で堅牢な摂動を実現するメタラーニングフレームワークを用いて、バイレベル中毒の問題を解決する。 具体的には、代理拡散モデルのプールを用いて、伝達性およびモデルに依存しない摂動を創出する。 さらに、新たな変換プロセスを導入することで、パーソナライズされた世代において、変換ロバストなセマンティックな歪みと劣化を引き起こすのに十分な、単純なデノジングエラー最大化損失を設計する。 VGGFace2とCelebA-HQデータセットの大規模な実験は、MetaCloakが既存のアプローチより優れていることを示している。 特にMetaCloakは、Replicateのようなオンライントレーニングサービスをブラックボックス方式でうまく騙し、現実世界のシナリオにおけるMetaCloakの有効性を実証することができる。 私たちのコードはhttps://github.com/liuyixin-louis/MetaCloak.comから入手可能です。

Text-to-image diffusion models allow seamless generation of personalized images from scant reference photos. Yet, these tools, in the wrong hands, can fabricate misleading or harmful content, endangering individuals. To address this problem, existing poisoning-based approaches perturb user images in an imperceptible way to render them "unlearnable" from malicious uses. We identify two limitations of these defending approaches: i) sub-optimal due to the hand-crafted heuristics for solving the intractable bilevel optimization and ii) lack of robustness against simple data transformations like Gaussian filtering. To solve these challenges, we propose MetaCloak, which solves the bi-level poisoning problem with a meta-learning framework with an additional transformation sampling process to craft transferable and robust perturbation. Specifically, we employ a pool of surrogate diffusion models to craft transferable and model-agnostic perturbation. Furthermore, by incorporating an additional transformation process, we design a simple denoising-error maximization loss that is sufficient for causing transformation-robust semantic distortion and degradation in a personalized generation. Extensive experiments on the VGGFace2 and CelebA-HQ datasets show that MetaCloak outperforms existing approaches. Notably, MetaCloak can successfully fool online training services like Replicate, in a black-box manner, demonstrating the effectiveness of MetaCloak in real-world scenarios. Our code is available at https://github.com/liuyixin-louis/MetaCloak.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-02
# ビジュアルアナグラム:拡散モデルを用いた多視点光イリュージョンの生成

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models ( http://arxiv.org/abs/2311.17919v2 )

ライセンス: Link先を確認
Daniel Geng, Inbum Park, Andrew Owens, (参考訳) マルチビュー光イリュージョンを合成する問題、すなわちフリップや回転のような変換によって外観が変化する画像に対処する。 既成のテキスト・ツー・イメージ拡散モデルからこれらの錯覚を得るためのシンプルなゼロショット法を提案する。 逆拡散過程において、雑音の異なる画像の異なる視点からノイズを推定し、これらのノイズ推定を組み合わせ、画像に雑音を与える。 理論的解析によれば、この方法は直交変換として記述できるビューに対して正確に機能し、置換は部分集合である。 これは、あるピクセルの並べ替えで外観が変わる視覚アナグラムのアイデアに繋がる。 これは回転やフリップを含むが、ジグソー再構成のようなよりエキゾチックなピクセル置換も含む。 私たちのアプローチは、自然に2つ以上の視点で幻想にまで拡張します。 本手法の有効性と柔軟性を示す定性的および定量的な結果を提供する。 さらなる視覚化と結果については、プロジェクトのWebページを参照してください。

We address the problem of synthesizing multi-view optical illusions: images that change appearance upon a transformation, such as a flip or rotation. We propose a simple, zero-shot method for obtaining these illusions from off-the-shelf text-to-image diffusion models. During the reverse diffusion process, we estimate the noise from different views of a noisy image, and then combine these noise estimates together and denoise the image. A theoretical analysis suggests that this method works precisely for views that can be written as orthogonal transformations, of which permutations are a subset. This leads to the idea of a visual anagram--an image that changes appearance under some rearrangement of pixels. This includes rotations and flips, but also more exotic pixel permutations such as a jigsaw rearrangement. Our approach also naturally extends to illusions with more than two views. We provide both qualitative and quantitative results demonstrating the effectiveness and flexibility of our method. Please see our project webpage for additional visualizations and results: https://dangeng.github.io/visual_anagrams/
翻訳日:2024-04-04 22:47:12 公開日:2024-04-02
# 一般化Dense予測に先立つ爆発拡散

Exploiting Diffusion Prior for Generalizable Dense Prediction ( http://arxiv.org/abs/2311.18832v2 )

ライセンス: Link先を確認
Hsin-Ying Lee, Hung-Yu Tseng, Hsin-Ying Lee, Ming-Hsuan Yang, (参考訳) 最近の先進的テキスト・ツー・イメージ(T2I)拡散モデルによって生成されたコンテンツは、既成の密集予測器において、不必要な領域ギャップのために推定するには想像しすぎることがある。 我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。 決定論的予測タスクと確率的T2Iモデルとのミスアライメントに対処するため、インタプリケーションのシーケンスを通じて拡散過程を再構成し、入力されたRGB画像と出力予測分布との決定論的マッピングを確立する。 一般化性を維持するために、我々はファインチューン事前訓練モデルへの低ランク適応を用いる。 3次元特性推定,セマンティックセグメンテーション,固有画像分解を含む5つのタスクにわたる大規模な実験により,提案手法の有効性が示された。 限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。

Contents generated by recent advanced Text-to-Image (T2I) diffusion models are sometimes too imaginative for existing off-the-shelf dense predictors to estimate due to the immitigable domain gap. We introduce DMP, a pipeline utilizing pre-trained T2I models as a prior for dense prediction tasks. To address the misalignment between deterministic prediction tasks and stochastic T2I models, we reformulate the diffusion process through a sequence of interpolations, establishing a deterministic mapping between input RGB images and output prediction distributions. To preserve generalizability, we use low-rank adaptation to fine-tune pre-trained models. Extensive experiments across five tasks, including 3D property estimation, semantic segmentation, and intrinsic image decomposition, showcase the efficacy of the proposed method. Despite limited-domain training data, the approach yields faithful estimations for arbitrary images, surpassing existing state-of-the-art algorithms.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-02
# Omni-SMoLA:低ランクエキスパートのソフトミックスによる汎用マルチモーダルモデルの構築

Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts ( http://arxiv.org/abs/2312.00968v2 )

ライセンス: Link先を確認
Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut, (参考訳) 大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。 しかし、一般のLMMは、大量のタスクをチューニングする際に、しばしば性能劣化に悩まされる。 近年の研究では、Mixture of Experts (MoE) アーキテクチャは命令チューニングに有用であることが示唆されているが、O(50-100B) 周辺のパラメータサイズの LMM では、専門家モデルの複製と保存の禁止コストが、使用可能な専門家の数を著しく制限している。 Omni-SMoLAは、ソフトなMoEアプローチを用いて、多くのマルチモーダルな低ランクの専門家を(ソフトに)混合し、従来のMoEモデルと比較してかなりの数の新しいパラメータを導入することを避けるアーキテクチャである。 ここでの中核となる直感は、大きなモデルが基本的なバックボーンを提供するのに対して、異なる軽量の専門家は、モダリティ毎またはマルチモーダル毎の専門知識を残留的に学習する、ということである。 大規模な実験により、SMoLAアプローチは、広範囲な生成的視覚・言語タスクにおけるジェネラリストのパフォーマンス向上に役立つことが示され、新しいSoTAジェネラリストパフォーマンスは、単一の特殊なLMMベースラインにマッチしたり、性能を上回り、新しいSoTAスペシャリストパフォーマンスを達成する。

Large multi-modal models (LMMs) exhibit remarkable performance across numerous tasks. However, generalist LMMs often suffer from performance degradation when tuned over a large collection of tasks. Recent research suggests that Mixture of Experts (MoE) architectures are useful for instruction tuning, but for LMMs of parameter size around O(50-100B), the prohibitive cost of replicating and storing the expert models severely limits the number of experts we can use. We propose Omni-SMoLA, an architecture that uses the Soft MoE approach to (softly) mix many multimodal low rank experts, and avoids introducing a significant number of new parameters compared to conventional MoE models. The core intuition here is that the large model provides a foundational backbone, while different lightweight experts residually learn specialized knowledge, either per-modality or multimodally. Extensive experiments demonstrate that the SMoLA approach helps improve the generalist performance across a broad range of generative vision-and-language tasks, achieving new SoTA generalist performance that often matches or outperforms single specialized LMM baselines, as well as new SoTA specialist performance.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-02
# 読み出し指導:拡散特徴からの学習制御

Readout Guidance: Learning Control from Diffusion Features ( http://arxiv.org/abs/2312.02150v2 )

ライセンス: Link先を確認
Grace Luo, Trevor Darrell, Oliver Wang, Dan B Goldman, Aleksander Holynski, (参考訳) 本稿では,学習信号を用いたテキスト・画像拡散モデル制御手法であるReadout Guidanceを提案する。 Readout Guidanceはリードアウトヘッドを使用し、トレーニング済みの凍結拡散モデルの特徴から信号を取り出すために訓練された軽量ネットワークである。 これらの読み出しは、ポーズ、深さ、エッジなどのシングルイメージ特性や、対応性や外観類似性といった複数の画像に関連する高次特性を符号化することができる。 さらに、リードアウト推定値をユーザ定義のターゲットと比較し、リードアウトヘッドを通して勾配をバックプロパゲートすることにより、サンプリングプロセスのガイドに使用できる。 以前の条件生成方法と比較して、Readout Guidanceでは、パラメータやトレーニングサンプルが大幅に少なくなり、単一のアーキテクチャとサンプリング手順で、異なる形式の条件制御を1つのフレームワークで再現するための便利でシンプルなレシピを提供する。 これらの利点は、ドラッグベースの操作、アイデンティティ一貫性の生成、空間的整合性制御の適用例を示す。 プロジェクトページ: https://readout-guidance.github.io

We present Readout Guidance, a method for controlling text-to-image diffusion models with learned signals. Readout Guidance uses readout heads, lightweight networks trained to extract signals from the features of a pre-trained, frozen diffusion model at every timestep. These readouts can encode single-image properties, such as pose, depth, and edges; or higher-order properties that relate multiple images, such as correspondence and appearance similarity. Furthermore, by comparing the readout estimates to a user-defined target, and back-propagating the gradient through the readout head, these estimates can be used to guide the sampling process. Compared to prior methods for conditional generation, Readout Guidance requires significantly fewer added parameters and training samples, and offers a convenient and simple recipe for reproducing different forms of conditional control under a single framework, with a single architecture and sampling procedure. We showcase these benefits in the applications of drag-based manipulation, identity-consistent generation, and spatially aligned control. Project page: https://readout-guidance.github.io.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-02
# 言語による視覚概念学習

Language-Informed Visual Concept Learning ( http://arxiv.org/abs/2312.03587v2 )

ライセンス: Link先を確認
Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu, (参考訳) 視覚的世界に対する我々の理解は、視覚的実体の異なる側面を特徴付ける様々な概念軸を中心にしている。 異なる概念軸は言語、例えば色によって容易に特定できるが、それぞれの軸に沿った正確な視覚的ニュアンスはしばしば言語的調音の限界を超える。 本研究の目的は,大規模な事前学習型視覚言語モデルを蒸留することで,言語インフォームドな視覚概念表現を学習することである。 具体的には,学習済みのテキスト・トゥ・イメージ(T2I)モデルを用いて,入力画像の再生を目的とした,言語インフォームド・コンセプト・軸の集合に関連する情報を符号化する概念エンコーダのセットを訓練する。 異なる概念エンコーダのより良いアンタングル化を促進するために,事前学習された視覚質問応答(VQA)モデルから得られた一連のテキスト埋め込みに,概念埋め込みを固定する。 推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。 ライトウェイトなテストタイムの微調整手順により、トレーニングで見えない新しい概念にも一般化できる。

Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, the exact visual nuances along each axis often exceed the limitations of linguistic articulations, e.g. a particular style of painting. In this work, our goal is to learn a language-informed visual concept representation, by simply distilling large pre-trained vision-language models. Specifically, we train a set of concept encoders to encode the information pertinent to a set of language-informed concept axes, with an objective of reproducing the input image through a pre-trained Text-to-Image (T2I) model. To encourage better disentanglement of different concept encoders, we anchor the concept embeddings to a set of text embeddings obtained from a pre-trained Visual Question Answering (VQA) model. At inference time, the model extracts concept embeddings along various axes from new test images, which can be remixed to generate images with novel compositions of visual concepts. With a lightweight test-time finetuning procedure, it can also generalize to novel concepts unseen at training.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-02
# 大規模言語モデルは低ショット画像分類のための優れたプロンプト学習者である

Large Language Models are Good Prompt Learners for Low-Shot Image Classification ( http://arxiv.org/abs/2312.04076v2 )

ライセンス: Link先を確認
Zhaoheng Zheng, Jingmin Wei, Xuefeng Hu, Haidong Zhu, Ram Nevatia, (参考訳) トレーニング画像が限定的またはアクセス不能なローショット画像分類は、例えばCLIPのような強力な一般化性を持つ事前学習された視覚言語(VL)モデルにおける最近の進歩の恩恵を受けている。 VLモデルで構築されたプロンプト学習手法は、クラス固有の情報しか持たないクラス名からテキスト特徴を生成する。 巨大な言語モデル(LLM)はその膨大な百科事典の知識を補うものとして登場します。 そこで本稿では,LLMの統合による事前学習型VLモデルの強化,特にローショット分類について論じる。 しかし、言語と視覚の間のドメインギャップは、LLMの直接適用を妨げている。 そこで我々は,LLaMP(Large Language Models as Prompt Learningers)を提案し,CLIPテキストエンコーダの適応的なプロンプトを生成し,接続ブリッジとして確立した。 実験により、LLaMPは他の最先端の素早い学習手法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方において、11のデータセットのスペクトルよりも優れた性能が得られることが示された。 コードは、https://github.com/zhaohengz/LLaMP.comで入手できる。

Low-shot image classification, where training images are limited or inaccessible, has benefited from recent progress on pre-trained vision-language (VL) models with strong generalizability, e.g. CLIP. Prompt learning methods built with VL models generate text features from the class names that only have confined class-specific information. Large Language Models (LLMs), with their vast encyclopedic knowledge, emerge as the complement. Thus, in this paper, we discuss the integration of LLMs to enhance pre-trained VL models, specifically on low-shot classification. However, the domain gap between language and vision blocks the direct application of LLMs. Thus, we propose LLaMP, Large Language Models as Prompt learners, that produces adaptive prompts for the CLIP text encoder, establishing it as the connecting bridge. Experiments show that, compared with other state-of-the-art prompt learning methods, LLaMP yields better performance on both zero-shot generalization and few-shot image classification, over a spectrum of 11 datasets. Code will be made available at: https://github.com/zhaohengz/LLaMP.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-02
# SeiT++: Masked Token Modelingはストレージ効率のトレーニングを改善する

SeiT++: Masked Token Modeling Improves Storage-efficient Training ( http://arxiv.org/abs/2312.10105v3 )

ライセンス: Link先を確認
Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim, (参考訳) 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。 しかし、高度に一般化可能で高性能な視覚モデルを実現するには、拡張データセットが必要であるため、かなりのストレージ要求が生じる。 このストレージの課題は、モデルをスケールアップする上で重要なボトルネックである。 SeiTによる最近のブレークスルーでは、視覚分類のためのネットワーク入力としてベクトル量子化(VQ)特徴ベクトル(トークン)が提案されている。 このアプローチは、ストレージの1%しか持たないフルピクセル画像でトレーニングされたモデルの性能の90%を達成した。 SeiTにはラベル付きデータが必要だが、完全に教師付き学習以上のシナリオの可能性はほとんどない。 本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。 ラベルの欠如により、自己組織化されたアプローチがより多くのデータを要求することが多いことを認識し、TokenAdaptとColorAdaptを紹介します。 これらの手法は、トークンフレンドリーなデータ拡張を促進し、自己教師付き学習におけるデータ要求の増加に効果的に対処する。 我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ADE-20kセマンティックセグメンテーション,ロバストネスベンチマークなど,さまざまなシナリオにおけるアプローチを評価した。 実験の結果,様々な実験において一貫した性能向上が示され,本手法の有効性が検証された。 コードはhttps://github.com/naver-ai/tokenadapt.comで入手できる。

Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires expansive datasets, resulting in significant storage requirements. This storage challenge is a critical bottleneck for scaling up models. A recent breakthrough by SeiT proposed the use of Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. This approach achieved 90% of the performance of a model trained on full-pixel images with only 1% of the storage. While SeiT needs labeled data, its potential in scenarios beyond fully supervised learning remains largely untapped. In this paper, we extend SeiT by integrating Masked Token Modeling (MTM) for self-supervised pre-training. Recognizing that self-supervised approaches often demand more data due to the lack of labels, we introduce TokenAdapt and ColorAdapt. These methods facilitate comprehensive token-friendly data augmentation, effectively addressing the increased data requirements of self-supervised learning. We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, ADE-20k semantic segmentation, and robustness benchmarks. Experimental results demonstrate consistent performance improvement in diverse experiments, validating the effectiveness of our method. Code is available at https://github.com/naver-ai/tokenadapt.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-02
# Gemini: 高機能マルチモーダルモデルのファミリー

Gemini: A Family of Highly Capable Multimodal Models ( http://arxiv.org/abs/2312.11805v2 )

ライセンス: Link先を確認
Gemini Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M. Dai, Anja Hauth, Katie Millican, David Silver, Melvin Johnson, Ioannis Antonoglou, Julian Schrittwieser, Amelia Glaese, Jilin Chen, Emily Pitler, Timothy Lillicrap, Angeliki Lazaridou, Orhan Firat, James Molloy, Michael Isard, Paul R. Barham, Tom Hennigan, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, Ryan Doherty, Eli Collins, Clemens Meyer, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Jack Krawczyk, Cosmo Du, Ed Chi, Heng-Tze Cheng, Eric Ni, Purvi Shah, Patrick Kane, Betty Chan, Manaal Faruqui, Aliaksei Severyn, Hanzhao Lin, YaGuang Li, Yong Cheng, Abe Ittycheriah, Mahdis Mahdieh, Mia Chen, Pei Sun, Dustin Tran, Sumit Bagri, Balaji Lakshminarayanan, Jeremiah Liu, Andras Orban, Fabian Güra, Hao Zhou, Xinying Song, Aurelien Boffy, Harish Ganapathy, Steven Zheng, HyunJeong Choe, Ágoston Weisz, Tao Zhu, Yifeng Lu, Siddharth Gopal, Jarrod Kahn, Maciej Kula, Jeff Pitman, Rushin Shah, Emanuel Taropa, Majd Al Merey, Martin Baeuml, Zhifeng Chen, Laurent El Shafey, Yujing Zhang, Olcan Sercinoglu, George Tucker, Enrique Piqueras, Maxim Krikun, Iain Barr, Nikolay Savinov, Ivo Danihelka, Becca Roelofs, Anaïs White, Anders Andreassen, Tamara von Glehn, Lakshman Yagati, Mehran Kazemi, Lucas Gonzalez, Misha Khalman, Jakub Sygnowski, Alexandre Frechette, Charlotte Smith, Laura Culp, Lev Proleev, Yi Luan, Xi Chen, James Lottes, Nathan Schucher, Federico Lebron, Alban Rrustemi, Natalie Clay, Phil Crone, Tomas Kocisky, Jeffrey Zhao, Bartek Perz, Dian Yu, Heidi Howard, Adam Bloniarz, Jack W. Rae, Han Lu, Laurent Sifre, Marcello Maggioni, Fred Alcober, Dan Garrette, Megan Barnes, Shantanu Thakoor, Jacob Austin, Gabriel Barth-Maron, William Wong, Rishabh Joshi, Rahma Chaabouni, Deeni Fatiha, Arun Ahuja, Gaurav Singh Tomar, Evan Senter, Martin Chadwick, Ilya Kornakov, Nithya Attaluri, Iñaki Iturrate, Ruibo Liu, Yunxuan Li, Sarah Cogan, Jeremy Chen, Chao Jia, Chenjie Gu, Qiao Zhang, Jordan Grimstad, Ale Jakse Hartman, Xavier Garcia, Thanumalayan Sankaranarayana Pillai, Jacob Devlin, Michael Laskin, Diego de Las Casas, Dasha Valter, Connie Tao, Lorenzo Blanco, Adrià Puigdomènech Badia, David Reitter, Mianna Chen, Jenny Brennan, Clara Rivera, Sergey Brin, Shariq Iqbal, Gabriela Surita, Jane Labanowski, Abhi Rao, Stephanie Winkler, Emilio Parisotto, Yiming Gu, Kate Olszewska, Ravi Addanki, Antoine Miech, Annie Louis, Denis Teplyashin, Geoff Brown, Elliot Catt, Jan Balaguer, Jackie Xiang, Pidong Wang, Zoe Ashwood, Anton Briukhov, Albert Webson, Sanjay Ganapathy, Smit Sanghavi, Ajay Kannan, Ming-Wei Chang, Axel Stjerngren, Josip Djolonga, Yuting Sun, Ankur Bapna, Matthew Aitchison, Pedram Pejman, Henryk Michalewski, Tianhe Yu, Cindy Wang, Juliette Love, Junwhan Ahn, Dawn Bloxwich, Kehang Han, Peter Humphreys, Thibault Sellam, James Bradbury, Varun Godbole, Sina Samangooei, Bogdan Damoc, Alex Kaskasoli, Sébastien M. R. Arnold, Vijay Vasudevan, Shubham Agrawal, Jason Riesa, Dmitry Lepikhin, Richard Tanburn, Srivatsan Srinivasan, Hyeontaek Lim, Sarah Hodkinson, Pranav Shyam, Johan Ferret, Steven Hand, Ankush Garg, Tom Le Paine, Jian Li, Yujia Li, Minh Giang, Alexander Neitz, Zaheer Abbas, Sarah York, Machel Reid, Elizabeth Cole, Aakanksha Chowdhery, Dipanjan Das, Dominika Rogozińska, Vitaliy Nikolaev, Pablo Sprechmann, Zachary Nado, Lukas Zilka, Flavien Prost, Luheng He, Marianne Monteiro, Gaurav Mishra, Chris Welty, Josh Newlan, Dawei Jia, Miltiadis Allamanis, Clara Huiyi Hu, Raoul de Liedekerke, Justin Gilmer, Carl Saroufim, Shruti Rijhwani, Shaobo Hou, Disha Shrivastava, Anirudh Baddepudi, Alex Goldin, Adnan Ozturel, Albin Cassirer, Yunhan Xu, Daniel Sohn, Devendra Sachan, Reinald Kim Amplayo, Craig Swanson, Dessie Petrova, Shashi Narayan, Arthur Guez, Siddhartha Brahma, Jessica Landon, Miteyan Patel, Ruizhe Zhao, Kevin Villela, Luyu Wang, Wenhao Jia, Matthew Rahtz, Mai Giménez, Legg Yeung, James Keeling, Petko Georgiev, Diana Mincu, Boxi Wu, Salem Haykal, Rachel Saputro, Kiran Vodrahalli, James Qin, Zeynep Cankara, Abhanshu Sharma, Nick Fernando, Will Hawkins, Behnam Neyshabur, Solomon Kim, Adrian Hutter, Priyanka Agrawal, Alex Castro-Ros, George van den Driessche, Tao Wang, Fan Yang, Shuo-yiin Chang, Paul Komarek, Ross McIlroy, Mario Lučić, Guodong Zhang, Wael Farhan, Michael Sharman, Paul Natsev, Paul Michel, Yamini Bansal, Siyuan Qiao, Kris Cao, Siamak Shakeri, Christina Butterfield, Justin Chung, Paul Kishan Rubenstein, Shivani Agrawal, Arthur Mensch, Kedar Soparkar, Karel Lenc, Timothy Chung, Aedan Pope, Loren Maggiore, Jackie Kay, Priya Jhakra, Shibo Wang, Joshua Maynez, Mary Phuong, Taylor Tobin, Andrea Tacchetti, Maja Trebacz, Kevin Robinson, Yash Katariya, Sebastian Riedel, Paige Bailey, Kefan Xiao, Nimesh Ghelani, Lora Aroyo, Ambrose Slone, Neil Houlsby, Xuehan Xiong, Zhen Yang, Elena Gribovskaya, Jonas Adler, Mateo Wirth, Lisa Lee, Music Li, Thais Kagohara, Jay Pavagadhi, Sophie Bridgers, Anna Bortsova, Sanjay Ghemawat, Zafarali Ahmed, Tianqi Liu, Richard Powell, Vijay Bolina, Mariko Iinuma, Polina Zablotskaia, James Besley, Da-Woon Chung, Timothy Dozat, Ramona Comanescu, Xiance Si, Jeremy Greer, Guolong Su, Martin Polacek, Raphaël Lopez Kaufman, Simon Tokumine, Hexiang Hu, Elena Buchatskaya, Yingjie Miao, Mohamed Elhawaty, Aditya Siddhant, Nenad Tomasev, Jinwei Xing, Christina Greer, Helen Miller, Shereen Ashraf, Aurko Roy, Zizhao Zhang, Ada Ma, Angelos Filos, Milos Besta, Rory Blevins, Ted Klimenko, Chih-Kuan Yeh, Soravit Changpinyo, Jiaqi Mu, Oscar Chang, Mantas Pajarskas, Carrie Muir, Vered Cohen, Charline Le Lan, Krishna Haridasan, Amit Marathe, Steven Hansen, Sholto Douglas, Rajkumar Samuel, Mingqiu Wang, Sophia Austin, Chang Lan, Jiepu Jiang, Justin Chiu, Jaime Alonso Lorenzo, Lars Lowe Sjösund, Sébastien Cevey, Zach Gleicher, Thi Avrahami, Anudhyan Boral, Hansa Srinivasan, Vittorio Selo, Rhys May, Konstantinos Aisopos, Léonard Hussenot, Livio Baldini Soares, Kate Baumli, Michael B. Chang, Adrià Recasens, Ben Caine, Alexander Pritzel, Filip Pavetic, Fabio Pardo, Anita Gergely, Justin Frye, Vinay Ramasesh, Dan Horgan, Kartikeya Badola, Nora Kassner, Subhrajit Roy, Ethan Dyer, Víctor Campos Campos, Alex Tomala, Yunhao Tang, Dalia El Badawy, Elspeth White, Basil Mustafa, Oran Lang, Abhishek Jindal, Sharad Vikram, Zhitao Gong, Sergi Caelles, Ross Hemsley, Gregory Thornton, Fangxiaoyu Feng, Wojciech Stokowiec, Ce Zheng, Phoebe Thacker, Çağlar Ünlü, Zhishuai Zhang, Mohammad Saleh, James Svensson, Max Bileschi, Piyush Patil, Ankesh Anand, Roman Ring, Katerina Tsihlas, Arpi Vezer, Marco Selvi, Toby Shevlane, Mikel Rodriguez, Tom Kwiatkowski, Samira Daruki, Keran Rong, Allan Dafoe, Nicholas FitzGerald, Keren Gu-Lemberg, Mina Khan, Lisa Anne Hendricks, Marie Pellat, Vladimir Feinberg, James Cobon-Kerr, Tara Sainath, Maribeth Rauh, Sayed Hadi Hashemi, Richard Ives, Yana Hasson, Eric Noland, Yuan Cao, Nathan Byrd, Le Hou, Qingze Wang, Thibault Sottiaux, Michela Paganini, Jean-Baptiste Lespiau, Alexandre Moufarek, Samer Hassan, Kaushik Shivakumar, Joost van Amersfoort, Amol Mandhane, Pratik Joshi, Anirudh Goyal, Matthew Tung, Andrew Brock, Hannah Sheahan, Vedant Misra, Cheng Li, Nemanja Rakićević, Mostafa Dehghani, Fangyu Liu, Sid Mittal, Junhyuk Oh, Seb Noury, Eren Sezener, Fantine Huot, Matthew Lamm, Nicola De Cao, Charlie Chen, Sidharth Mudgal, Romina Stella, Kevin Brooks, Gautam Vasudevan, Chenxi Liu, Mainak Chain, Nivedita Melinkeri, Aaron Cohen, Venus Wang, Kristie Seymore, Sergey Zubkov, Rahul Goel, Summer Yue, Sai Krishnakumaran, Brian Albert, Nate Hurley, Motoki Sano, Anhad Mohananey, Jonah Joughin, Egor Filonov, Tomasz Kępa, Yomna Eldawy, Jiawern Lim, Rahul Rishi, Shirin Badiezadegan, Taylor Bos, Jerry Chang, Sanil Jain, Sri Gayatri Sundara Padmanabhan, Subha Puttagunta, Kalpesh Krishna, Leslie Baker, Norbert Kalb, Vamsi Bedapudi, Adam Kurzrok, Shuntong Lei, Anthony Yu, Oren Litvin, Xiang Zhou, Zhichun Wu, Sam Sobell, Andrea Siciliano, Alan Papir, Robby Neale, Jonas Bragagnolo, Tej Toor, Tina Chen, Valentin Anklin, Feiran Wang, Richie Feng, Milad Gholami, Kevin Ling, Lijuan Liu, Jules Walter, Hamid Moghaddam, Arun Kishore, Jakub Adamek, Tyler Mercado, Jonathan Mallinson, Siddhinita Wandekar, Stephen Cagle, Eran Ofek, Guillermo Garrido, Clemens Lombriser, Maksim Mukha, Botu Sun, Hafeezul Rahman Mohammad, Josip Matak, Yadi Qian, Vikas Peswani, Pawel Janus, Quan Yuan, Leif Schelin, Oana David, Ankur Garg, Yifan He, Oleksii Duzhyi, Anton Älgmyr, Timothée Lottaz, Qi Li, Vikas Yadav, Luyao Xu, Alex Chinien, Rakesh Shivanna, Aleksandr Chuklin, Josie Li, Carrie Spadine, Travis Wolfe, Kareem Mohamed, Subhabrata Das, Zihang Dai, Kyle He, Daniel von Dincklage, Shyam Upadhyay, Akanksha Maurya, Luyan Chi, Sebastian Krause, Khalid Salama, Pam G Rabinovitch, Pavan Kumar Reddy M, Aarush Selvan, Mikhail Dektiarev, Golnaz Ghiasi, Erdem Guven, Himanshu Gupta, Boyi Liu, Deepak Sharma, Idan Heimlich Shtacher, Shachi Paul, Oscar Akerlund, François-Xavier Aubet, Terry Huang, Chen Zhu, Eric Zhu, Elico Teixeira, Matthew Fritze, Francesco Bertolini, Liana-Eleonora Marinescu, Martin Bölle, Dominik Paulus, Khyatti Gupta, Tejasi Latkar, Max Chang, Jason Sanders, Roopa Wilson, Xuewei Wu, Yi-Xuan Tan, Lam Nguyen Thiet, Tulsee Doshi, Sid Lall, Swaroop Mishra, Wanming Chen, Thang Luong, Seth Benjamin, Jasmine Lee, Ewa Andrejczuk, Dominik Rabiej, Vipul Ranjan, Krzysztof Styrc, Pengcheng Yin, Jon Simon, Malcolm Rose Harriott, Mudit Bansal, Alexei Robsky, Geoff Bacon, David Greene, Daniil Mirylenka, Chen Zhou, Obaid Sarvana, Abhimanyu Goyal, Samuel Andermatt, Patrick Siegler, Ben Horn, Assaf Israel, Francesco Pongetti, Chih-Wei "Louis" Chen, Marco Selvatici, Pedro Silva, Kathie Wang, Jackson Tolins, Kelvin Guu, Roey Yogev, Xiaochen Cai, Alessandro Agostini, Maulik Shah, Hung Nguyen, Noah Ó Donnaile, Sébastien Pereira, Linda Friso, Adam Stambler, Adam Kurzrok, Chenkai Kuang, Yan Romanikhin, Mark Geller, ZJ Yan, Kane Jang, Cheng-Chun Lee, Wojciech Fica, Eric Malmi, Qijun Tan, Dan Banica, Daniel Balle, Ryan Pham, Yanping Huang, Diana Avram, Hongzhi Shi, Jasjot Singh, Chris Hidey, Niharika Ahuja, Pranab Saxena, Dan Dooley, Srividya Pranavi Potharaju, Eileen O'Neill, Anand Gokulchandran, Ryan Foley, Kai Zhao, Mike Dusenberry, Yuan Liu, Pulkit Mehta, Ragha Kotikalapudi, Chalence Safranek-Shrader, Andrew Goodman, Joshua Kessinger, Eran Globen, Prateek Kolhar, Chris Gorgolewski, Ali Ibrahim, Yang Song, Ali Eichenbaum, Thomas Brovelli, Sahitya Potluri, Preethi Lahoti, Cip Baetu, Ali Ghorbani, Charles Chen, Andy Crawford, Shalini Pal, Mukund Sridhar, Petru Gurita, Asier Mujika, Igor Petrovski, Pierre-Louis Cedoz, Chenmei Li, Shiyuan Chen, Niccolò Dal Santo, Siddharth Goyal, Jitesh Punjabi, Karthik Kappaganthu, Chester Kwak, Pallavi LV, Sarmishta Velury, Himadri Choudhury, Jamie Hall, Premal Shah, Ricardo Figueira, Matt Thomas, Minjie Lu, Ting Zhou, Chintu Kumar, Thomas Jurdi, Sharat Chikkerur, Yenai Ma, Adams Yu, Soo Kwak, Victor Ähdel, Sujeevan Rajayogam, Travis Choma, Fei Liu, Aditya Barua, Colin Ji, Ji Ho Park, Vincent Hellendoorn, Alex Bailey, Taylan Bilal, Huanjie Zhou, Mehrdad Khatir, Charles Sutton, Wojciech Rzadkowski, Fiona Macintosh, Konstantin Shagin, Paul Medina, Chen Liang, Jinjing Zhou, Pararth Shah, Yingying Bi, Attila Dankovics, Shipra Banga, Sabine Lehmann, Marissa Bredesen, Zifan Lin, John Eric Hoffmann, Jonathan Lai, Raynald Chung, Kai Yang, Nihal Balani, Arthur Bražinskas, Andrei Sozanschi, Matthew Hayes, Héctor Fernández Alcalde, Peter Makarov, Will Chen, Antonio Stella, Liselotte Snijders, Michael Mandl, Ante Kärrman, Paweł Nowak, Xinyi Wu, Alex Dyck, Krishnan Vaidyanathan, Raghavender R, Jessica Mallet, Mitch Rudominer, Eric Johnston, Sushil Mittal, Akhil Udathu, Janara Christensen, Vishal Verma, Zach Irving, Andreas Santucci, Gamaleldin Elsayed, Elnaz Davoodi, Marin Georgiev, Ian Tenney, Nan Hua, Geoffrey Cideron, Edouard Leurent, Mahmoud Alnahlawi, Ionut Georgescu, Nan Wei, Ivy Zheng, Dylan Scandinaro, Heinrich Jiang, Jasper Snoek, Mukund Sundararajan, Xuezhi Wang, Zack Ontiveros, Itay Karo, Jeremy Cole, Vinu Rajashekhar, Lara Tumeh, Eyal Ben-David, Rishub Jain, Jonathan Uesato, Romina Datta, Oskar Bunyan, Shimu Wu, John Zhang, Piotr Stanczyk, Ye Zhang, David Steiner, Subhajit Naskar, Michael Azzam, Matthew Johnson, Adam Paszke, Chung-Cheng Chiu, Jaume Sanchez Elias, Afroz Mohiuddin, Faizan Muhammad, Jin Miao, Andrew Lee, Nino Vieillard, Jane Park, Jiageng Zhang, Jeff Stanway, Drew Garmon, Abhijit Karmarkar, Zhe Dong, Jong Lee, Aviral Kumar, Luowei Zhou, Jonathan Evens, William Isaac, Geoffrey Irving, Edward Loper, Michael Fink, Isha Arkatkar, Nanxin Chen, Izhak Shafran, Ivan Petrychenko, Zhe Chen, Johnson Jia, Anselm Levskaya, Zhenkai Zhu, Peter Grabowski, Yu Mao, Alberto Magni, Kaisheng Yao, Javier Snaider, Norman Casagrande, Evan Palmer, Paul Suganthan, Alfonso Castaño, Irene Giannoumis, Wooyeol Kim, Mikołaj Rybiński, Ashwin Sreevatsa, Jennifer Prendki, David Soergel, Adrian Goedeckemeyer, Willi Gierke, Mohsen Jafari, Meenu Gaba, Jeremy Wiesner, Diana Gage Wright, Yawen Wei, Harsha Vashisht, Yana Kulizhskaya, Jay Hoover, Maigo Le, Lu Li, Chimezie Iwuanyanwu, Lu Liu, Kevin Ramirez, Andrey Khorlin, Albert Cui, Tian LIN, Marcus Wu, Ricardo Aguilar, Keith Pallo, Abhishek Chakladar, Ginger Perng, Elena Allica Abellan, Mingyang Zhang, Ishita Dasgupta, Nate Kushman, Ivo Penchev, Alena Repina, Xihui Wu, Tom van der Weide, Priya Ponnapalli, Caroline Kaplan, Jiri Simsa, Shuangfeng Li, Olivier Dousse, Fan Yang, Jeff Piper, Nathan Ie, Rama Pasumarthi, Nathan Lintz, Anitha Vijayakumar, Daniel Andor, Pedro Valenzuela, Minnie Lui, Cosmin Paduraru, Daiyi Peng, Katherine Lee, Shuyuan Zhang, Somer Greene, Duc Dung Nguyen, Paula Kurylowicz, Cassidy Hardin, Lucas Dixon, Lili Janzer, Kiam Choo, Ziqiang Feng, Biao Zhang, Achintya Singhal, Dayou Du, Dan McKinnon, Natasha Antropova, Tolga Bolukbasi, Orgad Keller, David Reid, Daniel Finchelstein, Maria Abi Raad, Remi Crocker, Peter Hawkins, Robert Dadashi, Colin Gaffney, Ken Franko, Anna Bulanova, Rémi Leblond, Shirley Chung, Harry Askham, Luis C. Cobo, Kelvin Xu, Felix Fischer, Jun Xu, Christina Sorokin, Chris Alberti, Chu-Cheng Lin, Colin Evans, Alek Dimitriev, Hannah Forbes, Dylan Banarse, Zora Tung, Mark Omernick, Colton Bishop, Rachel Sterneck, Rohan Jain, Jiawei Xia, Ehsan Amid, Francesco Piccinno, Xingyu Wang, Praseem Banzal, Daniel J. Mankowitz, Alex Polozov, Victoria Krakovna, Sasha Brown, MohammadHossein Bateni, Dennis Duan, Vlad Firoiu, Meghana Thotakuri, Tom Natan, Matthieu Geist, Ser tan Girgin, Hui Li, Jiayu Ye, Ofir Roval, Reiko Tojo, Michael Kwong, James Lee-Thorp, Christopher Yew, Danila Sinopalnikov, Sabela Ramos, John Mellor, Abhishek Sharma, Kathy Wu, David Miller, Nicolas Sonnerat, Denis Vnukov, Rory Greig, Jennifer Beattie, Emily Caveness, Libin Bai, Julian Eisenschlos, Alex Korchemniy, Tomy Tsai, Mimi Jasarevic, Weize Kong, Phuong Dao, Zeyu Zheng, Frederick Liu, Fan Yang, Rui Zhu, Tian Huey Teh, Jason Sanmiya, Evgeny Gladchenko, Nejc Trdin, Daniel Toyama, Evan Rosen, Sasan Tavakkol, Linting Xue, Chen Elkind, Oliver Woodman, John Carpenter, George Papamakarios, Rupert Kemp, Sushant Kafle, Tanya Grunina, Rishika Sinha, Alice Talbert, Diane Wu, Denese Owusu-Afriyie, Cosmo Du, Chloe Thornton, Jordi Pont-Tuset, Pradyumna Narayana, Jing Li, Saaber Fatehi, John Wieting, Omar Ajmeri, Benigno Uria, Yeongil Ko, Laura Knight, Amélie Héliou, Ning Niu, Shane Gu, Chenxi Pang, Yeqing Li, Nir Levine, Ariel Stolovich, Rebeca Santamaria-Fernandez, Sonam Goenka, Wenny Yustalim, Robin Strudel, Ali Elqursh, Charlie Deck, Hyo Lee, Zonglin Li, Kyle Levin, Raphael Hoffmann, Dan Holtmann-Rice, Olivier Bachem, Sho Arora, Christy Koh, Soheil Hassas Yeganeh, Siim Põder, Mukarram Tariq, Yanhua Sun, Lucian Ionita, Mojtaba Seyedhosseini, Pouya Tafti, Zhiyu Liu, Anmol Gulati, Jasmine Liu, Xinyu Ye, Bart Chrzaszcz, Lily Wang, Nikhil Sethi, Tianrun Li, Ben Brown, Shreya Singh, Wei Fan, Aaron Parisi, Joe Stanton, Vinod Koverkathu, Christopher A. Choquette-Choo, Yunjie Li, TJ Lu, Abe Ittycheriah, Prakash Shroff, Mani Varadarajan, Sanaz Bahargam, Rob Willoughby, David Gaddy, Guillaume Desjardins, Marco Cornero, Brona Robenek, Bhavishya Mittal, Ben Albrecht, Ashish Shenoy, Fedor Moiseev, Henrik Jacobsson, Alireza Ghaffarkhah, Morgane Rivière, Alanna Walton, Clément Crepy, Alicia Parrish, Zongwei Zhou, Clement Farabet, Carey Radebaugh, Praveen Srinivasan, Claudia van der Salm, Andreas Fidjeland, Salvatore Scellato, Eri Latorre-Chimoto, Hanna Klimczak-Plucińska, David Bridson, Dario de Cesare, Tom Hudson, Piermaria Mendolicchio, Lexi Walker, Alex Morris, Matthew Mauger, Alexey Guseynov, Alison Reid, Seth Odoom, Lucia Loher, Victor Cotruta, Madhavi Yenugula, Dominik Grewe, Anastasia Petrushkina, Tom Duerig, Antonio Sanchez, Steve Yadlowsky, Amy Shen, Amir Globerson, Lynette Webb, Sahil Dua, Dong Li, Surya Bhupatiraju, Dan Hurt, Haroon Qureshi, Ananth Agarwal, Tomer Shani, Matan Eyal, Anuj Khare, Shreyas Rammohan Belle, Lei Wang, Chetan Tekur, Mihir Sanjay Kale, Jinliang Wei, Ruoxin Sang, Brennan Saeta, Tyler Liechty, Yi Sun, Yao Zhao, Stephan Lee, Pandu Nayak, Doug Fritz, Manish Reddy Vuyyuru, John Aslanides, Nidhi Vyas, Martin Wicke, Xiao Ma, Evgenii Eltyshev, Nina Martin, Hardie Cate, James Manyika, Keyvan Amiri, Yelin Kim, Xi Xiong, Kai Kang, Florian Luisier, Nilesh Tripuraneni, David Madras, Mandy Guo, Austin Waters, Oliver Wang, Joshua Ainslie, Jason Baldridge, Han Zhang, Garima Pruthi, Jakob Bauer, Feng Yang, Riham Mansour, Jason Gelman, Yang Xu, George Polovets, Ji Liu, Honglong Cai, Warren Chen, XiangHai Sheng, Emily Xue, Sherjil Ozair, Christof Angermueller, Xiaowei Li, Anoop Sinha, Weiren Wang, Julia Wiesinger, Emmanouil Koukoumidis, Yuan Tian, Anand Iyer, Madhu Gurumurthy, Mark Goldenson, Parashar Shah, MK Blake, Hongkun Yu, Anthony Urbanowicz, Jennimaria Palomaki, Chrisantha Fernando, Ken Durden, Harsh Mehta, Nikola Momchev, Elahe Rahimtoroghi, Maria Georgaki, Amit Raul, Sebastian Ruder, Morgan Redshaw, Jinhyuk Lee, Denny Zhou, Komal Jalan, Dinghua Li, Blake Hechtman, Parker Schuh, Milad Nasr, Kieran Milan, Vladimir Mikulik, Juliana Franco, Tim Green, Nam Nguyen, Joe Kelley, Aroma Mahendru, Andrea Hu, Joshua Howland, Ben Vargas, Jeffrey Hui, Kshitij Bansal, Vikram Rao, Rakesh Ghiya, Emma Wang, Ke Ye, Jean Michel Sarr, Melanie Moranski Preston, Madeleine Elish, Steve Li, Aakash Kaku, Jigar Gupta, Ice Pasupat, Da-Cheng Juan, Milan Someswar, Tejvi M., Xinyun Chen, Aida Amini, Alex Fabrikant, Eric Chu, Xuanyi Dong, Amruta Muthal, Senaka Buthpitiya, Sarthak Jauhari, Nan Hua, Urvashi Khandelwal, Ayal Hitron, Jie Ren, Larissa Rinaldi, Shahar Drath, Avigail Dabush, Nan-Jiang Jiang, Harshal Godhia, Uli Sachs, Anthony Chen, Yicheng Fan, Hagai Taitelbaum, Hila Noga, Zhuyun Dai, James Wang, Chen Liang, Jenny Hamer, Chun-Sung Ferng, Chenel Elkind, Aviel Atias, Paulina Lee, Vít Listík, Mathias Carlen, Jan van de Kerkhof, Marcin Pikus, Krunoslav Zaher, Paul Müller, Sasha Zykova, Richard Stefanec, Vitaly Gatsko, Christoph Hirnschall, Ashwin Sethi, Xingyu Federico Xu, Chetan Ahuja, Beth Tsai, Anca Stefanoiu, Bo Feng, Keshav Dhandhania, Manish Katyal, Akshay Gupta, Atharva Parulekar, Divya Pitta, Jing Zhao, Vivaan Bhatia, Yashodha Bhavnani, Omar Alhadlaq, Xiaolin Li, Peter Danenberg, Dennis Tu, Alex Pine, Vera Filippova, Abhipso Ghosh, Ben Limonchik, Bhargava Urala, Chaitanya Krishna Lanka, Derik Clive, Yi Sun, Edward Li, Hao Wu, Kevin Hongtongsak, Ianna Li, Kalind Thakkar, Kuanysh Omarov, Kushal Majmundar, Michael Alverson, Michael Kucharski, Mohak Patel, Mudit Jain, Maksim Zabelin, Paolo Pelagatti, Rohan Kohli, Saurabh Kumar, Joseph Kim, Swetha Sankar, Vineet Shah, Lakshmi Ramachandruni, Xiangkai Zeng, Ben Bariach, Laura Weidinger, Amar Subramanya, Sissie Hsiao, Demis Hassabis, Koray Kavukcuoglu, Adam Sadovsky, Quoc Le, Trevor Strohman, Yonghui Wu, Slav Petrov, Jeffrey Dean, Oriol Vinyals, (参考訳) 本報告では,画像,音声,ビデオ,テキスト理解の両面で優れた機能を示す,新しいマルチモーダルモデルであるGeminiを紹介する。 GeminiファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリ制約のユースケースまで幅広い用途に適している。 幅広いベンチマークに対する評価は、我々の最も有能なGemini Ultraモデルが、これらのベンチマークのうち32のベンチマークのうち30の最先端モデルに進歩していることを示している - 特に、よく研究された試験ベンチマークMMLUで人為的なパフォーマンスを達成した最初のモデルであり、調査した20のマルチモーダルベンチマークのうちの1つで最先端モデルが改善されている。 Geminiファミリーのクロスモーダル推論と言語理解における新機能によって、さまざまなユースケースが実現できると考えています。 Gemini、Gemini Advanced、Google AI Studio、Cloud Vertex AIといったサービスを通じて、ユーザに対して責任を負うような、ゲミニモデルのポストトレーニングとデプロイに対する当社のアプローチについて議論する。

This report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from complex reasoning tasks to on-device memory-constrained use-cases. Evaluation on a broad range of benchmarks shows that our most-capable Gemini Ultra model advances the state of the art in 30 of 32 of these benchmarks - notably being the first model to achieve human-expert performance on the well-studied exam benchmark MMLU, and improving the state of the art in every one of the 20 multimodal benchmarks we examined. We believe that the new capabilities of the Gemini family in cross-modal reasoning and language understanding will enable a wide variety of use cases. We discuss our approach toward post-training and deploying Gemini models responsibly to users through services including Gemini, Gemini Advanced, Google AI Studio, and Cloud Vertex AI.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-02
# TAO-Amodal:任意のオブジェクトを非同期に追跡するためのベンチマーク

TAO-Amodal: A Benchmark for Tracking Any Object Amodally ( http://arxiv.org/abs/2312.12433v3 )

ライセンス: Link先を確認
Cheng-Yen Hsieh, Kaihua Chen, Achal Dave, Tarasha Khurana, Deva Ramanan, (参考訳) 部分的な視界から完全な物体構造を理解する能力であるアモーダル知覚は、幼児にとっても基本的な技術である。 その重要性は、密閉された物体の明確な理解が不可欠である自律運転のような応用にまで及ぶ。 しかし、現代の検出と追跡アルゴリズムは、おそらくほとんどのベンチマークで \textit{modal} アノテーションが普及しているため、この重要な機能を見落としていることが多い。 アモーダルベンチマークの不足に対処するため、TAO-Amodalを導入し、数千の動画シーケンスで833の多様なカテゴリを特徴とする。 我々のデータセットには、textit{amodal} と、カメラフレームから部分的に外れているものを含む、可視または部分的にまたは完全に隠されたオブジェクトのためのモダルバウンディングボックスが含まれています。 本研究では,アモーダルトラッカーとアモーダルセグメンテーション手法のベンチマークにより,アモーダルトラッキングと検出の両方における土地の現在位置について検討する。 既存の手法は、たとえアモーダルトラッキングに適応しても、重い閉塞下での物体の検出と追跡に苦慮していることがわかった。 これを軽減するために, 隠蔽対象物のアモーダルトラッキングと検出の指標を2.1 %, 3.3 %増加させる, 簡易な微調整手法を提案する。

Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of \textit{modal} annotations in most benchmarks. To address the scarcity of amodal benchmarks, we introduce TAO-Amodal, featuring 833 diverse categories in thousands of video sequences. Our dataset includes \textit{amodal} and modal bounding boxes for visible and partially or fully occluded objects, including those that are partially out of the camera frame. We investigate the current lay of the land in both amodal tracking and detection by benchmarking state-of-the-art modal trackers and amodal segmentation methods. We find that existing methods, even when adapted for amodal tracking, struggle to detect and track objects under heavy occlusion. To mitigate this, we explore simple finetuning schemes that can increase the amodal tracking and detection metrics of occluded objects by 2.1\% and 3.3\%.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-02
# ディバイド・アンド・コンカレント推論によるLCMを用いた多項目質問応答

DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs ( http://arxiv.org/abs/2401.05190v2 )

ライセンス: Link先を確認
Zijie Meng, Yan Zhang, Zhaopeng Feng, Zuozhu Liu, (参考訳) 大規模言語モデル(LLM)は、特にMCQ(Multi-choice question)において、CoT(Chain-of-Thought)の出現に伴う推論ベンチマークにおいて、優れたパフォーマンスを示している。 しかし、現在の作業では、問題の解決が困難であるかどうかに関わらず、質問の解決が等しく行われており、複雑な問題への注意が不足しながら、単純な項目に過度に焦点をあてる結果となっている。 この課題に対処するために,まずはヒューリスティックスを用いて人間に触発されたMCQに対するLCMの推論能力を高めるための,単純で効果的なDCR(Divide and Conquer Reasoning)を提案する。 特に,質問を信頼スコア(\mathcal{CS}$)に基づいて2つのサブセットに分類する。 次に,フィルタ選択に基づく推論(FCR)を提案し,MCQのモデル性能を低値($\mathcal{CS}$)で向上させる。 実験の結果,提案手法のコストはSOTAの85%に過ぎず,算術,コモンセンス,論理推論を含む9つのデータセットの平均精度は1.56%向上した。 コードは \url{https://github.com/AiMijie/Divide-and-Conquer} にある。

Large language models (LLMs) have shown impressive performance in reasoning benchmarks with the emergence of Chain-of-Thought (CoT), particularly in multi-choice question (MCQ). However, current works equally resolve questions regardless of the problem-solving difficulty, leading to an excessive focus on simple items while insufficient attention on intricate ones. To address this challenge, we propose a simple yet effective strategy, Divide and Conquer Reasoning (DCR), to enhance the reasoning capability of LLMs for MCQs, as inspired by human beings using heuristics to first categorize tasks and then handle them separately. In particular, we first categorize questions into two subsets based on confidence score ($\mathcal{CS}$), which is estimated by statistical frequency of generated answers. Subsequently, we propose Filter Choices based Reasoning (FCR) to improve model performance on MCQs with low ($\mathcal{CS}$). Our experiments demonstrate that the proposed strategy only costs 85% of SOTA, while still achieves average accuracy improvement of 1.56% across nine datasets including arithmetic, commonsense, and logic reasoning tasks. The code is at \url{https://github.com/AiMijie/Divide-and-Conquer}
翻訳日:2024-04-04 22:27:34 公開日:2024-04-02
# ユニバーサルコンセプトディスカバリによるビデオトランスフォーマーの理解

Understanding Video Transformers via Universal Concept Discovery ( http://arxiv.org/abs/2401.10831v2 )

ライセンス: Link先を確認
Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov, (参考訳) 本稿では,ビデオの変圧器表現における概念に基づく解釈可能性の問題について検討する。 具体的には、自動で検出される高レベルな時空間概念に基づいて、ビデオトランスフォーマーの意思決定過程を説明する。 概念に基づく解釈可能性に関する以前の研究は、イメージレベルのタスクにのみ集中してきた。 比較として、ビデオモデルは時間次元を追加し、複雑さを増し、時間とともに動的概念を識別する上での課題を提起する。 本稿では,ビデオトランスフォーマー概念発見(VTCD)アルゴリズムを導入することで,これらの課題に体系的に対処する。 そこで本研究では,ビデオトランスフォーマー表現の単位を教師なしで識別する手法を提案し,その重要性をモデルの出力にランク付けする。 結果として得られる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時空間的推論機構とオブジェクト中心表現を明らかにする。 この分析を多種多様な教師付きおよび自己教師付き表現に対して共同で行うことにより、ビデオトランスにおいてこれらのメカニズムのいくつかが普遍的であることが分かる。 最後に,VTCDを微細な動作認識やビデオオブジェクトのセグメンテーションに利用できることを示す。

This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations - concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we show that VTCD can be used for fine-grained action recognition and video object segmentation.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-02
# 基礎モデルにおけるFew-Shot Semantic Segmentationの新しいベンチマーク

A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models ( http://arxiv.org/abs/2401.11311v2 )

ライセンス: Link先を確認
Reda Bensaid, Vincent Gripon, François Leduc-Primeau, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux, (参考訳) 近年、コンピュータビジョンの急速な進化により、様々な基礎モデルが出現し、それぞれが特定のデータタイプやタスクに合わせている。 本研究では,これらのモデルのセマンティックセマンティックセグメンテーションへの適応について検討する。 具体的には、DINO V2、Segment Anything、CLIP、Masked AutoEncoders、COCOデータセットで事前トレーニングされたResNet50の4つの主要な基盤モデルの総合的な比較分析を行う。 また,線形探索から微調整まで,5つの適応手法を含む。 以上の結果から,DINO V2は様々なデータセットや適応手法において,他のモデルよりも大きなマージンで優れていることがわかった。 一方、適応法は得られた結果にほとんど相違がなく、単純な線形プローブはより高度でより計算集約的な代替手段と競合する可能性があることを示唆している。

In recent years, the rapid evolution of computer vision has seen the emergence of various foundation models, each tailored to specific data types and tasks. In this study, we explore the adaptation of these models for few-shot semantic segmentation. Specifically, we conduct a comprehensive comparative analysis of four prominent foundation models: DINO V2, Segment Anything, CLIP, Masked AutoEncoders, and of a straightforward ResNet50 pre-trained on the COCO dataset. We also include 5 adaptation methods, ranging from linear probing to fine tuning. Our findings show that DINO V2 outperforms other models by a large margin, across various datasets and adaptation methods. On the other hand, adaptation methods provide little discrepancy in the obtained results, suggesting that a simple linear probing can compete with advanced, more computationally intensive, alternatives
翻訳日:2024-04-04 22:17:46 公開日:2024-04-02
# Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens ( http://arxiv.org/abs/2401.17377v2 )

ライセンス: Link先を確認
Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi, (参考訳) LLM(Neural Large Language Model)の時代において、$n$-gramの言語モデルはいまだに関係しているのだろうか? 我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。 これは2つの面で$n$-gramのLMを近代化することで実現された。 まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします。 これは過去最大の$n$-gram LMである。 第二に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。 プリ計算で$n$-gramのカウントテーブル(非常に高価な)を使わずに、ミリ秒レベルのレイテンシで$\infty$-gram(および$n$-gramの任意の$n$-gram)の確率を計算できるInfini-gramというエンジンを開発しました。 例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしおよび機械生成テキストの新規かつ興味深い分析を可能にします:$\infty$-gram LMは次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完することで、その複雑さを大幅に低減できる。 また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。

Are $n$-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we showcase their values in both text analysis and improving neural LLMs. This was done by modernizing $n$-gram LMs in two aspects. First, we train them at the same data scale as neural LLMs -- 5 trillion tokens. This is the largest $n$-gram LM ever built. Second, existing $n$-gram LMs use small $n$ which hinders their performance; we instead allow $n$ to be arbitrarily large, by introducing a new $\infty$-gram LM with backoff. Instead of pre-computing $n$-gram count tables (which would be very expensive), we develop an engine named infini-gram -- powered by suffix arrays -- that can compute $\infty$-gram (as well as $n$-gram with arbitrary $n$) probabilities with millisecond-level latency. The $\infty$-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the $\infty$-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their perplexity. When analyzing machine-generated text, we also observe irregularities in the machine--$\infty$-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-02
# Code-Aware Prompting:LLMを用いた回帰設定におけるカバーガイドテスト生成の検討

Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM ( http://arxiv.org/abs/2402.00097v2 )

ライセンス: Link先を確認
Gabriel Ryan, Siddhartha Jain, Mingyue Shang, Shiqi Wang, Xiaofei Ma, Murali Krishna Ramanathan, Baishakhi Ray, (参考訳) テストはソフトウェアの品質を保証する上で重要な役割を担いますが、従来の検索ベースソフトウェアテスト(SBST)メソッドは、しばしば複雑なソフトウェアユニットと競合し、最適なテストカバレッジを達成します。 テスト生成に大規模言語モデル(LLM)を用いた最近の研究は、テスト生成コンテキストを最適化し、モデル出力のエラーを修正することで、生成品質の向上に重点を置いているが、追加のガイダンスなしでモデルにテストを生成するように促す固定プロンプト戦略を使用している。 結果として、LSMが生成するテストスーツは、まだ低カバレッジに悩まされている。 本稿では,テスト生成におけるLLMのコード認識促進戦略であるSymPromptを提案する。 SymPrompt のアプローチは、LLM がより複雑な論理的問題を、多段階的な推論によって解けることを示す最近の研究に基づいている。 本手法は,テストスイート生成プロセスを多段階のシーケンスに分解し,テスト対象のメソッドの実行パスに合わせた特定のプロンプトで駆動し,関連する型や依存性のコンテキストをモデルに公開することにより,テスト生成に適用する。 我々のアプローチは、事前訓練されたLLMが、追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。 我々は、TreeSitter構文解析フレームワークを使用してSymPromptを実装し、オープンソースのPythonプロジェクトから挑戦的なメソッドをベンチマークで評価する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。 特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。

Testing plays a pivotal role in ensuring software quality, yet conventional Search Based Software Testing (SBST) methods often struggle with complex software units, achieving suboptimal test coverage. Recent works using large language models (LLMs) for test generation have focused on improving generation quality through optimizing the test generation context and correcting errors in model outputs, but use fixed prompting strategies that prompt the model to generate tests without additional guidance. As a result LLM-generated testsuites still suffer from low coverage. In this paper, we present SymPrompt, a code-aware prompting strategy for LLMs in test generation. SymPrompt's approach is based on recent work that demonstrates LLMs can solve more complex logical problems when prompted to reason about the problem in a multi-step fashion. We apply this methodology to test generation by deconstructing the testsuite generation process into a multi-stage sequence, each of which is driven by a specific prompt aligned with the execution paths of the method under test, and exposing relevant type and dependency focal context to the model. Our approach enables pretrained LLMs to generate more complete test cases without any additional training. We implement SymPrompt using the TreeSitter parsing framework and evaluate on a benchmark challenging methods from open source Python projects. SymPrompt enhances correct test generations by a factor of 5 and bolsters relative coverage by 26% for CodeGen2. Notably, when applied to GPT-4, SymPrompt improves coverage by over 2x compared to baseline prompting strategies.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-02
# アンロック構造測定:位置談話コヒーレンスの自動計測装置PDDの導入

Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence ( http://arxiv.org/abs/2402.10175v2 )

ライセンス: Link先を確認
Yinhong Liu, Yixuan Su, Ehsan Shareghi, Nigel Collier, (参考訳) 近年の大規模言語モデル (LLM) は, 様々なタスクにまたがって生成したテキストとユーザの意図を一致させることで, 顕著な性能を示した。 長文テキスト生成に関しては、談話コヒーレンスの観点からの生成への関心が高まっている。 しかし、BLEU、ROUGE、BertScoreのような既存の語彙や意味のメトリクスでは、談話の一貫性を効果的に捉えることはできない。 LLMのアウトプットを評価するための談話固有の自動評価手法の開発により、より焦点と探索が保証される。 本稿では,2つの長文間の談話のばらつきを定量化する新しい自動測度を提案する。 代表領域からの3つのデータセットに対する大規模な実験により、我々の測定値が人間の嗜好やGPT-4コヒーレンス評価とより密接に一致していることが示され、既存の評価方法よりも優れていた。

Recent large language models (LLMs) have shown remarkable performance in aligning generated text with user intentions across various tasks. When it comes to long-form text generation, there has been a growing interest in generation from a discourse coherence perspective. However, existing lexical or semantic metrics such as BLEU, ROUGE, BertScore cannot effectively capture the discourse coherence. The development of discourse-specific automatic evaluation methods for assessing the output of LLMs warrants greater focus and exploration. In this paper, we present a novel automatic metric designed to quantify the discourse divergence between two long-form articles. Extensive experiments on three datasets from representative domains demonstrate that our metric aligns more closely with human preferences and GPT-4 coherence evaluation, outperforming existing evaluation methods.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-02
# 文要約文を用いた対話状態追跡のための効率よく効率的な会話検索法

Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries ( http://arxiv.org/abs/2402.13043v3 )

ライセンス: Link先を確認
Seanie Lee, Jianpeng Cheng, Joris Driesen, Alexandru Coca, Anders Johannsen, (参考訳) LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。 従来は検索キーやクエリとして生の対話コンテキストを使用していた。 しかし、このアプローチは、微調整データが利用できない新しいドメインや新しいアノテーション言語へのスケーリングには適していない。 この問題に対処するため,会話のテキスト要約に基づいて会話検索を行う。 LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。 LLMに基づく会話要約による余分な推論コストを回避するため、テスト会話の要約を復号することなくクエリ埋め込みを生成する軽量な会話エンコーダを蒸留する。 GPT-Neo-2.7B と LLaMA-7B/30B を用いた MultiWOZ データセットの検索手法を検証する。 実験の結果,実写DST設定において,関連するベースラインよりも顕著な改善が認められた。

Few-shot dialogue state tracking (DST) with Large Language Models (LLM) relies on an effective and efficient conversation retriever to find similar in-context examples for prompt learning. Previous works use raw dialogue context as search keys and queries, and a retriever is fine-tuned with annotated dialogues to achieve superior performance. However, the approach is less suited for scaling to new domains or new annotation languages, where fine-tuning data is unavailable. To address this problem, we handle the task of conversation retrieval based on text summaries of the conversations. A LLM-based conversation summarizer is adopted for query and key generation, which enables effective maximum inner product search. To avoid the extra inference cost brought by LLM-based conversation summarization, we further distill a light-weight conversation encoder which produces query embeddings without decoding summaries for test conversations. We validate our retrieval approach on MultiWOZ datasets with GPT-Neo-2.7B and LLaMA-7B/30B. The experimental results show a significant improvement over relevant baselines in real few-shot DST settings.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-02
# CFIR:大規模コーパスのための高速かつ効果的な長文画像検索

CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora ( http://arxiv.org/abs/2402.15276v3 )

ライセンス: Link先を確認
Zijun Long, Xuri Ge, Richard Mccreadie, Joemon Jose, (参考訳) テキスト・ツー・イメージ検索は,デジタルライブラリやeコマース,マルチメディアデータベースなど,さまざまなユースケースにおいて重要な,テキストクエリに基づく関連画像の検索を目的としている。 MLLM(Multimodal Large Language Models)は、最先端の性能を示すが、計算コストと、それらが生成するインジェクティブ埋め込みのため、大規模で多様であいまいな現実世界の検索のニーズに対処する際の限界を示す。 本稿では,高速かつ効率的な大規模長文画像検索を目的とした2段階の粗度指数共有検索(CFIR)フレームワークを提案する。 最初の段階であるEntity-based Ranking (ER)は、複数クエリから複数ターゲットのパラダイムを採用することで、長文クエリのあいまいさに適応し、次の段階の候補フィルタリングを容易にする。 第2のステージは、要約されたクエリを使用して、これらのランキングを洗練する、Scrise-based Re- rank (SR)である。 また,不明瞭なユーザニーズと両段階の処理に最適化されたDecoupling-BEiT-3エンコーダを提案する。 AToMiCデータセットの評価によると、CFIRはRecall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。 我々は、将来の研究を促進するために、https://github.com/longkukuhi/CFIR.comでコードを公開します。

Text-to-image retrieval aims to find the relevant images based on a text query, which is important in various use-cases, such as digital libraries, e-commerce, and multimedia databases. Although Multimodal Large Language Models (MLLMs) demonstrate state-of-the-art performance, they exhibit limitations in handling large-scale, diverse, and ambiguous real-world needs of retrieval, due to the computation cost and the injective embeddings they produce. This paper presents a two-stage Coarse-to-Fine Index-shared Retrieval (CFIR) framework, designed for fast and effective large-scale long-text to image retrieval. The first stage, Entity-based Ranking (ER), adapts to long-text query ambiguity by employing a multiple-queries-to-multiple-targets paradigm, facilitating candidate filtering for the next stage. The second stage, Summary-based Re-ranking (SR), refines these rankings using summarized queries. We also propose a specialized Decoupling-BEiT-3 encoder, optimized for handling ambiguous user needs and both stages, which also enhances computational efficiency through vector-based similarity inference. Evaluation on the AToMiC dataset reveals that CFIR surpasses existing MLLMs by up to 11.06% in Recall@1000, while reducing training and retrieval times by 68.75% and 99.79%, respectively. We will release our code to facilitate future research at https://github.com/longkukuhi/CFIR.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-02
# OSCaR:オブジェクト状態のキャプションと状態変化の表現

OSCaR: Object State Captioning and State Change Representation ( http://arxiv.org/abs/2402.17128v4 )

ライセンス: Link先を確認
Nguyen Nguyen, Jing Bi, Ali Vosoughi, Yapeng Tian, Pooyan Fazli, Chenliang Xu, (参考訳) 物体の状態の変化を外挿し、理解するインテリジェントなモデルの能力は、AI研究の重要な側面であり、特に現実世界における人間のインタラクションのレンズを通してである。 このタスクは、複雑な視覚環境を記述し、アクティブなオブジェクトを識別し、言語を通して伝達される変化を解釈する。 オブジェクトキャプションと状態変化検出を分離する従来の方法は、動的環境の限られたビューを提供する。 さらに、変化を表すために記号的な単語の小さなセットに頼ることは、言語の表現性を制限している。 本稿では,これらの課題に対処するため,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。 マルチモーダルな大規模言語モデル(MLLM)を評価するための新しいテストベッドを設定する。 我々の実験では、MLLMはある程度のスキルを示しながら、オブジェクトの状態の変化を十分に理解していないことが示されています。 ベンチマークには、初期機能にもかかわらず、これらの変更を効果的に理解するために、精度と一般化能力を著しく改善する必要がある微調整モデルが含まれている。 私たちのコードとデータセットはhttps://github.com/nguyennm1024/OSCaR.orgで公開されています。

The capability of intelligent models to extrapolate and comprehend changes in object states is a crucial yet demanding aspect of AI research, particularly through the lens of human interaction in real-world settings. This task involves describing complex visual environments, identifying active objects, and interpreting their changes as conveyed through language. Traditional methods, which isolate object captioning and state change detection, offer a limited view of dynamic environments. Moreover, relying on a small set of symbolic words to represent changes has restricted the expressiveness of the language. To address these challenges, in this paper, we introduce the Object State Captioning and State Change Representation (OSCaR) dataset and benchmark. OSCaR consists of 14,084 annotated video segments with nearly 1,000 unique objects from various egocentric video collections. It sets a new testbed for evaluating multimodal large language models (MLLMs). Our experiments demonstrate that while MLLMs show some skill, they lack a full understanding of object state changes. The benchmark includes a fine-tuned model that, despite initial capabilities, requires significant improvements in accuracy and generalization ability for effective understanding of these changes. Our code and dataset are available at https://github.com/nguyennm1024/OSCaR.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-02
# 有限温度動的および励起状態量子相転移の統一

Unifying Finite-Temperature Dynamical and Excited-State Quantum Phase Transitions ( http://arxiv.org/abs/2402.18622v2 )

ライセンス: Link先を確認
Ángel L. Corps, Armando Relaño, Jad C. Halimeh, (参考訳) 近年、動的相転移の様々な概念が出現し、非平衡臨界を記述している。 これらの異なる概念を結合する統一フレームワークはいまだに欠けており、非平衡量子多体普遍性を理解するための大きな進歩をもたらすだろう。 熱アンサンブルで初期化し,その後リプキン-メシュコフ-グリックモデルで量子クエンチを行い,励起状態量子相転移(ESQPT)と2種類の動的相転移(DPT)の直接接続を確立する。 我々の研究は、非基底的臨界の様々な概念が密接に結びついており、極非平衡普遍性の統一的枠組みへの道を開くものである。

In recent years, various notions of dynamical phase transitions have emerged to describe far-from-equilibrium criticality. A unifying framework connecting these different concepts is still missing, and would provide significant progress towards understanding far-from-equilibrium quantum many-body universality. Initializing our system in a thermal ensemble and subsequently performing quantum quenches in the Lipkin-Meshkov-Glick model, we establish a direct connection between excited-state quantum phase transitions (ESQPTs) and two major types of dynamical phase transitions (DPTs), by relating the phases of the latter to the critical energies and conservation laws in the former. Our work provides further insight into how various concepts of non-ground-state criticality are intimately connected, paving the way for a unified framework of far-from-equilibrium universality.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-02
# 損失媒質中におけるマルチモードスクイーズ光発生の理論

Theory of Multimode Squeezed Light Generation in Lossy Media ( http://arxiv.org/abs/2403.05259v2 )

ライセンス: Link先を確認
Denis A. Kopylov, Torsten Meier, Polina R. Sharapova, (参考訳) 損失媒体で発生する多重モード励起光の特性を記述するための統一的理論的アプローチを示す。 このアプローチはマルコフ環境において有効であり、ビームスプリッター法に基づく離散損失モデルと空間ランゲヴィン方程式に基づく一般化された連続損失モデルの両方を含む。 ガウス状態の重要なクラスについて、2階相関関数のマスター方程式を導出し、周波数非依存と周波数依存の両方の損失に対するそれらの解を説明する。 モード構造を調べた結果、異なるブロードバンドモード間の2次相関がなければ、損失のある環境でブロードバンドベースが存在しないことが判明した。 したがって、ブロードバンドモードを導入するための様々な技術や戦略を考えることができる。 マーサー展開とウィリアムソン分解は、システムに含まれる最大スキーズを計測できるモードを提供していないことを示す。 そこで,損失システムのスキューズを最大化する新しいブロードバンドベースを見つけ,その構築アルゴリズムを提案する。

A unified theoretical approach to describe the properties of multimode squeezed light generated in a lossy medium is presented. This approach is valid for Markovian environments and includes both a model of discrete losses based on the beamsplitter approach and a generalized continuous loss model based on the spatial Langevin equation. For an important class of Gaussian states, we derive master equations for the second-order correlation functions and illustrate their solution for both frequency-independent and frequency-dependent losses. Studying the mode structure, we demonstrate that in a lossy environment no broadband basis without quadrature correlations between the different broadband modes exists. Therefore, various techniques and strategies to introduce broadband modes can be considered. We show that the Mercer expansion and the Williamson decomposition do not provide modes in which the maximal squeezing contained in the system can be measured. In turn, we find a new broadband basis that maximizes squeezing in the lossy system and present an algorithm to construct it.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-02
# Teslaフィールドにおける低雑音計測用グラニュラーアルミニウムパラメトリック増幅器

Granular Aluminum Parametric Amplifier for Low-Noise Measurements in Tesla Fields ( http://arxiv.org/abs/2403.10669v2 )

ライセンス: Link先を確認
Nicolas Zapata, Ivan Takmakov, Simon Günzler, Ameya Nambisan, Dennis Rieger, Thomas Reisinger, Wolfgang Wernsdorfer, Ioan M. Pop, (参考訳) ジョゼフソン接合パラメトリック増幅器は、最小の雑音を付加したマイクロ波量子回路の読み出しに欠かせない道具となっている。 この10年で目覚ましい速度で改善したとしても、磁場に弱いままであり、スピン量子ビットやアンドリーブ、分子磁石デバイス、ダークマターサーチなど、多くの用途での使用を制限する。 グラニュラルアルミニウム(grAl)のような運動インダクタンス材料は、自然磁場のレジリエンスを持つ非線形性の代替源を提供する。 本稿では,2つの結合したGraAl共振器を最大1Tまでの平面磁場に抵抗する非縮退増幅器を提案し,28MHzおよび110dBmの入力飽和電力のゲイン帯域幅積を持つ付加雑音の量子限界に近づいたゲインを20dB提供する。

Josephson junction parametric amplifiers have become essential tools for microwave quantum circuit readout with minimal added noise. Even after improving at an impressive rate in the last decade, they remain vulnerable to magnetic field, which limits their use in many applications such as spin qubits, Andreev and molecular magnet devices, dark matter searches, etc. Kinetic inductance materials, such as granular aluminum (grAl), offer an alternative source of non-linearity with innate magnetic field resilience. We present a non-degenerate amplifier made of two coupled grAl resonators resilient to in-plane magnetic field up to 1 T. It offers 20 dB of gain close to the quantum limit of added noise, with a gain-bandwidth product of 28 MHz and -110 dBm input saturation power.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-02
# StateFlow: ステート駆動ワークフローによるLLMタスクソルビングの強化

StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows ( http://arxiv.org/abs/2403.11322v2 )

ライセンス: Link先を確認
Yiran Wu, Tianwei Yue, Shaokun Zhang, Chi Wang, Qingyun Wu, (参考訳) 複雑なタスク、例えば一連のアクションや、ツールや外部環境との動的相互作用を必要とするタスクに対処するために、LLM(Large Language Models)を使用することは、注目すべきトレンドである。 本稿では,複雑なタスク解決プロセスをステートマシンとして概念化する,新しいLCMベースのタスク解決パラダイムであるStateFlowを提案する。 StateFlowでは、(状態と状態遷移を介して)「プロセス基盤」と(状態内のアクションを通じて)「サブタスク解決」を区別し、タスク解決手順の制御と解釈性を高めます。 状態は実行中のプロセスの状態を表す。 状態間の遷移は LLM によるヒューリスティックな規則や決定によって制御され、動的かつ適応的な進行を可能にする。 状態に入ると、異なるプロンプトでガイドされたLSMを呼び出すだけでなく、必要に応じて外部ツールの利用を含む一連のアクションが実行される。 その結果, StateFlow は LLM の効率を大幅に向上させることがわかった。 例えば、StateFlowはInterCode SQLとALFWorldベンチマークのReActと比較して13%と28%高い成功率を実現し、それぞれ5倍と3倍のコストがかかる。 また、StateFlowとReflexionのような反復的な精錬メソッドを組み合わせることで、パフォーマンスをさらに向上できることを示す。

It is a notable trend to use Large Language Models (LLMs) to tackle complex tasks, e.g., tasks that require a sequence of actions and dynamic interaction with tools and external environments. In this paper, we propose StateFlow, a novel LLM-based task-solving paradigm that conceptualizes complex task-solving processes as state machines. In StateFlow, we distinguish between "process grounding" (via state and state transitions) and "sub-task solving" (through actions within a state), enhancing control and interpretability of the task-solving procedure. A state represents the status of a running process. The transitions between states are controlled by heuristic rules or decisions made by the LLM, allowing for a dynamic and adaptive progression. Upon entering a state, a series of actions is executed, involving not only calling LLMs guided by different prompts, but also the utilization of external tools as needed. Our results show that StateFlow significantly enhances LLMs' efficiency. For instance, StateFlow achieves 13% and 28% higher success rates compared to ReAct in InterCode SQL and ALFWorld benchmark, with 5x and 3x less cost respectively. We also show that StateFlow can be combined with iterative refining methods like Reflexion to further improve performance.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-02
# 予算リサイクルの差別化

Budget Recycling Differential Privacy ( http://arxiv.org/abs/2403.11445v2 )

ライセンス: Link先を確認
Bo Jiang, Jian Du, Sagar Shamar, Qiang Yan, (参考訳) 差分プライバシー(DP)メカニズムは通常、厳格なプライバシー予算のために"アウト・オブ・バウンド"ノイズのある結果を生成することによって、データユーティリティを強制的に削減する。 本稿では,既存のDPメカニズムに対して,ソフトバウンドなノイズ出力を提供するために,BR-DP(Budgetcycle Differential Privacy)フレームワークを導入する。 ソフトバウンド”では、事前に定義されたエラー境界内でほとんどのアウトプットを解放し、ユーティリティを改善し、同時にプライバシを維持するメカニズムの能力について言及する。 BR-DPのコアは2つのコンポーネントから構成される: 繰り返しごとにノイズの答えを生成するDPカーネルと、ノイズの答えを確率的にリサイクルまたは再生するリサイクル器である。 我々は, BR-DP のプライバシ会計を探求し, DP カーネルとリサイクルシステムの間で利用可能な予算を最適にサブアロケーションする予算策定の原則を策定する。 さらに, 構成シナリオにおけるBR-DPの厳密な会計アルゴリズムを導入し, BR-DPは, DPに比べてプライバシー漏洩後のコンポジションの低減を実現していることを示す。 さらに、BR-DPフレームワーク内でのサブサンプリングによるプライバシアンプリフィケーションの概念について検討し、様々なクエリに対するBR-DPの最適なサンプリングレートを提案する。 実データを用いて実験を行い, BR-DPがDP機構によって提供されるユーティリティ・プライバシ・トレードオフを解除する効果を実証した。

Differential Privacy (DP) mechanisms usually {force} reduction in data utility by producing "out-of-bound" noisy results for a tight privacy budget. We introduce the Budget Recycling Differential Privacy (BR-DP) framework, designed to provide soft-bounded noisy outputs for a broad range of existing DP mechanisms. By "soft-bounded," we refer to the mechanism's ability to release most outputs within a predefined error boundary, thereby improving utility and maintaining privacy simultaneously. The core of BR-DP consists of two components: a DP kernel responsible for generating a noisy answer per iteration, and a recycler that probabilistically recycles/regenerates or releases the noisy answer. We delve into the privacy accounting of BR-DP, culminating in the development of a budgeting principle that optimally sub-allocates the available budget between the DP kernel and the recycler. Furthermore, we introduce algorithms for tight BR-DP accounting in composition scenarios, and our findings indicate that BR-DP achieves reduced privacy leakage post-composition compared to DP. Additionally, we explore the concept of privacy amplification via subsampling within the BR-DP framework and propose optimal sampling rates for BR-DP across various queries. We experiment with real data, and the results demonstrate BR-DP's effectiveness in lifting the utility-privacy tradeoff provided by DP mechanisms.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-02
# MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness

MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness ( http://arxiv.org/abs/2403.14990v2 )

ライセンス: Link先を確認
Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Md Nishat Raihan, Al Nahian Bin Emran, Amrita Ganguly, Marcos Zampieri, (参考訳) 本稿では,SemEval-2024 Task 1 - Semantic Textual RelatednessのMasonTigersエントリについて述べる。 このタスクには、教師なし(Track A)、教師なし(Track B)、14言語にわたる言語横断(Track C)アプローチが含まれる。 MasonTigers氏は3つのトラックですべての言語に参加した2チームのうちの1つとして際立っている。 提案手法は,トラックAにおける11位から21位,トラックBにおける1位から8位,トラックCにおける5位から12位までのランク付けを達成した。

This paper presents the MasonTigers entry to the SemEval-2024 Task 1 - Semantic Textual Relatedness. The task encompasses supervised (Track A), unsupervised (Track B), and cross-lingual (Track C) approaches across 14 different languages. MasonTigers stands out as one of the two teams who participated in all languages across the three tracks. Our approaches achieved rankings ranging from 11th to 21st in Track A, from 1st to 8th in Track B, and from 5th to 12th in Track C. Adhering to the task-specific constraints, our best performing approaches utilize ensemble of statistical machine learning approaches combined with language-specific BERT based models and sentence transformers.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-02
# ホロボールとその段階的方法

Horoballs and the subgradient method ( http://arxiv.org/abs/2403.15749v2 )

ライセンス: Link先を確認
Adrian S. Lewis, Genaro Lopez-Acedo, Adriana Nicolae, (参考訳) アダマール空間上の凸最適化を探索するために、段階的なアルゴリズムのスタイルの反復を考える。 伝統的に、そのような手法は、基礎となる空間は多様体であり、目的は測地的に凸である、と仮定する:これらの手法は接空間と指数写像を用いて記述される。 対照的に、我々の反復は一般のアダマール空間に適用され、基礎空間自体にフレーム化され、代わりに対象のレベル集合の球面凸性に依存する。 この制限された目的のクラスに対して、通常の形式の複雑さの結果が証明される。 特に、複雑性は空間曲率の低い境界に依存しない。 本稿では,アダマール空間における極小囲み球問題に対する段階的アルゴリズムについて述べる。

To explore convex optimization on Hadamard spaces, we consider an iteration in the style of a subgradient algorithm. Traditionally, such methods assume that the underlying spaces are manifolds and that the objectives are geodesically convex: the methods are described using tangent spaces and exponential maps. By contrast, our iteration applies in a general Hadamard space, is framed in the underlying space itself, and relies instead on horospherical convexity of the objective level sets. For this restricted class of objectives, we prove a complexity result of the usual form. Notably, the complexity does not depend on a lower bound on the space curvature. We illustrate our subgradient algorithm on the minimal enclosing ball problem in Hadamard spaces.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-02
# 電子ドープされた$t-t'-J$模型のシリンダー上における基底状態

The ground state of electron-doped $t-t'-J$ model on cylinders ( http://arxiv.org/abs/2404.01979v1 )

ライセンス: Link先を確認
Yang Shen, Xiangjian Qian, Mingpu Qin, (参考訳) 密度行列再正規化群 (DMRG) を持つシリンダ上で電子ドープされた$t-t'-J$モデルについて包括的な研究を行う。 我々は、有限サイズ効果を探索するために、周方向に沿って周期的境界条件と反周期的境界条件の両方を採用する。 ドーピングレベルは1/6ドル,1/8ドル,1/12ドルで,電子ドープカップレートの位相図で最も興味深い領域である。 幅4, 6系の場合, 反強磁性ネイル状態とストリップ状態の異なる境界条件下での固定ドーピングスイッチの基底状態は, $t-t'-J$モデルにおいて大きな有限サイズ効果が存在することを示す。 また、システムの境界条件や幅とともに定量的に変化する$d$-waveペアリング相関についても慎重に分析する。 しかしながら、全てのドーピングにおいて系が広くなるとペアリング相関が強化され、熱力学限界における長距離超伝導秩序の存在が示唆される。 幅8の結果は, 到達可能な状態のDMRG計算の開始状態に依存することがわかった。 幅8系では、ネイル(ストリップ)状態のみがDMRG計算で1/12$$(1/6$)ドーピングで安定化でき、一方、ストライプ状態とネールの状態は境界条件にかかわらず1/8$ドーピングで安定している。 これらの結果から,1/8ドルのドーピングは,より低いドーピングを持つネエル相と高いドーピングを持つストライプ相との相転移の境界にある可能性が示唆された。 この研究で観測された境界条件と大きさに対する基底状態の感度は、$t'$-Hubbardモデルと似ている。

We perform a comprehensive study of the electron-doped $t-t'-J$ model on cylinders with Density Matrix Renormalization Group (DMRG). We adopt both periodic and anti-periodic boundary conditions along the circumference direction to explore the finite size effect. We study doping levels of $1/6$, $1/8$, and $1/12$ which represent the most interesting region in the phase diagram of electron-doped cuprates. We find that for width-4 and 6 systems, the ground state for fixed doping switches between anti-ferromagnetic Neel state and stripe state under different boundary conditions and with system widths, indicating the presence of large finite size effect in the $t-t'-J$ model. We also have a careful analysis of the $d$-wave pairing correlations which also changes quantitatively with boundary conditions and widths of the system. However, the pairing correlations are enhanced when the system becomes wider for all dopings, suggesting the existence of possible long-ranged superconducting order in the thermodynamic limit. The width-8 results are found to be dependent on the starting state in the DMRG calculation for the kept states we can reach. For width-8 system only Neel (stripe) state can be stabilized in DMRG calculation for $1/12$ ($1/6$) doping, while both stripe and Neel states are stable in the DMRG sweep for $1/8$ doping, regardless of the boundary conditions. These results indicate that $1/8$ doping is likely to lie in the boundary of a phase transition between the Neel phase with lower doping and the stripe phase with higher doping, consistent with the previous study. The sensitivity of ground state on boundary conditions and size observed in this work is similar to that in the $t'$- Hubbard model.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-02
# 分散・レート適応型特徴圧縮

Distributed and Rate-Adaptive Feature Compression ( http://arxiv.org/abs/2404.02179v1 )

ライセンス: Link先を確認
Aditya Deshmukh, Venugopal V. Veeravalli, Gunjan Verma, (参考訳) 線形回帰に対する分散・レート適応的特徴圧縮の問題点について検討する。 分散センサの集合は、回帰器データの解離した特徴を収集する。 核融合センターは、非圧縮データ全体のデータセットに基づいて訓練された事前訓練された線形回帰モデルを含むと仮定される。 推定時、センサーは観測結果を圧縮し、通信に制約のあるチャネルを通じて融合センターに送り、その速度は時間とともに変化する。 我々のゴールは、融合センターでの推論性能を最大化しつつ、様々な通信制約に適応できる特徴圧縮(scheme)を設計することである。 まず、下層の回帰器データ分布の知識を仮定した最適な定量化器の形式を得る。 そこで本研究では,センサデータの1次元投影を定量化する分散圧縮方式を提案する。 また,通信制約の変化に対処する簡単な適応方式を提案する。 シミュレーション実験により分散適応圧縮方式の有効性を示す。

We study the problem of distributed and rate-adaptive feature compression for linear regression. A set of distributed sensors collect disjoint features of regressor data. A fusion center is assumed to contain a pretrained linear regression model, trained on a dataset of the entire uncompressed data. At inference time, the sensors compress their observations and send them to the fusion center through communication-constrained channels, whose rates can change with time. Our goal is to design a feature compression {scheme} that can adapt to the varying communication constraints, while maximizing the inference performance at the fusion center. We first obtain the form of optimal quantizers assuming knowledge of underlying regressor data distribution. Under a practically reasonable approximation, we then propose a distributed compression scheme which works by quantizing a one-dimensional projection of the sensor data. We also propose a simple adaptive scheme for handling changes in communication constraints. We demonstrate the effectiveness of the distributed adaptive compression scheme through simulated experiments.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-02
# スタック化されたオートエンコーダとクラスタリングによる地質マッピングのためのリモートセンシングフレームワーク

Remote sensing framework for geological mapping via stacked autoencoders and clustering ( http://arxiv.org/abs/2404.02180v1 )

ライセンス: Link先を確認
Sandeep Nagar, Ehsan Farahbakhsh, Joseph Awange, Rohitash Chandra, (参考訳) 正確なラベル付きトレーニングデータの不足によるリモートセンシング顔制限による地質図作成のための教師付き学習法 対照的に、次元減少やクラスタリングのような教師なし学習手法は、事前に定義されたラベルに頼ることなく、リモートセンシングデータのパターンや構造を明らかにすることができる。 次元性低減法は、地質地図の精度向上に重要な役割を果たす可能性がある。 従来の次元減少法は非線形データと競合する可能性があるが、オートエンコーダのような教師なしのディープラーニングモデルは、データの非線形関係をモデル化する能力を持っている。 スタックされたオートエンコーダは複数の相互接続されたレイヤを備え、リモートセンシングデータに有用な階層データ表現をキャプチャする。 本研究では,地形単位のマッピングのための次元縮小とk平均クラスタリングに積み重ねられたオートエンコーダを用いることで,リモートセンシングデータを処理するための教師なし機械学習フレームワークを提案する。 オーストラリア, ニューサウスウェールズ州西部のムタウィンチ地域のランドサット8, ASTER, Sentinel-2データセットを用いて, 地質マッピングの枠組みを評価する。 また,重畳されたオートエンコーダと主成分分析および正準オートエンコーダとの比較を行った。 本研究により, 岩盤単位を効率的に識別し, 高精度かつ解釈可能な地質図を作成できることが判明した。 積み重ねられたオートエンコーダは、それと比較して精度が良いことがわかった。 また, 生成した地図は, 地質構造に関する新たな知見を提供しながら, それまでの地質学的知識と一致していることがわかった。

Supervised learning methods for geological mapping via remote sensing face limitations due to the scarcity of accurately labelled training data. In contrast, unsupervised learning methods, such as dimensionality reduction and clustering have the ability to uncover patterns and structures in remote sensing data without relying on predefined labels. Dimensionality reduction methods have the potential to play a crucial role in improving the accuracy of geological maps. Although conventional dimensionality reduction methods may struggle with nonlinear data, unsupervised deep learning models such as autoencoders have the ability to model nonlinear relationship in data. Stacked autoencoders feature multiple interconnected layers to capture hierarchical data representations that can be useful for remote sensing data. In this study, we present an unsupervised machine learning framework for processing remote sensing data by utilizing stacked autoencoders for dimensionality reduction and k-means clustering for mapping geological units. We use the Landsat-8, ASTER, and Sentinel-2 datasets of the Mutawintji region in Western New South Wales, Australia to evaluate the framework for geological mapping. We also provide a comparison of stacked autoencoders with principal component analysis and canonical autoencoders. Our results reveal that the framework produces accurate and interpretable geological maps, efficiently discriminating rock units. We find that the stacked autoencoders provide better accuracy when compared to the counterparts. We also find that the generated maps align with prior geological knowledge of the study area while providing novel insights into geological structures.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-02
# INDT-ASD Indian Databaseによる早期自閉症検出のための機械学習の活用

Leveraging Machine Learning for Early Autism Detection via INDT-ASD Indian Database ( http://arxiv.org/abs/2404.02181v1 )

ライセンス: Link先を確認
Trapti Shrivastava, Harshal Chaudhari, Vrijendra Singh, (参考訳) 機械学習(ML)は、特に医療の分野で急速に進歩している。 MLを用いた神経発達障害の診断は非常に重要な医療分野である。 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、世界最速の発達障害の一つである。 自閉症の症状を特定するための臨床検査は高価で時間を要する。 しかしMLが進歩した今、自閉症を早期に特定することは可能である。 以前は様々な技術が研究に使われてきた。 それでも、臨床で検証されたインドのASDデータベースを用いて自閉症の特徴を予測する能力に関して、予想される結果が得られていない。 そこで本研究では,MLを用いて簡易かつ迅速かつ安価にASDを識別する手法を開発することを目的とした。 Adaboost (AB), Gradient Boost (GB), Decision Tree (DT), Logistic Regression (LR), Random Forest (RF), Gaussian Naive Bayes (GNB), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), K-Nearest Neighbors (KNN), Support Vector Machine (SVM)などの機械学習分類器を用いて自閉症予測モデルを開発した。 提案手法はインドのデリーでAIIMS Modified INDT-ASD (AMI) データベースを用いて実験を行った。 提案されたソリューションを、既に利用可能なソリューションよりも容易にするために、機能エンジニアリングが適用されている。 提案モデルを用いて,AMIで提示された28の質問よりも,20の質問の最小セットを用いてASDの予測に成功した。 比較評価では、SVMが上位モデルとして登場し、100$\pm$ 0.05\%、リコール率 5.34\%、RFよりも2.22\%-6.67\%向上した。 ヒンディー語と英語の両方をサポートするWebベースのソリューションも導入しました。

Machine learning (ML) has advanced quickly, particularly throughout the area of health care. The diagnosis of neurodevelopment problems using ML is a very important area of healthcare. Autism spectrum disorder (ASD) is one of the developmental disorders that is growing the fastest globally. The clinical screening tests used to identify autistic symptoms are expensive and time-consuming. But now that ML has been advanced, it's feasible to identify autism early on. Previously, many different techniques have been used in investigations. Still, none of them have produced the anticipated outcomes when it comes to the capacity to predict autistic features utilizing a clinically validated Indian ASD database. Therefore, this study aimed to develop a simple, quick, and inexpensive technique for identifying ASD by using ML. Various machine learning classifiers, including Adaboost (AB), Gradient Boost (GB), Decision Tree (DT), Logistic Regression (LR), Random Forest (RF), Gaussian Naive Bayes (GNB), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), K-Nearest Neighbors (KNN), and Support Vector Machine (SVM), were used to develop the autism prediction model. The proposed method was tested with records from the AIIMS Modified INDT-ASD (AMI) database, which were collected through an application developed by AIIMS in Delhi, India. Feature engineering has been applied to make the proposed solution easier than already available solutions. Using the proposed model, we succeeded in predicting ASD using a minimized set of 20 questions rather than the 28 questions presented in AMI with promising accuracy. In a comparative evaluation, SVM emerged as the superior model among others, with 100 $\pm$ 0.05\% accuracy, higher recall by 5.34\%, and improved accuracy by 2.22\%-6.67\% over RF. We have also introduced a web-based solution supporting both Hindi and English.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-02
# 自己組織化エージェント:超大規模コード生成と最適化に向けたLLMマルチエージェントフレームワーク

Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code Generation and Optimization ( http://arxiv.org/abs/2404.02183v1 )

ライセンス: Link先を確認
Yoichi Ishibashi, Yoshimasa Nishimura, (参考訳) 大規模言語モデル(LLM)エージェントを用いた自動コード生成の最近の進歩は、自動ソフトウェア開発の未来に近づきつつある。 しかし、既存の単一エージェントアプローチは、コンテキスト長の制約による大規模で複雑なコードベースの生成と改善において制限に直面している。 この課題に対処するために,大規模コードのスケーラブルで効率的な生成と最適化を可能にする,新しいマルチエージェントフレームワークであるSelf-Organized Multi-Agent framework (SoA)を提案する。 SoAでは、自己組織化されたエージェントが独立してコードコンポーネントの生成と修正を行い、コードベース全体を構築するためにシームレスに協力します。 私たちのフレームワークの重要な特徴は、問題複雑性に基づいたエージェントの自動乗算であり、動的スケーラビリティを可能にします。 これにより、エージェント数に応じてコード全体のボリュームが無限に増加し、各エージェントによって管理されるコードの量は一定である。 我々は、HumanEvalベンチマーク上でSoAを評価し、シングルエージェントシステムと比較して、SoA内の各エージェントがコード処理をかなり少なくするが、全体的なコード生成量は大幅に大きいことを示した。 さらに、SoAはPass@1の精度で強力なシングルエージェントベースラインを5%上回る。

Recent advancements in automatic code generation using large language model (LLM) agent have brought us closer to the future of automated software development. However, existing single-agent approaches face limitations in generating and improving large-scale, complex codebases due to constraints in context length. To tackle this challenge, we propose Self-Organized multi-Agent framework (SoA), a novel multi-agent framework that enables the scalable and efficient generation and optimization of large-scale code. In SoA, self-organized agents operate independently to generate and modify code components while seamlessly collaborating to construct the overall codebase. A key feature of our framework is the automatic multiplication of agents based on problem complexity, allowing for dynamic scalability. This enables the overall code volume to be increased indefinitely according to the number of agents, while the amount of code managed by each agent remains constant. We evaluate SoA on the HumanEval benchmark and demonstrate that, compared to a single-agent system, each agent in SoA handles significantly less code, yet the overall generated code is substantially greater. Moreover, SoA surpasses the powerful single-agent baseline by 5% in terms of Pass@1 accuracy.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 分光データ分析におけるアンサンブルモデルから得られるものは何か?

What is to be gained by ensemble models in analysis of spectroscopic data? ( http://arxiv.org/abs/2404.02184v1 )

ライセンス: Link先を確認
Katarina Domijan, (参考訳) 分光データの予測を改善することを目的としたアンサンブルモデルの異なる実装を比較するための実験的検討を行った。 幅広い候補モデルが回帰と分類設定からベンチマークデータセットに適合した。 線形混合モデルを用いた統計的解析は、データのランダムな分割に対するモデル適合から得られる予測性能基準に基づいて行われた。 その結果,アンサンブル分類器はアプリケーションの候補モデルより一貫して優れていた。

An empirical study was carried out to compare different implementations of ensemble models aimed at improving prediction in spectroscopic data. A wide range of candidate models were fitted to benchmark datasets from regression and classification settings. A statistical analysis using linear mixed model was carried out on prediction performance criteria resulting from model fits over random splits of the data. The results showed that the ensemble classifiers were able to consistently outperform candidate models in our application
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# NeRFCodec: メモリ効率の良いシーン表現のためのニューラル・ラジアンス・フィールドを提示するニューラル・フィーチャー・圧縮

NeRFCodec: Neural Feature Compression Meets Neural Radiance Fields for Memory-Efficient Scene Representation ( http://arxiv.org/abs/2404.02185v1 )

ライセンス: Link先を確認
Sicheng Li, Hao Li, Yiyi Liao, Lu Yu, (参考訳) ニューラルレージアンス場(NeRF)の出現は3次元シーンモデリングと新規ビュー合成に大きな影響を与えている。 3次元シーン表現のための視覚メディアの一種として、高速歪み性能の圧縮は永遠の目標である。 ニューラル圧縮とニューラルフィールド表現の進歩により、非線形変換、量子化、エントロピー符号化を統合してメモリ効率の高いシーン表現を実現する、エンドツーエンドのNeRF圧縮フレームワークNeRFCodecを提案する。 大規模なNeRF特徴面上で非線形変換を直接訓練することは現実的ではないため、コンテンツ固有のパラメータを追加する際に、事前学習されたニューラル2D画像コーデックが特徴を圧縮するのに有効であることが判明した。 具体的には、ニューラル2D画像コーデックを再利用するが、そのエンコーダとデコーダのヘッドを変更するとともに、事前訓練されたデコーダの他の部分を凍結させる。 これにより、レンダリング損失とエントロピー損失の監視を通じて、完全なパイプラインをトレーニングすることが可能になります。 テスト時には、遅延コード、特徴デコーダヘッド、その他の側情報を含むビットストリームを通信するために送信する。 実験により,提案手法は既存のNeRF圧縮法より優れており,0.5MBのメモリ予算で高品質な新規ビュー合成が可能であった。

The emergence of Neural Radiance Fields (NeRF) has greatly impacted 3D scene modeling and novel-view synthesis. As a kind of visual media for 3D scene representation, compression with high rate-distortion performance is an eternal target. Motivated by advances in neural compression and neural field representation, we propose NeRFCodec, an end-to-end NeRF compression framework that integrates non-linear transform, quantization, and entropy coding for memory-efficient scene representation. Since training a non-linear transform directly on a large scale of NeRF feature planes is impractical, we discover that pre-trained neural 2D image codec can be utilized for compressing the features when adding content-specific parameters. Specifically, we reuse neural 2D image codec but modify its encoder and decoder heads, while keeping the other parts of the pre-trained decoder frozen. This allows us to train the full pipeline via supervision of rendering loss and entropy loss, yielding the rate-distortion balance by updating the content-specific parameters. At test time, the bitstreams containing latent code, feature decoder head, and other side information are transmitted for communication. Experimental results demonstrate our method outperforms existing NeRF compression methods, enabling high-quality novel view synthesis with a memory budget of 0.5 MB.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 不均衡データを用いた衝突重大度モデリングのための生成的深層学習手法

A Generative Deep Learning Approach for Crash Severity Modeling with Imbalanced Data ( http://arxiv.org/abs/2404.02187v1 )

ライセンス: Link先を確認
Junlan Chen, Ziyuan Pu, Nan Zheng, Xiao Wen, Hongliang Ding, Xiucheng Guo, (参考訳) クラッシュデータはしばしば非常に不均衡であり、ほとんどのクラッシュは致命的でないクラッシュであり、少数のクラッシュはその希少性のために致命的なクラッシュである。 このようなデータ不均衡問題は、非常に限られたサンプルで致命的なクラッシュ結果の適合と解釈に苦慮しているため、クラッシュ重大度モデリングの課題となる。 通常、そのようなデータ不均衡問題はアンダーサンプリングやオーバーサンプリングといったデータ再サンプリング手法によって解決される。 しかし、合成マイノリティオーバーサンプリング技術(SMOTE)やGAN(Generative Adversarial Networks)など、従来の深層学習に基づくデータ再サンプリング手法は、連続変数の処理に特化している。 いくつかの再サンプリング法は、連続変数と離散変数の両方を扱うように改善されているが、希少な離散リスク要因に関連する崩壊問題を扱うのに困難がある可能性がある。 さらに,事故重大度モデリングにおける種々の再サンプリング手法の性能を比較する総合的な研究は乏しい。 上記の問題に対処するため,本研究では,条件付きタブラリGANに基づくクラッシュデータ生成手法を提案する。 データバランシングの後、分類と解釈のパフォーマンスを推定するためにクラッシュ重大度モデルが使用される。 米国ワシントン州で収集された4年間の不均衡なクラッシュデータセットを用いて,提案手法の分類精度と分布の整合性を評価するために,モンテカルロシミュレーションを用いて,二級および三級の不均衡シナリオにおけるパラメータおよび確率推定の性能を推定する。 その結果,CTGAN-RUが生成した合成データを用いて,元のデータや他の再サンプリング手法によって生成された合成データを用いて,衝突重大度モデリングの精度が向上した。

Crash data is often greatly imbalanced, with the majority of crashes being non-fatal crashes, and only a small number being fatal crashes due to their rarity. Such data imbalance issue poses a challenge for crash severity modeling since it struggles to fit and interpret fatal crash outcomes with very limited samples. Usually, such data imbalance issues are addressed by data resampling methods, such as under-sampling and over-sampling techniques. However, most traditional and deep learning-based data resampling methods, such as synthetic minority oversampling technique (SMOTE) and generative Adversarial Networks (GAN) are designed dedicated to processing continuous variables. Though some resampling methods have improved to handle both continuous and discrete variables, they may have difficulties in dealing with the collapse issue associated with sparse discrete risk factors. Moreover, there is a lack of comprehensive studies that compare the performance of various resampling methods in crash severity modeling. To address the aforementioned issues, the current study proposes a crash data generation method based on the Conditional Tabular GAN. After data balancing, a crash severity model is employed to estimate the performance of classification and interpretation. A comparative study is conducted to assess classification accuracy and distribution consistency of the proposed generation method using a 4-year imbalanced crash dataset collected in Washington State, U.S. Additionally, Monte Carlo simulation is employed to estimate the performance of parameter and probability estimation in both two- and three-class imbalance scenarios. The results indicate that using synthetic data generated by CTGAN-RU for crash severity modeling outperforms using original data or synthetic data generated by other resampling methods.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 従来見つからなかったニューラルアーキテクチャ検索データセットの利用からの検討

Insights from the Use of Previously Unseen Neural Architecture Search Datasets ( http://arxiv.org/abs/2404.02189v1 )

ライセンス: Link先を確認
Rob Geada, David Towers, Matthew Forshaw, Amir Atapour-Abarghouei, A. Stephen McGough, (参考訳) ニューラルネットワークの無限の可能性 — それぞれ異なるパフォーマンスを持つ — を解決するために使用できる – は、ディープラーニングの専門家が最高のニューラルネットワークを特定するために必要となる状況につながる。 これは専門家の必要性を取り除くという希望に反している。 Neural Architecture Search (NAS)は、最適なアーキテクチャを自動的に識別することで、この問題に対する解決策を提供する。 しかし、これまでNASの研究は、実際の問題を表すものではないと主張するデータセットの小さなセットに重点を置いてきた。 我々は、一連のNASチャレンジのために作成された8つの新しいデータセットを紹介する: AddNIST、Language、MultNIST、CIFARTile、Gutenberg、Isabella、GeoClassing、Chesseract。 これらのデータセットと課題は、NAS開発における問題に注意を向け、開発時に未知のデータセット上でモデルがどのように機能するかを著者に検討するよう促すために開発されている。 本稿では,標準のDeep Learning手法を用いた実験と,課題参加者のベストな結果について述べる。

The boundless possibility of neural networks which can be used to solve a problem -- each with different performance -- leads to a situation where a Deep Learning expert is required to identify the best neural network. This goes against the hope of removing the need for experts. Neural Architecture Search (NAS) offers a solution to this by automatically identifying the best architecture. However, to date, NAS work has focused on a small set of datasets which we argue are not representative of real-world problems. We introduce eight new datasets created for a series of NAS Challenges: AddNIST, Language, MultNIST, CIFARTile, Gutenberg, Isabella, GeoClassing, and Chesseract. These datasets and challenges are developed to direct attention to issues in NAS development and to encourage authors to consider how their models will perform on datasets unknown to them at development time. We present experimentation using standard Deep Learning methods as well as the best results from challenge participants.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 正常弱固有状態熱化

Normal weak eigenstate thermalization ( http://arxiv.org/abs/2404.02199v1 )

ライセンス: Link先を確認
Patrycja Łydżba, Rafał Świętek, Marcin Mierzejewski, Marcos Rigol, Lev Vidmar, (参考訳) 固有状態の熱化は、様々な非可積分相互作用モデルにおいて、少数の観測可能な天体に対して起こることが示されている。 局所作用素の和である集中観測可能量に対して、多項式的に消滅するヒルベルト・シュミットノルムにより、弱固有状態熱化は二次的および可積分的な相互作用系で起こる。 ここでは、単一粒子セクターが量子カオス(量子-カオス2次モデル)を示す二次モデルと、積分可能な相互作用モデルで発生する新しい弱固有状態熱化現象を公表する。 このようなモデルでは、非消滅的ヒルベルト・シュミットノルムを持つほとんど身体の観測値が存在し、対角行列要素の多項式的に消滅する分散を示すことが保証されている、これは正規弱固有状態熱化をダブする現象である。 量子カオス二次ハミルトニアンにとって、正常な弱固有状態熱化は単一粒子の固有状態熱化の結果である、すなわち、単一粒子レベルでの量子カオスの顕在化とみなすことができる。 本稿では,非局在状態における3次元アンダーソンモデルや有理ランダム帯行列モデル,および積分可能なスピン-$$\frac{1}{2}$ XYZモデル,XXZモデルなどの量子カオス二次モデルに対する正規弱固有状態熱化の数値的証拠を報告する。

Eigenstate thermalization has been shown to occur for few-body observables in a wide range of nonintegrable interacting models. For intensive observables that are sums of local operators, because of their polynomially vanishing Hilbert-Schmidt norm, weak eigenstate thermalization occurs in quadratic and integrable interacting systems. Here, we unveil a novel weak eigenstate thermalization phenomenon that occurs in quadratic models whose single-particle sector exhibits quantum chaos (quantum-chaotic quadratic models) and in integrable interacting models. In such models, we show that there are few-body observables with a nonvanishing Hilbert-Schmidt norm that are guarrantied to exhibit a polynomially vanishing variance of the diagonal matrix elements, a phenomenon we dub normal weak eigenstate thermalization. For quantum-chaotic quadratic Hamiltonians, we prove that normal weak eigenstate thermalization is a consequence of single-particle eigenstate thermalization, i.e., it can be viewed as a manifestation of quantum chaos at the single-particle level. We report numerical evidence of normal weak eigenstate thermalization for quantum-chaotic quadratic models such as the 3D Anderson model in the delocalized regime and the power-law random banded matrix model, as well as for the integrable interacting spin-$\frac{1}{2}$ XYZ and XXZ models.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# ガウス計量学におけるジェームズ・スタイン推定 : V2

James-Stein Estimation in Gaussian Metrology : V2 ( http://arxiv.org/abs/2404.02203v1 )

ライセンス: Link先を確認
Wilfred Salmon, Sergii Strelchuk, David Arvidsson-Shukur, (参考訳) ジェームズ=シュタイン推定器は偏りのある推定器であり、有限個のサンプルに対してその期待値は真の平均ではない。 最大形推定器(MLE)は偏りがなく、漸近的に最適である。 しかし、平均値が3ドル以上の場合、ジェームス・スタイン推定器はMLEよりも誤差が小さい(予想される)。 頻度論的およびベイズ的両面から、ジェームズ=シュタイン推定器を量子力学の分野に導入する。 我々は、未知の多変量量子ガウス状態の平均を推定するタスクである量子ガウスセンシングのレンズを通して、ジェームズ=シュタイン推定器に対する量子現象の影響を特徴づける。 ノイズのない絡み合いやコヒーレンスによりジェームズ・スタイン推定器の性能は向上するが、MLEに対する優位性は低下する。 ノイズの存在下では、ジェームズ=スタインの利点が復元される。 量子効果はジェームズ=スタインの優位性を高めることもできる。 量子効果を用いてパラメータを不完全検出器で測定する多変量後選択性メタロジ(一般化弱値増幅)を探索することによりこれを実証する。 測定データを異なる処理で処理することで、量子実験における誤差を減らすことができる。

The James-Stein estimator is a biased estimator -- for a finite number of samples its expected value is not the true mean. The maximum-likelihood estimator (MLE), is unbiased and asymptotically optimal. Yet, when estimating the mean of $3$ or more normally-distributed random variables, the James-Stein estimator has a smaller total (expected) error than the MLE. We introduce the James-Stein estimator to the field of quantum metrology, from both the frequentist and Bayesian perspectives. We characterise the effect of quantum phenomena on the James-Stein estimator through the lens of quantum Gaussian sensing, the task of estimating the mean of an unknown multivariate quantum Gaussian state. We find that noiseless entanglement or coherence improves performance of the James-Stein estimator, but diminishes its advantage over the MLE. In the presence of noise, the James-Stein advantage is restored. Quantum effects can also boost the James-Stein advantage. We demonstrate this by investigating multivariate postselective metrology (generalised weak-value amplification), a strategy that uses quantum effects to measure parameters with imperfect detectors. Simply by post-processing measured data differently, our techniques reduce errors in quantum experiments.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 大規模生成言語モデルにおける創発的能力

Emergent Abilities in Reduced-Scale Generative Language Models ( http://arxiv.org/abs/2404.02204v1 )

ライセンス: Link先を確認
Sherin Muckatira, Vijeta Deshpande, Vladislav Lialin, Anna Rumshisky, (参考訳) 大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。 この能力は、ICL(In-context Learning)としても知られており、数十億のパラメータを持つ大規模言語モデルで主に見られる創発的な能力であると考えられている。 本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。 そこで本研究では,事前学習データと,パラメータが100万から1億6500万まで変化する36の因果言語モデルについて検討する。 この単純化された事前学習データに基づいてトレーニングされたモデルは、単純化された言語における様々なタスクにおけるゼロショット能力の強化を示し、非制限言語における事前訓練されたモデルの6倍の精度を実現した。 このことは、言語をダウンスケールすることで、ゼロショット学習機能が限られたサイズでモデルに現れることを示唆している。 さらに、単純化されたデータに基づいて事前訓練されたこれらの小さなモデルは、評価損失と3つのスケーリング要因(計算、データセットサイズ、モデルサイズ)の間の電力法則の関係を示す。

Large language models can solve new tasks without task-specific fine-tuning. This ability, also known as in-context learning (ICL), is considered an emergent ability and is primarily seen in large language models with billions of parameters. This study investigates if such emergent properties are strictly tied to model size or can be demonstrated by smaller models trained on reduced-scale data. To explore this, we simplify pre-training data and pre-train 36 causal language models with parameters varying from 1 million to 165 million parameters. We show that models trained on this simplified pre-training data demonstrate enhanced zero-shot capabilities across various tasks in simplified language, achieving performance comparable to that of pre-trained models six times larger on unrestricted language. This suggests that downscaling the language allows zero-shot learning capabilities to emerge in models with limited size. Additionally, we find that these smaller models pre-trained on simplified data demonstrate a power law relationship between the evaluation loss and the three scaling factors: compute, dataset size, and model size.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# オンライン性差別を測るポラリゼーションのホロリスティック指標

A Holistic Indicator of Polarization to Measure Online Sexism ( http://arxiv.org/abs/2404.02205v1 )

ライセンス: Link先を確認
Vahid Ghafouri, Jose Such, Guillermo Suarez-Tangil, (参考訳) ソーシャルネットワークにおけるマノアとフェミニストの議論のオンライン傾向は、オンラインコミュニティにおける性差別のレベルを包括的に測定する必要がある。 この指標は、オンラインコミュニティ(例えば、サブレディット)や計算社会科学者の政策立案者やモデレーターにとって重要であり、性差別の度合いに基づいてモデレーション戦略を見直したり、異なるプラットフォームやコミュニティの時間的性差別とリアルタイムな出来事を比較し、社会科学的洞察を推測するために重要である。 本稿では,男女同一性に着目した毒性の総合的な指標を提供するモデルを構築した。 対象者に対して特に有毒なコメントを注釈するなど,対象者レベルでの有毒なコメントのアノテーションを必要とする従来の教師付きNLP法にも拘わらず,我々の指標では,対象者に対する有毒なコメントを自動的に検出するために,教師付きNLPを用いて有毒なコメントの存在を検知し,教師なしの単語埋め込み関連試験を行い,対象者を自動的に検出する。 我々は,性別に対する毒性(性差別)のレベルを検出するために,性別談話コミュニティ(例えば,r/TheRedPill,r/MGTOW,r/FemaleDatingStrategy)に適用する。 その結果、我々の枠組みは、コミュニティにおける性差別のレベルを正確に、一貫して(93%の相関関係)測定していることがわかった。 最終的に、我々のフレームワークが将来どのように一般化され、汎用目標に向けた毒性(例えば、感情、ユーモア)以外の品質を計測し、異なる種類の分極の指標となるかについて議論する。

The online trend of the manosphere and feminist discourse on social networks requires a holistic measure of the level of sexism in an online community. This indicator is important for policymakers and moderators of online communities (e.g., subreddits) and computational social scientists, either to revise moderation strategies based on the degree of sexism or to match and compare the temporal sexism across different platforms and communities with real-time events and infer social scientific insights. In this paper, we build a model that can provide a comparable holistic indicator of toxicity targeted toward male and female identity and male and female individuals. Despite previous supervised NLP methods that require annotation of toxic comments at the target level (e.g. annotating comments that are specifically toxic toward women) to detect targeted toxic comments, our indicator uses supervised NLP to detect the presence of toxicity and unsupervised word embedding association test to detect the target automatically. We apply our model to gender discourse communities (e.g., r/TheRedPill, r/MGTOW, r/FemaleDatingStrategy) to detect the level of toxicity toward genders (i.e., sexism). Our results show that our framework accurately and consistently (93% correlation) measures the level of sexism in a community. We finally discuss how our framework can be generalized in the future to measure qualities other than toxicity (e.g. sentiment, humor) toward general-purpose targets and turn into an indicator of different sorts of polarizations.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 非ローレンツ場理論における対称性分解能

Symmetry Resolution in non-Lorentzian Field Theories ( http://arxiv.org/abs/2404.02206v1 )

ライセンス: Link先を確認
Aritra Banerjee, Rudranil Basu, Arpan Bhattacharyya, Nilachal Chakrabarti, (参考訳) 2次元の共形場理論における増分間隔に対する対称性分解エントロピー(SREE)の計算から始め、同じ次元の様々な非ローレンツ的極限、ヴィズ、ガリレオおよびキャロル的共形場理論でも同様に計算する。 我々は、極限の観点からも、各非ローレンツ的共形代数の内在対称性を用いても、この問題にアプローチする。 特に、先行順序項、対数項、および$\mathcal{O}(1)$項を計算し、非ローレンツ系においても$\textit{equipartition of entanglement}$との正確なコンプライアンスを明示的に示す。 キャロル極限の SREE のホログラフィック原点を念頭に置いて、さらに BMS$_{3}$-Kac-Moody に対して SREE を計算する。

Starting from the computation of Symmetry Resolved Entanglement Entropy (SREE) for boosted intervals in a two dimensional Conformal Field Theory, we compute the same in various non-Lorentzian limits, viz, Galilean and Carrollian Conformal Field Theory in same number of dimensions. We approach the problem both from a limiting perspective and by using intrinsic symmetries of respective non-Lorentzian conformal algebras. In particular, we calculate the leading order terms, logarithmic terms, and the $\mathcal{O}(1)$ terms and explicitly show exact compliance with $\textit{equipartition of entanglement}$, even in the non-Lorentzian system. Keeping in mind the holographic origin of SREE for the Carrollian limit, we further compute SREE for BMS$_{3}$-Kac-Moody, which couples a $U(1)\times U(1)$ theory with bulk gravity.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 複数段階のGPT生成プログラミングがいかにサポートや障害を隠蔽するかを探る

Exploring How Multiple Levels of GPT-Generated Programming Hints Support or Disappoint Novices ( http://arxiv.org/abs/2404.02213v1 )

ライセンス: Link先を確認
Ruiwei Xiao, Xinying Hou, John Stamper, (参考訳) 近年の研究では,大規模言語モデル(LLM)を,適応型プログラミングヒントの提供など,さまざまな教育的文脈に統合している。 しかし、既存のLLMベースのヒントシステムは1つのヒントタイプに限られている。 LLMヒントファクトリーを用いた12人の初心者を対象に,言語指導から具体的なコード支援に至るまでの4段階のヒントを提供するシステムについて,学生の問題解決と学習支援のレベルの違いについて検討した。 ハイレベルな自然言語ヒントだけでは、特に次のステップや構文関連のヘルプリクエストに対処する場合、無力あるいは誤解を招く可能性があることがわかりました。 コード例やインラインコメントなど,低レベルのヒントを追加することで,学生のサポートが向上する。 この発見は、学生の学習ニーズを正確に識別し、満たすために、コンテンツ、フォーマット、粒度レベルからヘルプ応答をカスタマイズする将来の取り組みを開く。

Recent studies have integrated large language models (LLMs) into diverse educational contexts, including providing adaptive programming hints, a type of feedback focuses on helping students move forward during problem-solving. However, most existing LLM-based hint systems are limited to one single hint type. To investigate whether and how different levels of hints can support students' problem-solving and learning, we conducted a think-aloud study with 12 novices using the LLM Hint Factory, a system providing four levels of hints from general natural language guidance to concrete code assistance, varying in format and granularity. We discovered that high-level natural language hints alone can be helpless or even misleading, especially when addressing next-step or syntax-related help requests. Adding lower-level hints, like code examples with in-line comments, can better support students. The findings open up future work on customizing help responses from content, format, and granularity levels to accurately identify and meet students' learning needs.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# 量子囚人ジレンマのエージェントベースモデリング

Agent-based Modelling of Quantum Prisoner's Dilemma ( http://arxiv.org/abs/2404.02216v1 )

ライセンス: Link先を確認
Rajdeep Tah, Colin Benjamin, (参考訳) 無限のプレイヤーが量子ゲームをプレイするとどうなるのか? 本稿では,一発の量子囚人ジレンマ(QuPD)におけるノイズの存在下での協調の出現に注目して,この問題に答える。 数値エージェントベースモデル(ABM)を用いて解析的ナッシュ均衡マッピング(NEM)手法と比較する。 協力度を測定するために,ゲーム磁化,絡み合い感受性,相関,プレーヤの支払平均,ペイオフ能力の5つの指標を検討する。 量子的社会ジレンマでは、エンタングルメントは、熱力学の限界におけるプレイヤーの挙動を決定するために、非自明な役割を果たす。 問題となる5つの指標について、2つの絡み合った値で「textit{first}-次相転移」を観察し、これらの相転移点はQuPDゲームに関連する相転移に依存する。 5つの指標を用いて,QuPD の \textit{Quantum} および \textit{Defect} 相の特性を数値解析・研究する。 本稿は, ABM と NEM の両者が選択された5つの指標とともに, 1ショット量子囚人ジレンマの熱力学限界における協調行動に関する洞察力のある情報を提供することを示した。

What happens when an infinite number of players play a quantum game? In this paper, we will answer this question by looking at the emergence of cooperation in the presence of noise in a one-shot quantum Prisoner's dilemma (QuPD). We will use the numerical Agent-based model (ABM) and compare it with the analytical Nash equilibrium mapping (NEM) technique. To measure cooperation, we consider five indicators, i.e., game magnetization, entanglement susceptibility, correlation, player's payoff average, and payoff capacity, respectively. In quantum social dilemmas, entanglement plays a non-trivial role in determining the players' behavior in the thermodynamic limit, and we consider the existence of bipartite entanglement between neighboring players. For the five indicators in question, we observe \textit{first}-order phase transitions at two entanglement values, and these phase transition points depend on the payoffs associated with the QuPD game. We numerically analyze and study the properties of both the \textit{Quantum} and the \textit{Defect} phases of the QuPD via the five indicators. The results of this paper demonstrate that both ABM and NEM, in conjunction with the chosen five indicators, provide insightful information on cooperative behavior in the thermodynamic limit of the one-shot quantum Prisoner's dilemma.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# CHOSEN: 多視点深度微細化のための対照的な仮説選択

CHOSEN: Contrastive Hypothesis Selection for Multi-View Depth Refinement ( http://arxiv.org/abs/2404.02225v1 )

ライセンス: Link先を確認
Di Qiu, Yinda Zhang, Thabo Beeler, Vladimir Tankovich, Christian Häne, Sean Fanello, Christoph Rhemann, Sergio Orts Escolano, (参考訳) 我々は、シンプルで柔軟で堅牢で効果的な多視点深度精錬フレームワークCHOSENを提案する。 既存のマルチビューステレオパイプラインでも使用でき、カメラの相対位置決めやレンズなど、様々なマルチビューキャプチャシステムに簡単に一般化できる。 初期深度推定が与えられた後、CHOSENは反復的な再サンプリングを行い、最良の仮説を選択し、キャプチャシステムによって決定される異なるメートル法または固有のスケールに自動的に適応する。 提案手法の鍵となるのは, 正と負の仮説を効果的に区別できるような, 適切な解空間と慎重に設計された仮説特徴におけるコントラスト学習の応用である。 シンプルなベースラインのマルチビューステレオパイプラインに統合されたCHOSENは、現在の多くのディープラーニングベースのマルチビューステレオパイプラインと比較して、深さと通常の精度で印象的な品質を提供する。

We propose CHOSEN, a simple yet flexible, robust and effective multi-view depth refinement framework. It can be employed in any existing multi-view stereo pipeline, with straightforward generalization capability for different multi-view capture systems such as camera relative positioning and lenses. Given an initial depth estimation, CHOSEN iteratively re-samples and selects the best hypotheses, and automatically adapts to different metric or intrinsic scales determined by the capture system. The key to our approach is the application of contrastive learning in an appropriate solution space and a carefully designed hypothesis feature, based on which positive and negative hypotheses can be effectively distinguished. Integrated in a simple baseline multi-view stereo pipeline, CHOSEN delivers impressive quality in terms of depth and normal accuracy compared to many current deep learning based multi-view stereo pipelines.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# OOSTraj:視覚刺激による視線外軌道予測

OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising ( http://arxiv.org/abs/2404.02227v1 )

ライセンス: Link先を確認
Haichao Zhang, Yi Xu, Hongsheng Lu, Takayuki Shimizu, Yun Fu, (参考訳) 軌道予測は、特に歩行者の行動を理解し、積極的な意思決定を可能にするために、コンピュータビジョンと自律運転において基本的なものである。 この分野での既存のアプローチは、しばしば正確な観測データと完全な観測データを前提としており、視野外オブジェクトと、限られたカメラ範囲、物理的障害物、およびデノナイズドセンサーデータに対する真実の欠如によるセンサデータに固有のノイズを無視する。 このような監視は重要な安全上の問題であり、必須で目に見えない物体が欠落する可能性がある。 このギャップを埋めるために,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。 提案手法は、教師なしの方法でノイズを検知し、視界外物体のセンサに基づく軌跡を正確に視覚的軌跡にマッピングする。 この手法は,Vi-Fi と JRDB のデータセット上でのノイズの多いセンサ軌道のデノゲーションと予測において,最先端の性能を実証した。 軌道予測の精度を向上し、視界外物体の課題に対処することにより、複雑な環境での自動運転の安全性と信頼性の向上に大きく貢献する。 我々の研究は、Of-Of-Sight Trajectory Prediction (OOSTraj) に向けた最初の取り組みであり、将来の研究のための新しいベンチマークを設定します。 コードは \url{https://github.com/Hai-chao-Zhang/OOSTraj} で公開されている。

Trajectory prediction is fundamental in computer vision and autonomous driving, particularly for understanding pedestrian behavior and enabling proactive decision-making. Existing approaches in this field often assume precise and complete observational data, neglecting the challenges associated with out-of-view objects and the noise inherent in sensor data due to limited camera range, physical obstructions, and the absence of ground truth for denoised sensor data. Such oversights are critical safety concerns, as they can result in missing essential, non-visible objects. To bridge this gap, we present a novel method for out-of-sight trajectory prediction that leverages a vision-positioning technique. Our approach denoises noisy sensor observations in an unsupervised manner and precisely maps sensor-based trajectories of out-of-sight objects into visual trajectories. This method has demonstrated state-of-the-art performance in out-of-sight noisy sensor trajectory denoising and prediction on the Vi-Fi and JRDB datasets. By enhancing trajectory prediction accuracy and addressing the challenges of out-of-sight objects, our work significantly contributes to improving the safety and reliability of autonomous driving in complex environments. Our work represents the first initiative towards Out-Of-Sight Trajectory prediction (OOSTraj), setting a new benchmark for future research. The code is available at \url{https://github.com/Hai-chao-Zhang/OOSTraj}.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# Against the Void": Rust開発者が安全でないコードを使う方法に関するインタビューと調査

"Against the Void": An Interview and Survey Study on How Rust Developers Use Unsafe Code ( http://arxiv.org/abs/2404.02230v1 )

ライセンス: Link先を確認
Ian McCormack, Tomas Dougan, Sam Estep, Hanan Hibshi, Jonathan Aldrich, Joshua Sunshine, (参考訳) Rustプログラミング言語は、自動ガベージコレクションなしで静的にメモリ安全性を保証できるため、システムプログラミングにおいて人気が高まっている。 Rustはエイリアスと変更性を制限することで安全性を保証するが、サイクリックエイリアスや多言語相互運用といった多くの重要なデザインパターンは、これらの制限を回避しなければならない。 Rustの$\texttt{unsafe}$キーワードは、開発者がこれらのパターンを実装するために使用できる機能を可能にし、Rustエコシステムには、$\texttt{unsafe}$コードが正しく使用されるかどうかを検証する便利なツールが含まれている。 しかし、これらのツールがすべてのユースケースに適切かどうかは不明である。 開発者のニーズを理解するため,半構造化インタビューと調査を行った。 我々は19人のRust開発者に対してインタビューを行い、160人の開発者を調査した。 調査回答者の77%とインタビュー参加者の大多数が、安全な代替案を知らなかったために、$\texttt{unsafe}$コードを使うことを動機付けていることがわかった。 開発者は通常、$\texttt{unsafe}$コードの使用を最小化し、ローカライズするといったベストプラクティスに従うが、カプセル化が健全であることを常に確信しているのはわずか23%だった。 インラインアセンブリと外部関数呼び出しの限定的なツーリングサポートにより、開発者は$\texttt{unsafe}$コードを検証することができなくなり、Rustと他の言語の違いにより、外部関数のカプセル化が困難になった。 検証ツールが不足していたため、開発者は依存関係を監査することはめったになかった。 我々の結果は、最も頻繁に使用される$\texttt{unsafe}$機能を検証することができる実運用対応ツールの必要性が迫っていることを示している。

The Rust programming language is an increasingly popular choice for systems programming, since it can statically guarantee memory safety without automatic garbage collection. Rust provides its safety guarantees by restricting aliasing and mutability, but many key design patterns, such as cyclic aliasing and multi-language interoperation, must bypass these restrictions. Rust's $\texttt{unsafe}$ keyword enables features that developers can use to implement these patterns, and the Rust ecosystem includes useful tools for validating whether $\texttt{unsafe}$ code is used correctly. However, it is unclear if these tools are adequate for all use cases. To understand developers' needs, we conducted a mixed-methods study consisting of semi-structured interviews followed by a survey. We interviewed 19 Rust developers and surveyed 160 developers$\unicode{x2013}$all of whom engaged with $\texttt{unsafe}$ code. We found that 77% of survey respondents and a majority of interview participants were motivated to use $\texttt{unsafe}$ code because they were unaware of a safe alternative. Developers typically followed best-practices such as minimizing and localizing their use of $\texttt{unsafe}$ code, but only 23% were always certain that their encapsulations were sound. Limited tooling support for inline assembly and foreign function calls prevented developers from validating $\texttt{unsafe}$ code, and differences between Rust and other languages made foreign functions difficult to encapsulate. Verification tools were underused, and developers rarely audited their dependencies. Our results indicate a pressing need for production-ready tools that can validate the most frequently used $\texttt{unsafe}$ features.
翻訳日:2024-04-04 19:38:40 公開日:2024-04-02
# ビジュアルコンセプトコネクトーム(VCC) - 深層モデルにおけるオープンワールド概念発見とその層間接続

Visual Concept Connectome (VCC): Open World Concept Discovery and their Interlayer Connections in Deep Models ( http://arxiv.org/abs/2404.02233v1 )

ライセンス: Link先を確認
Matthew Kowal, Richard P. Wildes, Konstantinos G. Derpanis, (参考訳) 深層ネットワークモデルが学習した表現で捉えるものを理解することは、コンピュータビジョンにおける根本的な課題である。 本稿では、人間の解釈可能な概念とその層間接続を、完全に教師なしの方法で発見する視覚概念接続(VCC)について理解する新しい手法を提案する。 提案手法は,すべての層にまたがる接続重み付けと,ネットワーク構造(階層的概念集合の分岐パターンなど)のグローバル解析に補正可能である。 従来の研究は、単一層から解釈可能な概念を抽出し、分類への影響を調べる方法を提供していたが、ネットワークアーキテクチャ全体にわたって多層の概念分析を行う余裕はなかった。 画像分類領域におけるVCCの有効性は定量的かつ定性的な実験結果によって示されている。 また、フェールモードデバッギングの適用にはVCCを活用して、ディープネットワークにおけるミスの発生場所を明らかにします。

Understanding what deep network models capture in their learned representations is a fundamental challenge in computer vision. We present a new methodology to understanding such vision models, the Visual Concept Connectome (VCC), which discovers human interpretable concepts and their interlayer connections in a fully unsupervised manner. Our approach simultaneously reveals fine-grained concepts at a layer, connection weightings across all layers and is amendable to global analysis of network structure (e.g., branching pattern of hierarchical concept assemblies). Previous work yielded ways to extract interpretable concepts from single layers and examine their impact on classification, but did not afford multilayer concept analysis across an entire network architecture. Quantitative and qualitative empirical results show the effectiveness of VCCs in the domain of image classification. Also, we leverage VCCs for the application of failure mode debugging to reveal where mistakes arise in deep networks.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 流体流動モデルにおける経験的摩擦計測のための3次元点雲を用いた深部ニューラルネットワーク

Deep Neural Networks with 3D Point Clouds for Empirical Friction Measurements in Hydrodynamic Flood Models ( http://arxiv.org/abs/2404.02234v1 )

ライセンス: Link先を確認
Francisco Haces-Garcia, Vasileios Kotzamanis, Craig Glennie, Hanadi Rifai, (参考訳) 洪水条件は、運動量損失を計算するために使われる摩擦係数(FF)に非常に敏感である。 しかし、実験室実験を必要とするため、実験的なFFは測定が難しい。 洪水モデルは、しばしばFFを推定するために代理観測(土地利用など)に依存し、不確実性をもたらす。 本研究では,実験室で訓練したDeep Neural Network (DNN) を用いて,データ拡張技術を用いたフラム実験を行い,Point Cloudデータに基づくManningのnの測定を行った。 DNNは現実のライダー・ポイント・クラウドに展開され、規制および極端な嵐のイベント下でマニングのnを直接測定し、1Dと2Dの流体力学モデルの両方で予測能力が改善された。 1Dモデルの場合,ライダー値は,陸地被覆値と比較して流路内水深の調節モデルとの差が小さくなった。 1D/2D連成モデルでは、ライダー値が空中画像から計測された洪水範囲とよりよく一致し、ハリケーン・ハーベイの洪水保険請求データとよく一致した。 1Dモデルと1D/2Dモデルの両方で、ライダーは検証ゲージとよりよく一致した。 これらの理由から、マニングのnのライダー測定は、極度の嵐発生の規制モデルと予測の両方を改善し、同時にFFの測定を標準化する経路を提供した。 FFの変化はフラビアルとプルビアルの洪水モデルに大きく影響したが、洪水の洪水は概して影響を受けなかった。 下流流条件は, フラビアルモデルに対するFFsの重要性を変化させ, 洪水モデルにおける摩擦の文献化を推し進めた。 本研究は,3次元点雲に基づく高分解能FFの測定,洪水予測の改善,流体力学モデルからの不確かさの除去を目的として,信頼性,繰り返し,かつ容易に到達可能な経路を提案する。

Friction is one of the cruxes of hydrodynamic modeling; flood conditions are highly sensitive to the Friction Factors (FFs) used to calculate momentum losses. However, empirical FFs are challenging to measure because they require laboratory experiments. Flood models often rely on surrogate observations (such as land use) to estimate FFs, introducing uncertainty. This research presents a laboratory-trained Deep Neural Network (DNN), trained using flume experiments with data augmentation techniques, to measure Manning's n based on Point Cloud data. The DNN was deployed on real-world lidar Point Clouds to directly measure Manning's n under regulatory and extreme storm events, showing improved prediction capabilities in both 1D and 2D hydrodynamic models. For 1D models, the lidar values decreased differences with regulatory models for in-channel water depth when compared to land cover values. For 1D/2D coupled models, the lidar values produced better agreement with flood extents measured from airborne imagery, while better matching flood insurance claim data for Hurricane Harvey. In both 1D and 1D/2D coupled models, lidar resulted in better agreement with validation gauges. For these reasons, the lidar measurements of Manning's n were found to improve both regulatory models and forecasts for extreme storm events, while simultaneously providing a pathway to standardize the measurement of FFs. Changing FFs significantly affected fluvial and pluvial flood models, while surge flooding was generally unaffected. Downstream flow conditions were found to change the importance of FFs to fluvial models, advancing the literature of friction in flood models. This research introduces a reliable, repeatable, and readily-accessible avenue to measure high-resolution FFs based on 3D point clouds, improving flood prediction, and removing uncertainty from hydrodynamic modeling.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 探究は必要か? 強化学習における伝達のための効果的な探索特性

Is Exploration All You Need? Effective Exploration Characteristics for Transfer in Reinforcement Learning ( http://arxiv.org/abs/2404.02235v1 )

ライセンス: Link先を確認
Jonathan C. Balloch, Rishav Bhagat, Geigh Zollicoffer, Ruoran Jia, Julia Kim, Mark O. Riedl, (参考訳) 深部強化学習(RL)研究において,スパース・リワード問題を解きながら,より効率的で生産性の高い探査手法を設計するための共同研究がなされている。 これらの探索手法は共通の原則(例えば多様性の向上)と実装の詳細(例えば本質的な報酬)を共有することが多い。 以前の研究で、非定常マルコフ決定プロセス(MDP)は、オンライン転送学習によって環境の変化に効率的に適応するために探索を必要とすることが判明した。 しかし, 深部RLにおける探査特性と効果的な移動学習との関係は明らかにされていない。 本研究では,有能な探索特性と伝達学習の性能向上と効率向上の関係について考察する。 オンライントランスファー学習に肯定的な影響を及ぼす特徴を特定するために、さまざまなトランスファータイプ('novelties'')で11の人気のある探索アルゴリズムを検証した。 分析の結果,特定の環境変化に対してのみ伝達性能が向上するのに対し,その特性は幅広い伝達タスクにおける性能と効率の向上と相関していることがわかった。 本分析では,どの探索アルゴリズム特性が特定の移動状況に最も適しているかを推奨する。

In deep reinforcement learning (RL) research, there has been a concerted effort to design more efficient and productive exploration methods while solving sparse-reward problems. These exploration methods often share common principles (e.g., improving diversity) and implementation details (e.g., intrinsic reward). Prior work found that non-stationary Markov decision processes (MDPs) require exploration to efficiently adapt to changes in the environment with online transfer learning. However, the relationship between specific exploration characteristics and effective transfer learning in deep RL has not been characterized. In this work, we seek to understand the relationships between salient exploration characteristics and improved performance and efficiency in transfer learning. We test eleven popular exploration algorithms on a variety of transfer types -- or ``novelties'' -- to identify the characteristics that positively affect online transfer learning. Our analysis shows that some characteristics correlate with improved performance and efficiency across a wide range of transfer tasks, while others only improve transfer performance with respect to specific environment changes. From our analysis, make recommendations about which exploration algorithm characteristics are best suited to specific transfer situations.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 連続時間量子ウォークにおけるオープン問題の選択

Selected Open Problems in Continuous-Time Quantum Walks ( http://arxiv.org/abs/2404.02236v1 )

ライセンス: Link先を確認
Gabriel Coutinho, Krystal Guo, (参考訳) グラフの量子ウォークは量子コンピューティングの基本であり、代数グラフ理論における多くの興味深い開問題を引き起こした。 本稿では, この領域における開問題, 完全状態移動, 瞬時均一混合, 平均混合行列の3つの主要なクラスについて述べる。 これらのオープンな問題を強調するために、この急速に発展する分野におけるさらなる研究と探索を奨励することを目的としています。

Quantum walks on graphs are fundamental to quantum computing and have led to many interesting open problems in algebraic graph theory. This review article highlights three key classes of open problems in this domain; perfect state transfer, instantaneous uniform mixing, and average mixing matrices. In highlighting these open problems, our aim is to stimulate further research and exploration in this rapidly evolving field.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 超高速時間ビン符号化によるフォトニック量子ウォーク

Photonic quantum walk with ultrafast time-bin encoding ( http://arxiv.org/abs/2404.02238v1 )

ライセンス: Link先を確認
Kate L. Fenwick, Frédéric Bouchard, Duncan England, Philip J. Bustard, Khabat Heshami, Benjamin Sussman, (参考訳) 量子ウォーク(QW)は、量子シミュレーションや量子サーチアルゴリズムなどの量子技術応用における基礎的な問いに対する貴重なテストベッドであることが証明されている。 フォトニックプラットフォームを含む様々な物理システムにおけるQWの実装を探索することで、多くの利点が得られた。 本稿では,超高速時間ビン符号化(UTBE)方式を用いて,量子ウォークを行う新しいプラットフォームを提案する。 このプラットフォームは、多くのステップに量子ウォークのスケーラビリティをサポートしながら、かなりのプログラム可能性を維持している。 さらに重要なのは、超高速な時間ビンは、機械的変動から遠く離れたピコ秒の時間スケールで符号化されることだ。 これにより、能動的な位相安定化を必要とせず、非常に長い時間にわたって優れた干渉位相安定性を維持しながら、プラットフォームを多くのモードに拡張することができる。 我々の18ステップQWは、50時間以上の干渉位相安定性を保ち、全体的な歩行忠実度は9,5\%以上である。

The quantum walk (QW) has proven to be a valuable testbed for fundamental inquiries in quantum technology applications such as quantum simulation and quantum search algorithms. Many benefits have been found by exploring implementations of QWs in various physical systems, including photonic platforms. Here, we propose a novel platform to perform quantum walks using an ultrafast time-bin encoding (UTBE) scheme. This platform supports the scalability of quantum walks to a large number of steps while retaining a significant degree of programmability. More importantly, ultrafast time bins are encoded at the picosecond time scale, far away from mechanical fluctuations. This enables the scalability of our platform to many modes while preserving excellent interferometric phase stability over extremely long periods of time without requiring active phase stabilization. Our 18-step QW is shown to preserve interferometric phase stability over a period of 50 hours, with an overall walk fidelity maintained above $95\%$
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 最適化とサンプリングのための近位オラクル

Proximal Oracles for Optimization and Sampling ( http://arxiv.org/abs/2404.02239v1 )

ライセンス: Link先を確認
Jiaming Liang, Yongxin Chen, (参考訳) 非滑らかな目的関数による凸最適化と非滑らかなポテンシャル(負の対数密度)による対数対数検定について検討する。 特に,凸目的/ポテンシャル関数が半滑らかか,あるいは半滑らか成分の有限和として合成形式の2つの具体的設定について検討する。 非平滑性によって引き起こされる課題を克服するため、我々のアルゴリズムは最適化とサンプリングに2つの強力な近位フレームワーク、すなわち最適化のための近位点フレームワークと、拡張分布上でギブスサンプリングを使用する交互サンプリングフレームワーク(ASF)を採用している。 最適化アルゴリズムとサンプリングアルゴリズムの両方の重要な要素は、正規化切削平面法による近位写像の効率的な実装である。 半滑らかな構成と複合的な構成の両方において、近位写像の反復複雑性を確立する。 さらに,非滑らかな最適化のための適応的近位バンドル法を提案する。 提案手法は入力として問題パラメータを必要としないため普遍的である。 さらに、最適化における近位写像に類似した近位サンプリングオラクルを開発し、新しい手法(ガウス積分の修正)を用いてその複雑さを確立する。 最後に、この近位サンプリングオラクルとASFを組み合わせて、半平滑で複合的な設定でサンプリングするための非漸近的複雑性境界を持つマルコフ連鎖モンテカルロ法を得る。

We consider convex optimization with non-smooth objective function and log-concave sampling with non-smooth potential (negative log density). In particular, we study two specific settings where the convex objective/potential function is either semi-smooth or in composite form as the finite sum of semi-smooth components. To overcome the challenges caused by non-smoothness, our algorithms employ two powerful proximal frameworks in optimization and sampling: the proximal point framework for optimization and the alternating sampling framework (ASF) that uses Gibbs sampling on an augmented distribution. A key component of both optimization and sampling algorithms is the efficient implementation of the proximal map by the regularized cutting-plane method. We establish the iteration-complexity of the proximal map in both semi-smooth and composite settings. We further propose an adaptive proximal bundle method for non-smooth optimization. The proposed method is universal since it does not need any problem parameters as input. Additionally, we develop a proximal sampling oracle that resembles the proximal map in optimization and establish its complexity using a novel technique (a modified Gaussian integral). Finally, we combine this proximal sampling oracle and ASF to obtain a Markov chain Monte Carlo method with non-asymptotic complexity bounds for sampling in semi-smooth and composite settings.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 保存チェックポイントの線形結合による一貫性と拡散モデルの改善

Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better ( http://arxiv.org/abs/2404.02241v1 )

ライセンス: Link先を確認
Enshu Liu, Junyi Zhu, Zinan Lin, Xuefei Ning, Matthew B. Blaschko, Sergey Yekhanin, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang, (参考訳) Diffusion Models (DM) と Consistency Models (CM) は、様々なタスクにおいて優れた生成品質を持つ人気のある生成モデルである。 トレーニングDMとCMでは、中間重みチェックポイントが十分に活用されず、最後の収束チェックポイントのみが使用される。 本研究では,SGDでは到達できないが,適切なチェックポイント平均化によって得られるような,高品質なモデルウェイトがしばしば存在することを明らかにする。 そこで本研究では,DMとCMの性能向上のための簡易かつ効率的なLCSCを提案し,学習軌道に沿ったチェックポイントと進化探索から導出される係数を組み合わせた。 LCSCの値は2つのユースケースを通して示します。 (a)訓練費の削減。 LCSCでは、完全にトレーニングされたモデルと同等のサンプル品質を得るために、DM/CMを少ないイテレーション数と/または低いバッチサイズでトレーニングするだけです。 例えば、LCSCはCMのトレーニングスピードアップ(CIFAR-10では23$\times$、ImageNet-64では15$\times$)を実現している。 $\textbf{ (b)事前訓練モデルの導入。 フルトレーニングがすでに完了していると仮定すると、LCSCは最終的な収束モデルの生成品質や速度をさらに向上させることができる。 例えば, LCSCは, CIFAR-10 の生成品質を維持しながら, 2 NFE の連続蒸留における基本モデルよりも 1 個の関数評価 (NFE) により優れた性能を実現し, DM の NFE を 15 から 9 に減少させる。 私たちのコードはhttps://github.com/imagination-research/LCSC.comで公開されています。

Diffusion Models (DM) and Consistency Models (CM) are two types of popular generative models with good generation quality on various tasks. When training DM and CM, intermediate weight checkpoints are not fully utilized and only the last converged checkpoint is used. In this work, we find that high-quality model weights often lie in a basin which cannot be reached by SGD but can be obtained by proper checkpoint averaging. Based on these observations, we propose LCSC, a simple but effective and efficient method to enhance the performance of DM and CM, by combining checkpoints along the training trajectory with coefficients deduced from evolutionary search. We demonstrate the value of LCSC through two use cases: $\textbf{(a) Reducing training cost.}$ With LCSC, we only need to train DM/CM with fewer number of iterations and/or lower batch sizes to obtain comparable sample quality with the fully trained model. For example, LCSC achieves considerable training speedups for CM (23$\times$ on CIFAR-10 and 15$\times$ on ImageNet-64). $\textbf{(b) Enhancing pre-trained models.}$ Assuming full training is already done, LCSC can further improve the generation quality or speed of the final converged models. For example, LCSC achieves better performance using 1 number of function evaluation (NFE) than the base model with 2 NFE on consistency distillation, and decreases the NFE of DM from 15 to 9 while maintaining the generation quality on CIFAR-10. Our code is available at https://github.com/imagination-research/LCSC.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 逆学習によるロバストな3次元姿勢伝達に向けて

Towards Robust 3D Pose Transfer with Adversarial Learning ( http://arxiv.org/abs/2404.02242v1 )

ライセンス: Link先を確認
Haoyu Chen, Hao Tang, Ehsan Adeli, Guoying Zhao, (参考訳) 望ましいポーズをターゲットメッシュに転送することを目的とした3Dポーズ転送は、最も困難な3D生成タスクの1つである。 以前の試みは、よく定義されたパラメトリックな人体モデルや骨格関節を駆動するポーズ源として頼っていた。 しかし、これらのクリーンなポーズソースを得るためには、面倒だが必要な事前処理パイプラインは避けられず、リアルタイムアプリケーションの実装を妨げている。 この研究は、トレーニングに敵対的なサンプルを導入することでモデルの堅牢性を向上できるという直感によって推進され、ノイズの多い入力に対してより控えめなモデルがもたらされ、中間処理なしで生の点雲やスキャンのような実世界のデータを直接扱えるようになる。 さらに,3次元外部プレゼンテーション(ポーズ)を効果的に学習するカスタマイズMAEであるMasked Autoencoder(3D-PoseMAE)を提案する。 3D-PoseMAEは、モデルに摂動する敵対的なサンプルを同時に生成し、マルチスケールマスキング戦略を通じて任意の生ノイズポーズを学習することにより、外在的属性の側面からの学習を容易にする。 定性的かつ定量的な研究は、ネットワークが与えるメッシュの転送によって、品質が大幅に向上することを示している。 さらに,様々なポーズ,異なるドメイン,さらには生スキャンに対して,本手法の強い一般化性を示す。 また, 実験結果から, 既存のポーズ伝達モデルに対して, 中間対向サンプルが攻撃可能であるという有意義な知見が得られた。

3D pose transfer that aims to transfer the desired pose to a target mesh is one of the most challenging 3D generation tasks. Previous attempts rely on well-defined parametric human models or skeletal joints as driving pose sources. However, to obtain those clean pose sources, cumbersome but necessary pre-processing pipelines are inevitable, hindering implementations of the real-time applications. This work is driven by the intuition that the robustness of the model can be enhanced by introducing adversarial samples into the training, leading to a more invulnerable model to the noisy inputs, which even can be further extended to directly handling the real-world data like raw point clouds/scans without intermediate processing. Furthermore, we propose a novel 3D pose Masked Autoencoder (3D-PoseMAE), a customized MAE that effectively learns 3D extrinsic presentations (i.e., pose). 3D-PoseMAE facilitates learning from the aspect of extrinsic attributes by simultaneously generating adversarial samples that perturb the model and learning the arbitrary raw noisy poses via a multi-scale masking strategy. Both qualitative and quantitative studies show that the transferred meshes given by our network result in much better quality. Besides, we demonstrate the strong generalizability of our method on various poses, different domains, and even raw scans. Experimental results also show meaningful insights that the intermediate adversarial samples generated in the training can successfully attack the existing pose transfer models.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# 変分量子アルゴリズムにおける導出コスト削減のための新しいアプローチ

A Novel Approach to Reduce Derivative Costs in Variational Quantum Algorithms ( http://arxiv.org/abs/2404.02245v1 )

ライセンス: Link先を確認
Giovanni Minuto, Simone Caletti, Paolo Solinas, (参考訳) 量子可観測物の勾配やヘッセンを効率的に推定するために、QNDM(Quantum Non-Demolition Measurement)と呼ばれる別の方法の詳細な数値的研究を行う。 これは、量子オブザーバブルに関連するコスト関数を最小限にしたい場合、重要なステップであり、リソース要求タスクです。 詳細な分析では,QNDM手法の実装に必要なすべてのリソースを一定精度で説明し,現在の最先端手法と比較する。 我々はQNDMアプローチがより効率的であること、すなわちコスト関数の導関数を評価するのに必要なリソースが少ないこと、これらの利点は既に小さな次元のシステムでは明確であり、実用的な実装やより現実的な状況において増大する可能性が高いことを見出した。 変分量子アルゴリズムの大多数は議論された枠組みで定式化できるため、我々の結果は量子最適化アルゴリズムに重要な意味を持ち、QNDMアプローチを短期量子コンピュータ上で変分量子アルゴリズムを実装するための価値ある代替手段にすることができる。

We present a detailed numerical study of an alternative approach, named Quantum Non-Demolition Measurement (QNDM), to efficiently estimate the gradients or the Hessians of a quantum observable. This is a key step and a resource-demanding task when we want to minimize the cost function associated with a quantum observable. In our detailed analysis, we account for all the resources needed to implement the QNDM approach with a fixed accuracy and compare them to the current state-of-the-art method. We find that the QNDM approach is more efficient, i.e. it needs fewer resources, in evaluating the derivatives of a cost function.These advantages are already clear in small dimensional systems and are likely to increase for practical implementations and more realistic situations. Since the vast majority of the Variational Quantum Algorithms can be formulated in the discussed framework, our results can have significant implications in quantum optimization algorithms and make the QNDM approach a valuable alternative to implement Variational Quantum Algorithms on near-term quantum computers.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# RAT:クリックスルーレート予測のための検索拡張変圧器

RAT: Retrieval-Augmented Transformer for Click-Through Rate Prediction ( http://arxiv.org/abs/2404.02249v1 )

ライセンス: Link先を確認
Yushen Li, Jinpeng Wang, Tao Dai, Jieming Zhu, Jun Yuan, Rui Zhang, Shu-Tao Xia, (参考訳) クリックスルー率(CTR)の予測は、Webアプリケーションにとって基本的なタスクであり、そこでは、機能相互作用の効果的なモデルを作成することが重要な課題である。 現在の方法論は、主に個々のサンプル内の特徴的相互作用をモデル化することに集中しているが、予測を強化するための参照コンテキストとして機能する可能性のある、潜在的にサンプル間の関係を見越している。 このような欠陥を補うために, 試料内および試料間における微細な特徴相互作用の獲得を目的とした検索・拡張変換器 (RAT) を開発した。 類似したサンプルを検索することで,各対象サンプルに対する付加的な入力を構築する。 次にトランスフォーマー層を構築し,CTR予測を改善するための総合的推論を容易にするとともに,効率の維持を図る。 実世界のデータセットに関する大規模な実験は、RATの有効性を裏付け、ロングテールシナリオにおいてその利点を示唆している。 コードは \url{https://github.com/YushenLi807/WWW24-RAT} でオープンソース化された。

Predicting click-through rates (CTR) is a fundamental task for Web applications, where a key issue is to devise effective models for feature interactions. Current methodologies predominantly concentrate on modeling feature interactions within an individual sample, while overlooking the potential cross-sample relationships that can serve as a reference context to enhance the prediction. To make up for such deficiency, this paper develops a Retrieval-Augmented Transformer (RAT), aiming to acquire fine-grained feature interactions within and across samples. By retrieving similar samples, we construct augmented input for each target sample. We then build Transformer layers with cascaded attention to capture both intra- and cross-sample feature interactions, facilitating comprehensive reasoning for improved CTR prediction while retaining efficiency. Extensive experiments on real-world datasets substantiate the effectiveness of RAT and suggest its advantage in long-tail scenarios. The code has been open-sourced at \url{https://github.com/YushenLi807/WWW24-RAT}.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# マルチモーダル機械学習と単モーダル機械学習のより強い計算分離について

On Stronger Computational Separations Between Multimodal and Unimodal Machine Learning ( http://arxiv.org/abs/2404.02254v1 )

ライセンス: Link先を確認
Ari Karchmer, (参考訳) マルチモーダル機械学習では、複数のデータ(例:テキスト、画像)を組み合わせることで、より優れた機械学習モデルの学習が容易になる。 近年,マルチモーダル機械学習は経験的成功を収めている(例: GPT-4)。 この経験的成功を理論的に正当化するために、Lu (NeurIPS '23, ALT '24) はマルチモーダル学習の理論を導入し、マルチモーダル学習とユニモーダル学習の理論的モデルとの分離の可能性を検討する。 特に、Lu(ALT '24)は、学習タスクの最悪の事例に関連する計算分離を示す。 本稿では,学習課題の「典型的」インスタンスに対して,一助学習は計算が難しいが,マルチモーダル学習は容易である,という,より強い平均ケースの計算分離を与える。 次に、平均ケース分離の“有機的”さに疑問を投げかけます。 それは実際に遭遇するだろうか? この目的のために、自然条件下では、平均ケース・ユニモーダルとマルチモーダル・ラーニング・タスク間の任意の計算分離が対応する暗号鍵合意プロトコルを意味することを証明した。 これは、本質的に暗号分布の「病理学的」な場合のみ存在するため、マルチモーダル学習の非常に強力な計算上の優位性は、実際は頻繁に発生する可能性があるという証拠として解釈することを提案する。 しかし、これは(超ポリノミカルな)統計上の利点には当てはまらない。

In multimodal machine learning, multiple modalities of data (e.g., text and images) are combined to facilitate the learning of a better machine learning model, which remains applicable to a corresponding unimodal task (e.g., text generation). Recently, multimodal machine learning has enjoyed huge empirical success (e.g. GPT-4). Motivated to develop theoretical justification for this empirical success, Lu (NeurIPS '23, ALT '24) introduces a theory of multimodal learning, and considers possible separations between theoretical models of multimodal and unimodal learning. In particular, Lu (ALT '24) shows a computational separation, which is relevant to worst-case instances of the learning task. In this paper, we give a stronger average-case computational separation, where for "typical" instances of the learning task, unimodal learning is computationally hard, but multimodal learning is easy. We then question how "organic" the average-case separation is. Would it be encountered in practice? To this end, we prove that under natural conditions, any given computational separation between average-case unimodal and multimodal learning tasks implies a corresponding cryptographic key agreement protocol. We suggest to interpret this as evidence that very strong computational advantages of multimodal learning may arise infrequently in practice, since they exist only for the "pathological" case of inherently cryptographic distributions. However, this does not apply to possible (super-polynomial) statistical advantages.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# $\texttt{LM}^\texttt{2}$: A Simple Society of Language Models Solves Complex Reasoning

$\texttt{LM}^\texttt{2}$: A Simple Society of Language Models Solves Complex Reasoning ( http://arxiv.org/abs/2404.02255v1 )

ライセンス: Link先を確認
Gurusha Juneja, Subhabrata Dutta, Tanmoy Chakraborty, (参考訳) 突発的な推論能力を示すにもかかわらず、Large Language Models (LLMS) は複雑な多段階推論の追跡を失うことが多い。 既存の研究では、元の質問を複数のサブプロブレムに分解することで、LLM推論においてより堅牢性をもたらすことが示されており、デコンポスタはサブプロブレムを生成し、ソルバはこれらのサブプロブレムをそれぞれ解決する。 本稿では,これらの課題に対処するためのLM2を提案する。 LM2は分解、解法、検証を3つの異なる言語モデルにモジュール化する。 分解モジュールは、問題の解決に必要な重要な概念を特定し、推論要求に従ってステップバイステップのサブクエストを生成する。 解法モデルは、検証モジュールによってチェックされたサブプロブレムに対する解を生成し、検証モジュールからのフィードバックに応じて、サブプロブレムと解を用いて推論コンテキストを構築する。 これらのモデルはポリシー学習を用いて協調するように訓練されている。 発掘実験の結果、LM2は既存のドメイン内およびドメイン内推論問題よりも優れていることが示唆され、MATHでは8.1\%、JEEBenchでは7.71\%、MedQAでは9.7\%となっている(https://github.com/LCS2-IIITD/Language_Model_Multiplex)。

Despite demonstrating emergent reasoning abilities, Large Language Models (LLMS) often lose track of complex, multi-step reasoning. Existing studies show that providing guidance via decomposing the original question into multiple subproblems elicits more robustness in LLM reasoning -- a decomposer generates the subproblems, and a solver solves each of these subproblems. However, these techniques fail to accommodate coordination between the decomposer and the solver modules (either in a single model or different specialized ones) -- the decomposer does not keep track of the ability of the solver to follow the decomposed reasoning. In this paper, we propose LM2 to address these challenges. LM2 modularizes the decomposition, solution, and verification into three different language models. The decomposer module identifies the key concepts necessary to solve the problem and generates step-by-step subquestions according to the reasoning requirement. The solver model generates the solution to the subproblems that are then checked by the verifier module; depending upon the feedback from the verifier, the reasoning context is constructed using the subproblems and the solutions. These models are trained to coordinate using policy learning. Exhaustive experimentation suggests the superiority of LM2 over existing methods on in- and out-domain reasoning problems, outperforming the best baselines by $8.1\%$ on MATH, $7.71\%$ on JEEBench, and $9.7\%$ on MedQA problems (code available at https://github.com/LCS2-IIITD/Language_Model_Multiplex).
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# SnAG: スケーラブルで正確なビデオグラウンド

SnAG: Scalable and Accurate Video Grounding ( http://arxiv.org/abs/2404.02257v1 )

ライセンス: Link先を確認
Fangzhou Mu, Sicheng Mo, Yin Li, (参考訳) ビデオにおけるテキスト記述の時間的基盤は、視覚言語学習とビデオ理解において中心的な問題である。 既存の手法では、スケーラビリティよりも精度を優先することが多く、短いビデオ内に少数のテキストクエリを基盤として最適化されており、数百のクエリで長いビデオにスケールアップできない。 本稿では,ビデオグラウンドモデルのスケーラビリティに及ぼすクロスモーダル融合の影響について検討する。 本分析により,テキストクエリの多い長文ビデオのよりコスト効率の良い融合方式として,遅延融合が確立される。 さらに、効率的なトレーニングのための、新しいビデオ中心のサンプリングスキームがもたらされる。 これらの知見に基づき、スケーラブルで正確なビデオグラウンドティングのためのシンプルなベースラインであるSnAGを提示する。 ベルとホイッスルがなければ、SnAGは、挑戦的なMADデータセットに基づくロングフォームビデオの最先端技術であるCONEよりも43%正確で1.5倍高速で、短いビデオで非常に競争力のある結果が得られる。

Temporal grounding of text descriptions in videos is a central problem in vision-language learning and video understanding. Existing methods often prioritize accuracy over scalability -- they have been optimized for grounding only a few text queries within short videos, and fail to scale up to long videos with hundreds of queries. In this paper, we study the effect of cross-modal fusion on the scalability of video grounding models. Our analysis establishes late fusion as a more cost-effective fusion scheme for long-form videos with many text queries. Moreover, it leads us to a novel, video-centric sampling scheme for efficient training. Based on these findings, we present SnAG, a simple baseline for scalable and accurate video grounding. Without bells and whistles, SnAG is 43% more accurate and 1.5x faster than CONE, a state of the art for long-form video grounding on the challenging MAD dataset, while achieving highly competitive results on short videos.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# Mixture-of-Depths: トランスフォーマーに基づく言語モデルにおける動的割当計算

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models ( http://arxiv.org/abs/2404.02258v1 )

ライセンス: Link先を確認
David Raposo, Sam Ritter, Blake Richards, Timothy Lillicrap, Peter Conway Humphreys, Adam Santoro, (参考訳) トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。 この研究で、変換器は、シーケンス内の特定の位置にFLOP(または計算)を動的に割り当てることを学び、モデルの深さを越えて異なるレイヤの配列に沿って割り当てを最適化する。 提案手法では,各層における自己注意計算やMLP計算に参加するトークン数(k$)をカプセル化することにより,計算予算の合計化を図る。 処理対象のトークンは、トップ$kのルーティングメカニズムを使用してネットワークによって決定される。 k$は優先順位を定義するため、この単純な手順は既知のテンソルサイズを持つ静的な計算グラフを使用する。 しかしながら、$k$トークンの同一性は流動であるため、この手法はFLOPを時間とモデルの深さの次元で一様に拡張することができる。 したがって、計算支出は総和で完全に予測可能であるが、トークンレベルでは動的で文脈に敏感である。 この方法でトレーニングされたモデルは、計算を動的に割り当てることを学ぶだけでなく、効率的に行う。 これらのモデルは、同等のFLOPSとウォールクロックタイムのベースライン性能に適合するが、フォワードパスあたりのFLOPはごく一部必要であり、トレーニング後のサンプリングでは50\%以上の速度で進むことができる。

Transformer-based language models spread FLOPs uniformly across input sequences. In this work we demonstrate that transformers can instead learn to dynamically allocate FLOPs (or compute) to specific positions in a sequence, optimising the allocation along the sequence for different layers across the model depth. Our method enforces a total compute budget by capping the number of tokens ($k$) that can participate in the self-attention and MLP computations at a given layer. The tokens to be processed are determined by the network using a top-$k$ routing mechanism. Since $k$ is defined a priori, this simple procedure uses a static computation graph with known tensor sizes, unlike other conditional computation techniques. Nevertheless, since the identities of the $k$ tokens are fluid, this method can expend FLOPs non-uniformly across the time and model depth dimensions. Thus, compute expenditure is entirely predictable in sum total, but dynamic and context-sensitive at the token-level. Not only do models trained in this way learn to dynamically allocate compute, they do so efficiently. These models match baseline performance for equivalent FLOPS and wall-clock times to train, but require a fraction of the FLOPs per forward pass, and can be upwards of 50\% faster to step during post-training sampling.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# LLMs in the Loop:低リソース言語におけるアクティブラーニングのための大規模言語モデルアノテーションの活用

LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages ( http://arxiv.org/abs/2404.02261v1 )

ライセンス: Link先を確認
Nataliia Kholodna, Sahib Julka, Mohammad Khodadadi, Muhammed Nurullah Gumus, Michael Granitzer, (参考訳) 低リソースの言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面しており、それらを稀で高価なものにしている。 データの不足と既存のツールの欠如はこれらの課題を悪化させ、特にこれらの言語は様々なNLPデータセットで適切に表現されない可能性がある。 このギャップに対処するために、データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。 当初我々は,アノテータ間の整合性と整合性を評価するために評価を行い,適切なLLMアノテータの選択を容易にする。 選択されたアノテーションは、アクティブラーニングパラダイムを使用して分類器のトレーニングループに統合され、必要なクエリデータの量を最小限にする。 GPT-4-Turboを用いた実証的な評価は、人間のアノテーションと比較して少なくとも42.45倍のコスト削減が予想されるように、データ要求を著しく削減した最先端の性能を示している。 提案手法は,低リソース環境における自動化に伴う金融コストと計算コストを大幅に削減する可能性を示している。 低リソース言語とAIのギャップを埋めることによって、このアプローチはより広範な包摂性を促進し、多様な言語環境における自動化を可能にする可能性を示している。

Low-resource languages face significant barriers in AI development due to limited linguistic resources and expertise for data labeling, rendering them rare and costly. The scarcity of data and the absence of preexisting tools exacerbate these challenges, especially since these languages may not be adequately represented in various NLP datasets. To address this gap, we propose leveraging the potential of LLMs in the active learning loop for data annotation. Initially, we conduct evaluations to assess inter-annotator agreement and consistency, facilitating the selection of a suitable LLM annotator. The chosen annotator is then integrated into a training loop for a classifier using an active learning paradigm, minimizing the amount of queried data required. Empirical evaluations, notably employing GPT-4-Turbo, demonstrate near-state-of-the-art performance with significantly reduced data requirements, as indicated by estimated potential cost savings of at least 42.45 times compared to human annotation. Our proposed solution shows promising potential to substantially reduce both the monetary and computational costs associated with automation in low-resource settings. By bridging the gap between low-resource languages and AI, this approach fosters broader inclusion and shows the potential to enable automation across diverse linguistic landscapes.
翻訳日:2024-04-04 19:28:46 公開日:2024-04-02
# OFMPNet:都市環境における活動・流動予測のためのエンド・ツー・エンドモデル

OFMPNet: Deep End-to-End Model for Occupancy and Flow Prediction in Urban Environment ( http://arxiv.org/abs/2404.02263v1 )

ライセンス: Link先を確認
Youshaa Murhij, Dmitry Yudin, (参考訳) 運動予測のタスクは自律運転システムにとって重要なものであり、周囲の車両行動戦略を選択する上で重要なデータを提供する。 既存の動き予測技術は主に、過去の軌跡データを利用して、シーン内の各エージェントの将来の軌跡を個別に予測することに焦点を当てている。 本稿では,環境中の全ての動的物体の将来の挙動を予測するために,エンドツーエンドのニューラルネットワーク手法を提案する。 このアプローチは、占有マップとシーンの動きフローを活用する。 我々はOFMPNetと呼ばれるディープエンコーダデコーダモデルを構築するための様々な代替手段を検証している。 本モデルでは, 鳥眼視道路画像, 占有格子, および先行運動流を入力データとして用いた。 モデルのエンコーダは、トランスフォーマー、アテンションベース、または畳み込みユニットを組み込むことができる。 デコーダは、畳み込みモジュールと繰り返しブロックの両方の使用を検討する。 さらに,新たな時間重み付き運動フロー損失を提案し,その応用により終点誤差が大幅に減少した。 Waymo Occupancy and Flow Predictionベンチマークでは,Soft IoUが52.1%,AUCが76.75%,最先端の結果が得られた。

The task of motion prediction is pivotal for autonomous driving systems, providing crucial data to choose a vehicle behavior strategy within its surroundings. Existing motion prediction techniques primarily focus on predicting the future trajectory of each agent in the scene individually, utilizing its past trajectory data. In this paper, we introduce an end-to-end neural network methodology designed to predict the future behaviors of all dynamic objects in the environment. This approach leverages the occupancy map and the scene's motion flow. We are investigatin various alternatives for constructing a deep encoder-decoder model called OFMPNet. This model uses a sequence of bird's-eye-view road images, occupancy grid, and prior motion flow as input data. The encoder of the model can incorporate transformer, attention-based, or convolutional units. The decoder considers the use of both convolutional modules and recurrent blocks. Additionally, we propose a novel time-weighted motion flow loss, whose application has shown a substantial decrease in end-point error. Our approach has achieved state-of-the-art results on the Waymo Occupancy and Flow Prediction benchmark, with a Soft IoU of 52.1% and an AUC of 76.75% on Flow-Grounded Occupancy.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# ChatGPTに関する契約からノルムを抽出する - 機会と課題

Extracting Norms from Contracts Via ChatGPT: Opportunities and Challenges ( http://arxiv.org/abs/2404.02269v1 )

ライセンス: Link先を確認
Amanul Haque, Munindar P. Singh, (参考訳) 契約書からの規範抽出におけるChatGPTの有効性について検討する。 Normsは、2つ以上の自律的なパーティ間のインタラクションを管理する方法を取得することで、マルチエージェントシステムを構築する自然な方法を提供する。 契約書からコミットメント、禁止、認可、権限の規範と関連する規範的要素(関係者、先導者、従属者)を抽出する。 本研究は,ChatGPTの契約からのノルム抽出における有効性と限界を明らかにするものである。 ChatGPTは、トレーニングや微調整を必要とせずに、標準抽出において有望なパフォーマンスを示すため、このドメインでは一般に利用できない注釈付きデータの必要性を回避している。 しかし、これらのノルムを抽出する際のChatGPTのいくつかの制限は、誤ったノルム抽出につながる。 この制限には、重要な詳細の監視、幻覚、接続の誤ったパーシング、空のノルム要素が含まれる。 契約書からのノルム抽出の強化により、より透明で信頼性の高い正式なエージェントインタラクション仕様の開発が促進され、マルチエージェントシステムの改善に寄与する。

We investigate the effectiveness of ChatGPT in extracting norms from contracts. Norms provide a natural way to engineer multiagent systems by capturing how to govern the interactions between two or more autonomous parties. We extract norms of commitment, prohibition, authorization, and power, along with associated norm elements (the parties involved, antecedents, and consequents) from contracts. Our investigation reveals ChatGPT's effectiveness and limitations in norm extraction from contracts. ChatGPT demonstrates promising performance in norm extraction without requiring training or fine-tuning, thus obviating the need for annotated data, which is not generally available in this domain. However, we found some limitations of ChatGPT in extracting these norms that lead to incorrect norm extractions. The limitations include oversight of crucial details, hallucination, incorrect parsing of conjunctions, and empty norm elements. Enhanced norm extraction from contracts can foster the development of more transparent and trustworthy formal agent interaction specifications, thereby contributing to the improvement of multiagent systems.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# マルチ制御量子ゲートの効率的な実装

Efficient Implementation of Multi-Controlled Quantum Gates ( http://arxiv.org/abs/2404.02279v1 )

ライセンス: Link先を確認
Ben Zindorf, Sougato Bose, (参考訳) 本稿では,最先端手法と比較してコストを大幅に削減できるマルチコントロール量子ゲートの実装について述べる。 ターゲット qubit に適用される演算子は、ユニタリで特別なユニタリ、または Pauli X 演算子(Multi-Controlled Toffoli)である。 必要となるアンシラ量子ビット数は、既知の線形コスト分解と同様に1より大きい。 任意のターゲット量子ビットに対してメソッドを拡張し、追加のアンシラ量子ビットが利用可能であれば、さらなるコスト削減を提供する。 各タイプのマルチコントロールゲートに対して、制限のない(すべて)接続と線形アレスト近傍の実装を提供する。 すべての手法はクリフォード+T(フォールトトレラント)集合からのゲートの線形コストを使用する。 線形アレスト近傍アーキテクチャでは、ゲートが適用されるキュービットの位置に関わらず、回路のコストと深さは線形にスケールする。 提案手法は,多くの量子アルゴリズムのコンパイルプロセスを直接改善し,最適化回路を提供する。

We present an implementation of multi-controlled quantum gates which provides significant reductions of cost compared to state-of-the-art methods. The operator applied on the target qubit is a unitary, special unitary, or the Pauli X operator (Multi-Controlled Toffoli). The required number of ancilla qubits is no larger than one, similarly to known linear cost decompositions. We extend our methods for any number of target qubits, and provide further cost reductions if additional ancilla qubits are available. For each type of multi-controlled gate, we provide implementations for unrestricted (all-to-all) connectivity and for linear-nearest-neighbor. All of the methods use a linear cost of gates from the Clifford+T (fault-tolerant) set. In the context of linear-nearest-neighbor architecture, the cost and depth of our circuits scale linearly irrespective of the position of the qubits on which the gate is applied. Our methods directly improve the compilation process of many quantum algorithms, providing optimized circuits, which will result in a large reduction of errors.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# 物理誤差率より優れた論理量子ビットの証明と繰り返し誤差補正

Demonstration of logical qubits and repeated error correction with better-than-physical error rates ( http://arxiv.org/abs/2404.02280v1 )

ライセンス: Link先を確認
M. P. da Silva, C. Ryan-Anderson, J. M. Bello-Rivas, A. Chernoguzov, J. M. Dreiling, C. Foltz, J. P. Gaebler, T. M. Gatterman, D. Hayes, N. Hewitt, J. Johansen, D. Lucchetti, M. Mills, S. A. Moses, B. Neyenhuis, A. Paz, J. Pino, P. Siegfried, J. Strabley, S. J. Wernli, R. P. Stutz, K. M. Svore, (参考訳) 量子コンピュータの約束は、例えば1億以上の演算をフォールトトレラントに実行する量子計算を大規模にスケールする能力にかかっている。 これにより、計算のサイズに反比例するレベルのエラーを抑える必要がある。 この野心的な目標に向けて、我々は、フォールトトレラントエンコーディングとエラー訂正を用いることで、物理誤差率以下のレベルまで論理誤差率を抑えることができる、トラップイオンQCCDプロセッサの実験を行う。 特に,[7,1,3]符号の誤り率9.8~500倍のベル状態と,[12,2,4]符号の誤り率4.7~800倍のベル状態を示す。 さらに、[12,2,4]符号で繰り返し誤り訂正を行い、物理回路ベースライン以下で繰り返しCNOTに対応する論理誤差率を示し、100以上の物理CNOTからなる誤り訂正サイクル当たりの誤差率が2つの物理CNOTの誤差率に近づくことを示す。 これらの結果は、ノイズの多い中間量子コンピューティングから信頼性のある量子コンピューティングへの重要な移行を示し、大規模フォールトトレラント量子コンピューティングに必要な高度な能力を示している。

The promise of quantum computers hinges on the ability to scale to large system sizes, e.g., to run quantum computations consisting of roughly more than 100 million operations fault-tolerantly. This in turn requires suppressing errors to levels inversely proportional to the size of the computation. As a step towards this ambitious goal, we present experiments on a trapped-ion QCCD processor where, through the use of fault-tolerant encoding and error correction, we are able to suppress logical error rates to levels below the physical error rates. In particular, we show Bell states encoded in the [[7,1,3]] code with error rates 9.8 to 500 times lower than at the physical level, and Bell states encoded in a [[12,2,4]] code with error rates 4.7 to 800 times lower than at the physical level, depending on the judicious use of post-selection. Moreover, we demonstrate repeated error correction with the [[12,2,4]] code, with logical error rates below physical circuit baselines corresponding to repeated CNOTs, and show evidence that the error rate per error correction cycle, which consists of over 100 physical CNOTs, approaches the error rate of two physical CNOTs. These results signify an important transition from noisy intermediate scale quantum computing to reliable quantum computing, and demonstrate advanced capabilities required for large-scale fault-tolerant quantum computing.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# Smooth Deep Saliency

Smooth Deep Saliency ( http://arxiv.org/abs/2404.02282v1 )

ライセンス: Link先を確認
Rudolf Herdt, Maximilian Schmidt, Daniel Otero Baguer, Peter Maaß, (参考訳) 本研究では, 深層学習モデルを用いて, 組織組織試料中の腫瘍を検出する方法を説明するとともに, 畳み込みによる深層唾液濃度マップのノイズ低減手法について検討した。 これらの手法により,隠れ層で計算した勾配に基づく塩分濃度マップをより解釈しやすくする。 我々は、ImageNet1Kで画像分類を訓練した異なるモデルと、Camelyon16で腫瘍検出を訓練したモデル、および染色組織サンプルの実世界でのデジタル病理検査について検討した。 以上の結果から,勾配のチェッカーボードノイズは減少し,スムーズになり,従ってサリエンシマップの解釈が容易になることがわかった。

In this work, we investigate methods to reduce the noise in deep saliency maps coming from convolutional downsampling, with the purpose of explaining how a deep learning model detects tumors in scanned histological tissue samples. Those methods make the investigated models more interpretable for gradient-based saliency maps, computed in hidden layers. We test our approach on different models trained for image classification on ImageNet1K, and models trained for tumor detection on Camelyon16 and in-house real-world digital pathology scans of stained tissue samples. Our results show that the checkerboard noise in the gradient gets reduced, resulting in smoother and therefore easier to interpret saliency maps.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# LP++:Few-Shot CLIP用の驚くほど強力な線形プローブ

LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP ( http://arxiv.org/abs/2404.02285v1 )

ライセンス: Link先を確認
Yunshi Huang, Fereshteh Shakeri, Jose Dolz, Malik Boudiaf, Houda Bahig, Ismail Ben Ayed, (参考訳) 最近のCLIP適応に関する強力な文献では、Linear Probe(LP)が弱いベースラインであるとしばしば報告されている。 これは急進的な学習や特徴適応戦略を複雑に構築する集中的な研究の動機となった。 本研究では,画像とテキスト知識を融合したクラスワイド乗算器を用いて,線形分類器重みがテキスト埋め込みの学習可能な関数となる標準LPベースラインの一般化を凸最適化の観点から提案・検討する。 目的関数は、クラス視覚プロトタイプと学習可能なブレンディングパラメータの2種類の変数に依存するため、計算効率の良いブロック座標Majorize-Minimize(MM)降下アルゴリズムを提案する。 LP++を造語したフルバッチMMオプティマイザでは、学習率が検証セットよりも集中的に検索される標準勾配降下法とは異なり、ステップサイズは暗黙的です。 損失の数学的性質(例えば、リプシッツ勾配の連続性)を調べることにより、データ駆動学習率と損失最小値の近似を導出する大規模関数を構築し、変数をデータインフォームド初期化する。 我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。 さらに、LP++はブラックボックスで動作し、最適化ハイパーパラメータの集中的検証検索を緩和し、最先端の数ショットCLIP適応メソッドよりも高速に命令を実行する。 我々のコードは以下の通りである。 \url{https://github.com/FereshteShakeri/FewShot-CLIP-Strong-Baseline.git}。

In a recent, strongly emergent literature on few-shot CLIP adaptation, Linear Probe (LP) has been often reported as a weak baseline. This has motivated intensive research building convoluted prompt learning or feature adaptation strategies. In this work, we propose and examine from convex-optimization perspectives a generalization of the standard LP baseline, in which the linear classifier weights are learnable functions of the text embedding, with class-wise multipliers blending image and text knowledge. As our objective function depends on two types of variables, i.e., the class visual prototypes and the learnable blending parameters, we propose a computationally efficient block coordinate Majorize-Minimize (MM) descent algorithm. In our full-batch MM optimizer, which we coin LP++, step sizes are implicit, unlike standard gradient descent practices where learning rates are intensively searched over validation sets. By examining the mathematical properties of our loss (e.g., Lipschitz gradient continuity), we build majorizing functions yielding data-driven learning rates and derive approximations of the loss's minima, which provide data-informed initialization of the variables. Our image-language objective function, along with these non-trivial optimization insights and ingredients, yields, surprisingly, highly competitive few-shot CLIP performances. Furthermore, LP++ operates in black-box, relaxes intensive validation searches for the optimization hyper-parameters, and runs orders-of-magnitudes faster than state-of-the-art few-shot CLIP adaptation methods. Our code is available at: \url{https://github.com/FereshteShakeri/FewShot-CLIP-Strong-Baseline.git}.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# ルールの1つのノイズ: ユニバーサルな摂動を伴う多視点対向攻撃

One Noise to Rule Them All: Multi-View Adversarial Attacks with Universal Perturbation ( http://arxiv.org/abs/2404.02287v1 )

ライセンス: Link先を確認
Mehmet Ergezer, Phat Duong, Christian Green, Tommy Nguyen, Abdurrahman Zeybey, (参考訳) 本稿では,3次元物体認識における頑健な多視点対角的例を生成するために,新しい普遍摂動法を提案する。 従来の単一ビューに制限された攻撃とは異なり、我々のアプローチは複数の2Dイメージで動作し、モデルのスケーラビリティと堅牢性を向上させるための実用的でスケーラブルなソリューションを提供する。 この一般化可能な方法は、2D摂動と3Dライクな攻撃能力のギャップを埋め、現実世界のアプリケーションに適している。 既存の敵攻撃は、照明の変化、カメラの位置の変化、あるいは自然な変形など、画像が変換されるときに効果が低下する可能性がある。 この課題に対処するために、様々なオブジェクトビューに適用可能な1つの普遍的なノイズ摂動を製作する。 多様なレンダリングされた3Dオブジェクトの実験は、我々のアプローチの有効性を実証している。 普遍的な摂動は、複数のポーズと視点から、それぞれの3Dオブジェクトの描画セットに対して、単一の逆ノイズを識別することに成功した。 シングルビューアタックと比較して、我々のユニバーサルアタックは、特に低騒音レベルにおいて、複数の視角にわたる分類信頼度を低下させる。 サンプル実装はhttps://github.com/memoatwit/UniversalPerturbation.comで公開されている。

This paper presents a novel universal perturbation method for generating robust multi-view adversarial examples in 3D object recognition. Unlike conventional attacks limited to single views, our approach operates on multiple 2D images, offering a practical and scalable solution for enhancing model scalability and robustness. This generalizable method bridges the gap between 2D perturbations and 3D-like attack capabilities, making it suitable for real-world applications. Existing adversarial attacks may become ineffective when images undergo transformations like changes in lighting, camera position, or natural deformations. We address this challenge by crafting a single universal noise perturbation applicable to various object views. Experiments on diverse rendered 3D objects demonstrate the effectiveness of our approach. The universal perturbation successfully identified a single adversarial noise for each given set of 3D object renders from multiple poses and viewpoints. Compared to single-view attacks, our universal attacks lower classification confidence across multiple viewing angles, especially at low noise levels. A sample implementation is made available at https://github.com/memoatwit/UniversalPerturbation.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# 惑星探査のためのフェデレーションマルチエージェントマッピング

Federated Multi-Agent Mapping for Planetary Exploration ( http://arxiv.org/abs/2404.02289v1 )

ライセンス: Link先を確認
Tiberiu-Ioan Szatmari, Abhishek Cauligi, (参考訳) マルチエージェントロボット探索では、動的環境から生成される膨大な異種データの管理と有効利用が大きな課題となっている。 フェデレートラーニング(FL)は、コラボレーティブラーニングにおける分散型データの課題に対処する、分散マッピングのための有望なアプローチである。 FLは、複数のエージェント間でのジョイントモデルトレーニングを可能にし、生データの集中化や共有を必要とせず、帯域幅とストレージ制約を克服する。 我々のアプローチは暗黙的なニューラルマッピングを利用し、コンパクトで適応可能な表現のために、ニューラルネットワークによって学習された連続関数としてマップを表現します。 我々は、このアプローチをさらに強化し、地球データセットのメタ初期化を行い、ネットワークをトレーニングして、新しい地図構造を素早く学習する。 この組み合わせは、火星の地形や氷河のような多様な領域に強い一般化を示す。 マルチエージェント探索シナリオにおける実環境展開の有効性を実証し,本手法を厳格に評価する。

In multi-agent robotic exploration, managing and effectively utilizing the vast, heterogeneous data generated from dynamic environments poses a significant challenge. Federated learning (FL) is a promising approach for distributed mapping, addressing the challenges of decentralized data in collaborative learning. FL enables joint model training across multiple agents without requiring the centralization or sharing of raw data, overcoming bandwidth and storage constraints. Our approach leverages implicit neural mapping, representing maps as continuous functions learned by neural networks, for compact and adaptable representations. We further enhance this approach with meta-initialization on Earth datasets, pre-training the network to quickly learn new map structures. This combination demonstrates strong generalization to diverse domains like Martian terrain and glaciers. We rigorously evaluate this approach, demonstrating its effectiveness for real-world deployment in multi-agent exploration scenarios.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# 新しい構成可能で実用的なリモート自動車セキュリティテストプラットフォームを目指して

Towards a New Configurable and Practical Remote Automotive Security Testing Platform ( http://arxiv.org/abs/2404.02291v1 )

ライセンス: Link先を確認
Sekar Kulandaivel, Wenjuan Lu, Brandon Barry, Jorge Guajardo, (参考訳) 自動車セキュリティの分野では、設定可能で実用的でユーザフレンドリーなテストプラットフォームが存在しないことが、大きな課題となっている。 これらの困難は、車両システムの複雑な設計、攻撃ベクトルの急速な進化、標準化された試験方法の欠如によって複雑化されている。 我々は、車両のサイバーセキュリティテストと研究領域におけるいくつかの課題に対処する次世代のテストプラットフォームを提案する。 本稿では、車両セキュリティエンジニアリングクラウド(VSEC)テストプラットフォームが、効率的な車両サイバーセキュリティテストのためのテストベッドへのアクセスを容易にし、高度な(例えば、侵入、ファズ)テストを可能にする方法と、そのようなテストベッドを拡張して自動車セキュリティ研究に役立てる方法について詳述する。 我々は,このプラットフォームをさまざまなユーザや実例で活用するための方法論を強調した。

In the automotive security sector, the absence of a testing platform that is configurable, practical, and user-friendly presents considerable challenges. These difficulties are compounded by the intricate design of vehicle systems, the rapid evolution of attack vectors, and the absence of standardized testing methodologies. We propose a next-generation testing platform that addresses several challenges in vehicle cybersecurity testing and research domains. In this paper, we detail how the Vehicle Security Engineering Cloud (VSEC) Test platform enables easier access to test beds for efficient vehicle cybersecurity testing and advanced (e.g., penetration, fuzz) testing and how we extend such test beds to benefit automotive security research. We highlight methodology on how to use this platform for a variety of users and use cases with real implemented examples.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# LLMと音声指導を用いた選好地での制約付きロボットナビゲーション:副詞の発散

Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of Adverbs ( http://arxiv.org/abs/2404.02294v1 )

ライセンス: Link先を確認
Faraz Lotfi, Farnoosh Faraji, Nikhil Kakodkar, Travis Manderson, David Meger, Gregory Dudek, (参考訳) 本稿では、生成AIを用いた地図のないオフロードナビゲーションにおける大規模言語モデルの活用について検討し、従来のデータ収集やアノテーションの必要性を低減する。 本稿では,ロボットがWhisperを通じてテキストに変換された音声命令を受信する手法を提案する。また,大規模言語モデル(LLM)モデルではランドマーク,好ましい地形,および制約されたナビゲーションのための速度設定に変換された重要な副詞を抽出する。 言語駆動セマンティックセグメンテーションモデルは、画像中のランドマークや地形のタイプを特定するためのテキストベースのマスクを生成する。 カメラパラメータを用いて2Dイメージポイントを車両の運動面に変換することにより、MPCコントローラは車両を所望の地形へ誘導することができる。 このアプローチは、多様な環境への適応を促進し、複雑で困難な地形をナビゲートするための高レベルな指示の使用を促進する。

This paper explores leveraging large language models for map-free off-road navigation using generative AI, reducing the need for traditional data collection and annotation. We propose a method where a robot receives verbal instructions, converted to text through Whisper, and a large language model (LLM) model extracts landmarks, preferred terrains, and crucial adverbs translated into speed settings for constrained navigation. A language-driven semantic segmentation model generates text-based masks for identifying landmarks and terrain types in images. By translating 2D image points to the vehicle's motion plane using camera parameters, an MPC controller can guides the vehicle towards the desired terrain. This approach enhances adaptation to diverse environments and facilitates the use of high-level instructions for navigating complex and challenging terrains.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# CATGNN: グラフニューラルネットワークのための費用効率よくスケーラブルな分散トレーニング

CATGNN: Cost-Efficient and Scalable Distributed Training for Graph Neural Networks ( http://arxiv.org/abs/2404.02300v1 )

ライセンス: Link先を確認
Xin Huang, Weipeng Zhuo, Minh Phu Vuong, Shiju Li, Jongryool Kim, Bradley Rees, Chul-Ho Lee, (参考訳) グラフニューラルネットワークは近年成功している。 異なるGNNアーキテクチャとトレーニングシステムが開発されているが、大規模な実世界のグラフでのGNNトレーニングは依然として困難である。 既存の分散システムは、グラフパーティショニングのためにメモリ全体のグラフを読み込むため、巨大なグラフを処理するために巨大なメモリスペースを必要とするため、コモディティワークステーションを使用した巨大なグラフに対するGNNトレーニングを妨げている。 本稿では,コスト効率と拡張性を備えた分散GNNトレーニングシステムであるCATGNNを提案する。 その他の機能の中で、パーティショニングのために、メモリにグラフ全体をロードする代わりに、エッジのストリームを入力として取ります。 また、分散GNNトレーニングのためのSPRingという新しいストリーミング分割アルゴリズムを提案する。 16個のオープンデータセット上で,SPRingによるCATGNNの正当性と有効性を検証する。 特に、CATGNNは、メモリ容量を増大させることなく実現可能であった、限られたメモリを持つ最大の公開データセットを処理できることを実証する。 また、SPRingは最先端のパーティショニングアルゴリズムを著しく上回り、平均して50%のレプリケーション係数が減少する。

Graph neural networks have been shown successful in recent years. While different GNN architectures and training systems have been developed, GNN training on large-scale real-world graphs still remains challenging. Existing distributed systems load the entire graph in memory for graph partitioning, requiring a huge memory space to process large graphs and thus hindering GNN training on such large graphs using commodity workstations. In this paper, we propose CATGNN, a cost-efficient and scalable distributed GNN training system which focuses on scaling GNN training to billion-scale or larger graphs under limited computational resources. Among other features, it takes a stream of edges as input, instead of loading the entire graph in memory, for partitioning. We also propose a novel streaming partitioning algorithm named SPRING for distributed GNN training. We verify the correctness and effectiveness of CATGNN with SPRING on 16 open datasets. In particular, we demonstrate that CATGNN can handle the largest publicly available dataset with limited memory, which would have been infeasible without increasing the memory space. SPRING also outperforms state-of-the-art partitioning algorithms significantly, with a 50% reduction in replication factor on average.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# 不均一時間グラフニューラルネットワークを用いたリアルタイム軸受荷重予測のための仮想センサ

Virtual Sensor for Real-Time Bearing Load Prediction Using Heterogeneous Temporal Graph Neural Networks ( http://arxiv.org/abs/2404.02304v1 )

ライセンス: Link先を確認
Mengjie Zhao, Cees Taal, Stephan Baggerohr, Olga Fink, (参考訳) 診断・健康管理(PHM)には正確な軸受負荷モニタリングが不可欠であり、損傷評価、摩耗予測、前向きな維持を可能にする。 ベアリングセンサーは通常、ベアリングハウジング上に置かれるが、直接負荷監視にはベアリング内部のセンサーが必要である。 最近導入されたセンサローラは、直接軸受負荷監視を可能にするが、バッテリ寿命に制約がある。 データ駆動の仮想センサーは、バッテリー寿命中に収集されたセンサーローラーデータから学習し、動作条件を負荷にマッピングする。 空間分布型ベアリングセンサは、負荷分布(例えば、負荷と温度の関係)の洞察を提供するが、従来の機械学習アルゴリズムは、これらの空間的時間的依存関係を完全に活用するのに苦労している。 このギャップに対処するために、グラフニューラルネットワーク(GNN)を利用したグラフベースの仮想センサを導入し、センサ信号間の空間的時間的依存関係を分析し、既存の測定値(温度、振動)を負荷にマッピングする。 温度と振動の信号は、非常に異なるダイナミクスを示すため、これらの信号のタイプとその相互作用を効果的負荷予測のために明示的にモデル化した異種時間グラフニューラルネットワーク(HTGNN)を提案する。 その結果,HTGNNは空間的信号特性と異種信号特性の両方を捉えるのに苦労する畳み込みニューラルネットワーク(CNN)よりも優れていた。 これらの知見は、温度、振動、負荷の間の複雑な空間的相互作用を捉えることの重要性を強調している。

Accurate bearing load monitoring is essential for their Prognostics and Health Management (PHM), enabling damage assessment, wear prediction, and proactive maintenance. While bearing sensors are typically placed on the bearing housing, direct load monitoring requires sensors inside the bearing itself. Recently introduced sensor rollers enable direct bearing load monitoring but are constrained by their battery life. Data-driven virtual sensors can learn from sensor roller data collected during a batterys lifetime to map operating conditions to bearing loads. Although spatially distributed bearing sensors offer insights into load distribution (e.g., correlating temperature with load), traditional machine learning algorithms struggle to fully exploit these spatial-temporal dependencies. To address this gap, we introduce a graph-based virtual sensor that leverages Graph Neural Networks (GNNs) to analyze spatial-temporal dependencies among sensor signals, mapping existing measurements (temperature, vibration) to bearing loads. Since temperature and vibration signals exhibit vastly different dynamics, we propose Heterogeneous Temporal Graph Neural Networks (HTGNN), which explicitly models these signal types and their interactions for effective load prediction. Our results demonstrate that HTGNN outperforms Convolutional Neural Networks (CNNs), which struggle to capture both spatial and heterogeneous signal characteristics. These findings highlight the importance of capturing the complex spatial interactions between temperature, vibration, and load.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# 自己学習型言語モデルの崩壊

Collapse of Self-trained Language Models ( http://arxiv.org/abs/2404.02305v1 )

ライセンス: Link先を確認
David Herel, Tomas Mikolov, (参考訳) 科学を含む知識創造の様々な分野において、新しいアイデアは、しばしば既存の情報に基づいて構築される。 本研究では,この概念を言語モデルの文脈内で検討する。 具体的には、人間が以前の思考や行動に基づいて学習し、構築する方法に似ています。 このアプローチは直感的に魅力的だが、我々の研究は実用的限界を明らかにしている。 GPT-2モデルの拡張自己学習により,性能が著しく低下し,繰り返しおよび崩壊したトークンが出力されることがわかった。

In various fields of knowledge creation, including science, new ideas often build on pre-existing information. In this work, we explore this concept within the context of language models. Specifically, we explore the potential of self-training models on their own outputs, akin to how humans learn and build on their previous thoughts and actions. While this approach is intuitively appealing, our research reveals its practical limitations. We find that extended self-training of the GPT-2 model leads to a significant degradation in performance, resulting in repetitive and collapsed token output.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# メタトレーニングは分子足取り学習にとって本当に必要か?

Is Meta-training Really Necessary for Molecular Few-Shot Learning ? ( http://arxiv.org/abs/2404.02314v1 )

ライセンス: Link先を確認
Philippe Formont, Hugo Jeannin, Pablo Piantanida, Ismail Ben Ayed, (参考訳) ほとんどショットラーニングは近年、薬物発見に大きな関心を惹きつけており、近年急速に成長している文献は、主に複雑なメタラーニング戦略を含んでいる。 分子データに対するより簡単な微調整手法を再検討し、マハラノビス距離に基づく正規化二次プローブ損失を提案する。 我々は、損失の退化を回避できる専用ブロック座標降下最適化器を設計する。 興味深いことに、我々の単純な微調整アプローチは、最先端の手法と比較して高い競争力を発揮する一方で、ブラックボックスの設定にも適用でき、特定のエピソード事前学習戦略の必要性を排除できる。 さらに、競合する手法のドメインシフトに対する堅牢性を評価するための新しいベンチマークを導入する。 この設定では、微調整ベースラインはメタ学習法よりも一貫して良い結果が得られる。

Few-shot learning has recently attracted significant interest in drug discovery, with a recent, fast-growing literature mostly involving convoluted meta-learning strategies. We revisit the more straightforward fine-tuning approach for molecular data, and propose a regularized quadratic-probe loss based on the the Mahalanobis distance. We design a dedicated block-coordinate descent optimizer, which avoid the degenerate solutions of our loss. Interestingly, our simple fine-tuning approach achieves highly competitive performances in comparison to state-of-the-art methods, while being applicable to black-box settings and removing the need for specific episodic pre-training strategies. Furthermore, we introduce a new benchmark to assess the robustness of the competing methods to domain shifts. In this setting, our fine-tuning baseline obtains consistently better results than meta-learning methods.
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# Prompts as Programs: 効率的なコンパイル時プロンプト最適化のための構造認識アプローチ

Prompts As Programs: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization ( http://arxiv.org/abs/2404.02319v1 )

ライセンス: Link先を確認
Tobias Schnabel, Jennifer Neville, (参考訳) 大規模言語モデル(LLM)はより長い複雑な入力を扱えるようになり、より精巧なプロンプトの使用が容易になった。 しかしながら、プロンプトはデプロイメントのパフォーマンスを改善するためにいくつかのチューニングを必要とすることが多い。 最近の研究で自動的なプロンプト最適化法が提案されているが、プロンプト複雑性とLLM強度の増加に伴い、多くのプロンプト最適化技術はもはや不十分であり、メタプロンプトプログラムを最適化するには新しいアプローチが必要である。 そこで本研究では,メタプロンプトプログラムのコンパイル時最適化のためのフレームワークSAMMOを紹介し,プロンプトを構造化オブジェクトとして表現し,最適化中に検索可能な変換のリッチなセットを実現する。 SAMMO は従来の手法を一般化し,(1) 命令チューニング,(2) RAG パイプラインチューニング,(3) プロンプト圧縮における複雑なプロンプトの性能を向上させる。 すべてのコードはhttps://github.com/microsoft/sammoで公開しています。

Large language models (LLMs) can now handle longer and more complex inputs, which facilitate the use of more elaborate prompts. However, prompts often require some tuning to improve performance for deployment. Recent work has proposed automatic prompt optimization methods, but as prompt complexity and LLM strength increase, many prompt optimization techniques are no longer sufficient and a new approach is needed to optimize {\em meta prompt programs}. To address this, we introduce SAMMO, a framework for {\em compile-time} optimizations of metaprompt programs, which represent prompts as structured objects that allows for a rich set of transformations that can be searched over during optimization. We show that SAMMO generalizes previous methods and improves the performance of complex prompts on (1) instruction tuning, (2) RAG pipeline tuning, and (3) prompt compression, across several different LLMs. We make all code available open-source at https://github.com/microsoft/sammo .
翻訳日:2024-04-04 19:19:01 公開日:2024-04-02
# インフォーマル言語処理に向けて:大規模言語モデルにおけるスラングの知識

Toward Informal Language Processing: Knowledge of Slang in Large Language Models ( http://arxiv.org/abs/2404.02323v1 )

ライセンス: Link先を確認
Zhewei Sun, Qian Hu, Rahul Gupta, Richard Zemel, Yang Xu, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語システムが非公式言語を処理する強力な可能性を秘めている。 非公式言語の代表的形態はスラング(slang)であり、日常会話やオンラインソーシャルメディアで一般的に使われている。 現在まで、スラングは、慎重に設計され、一般にアクセス可能なベンチマークが存在しないこともあって、LLMでは包括的に評価されていない。 映画の字幕を用いて,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築する。 評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。 1)スラング検出,及び 2)自然文からのスラングの地域的及び歴史的資料の同定 また、我々のデータセットを用いてLLMの出力分布を探索し、解釈的洞察を得る方法を示す。 GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。 さらに,本データセットは,強力なゼロショットベースラインよりもはるかに優れた性能を実現するGPT-3.5などのLCMの微調整を可能にすることを示す。 我々の研究は、OpenSubtitles corpusに基づく英語スラングの総合的な評価と高品質なベンチマークを提供し、一般に公開されているリソースと、非公式な言語処理にツールを適用するためのプラットフォームとして機能する。

Recent advancement in large language models (LLMs) has offered a strong potential for natural language systems to process informal language. A representative form of informal language is slang, used commonly in daily conversations and online social media. To date, slang has not been comprehensively evaluated in LLMs due partly to the absence of a carefully designed and publicly accessible benchmark. Using movie subtitles, we construct a dataset that supports evaluation on a diverse set of tasks pertaining to automatic processing of slang. For both evaluation and finetuning, we show the effectiveness of our dataset on two core applications: 1) slang detection, and 2) identification of regional and historical sources of slang from natural sentences. We also show how our dataset can be used to probe the output distributions of LLMs for interpretive insights. We find that while LLMs such as GPT-4 achieve good performance in a zero-shot setting, smaller BERT-like models finetuned on our dataset achieve comparable performance. Furthermore, we show that our dataset enables finetuning of LLMs such as GPT-3.5 that achieve substantially better performance than strong zero-shot baselines. Our work offers a comprehensive evaluation and a high-quality benchmark on English slang based on the OpenSubtitles corpus, serving both as a publicly accessible resource and a platform for applying tools for informal language processing.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# 閉ループ学習における生成モデルの熱死

Heat Death of Generative Models in Closed-Loop Learning ( http://arxiv.org/abs/2404.02325v1 )

ライセンス: Link先を確認
Matteo Marchi, Stefano Soatto, Pratik Chaudhari, Paulo Tabuada, (参考訳) テキスト用LLM(Large Language Models)や画像生成用拡散モデルの普及により、生成機械学習モデルの改善と採用が急速に加速し、生成モデルが普及するにつれて、それらの生成したデータは公開ウェブを通じて共有コンテンツに組み込まれるようになる。 このことは、その後のトレーニングキャンペーンでモデルによって生成されたデータがモデルにフィードバックされたときに何が起こるのかという疑問を提起する。 これは、トレーニングプロセスの安定性に関する問題であり、私たちが「知識」と呼ぶ公開コンテンツの分布が安定しているか、崩壊しているかである。 論文で報告された小規模な実験実験により、この閉ループトレーニングプロセスは縮退しがちであることが示された。 モデルは、望まれるデータ分布の小さなサブセット(モード崩壊と呼ばれる現象)からのみ、ジベリッシュなデータを生成する。 これまでのところ、これらの生成モデルの基礎となる深層ネットワークの複雑さのために、このプロセスに関する理論的理解は限られている。 本研究の目的は、本プロセス(「生成クローズドループ学習」と呼ぶ)について、独自の学習データセットに加えて、独自の生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスを研究することである。 これらのモデルのサンプリングは、"温度"パラメータによって制御できる。 動的システムツールを用いて、各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを漸近的に退化させることを示す。 実際、生成分布は小さな出力セットに崩壊するか、あるいは大きな出力セットに対して一様になる。

Improvement and adoption of generative machine learning models is rapidly accelerating, as exemplified by the popularity of LLMs (Large Language Models) for text, and diffusion models for image generation.As generative models become widespread, data they generate is incorporated into shared content through the public web. This opens the question of what happens when data generated by a model is fed back to the model in subsequent training campaigns. This is a question about the stability of the training process, whether the distribution of publicly accessible content, which we refer to as "knowledge", remains stable or collapses. Small scale empirical experiments reported in the literature show that this closed-loop training process is prone to degenerating. Models may start producing gibberish data, or sample from only a small subset of the desired data distribution (a phenomenon referred to as mode collapse). So far there has been only limited theoretical understanding of this process, in part due to the complexity of the deep networks underlying these generative models. The aim of this paper is to provide insights into this process (that we refer to as "generative closed-loop learning") by studying the learning dynamics of generative models that are fed back their own produced content in addition to their original training dataset. The sampling of many of these models can be controlled via a "temperature" parameter. Using dynamical systems tools, we show that, unless a sufficient amount of external data is introduced at each iteration, any non-trivial temperature leads the model to asymptotically degenerate. In fact, either the generative distribution collapses to a small set of outputs, or becomes uniform over a large set of outputs.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# 大規模言語モデルを用いたドメイン駆動用語抽出の比較検討

Comparative Study of Domain Driven Terms Extraction Using Large Language Models ( http://arxiv.org/abs/2404.02330v1 )

ライセンス: Link先を確認
Sandeep Chataut, Tuyen Do, Bichar Dip Shrestha Gurung, Shiva Aryal, Anup Khanal, Carol Lushbough, Etienne Gnimpieba, (参考訳) キーワードは、人間の理解とテキストデータの機械処理のギャップを埋める上で重要な役割を果たす。 これらは、基礎となるデータのより洞察豊かで詳細なビューを提供する詳細なアノテーションの基礎を形成するため、データ豊か化に不可欠である。 キーワード/ドメイン駆動項抽出は、自然言語処理において重要なタスクであり、情報検索、文書要約、コンテンツ分類を容易にする。 本稿では,Llama2-7B, GPT-3.5, Falcon-7Bの3つの主要言語モデル(LLM)の利用を強調したキーワード抽出手法について述べる。 カスタムPythonパッケージを使ってこれらのLLMをインターフェースし、キーワード抽出を簡単にしました。 Inspec と PubMed のデータセットを用いて,これらのモデルの性能を評価する。 ジャカード類似度指数は、GPT-3.5は0.64(Inspec)、PubMedは0.21(PubMed)、Llama2-7Bは0.40と0.17、Falcon-7Bは0.23と0.12と評価された。 本稿では,LLMのキーワード抽出におけるプロンプトエンジニアリングの役割を概説し,LLMにおける幻覚が結果評価に与える影響について考察する。 また、モデル複雑性、リソース要求、最適化技術など、キーワード抽出にLLMを使用する際の課題にも光を当てている。

Keywords play a crucial role in bridging the gap between human understanding and machine processing of textual data. They are essential to data enrichment because they form the basis for detailed annotations that provide a more insightful and in-depth view of the underlying data. Keyword/domain driven term extraction is a pivotal task in natural language processing, facilitating information retrieval, document summarization, and content categorization. This review focuses on keyword extraction methods, emphasizing the use of three major Large Language Models(LLMs): Llama2-7B, GPT-3.5, and Falcon-7B. We employed a custom Python package to interface with these LLMs, simplifying keyword extraction. Our study, utilizing the Inspec and PubMed datasets, evaluates the performance of these models. The Jaccard similarity index was used for assessment, yielding scores of 0.64 (Inspec) and 0.21 (PubMed) for GPT-3.5, 0.40 and 0.17 for Llama2-7B, and 0.23 and 0.12 for Falcon-7B. This paper underlines the role of prompt engineering in LLMs for better keyword extraction and discusses the impact of hallucination in LLMs on result evaluation. It also sheds light on the challenges in using LLMs for keyword extraction, including model complexity, resource demands, and optimization techniques.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# Multi-BERT:低リソースマルチドメイン適応のためのレバレッジアダプタとプロンプトチューニング

Multi-BERT: Leveraging Adapters and Prompt Tuning for Low-Resource Multi-Domain Adaptation ( http://arxiv.org/abs/2404.02335v1 )

ライセンス: Link先を確認
Parham Abed Azad, Hamid Beigy, (参考訳) テキストのボリュームと多様性の急速な拡大は、マルチドメイン設定において重大な課題を生じさせる。 これらの課題は、ペルシャ名のエンティティ認識(NER)設定でも見ることができる。 従来のアプローチでは、複数のドメインに統一モデルを採用するか、各ドメインに個別モデルを使用するかのいずれかが、しばしば重大な制限を課している。 単一モデルは多種多様なドメインのニュアンスを捉えるのに苦労するが、複数の大きなモデルを利用することでリソースの制約が生じ、各ドメインに対するモデルのトレーニングは事実上非現実的になる。 そこで本研究では,複数のドメイン固有パラメータからなる1つのコアモデルからなる新しいアプローチを提案する。 我々は、プロンプトチューニングやアダプタなどのテクニックと追加レイヤの組み込みを組み合わせることで、特定のドメインのためにトレーニングできるパラメータを追加する。 これにより、モデルは各ドメインの個々のモデルに対してコンパラブルに実行できる。 実験結果から,これらの追加パラメータを用いることで,提案モデルが既存の実用モデルを大幅に上回る結果が得られた。 注目すべきなのは、トレーニングとストレージに1つのインスタンスしか必要としないことだ。 さらに、ペルシャのNER設定に対して、それぞれの適応戦略を分析し、その強み、弱み、最適ハイパーパラメータを規定する。 最後に、未知のテキスト領域を持つシナリオに適した文書ベースのドメイン検出パイプラインを導入し、実世界のアプリケーションにおける本論文の適応性と実用性を向上させる。

The rapid expansion of texts' volume and diversity presents formidable challenges in multi-domain settings. These challenges are also visible in the Persian name entity recognition (NER) settings. Traditional approaches, either employing a unified model for multiple domains or individual models for each domain, frequently pose significant limitations. Single models often struggle to capture the nuances of diverse domains, while utilizing multiple large models can lead to resource constraints, rendering the training of a model for each domain virtually impractical. Therefore, this paper introduces a novel approach composed of one core model with multiple sets of domain-specific parameters. We utilize techniques such as prompt tuning and adapters, combined with the incorporation of additional layers, to add parameters that we can train for the specific domains. This enables the model to perform comparably to individual models for each domain. Experimental results on different formal and informal datasets show that by employing these added parameters, the proposed model significantly surpasses existing practical models in performance. Remarkably, the proposed model requires only one instance for training and storage, yet achieves outstanding results across all domains, even surpassing the state-of-the-art in some. Moreover, we analyze each adaptation strategy, delineating its strengths, weaknesses, and optimal hyper-parameters for the Persian NER settings. Finally, we introduce a document-based domain detection pipeline tailored for scenarios with unknown text domains, enhancing the adaptability and practicality of this paper in real-world applications.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# アノテーションモデリングとスケーリングのためのコーパス考察

Corpus Considerations for Annotator Modeling and Scaling ( http://arxiv.org/abs/2404.02340v1 )

ライセンス: Link先を確認
Olufunke O. Sarumi, Béla Neuendorf, Joan Plepi, Lucie Flek, Jörg Schlötterer, Charles Welch, (参考訳) 自然言語処理研究やアノテーションタスクの最近の傾向は、従来の1つの根拠の真理への依存から、特に主観的なタスクにおける個々の視点への焦点へのパラダイムシフトを裏付けている。 アノテーションタスクが多様性を包含することを意図したシナリオでは、大多数のクラスラベルにのみ依存するモデルは、必然的に貴重なマイノリティの観点を無視します。 この監視は、重要な情報の欠落を招き、より広い文脈で、より大きな生態系内のバランスを乱すリスクを負う可能性がある。 アノテーションモデリングのランドスケープは多様な表現技法で展開されるので、その効果を、ビュー内のデータセットのきめ細かい特徴で調べることが不可欠になる。 本研究では,様々なアノテータモデリング手法を体系的に検討し,その性能を7つのコーパスで比較する。 以上の結果から,一般的に使用されているユーザトークンモデルは,より複雑なモデルよりも一貫して優れていることがわかった。 合成埋め込み手法を導入し,モデルが与えられたデータセットとの整合の関数として最もよく機能する相違点を示す。 本研究は,コーパスの統計値とアノテータのモデリング性能の関係を考察し,コーパス構築とパースペクティビストNLPに関する今後の研究を報告する。

Recent trends in natural language processing research and annotation tasks affirm a paradigm shift from the traditional reliance on a single ground truth to a focus on individual perspectives, particularly in subjective tasks. In scenarios where annotation tasks are meant to encompass diversity, models that solely rely on the majority class labels may inadvertently disregard valuable minority perspectives. This oversight could result in the omission of crucial information and, in a broader context, risk disrupting the balance within larger ecosystems. As the landscape of annotator modeling unfolds with diverse representation techniques, it becomes imperative to investigate their effectiveness with the fine-grained features of the datasets in view. This study systematically explores various annotator modeling techniques and compares their performance across seven corpora. From our findings, we show that the commonly used user token model consistently outperforms more complex models. We introduce a composite embedding approach and show distinct differences in which model performs best as a function of the agreement with a given dataset. Our findings shed light on the relationship between corpus statistics and annotator modeling performance, which informs future work on corpus construction and perspectivist NLP.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# 歌詞類似性知覚の計算解析

A Computational Analysis of Lyric Similarity Perception ( http://arxiv.org/abs/2404.02342v1 )

ライセンス: Link先を確認
Haven Kim, Taketo Akama, (参考訳) ボーカルを含む音楽作品では、歌詞は芸術的な表現に大きく貢献する。 その結果、これまでの研究では、ユーザの好みやパーソナライズされた好みに似た歌詞を推奨するレコメンデーションシステムの概念を導入し、数百万曲の歌詞の発見を支援した。 しかしながら、これらのシステムの多くは、主にこの分野の限られた研究のために、歌詞の類似性に対する人間の認識を完全には考慮していない。 このギャップを埋めるために、人間の知覚と歌詞の類似性をモデル化するための計算手法の比較分析を行った。 以上の結果から,事前学習したBERTモデルからの埋め込み,歌詞が導出される音声,知覚的歌詞の類似性を示す音声成分の類似性に基づく計算モデルが示唆された。 この発見は、歌詞の類似性に関する人間の知覚において、意味的、スタイリスティック、および音声的類似性の重要性を浮き彫りにしている。 我々は,ニューラルネットワーク開発のための擬似ラベルを提供し,客観的評価指標を導入することで,類似性に基づく歌詞推薦システムの開発を促進することを期待する。

In musical compositions that include vocals, lyrics significantly contribute to artistic expression. Consequently, previous studies have introduced the concept of a recommendation system that suggests lyrics similar to a user's favorites or personalized preferences, aiding in the discovery of lyrics among millions of tracks. However, many of these systems do not fully consider human perceptions of lyric similarity, primarily due to limited research in this area. To bridge this gap, we conducted a comparative analysis of computational methods for modeling lyric similarity with human perception. Results indicated that computational models based on similarities between embeddings from pre-trained BERT-based models, the audio from which the lyrics are derived, and phonetic components are indicative of perceptual lyric similarity. This finding underscores the importance of semantic, stylistic, and phonetic similarities in human perception about lyric similarity. We anticipate that our findings will enhance the development of similarity-based lyric recommendation systems by offering pseudo-labels for neural network development and introducing objective evaluation metrics.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# オプション情報とディープラーニングを用いたマルチアセスメントオプションのモデルフリー境界の改善

Improved model-free bounds for multi-asset options using option-implied information and deep learning ( http://arxiv.org/abs/2404.02343v1 )

ライセンス: Link先を確認
Evangelia Dragazi, Shuaiqiang Liu, Antonis Papapantoleon, (参考訳) 我々は、依存の不確かさと依存構造に関する追加情報を組み合わせた設定において、マルチアセストオプションに対するモデルフリー境界の計算を考察する。 より具体的には,マルチアセスメントオプションの既知の価格という形で,限界分布が知られ,部分的な情報が市場に出回っている状況についても検討する。 我々は、この設定における資産価格の基本的な定理と、取引戦略よりもよりトラクタブルな最小化問題において、確率測度よりも最大化問題を変換できる重み付け双対性を提供する。 後者は、ニューラルネットワークを用いたディープラーニング近似と組み合わせたペナライズ手法を用いて解決される。 数値法は高速で、取引された資産の数に関して計算時間は線形にスケールする。 最終的に、様々な追加情報の重要性について検討する。 実証的な証拠は、「関連する」情報、すなわち、ターゲットペイオフと同一の支払い構造を持つデリバティブの価格が、他の情報よりも有用であり、精度と計算効率のトレードオフの観点から優先順位付けされるべきであることを示唆している。

We consider the computation of model-free bounds for multi-asset options in a setting that combines dependence uncertainty with additional information on the dependence structure. More specifically, we consider the setting where the marginal distributions are known and partial information, in the form of known prices for multi-asset options, is also available in the market. We provide a fundamental theorem of asset pricing in this setting, as well as a superhedging duality that allows to transform the maximization problem over probability measures in a more tractable minimization problem over trading strategies. The latter is solved using a penalization approach combined with a deep learning approximation using artificial neural networks. The numerical method is fast and the computational time scales linearly with respect to the number of traded assets. We finally examine the significance of various pieces of additional information. Empirical evidence suggests that "relevant" information, i.e. prices of derivatives with the same payoff structure as the target payoff, are more useful that other information, and should be prioritized in view of the trade-off between accuracy and computational efficiency.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# 限られた露光量を有する組込み計算機システムに対する効果的なマルウェア検出

Effective Malware Detection for Embedded Computing Systems with Limited Exposure ( http://arxiv.org/abs/2404.02344v1 )

ライセンス: Link先を確認
Sreenitha Kasarapu, Sanket Shukla, Rakibul Hassan, Avesta Sasan, Houman Homayoun, Sai Manoj Pudukotai Dinakarrao, (参考訳) 組み込みコンピューティングシステムにとって重要なセキュリティ上の脅威の1つは、悪意のあるソフトウェア、すなわちマルウェアである。 近年,機械学習(ML)がマルウェア検出に広く採用されている。 効率的であるにもかかわらず、既存のテクニックでは、効率的なマルウェア検知器を訓練し、モデル化するために、膨大な数の良心とマルウェアサンプルが必要である。 さらに、このような制約は、効率的なトレーニングに必要な十分なマルウェアサンプルが不足しているため、出現するマルウェアサンプルの検出を制限する。 このような問題に対処するため,我々は,限定的なマルウェアの複数の変異サンプルを生成するコード認識データ生成手法を導入する。 損失最小化は、生成したサンプルが限られたマルウェアを忠実に模倣し、非現実的なサンプルを緩和することを保証する。 このようなマルウェアをトレーニングセットに組み込んで、露出が限られているにもかかわらず、出現するマルウェアを効率的に検出できるモデルを定式化する。 実験により,本手法は,最先端技術により得られた精度よりも約3倍の精度で,限定的なマルウェアの検出において90%の精度が得られることが示された。

One of the pivotal security threats for the embedded computing systems is malicious software a.k.a malware. With efficiency and efficacy, Machine Learning (ML) has been widely adopted for malware detection in recent times. Despite being efficient, the existing techniques require a tremendous number of benign and malware samples for training and modeling an efficient malware detector. Furthermore, such constraints limit the detection of emerging malware samples due to the lack of sufficient malware samples required for efficient training. To address such concerns, we introduce a code-aware data generation technique that generates multiple mutated samples of the limitedly seen malware by the devices. Loss minimization ensures that the generated samples closely mimic the limitedly seen malware and mitigate the impractical samples. Such developed malware is further incorporated into the training set to formulate the model that can efficiently detect the emerging malware despite having limited exposure. The experimental results demonstrates that the proposed technique achieves an accuracy of 90% in detecting limitedly seen malware, which is approximately 3x more than the accuracy attained by state-of-the-art techniques.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# GaitSTR: 連続した2ストリームリファインメントによる歩行認識

GaitSTR: Gait Recognition with Sequential Two-stream Refinement ( http://arxiv.org/abs/2404.02345v1 )

ライセンス: Link先を確認
Wanrong Zheng, Haidong Zhu, Zhaoheng Zheng, Ram Nevatia, (参考訳) 歩行認識は歩行シーケンスに基づいて人物を特定することを目的としており、被験者との協調を必要とせず、遠くから観察できるため、有用な生体情報モダリティとして機能する。 人の歩行シーケンスを表す場合、シルエットと骨格は2つの主要なモダリティである。 シルエットシーケンスは、異なる身体セグメント間で重なり合うときに詳細な部分情報がなく、搬送物や衣服の影響を受けます。 関節と関節を繋ぐ骨からなる骨格は、異なるセグメントに対してより正確な部分情報を提供するが、それらは閉塞や低画質の画像に敏感であり、シーケンス内のフレームワイドの結果に矛盾をもたらす。 本稿では,シルエットとともに歩行認識にスケルトンを2列に表現する手法について検討する。 シルエットと骨格の複合データを融合させることにより、シルエットからの時間的整合性を伴うクロスモーダル補正とともに、グラフ畳み込みの自己補正を通じて、2列の骨格、関節、骨を精製する。 改良された骨格では, 歩行認識モデルの性能が, 付加アノテーションのない最先端手法と比較して, 公共歩行認識データセットのさらなる改善を達成できることを実証した。

Gait recognition aims to identify a person based on their walking sequences, serving as a useful biometric modality as it can be observed from long distances without requiring cooperation from the subject. In representing a person's walking sequence, silhouettes and skeletons are the two primary modalities used. Silhouette sequences lack detailed part information when overlapping occurs between different body segments and are affected by carried objects and clothing. Skeletons, comprising joints and bones connecting the joints, provide more accurate part information for different segments; however, they are sensitive to occlusions and low-quality images, causing inconsistencies in frame-wise results within a sequence. In this paper, we explore the use of a two-stream representation of skeletons for gait recognition, alongside silhouettes. By fusing the combined data of silhouettes and skeletons, we refine the two-stream skeletons, joints, and bones through self-correction in graph convolution, along with cross-modal correction with temporal consistency from silhouettes. We demonstrate that with refined skeletons, the performance of the gait recognition model can achieve further improvement on public gait recognition datasets compared with state-of-the-art methods without extra annotations.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# 各種人工知能を用いた血液検査パラメータに基づくCOVID-19検出

COVID-19 Detection Based on Blood Test Parameters using Various Artificial Intelligence Methods ( http://arxiv.org/abs/2404.02348v1 )

ライセンス: Link先を確認
Kavian Khanjani, Seyed Rasoul Hosseini, Shahrzad Shashaani, Mohammad Teshnehlab, (参考訳) 2019年には、新型コロナウイルスによる新型コロナウイルス感染症SARS-CoV-2(SARS-CoV-2)という新たな課題に直面した。 新型コロナウイルスは世界中で急速に広まり、死亡率が高くなり、医療機関は感染抑制策を講じた。 早期の疾患検出は治療プロセスにおいて不可欠であり、この取り組みを支援するためにコンピュータベースの自動検出システムが開発されている。 これらのシステムは、機械学習、ニューラルネットワーク、ファジィシステム、病気の分類のためのディープラーニングといった人工知能(AI)アプローチに依存していることが多い。 本研究は、自己分類分類器を用いて、さまざまなAI手法を用いて、新型コロナウイルス患者と他者とを区別することを目的とした。 この研究では、血液検査サンプルと放射線画像の2つのデータセットを使用しました。 サンラファエル病院で採取した血液検査の最良の結果は、Ensemble法(ニューラルネットワークと2つの機械学習手法の組み合わせ)を用いて、新型コロナウイルスと非新型コロナウイルスの2種類の個人を含む。 その結果、新型コロナウイルスの診断はコスト効率が高く、他の方法よりも短い時間で結果が得られることがわかった。 提案されたモデルは、使用するデータセットに対して94.09%の精度を達成した。 第2に、X線写真は、正常、ウイルス性肺炎、グラウンドガラスの透明度、COVID-19感染の4つのクラスに分けられた。 これらはセグメンテーションと分類に使用された。 肺葉は画像から抽出され、その後特定のクラスに分類された。 画像データセットで91.1%の精度を達成した。 一般的に、この研究は、新型コロナウイルスの検出と管理におけるAIの可能性を強調し、この分野における継続的な研究と開発の重要性を強調している。

In 2019, the world faced a new challenge: a COVID-19 disease caused by the novel coronavirus, SARS-CoV-2. The virus rapidly spread across the globe, leading to a high rate of mortality, which prompted health organizations to take measures to control its transmission. Early disease detection is crucial in the treatment process, and computer-based automatic detection systems have been developed to aid in this effort. These systems often rely on artificial intelligence (AI) approaches such as machine learning, neural networks, fuzzy systems, and deep learning to classify diseases. This study aimed to differentiate COVID-19 patients from others using self-categorizing classifiers and employing various AI methods. This study used two datasets: the blood test samples and radiography images. The best results for the blood test samples obtained from San Raphael Hospital, which include two classes of individuals, those with COVID-19 and those with non-COVID diseases, were achieved through the use of the Ensemble method (a combination of a neural network and two machines learning methods). The results showed that this approach for COVID-19 diagnosis is cost-effective and provides results in a shorter amount of time than other methods. The proposed model achieved an accuracy of 94.09% on the dataset used. Secondly, the radiographic images were divided into four classes: normal, viral pneumonia, ground glass opacity, and COVID-19 infection. These were used for segmentation and classification. The lung lobes were extracted from the images and then categorized into specific classes. We achieved an accuracy of 91.1% on the image dataset. Generally, this study highlights the potential of AI in detecting and managing COVID-19 and underscores the importance of continued research and development in this field.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# 言語を用いた画像のセマンティック拡張

Semantic Augmentation in Images using Language ( http://arxiv.org/abs/2404.02353v1 )

ライセンス: Link先を確認
Sahiti Yerramilli, Jayant Sravan Tamarapalli, Tanmay Girish Kulkarni, Jonathan Francis, Eric Nyberg, (参考訳) ディープラーニングモデルは信じられないほどデータ不足であり、教師付き学習には非常に大きなラベル付きデータセットが必要です。 その結果、これらのモデルはしばしばオーバーフィットに悩まされ、現実世界の例に一般化する能力に制限される。 近年の拡散モデルの発展により,テキスト入力に基づくフォトリアリスティック画像の生成が可能になった。 そこで本研究では,これらの拡散モデルのトレーニングに使用する大量のデータセットを活用し,既存のデータセットを拡張するために生成された画像を利用する手法を提案する。 本稿では,深層学習モデルの領域外一般化能力を改善するために,効果的なデータ拡張のための様々な戦略について検討する。

Deep Learning models are incredibly data-hungry and require very large labeled datasets for supervised learning. As a consequence, these models often suffer from overfitting, limiting their ability to generalize to real-world examples. Recent advancements in diffusion models have enabled the generation of photorealistic images based on textual inputs. Leveraging the substantial datasets used to train these diffusion models, we propose a technique to utilize generated images to augment existing datasets. This paper explores various strategies for effective data augmentation to improve the out-of-domain generalization capabilities of deep learning models.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# 2つの頭は1つより優れている:複数ドアに対するロバストな防御のためのネストポエ

Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors ( http://arxiv.org/abs/2404.02356v1 )

ライセンス: Link先を確認
Victoria Graf, Qin Liu, Muhao Chen, (参考訳) データ中毒によるバックドア攻撃は、大きな言語モデル(LLM)において望ましくない振る舞いを引き起こす可能性がある。 既存の防御機構では、攻撃者によって1つのタイプのトリガーのみが採用されていると仮定されるが、複数の同時かつ独立したトリガータイプに対する防御は一般的な防御フレームワークを必要とし、比較的探索されていない。 本稿では,複数のトリガタイプに対して同時に防御するための,PoE防衛フレームワーク内でのトリガのみのアンサンブルとして,専門家(MoE)の混在を伴うNested Product of Experts(NPoE)防衛フレームワークを提案する。 NPoEトレーニング中、メインモデルは、バックドアトリガーの特徴を学ぶための、より小さな専門家モデルとのアンサンブルでトレーニングされる。 推論時には、メインモデルのみを使用する。 感情分析、ヘイトスピーチ検出、質問分類タスクによる実験結果から、NPoEは様々なトリガとトリガの混合を効果的に防御することが示された。 NPoEにおけるMoE構造の汎用性のため、このフレームワークは、他の攻撃設定から防御するためにさらに拡張することができる。

Data poisoning backdoor attacks can cause undesirable behaviors in large language models (LLMs), and defending against them is of increasing importance. Existing defense mechanisms often assume that only one type of trigger is adopted by the attacker, while defending against multiple simultaneous and independent trigger types necessitates general defense frameworks and is relatively unexplored. In this paper, we propose Nested Product of Experts(NPoE) defense framework, which involves a mixture of experts (MoE) as a trigger-only ensemble within the PoE defense framework to simultaneously defend against multiple trigger types. During NPoE training, the main model is trained in an ensemble with a mixture of smaller expert models that learn the features of backdoor triggers. At inference time, only the main model is used. Experimental results on sentiment analysis, hate speech detection, and question classification tasks demonstrate that NPoE effectively defends against a variety of triggers both separately and in trigger mixtures. Due to the versatility of the MoE structure in NPoE, this framework can be further expanded to defend against other attack settings
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# グローバルカルタン分解によるKP$問題の解決

Solving the $KP$ problem with the Global Cartan Decomposition ( http://arxiv.org/abs/2404.02358v1 )

ライセンス: Link先を確認
Elija Perrier, Christopher S. Jackson, (参考訳) 幾何学的手法は、量子制御における時間最適ユニタリの合成を含む、様々な量子情報分野における問題の解決に有用である。 特に、最適制御の問題を解くためにカルタン分解(特にラムダ系)を用いることで、ターゲットユニタリが半単純リー群多様体の$G$に属し、リー代数が$\mathfrak{g}=\mathfrak{k} \oplus \mathfrak{p}$分解を認め、時間最適解は$\mathfrak{p}$のジェネレータの分布を介して合成される部分リーマン幾何学によって表される。 本稿では,大域カルタン分解を利用する新しい手法を提案する。 対称空間の$G=KAK$は,目標に対する時間最適ユニタリを生成するために$G/K$で, $-iX \in [\frak{p},\frak{p}] \subset \frak{k}$は$-iH(t) \in \frak{p}$である。 ターゲットユニタリは$U=kac$、$k,c \in K$、$a = e^{i\Theta}$、$\Theta \in \frak{a}$とパラメトリされる。 d\Theta=0$の仮定は、変分法を用いて解析的に解けるような、対応する時間最適ユニタリ制御問題と一致することを示す。 そのような制御問題は、コンパクトな大域リーマン対称空間のホロノミーにどのように対応するかを特定し、そこで局所変換は$\mathfrak{p}$で、局所回転は$[\mathfrak{p},\mathfrak{p}]$で生成される。

Geometric methods have useful application for solving problems in a range of quantum information disciplines, including the synthesis of time-optimal unitaries in quantum control. In particular, the use of Cartan decompositions to solve problems in optimal control, especially lambda systems, has given rise to a range of techniques for solving the so-called $KP$-problem, where target unitaries belong to a semi-simple Lie group manifold $G$ whose Lie algebra admits a $\mathfrak{g}=\mathfrak{k} \oplus \mathfrak{p}$ decomposition and time-optimal solutions are represented by subRiemannian geodesics synthesised via a distribution of generators in $\mathfrak{p}$. In this paper, we propose a new method utilising global Cartan decompositions $G=KAK$ of symmetric spaces $G/K$ for generating time-optimal unitaries for targets $-iX \in [\frak{p},\frak{p}] \subset \frak{k}$ with controls $-iH(t) \in \frak{p}$. Target unitaries are parametrised as $U=kac$ where $k,c \in K$ and $a = e^{i\Theta}$ with $\Theta \in \frak{a}$. We show that the assumption of $d\Theta=0$ equates to the corresponding time-optimal unitary control problem being able to be solved analytically using variational techniques. We identify how such control problems correspond to the holonomies of a compact globally Riemannian symmetric space, where local translations are generated by $\mathfrak{p}$ and local rotations are generated by $[\mathfrak{p},\mathfrak{p}]$.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# マルチモーダルパラダイムに対する属性正規化

Attribution Regularization for Multimodal Paradigms ( http://arxiv.org/abs/2404.02359v1 )

ライセンス: Link先を確認
Sahiti Yerramilli, Jayant Sravan Tamarapalli, Jonathan Francis, Eric Nyberg, (参考訳) マルチモーダル機械学習は、学習と意思決定のプロセスを強化するために、複数のモーダルからの情報を統合する可能性から、近年大きな注目を集めている。 しかし、単一のモデルはよりリッチな情報にアクセスできるにもかかわらず、マルチモーダルモデルより優れていることがよく見られる。 さらに、単一のモダリティの影響はしばしば意思決定プロセスを支配し、最適以下のパフォーマンスをもたらす。 本研究は, 意思決定におけるすべてのモダリティからの情報を効果的に活用することを目的とした, 新たな正規化用語を提案することにより, これらの課題に対処することを目的とする。 このプロジェクトの焦点は、ビデオオーディオ領域にあるが、提案された正規化技術は、複数のモダリティが関与するエンボディAI研究における幅広い応用を約束している。 提案手法は,この正規化項を活用することにより,一様支配の問題を緩和し,マルチモーダル機械学習システムの性能を向上させることを目的としている。 広範囲な実験と評価を通じて,提案手法の有効性と一般化性を評価する。 本研究プロジェクトの成果は,マルチメディア分析,ヒューマンコンピュータインタラクション,具体化AI研究など,多モード機械学習の進歩に大きく貢献する可能性があり,様々な分野への応用を促進する。

Multimodal machine learning has gained significant attention in recent years due to its potential for integrating information from multiple modalities to enhance learning and decision-making processes. However, it is commonly observed that unimodal models outperform multimodal models, despite the latter having access to richer information. Additionally, the influence of a single modality often dominates the decision-making process, resulting in suboptimal performance. This research project aims to address these challenges by proposing a novel regularization term that encourages multimodal models to effectively utilize information from all modalities when making decisions. The focus of this project lies in the video-audio domain, although the proposed regularization technique holds promise for broader applications in embodied AI research, where multiple modalities are involved. By leveraging this regularization term, the proposed approach aims to mitigate the issue of unimodal dominance and improve the performance of multimodal machine learning systems. Through extensive experimentation and evaluation, the effectiveness and generalizability of the proposed technique will be assessed. The findings of this research project have the potential to significantly contribute to the advancement of multimodal machine learning and facilitate its application in various domains, including multimedia analysis, human-computer interaction, and embodied AI research.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# FraGNNet:質量スペクトル予測のための深い確率モデル

FraGNNet: A Deep Probabilistic Model for Mass Spectrum Prediction ( http://arxiv.org/abs/2404.02360v1 )

ライセンス: Link先を確認
Adamo Young, Fei Wang, David Wishart, Bo Wang, Hannes Röst, Russ Greiner, (参考訳) 化合物を質量スペクトルから同定する過程は、複雑な混合物の分析における重要なステップである。 質量スペクトルから化合物への問題(MS2C)の典型的な解決策は、未知のスペクトルと既知のスペクトル-分子対のライブラリとのマッチングである。 複合質量スペクトルモデル(C2MS)は、予測されたスペクトルで実ライブラリを増大させることで、検索率を向上させることができる。 残念ながら、多くの既存のC2MSモデルは予測の解決、スケーラビリティ、解釈可能性の問題に悩まされている。 我々は,C2MS予測のための新しい確率的手法であるFraGNNetを開発し,高分解能スペクトルを効率的に正確に予測する。 FraGNNetは、スペクトルを定義する基盤となるプロセスに関する洞察を提供するために、構造化された潜在空間を使用する。 提案モデルでは,予測誤差の観点から最先端性能を実現し,検索ベースMS2Cのツールとして既存のC2MSモデルを上回っている。

The process of identifying a compound from its mass spectrum is a critical step in the analysis of complex mixtures. Typical solutions for the mass spectrum to compound (MS2C) problem involve matching the unknown spectrum against a library of known spectrum-molecule pairs, an approach that is limited by incomplete library coverage. Compound to mass spectrum (C2MS) models can improve retrieval rates by augmenting real libraries with predicted spectra. Unfortunately, many existing C2MS models suffer from problems with prediction resolution, scalability, or interpretability. We develop a new probabilistic method for C2MS prediction, FraGNNet, that can efficiently and accurately predict high-resolution spectra. FraGNNet uses a structured latent space to provide insight into the underlying processes that define the spectrum. Our model achieves state-of-the-art performance in terms of prediction error, and surpasses existing C2MS models as a tool for retrieval-based MS2C.
翻訳日:2024-04-04 19:09:09 公開日:2024-04-02
# EnergAIze: グリッドエネルギー管理のための多エージェント決定論的政策のグラディエント

EnergAIze: Multi Agent Deep Deterministic Policy Gradient for Vehicle to Grid Energy Management ( http://arxiv.org/abs/2404.02361v1 )

ライセンス: Link先を確認
Tiago Fonseca, Luis Ferreira, Bernardo Cabral, Ricardo Severino, Isabel Praca, (参考訳) 本稿では,再生可能エネルギー源(RES)と電気自動車(EV)の役割の増大について検討する。 持続可能エネルギーの新時代を示す一方で、EV導入率の上昇にともなって、供給と需要のバランスとスムーズなピーク消費の必要性など、複雑な課題も生じている。 これらの課題に対処するには、需要応答(DR)、エネルギーの柔軟性管理、再生可能エネルギーコミュニティ(REC)、より具体的にはEV、V2G(EV-to-Grid)といった革新的なソリューションが必要である。 しかしながら、既存のV2Gアプローチは、現実の適応性、グローバルなREC最適化、柔軟性のあるアセット、スケーラビリティ、ユーザエンゲージメントに欠けることが多い。 このギャップを埋めるために,マルチエージェント強化学習(MARL)エネルギー管理フレームワークであるEnergAIzeを導入する。 EnergAIzeはユーザ中心の多目的エネルギー管理を可能にする。 さらに、分散コンピューティングを通じてデータ保護とオーナシップを設計し、各プロシューマーは自身の住居に直接エネルギー管理最適化ノードを配置することができる。 局所ノードは局所的なエネルギー資産を管理するだけでなく、RECの広い最適化を促進する。 EnergAIzeの有効性は、CityLearnシミュレーションフレームワークを用いたケーススタディにより評価された。 これらのシミュレーションは、EnergAIzeがRECや他のエネルギー資産でV2G技術を実装することの正しさを示すのに役立った。 その結果,RECレベルでのピーク負荷,昇降,炭素排出,電力コストの低減が確認できた。

This paper investigates the increasing roles of Renewable Energy Sources (RES) and Electric Vehicles (EVs). While indicating a new era of sustainable energy, these also introduce complex challenges, including the need to balance supply and demand and smooth peak consumptions amidst rising EV adoption rates. Addressing these challenges requires innovative solutions such as Demand Response (DR), energy flexibility management, Renewable Energy Communities (RECs), and more specifically for EVs, Vehicle-to-Grid (V2G). However, existing V2G approaches often fall short in real-world adaptability, global REC optimization with other flexible assets, scalability, and user engagement. To bridge this gap, this paper introduces EnergAIze, a Multi-Agent Reinforcement Learning (MARL) energy management framework, leveraging the Multi-Agent Deep Deterministic Policy Gradient (MADDPG) algorithm. EnergAIze enables user-centric and multi-objective energy management by allowing each prosumer to select from a range of personal management objectives, thus encouraging engagement. Additionally, it architects' data protection and ownership through decentralized computing, where each prosumer can situate an energy management optimization node directly at their own dwelling. The local node not only manages local energy assets but also fosters REC wide optimization. The efficacy of EnergAIze was evaluated through case studies employing the CityLearn simulation framework. These simulations were instrumental in demonstrating EnergAIze's adeptness at implementing V2G technology within a REC and other energy assets. The results show reduction in peak loads, ramping, carbon emissions, and electricity costs at the REC level while optimizing for individual prosumers objectives.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-02
# 分布シフトを伴うハーフスペースの学習:改良アルゴリズムとSQ下界

Learning Intersections of Halfspaces with Distribution Shift: Improved Algorithms and SQ Lower Bounds ( http://arxiv.org/abs/2404.02364v1 )

ライセンス: Link先を確認
Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan, (参考訳) Klivans, Stavropoulos, Vasilyanの最近の研究は、分散シフトによるテスト可能な学習(TDS学習)の研究を開始した。そこでは、学習者にトレーニング分布からラベル付きサンプルを付与する$\mathcal{D}$、テスト分布からラベル付けされていないサンプルを$\mathcal{D}'$、トレーニングサンプルが対応するテストを通過するたびに$\mathcal{D}'$で低エラーの分類器を出力することを目的としている。 それらのモデルは、$\mathcal{D}'$に仮定されることはないという点で、以前のすべての作業から逸脱する。 代わりに、トレーニングとテストの分布の限界が等しい場合、テストは(高い確率で)受け入れなければならない。 ここでは、ガウスの訓練分布に関するハーフ空間の交叉の基本的なケースに注目し、$k$同質半空間のTDS学習交叉に対する2$(k/\epsilon)^{O(1)}} \mathsf{poly}(d)$-timeアルゴリズムを含む様々な新しい上限を証明している。 ガウスのトレーニング分布は、正と負の両方の例(\epsilon$- Balanced)の少なくとも$\epsilon$分を含むという軽微な仮定の下で作業する。 また、任意のTDS学習問題に対するSQの下界の最初の集合を証明し、(1) 1 つの半空間に対する $\mathsf{poly}(d,1/\epsilon)$-time TDS 学習に$\epsilon$- Balanced 仮定が必要であること、(2) a $d^{\tilde{\Omega}(\log 1/\epsilon)$ 2 つの一般半空間の交叉に対する$$\epsilon$- Balanced 仮定においても$\epsilon$- Balanced 仮定は必要であることを示す。 我々の技術は、TDS学習のツールキットを著しく拡張します。 我々は次元の縮小と被覆を用いて、領域適応文学の重要な指標である離散距離の局所化バージョンを計算するための効率的なアルゴリズムを提供する。

Recent work of Klivans, Stavropoulos, and Vasilyan initiated the study of testable learning with distribution shift (TDS learning), where a learner is given labeled samples from training distribution $\mathcal{D}$, unlabeled samples from test distribution $\mathcal{D}'$, and the goal is to output a classifier with low error on $\mathcal{D}'$ whenever the training samples pass a corresponding test. Their model deviates from all prior work in that no assumptions are made on $\mathcal{D}'$. Instead, the test must accept (with high probability) when the marginals of the training and test distributions are equal. Here we focus on the fundamental case of intersections of halfspaces with respect to Gaussian training distributions and prove a variety of new upper bounds including a $2^{(k/\epsilon)^{O(1)}} \mathsf{poly}(d)$-time algorithm for TDS learning intersections of $k$ homogeneous halfspaces to accuracy $\epsilon$ (prior work achieved $d^{(k/\epsilon)^{O(1)}}$). We work under the mild assumption that the Gaussian training distribution contains at least an $\epsilon$ fraction of both positive and negative examples ($\epsilon$-balanced). We also prove the first set of SQ lower-bounds for any TDS learning problem and show (1) the $\epsilon$-balanced assumption is necessary for $\mathsf{poly}(d,1/\epsilon)$-time TDS learning for a single halfspace and (2) a $d^{\tilde{\Omega}(\log 1/\epsilon)}$ lower bound for the intersection of two general halfspaces, even with the $\epsilon$-balanced assumption. Our techniques significantly expand the toolkit for TDS learning. We use dimension reduction and coverings to give efficient algorithms for computing a localized version of discrepancy distance, a key metric from the domain adaptation literature.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-02
# AIエージェントによる検索フロンティアの強化

Advancing the Search Frontier with AI Agents ( http://arxiv.org/abs/2311.01235v2 )

ライセンス: Link先を確認
Ryen W. White, (参考訳) 情報検索(IR)研究コミュニティにいる私たちの多くが知っているように、検索は解決された問題には程遠い。 何百万人もの人が毎日、検索エンジンのタスクに苦労している。 多くの場合、彼らの苦労は、そのタスクの本質的な複雑さと、そのタスクを完全に理解し、関連する結果を提供するための検索システムの失敗に関係している。 このタスクは、検索を動機付け、検索者がブリッジ/リゾリュートしようとするギャップ/プロブレマ的な状況を作り出し、異なるタスクファセットで作業するときに検索動作を駆動する。 複雑な検索タスクは、初歩的な事実発見や再定義のサポート以上のものを必要とする。 複雑なタスクをサポートする方法の研究には、クエリとWebサイトの提案の生成、検索のパーソナライズとコンテキスト化、時間と空間にまたがる新しい検索エクスペリエンスの開発などが含まれる。 近年の人工人工知能(AI)の出現と、この技術に基づく補助エージェントの到来は、検索者、特に複雑なタスクに携わる人々にさらなる支援を提供する可能性がある。 インテリジェントシステムの設計や検索自体の将来には、これらの進歩から大きな影響がある。 この記事では、2023 ACM SIGIR Conferenceの著者による基調講演に基づいて、これらの問題とAIエージェントが、情報インタラクションと複雑なタスク完了に特に焦点をあてて、検索システム機能のフロンティアをいかに前進させているかを探求する。

As many of us in the information retrieval (IR) research community know and appreciate, search is far from being a solved problem. Millions of people struggle with tasks on search engines every day. Often, their struggles relate to the intrinsic complexity of their task and the failure of search systems to fully understand the task and serve relevant results. The task motivates the search, creating the gap/problematic situation that searchers attempt to bridge/resolve and drives search behavior as they work through different task facets. Complex search tasks require more than support for rudimentary fact finding or re-finding. Research on methods to support complex tasks includes work on generating query and website suggestions, personalizing and contextualizing search, and developing new search experiences, including those that span time and space. The recent emergence of generative artificial intelligence (AI) and the arrival of assistive agents, based on this technology, has the potential to offer further assistance to searchers, especially those engaged in complex tasks. There are profound implications from these advances for the design of intelligent systems and for the future of search itself. This article, based on a keynote by the author at the 2023 ACM SIGIR Conference, explores these issues and how AI agents are advancing the frontier of search system capabilities, with a special focus on information interaction and complex task completion.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-02
# 言語モデル生成における接地ギャップ

Grounding Gaps in Language Model Generations ( http://arxiv.org/abs/2311.09144v2 )

ライセンス: Link先を確認
Omar Shaikh, Kristina Gligorić, Ashna Khetan, Matthias Gerstgrasser, Diyi Yang, Dan Jurafsky, (参考訳) 効果的な会話には共通の根拠が必要です。 しかし、会話中に自然に現れることはない。 話し手と聞き手は、誤解を避けながら共通の基盤を識別し、構築するために協力する。 基礎化を達成するために、人間は、明確化(何を意味するのか)や理解(理解)など、さまざまな対話行為に依存します。 しかし,大きな言語モデル (LLM) が人間の接地を反映したテキストを生成するかどうかは不明である。 この目的のために, 接地行動の集合をキュレートし, 接地の試みを定量化するための対応する指標を提案する。 我々は,LLM世代が接地行動を含み,複数の対話データセットからのターンテイクをシミュレートし,その結果を人間と比較した。 人間に比べて、LLMは会話の基盤を減らした言語を生成し、代わりに、単に共通基盤を想定しているように見えるテキストを生成する。 同定された接地ギャップの根源を理解するため,指導指導と選好最適化の役割について検討し,同時代の選好データに基づく訓練が生成する接地行動の低減につながることを明らかにする。 また、人間とAIの相互作用における会話基盤の研究の必要性も強調する。

Effective conversation requires common ground: a shared understanding between the participants. Common ground, however, does not emerge spontaneously in conversation. Speakers and listeners work together to both identify and construct a shared basis while avoiding misunderstanding. To accomplish grounding, humans rely on a range of dialogue acts, like clarification (What do you mean?) and acknowledgment (I understand.). However, it is unclear whether large language models (LLMs) generate text that reflects human grounding. To this end, we curate a set of grounding acts and propose corresponding metrics that quantify attempted grounding. We study whether LLM generations contain grounding acts, simulating turn-taking from several dialogue datasets and comparing results to humans. We find that -- compared to humans -- LLMs generate language with less conversational grounding, instead generating text that appears to simply presume common ground. To understand the roots of the identified grounding gap, we examine the role of instruction tuning and preference optimization, finding that training on contemporary preference data leads to a reduction in generated grounding acts. Altogether, we highlight the need for more research investigating conversational grounding in human-AI interaction.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-02
# 拡散3次元特徴量(Diff3F) : 意味的特徴量による非テクスチャ形状のデコレーション

Diffusion 3D Features (Diff3F): Decorating Untextured Shapes with Distilled Semantic Features ( http://arxiv.org/abs/2311.17024v2 )

ライセンス: Link先を確認
Niladri Shekhar Dutt, Sanjeev Muralikrishnan, Niloy J. Mitra, (参考訳) 我々は、Diff3Fを単純で堅牢でクラスに依存しない特徴記述子として提示する。 本手法は,画像基礎モデルから入力形状への拡散特性を蒸留する。 具体的には、入力形状を用いて、条件付き画像合成のガイダンスとして深度と正規マップを生成する。 その過程で2次元で(拡散)特徴を生成し、その後、元の表面に持ち上げて集約する。 我々のキーとなる観察は、入力形状のマルチビューレンダリングから得られた条件付き画像生成が矛盾しているとしても、関連する画像特徴は堅牢であり、したがって、ビュー間で直接集約できるということである。 これにより、追加のデータやトレーニングを必要とせずに、入力フォームのセマンティックな特徴が生成される。 我々は、複数のベンチマーク(SHREC'19, SHREC'20, FAUST, TOSCA)で広範な実験を行い、幾何学的ではなく意味論的であり、等尺的および非等尺的な形状のファミリ間の信頼性の高い対応性を示す。 コードはプロジェクトページ(https://diff3f.github.io/)から入手できる。

We present Diff3F as a simple, robust, and class-agnostic feature descriptor that can be computed for untextured input shapes (meshes or point clouds). Our method distills diffusion features from image foundational models onto input shapes. Specifically, we use the input shapes to produce depth and normal maps as guidance for conditional image synthesis. In the process, we produce (diffusion) features in 2D that we subsequently lift and aggregate on the original surface. Our key observation is that even if the conditional image generations obtained from multi-view rendering of the input shapes are inconsistent, the associated image features are robust and, hence, can be directly aggregated across views. This produces semantic features on the input shapes, without requiring additional data or training. We perform extensive experiments on multiple benchmarks (SHREC'19, SHREC'20, FAUST, and TOSCA) and demonstrate that our features, being semantic instead of geometric, produce reliable correspondence across both isometric and non-isometrically related shape families. Code is available via the project page at https://diff3f.github.io/
翻訳日:2024-04-04 16:30:45 公開日:2024-04-02
# データ駆動スペクトル再構成の限界 -光学的解析と緩和-

Limitations of Data-Driven Spectral Reconstruction -- Optics-Aware Analysis and Mitigation ( http://arxiv.org/abs/2401.03835v2 )

ライセンス: Link先を確認
Qiang Fu, Matheus Souza, Eunsue Choi, Suhyun Shin, Seung-Hwan Baek, Wolfgang Heidrich, (参考訳) ハイパースペクトルイメージングは、スペクトルシグネチャを記録することで、材料を識別する能力を持つマシンビジョンシステムに権限を与える。 データ駆動型スペクトル再構成における最近の取り組みは、専用ハードウェアではなく、費用対効果の高いRGBカメラで捉えたRGB画像からスペクトル情報を抽出することを目的としている。 本稿では,RGB画像に符号化された情報の性質と,カメラの光学系における情報依存性に関する基本的制約だけでなく,現在のデータセットとオーバーフィットに関する実用的制限も評価し,そのような手法の性能を体系的に解析する。 その結果、現在のモデルは、例えばノイズレベルやRGBファイルの圧縮において、わずかな変動の下では堅牢ではないことがわかった。 未表現のスペクトルコンテンツをモデル化しなければ、既存のデータセットとそれらに基づいてトレーニングされたモデルは、挑戦的なメタマーカラーに対処する能力に制限される。 この問題を軽減するために,RGB画像へのメタマー情報の符号化を改善するために,メタマーデータ拡張と光学レンズ収差の組合せを活用することを提案する。

Hyperspectral imaging empowers machine vision systems with the distinct capability of identifying materials through recording their spectral signatures. Recent efforts in data-driven spectral reconstruction aim at extracting spectral information from RGB images captured by cost-effective RGB cameras, instead of dedicated hardware. In this paper we systematically analyze the performance of such methods, evaluating both the practical limitations with respect to current datasets and overfitting, as well as fundamental limitations with respect to the nature of the information encoded in the RGB images, and the dependency of this information on the optical system of the camera. We find that, the current models are not robust under slight variations, e.g., in noise level or compression of the RGB file. Without modeling underrepresented spectral content, existing datasets and the models trained on them are limited in their ability to cope with challenging metameric colors. To mitigate this issue, we propose to exploit the combination of metameric data augmentation and optical lens aberrations to improve the encoding of the metameric information into the RGB image, which paves the road towards higher performing spectral imaging and reconstruction approaches.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-02
# 圧縮機をベースとした機械の時系列解析

Time Series Analysis in Compressor-Based Machines: A Survey ( http://arxiv.org/abs/2402.17802v2 )

ライセンス: Link先を確認
Francesca Forbicini, Nicolò Oreste Pinciroli Vago, Piero Fraternali, (参考訳) 産業と住宅の両面では、冷凍機、HVACシステム、ヒートポンプ、冷却機といった圧縮機ベースの機械は、生産と消費者のニーズを満たすのに不可欠である。 センサとIoT接続の拡散は、障害の検出と予測、行動シフトの識別、マシンとそのコンポーネントの運用状態の予測を可能にする監視システムの開発を支援する。 本稿では, FD, FP, Forecasting, CPDなどのタスクに関する最近の研究を, 圧縮機の動作を特徴付ける多変量時系列に適用することを目的とした。 これらのタスクは、ダウンタイムとメンテナンスコストを最小化し、エネルギー効率を向上させることで、機械の効率と寿命を改善する上で重要な役割を果たす。 具体的には、FDは故障を検出し診断し、FPはそのような発生を予測し、マシンの特性変数の将来的な値を予測する。 上記の課題に対するアプローチを特定して分類し、採用したアルゴリズムを比較し、現状のギャップを浮き彫りにし、この分野における最も有望な研究方向性について議論する。

In both industrial and residential contexts, compressor-based machines, such as refrigerators, HVAC systems, heat pumps and chillers, are essential to fulfil production and consumers' needs. The diffusion of sensors and IoT connectivity supports the development of monitoring systems that can detect and predict faults, identify behavioural shifts and forecast the operational status of machines and their components. The focus of this paper is to survey the recent research on such tasks as FD, FP, Forecasting and CPD applied to multivariate time series characterizing the operations of compressor-based machines. These tasks play a critical role in improving the efficiency and longevity of machines by minimizing downtime and maintenance costs and improving the energy efficiency. Specifically, FD detects and diagnoses faults, FP predicts such occurrences, forecasting anticipates the future value of characteristic variables of machines and CPD identifies significant variations in the behaviour of the appliances, such as a change in the working regime. We identify and classify the approaches to the tasks mentioned above, compare the algorithms employed, highlight the gaps in the current status of the art and discuss the most promising future research directions in the field.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-02
# シングルビデオからの物理パラメータ推論のためのニューラルインプシティ表現

Neural Implicit Representations for Physical Parameter Inference from a Single Video ( http://arxiv.org/abs/2204.14030v5 )

ライセンス: Link先を確認
Florian Hofherr, Lukas Koestler, Florian Bernard, Daniel Cremers, (参考訳) ニューラルネットワークは、最近、多様な物理系を分析し、基礎となる力学を識別するために使用されている。 既存の手法は目覚ましい結果を得るが、トレーニングデータに対する強い需要と、配布外データに対する弱い一般化能力によって制限される。 これらの制約を克服するために,視覚的観察から直接識別可能な動的シーン表現を得るために,外観モデルのためのニューラル暗黙表現と物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。 提案したモデルには,いくつかのユニークな利点が組み合わさっている。 (i)大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に、単一のビデオから物理的パラメータを特定できる。 (II)ニューラル暗示表現を用いることで,高解像度映像の処理と写真リアル画像の合成が可能となる。 三 埋め込みニューラルODEは、解釈可能な物理的パラメータの識別を可能にする既知のパラメトリック形式を有する。 (4)状態空間における長期予測。 (v)さらに、物理パラメータを修飾した新しいシーンの写実的レンダリングが可能となる。

Neural networks have recently been used to analyze diverse physical systems and to identify the underlying dynamics. While existing methods achieve impressive results, they are limited by their strong demand for training data and their weak generalization abilities to out-of-distribution data. To overcome these limitations, in this work we propose to combine neural implicit representations for appearance modeling with neural ordinary differential equations (ODEs) for modelling physical phenomena to obtain a dynamic scene representation that can be identified directly from visual observations. Our proposed model combines several unique advantages: (i) Contrary to existing approaches that require large training datasets, we are able to identify physical parameters from only a single video. (ii) The use of neural implicit representations enables the processing of high-resolution videos and the synthesis of photo-realistic images. (iii) The embedded neural ODE has a known parametric form that allows for the identification of interpretable physical parameters, and (iv) long-term prediction in state space. (v) Furthermore, the photo-realistic rendering of novel scenes with modified physical parameters becomes possible.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-02
# ニューラルデータ・テキスト生成のイノベーション:サーベイ

Innovations in Neural Data-to-text Generation: A Survey ( http://arxiv.org/abs/2207.12571v3 )

ライセンス: Link先を確認
Mandar Sharma, Ajay Gogineni, Naren Ramakrishnan, (参考訳) 過去10年間に自然言語処理(NLP)研究を引き起こした神経ブームは、同様に、データ・テキスト生成(DTG)に大きな革新をもたらした。 このサーベイは、アプローチ、ベンチマークデータセット、評価プロトコルの構造化された検証によって、ニューラルDTGパラダイムの総合的なビューを提供する。 この調査は、DTGを他の自然言語生成(NLG)ランドスケープから切り離す境界を引き合いに出し、文献の最新の合成を包含し、より大きなNLG傘の内外からの技術的採用のステージを強調した。 このような総合的な視点から、言語学的に有能なシステムの設計だけでなく、公正性と説明責任を示すシステムにも焦点をあてたDTG研究への有望な道のりを強調した。

The neural boom that has sparked natural language processing (NLP) research through the last decade has similarly led to significant innovations in data-to-text generation (DTG). This survey offers a consolidated view into the neural DTG paradigm with a structured examination of the approaches, benchmark datasets, and evaluation protocols. This survey draws boundaries separating DTG from the rest of the natural language generation (NLG) landscape, encompassing an up-to-date synthesis of the literature, and highlighting the stages of technological adoption from within and outside the greater NLG umbrella. With this holistic view, we highlight promising avenues for DTG research that not only focus on the design of linguistically capable systems but also systems that exhibit fairness and accountability.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-02
# PANDA: Prompt Transferは効率的なモデル適応のための知識蒸留と出会う

PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation ( http://arxiv.org/abs/2208.10160v2 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao, (参考訳) Prompt Transfer(PoT)は、ターゲットプロンプトと、同様のソースタスクでトレーニングされた既存のプロンプトを初期化することによって、プロンプトチューニングを改善するための、最近提案されたアプローチである。 しかしながら、そのようなバニラPoTアプローチは、通常、準最適性能を達成する。 i)PoTは、ソースターゲット対の類似性に敏感であり、 (II)ターゲットタスクのソースプロンプトで初期化したプロンプトを直接微調整することで、ソースタスクから学習した有用な汎用知識を忘れてしまう可能性がある。 これらの問題に対処するため,我々は,迅速な転送可能性(無視)を正確に予測する新しい指標を提案する。 (i)及び知識蒸留技術を活用した新しいPoTアプローチ(いわゆるPANDA)により、忘れる知識を効果的に(無視して)軽減する。 (II)。 21のソースと9のターゲットデータセットを5つのスケールで組み合わせた189の大規模かつ体系的な実験は、次のように示している。 1) 提案した指標は, 即時転送可能性の予測に有効である。 2) PANDAは,全てのタスクおよびモデルサイズにおいて,バニラPoTアプローチを2.3%(最大24.1%)上回っている。 3) PANDAアプローチでは,様々な PLM スケールのシナリオにおけるモデルチューニングよりも,プロンプトチューニングの方が競争力があり,パフォーマンスも向上する。 コードをhttps://github.com/WHU-ZQH/PANDA.comで公開しています。

Prompt Transfer (PoT) is a recently-proposed approach to improve prompt-tuning, by initializing the target prompt with the existing prompt trained on similar source tasks. However, such a vanilla PoT approach usually achieves sub-optimal performance, as (i) the PoT is sensitive to the similarity of source-target pair and (ii) directly fine-tuning the prompt initialized with source prompt on target task might lead to forgetting of the useful general knowledge learned from source task. To tackle these issues, we propose a new metric to accurately predict the prompt transferability (regarding (i)), and a novel PoT approach (namely PANDA) that leverages the knowledge distillation technique to alleviate the knowledge forgetting effectively (regarding (ii)). Extensive and systematic experiments on 189 combinations of 21 source and 9 target datasets across 5 scales of PLMs demonstrate that: 1) our proposed metric works well to predict the prompt transferability; 2) our PANDA consistently outperforms the vanilla PoT approach by 2.3% average score (up to 24.1%) among all tasks and model sizes; 3) with our PANDA approach, prompt-tuning can achieve competitive and even better performance than model-tuning in various PLM scales scenarios. We have publicly released our code in https://github.com/WHU-ZQH/PANDA.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-02
# ベイジアン・フロア・フィールド:環境にまたがる人の流れ予測の伝達

Bayesian Floor Field: Transferring people flow predictions across environments ( http://arxiv.org/abs/2208.10851v2 )

ライセンス: Link先を確認
Francesco Verdoja, Tomasz Piotr Kucner, Ville Kyrki, (参考訳) 人間の動態をマッピングすることはロボットにとって重要なスキルである。 しかし、人動学のモデルを学ぶことは、大量の人が環境に移動する様子を観察する必要がある時間のかかるプロセスである。 さらに、ダイナミックスをマッピングするためのアプローチでは、学習したモデルを環境間で転送することはできない。 しかし、建築幾何学が人々の運動に与える影響は、動態のパターンを予測するために利用することができ、近年の研究では、占有から力学の地図を学習する研究が進められている。 しかし、これまでのところ、軌跡に基づくアプローチと幾何学に基づくアプローチは組み合わせられていない。 本研究では,環境形状に関する知識と人体軌道からの観測を組み合わせ,人体力学を学習するための新しいベイズ的アプローチを提案する。 歩行者の観察を必要とせずに初期遷移モデルを構築するために、被占領者に基づくディープ・フォワードが使用され、ベイズ推定を用いて観測が利用可能になったときにモデルが更新される。 データ効率の向上と,ダイナミックスマップとしては前例のない大規模環境をまたいだ一般化を実現するための,我々のモデルの有効性を実証する。

Mapping people dynamics is a crucial skill for robots, because it enables them to coexist in human-inhabited environments. However, learning a model of people dynamics is a time consuming process which requires observation of large amount of people moving in an environment. Moreover, approaches for mapping dynamics are unable to transfer the learned models across environments: each model is only able to describe the dynamics of the environment it has been built in. However, the impact of architectural geometry on people's movement can be used to anticipate their patterns of dynamics, and recent work has looked into learning maps of dynamics from occupancy. So far however, approaches based on trajectories and those based on geometry have not been combined. In this work we propose a novel Bayesian approach to learn people dynamics able to combine knowledge about the environment geometry with observations from human trajectories. An occupancy-based deep prior is used to build an initial transition model without requiring any observations of pedestrian; the model is then updated when observations become available using Bayesian inference. We demonstrate the ability of our model to increase data efficiency and to generalize across real large-scale environments, which is unprecedented for maps of dynamics.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# 多変量時系列予測のための時間条件変分オートエンコーダによる分布ドリフト適応

Distributional Drift Adaptation with Temporal Conditional Variational Autoencoder for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2209.00654v4 )

ライセンス: Link先を確認
Hui He, Qi Zhang, Kun Yi, Kaize Shi, Zhendong Niu, Longbing Cao, (参考訳) 非定常的な性質のため、実世界の多変量時系列(MTS)の分布は時間とともに変化し、分布ドリフトとして知られる。 既存のMSS予測モデルのほとんどは、分布のドリフトに悩まされ、時間とともに予測性能が低下する。 既存の方法では、最新の到着データへの適応や、将来のデータから派生したメタ知識による自己修正によって、分布のドリフトに対処する。 MTS予測において大きな成功を収めたにもかかわらず、これらの手法は本質的な分布変化、特に分布の観点からはほとんど捉えられていない。 そこで本研究では,過去の観測データとMSSの将来のデータとの時間的依存性をモデル化し,その依存性を時間的条件分布として推定し,潜時変数を活用するための新しいフレームワークTCVAEを提案する。 具体的には、新しい時間的ホークス注意機構は、後続のフィードフォワードネットワークに供給される時間的要因を表現し、潜伏変数のガウス分布を推定する。 時間的因子の表現は、ゲートアテンション機構を利用してトランスフォーマーベースのエンコーダとデコーダの構造を分散変化に動的に調整する。 さらに,時間的条件分布のフレキシブルな推論を容易にするために,前ガウス分布を複雑かつ自由な分布に変換するための条件付き連続正規化フローを導入する。 6つの実世界のMSSデータセットで実施された大規模な実験は、TCVAEが最先端のMSS予測ベースラインよりも優れた堅牢性と有効性を示している。 さらに、実世界のシナリオにおける多面的ケーススタディと可視化を通して、TCVAEの適用性について説明する。

Due to the non-stationary nature, the distribution of real-world multivariate time series (MTS) changes over time, which is known as distribution drift. Most existing MTS forecasting models greatly suffer from distribution drift and degrade the forecasting performance over time. Existing methods address distribution drift via adapting to the latest arrived data or self-correcting per the meta knowledge derived from future data. Despite their great success in MTS forecasting, these methods hardly capture the intrinsic distribution changes, especially from a distributional perspective. Accordingly, we propose a novel framework temporal conditional variational autoencoder (TCVAE) to model the dynamic distributional dependencies over time between historical observations and future data in MTSs and infer the dependencies as a temporal conditional distribution to leverage latent variables. Specifically, a novel temporal Hawkes attention mechanism represents temporal factors subsequently fed into feed-forward networks to estimate the prior Gaussian distribution of latent variables. The representation of temporal factors further dynamically adjusts the structures of Transformer-based encoder and decoder to distribution changes by leveraging a gated attention mechanism. Moreover, we introduce conditional continuous normalization flow to transform the prior Gaussian to a complex and form-free distribution to facilitate flexible inference of the temporal conditional distribution. Extensive experiments conducted on six real-world MTS datasets demonstrate the TCVAE's superior robustness and effectiveness over the state-of-the-art MTS forecasting baselines. We further illustrate the TCVAE applicability through multifaceted case studies and visualization in real-world scenarios.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# 事前知識ゼロのファクト音声検出

Faked Speech Detection with Zero Prior Knowledge ( http://arxiv.org/abs/2209.12573v6 )

ライセンス: Link先を確認
Sahar Al Ajmi, Khizar Hayat, Alaa M. Al Obaidi, Naresh Kumar, Munaf Najmuldeen, Baptiste Magnier, (参考訳) オーディオは人間のコミュニケーションの最もよく使われる方法の1つだが、同時に、人を騙すために簡単に誤用することができる。 AIの革命によって、関連する技術はほとんどの人がアクセスできるようになり、犯罪者が犯罪や偽造を犯すのが簡単になった。 本研究では,入力音声を実または模倣音として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。 本稿では,3層を隠蔽し,重層と落層を交互に交互に配置したシーケンシャルモデルに基づくディープニューラルネットワークを提案する。 提案モデルでは,大規模なオーディオデータセットから抽出した26の重要な特徴のセットに基づいて,異なるオーディオから同じ特徴のセットでテストされた分類器を学習した。 データは2つの生のデータセットから抽出され、特にこの作業のために作られた。全英データセットと混合データセット(アラビア語+英語)である(データセットは、最初の著者にメールを書くことで、生の形式で提供される)。 比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。 その結果,ヒト検体では85%の精度で,少なくとも94%の正確な検体分類が得られたため,有意な精度が得られた。

Audio is one of the most used ways of human communication, but at the same time it can be easily misused to trick people. With the revolution of AI, the related technologies are now accessible to almost everyone, thus making it simple for the criminals to commit crimes and forgeries. In this work, we introduce a neural network method to develop a classifier that will blindly classify an input audio as real or mimicked; the word 'blindly' refers to the ability to detect mimicked audio without references or real sources. We propose a deep neural network following a sequential model that comprises three hidden layers, with alternating dense and drop out layers. The proposed model was trained on a set of 26 important features extracted from a large dataset of audios to get a classifier that was tested on the same set of features from different audios. The data was extracted from two raw datasets, especially composed for this work; an all English dataset and a mixed dataset (Arabic plus English) (The dataset can be provided, in raw form, by writing an email to the first author). For the purpose of comparison, the audios were also classified through human inspection with the subjects being the native speakers. The ensued results were interesting and exhibited formidable accuracy, as we were able to get at least 94% correct classification of the test cases, as against the 85% accuracy in the case of human observers.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# GIDN:高効率リンク予測のための軽量グラフ開始拡散ネットワーク

GIDN: A Lightweight Graph Inception Diffusion Network for High-efficient Link Prediction ( http://arxiv.org/abs/2210.01301v3 )

ライセンス: Link先を確認
Zixiao Wang, Yuluo Guo, Jin Zhao, Yu Zhang, Hui Yu, Xiaofei Liao, Biao Wang, Ting Yu, (参考訳) 本稿では,グラフインセプション拡散ネットワーク(GIDN)モデルを提案する。 このモデルは、異なる特徴空間におけるグラフ拡散を一般化し、複雑なネットワーク構造に起因する大量の計算を避けるために開始モジュールを使用する。 我々は,Open Graph Benchmark(OGB)データセット上のGIDNモデルを評価し,ogbl-collabデータセット上のAGDNよりも11%高い性能を示した。

In this paper, we propose a Graph Inception Diffusion Networks(GIDN) model. This model generalizes graph diffusion in different feature spaces, and uses the inception module to avoid the large amount of computations caused by complex network structures. We evaluate GIDN model on Open Graph Benchmark(OGB) datasets, reached an 11% higher performance than AGDN on ogbl-collab dataset.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# 2次元量子コンピュータベンチマークのためのAb-initiotree-tensor-networkデジタルツイン

Ab-initio tree-tensor-network digital twin for quantum computer benchmarking in 2D ( http://arxiv.org/abs/2210.03763v2 )

ライセンス: Link先を確認
Daniel Jaschke, Alice Pagano, Sebastian Weber, Simone Montangero, (参考訳) デジタルツインであるNISQ(Noisy Intermediate Scale Quantum)コンピュータのハミルトン力学の大規模数値シミュレーションは、特定のハードウェアに量子アルゴリズムをチューニングするための効率的でスケーラブルな戦略を開発する上で大きな役割を果たす可能性がある。 Rydberg原子量子コンピュータの2次元テンソルネットワークディジタル双対を用いて,そのようなプログラムの実現可能性を示す。 特に、リドベルク原子間のファンデルワールス相互作用によって引き起こされるゲートクロストークの効果を定量化する:8$\times$8デジタルツインシミュレーションによれば、5ビット反復符号の初期状態は、フォールトトレラント量子コンピューティングとの互換性を示す最初の指標である高い忠実度で作成することができる。 64ビットのグリーンバーガー・ホーネ・ザイリンガー状態(GHZ)を約700個のゲートで調製すると、クローズドシステムでは99.9\%のフィリティが得られ、並列化により35\%のスピードアップが達成される。

Large-scale numerical simulations of the Hamiltonian dynamics of a Noisy Intermediate Scale Quantum (NISQ) computer - a digital twin - could play a major role in developing efficient and scalable strategies for tuning quantum algorithms for specific hardware. Via a two-dimensional tensor network digital twin of a Rydberg atom quantum computer, we demonstrate the feasibility of such a program. In particular, we quantify the effects of gate crosstalks induced by the van der Waals interaction between Rydberg atoms: according to an 8$\times$8 digital twin simulation based on the current state-of-the-art experimental setups, the initial state of a five-qubit repetition code can be prepared with a high fidelity, a first indicator for a compatibility with fault-tolerant quantum computing. The preparation of a 64-qubit Greenberger-Horne-Zeilinger (GHZ) state with about 700~gates yields a $99.9\%$ fidelity in a closed system while achieving a speedup of $35\%$ via parallelization.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# 機械学習による重六角形QECCのための効率的なシンドロームデコーダ

Efficient Syndrome Decoder for Heavy Hexagonal QECC via Machine Learning ( http://arxiv.org/abs/2210.09730v2 )

ライセンス: Link先を確認
Debasmita Bhoumik, Ritajit Majumdar, Dhiraj Madan, Dhinakaran Vinayagamurthy, Shesha Raghunathan, Susmita Sur-Kolay, (参考訳) ヘキサゴナルコードや表面コードなどのトポロジカルコードに対するエラーシンドロームは、一般にMWPM(Minimum Weight Perfect Matching)ベースの手法を用いてデコードされている。 近年の進歩は、トポロジカルコードは機械学習(ML)技術、特にニューラルネットワークをデプロイすることで、効率的に復号化できることを示している。 本研究では,まずヘキサゴナルコードのためのMLベースのデコーダを提案し,様々なノイズモデルに対してしきい値と擬似閾値の値を用いてその効率性を確立する。 提案手法は,MWPM よりも高閾値の$\sim5 \times$を実現できることを示す。 次に、サブシステム符号の特性を利用して、重六角形符号に対するゲージ等価性を定義し、2つの異なる誤差を同一のエラークラスに分類する。 等価なエラークラスを決定するために線形探索法を提案する。 これにより、ビットフリップと位相フリップの両方で考慮すべきエラークラス数が2次削減され、基本的なMLデコーダのしきい値である$\sim 14\%がさらに改善される。 最後に、同等のエラークラスを決定するランクに基づく新しいテクニックを紹介し、線形探索に基づく手法よりも経験的に高速である。

Error syndromes for heavy hexagonal code and other topological codes such as surface code have typically been decoded by using Minimum Weight Perfect Matching (MWPM) based methods. Recent advances have shown that topological codes can be efficiently decoded by deploying machine learning (ML) techniques, in particular with neural networks. In this work, we first propose an ML based decoder for heavy hexagonal code and establish its efficiency in terms of the values of threshold and pseudo-threshold, for various noise models. We show that the proposed ML based decoding method achieves $\sim5 \times$ higher values of threshold than that for MWPM. Next, exploiting the property of subsystem codes, we define gauge equivalence for heavy hexagonal code, by which two distinct errors can belong to the same error class. A linear search based method is proposed for determining the equivalent error classes. This provides a quadratic reduction in the number of error classes to be considered for both bit flip and phase flip errors, and thus a further improvement of $\sim 14\%$ in the threshold over the basic ML decoder. Lastly, a novel technique based on rank to determine the equivalent error classes is presented, which is empirically faster than the one based on linear search.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# 1クラス分類器による類似テストの学習

Learning The Likelihood Test With One-Class Classifiers ( http://arxiv.org/abs/2210.12494v3 )

ライセンス: Link先を確認
Francesco Ardizzon, Stefano Tomasin, (参考訳) 2つの代替確率密度関数 (pdfs) P0 と P1 からランダムに生成される観測を考えると、pdf がどの観測を発生させたかを決定する問題を考える。 決定技法を設計するために、我々はP0を知っているか、あるいはそこから生成されたサンプルの集合を持っていると仮定する。 このようなシナリオは、例えばセキュリティのコンテキストにおいて、攻撃者の動作が正統なユーザに対して完全に未知である場合に発生する。 P0 pdf が知られているとき、我々は可能性テスト (LT) を用いるが、その分布を持つサンプルの集合が利用可能であれば、一級分類 (OCC) を利用する。 我々は、LTとして動作するOCCモデルを学習する問題に焦点をあて、正のクラスデータセットの領域に均一に分散したサンプルを生成し、正のクラスデータセットに対して人工データセットを用いて2クラス分類器として適切に訓練された多層パーセプトロンニューラルネットワーク(NN)と1クラス最小二乗支援ベクトルマシン(OCLSSVM)モデルでこれが起こることを示す。 人工データセットはトレーニングにのみ使用され、OCCは異なるpdfから生成された負のクラスサンプルに使用される。 また,人工データセットを必要とせずにOCCをLTとして動作させるアルゴリズムを改良した確率勾配降下法(SGD)を導出する。 さらに、適切なカーネルを持つOCLSSVMが収束時にLTとして動作することを示す。 最後に、広く使われているオートエンコーダ(AE)分類器が一般にLTを提供していないことを証明する。

Given an observation randomly generated from two alternative probability density functions (pdfs) P0 and P1, we consider the problem of deciding which pdf generated the observation. To design the decision technique we assume that we either know P0 or have a set of samples generated from it; the P1 pdf is instead completely unknown. Such a scenario arises, for example, in security contexts, where the attacker's behavior is completely unknown to the legitimate users. When the P0 pdf is known, we resort to the likelihood test (LT), while when a set of samples with its distribution is available, we resort to one-class classification (OCC). We focus on the problem of learning OCC models that operate as the LT. We show this occurs for the multilayer perceptron neural network (NN) and the one-class least-squares support vector machine (OCLSSVM) models properly trained as two-class classifiers using an artificial dataset for the negative class, obtained by generating samples uniformly distributed over the domain of the positive class dataset. The artificial dataset is used only for training, while the OCC is used on negative-class samples generated from a different pdf. We also derive a modified stochastic gradient descent (SGD) algorithm that provides OCC operating as LT without the need for the artificial dataset. Furthermore, we show that the OCLSSVM with suitable kernels operates as the LT at convergence. Lastly, we prove that the widely used autoencoder (AE) classifier generally does not provide the LT.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# MAgNET:メッシュベースのシミュレーションのためのグラフU-Netアーキテクチャ

MAgNET: A Graph U-Net Architecture for Mesh-Based Simulations ( http://arxiv.org/abs/2211.00713v3 )

ライセンス: Link先を確認
Saurabh Deshpande, Stéphane P. A. Bordas, Jakub Lengiewicz, (参考訳) 多くの最先端アプリケーションでは、高忠実度計算モデルは実用には遅すぎることが証明され、従ってより高速なサロゲートモデルに置き換えられる。 近年,このような予測を加速するために深層学習技術がますます活用されている。 大規模で複雑なデータの学習を可能にするため、畳み込みニューラルネットワークやグラフニューラルネットワークなど、特定のニューラルネットワークアーキテクチャが開発された。 本研究では,MAgNETと呼ばれる新しいエンコーダ・デコーダ幾何学的深層学習フレームワークを提案する。 MAgNETは、革新的なマルチチャネルアグリゲーション(MAg)層とグラフプーリング/アンプール層で構成され、畳み込みU-Netに類似したグラフU-Netアーキテクチャを形成する。 固体の力学における非線形有限要素シミュレーションのサロゲートモデリングにおけるMAgNETの予測能力を示す。

In many cutting-edge applications, high-fidelity computational models prove to be too slow for practical use and are therefore replaced by much faster surrogate models. Recently, deep learning techniques have increasingly been utilized to accelerate such predictions. To enable learning on large-dimensional and complex data, specific neural network architectures have been developed, including convolutional and graph neural networks. In this work, we present a novel encoder-decoder geometric deep learning framework called MAgNET, which extends the well-known convolutional neural networks to accommodate arbitrary graph-structured data. MAgNET consists of innovative Multichannel Aggregation (MAg) layers and graph pooling/unpooling layers, forming a graph U-Net architecture that is analogous to convolutional U-Nets. We demonstrate the predictive capabilities of MAgNET in surrogate modeling for non-linear finite element simulations in the mechanics of solids.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-02
# 特徴保存マニフォールド近似と投影による解釈可能な次元化

Interpretable Dimensionality Reduction by Feature Preserving Manifold Approximation and Projection ( http://arxiv.org/abs/2211.09321v2 )

ライセンス: Link先を確認
Yang Yang, Hongjian Sun, Jialei Gong, Di Yu, (参考訳) 非線形次元の減少は、低次元埋め込み空間における音源特徴の欠如による解釈可能性に欠ける。 そこで本研究では,タンジェント空間埋め込みによるソース特徴の保存のための解釈可能なdeadMAPを提案する。 提案手法の中核は局所特異値分解(SVD)を用いて、アライメントを維持することにより、低次元空間に埋め込まれた接空間を近似することである。 埋め込み接点空間に基づいて、deadMAPは、ソースの特徴と特徴の重要性を局所的に示すことによって、解釈可能性を実現する。 さらに、deactMAPは、局所的な類似性と元の密度を維持するために、異方性投射によってデータポイントを埋め込む。 我々は、桁分類、オブジェクト検出、MNIST対逆例の解釈にdeadMAPを適用した。 FeatMAPは、ソース機能を使用して、数字とオブジェクトを明確に区別し、敵の例の誤分類を説明する。 また,局所的および大域的メトリクスに関する他の最先端手法との比較を行った。

Nonlinear dimensionality reduction lacks interpretability due to the absence of source features in low-dimensional embedding space. We propose an interpretable method featMAP to preserve source features by tangent space embedding. The core of our proposal is to utilize local singular value decomposition (SVD) to approximate the tangent space which is embedded to low-dimensional space by maintaining the alignment. Based on the embedding tangent space, featMAP enables the interpretability by locally demonstrating the source features and feature importance. Furthermore, featMAP embeds the data points by anisotropic projection to preserve the local similarity and original density. We apply featMAP to interpreting digit classification, object detection and MNIST adversarial examples. FeatMAP uses source features to explicitly distinguish the digits and objects and to explain the misclassification of adversarial examples. We also compare featMAP with other state-of-the-art methods on local and global metrics.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-02
# 信頼性の高い半教師付き学習におけるコントラストの信頼性向上

Contrastive Credibility Propagation for Reliable Semi-Supervised Learning ( http://arxiv.org/abs/2211.09929v4 )

ライセンス: Link先を確認
Brody Kutt, Pralay Ramteke, Xavier Mignot, Pamela Toman, Nandini Ramanan, Sujit Rokka Chhetri, Shan Huang, Min Du, William Hewlett, (参考訳) ラベルなしデータのラベルの作成はエラーを起こし、半教師付き学習(SSL)が厄介になる。 しばしば、いつ、なぜアルゴリズムが教師付きベースラインを上回ることに失敗したのかは、ほとんど分かっていない。 ベンチマークデータセットを使用して、ラベル付きおよびラベルなしセットで、少ないラベル、オープンセット、ノイズの多いラベル、クラス分散の不均衡/ミスアライメントの5つの一般的な実世界のSSLデータシナリオを作成します。 本稿では,CCP (Contrastive Credibility Propagation) と呼ばれる新しいアルゴリズムを提案する。 CCPは、教師付きベースラインをデータシナリオで確実に上回るために、半教師付き学習とノイズの多いラベル学習を統一する。 シナリオのサブセットにフォーカスする以前の方法と比較して、CCPはすべてのシナリオにおいて教師付きベースラインを独自に上回り、ラベル付きデータやラベルなしデータの質が不明な場合の実践者を支援する。

Producing labels for unlabeled data is error-prone, making semi-supervised learning (SSL) troublesome. Often, little is known about when and why an algorithm fails to outperform a supervised baseline. Using benchmark datasets, we craft five common real-world SSL data scenarios: few-label, open-set, noisy-label, and class distribution imbalance/misalignment in the labeled and unlabeled sets. We propose a novel algorithm called Contrastive Credibility Propagation (CCP) for deep SSL via iterative transductive pseudo-label refinement. CCP unifies semi-supervised learning and noisy label learning for the goal of reliably outperforming a supervised baseline in any data scenario. Compared to prior methods which focus on a subset of scenarios, CCP uniquely outperforms the supervised baseline in all scenarios, supporting practitioners when the qualities of labeled or unlabeled data are unknown.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-02
# 現実的な単一光子源実装によるデバイス独立量子鍵分布

Device Independent Quantum Key Distribution with realistic single-photon source implementations ( http://arxiv.org/abs/2211.16472v2 )

ライセンス: Link先を確認
Eva M. González-Ruiz, Javier Rivera-Dean, Marina F. B. Cenni, Anders S. Sørensen, Antonio Acín, Enky Oudot, (参考訳) Device Independent Quantum Key Distribution (DIKQD) は、デバイスを信頼せずに、遠隔者間で秘密鍵を生成することを目的としている。 本研究では, 単光子源に基づくフルフォトニックDIQKDの提案と, 両者の間に位置する中央駅におけるシーディング測定について検討する。 単一光子源の光子効率,不明瞭性,および2次自己相関関数の観点から,非ゼロ秘密鍵レートを得る条件を導出する。 このようなプロトコルのセキュリティバウンダリに関する新たな結果の公開により、セットアップの物理パラメータに関する要件を削減できます。 我々の分析は、考慮されたスキームでは、数百ビット/秒の秘密ビットの鍵レートが、数十kmの距離に到達していることを示している。

Device Independent Quantum Key Distribution (DIKQD) aims at generating secret keys between distant parties without the parties trusting their devices. We investigate a proposal for performing fully photonic DIQKD, based on single-photon sources and heralding measurements at a central station placed between the two parties. We derive conditions to attain non-zero secret-key rates in terms of the the photon efficiency, indistinguishability and the second order autocorrelation function of the single-photon sources. Exploiting new results on the security bound of such protocols allows us to reduce the requirements on the physical parameters of the setup. Our analysis shows that in the considered schemes, key rates of several hundreds of secret bits per second are within reach at distances of several tens of kilometers.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-02
# ヒルベルト・スペース・リダクションからの絡み合い諸島

Entanglement Islands from Hilbert Space Reduction ( http://arxiv.org/abs/2211.17004v5 )

ライセンス: Link先を確認
Debarshi Basu, Qiang Wen, Shangjie Zhou, (参考訳) 本稿では,純粋に量子情報の観点から量子系の絡み合う島を生成する機構を提案する。 より明確に言えば、ヒルベルト空間の特定の状態を射影して量子系に一定の制約を課すと、縮小ヒルベルト空間に残されているすべての状態に対して、その状態が別の部分集合 $\mathcal{R}_a$ の状態にエンコードされる部分集合 $I_a$ が存在することを示せる。 このとき、部分集合 $\{I_a\}$ は対応する部分集合 $\{\mathcal{R}_a\}$ の絡み合う島である。 このようなシステムを自己符号化と呼び、そのようなシステムの絡み合いエントロピーは、新しい島式によって計算されるべきであることを示す。 重力理論における新たな島式と島式の比較を行った。 本稿では,この文脈におけるAdS/BCFT対応と島相のシミュレーションを,特殊ワイル変換を用いたホログラフィックCFT$2$を用いて提案する。

In this paper we propose a mechanism to generate entanglement islands in quantum systems from a purely quantum information perspective. More explicitly we show that, if we impose certain constraints on a quantum system by projecting out certain states in the Hilbert space, it is possible that for all the states remaining in the reduced Hilbert space, there exits subsets $I_a$ whose states are encoded in the states of another subset $\mathcal{R}_a$. Then the subsets $\{I_a\}$ are just the entanglement islands of the corresponding subsets $\{\mathcal{R}_a\}$. We call such a system self-encoded, and find that the entanglement entropy in such systems should be calculated by a new island formula. We give a comparison between our new island formula and island formula in gravitational theories. Inspired by our mechanism, we propose a simulation of the AdS/BCFT correspondence and the island phases in this context via a holographic CFT$_2$ with a special Weyl transformation.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-02
# 65nm 8b-Activation 8b-Weight SRAM-based Charge-Domain Computing-in-Memory Macro using a Fully-Parallel Analog Adder Network and a Single-ADC Interface

A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface ( http://arxiv.org/abs/2212.04320v2 )

ライセンス: Link先を確認
Guodong Yin, Mufeng Zhou, Yiming Chen, Wenjun Tang, Zekun Yang, Mingyen Lee, Xirui Du, Jinshan Yue, Jiaxin Liu, Huazhong Yang, Yongpan Liu, Xueqing Li, (参考訳) von Neumannアーキテクチャでデータ集約的なタスクを実行することは、メモリ壁のボトルネックのため、高性能と電力効率の両方を達成するのが困難である。 CiM(Computer-in-Memory)は、周辺インタフェースとデータパスのサポートにより、メモリ内のMAC(in-situ multiply-accumulate)操作を並列に行えるようにする、有望な緩和手法である。 SRAMベースのチャージドメインCiM(CD-CiM)は、電力効率と計算精度を向上する可能性を示している。 しかし、既存のSRAMベースのCD-CiMは、高性能なマルチビット量子化アプリケーションのスループット要件を満たすためのスケーリングの課題に直面している。 本稿では,SRAMを用いた高スループットReLU最適化CD-CiMマクロを提案する。 1つのCiMサイクルで2つの符号付き8bベクトルのMACとReLUを1つのA/D変換で完了させることができる。 アナログ計算とA/D変換インタフェースの非線形補正に加えて、51.2GOPSスループットと10.3TOPS/Wエネルギー効率を実現し、CIFAR-10データセットの88.6%の精度を示した。

Performing data-intensive tasks in the von Neumann architecture is challenging to achieve both high performance and power efficiency due to the memory wall bottleneck. Computing-in-memory (CiM) is a promising mitigation approach by enabling parallel in-situ multiply-accumulate (MAC) operations within the memory with support from the peripheral interface and datapath. SRAM-based charge-domain CiM (CD-CiM) has shown its potential of enhanced power efficiency and computing accuracy. However, existing SRAM-based CD-CiM faces scaling challenges to meet the throughput requirement of high-performance multi-bit-quantization applications. This paper presents an SRAM-based high-throughput ReLU-optimized CD-CiM macro. It is capable of completing MAC and ReLU of two signed 8b vectors in one CiM cycle with only one A/D conversion. Along with non-linearity compensation for the analog computing and A/D conversion interfaces, this work achieves 51.2GOPS throughput and 10.3TOPS/W energy efficiency, while showing 88.6% accuracy in the CIFAR-10 dataset.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-02
# 連続的動的デカップリングによる原子四重項上の量子操作を保護する時間依存性Rabi周波数

Time-dependent Rabi frequencies to protect quantum operations on an atomic qutrit by continuous dynamical decoupling ( http://arxiv.org/abs/2212.07545v2 )

ライセンス: Link先を確認
Adonai Hilário da Silva, Reginaldo de Jesus Napolitano, Felipe Fernandes Fanchini, Bruno Bellomo, (参考訳) 本研究では, 外部磁場を環境騒音から連続的に切り離すことにより, 原子クォート上の量子ゲートの作用を保護できるプロシージャに係わる時間依存ラビ周波数の形状について検討する。 いくつかのシミュレーションは、ランダムに選択されたものを含む量子ゲートモデルの作用を保護すると考えられている。 我々は現在,Rabi周波数の要件を実験的に満たすことができると論じている。 また、1つのゲート操作から別のゲート操作への移行についても検討し、クォートメモリ状態の保護についても検討する。 最終的に,3要素の置換のパリティを識別できるアルゴリズムの適用をノイズから保護するために,我々の手法を適用した。

We investigate the form required for the time-dependent Rabi frequencies involved in a procedure capable to protect the action of quantum gates on an atomic qutrit by means of external fields continuously decoupling the system from the environmental noise. Several simulations are considered to protect the action of quantum-gate models, including randomly chosen ones. We argue that the requirements for the Rabi frequencies could be nowadays experimentally met. We also investigate the transition from one gate operation to another, including protecting a qutrit memory state. We finally apply our methodology to protect from noise the application of an algorithm capable of distinguishing the parity of permutations of three elements.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-02
# BRAIxDet:不完全アノテーションによる悪性乳癌の検出学習

BRAIxDet: Learning to Detect Malignant Breast Lesion with Incomplete Annotations ( http://arxiv.org/abs/2301.13418v4 )

ライセンス: Link先を確認
Yuanhong Chen, Yuyuan Liu, Chong Wang, Michael Elliott, Chun Fung Kwok, Carlos Pena-Solorzano, Yu Tian, Fengbei Liu, Helen Frazer, Davis J. McCarthy, Gustavo Carneiro, (参考訳) マンモグラムのスクリーニングから悪性病変を検出する方法は、通常、完全な注釈付きデータセットで訓練され、画像はがん病変の局所化と分類でラベル付けされる。 しかし、実世界の検診マンモグラムデータセットには、完全に注釈付けされたサブセットと、グローバルな分類(つまり、病変の局所化なしで)で弱い注釈付けされたサブセットがあるのが一般的である。 このようなデータセットの大きさを考えると、研究者は通常、弱い注釈付きのサブセットでジレンマに直面します。 第1の選択肢は、データセット全体を使用せず、第2の選択肢は、専門家の放射線学者がアノテーションを実行する必要があるため、コストがかかりすぎるため、検出精度が低下する。 本稿では,不完全アノテーションを用いた悪性胸部病変検出と称される弱弱・半教師付き学習問題としてトレーニングを定式化する,ジレンマの中間的解決法を提案する。 この問題に対処するため,本手法は2つの段階,すなわち2つの段階から構成される。 1)データセット全体の監督が弱いマルチビューマンモグラム分類器の事前学習 2) 訓練された分類器を、セミ教師付き学生-教師学習で訓練されたマルチビュー検出器に拡張し、トレーニングセットは、完全かつ弱注釈のマンモグラムを含む。 不完全アノテーションを含む2つの実世界の検診用マンモグラフィーデータセットの広範な検出結果を提供し,本手法が悪性乳癌の診断に有用であることを示す。

Methods to detect malignant lesions from screening mammograms are usually trained with fully annotated datasets, where images are labelled with the localisation and classification of cancerous lesions. However, real-world screening mammogram datasets commonly have a subset that is fully annotated and another subset that is weakly annotated with just the global classification (i.e., without lesion localisation). Given the large size of such datasets, researchers usually face a dilemma with the weakly annotated subset: to not use it or to fully annotate it. The first option will reduce detection accuracy because it does not use the whole dataset, and the second option is too expensive given that the annotation needs to be done by expert radiologists. In this paper, we propose a middle-ground solution for the dilemma, which is to formulate the training as a weakly- and semi-supervised learning problem that we refer to as malignant breast lesion detection with incomplete annotations. To address this problem, our new method comprises two stages, namely: 1) pre-training a multi-view mammogram classifier with weak supervision from the whole dataset, and 2) extending the trained classifier to become a multi-view detector that is trained with semi-supervised student-teacher learning, where the training set contains fully and weakly-annotated mammograms. We provide extensive detection results on two real-world screening mammogram datasets containing incomplete annotations, and show that our proposed approach achieves state-of-the-art results in the detection of malignant breast lesions with incomplete annotations.
翻訳日:2024-04-04 14:01:35 公開日:2024-04-02
# 野生におけるジェネレーティブAI:展望、挑戦、戦略

Generative AI in the Wild: Prospects, Challenges, and Strategies ( http://arxiv.org/abs/2302.10827v2 )

ライセンス: Link先を確認
Yuan Sun, Eunchae Jang, Fenglong Ma, Ting Wang, (参考訳) 斬新で魅力的なコンテンツを生成する素晴らしい能力によって、生成人工知能(GenAI)技術は多くの産業で伝統的なワークフローを破壊している。 これまでの研究では、GenAIをテクノ中心の視点で検討してきたが、実際のシナリオにおいて、ユーザーがGenAIをどのように認識し、利用するかについては、まだ理解されていない。 このギャップを埋めるため,本研究では,総合的なLUA(Learning, Use and Assessing)の枠組みの中で,(N=18)GenAI利用者の創造的産業への半構造化インタビューを行い,人間-GenAI共同創造プロセスについて検討した。 展望-GenAIは、人間の専門知識とGenAI能力の共創を大いに促進し、創造的なワークフローを根本的に変革します。 本研究は,今後のGenAIツールの設計における重要な意味を明らかにする。

Propelled by their remarkable capabilities to generate novel and engaging content, Generative Artificial Intelligence (GenAI) technologies are disrupting traditional workflows in many industries. While prior research has examined GenAI from a techno-centric perspective, there is still a lack of understanding about how users perceive and utilize GenAI in real-world scenarios. To bridge this gap, we conducted semi-structured interviews with (N=18) GenAI users increative industries, investigating the human-GenAI co-creation process within a holistic LUA (Learning, Using and Assessing)framework. Our study uncovered an intriguingly complex landscape: Prospects-GenAI greatly fosters the co-creation between human expertise and GenAI capabilities, profoundly transforming creative workflows; Challenges-Meanwhile, users face substantial uncertainties and complexities arising from resource availability, tool usability, and regulatory compliance; Strategies-In response, users actively devise various strategies to overcome many of such challenges. Our study reveals key implications for the design of future GenAI tools.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-02
# 入力の簡易化による量子クエリの複雑さの向上

Improved Quantum Query Complexity on Easier Inputs ( http://arxiv.org/abs/2303.00217v3 )

ライセンス: Link先を確認
Noel T. Anderson, Jay-U Chung, Shelby Kimmel, Da-Yeon Koh, Xiaohan Ye, (参考訳) 関数評価のための量子スパンプログラムアルゴリズムは、入力が一定の構造を持つことを約束すると、クエリの複雑さを減少させることがある。 本研究では,これらの改良を事前の約束なしに継続することを示す改良型スパンプログラムアルゴリズムを設計し,より一般的な状態変換問題にアプローチを拡張した。 応用として、モンタナロの検索・ウィズ・アドベンチャー(Montanaro, TQC 2010)を一般化し、いくつかの探索問題に対する平均クエリ複雑性における指数的および超ポリノミカル量子上の優位性を証明した。

Quantum span program algorithms for function evaluation sometimes have reduced query complexity when promised that the input has a certain structure. We design a modified span program algorithm to show these improvements persist even without a promise ahead of time, and we extend this approach to the more general problem of state conversion. As an application, we prove exponential and superpolynomial quantum advantages in average query complexity for several search problems, generalizing Montanaro's Search with Advice [Montanaro, TQC 2010].
翻訳日:2024-04-04 14:01:34 公開日:2024-04-02
# 異方性ガウス過程を用いた車両軌道からの交通状態推定

Traffic State Estimation from Vehicle Trajectories with Anisotropic Gaussian Processes ( http://arxiv.org/abs/2303.02311v2 )

ライセンス: Link先を確認
Fan Wu, Zhanhong Cheng, Huiyu Chen, Tony Z. Qiu, Lijun Sun, (参考訳) 道路交通状況の正確なモニタリングは、走行時間予測、交通制御、交通安全など、様々なアプリケーションに欠かせない。 しかし、センサの欠如は、しばしば不完全なトラフィック状態データをもたらすため、意思決定のための信頼できる情報を得るのが困難である。 本稿では,ガウス過程(GP)を用いたトラヒック状態データを計算し,この問題に対処する新しい手法を提案する。 本稿では,標準等方性GPカーネルを異方性カーネルに変換するカーネル回転再パラメータ化方式を提案する。 モデルパラメータはスパースプローブ車両やループ検出器のデータを用いて統計的推測によって推定することができる。 さらに、回転GP法は、インプットされたトラフィック状態に対する統計的不確実性定量化を提供し、信頼性を高めている。 また、複数のレーンの交通状態を同時に推定できるマルチアウトプットGPへのアプローチも拡張しています。 我々は,NGSIM(Next Generation Simulation)とHighD(HighD)による実世界の交通データと,交通ボトルネックのシナリオを表すシミュレーションデータを用いて,本手法の評価を行った。 連結車両(CV)と人間駆動車両(HV)の現在および将来的な混合交通を考慮した交通状態推定(TSE)方式を5%から50%まで実験し,混合交通環境における異なるCV浸透率を模倣した。 また,ループ検出器から交通流情報を得た場合の交通状態推定についても検討する。 その結果, 各種CV透過率, 検出器の種類にまたがるTSE法の適応性を実証し, 観察率の低いシナリオにおいて, 最先端の精度を達成できた。

Accurately monitoring road traffic state is crucial for various applications, including travel time prediction, traffic control, and traffic safety. However, the lack of sensors often results in incomplete traffic state data, making it challenging to obtain reliable information for decision-making. This paper proposes a novel method for imputing traffic state data using Gaussian processes (GP) to address this issue. We propose a kernel rotation re-parametrization scheme that transforms a standard isotropic GP kernel into an anisotropic kernel, which can better model the congestion propagation in traffic flow data. The model parameters can be estimated by statistical inference using data from sparse probe vehicles or loop detectors. Moreover, the rotated GP method provides statistical uncertainty quantification for the imputed traffic state, making it more reliable. We also extend our approach to a multi-output GP, which allows for simultaneously estimating the traffic state for multiple lanes. We evaluate our method using real-world traffic data from the Next Generation simulation (NGSIM) and HighD programs, along with simulated data representing a traffic bottleneck scenario. Considering current and future mixed traffic of connected vehicles (CVs) and human-driven vehicles (HVs), we experiment with the traffic state estimation (TSE) scheme from 5% to 50% available trajectories, mimicking different CV penetration rates in a mixed traffic environment. We also test the traffic state estimation when traffic flow information is obtained from loop detectors. The results demonstrate the adaptability of our TSE method across different CV penetration rates and types of detectors, achieving state-of-the-art accuracy in scenarios with sparse observation rates.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-02
# 異常検出のための生涯学習 : 新しい課題,展望,展望

Lifelong Continual Learning for Anomaly Detection: New Challenges, Perspectives, and Insights ( http://arxiv.org/abs/2303.07557v2 )

ライセンス: Link先を確認
Kamil Faber, Roberto Corizzo, Bartlomiej Sniezynski, Nathalie Japkowicz, (参考訳) 異常検出は、多くの現実世界領域において最重要であり、進化する振る舞いを特徴とする。 機械学習モデルは、過去の知識を維持しながら、動的環境における新しい課題に継続的に適応する。 しかし、生涯にわたる異常検出のための基盤の構築に限られた努力が注がれており、より広範に検討された分類設定と比較して本質的に異なる課題を提供している。 本稿では,生涯にわたる異常検出を探索し,動機づけ,議論することでこの問題に直面する。 まず,生涯学習の複雑さに対処する異常検出手法を設計するための課題と機会を定義する。 第2に,既存のデータセットを用いた生涯異常検出実験が可能な学習環境とシナリオ生成手順を特徴付ける。 第3に,生涯学習の導入によって得られるパフォーマンスのギャップを強調することを目的として,提案した生涯シナリオに対する一般的な異常検出手法を用いた実験を行った。 全体として,環境を包括的に把握し,同時に適応と知識の保持を図り,より堅牢なモデルを構築するためには,生涯的異常検出の導入が重要であると結論付けている。

Anomaly detection is of paramount importance in many real-world domains, characterized by evolving behavior. Lifelong learning represents an emerging trend, answering the need for machine learning models that continuously adapt to new challenges in dynamic environments while retaining past knowledge. However, limited efforts are dedicated to building foundations for lifelong anomaly detection, which provides intrinsically different challenges compared to the more widely explored classification setting. In this paper, we face this issue by exploring, motivating, and discussing lifelong anomaly detection, trying to build foundations for its wider adoption. First, we explain why lifelong anomaly detection is relevant, defining challenges and opportunities to design anomaly detection methods that deal with lifelong learning complexities. Second, we characterize learning settings and a scenario generation procedure that enables researchers to experiment with lifelong anomaly detection using existing datasets. Third, we perform experiments with popular anomaly detection methods on proposed lifelong scenarios, emphasizing the gap in performance that could be gained with the adoption of lifelong learning. Overall, we conclude that the adoption of lifelong anomaly detection is important to design more robust models that provide a comprehensive view of the environment, as well as simultaneous adaptation and knowledge retention.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-02
# 矩形行列セミリング上の修正行列パワー関数に基づくポスト量子キーアグリーメントプロトコル

A Post Quantum Key Agreement Protocol Based on a Modified Matrix Power Function over a Rectangular Matrices Semiring ( http://arxiv.org/abs/2303.11972v5 )

ライセンス: Link先を確認
Juan Pedro Hecht, Hugo Daniel Scolnik, (参考訳) 元の正方形ではなく長方形行列を用いて,Sakalauskas行列パワー関数鍵契約プロトコルの量子後バージョンを改良した。 Sakalauskas行列パワー関数は、共有秘密鍵を生成するための効率的で安全な方法であり、矩形行列を使用することで、さらなる柔軟性とセキュリティを提供する。 この方法は、高いレベルのセキュリティを維持しながら、より小さなランダムな整数行列を許容することにより、計算の複雑さを低減する。 我々は、可換性を達成するために特別な形式を持つ行列に頼るのではなく、それらの構造に対して完全なランダムな値を使い、エントロピーを増大させる。 鍵契約プロトコルよりも長方形行列を使うことのもう1つの利点は、様々な線形化攻撃に対してより優れた保護を提供することである。

We present an improved post-quantum version of Sakalauskas matrix power function key agreement protocol, using rectangular matrices instead of the original square ones. Sakalauskas matrix power function is an efficient and secure way to generate a shared secret key, and using rectangular matrices provides additional flexibility and security. This method reduces the computational complexity by allowing smaller random integer matrices while maintaining a high level of security. We dont rely on matrices with special formatting to achieve commutativity, instead, we use full random values on those structures, increasing their entropy. Another advantage of using rectangular matrices over key agreement protocols is that they offer better protection against various linearization attacks.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# 大規模言語モデルによるオートフォーマライゼーションによるディプロッシュCNLの改良

Improving the Diproche CNL through Autoformalization via Large Language Models ( http://arxiv.org/abs/2303.17513v2 )

ライセンス: Link先を確認
Merlin Carl, (参考訳) Diprocheシステム(ディプロッシュシステム、英: Diproche system)は、ドイツ語の制御された断片で書かれたテキストの自動証明チェッカーである。 システムの最初のバージョンは、Prologの形式化ルーチンが書かれた制御された自然言語を使用していた。 本稿では,Diprocheの文脈において,大規模言語モデルによる自己形式化を促進させる可能性について検討する。

The Diproche system is an automated proof checker for texts written in a controlled fragment of German, designed for didactical applications in classes introducing students to proofs for the first time. The first version of the system used a controlled natural language for which a Prolog formalization routine was written. In this paper, we explore the possibility of prompting large language models for autoformalization in the context of Diproche, with encouraging first results.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# MCMCによるベイズニューラルネットワーク : Pythonベースのチュートリアル

Bayesian neural networks via MCMC: a Python-based tutorial ( http://arxiv.org/abs/2304.02595v2 )

ライセンス: Link先を確認
Rohitash Chandra, Royce Chen, Joshua Simmons, (参考訳) ベイズ推論は、機械学習とディープラーニングの手法におけるパラメータ推定と不確実性定量化のための方法論を提供する。 変分推論とマルコフ連鎖モンテカルロ(MCMC)サンプリング法を用いてベイズ推定を行う。 過去30年間、MCMCサンプリング手法は、大規模なモデル(ディープラーニングなど)やビッグデータ問題に適応する上で、いくつかの課題に直面してきた。 Langevinの提案分布のような勾配を組み込んだ高度な提案分布は、ベイズニューラルネットワークのMCMCサンプリングの制限に対処する手段を提供する。 さらに、MCMC法は統計学者に限られており、現在はディープラーニング研究者の間では知られていない。 本稿では,単純なベイズ線形およびロジスティックモデルとベイズニューラルネットワークをカバーするMCMC手法のチュートリアルを提案する。 このチュートリアルの目的は、この目的を達成するために、ライブラリやチュートリアルが広く散在していることを考えると、コーディングを通じて理論と実装のギャップを埋めることである。 このチュートリアルはPythonのコードに、その使用と拡張を可能にするデータとインストラクションを提供する。 MCMCを用いて各ベイズモデルを実装する際の長所と短所を示すベンチマーク問題について報告する。 ベイズニューラルネットワークの場合,多モード後部分布をサンプリングする際の課題と収束診断法の改善の必要性を強調した。

Bayesian inference provides a methodology for parameter estimation and uncertainty quantification in machine learning and deep learning methods. Variational inference and Markov Chain Monte-Carlo (MCMC) sampling methods are used to implement Bayesian inference. In the past three decades, MCMC sampling methods have faced some challenges in being adapted to larger models (such as in deep learning) and big data problems. Advanced proposal distributions that incorporate gradients, such as a Langevin proposal distribution, provide a means to address some of the limitations of MCMC sampling for Bayesian neural networks. Furthermore, MCMC methods have typically been constrained to statisticians and currently not well-known among deep learning researchers. We present a tutorial for MCMC methods that covers simple Bayesian linear and logistic models, and Bayesian neural networks. The aim of this tutorial is to bridge the gap between theory and implementation via coding, given a general sparsity of libraries and tutorials to this end. This tutorial provides code in Python with data and instructions that enable their use and extension. We provide results for some benchmark problems showing the strengths and weaknesses of implementing the respective Bayesian models via MCMC. We highlight the challenges in sampling multi-modal posterior distributions for the case of Bayesian neural networks and the need for further improvement of convergence diagnosis methods.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# 大規模言語モデルを用いたベギンナーの学生のための(デデ-)形式化と自然な議論演習

Using Large Language Models for (De-)Formalization and Natural Argumentation Exercises for Beginner's Students ( http://arxiv.org/abs/2304.06186v2 )

ライセンス: Link先を確認
Merlin Carl, (参考訳) 現在開発中の2つのシステムについて述べる。 一 自然言語と命題論理及び一階述語論理の言語を前後に翻訳する演習 (ii)非数学的なシナリオで自然言語で簡単な論証を書くための演習。

We describe two systems currently being developed that use large language models for the automatized correction of (i) exercises in translating back and forth between natural language and the languages of propositional logic and first-order predicate logic and (ii) exercises in writing simple arguments in natural language in non-mathematical scenarios.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# MR-Scout:既存のテストケースからの変成関係の自動合成

MR-Scout: Automated Synthesis of Metamorphic Relations from Existing Test Cases ( http://arxiv.org/abs/2304.07548v2 )

ライセンス: Link先を確認
Congying Xu, Valerio Terragni, Hengcheng Zhu, Jiarong Wu, Shing-Chi Cheung, (参考訳) メタモルフィックテスト(MT)は、複数の関連する入力とその出力を管理するメタモルフィック関係(MR)に基づいてオラクルを定義することで、オラクル問題を緩和する。 しかし、MRの設計はドメイン固有の知識を必要とするため、難しい。 開発者が記述したテストケースは、MRを符号化するドメイン知識を埋め込むことができる。このような符号化されたMRは、元のプログラムだけでなく、同様の機能を持つプログラムもテストするために合成することができる。 本稿では,オープンソースソフトウェア(OSS)プロジェクトのテストケースからMRを自動的に合成するMR-Scoutを提案する。 MR-ScoutはまずMR符号化テストケース(MTC)を発見し、次に符号化されたMRをパラメータ化されたメソッド(コーデレートされたMRと呼ばれる)に合成し、新しいテストケース生成における品質の低下を示すMRをフィルタリングする。 MR-Scout は 701 OSS プロジェクトから 11,000 MTC 以上を発見した。 その結果, MR-Scout の実用性を示すため, 97%以上が自動テストケース生成に高品質であることがわかった。 さらに、コード化されたMRベースのテストは、開発者によるテストによるプログラムのテスト精度を効果的に向上させ、それぞれ13.52%と9.42%のラインカバレッジと突然変異スコアが増加した。 我々の質的研究は、コード化されたMRの55.76%から76.92%が開発者にとって容易に理解可能であることを示している。

Metamorphic Testing (MT) alleviates the oracle problem by defining oracles based on metamorphic relations (MRs), that govern multiple related inputs and their outputs. However, designing MRs is challenging, as it requires domain-specific knowledge. This hinders the widespread adoption of MT. We observe that developer-written test cases can embed domain knowledge that encodes MRs. Such encoded MRs could be synthesized for testing not only their original programs but also other programs that share similar functionalities. In this paper, we propose MR-Scout to automatically synthesize MRs from test cases in open-source software (OSS) projects. MR-Scout first discovers MR-encoded test cases (MTCs), and then synthesizes the encoded MRs into parameterized methods (called codified MRs), and filters out MRs that demonstrate poor quality for new test case generation. MR-Scout discovered over 11,000 MTCs from 701 OSS projects. Experimental results show that over 97% of codified MRs are of high quality for automated test case generation, demonstrating the practical applicability of MR-Scout. Furthermore, codified-MRs-based tests effectively enhance the test adequacy of programs with developer-written tests, leading to 13.52% and 9.42% increases in line coverage and mutation score, respectively. Our qualitative study shows that 55.76% to 76.92% of codified MRs are easily comprehensible for developers.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# パラダイムシフト: 大規模言語モデルによる機械翻訳の在り方

A Paradigm Shift: The Future of Machine Translation Lies with Large Language Models ( http://arxiv.org/abs/2305.01181v3 )

ライセンス: Link先を確認
Chenyang Lyu, Zefeng Du, Jitao Xu, Yitao Duan, Minghao Wu, Teresa Lynn, Alham Fikri Aji, Derek F. Wong, Siyou Liu, Longyue Wang, (参考訳) 深層ニューラルネットワークの発展により、機械翻訳(MT)は長年にわたって大きく進歩してきた。 しかし、GPT-4やChatGPTのような大規模言語モデル(LLM)の出現は、MTドメインに新しいフェーズを導入している。 この文脈では、MTの将来はLLMの能力と密接に結びついていると信じている。 本稿では,LLM の影響を受け,今後の MT 研究や実装において重要な役割を担っている MT の大幅な拡張について概説する。 我々は、Long-Document Translation、Stylized Translation、Interactive TranslationなどのシナリオにおけるLLMの利点を強調し、新しいMT方向を強調した。 さらに、LLM駆動MTにおけるプライバシーに関する重要な懸念に対処し、重要なプライバシー保護戦略を提案する。 実例を示すことによって,LLMがもたらすメリット,特に拡張ドキュメントの翻訳などのタスクを実証することを目指している。 我々は,MTの今後の発展を導く上でのLLMのクリティカルな役割を強調し,今後の研究開発のロードマップを提供する。

Machine Translation (MT) has greatly advanced over the years due to the developments in deep neural networks. However, the emergence of Large Language Models (LLMs) like GPT-4 and ChatGPT is introducing a new phase in the MT domain. In this context, we believe that the future of MT is intricately tied to the capabilities of LLMs. These models not only offer vast linguistic understandings but also bring innovative methodologies, such as prompt-based techniques, that have the potential to further elevate MT. In this paper, we provide an overview of the significant enhancements in MT that are influenced by LLMs and advocate for their pivotal role in upcoming MT research and implementations. We highlight several new MT directions, emphasizing the benefits of LLMs in scenarios such as Long-Document Translation, Stylized Translation, and Interactive Translation. Additionally, we address the important concern of privacy in LLM-driven MT and suggest essential privacy-preserving strategies. By showcasing practical instances, we aim to demonstrate the advantages that LLMs offer, particularly in tasks like translating extended documents. We conclude by emphasizing the critical role of LLMs in guiding the future evolution of MT and offer a roadmap for future exploration in the sector.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# ペルソナLLM:大規模言語モデルによるパーソナリティ特性の表現能力の検討

PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits ( http://arxiv.org/abs/2305.02547v5 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Xubo Cao, Cynthia Breazeal, Deb Roy, Jad Kabbara, (参考訳) パーソナライズされたチャットボット作成における大規模言語モデル(LLM)の多くのユースケースにもかかわらず、パーソナライズされたLLMの挙動が特定のパーソナライズ特性を正確に、一貫して反映する程度について、限られた研究がなされている。 我々は, LLMを主体としたエージェントの行動について検討し, GPT-3.5 と GPT-4 を事例として, LLM が割り当てられた個性プロファイルに適合するコンテンツを生成できるかどうかを考察した。 この目的のために、我々は、ビッグファイブのパーソナモデルに基づいて異なるLLMペルソナをシミュレートし、44項目のBig Five Inventory(BFI)パーソナリティテストとストーリーライティングタスクを完了させ、そのエッセイを自動的および人的評価で評価する。 その結果, LLMペルソナの自己申告したBFIスコアは, 5つの特徴にまたがる大きな効果の大きさで, 指定した性格タイプと一致していることがわかった。 加えて、LLMペルソナの著作は、人間の筆記コーパスと比較して、人格の特徴を代表的に表現するパターンが出現する。 さらに、人間の評価は、人間は最大80%の精度で、いくつかの性格特性を知覚できることを示している。 興味深いことに、アノテータがAIのオーサシップに通知されると、精度は大幅に低下する。

Despite the many use cases for large language models (LLMs) in creating personalized chatbots, there has been limited research on evaluating the extent to which the behaviors of personalized LLMs accurately and consistently reflect specific personality traits. We consider studying the behavior of LLM-based agents which we refer to as LLM personas and present a case study with GPT-3.5 and GPT-4 to investigate whether LLMs can generate content that aligns with their assigned personality profiles. To this end, we simulate distinct LLM personas based on the Big Five personality model, have them complete the 44-item Big Five Inventory (BFI) personality test and a story writing task, and then assess their essays with automatic and human evaluations. Results show that LLM personas' self-reported BFI scores are consistent with their designated personality types, with large effect sizes observed across five traits. Additionally, LLM personas' writings have emerging representative linguistic patterns for personality traits when compared with a human writing corpus. Furthermore, human evaluation shows that humans can perceive some personality traits with an accuracy of up to 80%. Interestingly, the accuracy drops significantly when the annotators were informed of AI authorship.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# リモートセンシングにおける視覚言語モデルの現状と将来動向

Vision-Language Models in Remote Sensing: Current Progress and Future Trends ( http://arxiv.org/abs/2305.05726v2 )

ライセンス: Link先を確認
Xiang Li, Congcong Wen, Yuan Hu, Zhenghang Yuan, Xiao Xiang Zhu, (参考訳) ChatGPTとGPT-4の顕著な成果は、人工知能(AGI)の大規模言語モデル分野における関心と研究の波を引き起こしている。 これらのモデルにより、人間の思考に近いインテリジェントなソリューションが提供され、汎用人工知能を使って様々なアプリケーションの問題を解決することができます。 しかしながら、リモートセンシング(RS)では、AGIの実装に関する科学的文献は比較的少ないままである。 リモートセンシングにおける既存のAI関連の研究は、主に視覚的理解タスクに焦点を当て、オブジェクトとその関係のセマンティック理解を無視している。 ここで視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。 視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。 これにより、画像キャプションや視覚的質問応答といった視覚的およびテキスト的理解を必要とするタスクに適している。 本稿では,リモートセンシングにおける視覚言語モデルの研究の総合的なレビュー,最新の進歩の要約,課題の強調,潜在的研究機会の特定について述べる。

The remarkable achievements of ChatGPT and GPT-4 have sparked a wave of interest and research in the field of large language models for Artificial General Intelligence (AGI). These models provide intelligent solutions close to human thinking, enabling us to use general artificial intelligence to solve problems in various applications. However, in remote sensing (RS), the scientific literature on the implementation of AGI remains relatively scant. Existing AI-related research in remote sensing primarily focuses on visual understanding tasks while neglecting the semantic understanding of the objects and their relationships. This is where vision-language models excel, as they enable reasoning about images and their associated textual descriptions, allowing for a deeper understanding of the underlying semantics. Vision-language models can go beyond visual recognition of RS images, model semantic relationships, and generate natural language descriptions of the image. This makes them better suited for tasks requiring visual and textual understanding, such as image captioning, and visual question answering. This paper provides a comprehensive review of the research on vision-language models in remote sensing, summarizing the latest progress, highlighting challenges, and identifying potential research opportunities.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-02
# N-ary FactsのFew-shot Link Prediction

Few-shot Link Prediction on N-ary Facts ( http://arxiv.org/abs/2305.06104v3 )

ライセンス: Link先を確認
Jiyao Wei, Saiping Guan, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng, (参考訳) 主三重項(頭、関係、尾の実体)と副属性-値のペアからなる超関係事実は、現実世界の知識グラフ(KG)に広く存在している。 Link Prediction on Hyper-Relational Facts (LPHFs) は、高関係性事実の欠落要素を予測し、KGの蓄積と濃縮を支援する。 しかしながら、既存のLPHFの研究は通常、高品質なデータを必要とする。 限られたインスタンスを持つ数ショットの関係を見落としているが、現実のシナリオでは一般的である。 そこで我々は,新たなタスクであるFew-Shot Link Prediction on Hyper-Relational Facts (FSLPHFs)を導入する。 サポートインスタンスが限定されたハイパーリレーショナルな事実において、不足するエンティティを予測することを目的としている。 FSLPHFに対処するため,ハイパーリレーショナルな事実からメタリレーショナルな情報を学ぶモデルであるMetaRHを提案する。 MetaRHは、関係学習、サポート固有の調整、クエリ推論の3つのモジュールから構成される。 限られたサポートインスタンスからメタリレーショナル情報をキャプチャすることで、MetaRHはクエリで欠けているエンティティを正確に予測できる。 新しいタスクには既存のデータセットがないため、MetaRHの有効性を検証するために3つのデータセットを構築します。 これらのデータセットに対する実験結果から、MetaRHは既存の代表モデルよりも大幅に優れていることが示された。

Hyper-relational facts, which consist of a primary triple (head entity, relation, tail entity) and auxiliary attribute-value pairs, are widely present in real-world Knowledge Graphs (KGs). Link Prediction on Hyper-relational Facts (LPHFs) is to predict a missing element in a hyper-relational fact, which helps populate and enrich KGs. However, existing LPHFs studies usually require an amount of high-quality data. They overlook few-shot relations, which have limited instances, yet are common in real-world scenarios. Thus, we introduce a new task, Few-Shot Link Prediction on Hyper-relational Facts (FSLPHFs). It aims to predict a missing entity in a hyper-relational fact with limited support instances. To tackle FSLPHFs, we propose MetaRH, a model that learns Meta Relational information in Hyper-relational facts. MetaRH comprises three modules: relation learning, support-specific adjustment, and query inference. By capturing meta relational information from limited support instances, MetaRH can accurately predict the missing entity in a query. As there is no existing dataset available for this new task, we construct three datasets to validate the effectiveness of MetaRH. Experimental results on these datasets demonstrate that MetaRH significantly outperforms existing representative models.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-02
# この土地は『Your, My} Land: Evaluating Geopolitical Biases in Language Models』である

This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language Models ( http://arxiv.org/abs/2305.14610v4 )

ライセンス: Link先を確認
Bryan Li, Samar Haider, Chris Callison-Burch, (参考訳) スプラトリー諸島は中国、フィリピン、ベトナムに属していますか。 事前訓練された大型言語モデル (LLM) は、中国語、タガログ語、ベトナム語など、各主張国の言語で質問された場合、異なる回答をすることができる。 これは多言語的な人間とは対照的であり、その人間は一貫して答える可能性が高い。 本稿では,LLMが異なる言語で質問したときの地理的知識を不整合に思い出す現象として,地政学的偏見という現象を示す。 対象とするケーススタディとして、本質的に議論の的かつ多言語的な課題である領土紛争を考察する。 BorderLinesは251の領域をカバーする領土紛争のデータセットで、各主張国(計49の言語)の言語における複数の選択に関する質問に関連付けられている。 また,様々な言語における応答のバイアスや一貫性を正確に定量化するための評価指標も提案する。 次に、データセットとメトリクスに基づいて様々な多言語LLMを評価し、それらの内部知識を探索し、提案したメトリクスを使用して、これらのモデルが異なる言語でどのように反応するかの多くの矛盾を検出する。 最後に、地政学的バイアスを増幅または緩和することを目的とした、いくつかの迅速な修正戦略について検討する。 私たちのコードとデータはhttps://github.com/manestay/borderlines.comで公開されています。

Do the Spratly Islands belong to China, the Philippines, or Vietnam? A pretrained large language model (LLM) may answer differently if asked in the languages of each claimant country: Chinese, Tagalog, or Vietnamese. This contrasts with a multilingual human, who would likely answer consistently. In this paper, we show that LLMs recall certain geographical knowledge inconsistently when queried in different languages -- a phenomenon we term geopolitical bias. As a targeted case study, we consider territorial disputes, an inherently controversial and multilingual task. We introduce BorderLines, a dataset of territorial disputes which covers 251 territories, each associated with a set of multiple-choice questions in the languages of each claimant country (49 languages in total). We also propose a suite of evaluation metrics to precisely quantify bias and consistency in responses across different languages. We then evaluate various multilingual LLMs on our dataset and metrics to probe their internal knowledge and use the proposed metrics to discover numerous inconsistencies in how these models respond in different languages. Finally, we explore several prompt modification strategies, aiming to either amplify or mitigate geopolitical bias, which highlights how brittle LLMs are and how they tailor their responses depending on cues from the interaction context. Our code and data are available at https://github.com/manestay/borderlines
翻訳日:2024-04-04 13:41:51 公開日:2024-04-02
# ニューラルネットワークはセキュリティ脆弱性の修正にどの程度有効か

How Effective Are Neural Networks for Fixing Security Vulnerabilities ( http://arxiv.org/abs/2305.18607v2 )

ライセンス: Link先を確認
Yi Wu, Nan Jiang, Hung Viet Pham, Thibaud Lutellier, Jordan Davis, Lin Tan, Petr Babkin, Sameena Shah, (参考訳) セキュリティ上の脆弱性の修復は、自動化の難しい作業です。 1)コード補完などのタスクのためにソースコードで事前訓練された大規模コード言語モデル(LLM)と、(2)ディープラーニング(DL)モデルを使用してソフトウェアバグを自動的に修正する自動プログラム修復(APR)技術である。 本稿では LLM と DL ベースの APR モデルの Java 脆弱性修復機能について検討し比較した。 コントリビューションには、(1) 5つのLM(Codex, CodeGen, CodeT5, PLBART, InCoder)、4つの微調整LDM、4つのDLベースのAPRテクニックを実世界のJava脆弱性ベンチマーク(Vul4J, VJBench)に適用し、(2) Codexにオーバーラップするトレーニングとテストデータに対処するための設計コード変換、(3)新しいJava脆弱性修復ベンチマークVJBenchの作成、(4)変換されたバージョンVJBench-transと(4)は、VJBench-transの変換された脆弱性に関するLLMとAPR技術の評価を含む。 その結果,(1)既存の LLM モデルと APR モデルは,Java の脆弱性をほとんど解決していないことがわかった。 Codexは最大の脆弱性である10.2 (20.4%)を修正している。 2) 一般的なAPRデータによる微調整により, LLMの脆弱性修正能力が向上する。 (3) 我々の新しいVJBenchは、LLMとAPRモデルが、CWE-325ミス暗号化ステップやCWE-444HTTPリクエストの密輸など、多くの共通弱列挙型(CWE)の修正に失敗したことを明らかにしている。 (4) Codexは8.3のトランスフォーメーションされた脆弱性をまだ修正し、トランスフォーメーションされた脆弱性に関する他のLLMやAPRモデルよりも優れている。 結果として、より大きな脆弱性修復トレーニングデータを作成し、そのようなデータでLLMをチューニングし、脆弱性修復を容易にするためのコードの単純化変換を適用するなど、Javaの自動脆弱性修正を強化するイノベーションが求められている。

Security vulnerability repair is a difficult task that is in dire need of automation. Two groups of techniques have shown promise: (1) large code language models (LLMs) that have been pre-trained on source code for tasks such as code completion, and (2) automated program repair (APR) techniques that use deep learning (DL) models to automatically fix software bugs. This paper is the first to study and compare Java vulnerability repair capabilities of LLMs and DL-based APR models. The contributions include that we (1) apply and evaluate five LLMs (Codex, CodeGen, CodeT5, PLBART and InCoder), four fine-tuned LLMs, and four DL-based APR techniques on two real-world Java vulnerability benchmarks (Vul4J and VJBench), (2) design code transformations to address the training and test data overlapping threat to Codex, (3) create a new Java vulnerability repair benchmark VJBench, and its transformed version VJBench-trans and (4) evaluate LLMs and APR techniques on the transformed vulnerabilities in VJBench-trans. Our findings include that (1) existing LLMs and APR models fix very few Java vulnerabilities. Codex fixes 10.2 (20.4%), the most number of vulnerabilities. (2) Fine-tuning with general APR data improves LLMs' vulnerability-fixing capabilities. (3) Our new VJBench reveals that LLMs and APR models fail to fix many Common Weakness Enumeration (CWE) types, such as CWE-325 Missing cryptographic step and CWE-444 HTTP request smuggling. (4) Codex still fixes 8.3 transformed vulnerabilities, outperforming all the other LLMs and APR models on transformed vulnerabilities. The results call for innovations to enhance automated Java vulnerability repair such as creating larger vulnerability repair training data, tuning LLMs with such data, and applying code simplification transformation to facilitate vulnerability repair.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-02
# ADDP: 交互拡散過程による画像認識と生成のための一般表現学習

ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process ( http://arxiv.org/abs/2306.05423v2 )

ライセンス: Link先を確認
Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu, Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu, (参考訳) 画像認識と生成は、長い間互いに独立して開発されてきた。 近年の汎用表現学習の動向により、認識タスクと生成タスクの両方のための汎用表現の開発も進められている。 しかし、予備試行は主に生成性能に焦点をあてるが、認識タスクにはまだ劣っている。 これらの手法はベクトル量子化(VQ)空間でモデル化されるが、先行認識法は画素を入力として使用する。 1) 入力としての画素は認識タスクに不可欠であり,(2) 再構成対象としてのVQトークンは生成タスクに有用である。 これら2つの空間を1つの表現学習フレームワークに統合する交互除極拡散プロセス (ADDP) を提案する。 復号化の各ステップでは、まず以前のVQトークンから画素をデコードし、次にデコードされたピクセルから新しいVQトークンを生成する。 拡散過程は徐々にVQトークンの一部を隠蔽してトレーニングサンプルを構築する。 学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用することができる。 実験の結果,非条件生成,イメージネット分類,COCO検出,ADE20kセグメンテーションの競合性能が得られた。 重要なことに,本手法は,生成タスクと高密度認識タスクの両方に適用可能な汎用表現の最初の成功例である。 コードは \url{https://github.com/ChangyaoTian/ADDP} でリリースされる。

Image recognition and generation have long been developed independently of each other. With the recent trend towards general-purpose representation learning, the development of general representations for both recognition and generation tasks is also promoted. However, preliminary attempts mainly focus on generation performance, but are still inferior on recognition tasks. These methods are modeled in the vector-quantized (VQ) space, whereas leading recognition methods use pixels as inputs. Our key insights are twofold: (1) pixels as inputs are crucial for recognition tasks; (2) VQ tokens as reconstruction targets are beneficial for generation tasks. These observations motivate us to propose an Alternating Denoising Diffusion Process (ADDP) that integrates these two spaces within a single representation learning framework. In each denoising step, our method first decodes pixels from previous VQ tokens, then generates new VQ tokens from the decoded pixels. The diffusion process gradually masks out a portion of VQ tokens to construct the training samples. The learned representations can be used to generate diverse high-fidelity images and also demonstrate excellent transfer performance on recognition tasks. Extensive experiments show that our method achieves competitive performance on unconditional generation, ImageNet classification, COCO detection, and ADE20k segmentation. Importantly, our method represents the first successful development of general representations applicable to both generation and dense recognition tasks. Code is released at \url{https://github.com/ChangyaoTian/ADDP}.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-02
# 意味的にプロンプトされた言語モデルによる視覚記述の改善

Semantically-Prompted Language Models Improve Visual Descriptions ( http://arxiv.org/abs/2306.06077v3 )

ライセンス: Link先を確認
Michael Ogezi, Bradley Hauer, Grzegorz Kondrak, (参考訳) CLIPのような言語ビジョンモデルは、ゼロショット画像分類(ZSIC)のような視覚タスクにおいて大きな進歩を遂げている。 しかし、具体的かつ表現的な視覚的記述の生成は依然として困難であり、現在の方法による記述は曖昧であり、粒度が不足していることが多い。 これらの問題に対処するため、我々はV-GLOSS: Visual Glossesを提案する。 1つ目はセマンティック・プロンプティング(Semantic Prompting)である。 2つ目は、類似した概念を微妙に区別する新しいコントラストアルゴリズムである。 両概念とも、V-GLOSSは視覚的記述を改善し、画像Net, STL-10, FGVC Aircraft, Flowers 102などの画像分類データセットのゼロショット設定において、強い結果が得られることを示す。 さらに、これらの記述能力は、画像生成性能の向上に寄与する。 最後に、すべてのImageNetクラスに対して、V-GLOSSで生成された記述を含む品質テストされた銀のデータセットを紹介する。

Language-vision models like CLIP have made significant strides in vision tasks, such as zero-shot image classification (ZSIC). However, generating specific and expressive visual descriptions remains challenging; descriptions produced by current methods are often ambiguous and lacking in granularity. To tackle these issues, we propose V-GLOSS: Visual Glosses, a novel method built upon two key ideas. The first is Semantic Prompting, which conditions a language model on structured semantic knowledge. The second is a new contrastive algorithm that elicits fine-grained distinctions between similar concepts. With both ideas, we demonstrate that V-GLOSS improves visual descriptions and achieves strong results in the zero-shot setting on general and fine-grained image-classification datasets, including ImageNet, STL-10, FGVC Aircraft, and Flowers 102. Moreover, these descriptive capabilities contribute to enhancing image-generation performance. Finally, we introduce a quality-tested silver dataset with descriptions generated with V-GLOSS for all ImageNet classes.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-02
# VidEdit:ゼロショットと空間対応のテキスト駆動ビデオ編集

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing ( http://arxiv.org/abs/2306.08707v4 )

ライセンス: Link先を確認
Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome, (参考訳) 近年,拡散型生成モデルは画像生成・編集において顕著な成功を収めている。 しかし、既存の拡散ベースのビデオ編集アプローチでは、長期的なビデオの時間的一貫性を維持するために生成されたコンテンツを正確に制御する能力が欠如している。 一方, アトラス法は時間的一貫性が強いが, 映像編集に費用がかかるため, 空間的制御が欠如している。 本研究では,時間的・空間的整合性を保証するゼロショットテキストベースのビデオ編集手法であるVidEditを紹介する。 特に,アトラスをベースとした映像表現と事前学習したテキスト・画像拡散モデルを組み合わせることで,時間的滑らかさを設計する訓練不要で効率的な映像編集方法を提供する。 生成したコンテンツに対して正確なユーザ制御を与えるために,本研究では,拡散サンプリングプロセスの導出を行う市販のパノプティクスセグメンタとエッジ検出器から抽出した条件情報を利用する。 この方法は、オリジナルビデオの構造を厳格に保存しつつ、ターゲット領域の空間制御をきめ細かなものにする。 定量的および定性的な実験により、VidEditは、意味的忠実性、画像保存、時間的整合性メトリクスに関して、DAVISデータセット上で最先端の手法より優れていることが示された。 このフレームワークでは、単一のビデオを処理するのに約1分しかかからず、ユニークなテキストプロンプトに基づいて複数の互換性のある編集を生成することができる。 Project Web-page at https://videdit.github.io

Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, existing diffusion-based video editing approaches lack the ability to offer precise control over generated content that maintains temporal consistency in long-term videos. On the other hand, atlas-based methods provide strong temporal consistency but are costly to edit a video and lack spatial control. In this work, we introduce VidEdit, a novel method for zero-shot text-based video editing that guarantees robust temporal and spatial consistency. In particular, we combine an atlas-based video representation with a pre-trained text-to-image diffusion model to provide a training-free and efficient video editing method, which by design fulfills temporal smoothness. To grant precise user control over generated content, we utilize conditional information extracted from off-the-shelf panoptic segmenters and edge detectors which guides the diffusion sampling process. This method ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Our quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# LoSh:ビデオオブジェクトセグメンテーション参照のための長短テキスト共同予測ネットワーク

LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation ( http://arxiv.org/abs/2306.08736v3 )

ライセンス: Link先を確認
Linfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen, (参考訳) ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のテキスト表現によって参照されるターゲットインスタンスをビデオクリップにセグメントすることを目的としている。 テキスト表現は通常、インスタンスの外観、動作、および他者との関係に関する洗練された記述を含む。 したがって、RVOSモデルでは、ビデオ内のすべての属性をキャプチャすることはかなり困難である。 これは、ターゲットインスタンスの部分的または不正なマスク予測に終わる可能性がある。 本稿では,元来の長文表現から主語中心の短文表現を取り出すことにより,この問題に対処する。 ショートは、ターゲットインスタンスの外観関連情報のみを保持するので、モデルがインスタンスの外観に注意を集中するために使用できます。 長文式と短文式の両方を用いて連接予測を行い、連接特徴を相互作用する長短クロスアテンションモジュールと、連接予測を制御する長短クロスアテンション損失を挿入する。 また,前向きの視覚的整合性損失も導入し,アノテートフレームと時間的隣接部との間の視覚的特徴の整合性に光学的流れを利用する。 私たちは2つの最先端パイプラインの上にメソッドを構築します。 A2D-Sentences、Refer-YouTube-VOS、JHMDB-Sentences、Refer-DAVIS17に関する大規模な実験は、我々の手法の素晴らしい改善を示している。

Referring video object segmentation (RVOS) aims to segment the target instance referred by a given text expression in a video clip. The text expression normally contains sophisticated description of the instance's appearance, action, and relation with others. It is therefore rather difficult for a RVOS model to capture all these attributes correspondingly in the video; in fact, the model often favours more on the action- and relation-related visual attributes of the instance. This can end up with partial or even incorrect mask prediction of the target instance. We tackle this problem by taking a subject-centric short text expression from the original long text expression. The short one retains only the appearance-related information of the target instance so that we can use it to focus the model's attention on the instance's appearance. We let the model make joint predictions using both long and short text expressions; and insert a long-short cross-attention module to interact the joint features and a long-short predictions intersection loss to regulate the joint predictions. Besides the improvement on the linguistic part, we also introduce a forward-backward visual consistency loss, which utilizes optical flows to warp visual features between the annotated frames and their temporal neighbors for consistency. We build our method on top of two state of the art pipelines. Extensive experiments on A2D-Sentences, Refer-YouTube-VOS, JHMDB-Sentences and Refer-DAVIS17 show impressive improvements of our method.Code is available at https://github.com/LinfengYuan1997/Losh.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# サンプルベース探索:空間制約付き多重分解能散乱データ近似

Samplet basis pursuit: Multiresolution scattered data approximation with sparsity constraints ( http://arxiv.org/abs/2306.10180v4 )

ライセンス: Link先を確認
Davide Baroli, Helmut Harbrecht, Michael Multerer, (参考訳) 我々は、$\ell_1$-regularization を用いたサンプルト座標における分散データ近似について検討する。 $\ell_1$-regularization 項の応用は、サンプル基底に対する係数の空間性を強制する。 サンプレットはウェーブレット型の署名付き測度であり、散乱データに合わせて調整される。 したがって、サンプルは一般的な散在データセットによく確立されたマルチレゾリューション技術を使用することができる。 それらは、ローカライゼーション、マルチレゾリューション分析、データ圧縮の観点から、ウェーブレットと同じような特性を提供する。 Riesz isometry を用いて、再生成されたカーネルヒルベルト空間にサンプルトを埋め込んで、結果の関数の性質について議論する。 組込みサンプルベースに対してスパースな信号のクラスは、カーネル翻訳の基盤に関してスパースな信号のクラスよりもかなり大きいと論じる。 逆に、少数のカーネル変換の線形結合である全ての信号はサンプル座標においてスパースである。 本研究では,ソフト収縮と半平滑ニュートン法を組み合わせることで,問題の迅速な解法を提案する。 サンプルト座標におけるカーネル行列のスパース表現を利用して、この手法は高速反復収縮しきい値決定アルゴリズムよりも高速に収束し、大規模データにも適用可能である。 数値的なベンチマークを提示し,マルチレゾリューションアプローチが単一スケールアプローチよりも優れていることを示す。 大規模アプリケーションとして,分散データによる表面再構成と,複数のカーネルの辞書を用いた散乱温度データの再構成を検討する。

We consider scattered data approximation in samplet coordinates with $\ell_1$-regularization. The application of an $\ell_1$-regularization term enforces sparsity of the coefficients with respect to the samplet basis. Samplets are wavelet-type signed measures, which are tailored to scattered data. Therefore, samplets enable the use of well-established multiresolution techniques on general scattered data sets. They provide similar properties as wavelets in terms of localization, multiresolution analysis, and data compression. By using the Riesz isometry, we embed samplets into reproducing kernel Hilbert spaces and discuss the properties of the resulting functions. We argue that the class of signals that are sparse with respect to the embedded samplet basis is considerably larger than the class of signals that are sparse with respect to the basis of kernel translates. Vice versa, every signal that is a linear combination of only a few kernel translates is sparse in samplet coordinates. We propose the rapid solution of the problem under consideration by combining soft-shrinkage with the semi-smooth Newton method. Leveraging on the sparse representation of kernel matrices in samplet coordinates, this approach converges faster than the fast iterative shrinkage thresholding algorithm and is feasible for large-scale data. Numerical benchmarks are presented and demonstrate the superiority of the multiresolution approach over the single-scale approach. As large-scale applications, the surface reconstruction from scattered data and the reconstruction of scattered temperature data using a dictionary of multiple kernels are considered.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# 分離拡散モデル:ゼロとゼロの同時画像

Decoupled Diffusion Models: Simultaneous Image to Zero and Zero to Noise ( http://arxiv.org/abs/2306.13720v8 )

ライセンス: Link先を確認
Yuhang Huang, Zheng Qin, Xinwang Liu, Kai Xu, (参考訳) 10機能未満の高画質(未条件)の画像生成のためのデカップリング拡散モデル(DDM)を提案する。 簡単に言うと、DDMは前方画像-ノイズマッピングを \textit{image-to-zero} マッピングと \textit{zero-to-noise} マッピングに分離する。 この枠組みの下では、数学的に導出する 1) 訓練の目的と 2) 逆時間の場合, 画像がゼロ遷移にモデル化される解析的遷移確率に基づくサンプリング式が得られた。 前者は、DDMがノイズと画像成分を同時に学習することができ、学習が簡単になる。 重要なこととして、後者のサンプリング関数の解析性のため、DDMは通常の微分方程式ベースの加速器を回避でき、代わりに任意のステップサイズで自然にサンプリングを行うことができる。 少数の機能評価設定の下では、DDMは最先端技術と比較して非常に競争力のある性能が得られる。 1)未条件画像生成, \textit{e g }, CIFAR-10, CelebA-HQ-256 2)超解像,塩分濃度検出,エッジ検出,画像インパインティングなどの画像条件下での下流作業。

We propose decoupled diffusion models (DDMs) for high-quality (un)conditioned image generation in less than 10 function evaluations. In a nutshell, DDMs decouple the forward image-to-noise mapping into \textit{image-to-zero} mapping and \textit{zero-to-noise} mapping. Under this framework, we mathematically derive 1) the training objectives and 2) for the reverse time the sampling formula based on an analytic transition probability which models image to zero transition. The former enables DDMs to learn noise and image components simultaneously which simplifies learning. Importantly, because of the latter's analyticity in the \textit{zero-to-image} sampling function, DDMs can avoid the ordinary differential equation-based accelerators and instead naturally perform sampling with an arbitrary step size. Under the few function evaluation setups, DDMs experimentally yield very competitive performance compared with the state of the art in 1) unconditioned image generation, \textit{e.g.}, CIFAR-10 and CelebA-HQ-256 and 2) image-conditioned downstream tasks such as super-resolution, saliency detection, edge detection, and image inpainting.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# Sparse, Interpretable, and Efficient Medical Time Series Processingのための学習カーネル

Learned Kernels for Sparse, Interpretable, and Efficient Medical Time Series Processing ( http://arxiv.org/abs/2307.05385v3 )

ライセンス: Link先を確認
Sully F. Chen, Zhicheng Guo, Cheng Ding, Xiao Hu, Cynthia Rudin, (参考訳) 背景: 医療信号の迅速, 信頼性, 正確な解釈は, 高精細な臨床的意思決定に不可欠である。 ディープラーニングの出現は、医療時系列処理において前例のないパフォーマンスを提供する新しいモデルの爆発を可能にしたが、コストがかかる。 方法: 医用時系列処理のための解釈可能なアーキテクチャであるSMoLK(Sparse Mixture of Learned Kernels)を提案する。 この方法は、軽量でフレキシブルなカーネルの集合を学習し、単一層ニューラルネットワークを構築し、解釈可能性だけでなく、効率性と堅牢性も提供する。 本稿では,新たなパラメータ削減手法を導入し,ネットワークのサイズをさらに小さくする。 単心電図(ECG)による光胸腺撮影(PPG)アーティファクト検出と心房細動検出の2つの重要な課題に対して,本アーキテクチャの有効性を実証した。 当社のアプローチは、数桁のパラメータが桁違いに少ない最先端のディープニューラルネットワークと同じようなパフォーマンスを持ち、極めて低消費電力のウェアラブルデバイスでディープニューラルネットワークレベルのパフォーマンスを実現する。 結果:本手法はPSGアーチファクト検出タスクにおける最先端手法の性能の99%以上を達成し,また,極めて少ないパラメータ(セグネードのパラメータの2%,Tiny-PPGのパラメータの約半分)を使用しながら,挑戦的なアウト・オブ・ディストリビューションテストセットにおいて最先端手法よりも優れていた。 単誘導心房細動検出では, パラメータ数が1%未満の1次元残差畳み込みネットワークの性能に一致し, パラメータ整合制御深度ネットワークと比較しても低データ方式ではかなり優れた性能を示した。

Background: Rapid, reliable, and accurate interpretation of medical signals is crucial for high-stakes clinical decision-making. The advent of deep learning allowed for an explosion of new models that offered unprecedented performance in medical time series processing but at a cost: deep learning models are often compute-intensive and lack interpretability. Methods: We propose Sparse Mixture of Learned Kernels (SMoLK), an interpretable architecture for medical time series processing. The method learns a set of lightweight flexible kernels to construct a single-layer neural network, providing not only interpretability, but also efficiency and robustness. We introduce novel parameter reduction techniques to further reduce the size of our network. We demonstrate the power of our architecture on two important tasks: photoplethysmography (PPG) artifact detection and atrial fibrillation detection from single-lead electrocardiograms (ECGs). Our approach has performance similar to the state-of-the-art deep neural networks with several orders of magnitude fewer parameters, allowing for deep neural network level performance with extremely low-power wearable devices. Results: Our interpretable method achieves greater than 99% of the performance of the state-of-the-art methods on the PPG artifact detection task, and even outperforms the state-of-the-art on a challenging out-of-distribution test set, while using dramatically fewer parameters (2% of the parameters of Segade, and about half of the parameters of Tiny-PPG). On single lead atrial fibrillation detection, our method matches the performance of a 1D-residual convolutional network, at less than 1% the parameter count, while exhibiting considerably better performance in the low-data regime, even when compared to a parameter-matched control deep network.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# ピア生産プラットフォームにおけるコンテンツギャップ低減のためのレコメンダシステムの活用

Leveraging Recommender Systems to Reduce Content Gaps on Peer Production Platforms ( http://arxiv.org/abs/2307.08669v3 )

ライセンス: Link先を確認
Mo Houtti, Isaac Johnson, Morten Warncke-Wang, Loren Terveen, (参考訳) Wikipediaのようなピアプロダクションプラットフォームは、一般的にコンテンツ格差に悩まされる。 従来の研究では、編集者が表現不足のトピックに導くことによって、推奨システムがこの問題の解決に役立つことを示唆していた。 しかし、このアプローチが関連性の低いレコメンデーションをもたらすかどうかは不明であり、レコメンデーションアイテムへの全体的なエンゲージメントが減少する。 そこで我々はまず,WikipediaのタスクルーティングレコメンデーションシステムであるSuggestBotのオフライン分析(Study 1)を行い,その後3ヶ月の制御実験を行った(Study2)。 本結果より, 記事の提示頻度が低かったため, 記事に対する作業の割合が増加し, 全体としてのレコメンデーションの取込みが著しく低下することが示唆された。 論文の発見過程を無視することで、ピアプロダクションプラットフォームにおける推奨事項を人工的に絞り込むことができるかなど、結果の意味について論じる。

Peer production platforms like Wikipedia commonly suffer from content gaps. Prior research suggests recommender systems can help solve this problem, by guiding editors towards underrepresented topics. However, it remains unclear whether this approach would result in less relevant recommendations, leading to reduced overall engagement with recommended items. To answer this question, we first conducted offline analyses (Study 1) on SuggestBot, a task-routing recommender system for Wikipedia, then did a three-month controlled experiment (Study 2). Our results show that presenting users with articles from underrepresented topics increased the proportion of work done on those articles without significantly reducing overall recommendation uptake. We discuss the implications of our results, including how ignoring the article discovery process can artificially narrow recommendations on peer production platforms.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# FISTNet: 顔スタイル伝達のためのステレオパス生成ネットワークのFusIon

FISTNet: FusIon of STyle-path generative Networks for Facial Style Transfer ( http://arxiv.org/abs/2307.09020v3 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Lewis Nkenyereye, Ghulam Mujtaba, Ik Hyun Lee, Giancarlo Fortino, Kapal Dev, (参考訳) Metaverse(メタバース)や空間コンピューティング(空間コンピューティング)、ジェネレーティブAI(ジェネレーティブAI)といった新興技術の普及に伴い、顔のスタイル変換の応用は、研究者やスタートアップ愛好家たちからも大きな関心を集めている。 StyleGANメソッドは、トレーニングプロセスで利用可能な大量のデータへの依存を減らすことができる転送学習戦略の道を開いた。 しかし、StyleGAN法は、顔画像にアーティファクトが導入された結果、過度に適合する傾向にある。 DualStyleGANのような研究は、マルチパスネットワークの使用を提案したが、それらは一度に顔のスタイルを融合させるのではなく、特定のスタイルでネットワークを訓練する必要がある。 本稿では,事前学習したマルチパススタイルの転送ネットワークを利用する顔画像のためのFusIon of STyles(FIST)ネットワークを提案する。 我々は、トランスフォーメーション符号化ブロックの代わりに残留変調ブロックを使用する外部スタイルパスを用いた事前学習型GANネットワークを利用する。 また,本研究で導入されたゲートマッピングユニットを通じて,顔の構造,アイデンティティ,詳細を保存している。 上述のコンポーネントは、高品質なスタイリング画像を生成しながら、非常に限られた量のデータでネットワークを訓練することができる。 学習過程はカリキュラムの学習戦略に適応し、生成空間における効率的で柔軟なスタイルとモデル融合を実現する。 我々は,既存の最先端手法と比較して,FISTNetの優位性を示すため,広範囲な実験を行った。

With the surge in emerging technologies such as Metaverse, spatial computing, and generative AI, the application of facial style transfer has gained a lot of interest from researchers as well as startups enthusiasts alike. StyleGAN methods have paved the way for transfer-learning strategies that could reduce the dependency on the huge volume of data that is available for the training process. However, StyleGAN methods have the tendency of overfitting that results in the introduction of artifacts in the facial images. Studies, such as DualStyleGAN, proposed the use of multipath networks but they require the networks to be trained for a specific style rather than generating a fusion of facial styles at once. In this paper, we propose a FusIon of STyles (FIST) network for facial images that leverages pre-trained multipath style transfer networks to eliminate the problem associated with lack of huge data volume in the training phase along with the fusion of multiple styles at the output. We leverage pre-trained styleGAN networks with an external style pass that use residual modulation block instead of a transform coding block. The method also preserves facial structure, identity, and details via the gated mapping unit introduced in this study. The aforementioned components enable us to train the network with very limited amount of data while generating high-quality stylized images. Our training process adapts curriculum learning strategy to perform efficient, flexible style and model fusion in the generative space. We perform extensive experiments to show the superiority of FISTNet in comparison to existing state-of-the-art methods.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# バーバリザー操作による指示追従評価

Instruction-following Evaluation through Verbalizer Manipulation ( http://arxiv.org/abs/2307.10558v2 )

ライセンス: Link先を確認
Shiyang Li, Jun Yan, Hai Wang, Zheng Tang, Xiang Ren, Vijay Srinivasan, Hongxia Jin, (参考訳) 命令調整型モデルは様々な自然言語処理タスクで顕著に成功したが、命令に従う能力の正確な評価は依然として難しい。 既存のベンチマークは主に、トレーニング中にモデルが学んだこととよく一致する一般的な命令に焦点を当てています。 しかし、これらの命令に応答する習熟度は、従う命令において必ずしも強い能力を示すものではない。 本稿では,動詞操作と呼ばれる新しい指示追従評価プロトコルを提案する。 これは、タスクラベルを、モデル先行と異なる程度に整合した単語で言語化するよう指示し、高い整合性(例えば、肯定的な感情に対して `postive'' を出力する)から最小整合性(例えば、肯定的な感情に対して `` negative' を出力する)へ言語化させる。 バーバリザの操作は、任意の分類ベンチマークとシームレスに統合して、モデルの事前依存性と、それらをオーバーライドして正確に指示に従う能力を調べることができる。 我々は、9つのデータセットにまたがる4つの主要なモデルファミリーを包括的に評価し、それぞれに12組の発声器を用いる。 我々は,異なる家族や規模にわたるモデルの指示追従能力が,より自然な言語化能力の低下によって著しく異なることを観察した。 最強のGPT-4モデルでさえ、最も難易度の高い動詞をランダムに推測するよりも優れた性能を発揮するのに苦労し、命令追従能力を改善するための継続的な進歩の必要性を強調している。

While instruction-tuned models have shown remarkable success in various natural language processing tasks, accurately evaluating their ability to follow instructions remains challenging. Existing benchmarks primarily focus on common instructions that align well with what the model learned during training. However, proficiency in responding to these instructions does not necessarily imply strong ability in instruction following. In this paper, we propose a novel instruction-following evaluation protocol called verbalizer manipulation. It instructs the model to verbalize the task label with words aligning with model priors to different extents, adopting verbalizers from highly aligned (e.g., outputting ``postive'' for positive sentiment), to minimally aligned (e.g., outputting ``negative'' for positive sentiment). Verbalizer manipulation can be seamlessly integrated with any classification benchmark to examine the model's reliance on priors and its ability to override them to accurately follow the instructions. We conduct a comprehensive evaluation of four major model families across nine datasets, employing twelve sets of verbalizers for each of them. We observe that the instruction-following abilities of models, across different families and scales, are significantly distinguished by their performance on less natural verbalizers. Even the strongest GPT-4 model struggles to perform better than random guessing on the most challenging verbalizer, emphasizing the need for continued advancements to improve their instruction-following abilities.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# 画像処理のための深層マルチ閾値スパイキングUNet

Deep Multi-Threshold Spiking-UNet for Image Processing ( http://arxiv.org/abs/2307.10974v2 )

ライセンス: Link先を確認
Hebei Li, Yueyi Zhang, Zhiwei Xiong, Zheng-jun Zha, Xiaoyan Sun, (参考訳) U-Netは単純だが効率的なアーキテクチャで知られており、画像処理タスクに広く利用されており、特にニューロモルフィックチップへの展開に適している。 本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。 効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。 情報損失問題に対処するため、スパイキングUNet内の情報伝達効率を向上させるマルチ閾値スパイキングニューロンを導入する。 トレーニング戦略では、事前トレーニングされたU-Netモデルを活用する変換および微調整パイプラインを採用する。 変換過程において、スキップ接続を利用する場合、異なる部分にわたるデータ分布の有意な変動が観察される。 そこで本研究では,不正確な点火を防止するための接続ワイド正規化手法を提案する。 さらに,変換したモデルを微調整するフローベーストレーニング手法を採用し,性能を保ちながら時間ステップを短縮する。 実験の結果,画像のセグメンテーションやデノイングでは,既存のSNN手法を超越して,スパイキング・UNetの非スパイキング手法に匹敵する性能が得られた。 微調整なしで変換されたSpking-UNetと比較して、Spking-UNetは推論時間を約90%削減する。 本研究は、画像処理におけるSNNの適用範囲を広げ、ニューロモルフィックエンジニアリングの分野におけるさらなる探究を促すことが期待されている。 Spiking-UNet実装のコードはhttps://github.com/SNNresearch/Spiking-UNet.comで公開されている。

U-Net, known for its simple yet efficient architecture, is widely utilized for image processing tasks and is particularly suitable for deployment on neuromorphic chips. This paper introduces the novel concept of Spiking-UNet for image processing, which combines the power of Spiking Neural Networks (SNNs) with the U-Net architecture. To achieve an efficient Spiking-UNet, we face two primary challenges: ensuring high-fidelity information propagation through the network via spikes and formulating an effective training strategy. To address the issue of information loss, we introduce multi-threshold spiking neurons, which improve the efficiency of information transmission within the Spiking-UNet. For the training strategy, we adopt a conversion and fine-tuning pipeline that leverage pre-trained U-Net models. During the conversion process, significant variability in data distribution across different parts is observed when utilizing skip connections. Therefore, we propose a connection-wise normalization method to prevent inaccurate firing rates. Furthermore, we adopt a flow-based training method to fine-tune the converted models, reducing time steps while preserving performance. Experimental results show that, on image segmentation and denoising, our Spiking-UNet achieves comparable performance to its non-spiking counterpart, surpassing existing SNN methods. Compared with the converted Spiking-UNet without fine-tuning, our Spiking-UNet reduces inference time by approximately 90\%. This research broadens the application scope of SNNs in image processing and is expected to inspire further exploration in the field of neuromorphic engineering. The code for our Spiking-UNet implementation is available at https://github.com/SNNresearch/Spiking-UNet.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# YouTubeのレコメンデーションをトレーニングして、望ましくないビデオを避ける方法

How to Train Your YouTube Recommender to Avoid Unwanted Videos ( http://arxiv.org/abs/2307.14551v3 )

ライセンス: Link先を確認
Alexander Liu, Siqi Wu, Paul Resnick, (参考訳) YouTubeはユーザーが望ましくないレコメンデーションを提示する機能「Not interested」や「Don't recommend channel」ボタンなどの機能を提供している。 これらのボタンにより、ユーザーはレコメンデーションシステムによって作られた「間違い」を修正できる。 しかし、これらのボタンの実証効果についてはあまり知られていない。 ユーザの認識と信頼については,どちらもよく分かっていません。 これらのギャップに対処するため、私たちはYouTubeユーザーをソックパペットエージェントでシミュレートした。 それぞれのエージェントが最初に"stain phase"を実行し、割り当てられたトピックの多くのビデオを見た後、"scrub phase"を実行し、割り当てられたトピックからレコメンデーションを削除しようとした。 各エージェントは、ステンションフェーズで訪れたビデオの1つに不関心を示すか、あるいはホームページで推奨されるビデオに不関心を示す(「興味のない」ボタンをクリックしたり、「チャンネルを推奨しない」ボタンをクリックしたり、ビデオを開いたり、嫌なボタンをクリックしたりする)。 その結果、ユーザのホームページに割り当てられたトピックに割り当てられた推奨ビデオの割合は、ステンジフェーズによって著しく増加した。 scrub フェーズでは "Not interested" ボタンが一番うまく機能し、テスト対象のトピックすべてにおいて、平均 88% が削除された。 しかし、染色相もスクラブ相もビデオページレコメンデーションには大きな影響を与えなかった。 また、米国内の成人YouTubeユーザーを対象に、これらのボタンの認識と使用の有無、そしてこれらのボタンの有効性について調査を行った(N = 300)。 44%の参加者は「興味がない」ボタンがあることを知らなかった。 気付いていた人は、望ましくないレコメンデーション(82.8%)を取り除き、適度に効果的であることがわかった(5点中3.42点)。

YouTube provides features for users to indicate disinterest when presented with unwanted recommendations, such as the "Not interested" and "Don't recommend channel" buttons. These buttons purportedly allow the user to correct "mistakes" made by the recommendation system. Yet, relatively little is known about the empirical efficacy of these buttons. Neither is much known about users' awareness of and confidence in them. To address these gaps, we simulated YouTube users with sock puppet agents. Each agent first executed a "stain phase", where it watched many videos of an assigned topic; it then executed a "scrub phase", where it tried to remove recommendations from the assigned topic. Each agent repeatedly applied a single scrubbing strategy, either indicating disinterest in one of the videos visited in the stain phase (disliking it or deleting it from the watch history), or indicating disinterest in a video recommended on the homepage (clicking the "not interested" or "don't recommend channel" button or opening the video and clicking the dislike button). We found that the stain phase significantly increased the fraction of the recommended videos dedicated to the assigned topic on the user's homepage. For the scrub phase, using the "Not interested" button worked best, significantly reducing such recommendations in all topics tested, on average removing 88% of them. Neither the stain phase nor the scrub phase, however, had much effect on videopage recommendations. We also ran a survey (N = 300) asking adult YouTube users in the US whether they were aware of and used these buttons before, as well as how effective they found these buttons to be. We found that 44% of participants were not aware that the "Not interested" button existed. Those who were aware of it often used it to remove unwanted recommendations (82.8%) and found it to be modestly effective (3.42 out of 5).
翻訳日:2024-04-04 13:31:56 公開日:2024-04-02
# LLM-Rec:大規模言語モデルによるパーソナライズされたレコメンデーション

LLM-Rec: Personalized Recommendation via Prompting Large Language Models ( http://arxiv.org/abs/2307.15780v3 )

ライセンス: Link先を確認
Hanjia Lyu, Song Jiang, Hanqing Zeng, Yinglong Xia, Qifan Wang, Si Zhang, Ren Chen, Christopher Leung, Jiajie Tang, Jiebo Luo, (参考訳) テキストベースのレコメンデーションは、テキスト記述がほぼあらゆる種類のアイテムを表現できるため、その汎用性のために、幅広い実用的応用を持っている。 しかし,従来の項目記述を直接利用すると,ユーザの好みに合わせた包括的な情報がないため,最適な推薦性能が得られない可能性がある。 大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。 本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なるプロンプト戦略を取り入れた新しいアプローチ LLM-Rec を提案する。 実験により,LLMを付加したテキストを用いることで,推奨品質が著しく向上することが確認された。 MLP(Multi-Layer Perceptron)モデルでさえ、複雑なコンテンツベースの手法よりも、同等か、さらに良い結果が得られる。 LLM-Recの成功は、言語モデルの一般的な特徴と特定の特徴の両方に対する理解を効果的に活用する、その促進戦略にある。 このことは、LLMの推奨効率を高めるために多様なプロンプトと入力増強技術を採用することの重要性を強調している。

Text-based recommendation holds a wide range of practical applications due to its versatility, as textual descriptions can represent nearly any type of item. However, directly employing the original item descriptions may not yield optimal recommendation performance due to the lack of comprehensive information to align with user preferences. Recent advances in large language models (LLMs) have showcased their remarkable ability to harness commonsense knowledge and reasoning. In this study, we introduce a novel approach, coined LLM-Rec, which incorporates four distinct prompting strategies of text enrichment for improving personalized text-based recommendations. Our empirical experiments reveal that using LLM-augmented text significantly enhances recommendation quality. Even basic MLP (Multi-Layer Perceptron) models achieve comparable or even better results than complex content-based methods. Notably, the success of LLM-Rec lies in its prompting strategies, which effectively tap into the language model's comprehension of both general and specific item characteristics. This highlights the importance of employing diverse prompts and input augmentation techniques to boost the recommendation effectiveness of LLMs.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-02
# 大規模言語モデルを用いた累積推論

Cumulative Reasoning with Large Language Models ( http://arxiv.org/abs/2308.04371v6 )

ライセンス: Link先を確認
Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao, (参考訳) 近年の言語モデル(LM)の進歩にもかかわらず、複雑な問題を解く能力は依然として限られている。 本稿では,LMを累積的かつ反復的に活用する新しい手法である累積推論(CR)を紹介し,問題解決のための人間の思考過程を反映する。 CRはタスクをより小さく管理可能なコンポーネントに分解し、既存の提案を効果的な構成に活用し、問題解決能力を著しく向上させる。 CRは論理推論タスクにおける既存のメソッドを最大9.3%改善し、キュレートされたFOLIO wikiデータセットで98.04%の精度を達成した。 24のゲームでは98%の精度を達成し、以前の最先端よりも24%向上した。 さらに、CRはMATHデータセットに新しい最先端技術を設定し、従来の方法から4.2%増加し、最も難しい問題では43%改善した。 CRを検索やWebブラウジングといった外部の助けなしにコード環境を組み込むように拡張することにより、LMの計算的および論理的推論能力をさらに活用し、MATHデータセット上で72.2%の精度を達成し、PAL/PoT法を38.8%上回る結果となった。 我々の研究は、新しい最先端のAI推論手法を策定するだけでなく、より洗練されたAI推論手法への道を開く。 コードはhttps://github.com/iiis-ai/cumulative-reasoning.comから入手できる。

Despite the recent advancements in language models (LMs), their ability to solve complex problems remains limited. This paper introduces Cumulative Reasoning (CR), a novel approach that utilizes LMs cumulatively and iteratively, mirroring human thought processes for problem-solving. CR decomposes tasks into smaller, manageable components and leverages previous propositions for effective composition, significantly enhancing problem-solving capabilities. We demonstrate CR's superiority through several complex reasoning tasks: it outperforms existing methods in logical inference tasks with up to a 9.3% improvement, achieving 98.04% accuracy on the curated FOLIO wiki dataset. In the Game of 24, it achieves 98% accuracy, marking a 24% improvement over the prior state-of-the-art. Additionally, CR sets new state-of-the-art on the MATH dataset, achieving a 4.2% increase from previous methods and a 43% relative improvement in the most challenging problems. By extending CR to incorporate a code environment without external aids like retrieval or web browsing, we further harness the computational and logical reasoning capabilities of LMs, achieving a remarkable 72.2% accuracy on the MATH dataset and outperforming the PAL/PoT method by 38.8%. Our work not only sets new state-of-the-art but also paves the way toward more sophisticated AI reasoning methods. The code is available at https://github.com/iiis-ai/cumulative-reasoning.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-02
# 大規模言語モデルにおける連続的微調整時の破滅的蓄積に関する実証的研究

An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning ( http://arxiv.org/abs/2308.08747v3 )

ライセンス: Link先を確認
Yun Luo, Zhen Yang, Fandong Meng, Yafu Li, Jie Zhou, Yue Zhang, (参考訳) カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい知識を取得しながら学習した情報を忘れたときに発生する現象である。 大規模言語モデル(LLM)は顕著な性能を示しており、LCMの連続的な命令チューニング中にCFが存在するかどうかを調査することは興味深い。 本研究は,ドメイン知識,推論,読書理解の観点から,連続的指導指導におけるLLMの知識の忘れ現象を実証的に評価する。 実験の結果, 1b から 7b までの LLM では, 破滅的忘れ込みが一般的に見られることがわかった。 さらに、モデルスケールが大きくなるにつれて、忘れることの重大さが増す。 デコーダのみのモデルBLOOMZとエンコーダ-デコーダモデルmT0を比較すると、BLOOMZは忘れられにくく、より多くの知識を保持する。 また,ジェンダーバイアスなどの言語バイアスを連続的な微調整中に緩和することができることも注目する。 さらに,ALPACAは連続的な微調整においてLLAMAよりも知識と能力を維持しており,その後の微調整過程においてLLMの忘れ現象を軽減できる可能性が示唆された。

Catastrophic forgetting (CF) is a phenomenon that occurs in machine learning when a model forgets previously learned information while acquiring new knowledge. As large language models (LLMs) have demonstrated remarkable performance, it is intriguing to investigate whether CF exists during the continual instruction tuning of LLMs. This study empirically evaluates the forgetting phenomenon in LLMs' knowledge during continual instruction tuning from the perspectives of domain knowledge, reasoning, and reading comprehension. The experiments reveal that catastrophic forgetting is generally observed in LLMs ranging from 1b to 7b parameters. Moreover, as the model scale increases, the severity of forgetting intensifies. Comparing the decoder-only model BLOOMZ with the encoder-decoder model mT0, BLOOMZ exhibits less forgetting and retains more knowledge. Interestingly, we also observe that LLMs can mitigate language biases, such as gender bias, during continual fine-tuning. Furthermore, our findings indicate that ALPACA maintains more knowledge and capacity compared to LLAMA during continual fine-tuning, suggesting that general instruction tuning can help alleviate the forgetting phenomenon in LLMs during subsequent fine-tuning processes.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-02
# ディープラーニングのためのポイントクラウドデータ拡張の進歩: 調査

Advancements in Point Cloud Data Augmentation for Deep Learning: A Survey ( http://arxiv.org/abs/2308.12113v4 )

ライセンス: Link先を確認
Qinfeng Zhu, Lei Fan, Ningxin Weng, (参考訳) ディープラーニング(DL)は、検出、セグメンテーション、分類などのポイントクラウド分析タスクにおいて、主流で効果的な方法の1つとなっている。 訓練用DLモデルの過度な適合を低減し、特に訓練データの量及び/または多様性が制限された場合にモデル性能を向上させること。 さまざまなポイントクラウドデータ拡張手法がさまざまなポイントクラウド処理タスクで広く使用されているが、現在、これらの手法の体系的な調査やレビューは公開されていない。 そこで本稿では,これらの手法を,基本的および専門的なクラウドデータ拡張手法を含む分類体系に分類する。 本稿では,これらの拡張手法の包括的評価を通じて,それらの可能性と限界を明らかにし,適切な拡張方法を選択する上で有用な基準として機能する。 また,今後の研究の方向性も示唆されている。 この調査は、ポイントクラウドデータ拡張の現状の全体像を提供し、より広範なアプリケーションと開発を促進することに寄与します。

Deep learning (DL) has become one of the mainstream and effective methods for point cloud analysis tasks such as detection, segmentation and classification. To reduce overfitting during training DL models and improve model performance especially when the amount and/or diversity of training data are limited, augmentation is often crucial. Although various point cloud data augmentation methods have been widely used in different point cloud processing tasks, there are currently no published systematic surveys or reviews of these methods. Therefore, this article surveys these methods, categorizing them into a taxonomy framework that comprises basic and specialized point cloud data augmentation methods. Through a comprehensive evaluation of these augmentation methods, this article identifies their potentials and limitations, serving as a useful reference for choosing appropriate augmentation methods. In addition, potential directions for future research are recommended. This survey contributes to providing a holistic overview of the current state of point cloud data augmentation, promoting its wider application and development.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-02
# Diffuse, Attend, Segment: 安定拡散を用いた教師なしゼロショットセグメンテーション

Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion ( http://arxiv.org/abs/2308.12469v3 )

ライセンス: Link先を確認
Junjiao Tian, Lavisha Aggarwal, Andrea Colaco, Zsolt Kira, Mar Gonzalez-Franco, (参考訳) 画像の品質セグメンテーションマスクの作成は、コンピュータビジョンの基本的な問題である。 近年の研究では、画像スタイルのゼロショットセグメンテーションを可能にするための大規模教師あり訓練と、濃密なアノテーションを使わずにセグメンテーションを可能にする教師なしトレーニングが検討されている。 しかし、アノテーションを使わずに、あらゆるものをゼロショットでセグメント化できるモデルを構築することは、まだ難しい。 本稿では,この目的を達成するために,安定拡散モデルにおける自己注意層を利用することを提案する。 具体的には、注意マップ間のKLのばらつきを計測し、それらを有効なセグメンテーションマスクにマージする、単純で効果的な反復的マージプロセスを提案する。 提案手法は,任意の画像の品質セグメンテーションを抽出するために,訓練や言語依存を必要としない。 COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。 プロジェクトのページは \url{https://sites.google.com/view/diffseg/home} にある。

Producing quality segmentation masks for images is a fundamental problem in computer vision. Recent research has explored large-scale supervised training to enable zero-shot segmentation on virtually any image style and unsupervised training to enable segmentation without dense annotations. However, constructing a model capable of segmenting anything in a zero-shot manner without any annotations is still challenging. In this paper, we propose to utilize the self-attention layers in stable diffusion models to achieve this goal because the pre-trained stable diffusion model has learned inherent concepts of objects within its attention layers. Specifically, we introduce a simple yet effective iterative merging process based on measuring KL divergence among attention maps to merge them into valid segmentation masks. The proposed method does not require any training or language dependency to extract quality segmentation for any images. On COCO-Stuff-27, our method surpasses the prior unsupervised zero-shot SOTA method by an absolute 26% in pixel accuracy and 17% in mean IoU. The project page is at \url{https://sites.google.com/view/diffseg/home}.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-02
# Dual-Activated Lightweight Attention ResNet50による乳癌画像の自動分類

Dual-Activated Lightweight Attention ResNet50 for Automatic Histopathology Breast Cancer Image Classification ( http://arxiv.org/abs/2308.13150v8 )

ライセンス: Link先を確認
Suxing Liu, (参考訳) 病理組織像における乳がんの自動分類は,正確な診断と治療計画に不可欠である。 近年、ResNetアーキテクチャに基づく分類手法が普及し、スキップ接続を用いて勾配問題を緩和し、低レベルの特徴情報と高レベルの特徴情報を統合することで精度を著しく向上している。 それでも、従来のResNetアーキテクチャは、データ不均衡や限定的な解釈可能性、クロスドメイン知識の必要性、医療専門家間のコラボレーションといった課題に直面している。 本研究は,乳がん分類のための新しい手法であるDual-Activated Lightweight Attention ResNet50(DALAResNet50)モデルを導入することで,これらの課題を効果的に解決する。 トレーニング済みのResNet50モデルと軽量なアテンション機構を統合し、ResNet50の第4層にアテンションモジュールを埋め込み、LeakyReLUとReLUアクティベーション機能を備えた2つの完全に接続されたレイヤを組み込んで機能学習機能を強化している。 DALAResNet50法は,40X,100X,200X,400Xの乳がん組織像を用いて,それぞれ98.5%,98.7%,97.9%,94.3%の検診を行った。 また、SEResNet50、DenseNet121、VGG16、VGG16Inception、ViT、Swin-Transformer、Dinov2_Vitb14、ResNet50といった既存のディープラーニングモデルと比較された。 DALAResNet50の報告結果は、精度、F1スコア、IBA、GMeanに関する比較アプローチよりも優れており、異なる倍率と不均衡な乳癌データセットを扱う場合、顕著な堅牢性と広い適用性を示している。

Automatic breast cancer classification in histopathology images is crucial for precise diagnosis and treatment planning. Recently, classification approaches based on the ResNet architecture have gained popularity for significantly improving accuracy by using skip connections to mitigate vanishing gradient problems, thereby integrating low-level and high-level feature information. Nevertheless, the conventional ResNet architecture faces challenges such as data imbalance and limited interpretability, necessitating cross-domain knowledge and collaboration among medical experts. This study effectively addresses these challenges by introducing a novel method for breast cancer classification, the Dual-Activated Lightweight Attention ResNet50 (DALAResNet50) model. It integrates a pre-trained ResNet50 model with a lightweight attention mechanism, embedding an attention module in the fourth layer of ResNet50 and incorporating two fully connected layers with LeakyReLU and ReLU activation functions to enhance feature learning capabilities. The DALAResNet50 method was tested on breast cancer histopathology images from the BreakHis Database across magnification factors of 40X, 100X, 200X, and 400X, achieving accuracies of 98.5%, 98.7%, 97.9%, and 94.3%, respectively. It was also compared with established deep learning models such as SEResNet50, DenseNet121, VGG16, VGG16Inception, ViT, Swin-Transformer, Dinov2_Vitb14, and ResNet50. The reported results of DALAResNet50 have been shown to outperform the compared approaches regarding accuracy, F1 score, IBA, and GMean, demonstrating significant robustness and broad applicability when dealing with different magnifications and imbalanced breast cancer datasets
翻訳日:2024-04-04 13:12:17 公開日:2024-04-02
# Value Kaleidoscope: 複数の人的価値、権利、デューティを備えたAIの実現

Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties ( http://arxiv.org/abs/2309.00779v2 )

ライセンス: Link先を確認
Taylor Sorensen, Liwei Jiang, Jena Hwang, Sydney Levine, Valentina Pyatkin, Peter West, Nouha Dziri, Ximing Lu, Kavel Rao, Chandra Bhagavatula, Maarten Sap, John Tasioulas, Yejin Choi, (参考訳) 人間の価値は人間の意思決定に不可欠である。 価値多元論は、複数の正しい値が互いに緊張して保持されるという見方である(例えば、感情を守るために友人に嘘をつくことを考えるとき、友情と誠実さをどのようにバランスさせるか)。 統計的学習者として、AIシステムはデフォルトでは平均に適合する。 AIシステムを改善するために、第一の課題は、AIシステムが多元的人間の価値、権利、義務、そしてそれらの相互作用をモデル化できる範囲を探索することである。 ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。 ValuePrismの文脈化値はGPT-4によって生成され、人間のアノテータの91%が高品質であると見なしている。 さまざまな社会的背景や人口動態にまたがるアノテータによる大規模な研究を行い、どの価値が表現されているかを理解する。 ValuePrismでは、オープンで軽量で構造化された言語ベースのマルチタスクモデルであるKaleidoを構築します。 人間は、教師のGPT-4よりもシステムによって出力される値のセットを好む。 さらに,コントラストを出力することで,人間の意思決定における多様性を説明する上で,カレイドが有効であることを示す。 最後に、Kaleidoの表現が他の哲学的フレームワークやデータセットに移行し、明示的でモジュラーで解釈可能なアプローチによる価値多重化のメリットを確認することを示す。 私たちの仕事は、人間の意思決定の背後にある暗黙の価値観をより明確にし、AIシステムを操り、それに従って意思決定を行うためのステップとして役立ちたいと思っています。

Human values are crucial to human decision-making. Value pluralism is the view that multiple correct values may be held in tension with one another (e.g., when considering lying to a friend to protect their feelings, how does one balance honesty with friendship?). As statistical learners, AI systems fit to averages by default, washing out these potentially irreducible value conflicts. To improve AI systems to better reflect value pluralism, the first-order challenge is to explore the extent to which AI systems can model pluralistic human values, rights, and duties as well as their interaction. We introduce ValuePrism, a large-scale dataset of 218k values, rights, and duties connected to 31k human-written situations. ValuePrism's contextualized values are generated by GPT-4 and deemed high-quality by human annotators 91% of the time. We conduct a large-scale study with annotators across diverse social and demographic backgrounds to try to understand whose values are represented. With ValuePrism, we build Kaleido, an open, light-weight, and structured language-based multi-task model that generates, explains, and assesses the relevance and valence (i.e., support or oppose) of human values, rights, and duties within a specific context. Humans prefer the sets of values output by our system over the teacher GPT-4, finding them more accurate and with broader coverage. In addition, we demonstrate that Kaleido can help explain variability in human decision-making by outputting contrasting values. Finally, we show that Kaleido's representations transfer to other philosophical frameworks and datasets, confirming the benefit of an explicit, modular, and interpretable approach to value pluralism. We hope that our work will serve as a step to making more explicit the implicit values behind human decision-making and to steering AI systems to make decisions that are more in accordance with them.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-02
# 射影ギャップのブリッジ:パラメータ化された距離学習による射影バイアスの克服

Bridging the Projection Gap: Overcoming Projection Bias Through Parameterized Distance Learning ( http://arxiv.org/abs/2309.01390v2 )

ライセンス: Link先を確認
Chong Zhang, Mingyu Jin, Qinkai Yu, Haochen Xue, Shreyank N Gowda, Xiaobo Jin, (参考訳) Generalized Zero-shot Learning (GZSL) は、見知らぬクラスと見えないクラスの両方からのサンプルを、学習用のクラスサンプルのみを使用して認識することを目的としている。 しかし, GZSL法は, 投射関数が授業から学習されるため, 推論中にクラスに偏りが生じる傾向にある。 ほとんどの方法は正確なプロジェクションの学習に重点を置いているが、プロジェクションのバイアスは避けられない。 我々はこの予測バイアスに,ロバスト推論のためのパラメータ化されたマハラノビス距離測定値の学習を提案して対処する。 我々の重要な洞察は、偏りのある射影であっても、推論中の距離計算が重要であるということである。 1)VAEGANアーキテクチャを2つのブランチで拡張し、見知らぬクラスと見えないクラスからサンプルのプロジェクションを別々に出力し、より堅牢な距離学習を可能にします。 2) マハラノビス距離の表現を最適化し,投射バイアスを低減する新しい損失関数を提案する。 4つのデータセットに対する大規模な実験により、我々のアプローチは、高調波平均測定値で最大3.5 \%の改善で最先端のGZSL技術より優れていることが示された。

Generalized zero-shot learning (GZSL) aims to recognize samples from both seen and unseen classes using only seen class samples for training. However, GZSL methods are prone to bias towards seen classes during inference due to the projection function being learned from seen classes. Most methods focus on learning an accurate projection, but bias in the projection is inevitable. We address this projection bias by proposing to learn a parameterized Mahalanobis distance metric for robust inference. Our key insight is that the distance computation during inference is critical, even with a biased projection. We make two main contributions - (1) We extend the VAEGAN (Variational Autoencoder \& Generative Adversarial Networks) architecture with two branches to separately output the projection of samples from seen and unseen classes, enabling more robust distance learning. (2) We introduce a novel loss function to optimize the Mahalanobis distance representation and reduce projection bias. Extensive experiments on four datasets show that our approach outperforms state-of-the-art GZSL techniques with improvements of up to 3.5 \% on the harmonic mean metric.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-02
# ExpertQA: 専門家による質問と回答

ExpertQA: Expert-Curated Questions and Attributed Answers ( http://arxiv.org/abs/2309.07852v2 )

ライセンス: Link先を確認
Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark Yatskar, Dan Roth, (参考訳) 言語モデルは、より洗練され多様なユーザによって採用されているため、検証可能な情報源が支援する事実的に正しい情報を提供することを保証することの重要性は、研究分野において極めて重要である。 これは特に、偽情報を伝播するリスクが高く、望ましくない社会的な結果をもたらす、医学や法律などの高度な分野に当てはまる。 属性と事実性を研究するこれまでの研究は、ドメイン固有のシナリオにおける言語モデル出力の特性の分析に重点を置いていない。 本研究では,ドメインの専門家をループに導いていくことで,属性や事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。 具体的には、32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 さらに、専門家に言語モデルからの応答を改善するよう依頼する。 分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。

As language models are adopted by a more sophisticated and diverse set of users, the importance of guaranteeing that they provide factually correct information supported by verifiable sources is critical across fields of study. This is especially the case for high-stakes fields, such as medicine and law, where the risk of propagating false information is high and can lead to undesirable societal consequences. Previous work studying attribution and factuality has not focused on analyzing these characteristics of language model outputs in domain-specific scenarios. In this work, we conduct human evaluation of responses from a few representative systems along various axes of attribution and factuality, by bringing domain experts in the loop. Specifically, we collect expert-curated questions from 484 participants across 32 fields of study, and then ask the same experts to evaluate generated responses to their own questions. In addition, we ask experts to improve upon responses from language models. The output of our analysis is ExpertQA, a high-quality long-form QA dataset with 2177 questions spanning 32 fields, along with verified answers and attributions for claims in the answers.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-02
# MusiLingo: 音楽キャプションとクエリ応答のための事前学習言語モデルによる音楽とテキストのブリッジ

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response ( http://arxiv.org/abs/2309.08730v3 )

ライセンス: Link先を確認
Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu Chen, Wenhao Huang, Emmanouil Benetos, (参考訳) 大規模言語モデル (LLM) はマルチモーダル・アプリケーションにおいて大きな可能性を示しているが、テキストと音楽の領域の収束はいまだよく研究されていない。 このギャップに対処するために,音楽キャプション生成と音楽関連クエリ応答のための新しいシステムMusiLingoを提案する。 MusiLingoは単一のプロジェクション層を使用して、事前訓練されたフリーズされた音楽オーディオモデルMERTから、音楽オーディオとテキストコンテキストのギャップを埋める凍結LDMに音楽表現を整列する。 広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。 高品質な音楽Q&Aデータセットが不足しているため、私たちはMusicCapsデータセットのキャプションからMusic Instruct(MI)データセットを作成しました。 音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。 導入されたデータセットは、以前のデータセットを超える顕著な進歩を可能にします。

Large Language Models (LLMs) have shown immense potential in multimodal applications, yet the convergence of textual and musical domains remains not well-explored. To address this gap, we present MusiLingo, a novel system for music caption generation and music-related query responses. MusiLingo employs a single projection layer to align music representations from the pre-trained frozen music audio model MERT with a frozen LLM, bridging the gap between music audio and textual contexts. We train it on an extensive music caption dataset and fine-tune it with instructional data. Due to the scarcity of high-quality music Q&A datasets, we created the MusicInstruct (MI) dataset from captions in the MusicCaps datasets, tailored for open-ended music inquiries. Empirical evaluations demonstrate its competitive performance in generating music captions and composing music-related Q&A pairs. Our introduced dataset enables notable advancements beyond previous ones.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-02
# SLIDE:スライディングドキュメンテーションウィンドウを用いた機械翻訳の参照不要評価

SLIDE: Reference-free Evaluation for Machine Translation using a Sliding Document Window ( http://arxiv.org/abs/2309.08832v2 )

ライセンス: Link先を確認
Vikas Raunak, Tom Kocmi, Matt Post, (参考訳) 文レベルで動作する参照ベースのメトリクスは、典型的には、ソースとシステム出力にのみアクセス可能な品質推定指標よりも優れている。 なぜなら、参照はソースに存在する可能性のある曖昧さを解消するからである。 本稿では,参照に代えて,追加のソースコンテキストが効果的に代用できるかどうかを検討する。 本稿では,文ブロックで動作するSLIDE(SLIding Document Evaluator)というメトリクスを提案する。 SLIDEは、テストセット内の各ドキュメントをスライドする移動ウィンドウを活用し、各文片を修正されていないオフザシェルフ品質推定モデルに供給する。 SLIDEは,基準基準値との差をなくす場合もあり,文レベルベースラインよりもはるかに高いペアワイズシステム精度が得られることがわかった。 このことは、ソースの曖昧さを曖昧にするために、ソースコンテキストが人間の参照と同じ情報を提供する可能性があることを示唆している。 SLIDEは文書境界アノテーションのみを必要としながら、高品質なペアワイズシステムアセスメントを提供することができる。

Reference-based metrics that operate at the sentence-level typically outperform quality estimation metrics, which have access only to the source and system output. This is unsurprising, since references resolve ambiguities that may be present in the source. In this paper, we investigate whether additional source context can effectively substitute for a reference. We present a metric named SLIDE (SLIding Document Evaluator), which operates on blocks of sentences. SLIDE leverages a moving window that slides over each document in the test set, feeding each chunk of sentences into an unmodified, off-the-shelf quality estimation model. We find that SLIDE obtains significantly higher pairwise system accuracy than its sentence-level baseline, in some cases even eliminating the gap with reference-base metrics. This suggests that source context may provide the same information as a human reference in disambiguating source ambiguities. This finding is especially pertinent for reference-free document-level evaluation, wherein SLIDE could provide higher-quality pairwise system assessments while only requiring document boundary annotations.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-02
# 知識駆動型機械学習による複雑な地形の風力分解能向上

Enhancing wind field resolution in complex terrain through a knowledge-driven machine learning approach ( http://arxiv.org/abs/2309.10172v2 )

ライセンス: Link先を確認
Jacob Wulff Wold, Florian Stadtmann, Adil Rasheed, Mandar Tabib, Omer San, Jan-Tore Horn, (参考訳) 大気流は多種多様な時空間スケールで制御されており、複雑な地形における乱流のリアルタイムな数値モデリングを高精度に行うことができる。 本研究では,ノルウェーのベセーカー(Bessaker)にある実際の風力発電所において,高分解能風力発生のための高分解能風力場を実現するために,高分解能生成適応型ニューラルネットワークによるニューラルネットワークアプローチを実証した。 ニューラルネットワークに基づくモデルは、局所的な地形を尊重しながら、粗いスケールから完全に解決された3次元速度場を再構築し、容易にトリ線形補間を上回ることを示す。 また、ドメイン知識に基づく適切なコスト関数を使用することで、敵のトレーニングの使用を軽減できることを実証する。

Atmospheric flows are governed by a broad variety of spatio-temporal scales, thus making real-time numerical modeling of such turbulent flows in complex terrain at high resolution computationally intractable. In this study, we demonstrate a neural network approach motivated by Enhanced Super-Resolution Generative Adversarial Networks to upscale low-resolution wind fields to generate high-resolution wind fields in an actual wind farm in Bessaker, Norway. The neural network-based model is shown to successfully reconstruct fully resolved 3D velocity fields from a coarser scale while respecting the local terrain and that it easily outperforms trilinear interpolation. We also demonstrate that by using appropriate cost function based on domain knowledge, we can alleviate the use of adversarial training.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-02
# フェアゲーム」か、それとも「フェアゲーム」か? : LLMを用いた会話エージェントの利用者による情報開示のリスクとメリットの把握

"It's a Fair Game", or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents ( http://arxiv.org/abs/2309.11653v2 )

ライセンス: Link先を確認
Zhiping Zhang, Michelle Jia, Hao-Ping Lee, Bingsheng Yao, Sauvik Das, Ada Lerner, Dakuo Wang, Tianshi Li, (参考訳) 大規模言語モデル(LLM)ベースの会話エージェント(CA)の普及は、特に高い領域において、多くのプライバシー上の懸念を提起している。 ユーザプライバシを尊重する倫理的LCMベースのCAを構築するには、ユーザを最も心配するプライバシーリスクを深く理解する必要があります。 しかし、既存の研究は主にモデル中心であり、ユーザーの視点についての洞察を与えていない。 このギャップを埋めるために,現実のChatGPT会話における機密情報開示を分析し,19のLCMベースのCAユーザを対象に半構造化インタビューを行った。 LLMベースのCAを使用する場合,ユーザは常に,プライバシやユーティリティ,利便性のトレードオフに直面しています。 しかし、ユーザの誤ったメンタルモデルとシステムデザインのダークパターンは、プライバシのリスクに対する認識と理解を制限した。 さらに、人間のようなインタラクションにより、より機密性の高い開示が促進され、ユーザーはトレードオフをナビゲートする能力が複雑になる。 本稿では,LCMベースのCAユーザのプライバシを保護するために,実用的な設計ガイドラインとパラダイムシフトの必要性について論じる。

The widespread use of Large Language Model (LLM)-based conversational agents (CAs), especially in high-stakes domains, raises many privacy concerns. Building ethical LLM-based CAs that respect user privacy requires an in-depth understanding of the privacy risks that concern users the most. However, existing research, primarily model-centered, does not provide insight into users' perspectives. To bridge this gap, we analyzed sensitive disclosures in real-world ChatGPT conversations and conducted semi-structured interviews with 19 LLM-based CA users. We found that users are constantly faced with trade-offs between privacy, utility, and convenience when using LLM-based CAs. However, users' erroneous mental models and the dark patterns in system design limited their awareness and comprehension of the privacy risks. Additionally, the human-like interactions encouraged more sensitive disclosures, which complicated users' ability to navigate the trade-offs. We discuss practical design guidelines and the needs for paradigm shifts to protect the privacy of LLM-based CA users.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# AceGPT, アラビア語における大規模言語モデルの局在化

AceGPT, Localizing Large Language Models in Arabic ( http://arxiv.org/abs/2309.12053v5 )

ライセンス: Link先を確認
Huang Huang, Fei Yu, Jianqing Zhu, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen, Abdulmohsen Alharthi, Bang An, Juncai He, Ziche Liu, Zhiyi Zhang, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li, Jinchao Xu, (参考訳) 本稿では,現在主流のモデルでは不十分な文化的特徴を付与したアラビア語を特化して,局所的な大規模言語モデル (LLM) の開発に着目する。 文化的感受性と地域価値に対処する際、重要な懸念が浮かび上がる。 そこで本研究では,アラビア語のテキストによる事前学習,ネイティブなアラビア語の指示を利用した監視ファインタニング(SFT),アラビア語のGPT-4応答,局所文化や価値観に合わせた報酬モデルを用いたAIフィードバックによる強化学習(RLAIF)などを含む総合的なソリューションを提案する。 目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。 包括的評価により、結果として得られたモデルは「AceGPT」と呼ばれ、様々なベンチマークでアラビア語 LLM の最先端標準を定めていることが明らかとなった。 コード、データ、モデルはhttps://github.com/FreedomIntelligence/AceGPTにある。

This paper is devoted to the development of a localized Large Language Model (LLM) specifically for Arabic, a language imbued with unique cultural characteristics inadequately addressed by current mainstream models. Significant concerns emerge when addressing cultural sensitivity and local values. To address this, the paper proposes a comprehensive solution that includes further pre-training with Arabic texts, Supervised Fine-Tuning (SFT) utilizing native Arabic instructions, and GPT-4 responses in Arabic, alongside Reinforcement Learning with AI Feedback (RLAIF) employing a reward model attuned to local culture and values. The goal is to cultivate culturally cognizant and value-aligned Arabic LLMs capable of accommodating the diverse, application-specific needs of Arabic-speaking communities. Comprehensive evaluations reveal that the resulting model, dubbed `AceGPT', sets the state-of-the-art standard for open Arabic LLMs across various benchmarks. Codes, data, and models are in https://github.com/FreedomIntelligence/AceGPT.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# バリューモデルを捨てるな! バリューガイド付モンテカルロ木探索デコードでより好ましいテキストを生成する

Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding ( http://arxiv.org/abs/2309.15028v3 )

ライセンス: Link先を確認
Jiacheng Liu, Andrew Cohen, Ramakanth Pasunuru, Yejin Choi, Hannaneh Hajishirzi, Asli Celikyilmaz, (参考訳) モンテカルロ木探索 (MCTS) のような推論時探索アルゴリズムは,PPO (Proximal Policy Optimization) のような最先端の強化学習に基づく自然言語テキストを生成する際に不要に思える。 本稿では, MCTSを上面に統合することにより, PPOから余分な距離を得ることが可能であることを実証する。 鍵となるアイデアは、ポリシーネットワークからテキストを復号する際に、部分的な出力シーケンスを評価するためのPPOトレーニングの副産物であるバリューネットワークを捨てないことである。 より具体的には、PPO-MCTSと呼ばれる新しい値誘導復号アルゴリズムを提案する。 制御テキスト生成のためのMCTSに基づく従来の手法と比較して,本手法の主な強みは,トレーニングとテストの間の部分出力のスコアリング機構の基本的なミスマッチを低減することである。 4つのテキスト生成タスクの評価により, PPO-MCTS は PPO ポリシーのみを使用する標準的な方法に比べて, 生成したテキストの好適性を大幅に向上することが示された。 提案手法は,PPO の言語モデル上でも検索アルゴリズムが実現可能であることを示すとともに,探索されていない価値ネットワークの利点を示すものである。

Inference-time search algorithms such as Monte-Carlo Tree Search (MCTS) may seem unnecessary when generating natural language text based on state-of-the-art reinforcement learning such as Proximal Policy Optimization (PPO). In this paper, we demonstrate that it is possible to get extra mileage out of PPO by integrating MCTS on top. The key idea is not to throw out the value network, a byproduct of PPO training for evaluating partial output sequences, when decoding text out of the policy network. More concretely, we present a novel value-guided decoding algorithm called PPO-MCTS, which can integrate the value network from PPO to work closely with the policy network during inference-time generation. Compared to prior approaches based on MCTS for controlled text generation, the key strength of our approach is to reduce the fundamental mismatch of the scoring mechanisms of the partial outputs between training and test. Evaluation on four text generation tasks demonstrate that PPO-MCTS greatly improves the preferability of generated text compared to the standard practice of using only the PPO policy. Our results demonstrate the promise of search algorithms even on top of the aligned language models from PPO, and the under-explored benefit of the value network.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# IBM最大の量子プロセッサの効率的なテンソルネットワークシミュレーション

Efficient tensor network simulation of IBM's largest quantum processors ( http://arxiv.org/abs/2309.15642v3 )

ライセンス: Link先を確認
Siddhartha Patra, Saeed S. Jahromi, Sukhbinder Singh, Roman Orus, (参考訳) 量子インスパイアされた2dテンソルネットワークは、IBMの最大の量子プロセッサであるイーグル(127量子ビット)、オスプレイ(123量子ビット)、コンドル(1121量子ビット)を効率的に正確にシミュレートするためにどのように使用できるかを示す。 PRB 99, 195105 (2019) で提案されたグラフベースの射影絡み合ったペア状態 (gPEPS) を用いた複雑な量子多体系の力学をシミュレーションした。 以上の結果から, 単純なテンソル更新は, 計算資源を極端に少なくして, 極めて大きな精度を実現するのに十分であることが示唆された。 127量子ビットの当初の実験をシミュレートすることとは別に、その結果を433量子ビットと1121量子ビットに拡張し、進化の時間を約8倍長くすることで、最新のIBM量子マシンのベンチマークを設定します。 また、無限個の量子ビットの正確なシミュレーションを報告する。 この結果から,gPEPSは超伝導量子ビットに基づく全ての量子プロセッサなど,基盤となる格子ベースの量子ビット接続で量子コンピュータを効率的にシミュレートするための自然なツールであることが示唆された。

We show how quantum-inspired 2d tensor networks can be used to efficiently and accurately simulate the largest quantum processors from IBM, namely Eagle (127 qubits), Osprey (433 qubits) and Condor (1121 qubits). We simulate the dynamics of a complex quantum many-body system -specifically, the kicked Ising experiment considered recently by IBM in Nature 618, p. 500-505 (2023)- using graph-based Projected Entangled Pair States (gPEPS), which was proposed by some of us in PRB 99, 195105 (2019). Our results show that simple tensor updates are already sufficient to achieve very large unprecedented accuracy with remarkably low computational resources for this model. Apart from simulating the original experiment for 127 qubits, we also extend our results to 433 and 1121 qubits, and for evolution times around 8 times longer, thus setting a benchmark for the newest IBM quantum machines. We also report accurate simulations for infinitely-many qubits. Our results show that gPEPS are a natural tool to efficiently simulate quantum computers with an underlying lattice-based qubit connectivity, such as all quantum processors based on superconducting qubits.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# GPT-Fathom: GPT-4以降への進化経路を理解するための大規模言語モデルのベンチマーク

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond ( http://arxiv.org/abs/2309.16583v6 )

ライセンス: Link先を確認
Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、その能力と限界を評価するための総合的な評価スイートの必要性が高まっている。 既存のLCMのリーダーボードは、一貫性のある設定やプロンプトのない他の論文で報告されたスコアを参照することが多い。 本稿では, OpenAI Evals 上に構築されたオープンソースかつ再現可能な LLM 評価スイートである GPT-Fathom を紹介する。 我々は,7つの機能カテゴリにまたがる20以上のベンチマークにおいて,10以上のLLMとOpenAIのレガシモデルを整列した設定で,体系的に評価した。 OpenAIの初期のモデルに関する我々の振り返り研究は、GPT-3からGPT-4への進化経路に関する貴重な洞察を提供する。 コードデータを追加することでLCMの推論能力が改善されるかどうか、SFTとRLHFによってLCMの能力のどの面が改善されるのか、アライメント税はいくらになるのか、といった技術的な詳細を含む。 我々の分析は、先進LLMの透明性向上を目的として、これらの疑問の多くに光を当てている。

With the rapid advancement of large language models (LLMs), there is a pressing need for a comprehensive evaluation suite to assess their capabilities and limitations. Existing LLM leaderboards often reference scores reported in other papers without consistent settings and prompts, which may inadvertently encourage cherry-picking favored settings and prompts for better results. In this work, we introduce GPT-Fathom, an open-source and reproducible LLM evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+ leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across 7 capability categories, all under aligned settings. Our retrospective study on OpenAI's earlier models offers valuable insights into the evolutionary path from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3 progressively improves to GPT-4, including technical details like whether adding code data improves LLM's reasoning capability, which aspects of LLM capability can be improved by SFT and RLHF, how much is the alignment tax, etc. Our analysis sheds light on many of these questions, aiming to improve the transparency of advanced LLMs.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# Gaussian Splatting を用いたテキストから3Dへの変換

Text-to-3D using Gaussian Splatting ( http://arxiv.org/abs/2309.16585v4 )

ライセンス: Link先を確認
Zilong Chen, Feng Wang, Yikai Wang, Huaping Liu, (参考訳) SDS(Score Distillation Sampling)とボリュームレンダリングの最適化を組み合わせたテキストから3Dへの自動生成は、現実的な3Dオブジェクトの合成において顕著な進歩を遂げた。 しかし、SDSやボリュームレンダリングによる既存のテキストから3Dの手法の多くは、ジャヌス問題のような不正確な幾何学に悩まされている。 また、色豊かな精巧な3Dモデルを作るのには通常時間がかかります。 そこで本研究では,最新の最先端表現であるガウススプラッティングをテキストから3D生成に適用する新しい手法であるGSGENを提案する。 GSGENは、高品質な3Dオブジェクトを生成し、既存の欠点に対処することを目的としている。 具体的には、幾何最適化段階と外観改善段階を含むプログレッシブ最適化戦略を採用する。 幾何最適化では、通常の2次元SDS最適化とともに3次元点雲拡散の下で粗い表現が確立され、感度と3次元一貫性の粗い形状が確保される。 その後、得られたガウス人はテクスチャの詳細を豊かにするために反復的な外観の洗練を施した。 この段階では、コンパクト性に基づく密度化によりガウスの数が増加し、連続性を高め、忠実性を向上させる。 これらの設計により、我々は繊細な細部と正確な形状で3Dアセットを作成できる。 広汎な評価は,特に高周波成分の捕捉に有効であることを示す。 私たちのコードはhttps://github.com/gsgen3d/gsgenで利用可能です。

Automatic text-to-3D generation that combines Score Distillation Sampling (SDS) with the optimization of volume rendering has achieved remarkable progress in synthesizing realistic 3D objects. Yet most existing text-to-3D methods by SDS and volume rendering suffer from inaccurate geometry, e.g., the Janus issue, since it is hard to explicitly integrate 3D priors into implicit 3D representations. Besides, it is usually time-consuming for them to generate elaborate 3D models with rich colors. In response, this paper proposes GSGEN, a novel method that adopts Gaussian Splatting, a recent state-of-the-art representation, to text-to-3D generation. GSGEN aims at generating high-quality 3D objects and addressing existing shortcomings by exploiting the explicit nature of Gaussian Splatting that enables the incorporation of 3D prior. Specifically, our method adopts a progressive optimization strategy, which includes a geometry optimization stage and an appearance refinement stage. In geometry optimization, a coarse representation is established under 3D point cloud diffusion prior along with the ordinary 2D SDS optimization, ensuring a sensible and 3D-consistent rough shape. Subsequently, the obtained Gaussians undergo an iterative appearance refinement to enrich texture details. In this stage, we increase the number of Gaussians by compactness-based densification to enhance continuity and improve fidelity. With these designs, our approach can generate 3D assets with delicate details and accurate geometry. Extensive evaluations demonstrate the effectiveness of our method, especially for capturing high-frequency components. Our code is available at https://github.com/gsgen3d/gsgen
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# プレトレイン・プロンプト・トランスファー:サイバー物理システムにおける時間-事象分析のためのディジタル双生児の進化

Pretrain, Prompt, and Transfer: Evolving Digital Twins for Time-to-Event Analysis in Cyber-physical Systems ( http://arxiv.org/abs/2310.00032v3 )

ライセンス: Link先を確認
Qinghua Xu, Tao Yue, Shaukat Ali, Maite Arratibel, (参考訳) CPS(Cyber-Physical Systems)やエレベーターシステム、自動運転システムは、私たちの日常生活に徐々に浸透しています。 安全性を確保するためには,異常検出や時間-時間分析(本論文の焦点)など,さまざまな分析を行う必要がある。 近年,デジタル双極子(DT)は,CPSの開発,保守,安全・安全な運用を支援するための効率的な方法として有効であることが広く受け入れられている。 しかし、CPSは新しくまたは更新された機能によって頻繁に進化し、それに対応するDT、すなわちCPSと同期するように要求される。 そこで本研究では,DT の進化に不確実性を考慮したトランスファー学習を利用した PPT という新しい手法を提案する。 具体的には、まず、事前学習データセットを用いてPTTを事前訓練し、CPSに関する一般的な知識を取得し、その後、迅速なチューニングの助けを借りて特定のCPSに適応する。 その結果, PPTはエレベーターとADSの両方のケーススタディにおいて, ハマーロスの点で平均7.31, 12.58の基準線法を上回り, タイム・ツー・イベント解析に有効であることが示唆された。 また,2つのケーススタディにおいて,ハマー損失を少なくとも21.32,3.14,4.08に減少させることで,転送学習,即時チューニング,不確実性定量化の有効性を確認した。

Cyber-Physical Systems (CPSs), e.g., elevator systems and autonomous driving systems, are progressively permeating our everyday lives. To ensure their safety, various analyses need to be conducted, such as anomaly detection and time-to-event analysis (the focus of this paper). Recently, it has been widely accepted that digital Twins (DTs) can serve as an efficient method to aid in the development, maintenance, and safe and secure operation of CPSs. However, CPSs frequently evolve, e.g., with new or updated functionalities, which demand their corresponding DTs be co-evolved, i.e., in synchronization with the CPSs. To that end, we propose a novel method, named PPT, utilizing an uncertainty-aware transfer learning for DT evolution. Specifically, we first pretrain PPT with a pretraining dataset to acquire generic knowledge about the CPSs, followed by adapting it to a specific CPS with the help of prompt tuning. Results highlight that PPT is effective in time-to-event analysis in both elevator and ADSs case studies, on average, outperforming a baseline method by 7.31 and 12.58 in terms of Huber loss, respectively. The experiment results also affirm the effectiveness of transfer learning, prompt tuning and uncertainty quantification in terms of reducing Huber loss by at least 21.32, 3.14 and 4.08, respectively, in both case studies.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# 自己データに基づく生成モデルの反復的再学習の安定性について

On the Stability of Iterative Retraining of Generative Models on their own Data ( http://arxiv.org/abs/2310.00429v5 )

ライセンス: Link先を確認
Quentin Bertrand, Avishek Joey Bose, Alexandre Duplessis, Marco Jiralerspong, Gauthier Gidel, (参考訳) 深層生成モデルは複雑なデータのモデリングにおいて大きな進歩を遂げており、しばしばサンプルの真正性を識別する典型的な人間の能力を超えた世代品質を示す。 必然的に、この成功の鍵となる要因は、これらのモデルが消費する大量のWebスケールデータによって実現される。 これらのモデルの性能と可用性の容易さにより、Webは必然的に、合成コンテンツで人口が増えます。 このような事実は、生成モデルの将来のイテレーションが、過去のモデルからクリーンで人工的に生成されたデータの両方に基づいてトレーニングされることを直接意味している。 本稿では,実データに対する古典的トレーニングから,純粋に合成されたデータに基づく自己消費生成モデルまで,混合データセットに対する生成モデルのトレーニングの影響を厳格に研究する枠組みを開発する。 まず、初期生成モデルがデータ分布を十分に近似し、クリーンなトレーニングデータ(w.r. 合成データ)の比率が十分に大きいという条件下で反復学習の安定性を証明した。 我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。

Deep generative models have made tremendous progress in modeling complex data, often exhibiting generation quality that surpasses a typical human's ability to discern the authenticity of samples. Undeniably, a key driver of this success is enabled by the massive amounts of web-scale data consumed by these models. Due to these models' striking performance and ease of availability, the web will inevitably be increasingly populated with synthetic content. Such a fact directly implies that future iterations of generative models will be trained on both clean and artificially generated data from past models. In this paper, we develop a framework to rigorously study the impact of training generative models on mixed datasets -- from classical training on real data to self-consuming generative models trained on purely synthetic data. We first prove the stability of iterative training under the condition that the initial generative models approximate the data distribution well enough and the proportion of clean training data (w.r.t. synthetic data) is large enough. We empirically validate our theory on both synthetic and natural images by iteratively training normalizing flows and state-of-the-art diffusion models on CIFAR10 and FFHQ.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-02
# TEMPO: 時系列予測のためのプロンプトベース生成事前学習変換器

TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting ( http://arxiv.org/abs/2310.04948v3 )

ライセンス: Link先を確認
Defu Cao, Furong Jia, Sercan O Arik, Tomas Pfister, Yixiang Zheng, Wen Ye, Yan Liu, (参考訳) 過去10年間、ディープラーニングを使った時系列モデリングにおいて、大きな進歩が見られた。 最先端の結果を達成する一方で、最高のパフォーマンスのアーキテクチャはアプリケーションやドメインによって大きく異なります。 一方、自然言語処理では、GPT(Generative Pre-trained Transformer)が、さまざまなテキストデータセットにまたがる1つの汎用モデルをトレーニングすることで、素晴らしいパフォーマンスを誇示している。 GPT型アーキテクチャが時系列に有効であるかどうかを探求し、本質的な動的属性をキャプチャし、精度を大幅に向上させる。 本稿では,時系列表現を効果的に学習できる新しいフレームワークTEMPOを提案する。 我々は、事前学習されたモデルに時系列タスクの2つの本質的な帰納バイアスを利用することに焦点をあてる。 一 傾向、季節、残留成分の複雑な相互作用の分解、及び (II)異なる種類の時系列の分布適応を容易にするプロンプトの設計を導入する。 TEMPOは、様々な領域のデータから現実世界の時間現象を動的にモデル化する機能を拡張する。 本実験は,多数の時系列ベンチマークデータセットに対するゼロショット設定における最先端手法よりもTEMPOの方が優れた性能を示す。 このパフォーマンス向上は、これまで見つからなかったデータセットを含むシナリオだけでなく、マルチモーダルな入力を持つシナリオでも観測される。 この魅力的な発見は、基礎的なモデル構築フレームワークを構成するTEMPOの可能性を強調します。

The past decade has witnessed significant advances in time series modeling with deep learning. While achieving state-of-the-art results, the best-performing architectures vary highly across applications and domains. Meanwhile, for natural language processing, the Generative Pre-trained Transformer (GPT) has demonstrated impressive performance via training one general-purpose model across various textual datasets. It is intriguing to explore whether GPT-type architectures can be effective for time series, capturing the intrinsic dynamic attributes and leading to significant accuracy improvements. In this paper, we propose a novel framework, TEMPO, that can effectively learn time series representations. We focus on utilizing two essential inductive biases of the time series task for pre-trained models: (i) decomposition of the complex interaction between trend, seasonal and residual components; and (ii) introducing the design of prompts to facilitate distribution adaptation in different types of time series. TEMPO expands the capability for dynamically modeling real-world temporal phenomena from data within diverse domains. Our experiments demonstrate the superior performance of TEMPO over state-of-the-art methods on zero shot setting for a number of time series benchmark datasets. This performance gain is observed not only in scenarios involving previously unseen datasets but also in scenarios with multi-modal inputs. This compelling finding highlights TEMPO's potential to constitute a foundational model-building framework.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# AI時代のプログラミングの教え方 : LLMをデバッグのための教育可能なエージェントとして使う

How to Teach Programming in the AI Era? Using LLMs as a Teachable Agent for Debugging ( http://arxiv.org/abs/2310.05292v3 )

ライセンス: Link先を確認
Qianou Ma, Hua Shen, Kenneth Koedinger, Tongshuang Wu, (参考訳) 大規模言語モデル(LLM)は、生成スキルに優れ、実行不可能な速度でコンテンツを作成することができる。 しかし、これらは不完全であり、いまだに様々な誤りを犯している。 コンピュータサイエンス教育の文脈では、これらのモデルは「AIペアプログラマ」と広く認識されているため、LLM生成コードの評価とデバッグを学生に教えることがますます重要になっている。 本研究では,人間の初心者がヘルプアシスタントの役割を担い,LLMによるデバッグ可能なエージェントのデバッグを支援する新しいシステムであるHypoCompassを紹介する。 この学習教育環境において、学生とLLMの効果的なタスク委譲を可能にする。学生は、コードエラーの原因を仮説化することに集中し、コード補完のような隣接するスキルはLLMエージェントにオフロードされる。 評価の結果,HypoCompassは高品質なトレーニング材料(バグや修正など)を生産し,効率を4倍に向上し,ポスト・トゥ・ポストテストにおいて,学生のデバッグ性能を12%向上した。

Large Language Models (LLMs) now excel at generative skills and can create content at impeccable speeds. However, they are imperfect and still make various mistakes. In a Computer Science education context, as these models are widely recognized as "AI pair programmers," it becomes increasingly important to train students on evaluating and debugging the LLM-generated code. In this work, we introduce HypoCompass, a novel system to facilitate deliberate practice on debugging, where human novices play the role of Teaching Assistants and help LLM-powered teachable agents debug code. We enable effective task delegation between students and LLMs in this learning-by-teaching environment: students focus on hypothesizing the cause of code errors, while adjacent skills like code completion are offloaded to LLM-agents. Our evaluations demonstrate that HypoCompass generates high-quality training materials (e.g., bugs and fixes), outperforming human counterparts fourfold in efficiency, and significantly improves student performance on debugging by 12% in the pre-to-post test.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# Rephrase, Augment, Reason:視覚言語モデルに対する質問の視覚的グラウンド

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models ( http://arxiv.org/abs/2310.05861v2 )

ライセンス: Link先を確認
Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal, (参考訳) 視覚言語タスクの数が増加するにつれて、視覚エンコーダに大型言語モデル(LLM)を組み込むことで、ゼロまたは少数ショットでトレーニングを行なわずに扱えるようになり、結果として大きな視覚言語モデル(LVLM)が生まれる。 これは、トレーニングデータやカスタムアーキテクチャを必要としないなど、大きな利点があるが、LVLMに入力がどのように提示されるかは、ゼロショットモデルのパフォーマンスに大きな影響を与える可能性がある。 特に、不特定な方法で表現された入力は、視覚情報の欠如、複雑な暗黙の推論、言語的曖昧さなどの要因によって、誤った答えをもたらす可能性がある。 したがって、プリエンプティブな明確化として入力に視覚的な接地情報を追加することで、オブジェクトのローカライズや参照の曖昧化によって、不特定性を減らし、モデル性能を向上させる必要がある。 同様に、VQA設定では、質問のフレーム化方法を変更することで、モデルが簡単に答えられるようになる。 この目的のために,LVLMをキャプタと推論器として用いた画像の健全な詳細を抽出する勾配のないフレームワークであるRephrase, Augment and Reason(RepARe)を紹介し,元の質問に対する修正を提案する。 次に、生成した回答に対するLVLMの信頼度を教師なしスコアリング関数として使用し、ゼロショット性能を改善する可能性が最も高いリフレサ付き質問を選択する。 3つの視覚的質問応答タスクに焦点をあてると、RepAReはVQAv2では3.85%(絶対)、VQAv2では6.41%、A-OKVQAでは7.94%、VizWizでは7.94%のゼロショット精度が向上する。 さらに、オラクル質問候補の選択に金の答えを使うことで、VQAの精度が最大14.41%向上することがわかった。 解析により,RepAReからの出力は構文的複雑さを増大させ,視覚-言語相互作用と凍結LDMを効果的に活用することを示した。

An increasing number of vision-language tasks can be handled with little to no training, i.e., in a zero and few-shot manner, by marrying large language models (LLMs) to vision encoders, resulting in large vision-language models (LVLMs). While this has huge upsides, such as not requiring training data or custom architectures, how an input is presented to an LVLM can have a major impact on zero-shot model performance. In particular, inputs phrased in an underspecified way can result in incorrect answers due to factors like missing visual information, complex implicit reasoning, or linguistic ambiguity. Therefore, adding visually-grounded information to the input as a preemptive clarification should improve model performance by reducing underspecification, e.g., by localizing objects and disambiguating references. Similarly, in the VQA setting, changing the way questions are framed can make them easier for models to answer. To this end, we present Rephrase, Augment and Reason (RepARe), a gradient-free framework that extracts salient details about the image using the underlying LVLM as a captioner and reasoner, in order to propose modifications to the original question. We then use the LVLM's confidence over a generated answer as an unsupervised scoring function to select the rephrased question most likely to improve zero-shot performance. Focusing on three visual question answering tasks, we show that RepARe can result in a 3.85% (absolute) increase in zero-shot accuracy on VQAv2, 6.41%, and 7.94% points increase on A-OKVQA, and VizWiz respectively. Additionally, we find that using gold answers for oracle question candidate selection achieves a substantial gain in VQA accuracy by up to 14.41%. Through extensive analysis, we demonstrate that outputs from RepARe increase syntactic complexity, and effectively utilize vision-language interaction and the frozen LLM.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# Hexa:知識を中心とした対話システムのための自己改善

Hexa: Self-Improving for Knowledge-Grounded Dialogue System ( http://arxiv.org/abs/2310.06404v3 )

ライセンス: Link先を確認
Daejin Jo, Daniel Wontae Nam, Gunsoo Han, Kyoung-Woon On, Taehwan Kwon, Seungeun Rho, Sungwoong Kim, (参考訳) 知識基底ダイアログ生成の一般的な実践は、モジュール的なアプローチで中間ステップ(例えば、Web検索、メモリ検索)を明示的に利用することである。 しかし、通常の対話では観測できないため、このようなステップのデータは対話応答のデータに比べてアクセスし難いことが多い。 そこで本研究では,これらのデータの欠如を補うために,基本真理データなしで中間段階の生成性能を向上させる自己改善手法を開発した。 特に、適切な自己生成応答の多様性を高めるために、誘導プロンプトと改良された損失関数を備えた新しいブートストラップ方式を提案する。 種々のベンチマークデータセットの実験を通じて,本手法は中間応答と最終応答を生成する自己改善機構をうまく活用し,知識基底型対話生成のタスクにおける性能を向上させることを実証的に実証した。

A common practice in knowledge-grounded dialogue generation is to explicitly utilize intermediate steps (e.g., web-search, memory retrieval) with modular approaches. However, data for such steps are often inaccessible compared to those of dialogue responses as they are unobservable in an ordinary dialogue. To fill in the absence of these data, we develop a self-improving method to improve the generative performances of intermediate steps without the ground truth data. In particular, we propose a novel bootstrapping scheme with a guided prompt and a modified loss function to enhance the diversity of appropriate self-generated responses. Through experiments on various benchmark datasets, we empirically demonstrate that our method successfully leverages a self-improving mechanism in generating intermediate and final responses and improves the performances on the task of knowledge-grounded dialogue generation.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# ICLには注意が必要であるか? モデルアーキテクチャと文脈内学習能力の関係を探る

Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability ( http://arxiv.org/abs/2310.08049v3 )

ライセンス: Link先を確認
Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick, (参考訳) モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか? この経験的研究では、この疑問に答える第一歩を踏み出す。 そこで本研究では,テキスト内学習タスクのスイート間で因果的言語モデリングが可能な13のモデルアーキテクチャを評価した。 これらの選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、状態空間モデルにインスパイアされた、その他の注目の代替品など、幅広いパラダイムを表現している。 検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習が可能であることが判明した。 さらに,テキスト内サンプル数やタスク難易度を変化させることで,統計的効率と一貫性の相違を観察する。 また、各アーキテクチャのコンテキスト内学習に対する前処理を、コンテキスト内サンプルを活用するのではなく記憶するオプションとして提示する。 最後に、驚くべきことに、いくつかの注意すべき代替手段が、トランスフォーマーよりもコンテキスト内学習者と競合することがある。 しかしながら、すべてのタスク間で一貫性を示す単一のアーキテクチャはなく、勾配ベースのトレーニングで発生するものよりもはるかに多くのコンテキスト内例に直面したとき、パフォーマンスが低下する。

What is the relationship between model architecture and the ability to perform in-context learning? In this empirical study, we take the first steps toward answering this question. We evaluate thirteen model architectures capable of causal language modeling across a suite of synthetic in-context learning tasks. These selected architectures represent a broad range of paradigms, including recurrent and convolution-based neural networks, transformers, state space model inspired, and other emerging attention alternatives. We discover that all the considered architectures can perform in-context learning under a wider range of conditions than previously documented. Additionally, we observe stark differences in statistical efficiency and consistency by varying the number of in-context examples and task difficulty. We also measure each architecture's predisposition towards in-context learning when presented with the option to memorize rather than leverage in-context examples. Finally, and somewhat surprisingly, we find that several attention alternatives are sometimes competitive with or better in-context learners than transformers. However, no single architecture demonstrates consistency across all tasks, with performance either plateauing or declining when confronted with a significantly larger number of in-context examples than those encountered during gradient-based training.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# 大規模言語モデルによる構成検証

Configuration Validation with Large Language Models ( http://arxiv.org/abs/2310.09690v2 )

ライセンス: Link先を確認
Xinyu Lian, Yinfang Chen, Runxiang Cheng, Jie Huang, Parth Thakkar, Minjia Zhang, Tianyin Xu, (参考訳) 設定ミスは、ソフトウェアの失敗の主な原因です。 既存のプラクティスは、コストのかかる設定を検証するために、開発者記述のルールやテストケースに依存しています。 構成検証のための機械学習(ML)は有望な方向と考えられているが、大規模フィールドデータやシステム固有のモデルの必要性といった課題に直面している。 LLM(Large Language Models)の最近の進歩は、MLベースの構成検証の長期的制限に対処する上で、有望であることを示している。 構成検証にLLMを用いることの有効性と有効性について検討した。 汎用的なLCMベースの構成検証フレームワークCiriを開発することにより,LCMを構成検証ツールとして実証的に評価する。 Ciriは有効なプロンプトエンジニアリングを採用し、有効な設定データと設定ミスデータの両方に基づいて数ショットの学習を行う。 Ciri は LLM から出力を確認し、LLM の幻覚と非決定性に対処する。 本研究では,広くデプロイされている10のオープンソースシステムの構成データを用いて,8つの LLM 上での Ciri の有効性を評価する。 分析(1)では,LCMを用いて構成検証を行う可能性を確認し,(2)CiriのようなLCMベースのバリデータの設計空間を探索し,(3)ある種の誤設定の検出や,一般的な構成パラメータへのバイアスといったオープンな課題を明らかにする。

Misconfigurations are major causes of software failures. Existing practices rely on developer-written rules or test cases to validate configurations, which are expensive. Machine learning (ML) for configuration validation is considered a promising direction, but has been facing challenges such as the need of large-scale field data and system-specific models. Recent advances in Large Language Models (LLMs) show promise in addressing some of the long-lasting limitations of ML-based configuration validation. We present a first analysis on the feasibility and effectiveness of using LLMs for configuration validation. We empirically evaluate LLMs as configuration validators by developing a generic LLM-based configuration validation framework, named Ciri. Ciri employs effective prompt engineering with few-shot learning based on both valid configuration and misconfiguration data. Ciri checks outputs from LLMs when producing results, addressing hallucination and nondeterminism of LLMs. We evaluate Ciri's validation effectiveness on eight popular LLMs using configuration data of ten widely deployed open-source systems. Our analysis (1) confirms the potential of using LLMs for configuration validation, (2) explores design space of LLMbased validators like Ciri, and (3) reveals open challenges such as ineffectiveness in detecting certain types of misconfigurations and biases towards popular configuration parameters.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# 中国医学ファウンデーションモデルにおける自己診断的原子知識の定量化:計算解析

Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis ( http://arxiv.org/abs/2310.11722v3 )

ライセンス: Link先を確認
Yaxin Fan, Feng Jiang, Benyou Wang, Peifeng Li, Haizhou Li, (参考訳) ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。 近年の研究では, GPT-4で評価されたFMの品質や, 医学試験に合格する能力に焦点が当てられ, FMの記憶に蓄積される自己診断的原子知識の程度を定量化する研究は行われていない。 本稿では,17種類の原子型と14,048個の原子知識を含む,自己診断的原子知識(SdAK)のベンチマークを構築した。 そして,そのベンチマークを用いて,汎用的およびオープンソースな漢方医療FMの評価を行った。 実験の結果,一般FMは自己診断的原子知識の観点から医療用FMよりも優れた性能を示した。 エラー解析により、一般的なFMと医療用FMはどちらもサイコファンであり、例えば、未知の知識に関しては常にユーザーの主張に注意を払っていることがわかった。 さらに, 微調整医療用FM, すなわち実世界, 半蒸留, 蒸留データに共通するさまざまな種類のデータについて検討し, 蒸留データが最もFMに有効であることを示した。 コードとデータはhttps://github.com/FreedomIntelligence/SDAKで公開されている。

Foundation Models (FMs) have the potential to revolutionize the way users self-diagnose through search engines by offering direct and efficient suggestions. Recent studies primarily focused on the quality of FMs evaluated by GPT-4 or their ability to pass medical exams, no studies have quantified the extent of self-diagnostic atomic knowledge stored in FMs' memory, which is the basis of foundation models to provide factual and reliable suggestions. In this paper, we first constructed a benchmark of Self-diagnostic Atomic Knowledge (SdAK), including the most common types of atomic knowledge involved in self-diagnostic queries, with 17 atomic types and a total of 14, 048 pieces of atomic knowledge. Then, we evaluated both generic and open-source Chinese medical FMs on the benchmark. The experimental results showcase that generic FMs perform better than medical FMs in terms of self-diagnostic atomic knowledge. Error analysis revealed that both generic and medical FMs are sycophantic, e.g., always catering to users' claims when it comes to unknown knowledge. We further explored different types of data commonly adopted for fine-tuning medical FMs, i.e., real-world, semi-distilled, and distilled data, and found that distilled data can benefit FMs most. The code and data are available at https://github.com/FreedomIntelligence/SDAK.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# マルチタスクネットワークを用いた短距離相関による量子特性の学習

Learning quantum properties from short-range correlations using multi-task networks ( http://arxiv.org/abs/2310.11807v3 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Yuexuan Wang, Giulio Chiribella, (参考訳) 多部量子システムの特徴付けは、量子コンピューティングと多体物理学にとって不可欠である。 しかし、システムのサイズが大きくなると問題は難しくなり、多くの粒子間の相関関係が注目される。 本稿では, 近接する少数のサイトからの測定データのみを用いて, 一定の相関長を持つ多体量子状態の様々な量子特性を予測できるニューラルネットワークモデルを提案する。 このモデルはマルチタスク学習の技術に基づいており、従来のシングルタスクアプローチよりもいくつかの利点があることを示す。 数値実験により,文字列順序パラメータなどのグローバルな特性を,短距離相関の観測から予測し,単一タスクネットワークでは区別できない量子位相を区別するために,マルチタスク学習が十分に正規な状態に適用可能であることを示す。 注目すべきは、我々のモデルは、低次元量子系から高次元の量子系に学習した情報を転送し、訓練で見られなかったハミルトンの正確な予測を行うことができるように思われる。

Characterizing multipartite quantum systems is crucial for quantum computing and many-body physics. The problem, however, becomes challenging when the system size is large and the properties of interest involve correlations among a large number of particles. Here we introduce a neural network model that can predict various quantum properties of many-body quantum states with constant correlation length, using only measurement data from a small number of neighboring sites. The model is based on the technique of multi-task learning, which we show to offer several advantages over traditional single-task approaches. Through numerical experiments, we show that multi-task learning can be applied to sufficiently regular states to predict global properties, like string order parameters, from the observation of short-range correlations, and to distinguish between quantum phases that cannot be distinguished by single-task networks. Remarkably, our model appears to be able to transfer information learnt from lower dimensional quantum systems to higher dimensional ones, and to make accurate predictions for Hamiltonians that were not seen in the training.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-02
# サブミクロン4H-SiC膜におけるV2中心のスペクトル安定性

Spectral stability of V2 centres in sub-micron 4H-SiC membranes ( http://arxiv.org/abs/2310.12617v2 )

ライセンス: Link先を確認
Jonah Heiler, Jonathan Körber, Erik Hesselmeier, Pierre Kuna, Rainer Stöhr, Philipp Fuchs, Misagh Ghezellou, Jawad Ul-Hassan, Wolfgang Knolle, Christoph Becher, Florian Kaiser, Jörg Wrachtrup, (参考訳) 炭化ケイ素中の色中心は、優れたスピン光学コヒーレンスを持つ有望な半導体量子技術プラットフォームとして出現するが、近年のナノフォトニック構造への集積による光効率の最大化への取り組みは、スペクトル安定性の低下により困難であることが判明した。 ここでは, 厚さが0.25\,\rm\mu m$までの炭化ケイ素薄膜中のシリコン空孔中心を大規模に解析する。 製膜工程は, 化学機械研磨, 反応性イオンエッチング, およびその後の熱処理を組み合わせた。 これにより、粗さ値が3-4\,\rm\r{A}$の高再現性膜と、無視可能な表面蛍光が生じる。 シリコン空孔中心は、波長が0.7 \,\rm\mu m$の膜厚までさまようスペクトルの兆候がほとんどない、光線幅がほぼ一生に限られていることが判明した。 薄膜中のシリコン空孔中心が0.25\,\rm\mu m$以下の場合、光線幅は200\,\rm MHz$以下であり、スピン選択励起スキームと互換性がある。 本研究は, シリコン空孔中心をサブミクロンシリコン炭化物膜に統合し, ナノフォトニック構造に基づく光子抽出効率の向上に向けての道を開くことを明らかにした。

Colour centres in silicon carbide emerge as a promising semiconductor quantum technology platform with excellent spin-optical coherences.However, recent efforts towards maximising the photonic efficiency via integration into nanophotonic structures proved to be challenging due to reduced spectral stabilities. Here, we provide a large-scale systematic investigation on silicon vacancy centres in thin silicon carbide membranes with thicknesses down to $0.25\,\rm\mu m$. Our membrane fabrication process involves a combination of chemical mechanical polishing, reactive ion etching, and subsequent annealing. This leads to highly reproducible membranes with roughness values of $3-4\,\rm\r{A}$, as well as negligible surface fluorescence. We find that silicon vacancy centres show close-to lifetime limited optical linewidths with almost no signs of spectral wandering down to membrane thicknesses of $0.7 \,\rm\mu m$. For silicon vacancy centres in thinner membranes down to $0.25\,\rm\mu m$, we observe spectral wandering, however, optical linewidths remain below $200\,\rm MHz$, which is compatible with spin-selective excitation schemes. Our work clearly shows that silicon vacancy centres can be integrated into sub-micron silicon carbide membranes, which opens the avenue towards obtaining the necessary improvements in photon extraction efficiency based on nanophotonic structuring.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-02
# PatchCURE: 認証ロバスト性, モデルユーティリティ, 計算効率の向上

PatchCURE: Improving Certifiable Robustness, Model Utility, and Computation Efficiency of Adversarial Patch Defenses ( http://arxiv.org/abs/2310.13076v2 )

ライセンス: Link先を確認
Chong Xiang, Tong Wu, Sihui Dai, Jonathan Petit, Suman Jana, Prateek Mittal, (参考訳) 敵のパッチ攻撃に対する最先端の防御は、モデルユーティリティの限界低下とともに、強力な証明可能な堅牢性を達成することができる。 しかしながら、この印象的なパフォーマンスは通常、未定義のモデルと比較して10~100倍の推論時間計算コストがかかる。 本稿では,このトレードオフ問題に対処するためのPatchCUREという防衛フレームワークを提案する。 最も堅牢なPatchCUREインスタンスは、(効率を考慮せずに)既存の最先端のディフェンスのパフォーマンスと一致させることができる。 特に、PatchCUREは、あらゆる異なる効率レベル、例えば、16-23%の絶対的クリーンな正確さと、未修正モデルに近い計算効率を必要とする場合の事前の防御よりも堅牢な精度の利点を証明した、最先端の堅牢性と実用性を達成する。 PatchCUREディフェンスのファミリーは、与えられた計算および/または実用上の制約を満たすための適切なディフェンスを柔軟に選択することができる。

State-of-the-art defenses against adversarial patch attacks can now achieve strong certifiable robustness with a marginal drop in model utility. However, this impressive performance typically comes at the cost of 10-100x more inference-time computation compared to undefended models -- the research community has witnessed an intense three-way trade-off between certifiable robustness, model utility, and computation efficiency. In this paper, we propose a defense framework named PatchCURE to approach this trade-off problem. PatchCURE provides sufficient "knobs" for tuning defense performance and allows us to build a family of defenses: the most robust PatchCURE instance can match the performance of any existing state-of-the-art defense (without efficiency considerations); the most efficient PatchCURE instance has similar inference efficiency as undefended models. Notably, PatchCURE achieves state-of-the-art robustness and utility performance across all different efficiency levels, e.g., 16-23% absolute clean accuracy and certified robust accuracy advantages over prior defenses when requiring computation efficiency to be close to undefended models. The family of PatchCURE defenses enables us to flexibly choose appropriate defenses to satisfy given computation and/or utility constraints in practice.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-02
# キキかブバか : 視覚・言語モデルにおける音のシンボリズム

Kiki or Bouba? Sound Symbolism in Vision-and-Language Models ( http://arxiv.org/abs/2310.16781v3 )

ライセンス: Link先を確認
Morris Alper, Hadar Averbuch-Elor, (参考訳) 人間の言語における音と意味のマッピングは概ね任意であると仮定されているが、認知科学の研究では、特定の音と意味の間には言語と人口集団の間で非自明な相関関係があることが示されている。 多くの意味の次元の中で、音の象徴は特に、言語と視覚領域の相互関連に関して、健全でよく実証されている。 本稿では,CLIPやStable Diffusionのような視覚・言語モデルにおいて,音の記号が反映されているかという問題に対処する。 これらのモデルの本質的知識を調べるためにゼロショット知識を用いて、精神言語学においてよく知られたキキブバ効果と平行して、それらがこのパターンを示すという強い証拠を見出した。 本研究は,音の象徴性を表現し,その性質を計算ツールを用いて理解するための新しい手法を提供する。 私たちのコードは公開されます。

Although the mapping between sound and meaning in human language is assumed to be largely arbitrary, research in cognitive science has shown that there are non-trivial correlations between particular sounds and meanings across languages and demographic groups, a phenomenon known as sound symbolism. Among the many dimensions of meaning, sound symbolism is particularly salient and well-demonstrated with regards to cross-modal associations between language and the visual domain. In this work, we address the question of whether sound symbolism is reflected in vision-and-language models such as CLIP and Stable Diffusion. Using zero-shot knowledge probing to investigate the inherent knowledge of these models, we find strong evidence that they do show this pattern, paralleling the well-known kiki-bouba effect in psycholinguistics. Our work provides a novel method for demonstrating sound symbolism and understanding its nature using computational tools. Our code will be made publicly available.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-02
# MCAD:効率的な画像テキスト検索のためのマルチ教師クロスモーダルアライメント蒸留

MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval ( http://arxiv.org/abs/2310.19654v3 )

ライセンス: Link先を確認
Youbo Lei, Feifei He, Chen Chen, Yingbin Mo, Si Jia Li, Defeng Xie, Haonan Lu, (参考訳) 大規模ビジュアル言語事前学習(VLP)モデルの成功と,産業領域における画像テキスト検索の普及により,モデルサイズを削減し,モバイルデバイス展開を合理化することが重要になった。 シングルストリームモデルとデュアルストリームモデル構造は、テキストと視覚のセマンティックギャップを埋めることを目的として、画像テキスト検索で一般的に使用される。 シングルストリームモデルは、より正確なクロスモデルアライメントを実現するために、深い特徴融合を用いるが、デュアルストリームモデルはオフラインインデックス化と高速推論に優れており、シングルストリームモデルとデュアルストリームモデルの利点を統合するために、マルチTeacher Cross-modality Alignment Distillation (MCAD)技術を提案する。 両ストリームモデルのイメージとテキストの特徴に融合した単一ストリーム特徴を組み込むことで,教師の類似度分布と特徴を新たに定義する。 そして,学生の2重ストリームモデルの性能向上を図るため,分布と特徴蒸留を併用し,推論複雑性を増大させることなく高い検索性能を実現し,画像テキスト検索タスクにおけるMCADの顕著な性能と高い効率を実証する実験を行った。 さらに、Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し、動作メモリが$\sim$100M、検索遅延が$\sim$8.0msで、VLPモデルのモバイルデバイスアプリケーションを実現する。

Due to the success of large-scale visual-language pretraining (VLP) models and the widespread use of image-text retrieval in industry areas, it is now critically necessary to reduce the model size and streamline their mobile-device deployment. Single- and dual-stream model structures are commonly used in image-text retrieval with the goal of closing the semantic gap between textual and visual modalities. While single-stream models use deep feature fusion to achieve more accurate cross-model alignment, dual-stream models are better at offline indexing and fast inference.We propose a Multi-teacher Cross-modality Alignment Distillation (MCAD) technique to integrate the advantages of single- and dual-stream models. By incorporating the fused single-stream features into the image and text features of the dual-stream model, we formulate new modified teacher similarity distributions and features. Then, we conduct both distribution and feature distillation to boost the capability of the student dual-stream model, achieving high retrieval performance without increasing inference complexity.Extensive experiments demonstrate the remarkable performance and high efficiency of MCAD on image-text retrieval tasks. Furthermore, we implement a lightweight CLIP model on Snapdragon/Dimensity chips with only $\sim$100M running memory and $\sim$8.0ms search latency, achieving the mobile-device application of VLP models.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-02
# 連続出力ニューラルマシン翻訳におけるランダムターゲット埋め込みの有効性

The Unreasonable Effectiveness of Random Target Embeddings for Continuous-Output Neural Machine Translation ( http://arxiv.org/abs/2310.20620v2 )

ライセンス: Link先を確認
Evgeniia Tokarchuk, Vlad Niculae, (参考訳) 連続出力ニューラルマシン翻訳(CoNMT)は、離散的な次ワード予測問題を埋め込み予測に置き換える。 対象埋め込み空間のセマンティック構造(すなわち、関連する単語の近接性)は直感的に重要であると信じられている。 この仮定に挑戦し、特に大規模なデータセットにおいて、完全にランダムな出力の埋め込みが、厳しい事前訓練よりも優れていることを示す。 さらなる調査により、この驚くべき効果は、その埋め込みの幾何学のため、稀な単語にとって最も強いことが示されている。 我々は、異なるトークンに対するランダムな埋め込みと事前学習された埋め込みを組み合わせた混合戦略を設計することによって、この発見をさらに強調した。

Continuous-output neural machine translation (CoNMT) replaces the discrete next-word prediction problem with an embedding prediction. The semantic structure of the target embedding space (i.e., closeness of related words) is intuitively believed to be crucial. We challenge this assumption and show that completely random output embeddings can outperform laboriously pretrained ones, especially on larger datasets. Further investigation shows this surprising effect is strongest for rare words, due to the geometry of their embeddings. We shed further light on this finding by designing a mixed strategy that combines random and pre-trained embeddings for different tokens.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-02
# FedSN: LEO衛星ネットワーク上の新しいフェデレーション学習フレームワーク

FedSN: A Novel Federated Learning Framework over LEO Satellite Networks ( http://arxiv.org/abs/2311.01483v4 )

ライセンス: Link先を確認
Zheng Lin, Zhe Chen, Zihan Fang, Xianhao Chen, Xiong Wang, Yue Gao, (参考訳) 最近、SpaceXなどの商業企業によって、多くの低軌道軌道(LEO)衛星が打ち上げられ、宇宙展開に成功している。 LEO衛星が搭載するマルチモーダルセンサにより、通信だけでなく、空間変調認識やリモートセンシング画像分類など、さまざまな機械学習アプリケーションにも機能する。 しかし、地上局(GS)は、LEO衛星との接触時間(例えば5分)が限られているため、このような大量の生のセンシングデータをダウンロードできない可能性がある。 そのため、デバイス上でのトレーニングを通じてこの問題に対処するための有望なソリューションとして、フェデレートラーニング(FL)が登場している。 残念ながら、LEO衛星でFLを有効にするには、我々は3つの重要な課題に直面している。 一 異種計算及び記憶能力 二 アップリンク率の制限、及び 三 モデル安定度 この目的のために,これらの課題に対処するための一般FLフレームワークとしてFedSNを提案し,LEO衛星上でのデータ多様性について検討する。 具体的には、LEO衛星上の異なる計算、メモリ、通信制約を考慮した異種局所モデルトレーニングを可能にする新しいサブ構造スキームを提案する。 さらに,モデルの安定化を補うために,モデルアグリゲーションを動的にスケジュールする擬似同期モデルアグリゲーション戦略を提案する。 FedSNの有効性をさらに実証するため,実世界の衛星ネットワークからのデータを活用し,空間変調認識とリモートセンシング画像分類タスクを用いて評価を行った。 大規模な実験結果から,FedSNフレームワークは最先端ベンチマークよりも高い精度,低演算,通信オーバヘッドを実現し,FedSNの各コンポーネントの有効性が示された。

Recently, a large number of Low Earth Orbit (LEO) satellites have been launched and deployed successfully in space by commercial companies, such as SpaceX. Due to multimodal sensors equipped by the LEO satellites, they serve not only for communication but also for various machine learning applications, such as space modulation recognition, remote sensing image classification, etc. However, the ground station (GS) may be incapable of downloading such a large volume of raw sensing data for centralized model training due to the limited contact time with LEO satellites (e.g. 5 minutes). Therefore, federated learning (FL) has emerged as the promising solution to address this problem via on-device training. Unfortunately, to enable FL on LEO satellites, we still face three critical challenges that are i) heterogeneous computing and memory capabilities, ii) limited uplink rate, and iii) model staleness. To this end, we propose FedSN as a general FL framework to tackle the above challenges, and fully explore data diversity on LEO satellites. Specifically, we first present a novel sub-structure scheme to enable heterogeneous local model training considering different computing, memory, and communication constraints on LEO satellites. Additionally, we propose a pseudo-synchronous model aggregation strategy to dynamically schedule model aggregation for compensating model staleness. To further demonstrate the effectiveness of the FedSN, we evaluate it using space modulation recognition and remote sensing image classification tasks by leveraging the data from real-world satellite networks. Extensive experimental results demonstrate that FedSN framework achieves higher accuracy, lower computing, and communication overhead than the state-of-the-art benchmarks and the effectiveness of each components in FedSN.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# HIPTrack: 歴史的プロンプトによるビジュアルトラッキング

HIPTrack: Visual Tracking with Historical Prompts ( http://arxiv.org/abs/2311.02072v2 )

ライセンス: Link先を確認
Wenrui Cai, Qingjie Liu, Yunhong Wang, (参考訳) シームズパラダイムに従うトラッカーは、追跡のためにテンプレートと検索領域の機能の類似性マッチングを利用する。 多くの手法が追跡履歴を取り入れて,変形や閉塞といったターゲットの外観変化を含むシナリオをよりよく扱えるようにすることで,追跡性能を向上させるために研究されている。 しかし、既存の手法における履歴情報の利用は不十分であり、理解できないため、通常は反復的な訓練を必要とし、大量の計算を導入する。 本稿では,シームズパラダイムに忠実かつ更新された履歴情報を追従するトラッカーを提供することにより,完全に変化しないパラメータで大幅な性能向上を実現することができることを示す。 そこで本稿では, 歴史的前景マスクとターゲットの歴史的視覚特徴を利用して, トラッカーの包括的かつ正確なプロンプトを提供する歴史的プロンプトネットワークを提案する。 我々は,履歴プロンプトネットワークに基づくHIPTrackと呼ばれる新しいトラッカーを構築し,モデル全体を再トレーニングすることなく,大幅な性能向上を実現した。 提案手法は,LaSOT, LaSOText, GOT-10k, NfSにおける現在の最先端トラッカーを超えることを示す。 さらに、過去のプロンプトネットワークは、既存のトラッカーにプラグイン・アンド・プレイモジュールとしてシームレスに統合し、パフォーマンスを向上することができる。 ソースコードはhttps://github.com/WenRuiCai/HIPTrack.comで入手できる。

Trackers that follow Siamese paradigm utilize similarity matching between template and search region features for tracking. Many methods have been explored to enhance tracking performance by incorporating tracking history to better handle scenarios involving target appearance variations such as deformation and occlusion. However, the utilization of historical information in existing methods is insufficient and incomprehensive, which typically requires repetitive training and introduces a large amount of computation. In this paper, we show that by providing a tracker that follows Siamese paradigm with precise and updated historical information, a significant performance improvement can be achieved with completely unchanged parameters. Based on this, we propose a historical prompt network that uses refined historical foreground masks and historical visual features of the target to provide comprehensive and precise prompts for the tracker. We build a novel tracker called HIPTrack based on the historical prompt network, which achieves considerable performance improvements without the need to retrain the entire model. We conduct experiments on seven datasets and experimental results demonstrate that our method surpasses the current state-of-the-art trackers on LaSOT, LaSOText, GOT-10k and NfS. Furthermore, the historical prompt network can seamlessly integrate as a plug-and-play module into existing trackers, providing performance enhancements. The source code is available at https://github.com/WenRuiCai/HIPTrack.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# ユーザ嗜好のモデリングを強化するために、レイト・コンソーシアムの分離と学習

Separating and Learning Latent Confounders to Enhancing User Preferences Modeling ( http://arxiv.org/abs/2311.03381v2 )

ライセンス: Link先を確認
Hangtong Xu, Yuanbo Xu, Yongjian Yang, (参考訳) Recommenderモデルは、過去のフィードバックからユーザの好みを捉え、候補アイテムに対してユーザ固有のフィードバックを予測することを目的としている。 しかし、様々な未測定の共同創設者の存在は、過去のフィードバックにおけるユーザの好みと真の好みの間に偏りを生じさせ、モデルが期待された性能を満たさない結果となる。 既存のデバイアスモデルでは,(1)特定のバイアスの解決に特化しているか,(2)学習した好みが真のユーザの好みであるか,あるいは計測されていない共同創設者と混在しているかを判断できない,ユーザの履歴フィードバックから直接補助情報を取得するかのいずれかが考えられる。 また, 前者の推薦システムは, 未測定の共同設立者の後継者であるだけでなく, 従来から無視されてきた, ユーザの嗜好モデリングに影響を及ぼす非測定の共同設立者としての役割も担っていることがわかった。 この目的のために、前者の推薦システムの効果を取り入れ、未測定の共同設立者全員の代理として扱う。 本稿では,非計測的共同設立者の表現を抽出し,非計測的共同設立者や非計測的共同設立者を分離・学習する新たな枠組みであるSLFRを提案し,その対象モデルを誘導し,ユーザの真の嗜好を捉える。 5つの実世界のデータセットで大規模な実験を行い、本手法の利点を検証した。

Recommender models aim to capture user preferences from historical feedback and then predict user-specific feedback on candidate items. However, the presence of various unmeasured confounders causes deviations between the user preferences in the historical feedback and the true preferences, resulting in models not meeting their expected performance. Existing debias models either (1) specific to solving one particular bias or (2) directly obtain auxiliary information from user historical feedback, which cannot identify whether the learned preferences are true user preferences or mixed with unmeasured confounders. Moreover, we find that the former recommender system is not only a successor to unmeasured confounders but also acts as an unmeasured confounder affecting user preference modeling, which has always been neglected in previous studies. To this end, we incorporate the effect of the former recommender system and treat it as a proxy for all unmeasured confounders. We propose a novel framework, Separating and Learning Latent Confounders For Recommendation (SLFR), which obtains the representation of unmeasured confounders to identify the counterfactual feedback by disentangling user preferences and unmeasured confounders, then guides the target model to capture the true preferences of users. Extensive experiments in five real-world datasets validate the advantages of our method.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# NLPモデル一般化のための臨床研究の原理

Principles from Clinical Research for NLP Model Generalization ( http://arxiv.org/abs/2311.03663v3 )

ライセンス: Link先を確認
Aparna Elangovan, Jiayuan He, Yuan Li, Karin Verspoor, (参考訳) NLPコミュニティは通常、一般化を評価するためにホールドアウトテストセットでモデルのパフォーマンスに依存する。 公式なテストセット以外のデータセットで観測されるパフォーマンス低下は、一般的には"配布外"の影響によるものである。 本稿では,一般性の基礎を探求し,その影響要因について考察し,臨床研究からの教訓を述べる。 臨床研究において、一般化可能性(英: generalizability)とは、推理に依る行為である。 イ 原因及び効果の制御された測定を確実にするための実験の内的妥当性及び b) より大きな人口に対する結果の外的妥当性又は輸送性 本研究では,関係抽出タスクにおけるエンティティ間の距離などの学習がモデルの内部妥当性にどのように影響し,一般化に悪影響を及ぼすかを示す。 したがって、NLPで機械学習モデルを構築する際に、内部の妥当性を確保する必要がある。 我々の勧告は、生成的大言語モデルにも適用され、マイナーな意味的保存変更にも敏感であることが知られている。 また,無作為化比較試験におけるマッチングの考え方をNLP評価に適用し,因果関係を測定することを提案する。

The NLP community typically relies on performance of a model on a held-out test set to assess generalization. Performance drops observed in datasets outside of official test sets are generally attributed to "out-of-distribution" effects. Here, we explore the foundations of generalizability and study the factors that affect it, articulating lessons from clinical studies. In clinical research, generalizability is an act of reasoning that depends on (a) internal validity of experiments to ensure controlled measurement of cause and effect, and (b) external validity or transportability of the results to the wider population. We demonstrate how learning spurious correlations, such as the distance between entities in relation extraction tasks, can affect a model's internal validity and in turn adversely impact generalization. We, therefore, present the need to ensure internal validity when building machine learning models in NLP. Our recommendations also apply to generative large language models, as they are known to be sensitive to even minor semantic preserving alterations. We also propose adapting the idea of matching in randomized controlled trials and observational studies to NLP evaluation to measure causation.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# Lewis's Signaling Game as beta-VAE for Natural Word lengths and Segments

Lewis's Signaling Game as beta-VAE For Natural Word Lengths and Segments ( http://arxiv.org/abs/2311.04453v2 )

ライセンス: Link先を確認
Ryo Ueda, Tadahiro Taniguchi, (参考訳) 進化言語学と計算言語学の亜分野として、創発的コミュニケーション(EC)は、エージェントが通信するシミュレーションで生じる創発的言語と呼ばれる通信プロトコルを研究している。 ECの主な目標は、統計特性を自然言語と共有する言語を作ることである。 本稿では,ECで頻繁に使用されるルイスのシグナリングゲームをβ-VAEとして再解釈し,その目的機能をELBOとして再構成する。 その結果,先行言語の存在を明らかにし,先行言語の選択がそれらの統計的特性に影響を及ぼすことを示す。 具体的には,単語長と区分けの性質,すなわちZipfの省略法則(ZLA)とHarrisの調音法(HAS)について述べる。 従来の目的を用いた場合,創発言語はそれに従わないことが報告されている。 実験により、適切な事前分布を選択することで、より自然なセグメントが出現し、従来のセグメントがZLAやHASに従わないことを示す。

As a sub-discipline of evolutionary and computational linguistics, emergent communication (EC) studies communication protocols, called emergent languages, arising in simulations where agents communicate. A key goal of EC is to give rise to languages that share statistical properties with natural languages. In this paper, we reinterpret Lewis's signaling game, a frequently used setting in EC, as beta-VAE and reformulate its objective function as ELBO. Consequently, we clarify the existence of prior distributions of emergent languages and show that the choice of the priors can influence their statistical properties. Specifically, we address the properties of word lengths and segmentation, known as Zipf's law of abbreviation (ZLA) and Harris's articulation scheme (HAS), respectively. It has been reported that the emergent languages do not follow them when using the conventional objective. We experimentally demonstrate that by selecting an appropriate prior distribution, more natural segments emerge, while suggesting that the conventional one prevents the languages from following ZLA and HAS.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# コーシー地平線近傍における応力テンソルの長距離相関

Long-range correlations of the stress tensor near the Cauchy horizon ( http://arxiv.org/abs/2311.06068v2 )

ライセンス: Link先を確認
Christiane Klein, Jochen Zahn, (参考訳) 我々は、Reissner-Nordstr{\"o}m-de Sitter 時空上の実スカラー量子場の応力テンソルがコーシー地平線近傍のマクロ距離の相関を示すことを示した。 コーシー地平線が近づき、普遍的、すなわち状態独立であるように、これらは分岐する。 これはコーシー地平線付近の半古典近似の分解を示す。 また、スカラー場の電荷をオンにする効果について検討し、カー・ド・シッター時空のコーシー地平線の2極間の応力テンソルの相関を考察した。

We show that the stress tensor of a real scalar quantum field on Reissner-Nordstr{\"o}m-de Sitter spacetime exhibits correlations over macroscopic distances near the Cauchy horizon. These diverge as the Cauchy horizon is approached and are universal, i.e., state-independent. This signals a breakdown of the semi-classical approximation near the Cauchy horizon. We also investigate the effect of turning on a charge of the scalar field and consider the correlation of the stress tensor between the two poles of the Cauchy horizon of Kerr-de Sitter spacetime.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# フラム:中国語でLLMの値アライメントのベンチマーク

Flames: Benchmarking Value Alignment of LLMs in Chinese ( http://arxiv.org/abs/2311.06899v3 )

ライセンス: Link先を確認
Kexin Huang, Xiangyang Liu, Qianyu Guo, Tianxiang Sun, Jiawei Sun, Yaru Wang, Zeyang Zhou, Yixu Wang, Yan Teng, Xipeng Qiu, Yingchun Wang, Dahua Lin, (参考訳) 大規模言語モデル (LLM) が様々な領域で広く採用されていることは、人間の価値観との整合性を評価する緊急の必要性を浮き彫りにしている。 しかし、現在のベンチマークでは、LLMの安全性上の脆弱性を効果的に発見することができない。 これらの評価では、多くのモデルが高いスコアと「チャートを踏む」ことを達成しているが、LLMが人間の価値観と深く一致し、真の無害性を達成するには、依然として大きなギャップがある。 そこで本研究では,調和性などの中国固有の価値観を統合した,共通の調和性原理とユニークな道徳的次元の両方を包含する,Flamesという値アライメントベンチマークを提案する。 したがって、複雑なシナリオとジェイルブレイク手法を組み込んだ敵のプロンプトを、主に暗黙の悪意で慎重に設計する。 17個の LLM を誘導することにより,モデル応答を取得し,詳細な評価のために厳密な注釈付けを行う。 以上の結果から, 評価されたLLMは, フラムの安全性, 公正度が比較的低いことが示唆された。 また,複数の次元にまたがってLCMをスコアリングし,ベンチマークで新しいモデルを効率よく評価できる軽量な特定スコアラを開発した。 Flames の複雑さは既存のベンチマークをはるかに上回り、現代の LLM に新たな課題を与え、LLM のさらなるアライメントの必要性を強調している。 私たちのベンチマークはhttps://github.com/AIFlames/Flames.comで公開されています。

The widespread adoption of large language models (LLMs) across various regions underscores the urgent need to evaluate their alignment with human values. Current benchmarks, however, fall short of effectively uncovering safety vulnerabilities in LLMs. Despite numerous models achieving high scores and 'topping the chart' in these evaluations, there is still a significant gap in LLMs' deeper alignment with human values and achieving genuine harmlessness. To this end, this paper proposes a value alignment benchmark named Flames, which encompasses both common harmlessness principles and a unique morality dimension that integrates specific Chinese values such as harmony. Accordingly, we carefully design adversarial prompts that incorporate complex scenarios and jailbreaking methods, mostly with implicit malice. By prompting 17 mainstream LLMs, we obtain model responses and rigorously annotate them for detailed evaluation. Our findings indicate that all the evaluated LLMs demonstrate relatively poor performance on Flames, particularly in the safety and fairness dimensions. We also develop a lightweight specified scorer capable of scoring LLMs across multiple dimensions to efficiently evaluate new models on the benchmark. The complexity of Flames has far exceeded existing benchmarks, setting a new challenge for contemporary LLMs and highlighting the need for further alignment of LLMs. Our benchmark is publicly available at https://github.com/AIFlames/Flames.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# 火山: 自己フィードバックガイドによるマルチモーダル幻覚の緩和

Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision ( http://arxiv.org/abs/2311.07362v4 )

ライセンス: Link先を確認
Seongyun Lee, Sue Hyun Park, Yongrae Jo, Minjoon Seo, (参考訳) 大規模なマルチモーダルモデルは、与えられた視覚情報と間違った反応を提供するマルチモーダル幻覚に苦しむ。 近年の研究では、マルチモーダル幻覚の要因の1つは、視覚エンコーダが画像に正しく接地できないためであると推測されている。 この問題を軽減するために,自己フィードバックを視覚的手がかりとして活用する新しいアプローチを提案する。 このアプローチに基づいて,マルチモーダルな自己フィードバックガイド付きリビジョンモデルであるVolcanoを導入する。 火山は、提供された視覚情報に基づいて、初期応答に対する自然言語フィードバックを生成し、このフィードバックを利用して初期応答を自己修正する。 火山は、マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。 また、一般的なマルチモーダル能力を改善し、MM-Vet や MMBench で以前のモデルより優れている。 定性的分析により、火山のフィードバックは初期応答よりも画像に適切に基づいていることを示す。 これは、Volcanoがフィードバック生成を通じてよりリッチな視覚情報を提供し、自己修正幻覚をもたらすことを示している。 モデル、データ、コードはhttps://github.com/kaistAI/Volcano}{github.com/kaistAI/Volcanoで公開しています。

Large multimodal models suffer from multimodal hallucination, where they provide incorrect responses misaligned with the given visual information. Recent works have conjectured that one of the reasons behind multimodal hallucination is due to the vision encoder failing to ground on the image properly. To mitigate this issue, we propose a novel approach that leverages self-feedback as visual cues. Building on this approach, we introduce Volcano, a multimodal self-feedback guided revision model. Volcano generates natural language feedback to its initial response based on the provided visual information and utilizes this feedback to self-revise its initial response. Volcano effectively reduces multimodal hallucination and achieves state-of-the-art on MMHal-Bench, POPE, and GAVIE. It also improves on general multimodal abilities and outperforms previous models on MM-Vet and MMBench. Through qualitative analysis, we show that Volcano's feedback is properly grounded on the image than the initial response. This indicates that Volcano can provide itself with richer visual information through feedback generation, leading to self-correct hallucinations. We publicly release our model, data, and code at https://github.com/kaistAI/Volcano}{github.com/kaistAI/Volcano
翻訳日:2024-04-04 12:32:59 公開日:2024-04-02
# 思考の半構造化連鎖:言語モデル推論の改善のための複数の知識源の統合

Semi-Structured Chain-of-Thought: Integrating Multiple Sources of Knowledge for Improved Language Model Reasoning ( http://arxiv.org/abs/2311.08505v2 )

ライセンス: Link先を確認
Xin Su, Tiep Le, Steven Bethard, Phillip Howard, (参考訳) 知識集約的なタスクに大規模言語モデルを使用することにおける重要なオープンな疑問は、モデルのパラメトリックメモリ、外部構造化知識、外部構造化知識の3つのソースからの知識を効果的に統合する方法である。 既存のプロンプト手法の多くは、これらソースの1つか2つに依存しているか、あるいは類似または同一のコンテンツを生成するために、大きな言語モデルを繰り返し呼び出す必要がある。 本研究では,テキスト文書からの非構造化知識と知識グラフからの構造化知識とをシームレスに統合する,新たな半構造化促進手法を導入することにより,これらの制約を克服する。 オープンドメイン型マルチホップ質問応答データセットの実験結果から,提案手法が既存の手法をはるかに上回り,微調整を必要とするものよりもはるかに多いことが示された。

An important open question in the use of large language models for knowledge-intensive tasks is how to effectively integrate knowledge from three sources: the model's parametric memory, external structured knowledge, and external unstructured knowledge. Most existing prompting methods either rely on one or two of these sources, or require repeatedly invoking large language models to generate similar or identical content. In this work, we overcome these limitations by introducing a novel semi-structured prompting approach that seamlessly integrates the model's parametric memory with unstructured knowledge from text documents and structured knowledge from knowledge graphs. Experimental results on open-domain multi-hop question answering datasets demonstrate that our prompting method significantly surpasses existing techniques, even exceeding those that require fine-tuning.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# LLMにおける記憶データのローカライズ手法は実際に存在するか? : 2つのベンチマークの物語

Do Localization Methods Actually Localize Memorized Data in LLMs? A Tale of Two Benchmarks ( http://arxiv.org/abs/2311.09060v2 )

ライセンス: Link先を確認
Ting-Yun Chang, Jesse Thomason, Robin Jia, (参考訳) LLMにおけるローカライゼーションの概念は、以前の研究でしばしば言及されているが、ローカライゼーションの手法は体系的に直接評価されることはなかった。 記憶データに責任を持つLCMコンポーネントをピンポイントするローカライズ手法の能力を評価するための2つの相補的ベンチマークを提案する。 我々のINJベンチマークでは、LLM重みの小さなサブセットに新しい情報を積極的に注入し、ローカライズ手法がこれらの「基底真理」重みを識別できるかどうかを直接評価する。 DELベンチマークでは、特定されたニューロンが記憶された事前学習シーケンスをどれだけ削除するかを測定することで、ローカライゼーションを評価する。 異なる視点にもかかわらず、我々の2つのベンチマークは5つのローカライゼーション手法の一貫性のあるランキングを得る。 ネットワークプルーニングの手法は両ベンチマークで良好に動作し、評価されたすべての手法は有望なローカライゼーション能力を示す。 一方、成功した方法でさえ単一の記憶配列に特異的でないニューロンを識別する。

The concept of localization in LLMs is often mentioned in prior work; however, methods for localization have never been systematically and directly evaluated. We propose two complementary benchmarks that evaluate the ability of localization methods to pinpoint LLM components responsible for memorized data. In our INJ benchmark, we actively inject a piece of new information into a small subset of LLM weights, enabling us to directly evaluate whether localization methods can identify these "ground truth" weights. In our DEL benchmark, we evaluate localization by measuring how much dropping out identified neurons deletes a memorized pretrained sequence. Despite their different perspectives, our two benchmarks yield consistent rankings of five localization methods. Methods adapted from network pruning perform well on both benchmarks, and all evaluated methods show promising localization ability. On the other hand, even successful methods identify neurons that are not specific to a single memorized sequence.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# コミュニティ型ソーシャルメディア投稿における利用・誤用・付加の自己開示の同定

Identifying Self-Disclosures of Use, Misuse and Addiction in Community-based Social Media Posts ( http://arxiv.org/abs/2311.09066v2 )

ライセンス: Link先を確認
Chenghao Yang, Tuhin Chakrabarty, Karli R Hochstatter, Melissa N Slavin, Nabila El-Bassel, Smaranda Muresan, (参考訳) 米国では過去10年間で、処方薬と違法オピオイドによる過剰摂取で50万人以上が死亡している(USDHHS、2017年)。 医療従事者は、リスクの高い患者を効果的に識別できる堅牢でタイムリーなツールを必要とする。 Redditのようなコミュニティベースのソーシャルメディアプラットフォームは、ユーザーが不適切な薬物関連行動について議論するための自己開示を可能にする。 医療用, 誤用, 添加, 回復用, 再発用, 使用しない6種類のオピオイド使用をラベル付けした, 2500オピオイド関連ポストの適度なサイズコーパスを提出した。 すべての投稿において、我々は、スパンレベルの抽出的説明を注釈付けし、アノテーションの品質とモデル開発の両方において、それらの役割を決定的に研究します。 教師付き、少数ショット、ゼロショット設定において、いくつかの最先端モデルを評価する。 実験結果と誤差分析の結果,オピオイド使用障害の相の同定は文脈的かつ困難であることが示唆された。 しかし,モデリングにおける説明の活用は,オピオイド乱用障害連続体の研究などの高用量領域において,その有効性を示す分類精度を著しく向上させることがわかった。

In the last decade, the United States has lost more than 500,000 people from an overdose involving prescription and illicit opioids making it a national public health emergency (USDHHS, 2017). Medical practitioners require robust and timely tools that can effectively identify at-risk patients. Community-based social media platforms such as Reddit allow self-disclosure for users to discuss otherwise sensitive drug-related behaviors. We present a moderate size corpus of 2500 opioid-related posts from various subreddits labeled with six different phases of opioid use: Medical Use, Misuse, Addiction, Recovery, Relapse, Not Using. For every post, we annotate span-level extractive explanations and crucially study their role both in annotation quality and model development. We evaluate several state-of-the-art models in a supervised, few-shot, or zero-shot setting. Experimental results and error analysis show that identifying the phases of opioid use disorder is highly contextual and challenging. However, we find that using explanations during modeling leads to a significant boost in classification accuracy demonstrating their beneficial role in a high-stakes domain such as studying the opioid use disorder continuum.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# LLMRefine: ファイングラインド・アクション可能なフィードバックによる大規模言語モデルのピンポインティングと精細化

LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback ( http://arxiv.org/abs/2311.09336v3 )

ライセンス: Link先を確認
Wenda Xu, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Biao Zhang, Zhongtao Liu, William Yang Wang, Lei Li, Markus Freitag, (参考訳) 最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 しかし、人間からのフィードバックは、特に推論時に得られるのに費用がかかる。 本研究では,LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。 中心となる考え方は、学習したきめ細かいフィードバックモデルを使用して欠陥を特定し、LCMを反復的に洗練させることです。 オリジナルのLLMを編集の提案として使用し、LLMRefineはシミュレートされたアニーリングを通じて欠陥のないテキストを検索し、探索とエクスプロイトをトレードオフした。 機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。

Recent large language models (LLM) are leveraging human feedback to improve their generation quality. However, human feedback is costly to obtain, especially during inference. In this work, we propose LLMRefine, an inference time optimization method to refine LLM's output. The core idea is to use a learned fine-grained feedback model to pinpoint defects and guide LLM to refine them iteratively. Using original LLM as a proposal of edits, LLMRefine searches for defect-less text via simulated annealing, trading off the exploration and exploitation. We conduct experiments on three text generation tasks, including machine translation, long-form question answering (QA), and topical summarization. LLMRefine consistently outperforms all baseline approaches, achieving improvements up to 1.7 MetricX points on translation tasks, 8.1 ROUGE-L on ASQA, 2.2 ROUGE-L on topical summarization.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# オープンソース LLM はどの程度信頼できるのか? 悪意ある実証に基づく評価

How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities ( http://arxiv.org/abs/2311.09447v2 )

ライセンス: Link先を確認
Lingbo Mo, Boshi Wang, Muhao Chen, Huan Sun, (参考訳) オープンソースのLarge Language Models(LLMs)の急速な進歩は、AI開発を著しく推進している。 しかし、その信頼性についてはまだ理解が限られている。 これらのモデルを十分な信頼性なしで大規模にデプロイすることは、重大なリスクを生じさせ、これらの問題をすぐに解明する必要性を強調します。 本研究では,オープンソースLLMの信頼性評価を行い,毒性,ステレオタイプ,倫理,幻覚,公正性,梅毒,プライバシ,強靭性などの8つの側面を調査する。 本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。 我々の大規模な実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを含む。 経験的結果から,攻撃戦略の有効性は多様である。 さらに興味深いことに、我々の結果分析により、一般的なNLPタスクにおいて優れたパフォーマンスを持つモデルは、必ずしも信頼性が高いとは限らないことが判明した。 さらに、指示の追従に焦点をあてた指導チューニングを行うモデルは、より受け入れやすい傾向にあるが、安全アライメントのための微調整LDMは、敵の信頼性攻撃を緩和するのに有効であることが証明されている。

The rapid progress in open-source Large Language Models (LLMs) is significantly driving AI development forward. However, there is still a limited understanding of their trustworthiness. Deploying these models at scale without sufficient trustworthiness can pose significant risks, highlighting the need to uncover these issues promptly. In this work, we conduct an adversarial assessment of open-source LLMs on trustworthiness, scrutinizing them across eight different aspects including toxicity, stereotypes, ethics, hallucination, fairness, sycophancy, privacy, and robustness against adversarial demonstrations. We propose advCoU, an extended Chain of Utterances-based (CoU) prompting strategy by incorporating carefully crafted malicious demonstrations for trustworthiness attack. Our extensive experiments encompass recent and representative series of open-source LLMs, including Vicuna, MPT, Falcon, Mistral, and Llama 2. The empirical outcomes underscore the efficacy of our attack strategy across diverse aspects. More interestingly, our result analysis reveals that models with superior performance in general NLP tasks do not always have greater trustworthiness; in fact, larger models can be more vulnerable to attacks. Additionally, models that have undergone instruction tuning, focusing on instruction following, tend to be more susceptible, although fine-tuning LLMs for safety alignment proves effective in mitigating adversarial trustworthiness attacks.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# もし違うことを言ったら?:説明は人間のフィードバック効果とユーザ知覚にどのように影響するか

What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception ( http://arxiv.org/abs/2311.09558v2 )

ライセンス: Link先を確認
Chaitanya Malaviya, Subin Lee, Dan Roth, Mark Yatskar, (参考訳) NLPモデルのエンドユーザーからのフィードバックを緩和することは、モデルを改善するのに有益である。 しかし、ユーザからのフィードバックから最も修正しやすいように、モデル応答をユーザにどのように提示するか。 さらに、ユーザが理解し、回答を信頼するために、どのような特性が重要か? 本稿では,QAモデルが生成した理性(あるいは説明)の効果を分析して,これらの疑問に答える。 具体的には、まず、文脈と質問に基づいて中間的論理を抽出し、この論理のみを用いて質問に答える分解QAモデルについて検討する。 根拠は、その質問に答えるためのモデルに続くアプローチを概説する。 我々の研究は、関心の明確な性質によって異なるこれらの有理数の様々な形式を考察している。 2つのデータセットに対して少数ショットプロンプトを使用して言語モデルから有理をサンプリングし、2つのユーザスタディを実行する。 まず, ユーザに対して, 様々な形式における不正確な回答とそれに対応する有理性を提示し, それらの有理性を改善するために, 自然言語フィードバックの提供を依頼する。 次に,このフィードバックの有効性を,文脈内学習を通じて評価する。 第2の研究では、ユーザが正しいときにモデル回答を理解し、信頼することのできる、合理的なフォーマットの相違について評価する。 合理的な形式は,(1)ユーザが合理的なフィードバックを与えるのがいかに簡単か,(2)モデルがこのフィードバックを実行するのがより容易かに大きく影響することがわかった。 さらに、コンテキストと奥行き推論への属性を持つフォーマットは、ユーザ報告によるモデル出力の理解と信頼を著しく向上させる。

Eliciting feedback from end users of NLP models can be beneficial for improving models. However, how should we present model responses to users so they are most amenable to be corrected from user feedback? Further, what properties do users value to understand and trust responses? We answer these questions by analyzing the effect of rationales (or explanations) generated by QA models to support their answers. We specifically consider decomposed QA models that first extract an intermediate rationale based on a context and a question and then use solely this rationale to answer the question. A rationale outlines the approach followed by the model to answer the question. Our work considers various formats of these rationales that vary according to well-defined properties of interest. We sample rationales from language models using few-shot prompting for two datasets, and then perform two user studies. First, we present users with incorrect answers and corresponding rationales in various formats and ask them to provide natural language feedback to revise the rationale. We then measure the effectiveness of this feedback in patching these rationales through in-context learning. The second study evaluates how well different rationale formats enable users to understand and trust model answers, when they are correct. We find that rationale formats significantly affect how easy it is (1) for users to give feedback for rationales, and (2) for models to subsequently execute this feedback. In addition, formats with attributions to the context and in-depth reasoning significantly enhance user-reported understanding and trust of model outputs.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# Rationale 蒸留による高能率視覚文書理解

Efficient End-to-End Visual Document Understanding with Rationale Distillation ( http://arxiv.org/abs/2311.09612v2 )

ライセンス: Link先を確認
Wang Zhu, Alekh Agarwal, Mandar Joshi, Robin Jia, Jesse Thomason, Kristina Toutanova, (参考訳) 視覚的に位置する言語を理解するには、テキストおよび視覚要素の複雑なレイアウトを解釈する必要がある。 光文字認識(OCR)のような前処理ツールでは、文書イメージの入力をテキストトークンにマッピングし、大きな言語モデル(LLM)をテキスト上で推論することができる。 しかし、そのような手法は計算と工学の複雑さが高い。 小さな事前訓練された画像からテキストへのモデルでは、視覚文書の認識と推論の手順を正確に理解できるだろうか? 我々は,OCRツール,LLM,および大規模マルチモーダルモデルの出力を中間的「有理数」として組み込んだRationale Distillation (RD)を提案し,理数と答えの両方を予測するために,小学生モデルを訓練した。 インフォグラフィック、スキャンされた文書、数字を表す3つのビジュアル文書理解ベンチマークでは、RDで微調整されたPix2Struct(282Mパラメータ)の学生モデルは、計算コストをわずか1%上回る4-5%の絶対精度でベースモデルを上回ります。

Understanding visually situated language requires interpreting complex layouts of textual and visual elements. Pre-processing tools, such as optical character recognition (OCR), can map document image inputs to textual tokens, then large language models (LLMs) can reason over text. However, such methods have high computational and engineering complexity. Can small pretrained image-to-text models accurately understand visual documents through similar recognition and reasoning steps instead? We propose Rationale Distillation (RD), which incorporates the outputs of OCR tools, LLMs, and larger multimodal models as intermediate "rationales", and trains a small student model to predict both rationales and answers. On three visual document understanding benchmarks representing infographics, scanned documents, and figures, our Pix2Struct (282M parameters) student model finetuned with RD outperforms the base model by 4-5% absolute accuracy with only 1% higher computational cost.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# 検索の強化と言語モデル学習の限界について

On Retrieval Augmentation and the Limitations of Language Model Training ( http://arxiv.org/abs/2311.09615v2 )

ライセンス: Link先を確認
Ting-Rui Chiang, Xinyan Velocity Yu, Joshua Robinson, Ollie Liu, Isabelle Lee, Dani Yogatama, (参考訳) トレーニングデータだけで、言語モデル(LM)を$k$-nearestの隣人($k$NN)検索で拡張することは、その難易度を低下させる可能性があるが、その根本的な理由はまだ解明されていない。 本研究では、これまで提案されていた「ソフトマックスボトルネック」の可能性を除外する。 次に、トレーニングデータに因果関係のない追加情報が含まれている設定において、LM一般化能力を評価するための新しいデータセットを作成する。 この作業はGPT-3.5ターボでも困難である。 GPT-2 と Mistral 7B に対して,$k$NN の検索拡張は,この設定の性能を継続的に向上させることを示す。 最後に、$k$NN検索をより使いやすくするために、従来の検索のドロップイン代替としてデータストアキーを値にマップする多層パーセプトロンモデルを提案する。 これにより、ストレージコストが25倍以上削減される。

Augmenting a language model (LM) with $k$-nearest neighbors ($k$NN) retrieval on its training data alone can decrease its perplexity, though the underlying reasons for this remain elusive. In this work, we rule out one previously posited possibility -- the "softmax bottleneck." We then create a new dataset to evaluate LM generalization ability in the setting where training data contains additional information that is not causally relevant. This task is challenging even for GPT-3.5 Turbo. We show that, for both GPT-2 and Mistral 7B, $k$NN retrieval augmentation consistently improves performance in this setting. Finally, to make $k$NN retrieval more accessible, we propose using a multi-layer perceptron model that maps datastore keys to values as a drop-in replacement for traditional retrieval. This reduces storage costs by over 25x.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# イベント因果性は計算的ストーリー理解の鍵となる

Event Causality Is Key to Computational Story Understanding ( http://arxiv.org/abs/2311.09648v2 )

ライセンス: Link先を確認
Yidan Sun, Qin Chao, Boyang Li, (参考訳) 認知科学と象徴的AI研究は、出来事因果関係がストーリー理解に不可欠な情報を提供することを示唆している。 しかし、物語理解のための機械学習システムは、部分的には、オープンワールドの因果関係を確実に識別する手法が欠如していることから、事象因果関係をほとんど採用しない。 大規模言語モデルにおける最近の進歩を生かして、我々は、計算的ストーリー理解において重要な改善をもたらす事象因果同定法を初めて提示する。 本手法はCOPESデータセット(Wang et al , 2023)を用いて, 因果関係の同定を行う。 さらに、下流のストーリー品質評価タスクでは、識別された因果関係は、人間格付けとの相関について3.6~16.6%の改善をもたらす。 マルチモーダルなビデオテキストアライメントタスクでは,Clip精度が4.1-10.9%,Sentence IoUが4.2-13.5%向上した。 この結果から, 事象因果関係を未然に把握できる可能性が示唆された。 コードベースはhttps://github.com/insundaycathy/Event-Causality-Extractionにある。

Cognitive science and symbolic AI research suggest that event causality provides vital information for story understanding. However, machine learning systems for story understanding rarely employ event causality, partially due to the lack of methods that reliably identify open-world causal event relations. Leveraging recent progress in large language models, we present the first method for event causality identification that leads to material improvements in computational story understanding. Our technique sets a new state of the art on the COPES dataset (Wang et al., 2023) for causal event relation identification. Further, in the downstream story quality evaluation task, the identified causal relations lead to 3.6-16.6% relative improvement on correlation with human ratings. In the multimodal story video-text alignment task, we attain 4.1-10.9% increase on Clip Accuracy and 4.2-13.5% increase on Sentence IoU. The findings indicate substantial untapped potential for event causality in computational story understanding. The codebase is at https://github.com/insundaycathy/Event-Causality-Extraction.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# サンプル数やプロンプト数の増加 : LLMFew-Shot Prompt Engineeringのための効果的なインコンテキストサンプリング

More Samples or More Prompts? Exploring Effective In-Context Sampling for LLM Few-Shot Prompt Engineering ( http://arxiv.org/abs/2311.09782v2 )

ライセンス: Link先を確認
Bingsheng Yao, Guiming Chen, Ruishi Zou, Yuxuan Lu, Jiachen Li, Shao Zhang, Yisi Sang, Sijia Liu, James Hendler, Dakuo Wang, (参考訳) LLMプロンプト技術に関する既存の作業の多くは、1つのプロンプトインプット(In-Context Learning や ICL)の中で、より良いデータサンプルを選択する方法のみに焦点を当てていますが、LLMのパフォーマンスをさらに向上するために、複数のプロンプトを一緒に設計して活用できないのでしょうか? In-Context Smpling (ICS) は、複数のICLプロンプトインプットの構築を最適化し、信頼性の高い予測を生成するための低リソースLCMプロンプト技術である。 4つのNLIデータセット(e-SNLI、Multi-NLI、ANLI、Contract-NLI)と1つのQAデータセット(CommonsenseQA)の3つのオープンソースLLM(FlanT5-XL、Mistral-7B、Mixtral-8x7B)による大規模な実験は、ICSがLLMのパフォーマンスを継続的に向上できることを示している。 3つのデータ類似性に基づくICS戦略による詳細な評価は、これらの戦略がLSMの性能をさらに高める可能性があることを示唆している。

While most existing works on LLM prompting techniques focus only on how to select a better set of data samples inside one single prompt input (In-Context Learning or ICL), why can not we design and leverage multiple prompts together to further improve the LLM's performance? In this work, we propose In-Context Sampling (ICS), a low-resource LLM prompting technique to produce confident predictions by optimizing the construction of multiple ICL prompt inputs. Extensive experiments with three open-source LLMs (FlanT5-XL, Mistral-7B, and Mixtral-8x7B) on four NLI datasets (e-SNLI, Multi-NLI, ANLI, and Contract-NLI) and one QA dataset (CommonsenseQA) illustrate that ICS can consistently enhance LLMs' performance. An in-depth evaluation with three data similarity-based ICS strategies suggests that these strategies can further elevate LLM's performance, which sheds light on a new yet promising future research direction.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-02
# ドローンの短期対長期協調:分散最適化が深層強化学習と出会うとき

Short vs. Long-term Coordination of Drones: When Distributed Optimization Meets Deep Reinforcement Learning ( http://arxiv.org/abs/2311.09852v3 )

ライセンス: Link先を確認
Chuhao Qin, Evangelos Pournaras, (参考訳) リチャージ技術をサポートする自律型インタラクティブドローンの群れは、交通監視や災害対応など、スマートシティーに魅力的なセンシング機能を提供する。 本稿では,コスト効率の高いナビゲーション,センシング,リチャージのための新しいコーディネートソリューションの提供を目的とする。 ディープラーニング(DRL)のような既存のアプローチは、長期適応性を提供するが、動的環境におけるエネルギー効率、レジリエンス、柔軟性に欠ける。 そこで本研究では,各ドローンがDRLを用いて飛行方向と充電位置を独立に決定すると同時に,分散最適化によるナビゲーションとセンシングを適応し,検知時のエネルギー効率を向上する手法を提案する。 さらに、構造木通信モデルを介して意思決定自律性を保ちながら、効率的に情報交換を行う。 現実的な都市移動から生成されたデータセットによる大規模な実験は、最先端の手法と比較して、提案手法の卓越した性能を示している。 重要な新たな洞察は、長期的手法が交通管理に欠かせないドローン資源を最適化する一方で、短期的手法の統合は充電ポリシーの助言とバッテリーの安全性維持に不可欠であることを示している。

Swarms of autonomous interactive drones, with the support of recharging technology, can provide compelling sensing capabilities in Smart Cities, such as traffic monitoring and disaster response. This paper aims to deliver a novel coordination solution for the cost-effective navigation, sensing, and recharging of drones. Existing approaches, such as deep reinforcement learning (DRL), offer long-term adaptability, but lack energy efficiency, resilience, and flexibility in dynamic environments. Therefore, this paper proposes a novel approach where each drone independently determines its flying direction and recharging place using DRL, while adapting navigation and sensing through distributed optimization, which improves energy-efficiency during sensing tasks. Furthermore, drones efficiently exchange information while retaining decision-making autonomy via a structured tree communication model. Extensive experimentation with datasets generated from realistic urban mobility underscores an outstanding performance of the proposed solution compared to state-of-the-art methods. Significant new insights show that long-term methods optimize scarce drone resource for traffic management, while the integration of short-term methods is crucial for advising on charging policies and maintaining battery safety.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-02
# AIシステムのためのメタプロンプティング

Meta Prompting for AI Systems ( http://arxiv.org/abs/2311.11482v5 )

ライセンス: Link先を確認
Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao, (参考訳) 本稿では,メタ・プロンプティング(MP)を包括的に研究し,問題解決とデータインタラクションにおける言語モデル(LM)とAIシステムの利用を再構築する革新的手法を提案する。 型理論と圏論に根ざしたメタ・プロンプティングは、伝統的なコンテンツ中心の手法よりも情報の構造と構文を強調している。 本稿では,メタプロンプティングの形式的定義を探求し,数発のプロンプトから分離し,さまざまなAIアプリケーションにおけるその効果を裏付ける。 重要な焦点は、複雑な推論タスクにMeta Promptingを適用することであり、複雑な問題をより単純なサブプロブレムに効果的に分解し、トークン効率を向上し、より公平な問題解決比較を可能にする。 さらに,LLMが再帰的メタプログラミング的な方法で新たなプロンプトを自己生成できるように,タスクのプロンプトのためのメタプロンプトを導入する。 Qwen-72Bベース言語モデルに命令調整なしでメタプロンプトを装備し、46.3%の精度でMATH問題を解くこと、広範囲な数学的QA命令ペアとGPT-4の初期バージョンで訓練された教師付き微調整問題を83.5%の精度で解決すること、ゼロショットメタプロンプトされたQwen-72Bベース言語モデルを使用して24のタスクを100%成功率で解決すること、GPT-4を使用してメタプロンプトが高い精度と効率を達成することによるメタプロンプトの有効性の実証、AI問題解決に対するメタプロンプトの変換効果の実証など、実証実験が行われた。 コードはhttps://github.com/meta-prompting/meta-promptingで入手できる。

In this work, we present a comprehensive study of Meta Prompting (MP), an innovative technique reshaping the utilization of language models (LMs) and AI systems in problem-solving and data interaction. Grounded in type theory and category theory, Meta Prompting emphasizes the structure and syntax of information over traditional content-centric methods. The paper explores the formal definitions of Meta Prompting, sets it apart from few-shot prompting, and underlines its effectiveness in various AI applications. A key focus is applying Meta Prompting for complex reasoning tasks, showing how it effectively deconstructs intricate problems into simpler sub-problems, enhancing token efficiency, and enabling more equitable problem-solving comparisons, especially against few-shot prompting methods. Additionally, the paper introduces Meta Prompting for prompting tasks, allowing LLMs to self-generate new prompts in a recursive, metaprogramming-like manner. Empirical experiments, including using a Qwen-72B base language model equipped with meta prompt without instruction-tuning to solve MATH problems with accuracy at 46.3%, which surpass the supervised fine-tuned counterpart trained with extensive mathematical QA instruction pairs and even the initial version of GPT-4, solving GSM8K problems with 83.5% accuracy with zero-shot meta-prompted Qwen-72B base language model, and solving the Game of 24 tasks with a 100% success rate using GPT-4, demonstrate the meta prompting's efficacy in achieving high accuracy and efficiency, showcasing Meta Prompting's transformative impact on AI problem-solving. The code is available at https://github.com/meta-prompting/meta-prompting.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-02
# RTPS攻撃データセットの説明

RTPS Attack Dataset Description ( http://arxiv.org/abs/2311.14496v4 )

ライセンス: Link先を確認
Dong Young Kim, Dongsung Kim, Yuchan Song, Gang Min Kim, Min Geun Song, Jeong Do Yoo, Huy Kang Kim, (参考訳) 本稿ではRTPSデータセットについて概説する。 正常状態の無人地上車両(UGV)に攻撃データを注入することにより,悪意のあるパケットデータを収集する。 UGV, Controller, PC, Routerで構成されるテストベッドを組み立てた。 このデータセットはテストベッドのUGV部分で収集します。 テストベッド上では2種類の攻撃「コマンドインジェクション」と「ARPスポーフィングを用いたコマンドインジェクション」を行った。 データ収集時間は180、300、600、1200である。 シナリオは収集時間毎に30、合計240である。 我々はこのデータセットが、ROS2ネットワークとFast-DDS実装のセキュリティ脅威問題に対処するために、異常検出のような防衛技術の開発に寄与することを期待している。

This paper explains all about our RTPS datasets. We collect malicious/benign packet data by injecting attack data in an Unmanned Ground Vehicle (UGV) in the normal state. We assembled the testbed, consisting of UGV, Controller, PC, and Router. We collect this dataset in the UGV part of our testbed. We conducted two types of attack "Command Injection" and "Command Injection with ARP Spoofing" on our testbed. The data collection time is 180, 300, 600, and 1200. The scenario has 30 each on collection time, 240 total. We expect this dataset to contribute to the development of defense technologies like anomaly detection to address security threat issues in ROS2 networks and Fast-DDS implements.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-02
# XLB: Pythonの差別化可能な大規模並列格子ボルツマンライブラリ

XLB: A differentiable massively parallel lattice Boltzmann library in Python ( http://arxiv.org/abs/2311.16080v3 )

ライセンス: Link先を確認
Mohammadmehdi Ataei, Hesam Salehipour, (参考訳) 格子ボルツマン法 (LBM) は計算スケーラビリティのアルゴリズム的ポテンシャルから流体力学問題の解法として注目されている。 JAX プラットフォームをベースとした Python ベースの差別化可能な LBM ライブラリである XLB ライブラリを紹介する。 XLBのアーキテクチャは、アクセシビリティ、拡張性、計算性能の確保を前提としており、CPU、TPU、マルチGPU、分散マルチGPUまたはTPUシステムのスケーリングを効果的に行うことができる。 このライブラリは、新しい境界条件、衝突モデル、あるいはマルチ物理シミュレーション機能で容易に拡張できる。 XLBの微分可能性とデータ構造は、広範なJAXベースの機械学習エコシステムと互換性があり、物理学ベースの機械学習、最適化、逆問題に対処することができる。 XLBは数十億のセルでのシミュレーション処理に成功し、毎秒ギガスケールの格子更新を実現している。 XLBは寛容なApache-2.0ライセンスでリリースされており、GitHubでhttps://github.com/Autodesk/XLBで入手できる。

The lattice Boltzmann method (LBM) has emerged as a prominent technique for solving fluid dynamics problems due to its algorithmic potential for computational scalability. We introduce XLB library, a Python-based differentiable LBM library based on the JAX platform. The architecture of XLB is predicated upon ensuring accessibility, extensibility, and computational performance, enabling scaling effectively across CPU, TPU, multi-GPU, and distributed multi-GPU or TPU systems. The library can be readily augmented with novel boundary conditions, collision models, or multi-physics simulation capabilities. XLB's differentiability and data structure is compatible with the extensive JAX-based machine learning ecosystem, enabling it to address physics-based machine learning, optimization, and inverse problems. XLB has been successfully scaled to handle simulations with billions of cells, achieving giga-scale lattice updates per second. XLB is released under the permissive Apache-2.0 license and is available on GitHub at https://github.com/Autodesk/XLB.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-02
# 言語誘導ドメイン一般化セグメンテーションのための簡易レシピ

A Simple Recipe for Language-guided Domain Generalized Segmentation ( http://arxiv.org/abs/2311.17922v2 )

ライセンス: Link先を確認
Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick Pérez, Raoul de Charette, (参考訳) トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の課題のひとつだ。 既存の一般化技術は、拡張のために外部画像を必要とするか、あるいは様々なアライメント制約を課すことで不変表現を学習することを目指している。 大規模事前学習は、様々なモダリティを結合する可能性とともに、将来有望な一般化能力を示している。 例えば、CLIPのような視覚言語モデルの出現は、視覚モデルがテキストのモダリティを利用するための扉を開いた。 本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。 私たちのレシピは3つの重要な材料から成り立っている。 一 極小調整による本態性CLIP堅牢性の保存 (二)言語主導のローカルスタイル強化、及び (3)訓練中にソースと拡張スタイルを局所的に混合してランダム化すること。 総合的な実験では、様々な一般化ベンチマークで最先端の結果が報告されている。 コードはhttps://github.com/astra-vision/FAMixでアクセスできる。

Generalization to new domains not seen during training is one of the long-standing challenges in deploying neural networks in real-world applications. Existing generalization techniques either necessitate external images for augmentation, and/or aim at learning invariant representations by imposing various alignment constraints. Large-scale pretraining has recently shown promising generalization capabilities, along with the potential of binding different modalities. For instance, the advent of vision-language models like CLIP has opened the doorway for vision models to exploit the textual modality. In this paper, we introduce a simple framework for generalizing semantic segmentation networks by employing language as the source of randomization. Our recipe comprises three key ingredients: (i) the preservation of the intrinsic CLIP robustness through minimal fine-tuning, (ii) language-driven local style augmentation, and (iii) randomization by locally mixing the source and augmented styles during training. Extensive experiments report state-of-the-art results on various generalization benchmarks. Code is accessible at https://github.com/astra-vision/FAMix .
翻訳日:2024-04-04 12:13:26 公開日:2024-04-02
# Pixelによる画像変換による畳み込みに基づく未学習データセットの破壊

Corrupting Convolution-based Unlearnable Datasets with Pixel-based Image Transformations ( http://arxiv.org/abs/2311.18403v2 )

ライセンス: Link先を確認
Xianlong Wang, Shengshan Hu, Minghui Li, Zhifei Yu, Ziqi Zhou, Leo Yu Zhang, (参考訳) 学習不可能なデータセットは、精巧で知覚不能な摂動をクリーンなトレーニングセットに導入することにより、トレーニングされたモデルの一般化性能を劇的に低下させる。 多くの既存のディフェンス、例えばJPEG圧縮や逆行訓練は、標準制約の付加雑音に基づいてUDに効果的に対抗している。 しかし、火の新しいタイプの畳み込み型UDが提案され、既存の防衛を全て非効率にし、守備側にとってより大きな課題が提示されている。 これを解決するために、クリーンなシナリオで行列を乗算した結果として畳み込みベースの非学習可能なサンプルを表現し、クラス内行列の不整合を$\Theta_{imi}$、クラス間行列の一貫性を$\Theta_{imc}$として形式化し、畳み込みベースのUDの動作機構を調べる。 これらの指標を両方増やすことで、未解決効果を軽減できると推測する。 仮説を満足して支持する検証実験を通じて、よりランダムな行列を設計し、$\Theta_{imi}$と$\Theta_{imc}$の両方を増強し、顕著な防御効果を達成する。 したがって、これらの事実を構築して拡張することにより、まず、Interpolation操作によるランダムな乗算変換を用いて、畳み込み型UDの防御に成功させる、新しい画像コラプションを提案する。 提案手法は,大域的画素ランダム補間を利用して,畳み込み型UDにおける乗法ノイズの影響を効果的に抑制する。 さらに,新たな2種類の畳み込み型UDも設計した。

Unlearnable datasets lead to a drastic drop in the generalization performance of models trained on them by introducing elaborate and imperceptible perturbations into clean training sets. Many existing defenses, e.g., JPEG compression and adversarial training, effectively counter UDs based on norm-constrained additive noise. However, a fire-new type of convolution-based UDs have been proposed and render existing defenses all ineffective, presenting a greater challenge to defenders. To address this, we express the convolution-based unlearnable sample as the result of multiplying a matrix by a clean sample in a simplified scenario, and formalize the intra-class matrix inconsistency as $\Theta_{imi}$, inter-class matrix consistency as $\Theta_{imc}$ to investigate the working mechanism of the convolution-based UDs. We conjecture that increasing both of these metrics will mitigate the unlearnability effect. Through validation experiments that commendably support our hypothesis, we further design a random matrix to boost both $\Theta_{imi}$ and $\Theta_{imc}$, achieving a notable degree of defense effect. Hence, by building upon and extending these facts, we first propose a brand-new image COrruption that employs randomly multiplicative transformation via INterpolation operation to successfully defend against convolution-based UDs. Our approach leverages global pixel random interpolations, effectively suppressing the impact of multiplicative noise in convolution-based UDs. Additionally, we have also designed two new forms of convolution-based UDs, and find that our defense is the most effective against them.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-02
# 早期・後期の介在性ビアーゼの分枝はおそらくグロッキングを誘導する

Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking ( http://arxiv.org/abs/2311.18817v2 )

ライセンス: Link先を確認
Kaifeng Lyu, Jikai Jin, Zhiyuan Li, Simon S. Du, Jason D. Lee, Wei Hu, (参考訳) ニューラルネットはトレーニングセットを「記憶」し、完全なトレーニング精度を持つが、ほぼランダムなテスト精度となり、十分に長いトレーニングの後、突然完全なテスト精度に移行する。 本論文は, 理論設定におけるグルーキング現象を考察し, 初期および後期の暗黙バイアスの2分法により誘導可能であることを示す。 具体的には、分類タスクと回帰タスクの両方において、大きな初期化と小さな重み劣化を伴う均質ニューラルネットワークをトレーニングする場合、トレーニングプロセスがカーネル予測子に対応する解に長期間閉じ込められ、その後、min-norm/max-margin予測子への非常に急激な遷移が起こり、テスト精度が劇的に変化することを証明する。

Recent work by Power et al. (2022) highlighted a surprising "grokking" phenomenon in learning arithmetic tasks: a neural net first "memorizes" the training set, resulting in perfect training accuracy but near-random test accuracy, and after training for sufficiently longer, it suddenly transitions to perfect test accuracy. This paper studies the grokking phenomenon in theoretical setups and shows that it can be induced by a dichotomy of early and late phase implicit biases. Specifically, when training homogeneous neural nets with large initialization and small weight decay on both classification and regression tasks, we prove that the training process gets trapped at a solution corresponding to a kernel predictor for a long time, and then a very sharp transition to min-norm/max-margin predictors occurs, leading to a dramatic change in test accuracy.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-02
# VA3:テキスト・画像生成モデルの確率的著作権保護に対する仮想保証増幅攻撃

VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models ( http://arxiv.org/abs/2312.00057v2 )

ライセンス: Link先を確認
Xiang Li, Qianli Shen, Kenji Kawaguchi, (参考訳) テキストから画像への生成モデルの利用が急増し、著作権侵害コンテンツを制作するリスクが高いとの懸念が高まっている。 本稿では,保護機構の脆弱性を暴露する新たなオンラインアタックフレームワークであるVirtually Assured Amplification Attack (VA3)を紹介する。 提案手法は,生成モデルとの持続的相互作用における侵害内容の生成確率を著しく向上させ,各エンゲージメントの成功確率に非自明な低バウンドを付与する。 理論的,実験的な結果から,様々なシナリオ下でのアプローチの有効性が示された。 これらの知見は,テキスト・ツー・イメージ生成モデルの実践的応用において,確率論的著作権保護を実装する可能性を示している。 コードはhttps://github.com/South7X/VA3.comから入手できる。

The booming use of text-to-image generative models has raised concerns about their high risk of producing copyright-infringing content. While probabilistic copyright protection methods provide a probabilistic guarantee against such infringement, in this paper, we introduce Virtually Assured Amplification Attack (VA3), a novel online attack framework that exposes the vulnerabilities of these protection mechanisms. The proposed framework significantly amplifies the probability of generating infringing content on the sustained interactions with generative models and a non-trivial lower-bound on the success probability of each engagement. Our theoretical and experimental results demonstrate the effectiveness of our approach under various scenarios. These findings highlight the potential risk of implementing probabilistic copyright protection in practical applications of text-to-image generative models. Code is available at https://github.com/South7X/VA3.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# 白い非ガウス浴と相互作用する量子系のダイナミクス:ポアソンノイズマスター方程式

Dynamics of a quantum system interacting with white non-Gaussian baths: Poisson noise master equation ( http://arxiv.org/abs/2312.00376v4 )

ライセンス: Link先を確認
Ken Funo, Akihito Ishizaki, (参考訳) 量子システムは、その周囲の自由度に必然的にオープンである。 したがって、開量子系の理論は、興味ある量子系のゆらぎ、散逸、および非コヒーレンスを理解するために重要である。 通常、浴槽は調和振動子のアンサンブルとしてモデル化され、量子系への浴槽の影響のガウス統計を導出する。 しかし、風呂が二状態系、スピン、または無調波発振器から構成される現象もあり、ガウスの非ガウス的な性質が重要となる。 しかしながら、そのような非ガウス浴の影響下で量子系を記述する理論的枠組みは十分に確立されていない。 ここでは,浴槽のポアソンノイズ特性に影響を受ける量子散逸系を記述する理論を,L\'evi-It\^o分解定理は,ポアソンノイズがガウス特性以外の任意の白色雑音を記述する上で基本的なものであると主張する。 我々は、散逸性量子系の一貫した記述を可能にする量子バスモデルを導入する。 得られたマスター方程式は、ホワイトノイズ状態における非ガウス浴効果を明らかにし、一般的な浴の影響下でのオープン量子力学を記述するための重要なステップを提供する。

Quantum systems are unavoidably open to their surrounding degrees of freedom. The theory of open quantum systems is thus crucial to understanding the fluctuations, dissipation, and decoherence of a quantum system of interest. Typically, the bath is modeled as an ensemble of harmonic oscillators, which yields Gaussian statistics of the bath influence on the quantum systems. However, there are also phenomena in which the bath consists of two-state systems, spins, or anharmonic oscillators; therefore, the non-Gaussian properties of the bath become important. Nevertheless, a theoretical framework to describe quantum systems under the influence of such non-Gaussian baths is not well established. Here, we develop a theory to describe quantum dissipative systems affected by Poisson noise properties of the bath, because the L\'evi-It\^o decomposition theorem asserts that Poisson noise is fundamental in describing arbitrary white noise beyond Gaussian properties. We introduce a quantum bath model that allows for the consistent description of dissipative quantum systems. The obtained master equation reveals non-Gaussian bath effects in the white noise regime, and provides an essential step toward describing open quantum dynamics under the influence of generic baths.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# テンソルネットワークによる対角線外固有状態熱化の探索

Probing Off-diagonal Eigenstate Thermalization with Tensor Networks ( http://arxiv.org/abs/2312.00736v3 )

ライセンス: Link先を確認
Maxine Luo, Rahul Trivedi, Mari Carmen Bañuls, J. Ignacio Cirac, (参考訳) 量子シミュレーションと組み合わせたエネルギーフィルタ法は、有限エネルギー密度の量子多体系の特性に効率的にアクセスすることができる[Lu et al PRX Quantum 2, 020321 (2021)]。 このアルゴリズムをテンソルネットワークで古典的にシミュレートすることで、最近の[Yang et al Phys. Rev. B 106, 024307 (2022)] で示されているように、大きなスピン鎖のマイクロカノニカルな性質を調べることができる。 ここでは、この戦略を拡張して、熱化挙動と固有状態熱化仮説に根ざした、エネルギー固有ベイズにおける可観測物の外対角行列要素の性質を探求する。 我々は、最大60個のサイトからなる積分可能で非可積分なスピン鎖について、正確な対角化でアクセス可能なものよりもはるかに大きい方法を試した。 この結果から, 対角線外関数のスケールとエネルギー差について検討し, 積分可能ケースと非可積分ケースの定量的な差異を確かめることができた。

Energy filter methods in combination with quantum simulation can efficiently access the properties of quantum many-body systems at finite energy densities [Lu et al. PRX Quantum 2, 020321 (2021)]. Classically simulating this algorithm with tensor networks can be used to investigate the microcanonical properties of large spin chains, as recently shown in [Yang et al. Phys. Rev. B 106, 024307 (2022)]. Here we extend this strategy to explore the properties of off-diagonal matrix elements of observables in the energy eigenbasis, fundamentally connected to the thermalization behavior and the eigenstate thermalization hypothesis. We test the method on integrable and non-integrable spin chains of up to 60 sites, much larger than accessible with exact diagonalization. Our results allow us to explore the scaling of the off-diagonal functions with the size and energy difference, and to establish quantitative differences between integrable and non-integrable cases.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# 安全航海のためのモジュール制御アーキテクチャ:強化学習と予測安全フィルタ

Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters ( http://arxiv.org/abs/2312.01855v2 )

ライセンス: Link先を確認
Aksel Vaaler, Svein Jostein Husa, Daniel Menges, Thomas Nakken Larsen, Adil Rasheed, (参考訳) 多くの自律システムは安全上の課題に直面しており、物理的な制限や安全上の制約に対処するために、堅牢なクローズドループ制御が必要である。 自律船のような現実世界のシステムは、非線形力学と環境障害に遭遇する。 強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。 予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。 このモジュラーアプローチは、物理および安全制約を満たすために提案されたアクションを最適化する安全フィルタにより、任意の制御ポリシーを使用することができる。 この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。 RLエージェントは、経路追従及び衝突起伏に基づいて訓練され、PSFは安全のための制御動作を監視し、変更する。 その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。

Many autonomous systems face safety challenges, requiring robust closed-loop control to handle physical limitations and safety constraints. Real-world systems, like autonomous ships, encounter nonlinear dynamics and environmental disturbances. Reinforcement learning is increasingly used to adapt to complex scenarios, but standard frameworks ensuring safety and stability are lacking. Predictive Safety Filters (PSF) offer a promising solution, ensuring constraint satisfaction in learning-based control without explicit constraint handling. This modular approach allows using arbitrary control policies, with the safety filter optimizing proposed actions to meet physical and safety constraints. We apply this approach to marine navigation, combining RL with PSF on a simulated Cybership II model. The RL agent is trained on path following and collision avpodance, while the PSF monitors and modifies control actions for safety. Results demonstrate the PSF's effectiveness in maintaining safety without hindering the RL agent's learning rate and performance, evaluated against a standard RL agent without PSF.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# 立方体サテライト量子鍵分布の終端デモ

End-to-End Demonstration for CubeSatellite Quantum Key Distribution ( http://arxiv.org/abs/2312.02002v2 )

ライセンス: Link先を確認
Peide Zhang, Jaya Sagar, Elliott Hastings, Milan Stefko, Siddarth Joshi, John Rarity, (参考訳) 量子鍵分布(QKD)は、物理法則を用いてセキュリティを確保する方法を提供し、計算複雑性によって保護される暗号システムに固有のリスクを避ける。 本稿では,小型ナノサテライトを用いた衛星ベースの量子鍵交換の実現可能性について検討する。 本稿では,キューブ衛星シナリオを対象としたシステムレベルの量子鍵分布の最初のプロトタイプを示す。 送信機ペイロードと地上受信機と模擬自由空間チャネルで構成され、QKD用に設計されたタイミングと同期(T&S)スキームと、QKDとT&Sチャネルの両方の高損失耐性を検証している。 この送信機は、英国と海外で予定される様々なナノ衛星のミッションに配備されるように設計されている。 セキュア鍵レート (SKR) と量子ビット誤りレート (QBER) に対するチャネル損失, 背景雑音, ゲート幅, 平均光子数の影響について検討した。 また、QBERの音源を分析し、SKR最適化の基準として、有効信号雑音比(ESNR)と雑音レベル、信号強度、ゲーティングウィンドウ、その他のパラメータの関係を確立する。 実験により、宇宙空間で期待される40dBの損失を地上QKDに許容し、小さな調整のデコイ状態が達成できることが示されている。 この議論は、小型の低コスト衛星ベースのQKDシステムの設計と最適化だけでなく、地上または空中の他の短距離または長距離自由空間QKDに対しても貴重な洞察を与える。

Quantum key distribution (QKD) provides a method of ensuring security using the laws of physics, avoiding the risks inherent in cryptosystems protected by computational complexity. Here we investigate the feasibility of satellite-based quantum key exchange using low-cost compact nano-satellites. This paper demonstrates the first prototype of system level quantum key distribution aimed at the Cube satellite scenario. It consists of a transmitter payload, a ground receiver and simulated free space channel to verify the timing and synchronisation (T&S) scheme designed for QKD and the required high loss tolerance of both QKD and T&S channels. The transmitter is designed to be deployed on various up-coming nano-satellite missions in the UK and internationally. The effects of channel loss, background noise, gate width and mean photon number on the secure key rate (SKR) and quantum bit error rate (QBER) are discussed. We also analyse the source of QBER and establish the relationship between effective signal noise ratio (ESNR) and noise level, signal strength, gating window and other parameters as a reference for SKR optimization. The experiment shows that it can tolerate the 40 dB loss expected in space to ground QKD and with small adjustment decoy states can be achieved. The discussion offers valuable insight not only for the design and optimization of miniature low-cost satellite-based QKD systems but also any other short or long range free space QKD on the ground or in the air.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# Steerers: 回転同変キーポイント記述子のためのフレームワーク

Steerers: A framework for rotation equivariant keypoint descriptors ( http://arxiv.org/abs/2312.02152v2 )

ライセンス: Link先を確認
Georg Bökman, Johan Edstedt, Michael Felsberg, Fredrik Kahl, (参考訳) 画像のキーポイント記述は、大きな視点の変化に対して識別可能であり、一致可能であるが、3次元再構成には不可欠である。 しかし、学習した記述子によって出力される記述は通常、カメラの回転に対して堅牢ではない。 データの増大などにより、より堅牢にすることができるが、これはアップライトイメージのパフォーマンスを低下させる。 もう1つのアプローチは、テスト時間の増大であり、ランタイムが大幅に増加する。 代わりに、入力画像の回転を符号化する記述空間の線形変換を学ぶ。 この線形変換は、画像が回転しているかのように記述を変換できるので、ステアラーと呼ぶ。 表現論から、回転群に対するすべての可能なステアラーが分かる。 ステアラーは(A)固定された記述子、(B)固定された記述子、または(C)固定された記述子を最適化することができる。 我々はこれらの3つの設定で実験を行い、回転不変画像マッチングベンチマークであるAIMSとRoto-360の最先端結果を得た。 コードとモデルの重み付けはhttps://github.com/georg-bn/rotation-steerers.orgで公開しています。

Image keypoint descriptions that are discriminative and matchable over large changes in viewpoint are vital for 3D reconstruction. However, descriptions output by learned descriptors are typically not robust to camera rotation. While they can be made more robust by, e.g., data augmentation, this degrades performance on upright images. Another approach is test-time augmentation, which incurs a significant increase in runtime. Instead, we learn a linear transform in description space that encodes rotations of the input image. We call this linear transform a steerer since it allows us to transform the descriptions as if the image was rotated. From representation theory, we know all possible steerers for the rotation group. Steerers can be optimized (A) given a fixed descriptor, (B) jointly with a descriptor or (C) we can optimize a descriptor given a fixed steerer. We perform experiments in these three settings and obtain state-of-the-art results on the rotation invariant image matching benchmarks AIMS and Roto-360. We publish code and model weights at https://github.com/georg-bn/rotation-steerers.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# クエンチ量子ガス中の電荷のフルカウント統計

Full Counting Statistics of Charge in Quenched Quantum Gases ( http://arxiv.org/abs/2312.02929v2 )

ライセンス: Link先を確認
David X. Horvath, Colin Rylands, (参考訳) 対称性に制約されない限り、同じ量子系のアンサンブル上で観測可能な値の測定は、完全な数え上げ統計に符号化された値の分布を返す。 この分布の平均値は系の特定の性質を決定するのに重要であるが、完全な分布は普遍的な振る舞いを示すこともできる。 本稿では, 平衡から遠く離れているボースとフェルミの1次元相互作用における粒子数の総計数統計について検討する。 特に、ボース=アインシュタイン凝縮の初期状態から得られたリーブ=ライニガーモデルとゴーディン=ヤンモデルの時間発展を考察し、サブシステム内の粒子数の完全な数え上げ統計を計算する。 初期状態と長時間の電荷のスケールした累積が単に関連しており、特に後者はモデルパラメータとは独立であることを示す。 準粒子図を用いて、累積のフルタイム進化を求め、それらの終点が固定されているにもかかわらず、有限時間ダイナミクスはモデルパラメータに強く依存する。 続いて、スケールした累積生成関数を構築し、この結果から、異なる非自明かつ非ガウス的ゆらぎと大きな偏差を示すことが示される長時間の制限電荷確率分布を決定する。

Unless constrained by symmetry, measurement of an observable on an ensemble of identical quantum systems returns a distribution of values which are encoded in the full counting statistics. While the mean value of this distribution is important for determining certain properties of a system, the full distribution can also exhibit universal behavior. In this paper we study the full counting statistics of particle number in one dimensional interacting Bose and Fermi gases which have been quenched far from equilibrium. In particular we consider the time evolution of the Lieb-Liniger and Gaudin-Yang models quenched from a Bose-Einstein condensate initial state and calculate the full counting statistics of the particle number within a subsystem. We show that the scaled cumulants of the charge in the initial state and at long times are simply related and in particular the latter are independent of the model parameters. Using the quasi-particle picture we obtain the full time evolution of the cumulants and find that although their endpoints are fixed, the finite time dynamics depends strongly on the model parameters. We go on to construct the scaled cumulant generating functions and from this determine the limiting charge probability distributions at long time which are shown to exhibit distinct non-trivial and non-Gaussian fluctuations and large deviations.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# みんなの分類 : フェアアー認識のための地理非依存モデルの構築

Classification for everyone : Building geography agnostic models for fairer recognition ( http://arxiv.org/abs/2312.02957v3 )

ライセンス: Link先を確認
Akshat Jindal, Shreya Singh, Soham Gadgil, (参考訳) 本稿では,現在最先端の画像分類モデルに存在する地理的バイアスを緩和する様々な手法を解析する。 最初にこのバイアスを2つのデータセット – The Dollar Street DatasetとImageNet – に,位置情報を備えたイメージを使用して定量的に提示する。 そして、このバイアスを減らすために様々な方法を提示します。 最後に、画像の地理的な位置に対して、これらのモデルをより堅牢にするための異なる手法の有効性を分析する。

In this paper, we analyze different methods to mitigate inherent geographical biases present in state of the art image classification models. We first quantitatively present this bias in two datasets - The Dollar Street Dataset and ImageNet, using images with location information. We then present different methods which can be employed to reduce this bias. Finally, we analyze the effectiveness of the different techniques on making these models more robust to geographical locations of the images.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# FRDiff : 拡散モデルのユニバーサルトレーニングフリー加速のための特徴再利用

FRDiff : Feature Reuse for Universal Training-free Acceleration of Diffusion Models ( http://arxiv.org/abs/2312.03517v2 )

ライセンス: Link先を確認
Junhyuk So, Jungwon Lee, Eunhyeok Park, (参考訳) 拡散モデルの相当な計算コストは、特に高品質な画像生成に必要な繰り返しのデノゲーションステップのため、その普及の大きな障害となっている。 いくつかの研究は、微調整なしで高度なODEソルバを用いてスコア関数評価(NFE)の数を減らし、この問題に対処しようとしているが、デノナイジングイテレーションの減少は詳細を更新する機会を逃し、顕著な品質劣化をもたらす。 本研究では,拡散モデルに固有の時間的冗長性を活用する高度な加速手法を提案する。 時間的類似度の高い特徴マップの再利用は、出力品質を損なうことなく計算資源を節約する新たな機会を開く。 この直観の実用的メリットを実現するために、我々は広範囲な分析を行い、新しい手法であるFRDiffを提案する。 FRDiffは、削減されたNFEと機能の再利用の両方の利点を活用するように設計されており、様々な生成タスクにおける忠実性と遅延トレードオフのバランスをとるParetoフロンティアを実現している。

The substantial computational costs of diffusion models, especially due to the repeated denoising steps necessary for high-quality image generation, present a major obstacle to their widespread adoption. While several studies have attempted to address this issue by reducing the number of score function evaluations (NFE) using advanced ODE solvers without fine-tuning, the decreased number of denoising iterations misses the opportunity to update fine details, resulting in noticeable quality degradation. In our work, we introduce an advanced acceleration technique that leverages the temporal redundancy inherent in diffusion models. Reusing feature maps with high temporal similarity opens up a new opportunity to save computation resources without compromising output quality. To realize the practical benefits of this intuition, we conduct an extensive analysis and propose a novel method, FRDiff. FRDiff is designed to harness the advantages of both reduced NFE and feature reuse, achieving a Pareto frontier that balances fidelity and latency trade-offs in various generative tasks.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# 数学者のための大規模言語モデル

Large Language Models for Mathematicians ( http://arxiv.org/abs/2312.04556v2 )

ライセンス: Link先を確認
Simon Frieder, Julius Berner, Philipp Petersen, Thomas Lukasiewicz, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、汎用言語理解、特に高品質のテキストやコンピュータコードを生成する能力に大きな関心を集めている。 多くの専門職にとって、LLMは、作業のスピードアップと品質向上を可能にする、貴重なツールである。 本稿では,プロの数学者をどの程度支援できるかについて論じる。 まず、すべての現代言語モデルで使用されるトランスモデルを数学的に記述する。 最近の研究に基づいて、ベストプラクティスと潜在的な問題について概説し、言語モデルの数学的能力について報告する。 最後に、数学者の働き方を変えるため、LLMの可能性について光を当てた。

Large language models (LLMs) such as ChatGPT have received immense interest for their general-purpose language understanding and, in particular, their ability to generate high-quality text or computer code. For many professions, LLMs represent an invaluable tool that can speed up and improve the quality of work. In this note, we discuss to what extent they can aid professional mathematicians. We first provide a mathematical description of the transformer model used in all modern language models. Based on recent studies, we then outline best practices and potential issues and report on the mathematical abilities of language models. Finally, we shed light on the potential of LLMs to change how mathematicians work.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-02
# 合成画像は伝達学習に有用か? : データ生成・ボリューム・利用に関する研究

Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization ( http://arxiv.org/abs/2403.19866v2 )

ライセンス: Link先を確認
Yuhang Li, Xin Dong, Chen Chen, Jingtao Li, Yuxin Wen, Michael Spranger, Lingjuan Lyu, (参考訳) 合成画像データ生成は、特に転送学習の領域において、ディープラーニングモデルをトレーニングするための有望な方法であり、プライバシーや知的財産権の考慮により、特定の領域内で実際の画像を取得することは、違法にコストがかかる可能性がある。 本研究は, テキストから画像への生成モデルから得られた合成画像の生成と利用を, 伝達学習パラダイムの促進に役立てるものである。 生成した画像の視覚的忠実度が高いにもかかわらず、合成画像と実画像の間に固有の分布ギャップがあるため、既存の実画像データセットへのナイーブな取り込みがモデル性能を継続的に向上させるわけではないことが観察された。 この問題を解決するために、ブリッジドトランスファーと呼ばれる新しい2段階のフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を改善し、その後、実データを用いて高速適応する。 また,合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。 提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示され、最大30%の精度が向上した。 興味深いことに、この拡張がまだ飽和していないことに留意し、合成データの容量を拡大することで、さらなるメリットがもたらされることを示唆している。

Synthetic image data generation represents a promising avenue for training deep learning models, particularly in the realm of transfer learning, where obtaining real images within a specific domain can be prohibitively expensive due to privacy and intellectual property considerations. This work delves into the generation and utilization of synthetic images derived from text-to-image generative models in facilitating transfer learning paradigms. Despite the high visual fidelity of the generated images, we observe that their naive incorporation into existing real-image datasets does not consistently enhance model performance due to the inherent distribution gap between synthetic and real images. To address this issue, we introduce a novel two-stage framework called bridged transfer, which initially employs synthetic images for fine-tuning a pre-trained model to improve its transferability and subsequently uses real data for rapid adaptation. Alongside, We propose dataset style inversion strategy to improve the stylistic alignment between synthetic and real images. Our proposed methods are evaluated across 10 different datasets and 5 distinct models, demonstrating consistent improvements, with up to 30% accuracy increase on classification tasks. Intriguingly, we note that the enhancements were not yet saturated, indicating that the benefits may further increase with an expanded volume of synthetic data.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-02
# 教師付き微調整による大規模言語モデルへの新しい知識注入

Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning ( http://arxiv.org/abs/2404.00213v2 )

ライセンス: Link先を確認
Nick Mecklenburg, Yiyou Lin, Xiaoxiao Li, Daniel Holstein, Leonardo Nunes, Sara Malvar, Bruno Silva, Ranveer Chandra, Vijay Aski, Pavan Kumar Reddy Yannam, Tolga Aktas, Todd Hendry, (参考訳) 近年,Large Language Models (LLMs) は,多種多様なアプリケーションにまたがる貴重な資産であることが証明された。 しかし、新しいドメイン外の知識を取り入れるためにこれらのモデルを適用することは、特にモデルの知識が切り離された後に発生する事実や出来事にとって、依然として課題である。 本稿では,近年のスポーツイベントにおける知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。 さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。 GPT-4の実験では、トークンベースのスケーリングはQ&A精度の向上につながるが、新しい知識の均一なカバレッジを提供することはできない。 一方、ファクトベースのスケーリングは、すべての事実をカバーできるような、より体系的なアプローチを提供する。 本稿では,SFTによるより効果的な知識取り込みを実現する新しいデータセット生成プロセスを提案する。 本研究は, LLMに対するドメイン適応の理解に寄与し, 特定の知識領域におけるLLM応答の現実性を高める上でのSFTの可能性を明らかにする。

In recent years, Large Language Models (LLMs) have shown remarkable performance in generating human-like text, proving to be a valuable asset across various applications. However, adapting these models to incorporate new, out-of-domain knowledge remains a challenge, particularly for facts and events that occur after the model's knowledge cutoff date. This paper investigates the effectiveness of Supervised Fine-Tuning (SFT) as a method for knowledge injection in LLMs, specifically focusing on the domain of recent sporting events. We compare different dataset generation strategies -- token-based and fact-based scaling -- to create training data that helps the model learn new information. Our experiments on GPT-4 demonstrate that while token-based scaling can lead to improvements in Q&A accuracy, it may not provide uniform coverage of new knowledge. Fact-based scaling, on the other hand, offers a more systematic approach to ensure even coverage across all facts. We present a novel dataset generation process that leads to more effective knowledge ingestion through SFT, and our results show considerable performance improvements in Q&A tasks related to out-of-domain knowledge. This study contributes to the understanding of domain adaptation for LLMs and highlights the potential of SFT in enhancing the factuality of LLM responses in specific knowledge domains.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-02
# HALO:大規模言語モデルにおける幻覚の表現と分類のためのオントロジー

HALO: An Ontology for Representing and Categorizing Hallucinations in Large Language Models ( http://arxiv.org/abs/2312.05209v2 )

ライセンス: Link先を確認
Navapat Nananukul, Mayank Kejriwal, (参考訳) ChatGPTのような大規模言語モデル(LLM)を含むジェネレーティブAIの最近の進歩は、自然言語処理から知識発見、データマイニングまで、分野において大きな機会を生み出している。 しかし、情報作りや「幻覚」といった問題や、一見単純な問題に対する誤った推論など、モデルが問題を起こしやすいという認識も高まっている。 ChatGPTのようなモデルの人気のため、学者も市民科学者も様々な種類の幻覚と重大さを文書化してきた。 このような仕事の体系にもかかわらず、これらの幻覚(関連するメタデータを含む)を詳細に記述し表現するための形式的モデルは、いまだに不足している。 本稿では,現在 LLM に現れる6種類の幻覚をサポートする OWL で書かれた形式的拡張性オントロジーである HALO を,証明と実験メタデータのサポートとともに提示することで,このギャップに対処する。 我々はまた、複数の独立したWebソースに誘導的に集められた幻覚を含むデータセットを収集し、公開し、HALOがこのデータセットをモデル化し、有能な質問に答えられることを示す。

Recent progress in generative AI, including large language models (LLMs) like ChatGPT, has opened up significant opportunities in fields ranging from natural language processing to knowledge discovery and data mining. However, there is also a growing awareness that the models can be prone to problems such as making information up or `hallucinations', and faulty reasoning on seemingly simple problems. Because of the popularity of models like ChatGPT, both academic scholars and citizen scientists have documented hallucinations of several different types and severity. Despite this body of work, a formal model for describing and representing these hallucinations (with relevant meta-data) at a fine-grained level, is still lacking. In this paper, we address this gap by presenting the Hallucination Ontology or HALO, a formal, extensible ontology written in OWL that currently offers support for six different types of hallucinations known to arise in LLMs, along with support for provenance and experimental metadata. We also collect and publish a dataset containing hallucinations that we inductively gathered across multiple independent Web sources, and show that HALO can be successfully used to model this dataset and answer competency questions.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# EpiDiff: 局所化エピポーラ制約拡散による多視点合成の促進

EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion ( http://arxiv.org/abs/2312.06725v3 )

ライセンス: Link先を確認
Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, Lu Sheng, (参考訳) 単一のビューからマルチビュー画像を生成することにより、単一のイメージ上に条件付けられた3Dメッシュの迅速な生成が容易になる。 拡散モデルに3次元グローバル表現を導入する最近の手法は、一貫性のあるマルチビューを生成する可能性を示しているが、それらは生成速度を減らし、一般化性と品質を維持する上での課題に直面している。 本稿では,局所的対話型多視点拡散モデルであるEpiDiffを提案する。 提案手法の核となるのは,凍結拡散モデルに軽量なエピポーラアテンションブロックを挿入し,エピポーラ制約を活用して隣接するビューの特徴写像間のクロスビュー相互作用を可能にすることである。 新たに初期化された3Dモデリングモジュールは、拡散モデルの本来の特徴分布を保持し、様々なベース拡散モデルとの互換性を示す。 実験の結果、EpiDiffは16枚のマルチビュー画像をわずか12秒で生成し、PSNR、SSIM、LPIPSなどの品質評価指標を上回っている。 さらに、EpiDiffはビューのより多様な分布を生成し、生成されたマルチビューから再構築品質を改善することができる。 プロジェクトページはhttps://huanngzh.github.io/EpiDiff/。

Generating multiview images from a single view facilitates the rapid generation of a 3D mesh conditioned on a single image. Recent methods that introduce 3D global representation into diffusion models have shown the potential to generate consistent multiviews, but they have reduced generation speed and face challenges in maintaining generalizability and quality. To address this issue, we propose EpiDiff, a localized interactive multiview diffusion model. At the core of the proposed approach is to insert a lightweight epipolar attention block into the frozen diffusion model, leveraging epipolar constraints to enable cross-view interaction among feature maps of neighboring views. The newly initialized 3D modeling module preserves the original feature distribution of the diffusion model, exhibiting compatibility with a variety of base diffusion models. Experiments show that EpiDiff generates 16 multiview images in just 12 seconds, and it surpasses previous methods in quality evaluation metrics, including PSNR, SSIM and LPIPS. Additionally, EpiDiff can generate a more diverse distribution of views, improving the reconstruction quality from generated multiviews. Please see our project page at https://huanngzh.github.io/EpiDiff/.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# 新しい軽量加法準同型暗号アルゴリズム

A new lightweight additive homomorphic encryption algorithm ( http://arxiv.org/abs/2312.06987v3 )

ライセンス: Link先を確認
Wuqiong Pan, Hongliang Gu, (参考訳) 本稿では、同じ暗号鍵と復号鍵を持つ軽量な加法的同型アルゴリズムについて述べる。 Paillierのような標準加法準同型アルゴリズムと比較して、このアルゴリズムは、暗号化と復号化の計算コストをモジュラー指数化からモジュラー乗算に減らし、暗号テキスト加算の計算コストをモジュラー乗算からモジュラー加算に減らした。 このアルゴリズムは、2つの除算演算において、2つの剰余が関係しているときに配当に基づいて残りまたは因子を推測できるかどうかという、新しい数学的問題に基づいている。 現在、この問題を打破する方法は明確ではないが、十分に難しいかどうかを判断するためには、さらなる調査が必要である。 この数学的問題に加えて、本文で述べた2つのアルゴリズムで使用される復号化のための興味深い2つの数学的構造も設計した。 アルゴリズム2の復号化構造が新たなセキュリティ脆弱性をもたらす可能性はあるが、この問題を徹底的に調査していない。

This article describes a lightweight additive homomorphic algorithm with the same encryption and decryption keys. Compared to standard additive homomorphic algorithms like Paillier, this algorithm reduces the computational cost of encryption and decryption from modular exponentiation to modular multiplication, and reduces the computational cost of ciphertext addition from modular multiplication to modular addition. This algorithm is based on a new mathematical problem: in two division operations, whether it is possible to infer the remainder or divisor based on the dividend when two remainders are related. Currently, it is not obvious how to break this problem, but further exploration is needed to determine if it is sufficiently difficult. In addition to this mathematical problem, we have also designed two interesting mathematical structures for decryption, which are used in the two algorithms mentioned in the main text. It is possible that the decryption structure of Algorithm 2 introduces new security vulnerabilities, but we have not investigated this issue thoroughly.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# GenHowTo: インストラクショナルビデオからアクションと状態変換を生成するための学習

GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos ( http://arxiv.org/abs/2312.07322v2 )

ライセンス: Link先を確認
Tomáš Souček, Dima Damen, Michael Wray, Ivan Laptev, Josef Sivic, (参考訳) 動作とオブジェクト状態変換の時間的一貫性と物理的に妥当な画像を生成するタスクに対処する。 対象の変換を記述した入力画像とテキストプロンプトが与えられた場合、生成した画像は環境を保存し、初期画像内のオブジェクトを変換する。 私たちの貢献は3倍です。 まず、多数の教示ビデオを活用し、初期オブジェクト状態、アクション、そして結果のオブジェクト変換に対応する連続するフレームのデータセットを自動的にマイニングする。 第2に、このデータを用いて、GenHowToと呼ばれる条件付き拡散モデルを開発し、訓練する。 第3に、さまざまなオブジェクトやアクション上でGenHowToを評価し、既存のメソッドと比較して優れたパフォーマンスを示す。 特に,GenHowToが目に見えるインタラクションカテゴリで88%,目に見えないインタラクションカテゴリで74%を達成し,先行研究を大きなマージンで上回る定量的評価を行った。

We address the task of generating temporally consistent and physically plausible images of actions and object state transformations. Given an input image and a text prompt describing the targeted transformation, our generated images preserve the environment and transform objects in the initial image. Our contributions are threefold. First, we leverage a large body of instructional videos and automatically mine a dataset of triplets of consecutive frames corresponding to initial object states, actions, and resulting object transformations. Second, equipped with this data, we develop and train a conditioned diffusion model dubbed GenHowTo. Third, we evaluate GenHowTo on a variety of objects and actions and show superior performance compared to existing methods. In particular, we introduce a quantitative evaluation where GenHowTo achieves 88% and 74% on seen and unseen interaction categories, respectively, outperforming prior work by a large margin.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# 大規模ヒューマン言語モデル: ニーズと課題

Large Human Language Models: A Need and the Challenges ( http://arxiv.org/abs/2312.07751v2 )

ライセンス: Link先を確認
Nikita Soni, H. Andrew Schwartz, João Sedoc, Niranjan Balasubramanian, (参考訳) 人間中心NLPの研究が進むにつれ、人間と社会的要因をNLPモデルに組み込むことの重要性がますます認識されている。 同時に、我々のNLPシステムは LLM に大きく依存するようになり、そのほとんどは著者をモデル化していない。 人間の言語を真に理解できるNLPシステムを構築するためには、人間のコンテキストをLLMに統合する必要がある。 これにより、人的側面のキャプチャ、表現方法、追求すべきモデリング戦略の観点から、さまざまな設計上の考慮と課題が表面化します。 これらの課題に対処するために,心理学や行動科学の概念を用いた大規模人文言語モデル(LHLM)の創出を提唱する。 第2に、LHLMは人々がグループ以上のものであることを認識すべきである。 第3に、LHLMは人間の文脈の動的かつ時間的に依存する性質を説明できるべきである。 我々は、関連する進歩と、対処すべきオープンな課題と、これらの目標を実現するためのソリューションについて言及する。

As research in human-centered NLP advances, there is a growing recognition of the importance of incorporating human and social factors into NLP models. At the same time, our NLP systems have become heavily reliant on LLMs, most of which do not model authors. To build NLP systems that can truly understand human language, we must better integrate human contexts into LLMs. This brings to the fore a range of design considerations and challenges in terms of what human aspects to capture, how to represent them, and what modeling strategies to pursue. To address these, we advocate for three positions toward creating large human language models (LHLMs) using concepts from psychological and behavioral sciences: First, LM training should include the human context. Second, LHLMs should recognize that people are more than their group(s). Third, LHLMs should be able to account for the dynamic and temporally-dependent nature of the human context. We refer to relevant advances and present open challenges that need to be addressed and their possible solutions in realizing these goals.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# 社会・法・倫理・共感・文化ルール:編纂・推論(拡張版)

Social, Legal, Ethical, Empathetic, and Cultural Rules: Compilation and Reasoning (Extended Version) ( http://arxiv.org/abs/2312.09699v2 )

ライセンス: Link先を確認
Nicolas Troquard, Martina De Sanctis, Paola Inverardi, Patrizio Pelliccione, Gian Luca Scoccia, (参考訳) AIベースの自律システムの台頭は、その行動や決定から生じる潜在的なネガティブな影響により、懸念と理解を高めている。 これらのシステムは、運用する人間の状況に合わせて設計されなければならない。 2022年、タウンゼンドらはSLEEC(社会的、法的、倫理的、共感的、文化的)ルールの概念を導入し、AIベースの自律システムが従うべき規則の定式化、検証、実施を促進することを目的としている。 彼らは彼らを誘惑し、哲学者、弁護士、ドメインの専門家、その他に自然言語で定式化させるための方法論を編み出した。 AIシステムで効果的な使用を可能にするためには、これらのルールを自動推論をサポートする形式言語に体系的に翻訳する必要がある。 本研究ではまず,SLEEC規則の古典論理への翻訳を正当化するSLEEC規則パターンの言語学的解析を行う。 次に,SLEECルールの推論における計算複雑性について検討し,SLEECルールの実装に論理プログラミングフレームワークをどのように適用できるかを示す。 その結果、SLEECルールとして表される規範に準拠したAIシステムを実装するための、容易に適用可能な戦略である。

The rise of AI-based and autonomous systems is raising concerns and apprehension due to potential negative repercussions stemming from their behavior or decisions. These systems must be designed to comply with the human contexts in which they will operate. To this extent, Townsend et al. (2022) introduce the concept of SLEEC (social, legal, ethical, empathetic, or cultural) rules that aim to facilitate the formulation, verification, and enforcement of the rules AI-based and autonomous systems should obey. They lay out a methodology to elicit them and to let philosophers, lawyers, domain experts, and others to formulate them in natural language. To enable their effective use in AI systems, it is necessary to translate these rules systematically into a formal language that supports automated reasoning. In this study, we first conduct a linguistic analysis of the SLEEC rules pattern, which justifies the translation of SLEEC rules into classical logic. Then we investigate the computational complexity of reasoning about SLEEC rules and show how logical programming frameworks can be employed to implement SLEEC rules in practical scenarios. The result is a readily applicable strategy for implementing AI systems that conform to norms expressed as SLEEC rules.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# UINav: デバイス上で自動化エージェントをトレーニングするための実践的アプローチ

UINav: A Practical Approach to Train On-Device Automation Agents ( http://arxiv.org/abs/2312.10170v2 )

ライセンス: Link先を確認
Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Max Lin, Oriana Riva, (参考訳) アプリケーションユーザインターフェースを自律的に実行してユーザタスクを完了させる自動化システムは,特にユーザが状況的にあるいは永続的に障害を受けた場合,大きなメリットがあります。 従来の自動化システムは一般化可能なモデルを生成していないが、AIベースの自動化エージェントは単純で手作りのアプリケーションでのみ確実に機能し、高い計算コストがかかる。 UINavは、モバイルデバイスに適合する自動化エージェントを訓練するが、デモ数が少なくて高い成功率を達成するための、デモベースのアプローチである。 デモンストレーションのオーバーヘッドを軽減するために、UINavでは、エージェントが失敗するタスクに対する即時にフィードバックを提供するリファインダーモデルを使用して、トレーニングデータの多様性を高めるために、人間のデモを自動的に強化する。 評価の結果,UINavは10のデモで70%の精度を達成でき,十分なデモで90%以上の精度を達成できることがわかった。

Automation systems that can autonomously drive application user interfaces to complete user tasks are of great benefit, especially when users are situationally or permanently impaired. Prior automation systems do not produce generalizable models while AI-based automation agents work reliably only in simple, hand-crafted applications or incur high computation costs. We propose UINav, a demonstration-based approach to train automation agents that fit mobile devices, yet achieving high success rates with modest numbers of demonstrations. To reduce the demonstration overhead, UINav uses a referee model that provides users with immediate feedback on tasks where the agent fails, and automatically augments human demonstrations to increase diversity in training data. Our evaluation shows that with only 10 demonstrations UINav can achieve 70% accuracy, and that with enough demonstrations it can surpass 90% accuracy.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# 時間反転対称光子輸送に基づく単一光子波束のパッシブおよび決定論的制御相ゲート

Passive and Deterministic Controlled-phase Gate for Single-photon Wavepackets Based on Time-reversal Symmetric Photon Transport ( http://arxiv.org/abs/2312.10719v3 )

ライセンス: Link先を確認
Zhaohua Tian, Xue-Wen Chen, (参考訳) 本稿では,2レベルエミッタと少数のキャビティからなるノードを持つ単一光子ウェーブパケットに対して,受動的,決定論的,ほぼ一元性制御された$$\pi$相ゲートの構築について報告する。 提案したゲートは、時間反転対称光子輸送の原理に根ざし、ノードを通して光子輸送過程全体を完全な吸収・再放出過程へと導く。 これにより、非線形媒体を用いたフォトニック位相ゲートに固有のウェーブパレット歪みの長年の問題を回避することができる。 このような時間反転対称なウェーブパケット輸送過程を通じて、2レベルのエミッタは2光子輸送の場合の非線形な$\pi$位相シフトを誘導する。 特に、単一光子と2光子の両方の場合、ゲート忠実度は4つのキャビティしか持たないノードに対して99\%を超える。 さらに,提案するゲートアーキテクチャは,統合フォトニクスのプラットフォームと互換性がある。

We report the construction of a passive, deterministic and near unity-fidelity controlled-$\pi$-phase gate for single-photon wavepackets with a node comprising a two-level emitter and a small number of cavities. The proposed gate is rooted in the principle of time-reversal symmetric photon transport, which makes the entire photon transport process through the node into a perfect absorption and re-emission process. Consequently, it can circumvent the longstanding issue of wavepacket distortion inherent in photonic phase gates employing nonlinear media. Through such a time-reversal symmetric wavepacket transport process, the two-level emitter induces a nonlinear $\pi$ phase shift for the case of two-photon transport. Notably, for both single-photon and two-photon operations, the gate fidelity can exceed 99\% for a node with only four cavities. Moreover, our proposed gate architecture is compatible with the platforms of integrated photonics.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-02
# 測定誘起非単位力学とゼノ効果の拡散複雑性

Spread complexity for measurement-induced non-unitary dynamics and Zeno effect ( http://arxiv.org/abs/2312.11635v2 )

ライセンス: Link先を確認
Aranya Bhattacharya, Rathindra Nath Das, Bidyut Dey, Johanna Erdmenger, (参考訳) 拡散複雑性と拡散エントロピーを用いて、非単位量子力学を研究する。 非エルミート的ハミルトニアンに対しては、クリロフ基底のビランツォス構成をシュリンガー図形に拡張する。 さらに,複素対称ハミルトニアンに適応したアルゴリズムを実装した。 これにより、Bi-Lanczosの構成に比べて計算メモリの要求が半減する。 この構造を、固定された小さな時間間隔で繰り返し測定する1次元強結合ハミルトン群に適用し、有効非単体力学を導出する。 拡散複雑性は最初は時間とともに増大し,その後に長期の崩壊期間と飽和が続く。 初期状態の選択は複雑性とエントロピーの飽和値を決定する。 測定誘起相転移と類似して、異なる周波数で通常の測定をオンにすることで誘導されるエルミートと非エルミートハミルトンの進化のクエンチを考える。 その結果, 測定周波数の関数として, 拡散複雑性が増大し始める時間が増えることがわかった。 この時間は、測定間の時間間隔がゼロになるときに無限大に近づき、測定が時間の進化を妨げる量子ゼノ効果の開始を示す。

Using spread complexity and spread entropy, we study non-unitary quantum dynamics. For non-hermitian Hamiltonians, we extend the bi-Lanczos construction for the Krylov basis to the Schr\"odinger picture. Moreover, we implement an algorithm adapted to complex symmetric Hamiltonians. This reduces the computational memory requirements by half compared to the bi-Lanczos construction. We apply this construction to the one-dimensional tight-binding Hamiltonian subject to repeated measurements at fixed small time intervals, resulting in effective non-unitary dynamics. We find that the spread complexity initially grows with time, followed by an extended decay period and saturation. The choice of initial state determines the saturation value of complexity and entropy. In analogy to measurement-induced phase transitions, we consider a quench between hermitian and non-hermitian Hamiltonian evolution induced by turning on regular measurements at different frequencies. We find that as a function of the measurement frequency, the time at which the spread complexity starts growing increases. This time asymptotes to infinity when the time gap between measurements is taken to zero, indicating the onset of the quantum Zeno effect, according to which measurements impede time evolution.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# pixelSplat:スケーラブルな一般化可能な3D再構成のためのイメージペアからの3Dガウススプラット

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction ( http://arxiv.org/abs/2312.12337v3 )

ライセンス: Link先を確認
David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann, (参考訳) 画像のペアから3次元ガウスプリミティブによってパラメータ化される3次元放射界の再構成を学習するフィードフォワードモデルであるPixelSplatを導入する。 我々のモデルは、スケーラブルなトレーニングのためのリアルタイム・メモリ効率のレンダリングと、推論時の高速な3次元再構成を特徴としている。 疎小かつ局所的に支持された表現に固有の局所最小値を克服するために,その分布から3次元およびサンプルガウス平均上の密度確率分布を推定する。 このサンプリング操作をパラメータ化トリックで微分可能とし、ガウススプラッティング表現による勾配のバックプロパゲートを可能にする。 我々は,実世界のRealEstate10kおよびACデータセット上での広義の新規ビュー合成をベンチマークし,解釈可能で編集可能な3Dラジアンスフィールドを再構成しながら,最先端の光電場変換器を上回り,2.5桁のレンダリングを高速化する。

We introduce pixelSplat, a feed-forward model that learns to reconstruct 3D radiance fields parameterized by 3D Gaussian primitives from pairs of images. Our model features real-time and memory-efficient rendering for scalable training as well as fast 3D reconstruction at inference time. To overcome local minima inherent to sparse and locally supported representations, we predict a dense probability distribution over 3D and sample Gaussian means from that probability distribution. We make this sampling operation differentiable via a reparameterization trick, allowing us to back-propagate gradients through the Gaussian splatting representation. We benchmark our method on wide-baseline novel view synthesis on the real-world RealEstate10k and ACID datasets, where we outperform state-of-the-art light field transformers and accelerate rendering by 2.5 orders of magnitude while reconstructing an interpretable and editable 3D radiance field.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# MaskINT: 補間的非自己回帰型マスク変圧器によるビデオ編集

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers ( http://arxiv.org/abs/2312.12468v2 )

ライセンス: Link先を確認
Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie, (参考訳) 生成AIの最近の進歩は、特にテキストプロンプト制御の文脈において、画像とビデオの編集を大幅に強化している。 最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。 しかし、拡散に基づく手法の計算要求はかなり大きく、しばしば訓練のために大規模なペアデータセットを必要とするため、実際のアプリケーションでの展開に挑戦する。 これらの課題に対処するため,本論文では,テキストベースのビデオ編集タスクを2段階に分割する。 まず、事前訓練されたテキスト・画像拡散モデルを用いて、ゼロショット方式で少数のキーフレームを同時に編集する。 第2に,非自己回帰マスク型生成変換器上に構築され,中間フレームの構造的ガイダンスを用いて,編集キーフレーム間のフレーム補間を専門とするMaskINTという効率的なモデルを導入する。 実験結果から,我々のMaskINTは拡散法と同等の性能を示し,推論時間を大幅に改善した。 本研究は,テキストベースの映像編集の実践的ソリューションを提供し,この領域における非自己回帰マスク生成トランスの可能性を示す。

Recent advances in generative AI have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on diffusion models to accomplish these tasks. However, the computational demands of diffusion-based methods are substantial, often necessitating large-scale paired datasets for training, and therefore challenging the deployment in real applications. To address these issues, this paper breaks down the text-based video editing task into two stages. First, we leverage an pre-trained text-to-image diffusion model to simultaneously edit few keyframes in an zero-shot way. Second, we introduce an efficient model called MaskINT, which is built on non-autoregressive masked generative transformers and specializes in frame interpolation between the edited keyframes, using the structural guidance from intermediate frames. Experimental results suggest that our MaskINT achieves comparable performance with diffusion-based methodologies, while significantly improve the inference time. This research offers a practical solution for text-based video editing and showcases the potential of non-autoregressive masked generative transformers in this domain.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# リモートセンシング画像セグメント参照のための回転マルチスケールインタラクションネットワーク

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation ( http://arxiv.org/abs/2312.12470v3 )

ライセンス: Link先を確認
Sihan Liu, Yiwei Ma, Xiaoqing Zhang, Haowei Wang, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji, (参考訳) Referring Remote Sensing Image Segmentation (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題であり、テキストクエリによって記述された、空中画像の特定の領域を記述している。 従来の参照画像セグメンテーション(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられ、最適部分セグメンテーションの結果が導かれる。 これらの課題に対処するために、RRSISのユニークな要求に対して設計された革新的なアプローチであるRotated Multi-Scale Interaction Network (RMSIN)を導入する。 RMSINは、複数のスケールで必要とされる細かな詳細に効果的に対処するために、IIM(Intra-scale Interaction Module)と、これらの詳細をネットワーク全体に整合的に統合するためのCIM(Cross-scale Interaction Module)を組み込んでいる。 さらに、RMSINは適応回転畳み込み(ARC)を用いて、オブジェクトの様々な向きを考慮し、セグメント化の精度を大幅に向上させる新しいコントリビューションである。 RMSINの有効性を評価するため、17,402個の画像キャプションマスクトレーレットからなる拡張データセットをキュレートした。 このデータセットは、幅広い空間シナリオと回転シナリオを持つモデルを示すだけでなく、RRSISタスクの厳密なベンチマークを確立し、厳密な性能評価を保証する。 実験により,RMSINが既存の最先端モデルを上回る性能を示した。 すべてのデータセットとコードはhttps://github.com/Lsan2401/RMSINで公開されている。

Referring Remote Sensing Image Segmentation (RRSIS) is a new challenge that combines computer vision and natural language processing, delineating specific regions in aerial images as described by textual queries. Traditional Referring Image Segmentation (RIS) approaches have been impeded by the complex spatial scales and orientations found in aerial imagery, leading to suboptimal segmentation results. To address these challenges, we introduce the Rotated Multi-Scale Interaction Network (RMSIN), an innovative approach designed for the unique demands of RRSIS. RMSIN incorporates an Intra-scale Interaction Module (IIM) to effectively address the fine-grained detail required at multiple scales and a Cross-scale Interaction Module (CIM) for integrating these details coherently across the network. Furthermore, RMSIN employs an Adaptive Rotated Convolution (ARC) to account for the diverse orientations of objects, a novel contribution that significantly enhances segmentation accuracy. To assess the efficacy of RMSIN, we have curated an expansive dataset comprising 17,402 image-caption-mask triplets, which is unparalleled in terms of scale and variety. This dataset not only presents the model with a wide range of spatial and rotational scenarios but also establishes a stringent benchmark for the RRSIS task, ensuring a rigorous evaluation of performance. Our experimental evaluations demonstrate the exceptional performance of RMSIN, surpassing existing state-of-the-art models by a significant margin. All datasets and code are made available at https://github.com/Lsan2401/RMSIN.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# YAYI-UIE: ユニバーサル情報抽出のためのチャット強化型インストラクションチューニングフレームワーク

YAYI-UIE: A Chat-Enhanced Instruction Tuning Framework for Universal Information Extraction ( http://arxiv.org/abs/2312.15548v3 )

ライセンス: Link先を確認
Xinglin Xiao, Yijie Wang, Nan Xu, Yuqi Wang, Hanxuan Yang, Minzheng Wang, Yin Luo, Lei Wang, Wenji Mao, Daniel Zeng, (参考訳) 情報抽出タスクの難しさは、タスク固有のラベルスキーマや異種データ構造を扱うことにある。 近年,様々な情報抽出タスクを一様にモデル化する大規模言語モデルに基づく手法が提案されている。 しかし、これらの既存の手法は、英語以外の中国語の情報抽出能力に欠ける。 本稿では、中国語と英語の両方をサポートするユニバーサル情報抽出(YAYI-UIE)のためのエンドツーエンドのチャット強化指導フレームワークを提案する。 具体的には,対話データと情報抽出データを用いて,情報抽出性能を協調的に向上する。 実験の結果,提案フレームワークは中国語のデータセット上での最先端のパフォーマンスと,教師付き設定とゼロショット設定の両方で英語のデータセット上での同等のパフォーマンスを実現していることがわかった。

The difficulty of the information extraction task lies in dealing with the task-specific label schemas and heterogeneous data structures. Recent work has proposed methods based on large language models to uniformly model different information extraction tasks. However, these existing methods are deficient in their information extraction capabilities for Chinese languages other than English. In this paper, we propose an end-to-end chat-enhanced instruction tuning framework for universal information extraction (YAYI-UIE), which supports both Chinese and English. Specifically, we utilize dialogue data and information extraction data to enhance the information extraction performance jointly. Experimental results show that our proposed framework achieves state-of-the-art performance on Chinese datasets while also achieving comparable performance on English datasets under both supervised settings and zero-shot settings.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# 重クォーク熱化のための加速量子回路モンテカルロシミュレーション

Accelerated quantum circuit Monte-Carlo simulation for heavy quark thermalization ( http://arxiv.org/abs/2312.16294v2 )

ライセンス: Link先を確認
Xiaojian Du, Wenyang Qian, (参考訳) クォークグルーオンプラズマ(QGP)における重クォークの熱化は、強い相互作用を理解する上で最も有望な現象の1つである。 低運動量でのエネルギー損失と運動量拡大は、ドラッグ・アンド・拡散項を持つ確率過程によってよく説明できる。 量子コンピューティングの最近の進歩、特に量子振幅推定(QAE)は、確率過程をシミュレートする2次的なスピードアップを提供することを約束している。 我々は、重クォーク熱化をシミュレートするために、加速量子回路モンテカルロ(aQCMC)フレームワークを導入し、形式化する。 アインシュタインの関係で連結された単純なドラッグと拡散係数を用いて、理想的な量子シミュレータを用いて重クォークの等方的および異方的媒体における熱化をシミュレートし、それを熱予測と比較する。 グロバーライクなQAEを用いて、二次的に少ない資源で物理観測可能量を計算し、これは通常、同じ推定精度で大量のサンプリング数を必要とする古典的なMCシミュレーションを後押しする。

Thermalization of heavy quarks in the quark-gluon plasma (QGP) is one of the most promising phenomena for understanding the strong interaction. The energy loss and momentum broadening at low momentum can be well described by a stochastic process with drag and diffusion terms. Recent advances in quantum computing, in particular quantum amplitude estimation (QAE), promise to provide a quadratic speed-up in simulating stochastic processes. We introduce and formalize an accelerated quantum circuit Monte-Carlo (aQCMC) framework to simulate heavy quark thermalization. With simplified drag and diffusion coefficients connected by Einstein's relation, we simulate the thermalization of a heavy quark in isotropic and anisotropic mediums using an ideal quantum simulator and compare that to thermal expectations. With Grover-like QAE, we calculate physical observables with quadratically fewer resources, which is a boost over the classical MC simulation that usually requires a large sampling number at the same estimation accuracy.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# SVGDreamer:拡散モデルによるテキストガイドSVG生成

SVGDreamer: Text Guided SVG Generation with Diffusion Model ( http://arxiv.org/abs/2312.16476v5 )

ライセンス: Link先を確認
Ximing Xing, Haitao Zhou, Chuang Wang, Jing Zhang, Dong Xu, Qian Yu, (参考訳) 近年,テキスト誘導型スケーラブルベクターグラフィックス (SVG) 合成はイコノグラフィやスケッチなどの領域で有望であることが示されている。 しかし、既存のテキスト-SVG生成手法は編集性に欠け、視覚的品質と結果の多様性に苦慮している。 これらの制約に対処するために,SVGDreamer と呼ばれる新しいテキスト誘導ベクトルグラフィックス合成法を提案する。 SVGDreamerは、前景オブジェクトと背景への合成の分解を可能にする意味駆動画像ベクトル化(SIVE)プロセスを導入し、編集性を向上させる。 具体的には、注意に基づくプリミティブ制御と、個々の要素を効果的に制御および操作するためのアテンションマスク損失関数を導入する。 さらに, SVGを制御点と色分布としてモデル化することにより, 形状過飽和, 色過飽和, 多様性の制限, 既存のテキスト-SVG生成手法の緩やかな収束に対処するためのベクトル化粒子を用いたスコア蒸留(VPSD)手法を提案する。 さらに、VPSDはリウェイトベクトル粒子に対する報酬モデルを活用し、美的魅力を改善し、収束を加速する。 SVGDreamerの有効性を検証するため, 編集性, 視覚的品質, 多様性の観点から, ベースライン法よりも優れていることを示した。 プロジェクトページ: \href{https://ximinng.github.io/SVGDreamer-project/}{https://ximinng.github.io/SVGDreamer-project/}

Recently, text-guided scalable vector graphics (SVGs) synthesis has shown promise in domains such as iconography and sketch. However, existing text-to-SVG generation methods lack editability and struggle with visual quality and result diversity. To address these limitations, we propose a novel text-guided vector graphics synthesis method called SVGDreamer. SVGDreamer incorporates a semantic-driven image vectorization (SIVE) process that enables the decomposition of synthesis into foreground objects and background, thereby enhancing editability. Specifically, the SIVE process introduces attention-based primitive control and an attention-mask loss function for effective control and manipulation of individual elements. Additionally, we propose a Vectorized Particle-based Score Distillation (VPSD) approach to address issues of shape over-smoothing, color over-saturation, limited diversity, and slow convergence of the existing text-to-SVG generation methods by modeling SVGs as distributions of control points and colors. Furthermore, VPSD leverages a reward model to re-weight vector particles, which improves aesthetic appeal and accelerates convergence. Extensive experiments are conducted to validate the effectiveness of SVGDreamer, demonstrating its superiority over baseline methods in terms of editability, visual quality, and diversity. Project page: \href{https://ximinng.github.io/SVGDreamer-project/}{https://ximinng.github.io/SVGDreamer-project/}
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# 変圧器の長さ外挿:位置エンコーディングの観点から

Length Extrapolation of Transformers: A Survey from the Perspective of Positional Encoding ( http://arxiv.org/abs/2312.17044v4 )

ライセンス: Link先を確認
Liang Zhao, Xiaocheng Feng, Xiachong Feng, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin, Ting Liu, (参考訳) Transformerは、生まれてから嵐によって自然言語処理(NLP)の分野に進出してきた。 さらに、その上に構築されたLarge Language Model (LLM) は、その優れた能力のために世界中の注目を集めている。 しかしながら、これらの強力なLLMを含むトランスフォーマーベースのモデルは全て、予め設定された長さ制限に悩まされており、短いトレーニングシーケンスから長い推論シーケンスへの一般化は困難である。 そのため、トランスフォーマーの長さ外挿を強化する手法が多数提案されており、位置符号化(PE)が主要な要因であると認識されている。 本研究は, PEの観点からの統一表記法において, 長さ外挿に向けてのこれらの進歩を示すものである。 具体的には,絶対および相対的なPEを含む外挿可能なPEを導入する。 そこで我々は,それらに基づいて外挿法を探索し,位置補間とランダム化位置法をカバーする。 最後に、この分野におけるいくつかの課題と今後の方向性を強調します。 本調査を通じて,読者が既存の手法を深く理解し,今後の研究に刺激を与えることを目標にしている。

Transformer has taken the field of natural language processing (NLP) by storm since its birth. Further, Large language models (LLMs) built upon it have captured worldwide attention due to its superior abilities. Nevertheless, all Transformer-based models including these powerful LLMs suffer from a preset length limit and can hardly generalize from short training sequences to longer inference ones, namely, they can not perform length extrapolation. Hence, a plethora of methods have been proposed to enhance length extrapolation of Transformer, in which the positional encoding (PE) is recognized as the major factor. In this survey, we present these advances towards length extrapolation in a unified notation from the perspective of PE. Specifically, we first introduce extrapolatable PEs, including absolute and relative PEs. Then, we dive into extrapolation methods based on them, covering position interpolation and randomized position methods. Finally, several challenges and future directions in this area are highlighted. Through this survey, We aim to enable the reader to gain a deep understanding of existing methods and provide stimuli for future research.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-02
# TeleChat技術報告

TeleChat Technical Report ( http://arxiv.org/abs/2401.03804v2 )

ライセンス: Link先を確認
Zhongjiang He, Zihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huinan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song, (参考訳) 本稿では,30億,70億,120億のパラメータを持つ大規模言語モデル(LLM)の集合であるTeleChatを紹介する。 事前訓練された言語モデルと、人間の好みに合わせて微調整されたチャットモデルが含まれている。 TeleChatは当初、数十兆のトークンを含む英語と中国語のテキストの多種多様なコレクションを含む広範なコーパスで事前訓練されている。 その後、このモデルは、我々が記述した詳細な方法論に従って、人間の好みに合わせて微調整を行う。 言語理解,数学,推論,コード生成,知識に基づく質問応答など,様々なタスクにおけるTeleChatの性能を評価する。 以上の結果から,TeleChatは,他のオープンソースモデルと同等の規模で,広範囲の公開ベンチマークで比較可能な性能を実現していることがわかった。 LLMを利用した将来の研究や応用を支援するため、TeleChatの7Bと12Bのモデルチェックポイントとコードと事前学習データの一部を公開コミュニティにリリースする。

In this technical report, we present TeleChat, a collection of large language models (LLMs) with parameters of 3 billion, 7 billion and 12 billion. It includes pretrained language models as well as fine-tuned chat models that is aligned with human preferences. TeleChat is initially pretrained on an extensive corpus containing a diverse collection of texts from both English and Chinese languages, including trillions of tokens. Subsequently, the model undergoes fine-tuning to align with human preferences, following a detailed methodology that we describe. We evaluate the performance of TeleChat on various tasks, including language understanding, mathematics, reasoning, code generation, and knowledge-based question answering. Our findings indicate that TeleChat achieves comparable performance to other open-source models of similar size across a wide range of public benchmarks. To support future research and applications utilizing LLMs, we release the fine-tuned model checkpoints of TeleChat's 7B and 12B variant, along with code and a portion of our pretraining data, to the public community.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# 多パラメータ持続ホモロジー検出のためのフレキシブルフィルタ

Flexible filtrations for multiparameter persistent homology detect digital images ( http://arxiv.org/abs/2401.04332v2 )

ライセンス: Link先を確認
Jiaxing He, Bingzhe Hou, Tieru Wu, Yue Xin, (参考訳) トポロジカルデータ解析の分野における2つの重要な問題は、オブジェクト上の実用的なマルチフィルタを定義し、TDAの幾何学的検出能力を示すことである。 これらの課題に乗じて,マルチジェネエオ,マルチジェネエオ,ミックスジェネエオという3つのマルチフィルタを構成し,有界関数の部分空間の擬似測度に関して,多ジェネエオのインターリービング距離とマルチパラメータ永続景観の安定性を実証した。 また,Multi-DGENEOとmix-GENEOの上限値の推定を行った。 最後に,MNISTデータセットを用いてディジタル画像の幾何学的および位相的差異を検出できることを実証する実験結果を提案する。

Two important problems in the field of Topological Data Analysis are defining practical multifiltrations on objects and showing ability of TDA to detect the geometry. Motivated by the problems, we constuct three multifiltrations named multi-GENEO, multi-DGENEO and mix-GENEO, and prove the stability of both the interleaving distance and multiparameter persistence landscape of multi-GENEO with respect to the pseudometric of the subspace of bounded functions. We also give the estimations of upper bound for multi-DGENEO and mix-GENEO. Finally, we provide experiment results on MNIST dataset to demonstrate our bifiltrations have ability to detect geometric and topological differences of digital images.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# i-リバランス:需給バランスのための個人化自動車再配置

i-Rebalance: Personalized Vehicle Repositioning for Supply Demand Balance ( http://arxiv.org/abs/2401.04429v2 )

ライセンス: Link先を確認
Haoyang Chen, Peiyan Sun, Qiyuan Song, Wanyuan Wang, Weiwei Wu, Wencan Zhang, Guanyu Gao, Yan Lyu, (参考訳) ライドシェアリングプラットフォームは、需要と供給のバランスをとるという課題に直面している。 既存の車両再配置技術は、しばしばドライバーを均質なエージェントとして扱い、再配置の遵守を前提として決定的にそれらを移動させる。 本稿では,より現実的で運転者中心のシナリオとして,ドライバーが独自のクルーズの好みを持ち,自ら推奨するか否かを判断できるシナリオについて考察する。 深部強化学習(DRL)を用いた個別車両再配置技術であるi-Rebalanceを提案する。 i-Re Balanceは、99人のリアルドライバーを含む実地ユーザスタディを通じて、リポジションレコメンデーションを受け入れる際のドライバーの判断を推定する。 供給需要のバランスを最適化し、同時に嗜好満足度を高めるため、i-Re Balanceは2台のDRLエージェントで順次再配置戦略を持つ: アイドル車の再配置順序を決定するグリッドエージェントと、事前に定義された順序で各車両にパーソナライズされたレコメンデーションを提供する車両エージェントである。 このシーケンシャルな学習戦略は、従来の共同行動法と比較して、より小さな行動空間内でのより効果的な政策訓練を促進する。 実世界の軌道データの評価では、i-リバランスはドライバーの受け入れ率を38.07%、ドライバーの総収入を9.97%改善している。

Ride-hailing platforms have been facing the challenge of balancing demand and supply. Existing vehicle reposition techniques often treat drivers as homogeneous agents and relocate them deterministically, assuming compliance with the reposition. In this paper, we consider a more realistic and driver-centric scenario where drivers have unique cruising preferences and can decide whether to take the recommendation or not on their own. We propose i-Rebalance, a personalized vehicle reposition technique with deep reinforcement learning (DRL). i-Rebalance estimates drivers' decisions on accepting reposition recommendations through an on-field user study involving 99 real drivers. To optimize supply-demand balance and enhance preference satisfaction simultaneously, i-Rebalance has a sequential reposition strategy with dual DRL agents: Grid Agent to determine the reposition order of idle vehicles, and Vehicle Agent to provide personalized recommendations to each vehicle in the pre-defined order. This sequential learning strategy facilitates more effective policy training within a smaller action space compared to traditional joint-action methods. Evaluation of real-world trajectory data shows that i-Rebalance improves driver acceptance rate by 38.07% and total driver income by 9.97%.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# Morphable Diffusion: 単一画像アバター作成のための3次元連続拡散

Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation ( http://arxiv.org/abs/2401.04728v2 )

ライセンス: Link先を確認
Xiyi Chen, Marko Mihajlovic, Shaofei Wang, Sergey Prokudin, Siyu Tang, (参考訳) 生成拡散モデルの最近の進歩により、単一の入力画像やテキストプロンプトから3Dアセットを生成するという従来不可能な能力が実現された。 本研究では,制御可能なフォトリアリスティックな人間のアバターを作成するために,これらのモデルの品質と機能を向上させることを目的としている。 我々は,3次元形態素モデルを最先端の多視点拡散手法に統合することで実現した。 合成した3次元モデル上での生成パイプラインの正確な条件付けは、単一の画像から新しいビュー合成を行うタスクにおけるベースラインモデルの性能を向上させることを実証する。 さらに重要なのは、この統合によって、顔の表情と身体のポーズ制御をシームレスかつ正確に生成プロセスに組み込むことができることだ。 我々の知識を最大限に活用するために,本提案フレームワークは,未確認対象の単一画像から完全3次元一貫性,アニマタブル,フォトリアリスティックな人間のアバターを作成するための,最初の拡散モデルである。 私たちのプロジェクトのコードは公開されています。

Recent advances in generative diffusion models have enabled the previously unfeasible capability of generating 3D assets from a single input image or a text prompt. In this work, we aim to enhance the quality and functionality of these models for the task of creating controllable, photorealistic human avatars. We achieve this by integrating a 3D morphable model into the state-of-the-art multi-view-consistent diffusion approach. We demonstrate that accurate conditioning of a generative pipeline on the articulated 3D model enhances the baseline model performance on the task of novel view synthesis from a single image. More importantly, this integration facilitates a seamless and accurate incorporation of facial expression and body pose control into the generation process. To the best of our knowledge, our proposed framework is the first diffusion model to enable the creation of fully 3D-consistent, animatable, and photorealistic human avatars from a single image of an unseen subject; extensive quantitative and qualitative evaluations demonstrate the advantages of our approach over existing state-of-the-art avatar creation models on both novel view and novel expression synthesis tasks. The code for our project is publicly available.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# Grassmann Time-Evolving Matrix Product Operators を用いたリアルタイム不純物解法

Real-time Impurity Solver Using Grassmann Time-Evolving Matrix Product Operators ( http://arxiv.org/abs/2401.04880v2 )

ライセンス: Link先を確認
Ruofan Chen, Xiansong Xu, Chu Guo, (参考訳) 創発的で有望なテンソルネットワークに基づく不純物解法は、経路積分を行列積状態として表現し、ファインマン・ヴァーノンの影響関数を用いて浴を解析的に積分する。 本稿では、最近提案されたグラスマン時間進化行列積演算子法に基づく平衡不純物スペクトル関数の計算手法を提案する。 中心となる考え方は、非平衡シナリオのように分離不能不純物基底初期状態からクエンチを実行することである。 遅延グリーン関数 $G(t+t_0, t’+t_0)$ は、不純物と入浴がほぼ熱平衡となるような平衡時間 $t_0$ の後に算出される。 この方法には2つの大きな利点がある。 まず、実時間力学にフォーカスするため、虚数時間進化に依存する連続時間量子モンテカルロの場合において、数値的に不適切な解析的継続を行う必要はない。 第2に, 実時間計算における行列積状態の絡み合い成長は, 虚数計算よりもはるかに遅く, 数値効率が著しく向上した。 この手法の精度は、単軌道アンダーソン不純物モデルで示され、連続時間量子モンテカルロ法に対してベンチマークされる。

An emergent and promising tensor-network-based impurity solver is to represent the path integral as a matrix product state, where the bath is analytically integrated out using Feynman-Vernon influence functional. Here we present an approach to calculate the equilibrium impurity spectral function based on the recently proposed Grassmann time-evolving matrix product operators method. The central idea is to perform a quench from a separable impurity-bath initial state as in the non-equilibrium scenario. The retarded Green's function $G(t+t_0, t'+t_0)$ is then calculated after an equilibration time $t_0$ such that the impurity and bath are approximately in thermal equilibrium. There are two major advantages of this method. First, since we focus on real-time dynamics, we do not need to perform the numerically ill-posed analytic continuation in the continuous-time quantum Monte Carlo case that relies on imaginary-time evolution. Second, the entanglement growth of the matrix product states in real-time calculations is observed to be much slower than that in imaginary-time calculations, leading to a significant improvement in numerical efficiency. The accuracy of this method is demonstrated in the single-orbital Anderson impurity model and benchmarked against the continuous-time quantum Monte Carlo method.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# CASA: 因果性駆動型議論満足度評価

CASA: Causality-driven Argument Sufficiency Assessment ( http://arxiv.org/abs/2401.05249v2 )

ライセンス: Link先を確認
Xiao Liu, Yansong Feng, Kai-Wei Chang, (参考訳) 議論満足度評価タスクは、与えられた議論の前提がその結論を支持するかどうかを判断することを目的としている。 この課題に取り組むために、既存の作業は、人間によって注釈付けされたデータに基づいて分類器を訓練することが多い。 しかし、アノテートデータは面倒であり、しばしば主観的基準のため、アノテーションは矛盾する。 因果的文献における充足確率 (PS) の定義により, ゼロショット因果関係に基づく議論充足度評価フレームワークであるCASAを提案する。 PSは前提イベントの導入が前提イベントと結論イベントの両方が欠落した場合の結論につながる可能性を測っている。 この確率を推定するために,大規模言語モデル(LLM)を用いて前提と結論に矛盾するコンテキストを生成し,前提イベントを注入して修正することを提案する。 2つの論理的誤り検出データセットの実験により、CASAは不十分な議論を正確に識別することを示した。 我々はさらにCASAを書き込み支援アプリケーションにデプロイし、CASAが生成した提案が学生による議論の十分性を高めることを確認する。 コードとデータはhttps://github.com/xxxiaol/CASAで公開されている。

The argument sufficiency assessment task aims to determine if the premises of a given argument support its conclusion. To tackle this task, existing works often train a classifier on data annotated by humans. However, annotating data is laborious, and annotations are often inconsistent due to subjective criteria. Motivated by the definition of probability of sufficiency (PS) in the causal literature, we proposeCASA, a zero-shot causality-driven argument sufficiency assessment framework. PS measures how likely introducing the premise event would lead to the conclusion when both the premise and conclusion events are absent. To estimate this probability, we propose to use large language models (LLMs) to generate contexts that are inconsistent with the premise and conclusion and revise them by injecting the premise event. Experiments on two logical fallacy detection datasets demonstrate that CASA accurately identifies insufficient arguments. We further deploy CASA in a writing assistance application, and find that suggestions generated by CASA enhance the sufficiency of student-written arguments. Code and data are available at https://github.com/xxxiaol/CASA.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# 対比較モデルに対する統計的推測

Statistical inference for pairwise comparison models ( http://arxiv.org/abs/2401.08463v2 )

ライセンス: Link先を確認
Ruijian Han, Wenlu Tang, Yiming Xu, (参考訳) ペアワイズ比較モデルは様々な分野における実用性評価やランキングに広く利用されている。 今日の問題の大きさの増大は、被験者の数が多様化するときにこれらのモデルで統計的推論を理解する必要性を浮き彫りにしている。 このギャップを部分的に解消するため, 比較対象毎の非漸近収束率とともに, ペアワイズ比較モデルの広いクラスにおいて, 最大極大推定器の近近近漸近正規性結果を確立する。 鍵となる考え方は、フィッシャー情報行列を重み付きグラフラプラシアンとして同定することである。 本研究はBradley-Terryモデルを超えて,多種多様なペア比較モデルを用いて統計的推論を行うための統一理論を提供する。 合成データを用いたシミュレーションを行い、漸近正規性結果の検証を行い、続いてテニス競技データセットを用いた仮説テストを行った。

Pairwise comparison models have been widely used for utility evaluation and ranking across various fields. The increasing scale of problems today underscores the need to understand statistical inference in these models when the number of subjects diverges, a topic currently lacking in the literature except in a few special instances. To partially address this gap, this paper establishes a near-optimal asymptotic normality result for the maximum likelihood estimator in a broad class of pairwise comparison models, as well as a non-asymptotic convergence rate for each individual subject under comparison. The key idea lies in identifying the Fisher information matrix as a weighted graph Laplacian, which can be studied via a meticulous spectral analysis. Our findings provide a unified theory for performing statistical inference in a wide range of pairwise comparison models beyond the Bradley--Terry model, benefiting practitioners with theoretical guarantees for their use. Simulations utilizing synthetic data are conducted to validate the asymptotic normality result, followed by a hypothesis test using a tennis competition dataset.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# YOLOv8と形状フィッティング技術を用いた商業用果樹の未熟リンゴの検出とサイズ

Immature Green Apple Detection and Sizing in Commercial Orchards using YOLOv8 and Shape Fitting Techniques ( http://arxiv.org/abs/2401.08629v2 )

ライセンス: Link先を確認
Ranjan Sapkota, Dawood Ahmed, Martin Churuvija, Manoj Karkee, (参考訳) 成長の初期段階におけるリンゴの大きさの検出と推定は、収穫量の予測、害虫管理、収穫・収穫後の物流、マーケティングに関する情報的決定に不可欠である。 伝統的な果実の大きさ測定法は、手間と時間を要する。 本研究は,3次元点雲データ上の幾何形状整合技術と合わせて,最先端のYOLOv8オブジェクト検出とインスタンスセグメンテーションアルゴリズムを用いて,商業用果樹園環境における未熟リンゴ(フルーツレット)のサイズを正確に判定する。 この手法は2つのRGB-Dセンサー、Intel RealSense D435iとMicrosoft Azure Kinect DKを利用した。 特に、YOLOv8インスタンスセグメンテーションモデルでは未熟なリンゴの検出に習熟し、YOLOv8mセグモデルはAP@0.5点、AP@0.75点はそれぞれ0.94点、0.91点を記録した。 Azure Kinectの画像の楕円体フィッティング技術を用いて、RMSEは2.35mm、MAEは1.66mm、MAPEは6.15mm、R-2乗値は0.9。 部分閉塞などの課題は、特に果実クラスターにおいて、YOLOv8ベースのセグメンテーション技術を用いて、緑のリンゴを正確にデライン化・サイズ化する際の誤りを引き起こした。 102個の屋外サンプルと比較すると、Microsoft Azure Kinectで取得した画像では、Intel Realsense D435iで取得した画像よりも、サイズ推定が優れている。 この優位性は、RMSE値(Realsense D435iで2.35 mm)、MAE値(Realsense D435iで1.66 mm)、R2乗値(Realsense D435iで0.9 mm)、R2乗値(Realsense D435iで0.9 mm)から明らかである。

Detecting and estimating size of apples during the early stages of growth is crucial for predicting yield, pest management, and making informed decisions related to crop-load management, harvest and post-harvest logistics, and marketing. Traditional fruit size measurement methods are laborious and timeconsuming. This study employs the state-of-the-art YOLOv8 object detection and instance segmentation algorithm in conjunction with geometric shape fitting techniques on 3D point cloud data to accurately determine the size of immature green apples (or fruitlet) in a commercial orchard environment. The methodology utilized two RGB-D sensors: Intel RealSense D435i and Microsoft Azure Kinect DK. Notably, the YOLOv8 instance segmentation models exhibited proficiency in immature green apple detection, with the YOLOv8m-seg model achieving the highest AP@0.5 and AP@0.75 scores of 0.94 and 0.91, respectively. Using the ellipsoid fitting technique on images from the Azure Kinect, we achieved an RMSE of 2.35 mm, MAE of 1.66 mm, MAPE of 6.15 mm, and an R-squared value of 0.9 in estimating the size of apple fruitlets. Challenges such as partial occlusion caused some error in accurately delineating and sizing green apples using the YOLOv8-based segmentation technique, particularly in fruit clusters. In a comparison with 102 outdoor samples, the size estimation technique performed better on the images acquired with Microsoft Azure Kinect than the same with Intel Realsense D435i. This superiority is evident from the metrics: the RMSE values (2.35 mm for Azure Kinect vs. 9.65 mm for Realsense D435i), MAE values (1.66 mm for Azure Kinect vs. 7.8 mm for Realsense D435i), and the R-squared values (0.9 for Azure Kinect vs. 0.77 for Realsense D435i).
翻訳日:2024-04-04 09:10:18 公開日:2024-04-02
# 可変制御率による展開型強化学習

Deployable Reinforcement Learning with Variable Control Rate ( http://arxiv.org/abs/2401.09286v2 )

ライセンス: Link先を確認
Dong Wang, Giovanni Beltrame, (参考訳) 強化学習(RL)で訓練されたコントローラを現実のロボットに配置することは困難である: RLはエージェントのポリシーに依存してマルコフ決定プロセス(MDP)としてモデル化され、本質的に離散的な時間の経過を前提としている。 MDPの使用により、ほぼすべてのRLベースの制御システムは、通常、開発者の経験やアプリケーション環境の特定の特性に基づいて、一定期間(または時間ステップ)の制御戦略を採用することになる。 残念ながら、システムは安定性を確保するために最高で最悪の周波数で制御されなければならない。 リアクティブプログラミングの原則に従うことで、必要な時にのみコントロールアクションを適用することで、よりシンプルなハードウェアの使用が可能になり、エネルギー消費の削減に役立ちます。 可変制御率を持つRLの変種を提案することにより、固定周波数の仮定に挑戦する。 このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。 我々の新しい設定では、Soft Elastic Actor-Critic (SEAC)アルゴリズムを導入し、可変制御率で最適なポリシーを計算するためにSoft Elastic Actor-Critic (SAC)を拡張した。 ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。 実験の結果, 平均リターンが向上し, タスク完了時間が短縮され, 計算資源の削減が図られた。

Deploying controllers trained with Reinforcement Learning (RL) on real robots can be challenging: RL relies on agents' policies being modeled as Markov Decision Processes (MDPs), which assume an inherently discrete passage of time. The use of MDPs results in that nearly all RL-based control systems employ a fixed-rate control strategy with a period (or time step) typically chosen based on the developer's experience or specific characteristics of the application environment. Unfortunately, the system should be controlled at the highest, worst-case frequency to ensure stability, which can demand significant computational and energy resources and hinder the deployability of the controller on onboard hardware. Adhering to the principles of reactive programming, we surmise that applying control actions only when necessary enables the use of simpler hardware and helps reduce energy consumption. We challenge the fixed frequency assumption by proposing a variant of RL with variable control rate. In this approach, the policy decides the action the agent should take as well as the duration of the time step associated with that action. In our new setting, we expand Soft Actor-Critic (SAC) to compute the optimal policy with a variable control rate, introducing the Soft Elastic Actor-Critic (SEAC) algorithm. We show the efficacy of SEAC through a proof-of-concept simulation driving an agent with Newtonian kinematics. Our experiments show higher average returns, shorter task completion times, and reduced computational resources when compared to fixed rate policies.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-02
# MM-Interleaved:マルチモーダル特徴同期器によるインターリーブ画像テキスト生成モデリング

MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer ( http://arxiv.org/abs/2401.10208v2 )

ライセンス: Link先を確認
Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, Hongsheng Li, Yu Qiao, Jifeng Dai, (参考訳) インターリーブ画像テキストデータの生成モデルの開発には,研究と実践の両方の価値がある。 インターリーブされたシーケンスを理解し、その後に画像とテキストを生成するモデルが必要である。 しかし、既存の試行は、固定数の視覚トークンが画像の詳細を効率的にキャプチャできないという問題によって制限されており、特にマルチイメージのシナリオでは問題となる。 そこで本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。 マルチスケールおよびマルチイメージ機能同期モジュールを導入し、生成プロセス中に前のコンテキストで、きめ細かい画像機能に直接アクセスできるようにする。 MM-Interleavedは、ペアとインターリーブの両方の画像テキストコーパスで、エンドツーエンドで事前訓練される。 教師付き微調整フェーズによってさらに強化され、複雑なマルチモーダル命令に従う能力が改善される。 MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。 コードとモデルは \url{https://github.com/OpenGVLab/MM-Interleaved} で公開されている。

Developing generative models for interleaved image-text data has both research and practical value. It requires models to understand the interleaved sequences and subsequently generate images and text. However, existing attempts are limited by the issue that the fixed number of visual tokens cannot efficiently capture image details, which is particularly problematic in the multi-image scenarios. To address this, this paper presents MM-Interleaved, an end-to-end generative model for interleaved image-text data. It introduces a multi-scale and multi-image feature synchronizer module, allowing direct access to fine-grained image features in the previous context during the generation process. MM-Interleaved is end-to-end pre-trained on both paired and interleaved image-text corpora. It is further enhanced through a supervised fine-tuning phase, wherein the model improves its ability to follow complex multi-modal instructions. Experiments demonstrate the versatility of MM-Interleaved in recognizing visual details following multi-modal instructions and generating consistent images following both textual and visual conditions. Code and models are available at \url{https://github.com/OpenGVLab/MM-Interleaved}.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-02
# 対人脅威下におけるフェデレーション統合学習の脆弱性

Vulnerabilities of Foundation Model Integrated Federated Learning Under Adversarial Threats ( http://arxiv.org/abs/2401.10375v2 )

ライセンス: Link先を確認
Chen Wu, Xi Li, Jiaqi Wang, (参考訳) フェデレートラーニング(FL)は、データプライバシとセキュリティに関連する機械学習における重要な問題に対処するが、特定の状況下でのデータ不足と不均衡に悩まされる。 ファンデーションモデル(FM)の出現は、モデル初期化のための合成データを生成することによって、既存のFLフレームワークの制限に対する潜在的な解決策を提供する。 しかし、FMの安全性に関する懸念から、FMをFLに組み込むことで新たなリスクがもたらされる可能性がある。 このギャップに対処するため,FM統合FL(FM-FL)の脆弱性を敵の脅威下で調査した。 FM-FLの統一的な枠組みに基づいて、FMの安全性問題を利用してFLクライアントモデルに侵入する新たな攻撃戦略を導入する。 画像領域とテキスト領域の両方でよく知られたモデルとベンチマークデータセットを用いた広範な実験により、様々なFL構成下でのこの新たな脅威に対するFM-FLの高い感受性を明らかにする。 さらに,既存のFL防衛戦略が,この新たな攻撃アプローチに対して限定的な保護を提供することがわかった。 本研究は,FM時代のFLにおけるセキュリティ対策の強化を重要視するものである。

Federated Learning (FL) addresses critical issues in machine learning related to data privacy and security, yet suffering from data insufficiency and imbalance under certain circumstances. The emergence of foundation models (FMs) offers potential solutions to the limitations of existing FL frameworks, e.g., by generating synthetic data for model initialization. However, due to the inherent safety concerns of FMs, integrating FMs into FL could introduce new risks, which remains largely unexplored. To address this gap, we conduct the first investigation on the vulnerability of FM integrated FL (FM-FL) under adversarial threats. Based on a unified framework of FM-FL, we introduce a novel attack strategy that exploits safety issues of FM to compromise FL client models. Through extensive experiments with well-known models and benchmark datasets in both image and text domains, we reveal the high susceptibility of the FM-FL to this new threat under various FL configurations. Furthermore, we find that existing FL defense strategies offer limited protection against this novel attack approach. This research highlights the critical need for enhanced security measures in FL in the era of FMs.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-02
# ファフィアン活性化関数を持つグラフニューラルネットワークのVC次元

VC dimension of Graph Neural Networks with Pfaffian activation functions ( http://arxiv.org/abs/2401.12362v2 )

ライセンス: Link先を確認
Giuseppe Alessio D'Inverno, Monica Bianchini, Franco Scarselli, (参考訳) グラフニューラルネットワーク(GNN)は、近年、データ駆動方式で幅広いグラフドメインのタスクを学習する強力なツールとして登場している。メッセージパッシング機構に基づいて、グラフ同型に対するWeisfeiler-Lehman(WL)テストと密接に関連した、直感的な定式化によって、GNNの人気が高まっている。 理論的な観点から、GNNは普遍近似器であることが示され、その一般化能力(すなわち、Vapnik Chervonekis(VC)次元上の境界)は、多項式活性化関数を持つGNNに対して最近研究されている。 本研究の目的は, ファフ関数理論の枠組みを用いて, GNNのVC次元に関するこの解析をシグモイドや双曲タンジェントといった他のよく使われる活性化関数に拡張することである。 境界は、アーキテクチャパラメータ(深度、ニューロン数、入力サイズ)およびグラフ領域に適用される1-WLテストから得られる色数に関して提供される。 理論的分析は予備的な実験的研究によって支えられている。

Graph Neural Networks (GNNs) have emerged in recent years as a powerful tool to learn tasks across a wide range of graph domains in a data-driven fashion; based on a message passing mechanism, GNNs have gained increasing popularity due to their intuitive formulation, closely linked with the Weisfeiler-Lehman (WL) test for graph isomorphism, to which they have proven equivalent. From a theoretical point of view, GNNs have been shown to be universal approximators, and their generalization capability (namely, bounds on the Vapnik Chervonekis (VC) dimension) has recently been investigated for GNNs with piecewise polynomial activation functions. The aim of our work is to extend this analysis on the VC dimension of GNNs to other commonly used activation functions, such as sigmoid and hyperbolic tangent, using the framework of Pfaffian function theory. Bounds are provided with respect to architecture parameters (depth, number of neurons, input size) as well as with respect to the number of colors resulting from the 1-WL test applied on the graph domain. The theoretical analysis is supported by a preliminary experimental study.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-02
# TIP-Editor:テキストプロンプと画像プロンプの両方に追随する正確な3Dエディタ

TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts ( http://arxiv.org/abs/2401.14828v2 )

ライセンス: Link先を確認
Jingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan, (参考訳) テキスト駆動の3Dシーン編集は、その利便性とユーザフレンドリさから大きな注目を集めている。 しかし, 既存の手法では, テキスト記述に固有の制約があるため, 特定の外観や編集結果の位置を正確に制御できない。 そこで本研究では,テキストと画像のプロンプトを受け入れる3Dシーン編集フレームワークTIPEditorと,編集領域を指定する3Dバウンディングボックスを提案する。 画像プロンプトにより、ユーザは、テキスト記述を補完するターゲットコンテンツの詳細な外観/スタイルを便利に指定でき、その外観を正確に制御できる。 具体的には、TIP-Editorは、既存のシーンと参照画像の表現をよりよく学習するために、段階的に2Dパーソナライズ戦略を採用しており、そこでは、バウンディングボックスが指定した正しいオブジェクト配置を促進するために、ローカライズ損失が提案されている。 さらに、TIPEditorは、明示的で柔軟な3Dガウススプラッティングを3D表現として利用し、バックグラウンドを一定に保ちながらローカル編集を容易にする。 TIP-Editorは、テキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行い、編集品質のベースラインと、そのプロンプトへのアライメントを質的かつ定量的に一貫して上回ることを示した。

Text-driven 3D scene editing has gained significant attention owing to its convenience and user-friendliness. However, existing methods still lack accurate control of the specified appearance and location of the editing result due to the inherent limitations of the text description. To this end, we propose a 3D scene editing framework, TIPEditor, that accepts both text and image prompts and a 3D bounding box to specify the editing region. With the image prompt, users can conveniently specify the detailed appearance/style of the target content in complement to the text description, enabling accurate control of the appearance. Specifically, TIP-Editor employs a stepwise 2D personalization strategy to better learn the representation of the existing scene and the reference image, in which a localization loss is proposed to encourage correct object placement as specified by the bounding box. Additionally, TIPEditor utilizes explicit and flexible 3D Gaussian splatting as the 3D representation to facilitate local editing while keeping the background unchanged. Extensive experiments have demonstrated that TIP-Editor conducts accurate editing following the text and image prompts in the specified bounding box region, consistently outperforming the baselines in editing quality, and the alignment to the prompts, qualitatively and quantitatively.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-02
# API後ジレンマをナビゲートする

Navigating the Post-API Dilemma | Search Engine Results Pages Present a Biased View of Social Media Data ( http://arxiv.org/abs/2401.15479v3 )

ライセンス: Link先を確認
Amrit Poudel, Tim Weninger, (参考訳) ソーシャルメディアAPIへのアクセスを中止するという最近の決定は、インターネット研究や計算社会科学全般に有害な影響を与えている。 このデータへのアクセスの欠如は、インターネット研究のポストAPI時代と呼ばれる。 幸いなことに、人気のある検索エンジンは、適切な検索クエリを提供した場合、検索結果ページ(SERP)上でソーシャルメディアデータをクロール、キャプチャ、サーフェスする手段を持ち、このジレンマの解決策を提供するかもしれない。 SERPはソーシャルメディアデータの完全かつ偏見のないサンプルを提供していますか? SERPは直接APIアクセスの代替になり得るか? これらの質問に答えるために、(Google) SERP結果とRedditとTwitter/Xの非サンプルデータの比較分析を行った。 SERPの結果は、政治的、ポルノ的、下品なポストに対する人気ポストに非常に偏りがあり、彼らの感情においてより肯定的であり、大きな話題のギャップがあることに気付きました。 全体として、SERPはソーシャルメディアAPIアクセスの代替として有効なものではないと結論付けている。

Recent decisions to discontinue access to social media APIs are having detrimental effects on Internet research and the field of computational social science as a whole. This lack of access to data has been dubbed the Post-API era of Internet research. Fortunately, popular search engines have the means to crawl, capture, and surface social media data on their Search Engine Results Pages (SERP) if provided the proper search query, and may provide a solution to this dilemma. In the present work we ask: does SERP provide a complete and unbiased sample of social media data? Is SERP a viable alternative to direct API-access? To answer these questions, we perform a comparative analysis between (Google) SERP results and nonsampled data from Reddit and Twitter/X. We find that SERP results are highly biased in favor of popular posts; against political, pornographic, and vulgar posts; are more positive in their sentiment; and have large topical gaps. Overall, we conclude that SERP is not a viable alternative to social media API access.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-02
# Endo-4DGS : 4D Gaussian Splatting を用いた内視鏡的単眼画像再構成

Endo-4DGS: Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting ( http://arxiv.org/abs/2401.16416v4 )

ライセンス: Link先を確認
Yiming Huang, Beilei Cui, Long Bai, Ziqi Guo, Mengya Xu, Mobarakol Islam, Hongliang Ren, (参考訳) ロボットによる最小侵襲手術の分野では、動的シーン再構成は下流の作業を大幅に強化し、手術結果を改善することができる。 ニューラル・ラジアンス・フィールド(NeRF)に基づく手法は、最近、シーンを再構成する異常な能力で有名になったが、遅い推論速度、長時間のトレーニング、一貫性のない深さ推定によって妨げられている。 これまでのいくつかの研究では、基底真理深度を最適化に利用していたが、外科領域では取得が困難であった。 これらの障害を克服するために,3次元ガウススプラッティング(GS)を3次元表現に用いる実時間内視鏡的動的再構成手法であるEndo-4DGSを提案する。 具体的には,ガウス変形場を用いて時間的ダイナミクスを捉えるための軽量MLPを提案する。 満足なガウス初期化を得るために、我々は強力な深度推定基盤モデルであるDepth-Anythingを利用して、以前の幾何学として擬似深度マップを生成する。 さらに,単眼深度推定における不適切な問題に対処する信頼誘導学習を提案し,表面正規化と深度正規化による深度誘導学習の強化を図った。 この手法は2つの外科的データセットで検証され、リアルタイムに効果的にレンダリングし、効率的に計算し、顕著な精度で再構築することができる。

In the realm of robot-assisted minimally invasive surgery, dynamic scene reconstruction can significantly enhance downstream tasks and improve surgical outcomes. Neural Radiance Fields (NeRF)-based methods have recently risen to prominence for their exceptional ability to reconstruct scenes but are hampered by slow inference speed, prolonged training, and inconsistent depth estimation. Some previous work utilizes ground truth depth for optimization but is hard to acquire in the surgical domain. To overcome these obstacles, we present Endo-4DGS, a real-time endoscopic dynamic reconstruction approach that utilizes 3D Gaussian Splatting (GS) for 3D representation. Specifically, we propose lightweight MLPs to capture temporal dynamics with Gaussian deformation fields. To obtain a satisfactory Gaussian Initialization, we exploit a powerful depth estimation foundation model, Depth-Anything, to generate pseudo-depth maps as a geometry prior. We additionally propose confidence-guided learning to tackle the ill-pose problems in monocular depth estimation and enhance the depth-guided reconstruction with surface normal constraints and depth regularization. Our approach has been validated on two surgical datasets, where it can effectively render in real-time, compute efficiently, and reconstruct with remarkable accuracy.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# プライベート人口データリリースメカニズムのベンチマーク:Synthetic Data vs. TopDown

Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown ( http://arxiv.org/abs/2401.18024v2 )

ライセンス: Link先を確認
Aadyaa Maddi, Swadhin Routray, Alexander Goldberg, Giulia Fanti, (参考訳) 差分プライバシー(DP)は、国勢調査データのような階層的で表層的な人口データのリリースを保護するために、ますます使われてきている。 この設定でDPを実装するための一般的なアプローチは、事前定義されたクエリセットに対するノイズの多い応答をリリースすることである。 例えば、これは米国国勢調査局が使用しているTopDownアルゴリズムのアプローチである。 このようなメソッドには、最適化されていないクエリに応答できないという、重大な欠点がある。 魅力的な代替手段は、ある生成分布から引き出されたDP合成データを生成することである。 TopDownの方法と同じように、合成データは特定のクエリに応答するように最適化することもできる。 我々の知る限りでは、これらのアプローチの試行錯誤的な比較は行われていない。 本研究では、TopDownアルゴリズムとプライベート合成データ生成の比較を行い、クエリの複雑さ、分散内と分散外クエリ、プライバシ保証による精度への影響を判定する。 この結果から,TopDownアルゴリズムは,提案した合成データ手法よりもはるかに優れたプライバシ-忠実トレードオフを実現していることが明らかとなった。 本研究は,臨床医と総合データ研究コミュニティのガイドラインを示唆するものである。

Differential privacy (DP) is increasingly used to protect the release of hierarchical, tabular population data, such as census data. A common approach for implementing DP in this setting is to release noisy responses to a predefined set of queries. For example, this is the approach of the TopDown algorithm used by the US Census Bureau. Such methods have an important shortcoming: they cannot answer queries for which they were not optimized. An appealing alternative is to generate DP synthetic data, which is drawn from some generating distribution. Like the TopDown method, synthetic data can also be optimized to answer specific queries, while also allowing the data user to later submit arbitrary queries over the synthetic population data. To our knowledge, there has not been a head-to-head empirical comparison of these approaches. This study conducts such a comparison between the TopDown algorithm and private synthetic data generation to determine how accuracy is affected by query complexity, in-distribution vs. out-of-distribution queries, and privacy guarantees. Our results show that for in-distribution queries, the TopDown algorithm achieves significantly better privacy-fidelity tradeoffs than any of the synthetic data methods we evaluated; for instance, in our experiments, TopDown achieved at least $20\times$ lower error on counting queries than the leading synthetic data method at the same privacy budget. Our findings suggest guidelines for practitioners and the synthetic data research community.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# SCAPE:進化を用いた概念的アーキテクチャプロンプトの検索

SCAPE: Searching Conceptual Architecture Prompts using Evolution ( http://arxiv.org/abs/2402.00089v2 )

ライセンス: Link先を確認
Soo Ling Lim, Peter J Bentley, Fuyuki Ishikawa, (参考訳) 概念的建築は、しばしば建築家が急進的な新しい形態、材料、テクスチャ、そして建物のための色を考えると、他の分野から取られる、新しいアイデアを高度に創造的に探求することを含む。 今日の生成AIシステムは驚くべき結果をもたらすことができるが、進化的アルゴリズムによって何十年にもわたって実証された創造性を欠いている。 提案するツールであるSCAPEは、進化的検索と生成AIを組み合わせることで、ユーザーはシンプルなポイント・アンド・クリックインターフェースを通じて、初期入力にインスパイアされた創造的で高品質なデザインを探索することができる。 SCAPEは生成AIにランダム性を注入し、GPT-4の組み込み言語スキルを活用して、テキストベースの突然変異とクロスオーバーを通じてプロンプトを変化させる。 DALL-E 3と比較して、SCAPEは画像の新規性を67%改善し、画像の新規性を向上し、使用効率を向上させることを実証した。 私たちは、SCAPEを評価するために、20人以上の独立したアーキテクトを使用しています。

Conceptual architecture involves a highly creative exploration of novel ideas, often taken from other disciplines as architects consider radical new forms, materials, textures and colors for buildings. While today's generative AI systems can produce remarkable results, they lack the creativity demonstrated for decades by evolutionary algorithms. SCAPE, our proposed tool, combines evolutionary search with generative AI, enabling users to explore creative and good quality designs inspired by their initial input through a simple point and click interface. SCAPE injects randomness into generative AI, and enables memory, making use of the built-in language skills of GPT-4 to vary prompts via text-based mutation and crossover. We demonstrate that compared to DALL-E 3, SCAPE enables a 67% improvement in image novelty, plus improvements in quality and effectiveness of use; we show that in just three iterations SCAPE has a 24% image novelty increase enabling effective exploration, plus optimization of images by users. We use more than 20 independent architects to assess SCAPE, who provide markedly positive feedback.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# CMRNext: 局所化・外部校正のためのLiDARマッチングカメラ

CMRNext: Camera to LiDAR Matching in the Wild for Localization and Extrinsic Calibration ( http://arxiv.org/abs/2402.00129v3 )

ライセンス: Link先を確認
Daniele Cattaneo, Abhinav Valada, (参考訳) LiDARは動的環境におけるマッピングとローカライゼーションに広く利用されている。 しかし、その高いコストは広く普及を制限する。 一方、安価なカメラを用いたLiDARマップの単眼位置決めは、大規模展開のためのコスト効率の良い代替手段である。 それにもかかわらず、既存のほとんどのアプローチは、新しいセンサーのセットアップと環境への一般化に苦労し、再訓練や微調整を必要としている。 本稿では,センサ固有パラメータに依存しないカメラ-LIDARマッチングの新しいアプローチであるCMRNextについて述べる。 CMRNextは、クロスモーダルデータとロバストポーズ推定のための標準的な幾何学的手法をマッチングするために、ディープニューラルネットワークの最近の進歩を活用している。 光フロー推定問題として画素マッチング問題を再構成し、その結果の対応に基づいてパースペクティブ・n・ポイント問題を解くことにより、カメラとLiDAR点雲の相対的なポーズを求める。 3つの公開データセットと3つの社内ロボットを含む6つの異なるロボットプラットフォーム上でCMRNextを広範囲に評価した。 実験により,CMRNextは両タスクの既存手法よりも優れており,従来は見つからなかった環境やセンサのセットアップをゼロショット方式で効果的に一般化していることが示された。 コードと事前トレーニングされたモデルはhttp://cmrnext.cs.uni-freiburg.deで公開しています。

LiDARs are widely used for mapping and localization in dynamic environments. However, their high cost limits their widespread adoption. On the other hand, monocular localization in LiDAR maps using inexpensive cameras is a cost-effective alternative for large-scale deployment. Nevertheless, most existing approaches struggle to generalize to new sensor setups and environments, requiring retraining or fine-tuning. In this paper, we present CMRNext, a novel approach for camera-LIDAR matching that is independent of sensor-specific parameters, generalizable, and can be used in the wild for monocular localization in LiDAR maps and camera-LiDAR extrinsic calibration. CMRNext exploits recent advances in deep neural networks for matching cross-modal data and standard geometric techniques for robust pose estimation. We reformulate the point-pixel matching problem as an optical flow estimation problem and solve the Perspective-n-Point problem based on the resulting correspondences to find the relative pose between the camera and the LiDAR point cloud. We extensively evaluate CMRNext on six different robotic platforms, including three publicly available datasets and three in-house robots. Our experimental evaluations demonstrate that CMRNext outperforms existing approaches on both tasks and effectively generalizes to previously unseen environments and sensor setups in a zero-shot manner. We make the code and pre-trained models publicly available at http://cmrnext.cs.uni-freiburg.de .
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# PokeLLMon: 大規模な言語モデルを用いたポケモンバトルのための人間パーティエージェント

PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models ( http://arxiv.org/abs/2402.01118v3 )

ライセンス: Link先を確認
Sihao Hu, Tiansheng Huang, Ling Liu, (参考訳) 本稿では,Pokemonバトルで実証されたように,戦術バトルゲームにおいて,人間のパーティパフォーマンスを達成する最初のLDM型エージェントであるPokeLLMonを紹介する。 PokeLLMonの設計には3つの重要な戦略がある。 一 戦闘によるフィードバックを即時に消費し、かつ、その政策を反復的に洗練する内容強化学習 2 幻覚を予防するために外部知識を回収し、エージェントが適時かつ適切に行動できるようにする知識増強世代 三 エージェントが強力な相手に直面して戦闘を逃れようとするときのパニックスイッチング現象を緩和するための一貫性のある行動生成。 我々は、PokeLLMonの人間的な戦闘戦略とジャスト・イン・タイムの意思決定を実証し、ラダー競技における勝利率の49%、招待された戦闘における勝利率の56%を達成していることを示す。 私たちの実装とプレイ可能なバトルログは、https://github.com/git-disl/PokeLLMon.comで利用可能です。

We introduce PokeLLMon, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in Pokemon battles. The design of PokeLLMon incorporates three key strategies: (i) In-context reinforcement learning that instantly consumes text-based feedback derived from battles to iteratively refine the policy; (ii) Knowledge-augmented generation that retrieves external knowledge to counteract hallucination and enables the agent to act timely and properly; (iii) Consistent action generation to mitigate the panic switching phenomenon when the agent faces a powerful opponent and wants to elude the battle. We show that online battles against human demonstrates PokeLLMon's human-like battle strategies and just-in-time decision making, achieving 49% of win rate in the Ladder competitions and 56% of win rate in the invited battles. Our implementation and playable battle logs are available at: https://github.com/git-disl/PokeLLMon.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# オンライン一様リスクタイムサンプリング:最初の近似アルゴリズム、完全信頼区間統合による学習増強

Online Uniform Risk Times Sampling: First Approximation Algorithms, Learning Augmentation with Full Confidence Interval Integration ( http://arxiv.org/abs/2402.01995v3 )

ライセンス: Link先を確認
Xueqing Liu, Kyra Gan, Esmaeil Keyvanshokooh, Susan Murphy, (参考訳) デジタルヘルスにおいて、リスクタイムを超えて限られた治療予算を割り当てる戦略は、ユーザの疲労を軽減するために不可欠である。 しかし、この戦略は、理論的な保証が欠如している既存の手法によって適切に対処されていない要因として、実際のリスク時間数は不明なため、重大な障害に直面している。 本稿では,近似アルゴリズムフレームワーク内でのオンライン一様リスク時間サンプリング問題について,初めて紹介する。 本稿では,この問題に対する2つのオンライン近似アルゴリズムを提案する。 人工実験とHeartStepsモバイルアプリケーションにおける実世界のケーススタディの両方を用いて,アルゴリズムの性能を評価する。

In digital health, the strategy of allocating a limited treatment budget across risk times is crucial to reduce user fatigue. This strategy, however, encounters a significant obstacle due to the unknown actual number of risk times, a factor not adequately addressed by existing methods lacking theoretical guarantees. This paper introduces, for the first time, the online uniform risk times sampling problem within the approximation algorithm framework. We propose two online approximation algorithms for this problem, one with and one without learning augmentation, and provide rigorous theoretical performance guarantees for them using competitive ratio analysis. We assess the performance of our algorithms using both synthetic experiments and a real-world case study on HeartSteps mobile applications.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# 任意の物体反射率における単一モード量子ターゲット検出のための最適プローブ状態

Optimal probe states for single-mode quantum target detection in arbitrary object reflectivity ( http://arxiv.org/abs/2402.05726v2 )

ライセンス: Link先を確認
Wei-Ming Chen, Pin-Ju Tsai, (参考訳) 量子目標検出(QTD)は、従来の手法を超越した、挑戦的な環境で反射物体を識別するレーダーのような検出を可能にするために、非古典的な資源を利用する。 QTDにおける量子優位性を完全に活用するためには、様々な検出パラメータで最適なプローブ状態(OPS)を判定し、それらの特性をより深く理解することが重要である。 本研究では、最適化アルゴリズムを用いて、任意のオブジェクト反射率に対する単一モード連続変数OPSを同定した。 以上の結果から,OPSは特定の条件下では例外なく,ほとんどの反射率シナリオにおいて非ガウス状態であることが示唆された。 さらに,観測された現象の包括的物理的解釈も提供する。 本研究は、OPSを明確な物理的解釈とともに識別するツールを提供する。 また、量子センシングや気象学における幅広い応用の可能性を持つ最適マルチモードQTDへのさらなる進歩にも貢献している。

Quantum target detection (QTD) utilizes nonclassical resources to enable radar-like detection for identifying reflecting objects in challenging environments, surpassing classical methods. To fully leverage the quantum advantage in QTD, determining the optimal probe states (OPSs) across various detection parameters and gaining a deeper understanding of their characteristics are crucial. In this study, we identified the single-mode continuous-variable OPSs for arbitrary object reflectivity using optimization algorithms. Our findings suggest that OPSs are non-Gaussian states in most reflectivity scenarios, with exceptions under specific conditions. Furthermore, we provide a comprehensive physical interpretation of the observed phenomena. This study offers a tool for identifying OPSs along with a clear physical interpretation. It also contributes to further advancements towards optimal multi-mode QTD, which has the potential for broad applications in quantum sensing and metrology.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# 数学的テキストのための言語モデルを用いた自律的データ選択

Autonomous Data Selection with Language Models for Mathematical Texts ( http://arxiv.org/abs/2402.07625v2 )

ライセンス: Link先を確認
Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao, (参考訳) 連続的事前学習による数学的推論における言語モデルの習熟度を向上させるために,基本言語モデルを自律的データ選択に活用する新たな戦略を導入する。 従来の教師付き微調整・訓練型分類器と人間の注釈付きデータとを分離し,メタプロンプト言語モデルをゼロショット検証器として利用し,高品質な数学的コンテンツを自律的に評価・選択する。 提案手法の有効性を示すため, 提案手法では, 7Bパラメトリ言語モデルをキュレートデータセット上で継続的に事前学習し, MATH, GSM8K, BIG-Bench Hard (BBH) タスクのダウンストリーム性能を, 従来の継続事前学習作業に比べて桁違いに低減したトークン量で大幅に改善した。 提案手法は, モデルの数学的推論能力向上におけるアプローチの可能性について, 最先端のベースラインと比較して, トークンの事前学習効率を2倍に向上させることを示す。 AutoMathTextデータセットはhttps://huggingface.co/datasets/math-ai/AutoMathTextで公開されている。 コードはhttps://github.com/yifanzhang-pro/AutoMathTextで入手できる。

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach Autonomous Data Selection (AutoDS) utilizes meta-prompted language models as zero-shot verifiers to evaluate and select high-quality mathematical content autonomously. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter language model on our curated dataset, achieving substantial improvements in downstream performance on the MATH, GSM8K, and BIG-Bench Hard (BBH) tasks with a token amount reduced by orders of magnitude compared to previous continual pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to state-of-the-art baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-02
# 変分量子アルゴリズムにおけるユニタリノイズを超えて-ノイズ誘起バレンプラトーと固定点

Beyond unital noise in variational quantum algorithms: noise-induced barren plateaus and fixed points ( http://arxiv.org/abs/2402.08721v4 )

ライセンス: Link先を確認
P. Singkanipa, D. A. Lidar, (参考訳) 変分量子アルゴリズム(VQA)は、多くの可能性を秘めているが、指数的に小さな勾配の挑戦に直面している。 このバレンプラトー(BP)現象は、VQAの指数的トレーニングオーバーヘッドをもたらす。 おそらく最も悪名高いのがノイズ誘起バレン台地(NIBP)であり、これはオープン・システム・エフェクトから生じる避けられないBPの一種である。 ここでは、NIBP の研究をより一般的な正のトレース保存写像に一般化し、ユニタリケースにおける NIBP の存在とヒルベルト・シュミット (HS)-コントラクティブ (Hilbert-Schmidt) と呼ばれる非ユニタリ写像のクラスを確立する。 後者は振幅減衰を含む。 我々は、NIBPが出現する回路深さの早期境界に固執する。 本稿では,VQAコスト関数の雑音誘起定点(NIFP)の関連現象を同定し,その存在を一元的および非一元的ノイズマップで証明する。 その過程で、VQAのパラメータシフトルールをノイズ設定に拡張する。 解析結果を示す非分極および振幅減衰マップの数値シミュレーションとともに、NIBPとNIFPを生じさせる関連するパラメータに関して厳密な境界を提供する。

Variational quantum algorithms (VQAs) hold much promise but face the challenge of exponentially small gradients. Unmitigated, this barren plateau (BP) phenomenon leads to an exponential training overhead for VQAs. Perhaps the most pernicious are noise-induced barren plateaus (NIBPs), a type of unavoidable BP arising from open system effects, which have so far been shown to exist for unital noise maps. Here, we generalize the study of NIBPs to more general completely positive, trace-preserving maps, establishing the existence of NIBPs in the unital case and a class of non-unital maps we call Hilbert-Schmidt (HS)-contractive. The latter includes amplitude damping. We tighten to logarithmic earlier bounds on the circuit depth at which an NIBP appears. We identify the associated phenomenon of noise-induced fixed points (NIFP) of the VQA cost function and prove its existence for both unital and HS-contractive non-unital noise maps. Along the way, we extend the parameter shift rule of VQAs to the noisy setting. We provide rigorous bounds in terms of the relevant parameters that give rise to NIBPs and NIFPs, along with numerical simulations of the depolarizing and amplitude-damping maps that illustrate our analytical results.
翻訳日:2024-04-04 08:49:39 公開日:2024-04-02
# MuChin: 音楽分野における言語モデル評価のための中国語の口語記述ベンチマーク

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music ( http://arxiv.org/abs/2402.09871v2 )

ライセンス: Link先を確認
Zihao Wang, Shuyu Li, Tao Zhang, Qi Wang, Pengfei Yu, Jinyang Luo, Yan Liu, Ming Xi, Kejun Zhang, (参考訳) 急速に発展するマルチモーダル大言語モデル(LLM)は、音楽の理解とテキスト記述において、そのパフォーマンスを均一に評価するために、新しいベンチマークを必要とする。 しかし、音楽情報検索(MIR)アルゴリズムと人間の理解、専門家と一般人の相違、注釈の精度の低さなどにより、既存の音楽記述データセットはベンチマークとして機能することができない。 そこで本研究では,中国語における最初のオープンソース音楽記述ベンチマークであるMuChinについて述べる。 そこで我々は,革新的な多人数多段階保証手法を取り入れたCaiMAP(Caichong Music Annotation Platform)を構築し,アノテーションの精度と一般的な意味論との整合性を確保するために,アマチュアとプロの両方を雇った。 この手法を用いて,多次元で高精度な音楽アノテーションを備えたデータセットであるCaichong Music Dataset (CaiMD)を構築し,Muchinのテストセットとして1,000の高品質なエントリを慎重に選択した。 MuChin を用いて,音楽記述の観点からプロとアマチュアの差異を分析し,微調整 LLM における注釈付きデータの有効性を実証的に実証した。 最終的に、我々は既存の音楽理解モデルの評価にMuChinを用いて、音楽の口語的記述を提供する能力について検討した。 ベンチマークに関連するすべてのデータとスコアリングのコードがオープンソース化された。

The rapidly evolving multimodal Large Language Models (LLMs) urgently require new benchmarks to uniformly evaluate their performance on understanding and textually describing music. However, due to semantic gaps between Music Information Retrieval (MIR) algorithms and human understanding, discrepancies between professionals and the public, and low precision of annotations, existing music description datasets cannot serve as benchmarks. To this end, we present MuChin, the first open-source music description benchmark in Chinese colloquial language, designed to evaluate the performance of multimodal LLMs in understanding and describing music. We established the Caichong Music Annotation Platform (CaiMAP) that employs an innovative multi-person, multi-stage assurance method, and recruited both amateurs and professionals to ensure the precision of annotations and alignment with popular semantics. Utilizing this method, we built a dataset with multi-dimensional, high-precision music annotations, the Caichong Music Dataset (CaiMD), and carefully selected 1,000 high-quality entries to serve as the test set for MuChin. Based on MuChin, we analyzed the discrepancies between professionals and amateurs in terms of music description, and empirically demonstrated the effectiveness of annotated data for fine-tuning LLMs. Ultimately, we employed MuChin to evaluate existing music understanding models on their ability to provide colloquial descriptions of music. All data related to the benchmark and the code for scoring have been open-sourced.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# PEGASUS: 構成可能な属性を持つパーソナライズされた3Dアバター

PEGASUS: Personalized Generative 3D Avatars with Composable Attributes ( http://arxiv.org/abs/2402.10636v2 )

ライセンス: Link先を確認
Hyunsoo Cha, Byungjun Kim, Hanbyul Joo, (参考訳) PEGASUSはモノクロビデオソースからパーソナライズされた3次元顔アバターを構築する方法である。 生成した3Dアバターは、不整合制御により、顔の特徴(例えば、髪、鼻など)を識別を保ちながら選択的に変化させることができる。 提案手法は,合成データベース生成とパーソナライズされた生成アバターの構築の2段階からなる。 顔の属性が異なる対象のアイデンティティの合成ビデオコレクションを生成し、そのビデオは多様なアイデンティティのモノラルビデオから属性を借りて合成する。 そして,個人固有の3Dアバターを構築し,その属性を連続的に修正し,そのアイデンティティを保ったまま保存する。 広範にわたる実験により, 合成データベースの作成と3次元生成アバターの作成が, 高いリアリズムを達成しつつ, アイデンティティの保存に最も有効であることが実証された。 続いて、以前に構築されたパーソナライズされた生成モデルを利用して、より効率的に生成モデルを構築するという同じ目的を達成するため、ゼロショットアプローチを導入する。

We present PEGASUS, a method for constructing a personalized generative 3D face avatar from monocular video sources. Our generative 3D avatar enables disentangled controls to selectively alter the facial attributes (e.g., hair or nose) while preserving the identity. Our approach consists of two stages: synthetic database generation and constructing a personalized generative avatar. We generate a synthetic video collection of the target identity with varying facial attributes, where the videos are synthesized by borrowing the attributes from monocular videos of diverse identities. Then, we build a person-specific generative 3D avatar that can modify its attributes continuously while preserving its identity. Through extensive experiments, we demonstrate that our method of generating a synthetic database and creating a 3D generative avatar is the most effective in preserving identity while achieving high realism. Subsequently, we introduce a zero-shot approach to achieve the same goal of generative modeling more efficiently by leveraging a previously constructed personalized generative model.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# PointMamba: ポイントクラウド分析のためのシンプルな状態空間モデル

PointMamba: A Simple State Space Model for Point Cloud Analysis ( http://arxiv.org/abs/2402.10739v3 )

ライセンス: Link先を確認
Dingkang Liang, Xin Zhou, Xinyu Wang, Xingkui Zhu, Wei Xu, Zhikang Zou, Xiaoqing Ye, Xiang Bai, (参考訳) トランスフォーマーは、優れたグローバルモデリング能力のために、ポイントクラウド分析タスクの基本的なアーキテクチャの1つになっています。 しかし、注意機構は2次複雑であり、限られた計算資源などのために長いシーケンスモデリングにまで拡張することは困難である。 近年、深部配列モデルの新たなファミリーである状態空間モデル (SSM) が、NLPタスクにおけるシーケンスモデリングに大きな可能性を示している。 本稿では,NLPにおけるSSMの成功から着想を得て,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。 具体的には、組込み点パッチを入力として、より論理的な幾何スキャン順序を提供することで、SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。 リオーダーされたポイントトークンは一連のMambaブロックに送信され、ポイントクラウド構造を因果的にキャプチャする。 実験の結果、提案したPointMambaは、異なるポイントクラウド分析データセットにおいて、トランスフォーマーベースのモデルよりも優れており、44.3%のパラメータと25%のFLOPを著しく削減し、基礎的な3Dビジョンモデルを構築するための潜在的選択肢を示す。 PointMambaがポイントクラウド分析の新しい視点を提供することを期待しています。 コードはhttps://github.com/LMD0311/PointMambaで入手できる。

Transformers have become one of the foundational architectures in point cloud analysis tasks due to their excellent global modeling ability. However, the attention mechanism has quadratic complexity and is difficult to extend to long sequence modeling due to limited computational resources and so on. Recently, state space models (SSM), a new family of deep sequence models, have presented great potential for sequence modeling in NLP tasks. In this paper, taking inspiration from the success of SSM in NLP, we propose PointMamba, a framework with global modeling and linear complexity. Specifically, by taking embedded point patches as input, we proposed a reordering strategy to enhance SSM's global modeling ability by providing a more logical geometric scanning order. The reordered point tokens are then sent to a series of Mamba blocks to causally capture the point cloud structure. Experimental results show our proposed PointMamba outperforms the transformer-based counterparts on different point cloud analysis datasets, while significantly saving about 44.3% parameters and 25% FLOPs, demonstrating the potential option for constructing foundational 3D vision models. We hope our PointMamba can provide a new perspective for point cloud analysis. The code is available at https://github.com/LMD0311/PointMamba.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# 言語モデルダイアログにおけるインストラクションの測定と制御(In)安定性

Measuring and Controlling Instruction (In)Stability in Language Model Dialogs ( http://arxiv.org/abs/2402.10962v2 )

ライセンス: Link先を確認
Kenneth Li, Tianle Liu, Naomi Bashkansky, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg, (参考訳) システムプロンプティングは、言語モデルチャットボットをカスタマイズするための標準ツールであり、特定の命令に従うことができる。 システムプロンプトの使用における暗黙の仮定は、それらが安定しているというものであるため、チャットボットは会話の間、規定された指示に従ってテキストを生成し続ける。 この仮定を定量的に検証し、2つの指示されたチャットボット間のセルフチャットによる命令安定性を評価する。 LLaMA2-chat-70B や GPT-3.5 のような一般的なモデルをテストすると、8ラウンドの会話で重要な命令ドリフトが明らかになる。 この現象を実証的・理論的に分析すると、長い交換で注意が減衰するため、トランスフォーマーの注意機構が重要な役割を果たしていることが示唆される。 注目の減衰と命令のドリフトに対処するため,2つの強いベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。

System-prompting is a standard tool for customizing language-model chatbots, enabling them to follow a specific instruction. An implicit assumption in the use of system prompts is that they will be stable, so the chatbot will continue to generate text according to the stipulated instructions for the duration of a conversation. We propose a quantitative benchmark to test this assumption, evaluating instruction stability via self-chats between two instructed chatbots. Testing popular models like LLaMA2-chat-70B and GPT-3.5, we reveal a significant instruction drift within eight rounds of conversations. An empirical and theoretical analysis of this phenomenon suggests the transformer attention mechanism plays a role, due to attention decay over long exchanges. To combat attention decay and instruction drift, we propose a lightweight method called split-softmax, which compares favorably against two strong baselines.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# オンラインローカル偽発見率制御 : 資源配分アプローチ

Online Local False Discovery Rate Control: A Resource Allocation Approach ( http://arxiv.org/abs/2402.11425v3 )

ライセンス: Link先を確認
Ruicheng Ao, Hongyu Chen, David Simchi-Levi, Feng Zhu, (参考訳) 各実験が仮説テストタスクに対応する複数の実験を順次実施する問題を考察する。 各時点において、実験者は、次の実験結果が到着する前に、ヌル仮説を拒絶するか(または、同等に発見を主張するか)という不可解な決定をしなければならない。 目的は、局所的偽発見率(FDR)によって測定される全ての時点において、低いエラー率を維持しながら発見数を最大化することである。 オンラインのknapsack問題として,外因性ランダム予算補充問題として定式化する。 まず、一般的な到着分布から始め、単純なポリシーが$O(\sqrt{T})$後悔を達成することを示す。 このような後悔率は一般的には実現不可能であることを示すことで、結果を補完する。 次に、個別の到着分布に焦点を移します。 オンラインリソース割り当て文献における多くの既存の再解決ヒューリスティックは、標準設定における有界損失を達成したとしても、$\Omega(\sqrt{T})$あるいは$\Omega(T)$後悔を招きかねない。 標準政策は楽観的すぎる傾向にあり,要求発見を超越する傾向にあることから,予算安全バッファを組み込んだ新たな政策を提案する。 小さな対数バッファは、後悔を$\Omega(\sqrt{T})$または$\Omega(T)$から$O(\ln^2T)$に減らすのに十分である。 実践的な観点からは、ポリシを連続的な到着分布と時間依存情報構造を備えたシナリオに拡張する。 ニューヨーク市のタクシー乗客の時系列データに合成実験と経験的応用の両方を施し,提案手法の有効性を検証した。 本研究は,外因性予算補充を伴うオンライン資源配分問題において,政策がいかに効果的に設計されるべきかを強調した。

We consider the problem of sequentially conducting multiple experiments where each experiment corresponds to a hypothesis testing task. At each time point, the experimenter must make an irrevocable decision of whether to reject the null hypothesis (or equivalently claim a discovery) before the next experimental result arrives. The goal is to maximize the number of discoveries while maintaining a low error rate at all time points measured by local False Discovery Rate (FDR). We formulate the problem as an online knapsack problem with exogenous random budget replenishment. We start with general arrival distributions and show that a simple policy achieves a $O(\sqrt{T})$ regret. We complement the result by showing that such regret rate is in general not improvable. We then shift our focus to discrete arrival distributions. We find that many existing re-solving heuristics in the online resource allocation literature, albeit achieve bounded loss in canonical settings, may incur a $\Omega(\sqrt{T})$ or even a $\Omega(T)$ regret. With the observation that canonical policies tend to be too optimistic and over claim discoveries, we propose a novel policy that incorporates budget safety buffers. It turns out that a little more safety can greatly enhance efficiency -- small additional logarithmic buffers suffice to reduce the regret from $\Omega(\sqrt{T})$ or even $\Omega(T)$ to $O(\ln^2 T)$. From a practical perspective, we extend the policy to the scenario with continuous arrival distributions as well as time-dependent information structures. We conduct both synthetic experiments and empirical applications on a time series data from New York City taxi passengers to validate the performance of our proposed policies. Our results emphasize how effective policies should be designed in online resource allocation problems with exogenous budget replenishment.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# 一般化ランゲヴィン方程式におけるメモリカーネルの学習

Learning Memory Kernels in Generalized Langevin Equations ( http://arxiv.org/abs/2402.11705v2 )

ライセンス: Link先を確認
Quanjun Lang, Jianfeng Lu, (参考訳) 一般化ランゲヴィン方程式におけるメモリカーネル学習のための新しい手法を提案する。 このアプローチは最初、軌道データから相関関数を推定するために正規化Prony法を使用し、続いてRKHS正則化を伴うソボレフノルムに基づく損失関数の回帰を行う。 提案手法では,推定相関関数の誤差によってカーネル推定誤差が制御され,指数重み付きL^2空間内での性能向上が保証される。 我々は,L^2損失関数に依存する回帰推定器や,逆ラプラス変換から導かれる推定器と比較して,各重みパラメータ選択における一貫した優位性を示す数値例を用いて,推定器の優位性を示す。 さらに、方程式における力およびドリフト項の適用を含む例を示す。

We introduce a novel approach for learning memory kernels in Generalized Langevin Equations. This approach initially utilizes a regularized Prony method to estimate correlation functions from trajectory data, followed by regression over a Sobolev norm-based loss function with RKHS regularization. Our method guarantees improved performance within an exponentially weighted L^2 space, with the kernel estimation error controlled by the error in estimated correlation functions. We demonstrate the superiority of our estimator compared to other regression estimators that rely on L^2 loss functions and also an estimator derived from the inverse Laplace transform, using numerical examples that highlight its consistent advantage across various weight parameter selections. Additionally, we provide examples that include the application of force and drift terms in the equation.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# SDGE:360$^\circ$カメラセットのステレオガイド深度推定

SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets ( http://arxiv.org/abs/2402.11791v4 )

ライセンス: Link先を確認
Jialei Xu, Wei Yin, Dong Gong, Junjun Jiang, Xianming Liu, (参考訳) 深さ推定は自律運転において重要な技術であり、マルチカメラシステムは360$^\circ$知覚を達成するためにしばしば使用される。 これらの360$^\circ$カメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。 あるいは、単分子的手法は一貫したクロスビュー予測を生成できないかもしれない。 これらの課題に対処するために,重なりの多視点ステレオ結果を明示的に利用することにより,全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。 魚眼カメラの歪みを解消し、2種類の360ドル^\circ$カメラの処理を統合するために仮想ピンホールカメラを構築することを提案する。 不安定な動きによって生じるカメラポーズの様々なノイズに対処するために、近接するカメラの高精度な相対的なポーズをわずかに重なり合うように自己校正法を用いる。 これにより、重なり合う領域に先立って高品質な深さを得るためのロバストなステレオ法が利用可能となる。 この先行は、追加入力だけでなく、深度推定法の精度を高め、クロスビュー予測整合性を改善する擬似ラベルとしても機能する。 SGDEの有効性を,1つの魚眼カメラデータセット,Synthetic Urbanと2つのピンホールカメラデータセット,DDADとnuSceneで評価した。 実験により,SGDEは教師付き深度推定と自己監督型深度推定の両方に有効であることが示され,3次元物体検出や占有予測などの下流自動走行技術の進歩の可能性を強調した。

Depth estimation is a critical technology in autonomous driving, and multi-camera systems are often used to achieve a 360$^\circ$ perception. These 360$^\circ$ camera sets often have limited or low-quality overlap regions, making multi-view stereo methods infeasible for the entire image. Alternatively, monocular methods may not produce consistent cross-view predictions. To address these issues, we propose the Stereo Guided Depth Estimation (SGDE) method, which enhances depth estimation of the full image by explicitly utilizing multi-view stereo results on the overlap. We suggest building virtual pinhole cameras to resolve the distortion problem of fisheye cameras and unify the processing for the two types of 360$^\circ$ cameras. For handling the varying noise on camera poses caused by unstable movement, the approach employs a self-calibration method to obtain highly accurate relative poses of the adjacent cameras with minor overlap. These enable the use of robust stereo methods to obtain high-quality depth prior in the overlap region. This prior serves not only as an additional input but also as pseudo-labels that enhance the accuracy of depth estimation methods and improve cross-view prediction consistency. The effectiveness of SGDE is evaluated on one fisheye camera dataset, Synthetic Urban, and two pinhole camera datasets, DDAD and nuScenes. Our experiments demonstrate that SGDE is effective for both supervised and self-supervised depth estimation, and highlight the potential of our method for advancing downstream autonomous driving technologies, such as 3D object detection and occupancy prediction.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# 計画と学習によるゲーム回帰テストの自動化について

On Automating Video Game Regression Testing by Planning and Learning ( http://arxiv.org/abs/2402.12393v2 )

ライセンス: Link先を確認
Tomáš Balyo, G. Michael Youngblood, Filip Dvořák, Lukáš Chrpa, Roman Barták, (参考訳) 本稿では,自動計画法とインクリメンタルアクションモデル学習技術を用いて,特定のゲーム面の回帰テストを自動化する手法とワークフローを提案する。 基本的な考え方は、ゲームプレイ機構の計画ドメイン記述言語(PDDL)における形式モデルを維持するために、詳細なゲームログとインクリメンタルアクションモデル学習技術を使用することである。 このワークフローは、PDDLや他の形式システムの経験のないゲーム開発者と、PDDLモデリングの経験があるがゲーム開発スキルがない人の効率的な協力を可能にする。 本手法とワークフローを概説し,一般的なゲーム開発エンジンであるUnityのチュートリアルプロジェクトのひとつとして提供される,シンプルなロールプレイングゲームである概念実証(concept proof-of-concept)の例で実演する。 本稿では,ワークフローにおけるモデリング専門家の必要性を最小化,あるいは排除する第一歩を提示する。

In this paper, we propose a method and workflow for automating regression testing of certain video game aspects using automated planning and incremental action model learning techniques. The basic idea is to use detailed game logs and incremental action model learning techniques to maintain a formal model in the planning domain description language (PDDL) of the gameplay mechanics. The workflow enables efficient cooperation of game developers without any experience with PDDL or other formal systems and a person experienced with PDDL modeling but no game development skills. We describe the method and workflow in general and then demonstrate it on a concrete proof-of-concept example -- a simple role-playing game provided as one of the tutorial projects in the popular game development engine Unity. This paper presents the first step towards minimizing or even eliminating the need for a modeling expert in the workflow, thus making automated planning accessible to a broader audience.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# 信頼できる再評価に向けて - シンプルだが効果的な回避メカニズム

Towards Trustworthy Reranking: A Simple yet Effective Abstention Mechanism ( http://arxiv.org/abs/2402.12997v4 )

ライセンス: Link先を確認
Hippolyte Gisserot-Boukhlef, Manuel Faysse, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, (参考訳) NIR(Neural Information Retrieval)は、ヒューリスティックベースのIRシステムにおいて大幅に改善されている。 しかし、失敗は頻繁であり、使用されていたモデルは、ユーザのクエリに関連するドキュメントを取得できないことが多い。 我々は、現実世界の制約に合わせた軽量な禁制機構を提案することで、この問題に対処する。 ブラックボックスシナリオにおける禁忌戦略を評価するためのプロトコルを導入し、その効果を実証し、シンプルで効果的なデータ駆動機構を提案する。 我々は、様々な状況下で広く採用され応用されるように、実験的なレプリケーションと禁忌実装のためのオープンソースコードを提供しています。

Neural Information Retrieval (NIR) has significantly improved upon heuristic-based IR systems. Yet, failures remain frequent, the models used often being unable to retrieve documents relevant to the user's query. We address this challenge by proposing a lightweight abstention mechanism tailored for real-world constraints, with particular emphasis placed on the reranking phase. We introduce a protocol for evaluating abstention strategies in a black-box scenario, demonstrating their efficacy, and propose a simple yet effective data-driven mechanism. We provide open-source code for experiment replication and abstention implementation, fostering wider adoption and application in diverse contexts.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# HISCOバリアを破る:OccCanineによる自動作業標準化

Breaking the HISCO Barrier: Automatic Occupational Standardization with OccCANINE ( http://arxiv.org/abs/2402.13604v2 )

ライセンス: Link先を確認
Christian Møller Dahl, Torben Johansen, Christian Vedel, (参考訳) 本稿では,職業記述をHISCO分類システムに自動変換する新しいツールOccCANINEを提案する。 作業記述の処理と分類に関わる手作業は、エラーを起こしやすく、退屈で、時間がかかります。 既存の言語モデル(CANINE)を精査し、それを自動で実行します。 このモデルは、22の異なるソースから提供された13の言語で、1400万対の職業記述とHISCOコードに基づいて訓練されている。 私たちのアプローチは精度、リコール、精度が90%以上であることが示されています。 我々のツールは比喩障壁を破り、このデータを、経済、経済史、および様々な関連分野に広く適用可能な職業構造の分析に容易に利用できるようにする。

This paper introduces a new tool, OccCANINE, to automatically transform occupational descriptions into the HISCO classification system. The manual work involved in processing and classifying occupational descriptions is error-prone, tedious, and time-consuming. We finetune a preexisting language model (CANINE) to do this automatically, thereby performing in seconds and minutes what previously took days and weeks. The model is trained on 14 million pairs of occupational descriptions and HISCO codes in 13 different languages contributed by 22 different sources. Our approach is shown to have accuracy, recall, and precision above 90 percent. Our tool breaks the metaphorical HISCO barrier and makes this data readily available for analysis of occupational structures with broad applicability in economics, economic history, and various related disciplines.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# 搭載型完全畳み込みネットワークを用いた高出力ビジュアルナノドロ-ナノドロ-相対位置推定

High-throughput Visual Nano-drone to Nano-drone Relative Localization using Onboard Fully Convolutional Networks ( http://arxiv.org/abs/2402.13756v2 )

ライセンス: Link先を確認
Luca Crupi, Alessandro Giusti, Daniele Palossi, (参考訳) 相対的なドローンとドローンのローカライゼーションは、どんなSwarm操作でも基本的なビルディングブロックである。 この課題は, ナノ粒子径10cmの小型化, 形状因子の低減によって実現された新規な使用事例により, ますます関心が高まる, ナノ粒子の小型化という文脈において解決される。 汎用性のための価格には、センサー、処理ユニット、メモリなどのオンボードリソースが制限され、オンボードアルゴリズムの複雑さが制限される。 これらの制限を克服する従来のソリューションは、ナノドローンに直接デプロイされる軽量なディープラーニングモデルによって表現される。 この研究は、グレースケールの低解像度カメラと超低消費電力のSoC(System-on-Chip)をオンボードで搭載しただけで、ナノドロンの相対的なポーズ推定に挑戦する。 本稿では,GWT GAP8 SoCで拡張されたクレイジーフリーナノドローン上で,101mW以内39Hzで動作可能な,新しいビジョンベース完全畳み込みニューラルネットワーク(FCNN)に基づく垂直統合システムを提案する。 FCNNと3つのSoA(State-of-the-Art)システムを比較した。 その結果,水平画像座標では32~47%,垂直画像座標では18~55%,実世界の30k画像のデータセットでは18~55%の改善が得られた。 最後に,本試験では,前回のSoAと比較して平均トラッキング誤差を37%削減し,バッテリー寿命を4分に短縮した。

Relative drone-to-drone localization is a fundamental building block for any swarm operations. We address this task in the context of miniaturized nano-drones, i.e., 10cm in diameter, which show an ever-growing interest due to novel use cases enabled by their reduced form factor. The price for their versatility comes with limited onboard resources, i.e., sensors, processing units, and memory, which limits the complexity of the onboard algorithms. A traditional solution to overcome these limitations is represented by lightweight deep learning models directly deployed aboard nano-drones. This work tackles the challenging relative pose estimation between nano-drones using only a gray-scale low-resolution camera and an ultra-low-power System-on-Chip (SoC) hosted onboard. We present a vertically integrated system based on a novel vision-based fully convolutional neural network (FCNN), which runs at 39Hz within 101mW onboard a Crazyflie nano-drone extended with the GWT GAP8 SoC. We compare our FCNN against three State-of-the-Art (SoA) systems. Considering the best-performing SoA approach, our model results in an R-squared improvement from 32 to 47% on the horizontal image coordinate and from 18 to 55% on the vertical image coordinate, on a real-world dataset of 30k images. Finally, our in-field tests show a reduction of the average tracking error of 37% compared to a previous SoA work and an endurance performance up to the entire battery lifetime of 4 minutes.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# 単一画像からのリアルタイム3次元画像編集

Real-time 3D-aware Portrait Editing from a Single Image ( http://arxiv.org/abs/2402.14000v2 )

ライセンス: Link先を確認
Qingyan Bai, Zifan Shi, Yinghao Xu, Hao Ouyang, Qiuyu Wang, Ceyuan Yang, Xuan Wang, Gordon Wetzstein, Yujun Shen, Qifeng Chen, (参考訳) 本研究は,参照画像やテキスト記述など,与えられたプロンプトに従って顔画像を効率よく3D対応で編集する3DPEを提案する。 この目的のために、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから軽量モジュールを蒸留し、顔形状の事前知識と優れた編集能力を提供する。 このような設計は、既存のアプローチに対して2つの強力なアドバンテージをもたらします。 まず,フィードフォワードネットワーク(画像あたり0.04秒)によるリアルタイム編集を,第2の競合に比べて100倍以上高速に行う。 第二に、強力な先行技術のおかげで、我々のモジュールは、トレーニング段階で様々な種類の編集を同時に処理し、推論中にユーザー指定のカスタマイズされた編集タイプ(例えば、スタイルごとに5分程度の微調整)に迅速に適応できるように、編集関連のバリエーションの学習に焦点を合わせることができました。 コード、モデル、インターフェースは、将来の研究を促進するために公開されます。

This work presents 3DPE, a practical method that can efficiently edit a face image following given prompts, like reference images or text descriptions, in a 3D-aware manner. To this end, a lightweight module is distilled from a 3D portrait generator and a text-to-image model, which provide prior knowledge of face geometry and superior editing capability, respectively. Such a design brings two compelling advantages over existing approaches. First, our system achieves real-time editing with a feedforward network (i.e., ~0.04s per image), over 100x faster than the second competitor. Second, thanks to the powerful priors, our module could focus on the learning of editing-related variations, such that it manages to handle various types of editing simultaneously in the training phase and further supports fast adaptation to user-specified customized types of editing during inference (e.g., with ~5min fine-tuning per style). The code, the model, and the interface will be made publicly available to facilitate future research.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# Triad: 知識ベース質問応答を解決するためのマルチロールLLMエージェントを活用したフレームワーク

Triad: A Framework Leveraging a Multi-Role LLM-based Agent to Solve Knowledge Base Question Answering ( http://arxiv.org/abs/2402.14320v3 )

ライセンス: Link先を確認
Chang Zong, Yuchen Yan, Weiming Lu, Eliot Huang, Jian Shao, Yueting Zhuang, (参考訳) LLMをベースとしたエージェントの最近の進歩は、様々なタスクにおいて有望な結果を示している。 しかし、知識ベースからの質問に対する回答における彼らの利用は、いまだに未解明のままである。 従来の手法によるKBQAシステムの実装は、タスク固有のトレーニングデータの不足とタスク中心のモデル構造を作成する複雑さのために困難である。 本稿では,KBQAタスクに3つの役割を持つLLMエージェントを利用した統合フレームワークTriadを提案する。 エージェントは、さまざまなKBQAサブタスクに取り組むために3つの役割を割り当てられる: 様々なサブタスクをマスターするジェネリストとしてのエージェント、候補者を選ぶための意思決定者としてのエージェント、知識で質問に答えるためのアドバイザーとして。 我々のKBQAフレームワークは、エージェントの複数の役割の協調を含む4つのフェーズで実行される。 その結果,LC-QuADベンチマークとYAGO-QAベンチマークでは,F1スコアが11.8%,20.7%であった。

Recent progress with LLM-based agents has shown promising results across various tasks. However, their use in answering questions from knowledge bases remains largely unexplored. Implementing a KBQA system using traditional methods is challenging due to the shortage of task-specific training data and the complexity of creating task-focused model structures. In this paper, we present Triad, a unified framework that utilizes an LLM-based agent with three roles for KBQA tasks. The agent is assigned three roles to tackle different KBQA subtasks: agent as a generalist for mastering various subtasks, as a decision maker for the selection of candidates, and as an advisor for answering questions with knowledge. Our KBQA framework is executed in four phases, involving the collaboration of the agent's multiple roles. We evaluated the performance of our framework using three benchmark datasets, and the results show that our framework outperforms state-of-the-art systems on the LC-QuAD and YAGO-QA benchmarks, yielding F1 scores of 11.8% and 20.7%, respectively.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-02
# トンネル時間,バリア時間遅延と弱い測定 -Attoclockで実際に測定できるのは何か?

Tunneling time, the barrier time-delay and weak measurement What was or can actually be measured with the Attoclock? ( http://arxiv.org/abs/2402.14431v2 )

ライセンス: Link先を確認
Ossama Kullie, (参考訳) トンネルの時間遅れの測定は、論争にも拘わらずアト秒実験と呼ばれ、トンネルの時間とトンネル電離過程を理解するための実りある機会となる。 前報では,アディバティックフィールドキャリブレーションおよび非アディバティックフィールドキャリブレーションにおいて,アトレバティックフィールドキャリブレーションにおいて,アトレバティック実験によって測定された時間遅延をよく表すモデルを示した。 本研究は, トンネルの時間遅れと非断熱トンネルのイオン化の時間遅れの差から, バリアの時間遅れを合理的に定義し, 測定結果とよく一致し, トンネルの普遍的な挙動を明らかにするものであることを示す。 さらに, 弱い測定限界において, バリアの時間遅延は, バリア内のラーモア時間と相互作用時間に対応していることを示す。

The measurement of the tunneling time-delay in attosecond experiments, termed attoclock, despite its controversies, offers a fruitful opportunity to understand the tunneling time and the tunnel-ionization process. In previous work, we showed a model that well describes the time-delay measured by the attoclock experiment in the adiabatic and nonadiabatic field calibrations. In the present work we show that the tunneling time reveals a universal behavior, with disentangled contribution, where the barrier time-delay can be convincingly defined and determined from the difference between the time-delay of adiabatic and nonadiabatic tunnel-ionization, with good agreement with the experimental result. Furthermore, we show that in the weak measurement limit, the barrier time-delay corresponds to the Larmor-clock time and the interaction time within the barrier.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# 弾性時間ステップによる強化学習

Reinforcement Learning with Elastic Time Steps ( http://arxiv.org/abs/2402.14961v2 )

ライセンス: Link先を確認
Dong Wang, Giovanni Beltrame, (参考訳) 従来の強化学習(RL)アルゴリズムは通常、ロボット工学に適用され、一定の制御率で動作するコントローラを学習する。 RLアルゴリズムの離散的な性質を考えると、彼らは制御率の選択の影響に消極的であり、正しい制御率を見つけることは困難であり、しばしばミスは計算資源の過剰な使用や収束の欠如をもたらす。 本稿では,この問題に対処する新規な非政治アクタ批判アルゴリズムであるソフト・弾性アクタ批判(SEAC)を提案する。 SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。 実際には、SEACは必要なときにのみ制御を適用し、計算資源とデータ使用量を最小化する。 ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。 SEACは、エネルギー効率と全体的な時間管理の点でSACベースラインを上回り、そして最も重要なことは、学習したコントローラの制御周波数を特定する必要がないことである。 SEACは、特にSACが収束するのに苦労した制御速度において、SACよりも高速で安定した訓練速度を示した。 また、SEACと同様のアプローチ、CTCO(Continuous-Time Continuous-Options)モデルを比較しました。 これらの知見は、ロボット工学における実世界の実世界のRL応用におけるSEACの可能性を示している。

Traditional Reinforcement Learning (RL) algorithms are usually applied in robotics to learn controllers that act with a fixed control rate. Given the discrete nature of RL algorithms, they are oblivious to the effects of the choice of control rate: finding the correct control rate can be difficult and mistakes often result in excessive use of computing resources or even lack of convergence. We propose Soft Elastic Actor-Critic (SEAC), a novel off-policy actor-critic algorithm to address this issue. SEAC implements elastic time steps, time steps with a known, variable duration, which allow the agent to change its control frequency to adapt to the situation. In practice, SEAC applies control only when necessary, minimizing computational resources and data usage. We evaluate SEAC's capabilities in simulation in a Newtonian kinematics maze navigation task and on a 3D racing video game, Trackmania. SEAC outperforms the SAC baseline in terms of energy efficiency and overall time management, and most importantly without the need to identify a control frequency for the learned controller. SEAC demonstrated faster and more stable training speeds than SAC, especially at control rates where SAC struggled to converge. We also compared SEAC with a similar approach, the Continuous-Time Continuous-Options (CTCO) model, and SEAC resulted in better task performance. These findings highlight the potential of SEAC for practical, real-world RL applications in robotics.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# 1ショット構造を考慮したスティル化画像合成

One-Shot Structure-Aware Stylized Image Synthesis ( http://arxiv.org/abs/2402.17275v2 )

ライセンス: Link先を確認
Hansam Cho, Jonghyun Lee, Seunggyu Chang, Yonghyun Jeong, (参考訳) GANベースのモデルは画像のスタイリング作業で成功しているが、広い範囲の入力イメージをスタイリングしながら構造保存に苦慮することが多い。 近年,画像のスタイリングには拡散モデルが採用されているが,入力画像の本来の品質を維持する能力は乏しい。 そこで我々は,構造保存に頑健な新しい一発スタイリング手法OSASISを提案する。 我々は、OSASISが画像の構造から意味を効果的に切り離し、与えられた入力に実装されたコンテンツやスタイルのレベルを制御することができることを示す。 我々はOSASISを、ドメイン外参照画像によるスタイラス化やテキスト駆動操作によるスタイラス化など、様々な実験的な設定に適用する。 その結果、OSASISは他のスタイル化手法、特にトレーニング中にほとんど遭遇しなかった入力画像よりも優れており、拡散モデルによるスタイル化に有望な解決策を提供することがわかった。

While GAN-based models have been successful in image stylization tasks, they often struggle with structure preservation while stylizing a wide range of input images. Recently, diffusion models have been adopted for image stylization but still lack the capability to maintain the original quality of input images. Building on this, we propose OSASIS: a novel one-shot stylization method that is robust in structure preservation. We show that OSASIS is able to effectively disentangle the semantics from the structure of an image, allowing it to control the level of content and style implemented to a given input. We apply OSASIS to various experimental settings, including stylization with out-of-domain reference images and stylization with text-driven manipulation. Results show that OSASIS outperforms other stylization methods, especially for input images that were rarely encountered during training, providing a promising solution to stylization via diffusion models.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# 画像内学習のための集約画像のすべて

All in an Aggregated Image for In-Image Learning ( http://arxiv.org/abs/2402.17971v2 )

ライセンス: Link先を確認
Lei Wang, Wanyu Xu, Zhiqiang Hu, Yihuai Lan, Shan Dong, Hao Wang, Roy Ka-Wei Lee, Ee-Peng Lim, (参考訳) 本稿では,複数モーダル推論タスクにおける大規模マルチモーダルモデル(GPT-4V)の能力を高めるために,実例,視覚的手がかり,チェーン・オブ・シント推論を集約画像に組み合わせた,画像内学習(I$^2$L)機構を提案する。 画像のテキスト変換や視覚入力を言語モデルに組み込む従来のアプローチとは異なり、I$^2$Lは全ての情報を集約された画像に集約し、画像処理、理解、推論能力を活用する。 これは、複雑な画像の不正確なテキスト記述を減らし、デモ例の位置決めの柔軟性を提供し、複数の入力画像と長いプロンプトを避けるという、いくつかの利点がある。 また、I$^2$L-Hybridは、I$^2$Lの強みを他のICL法と組み合わせた手法である。 具体的には、特定のタスクインスタンスに対して最も適切なメソッド(I$^2$Lなど)を選択するために、自動戦略を使用する。 我々は、様々な複雑なマルチモーダル推論タスクをカバーするMathVista上で、I$^2$LとI$^2$L-Hybridの有効性を評価するための広範な実験を行う。 さらに,画像の解像度,1枚の画像における実演回数,および集約画像におけるこれらの実演の位置がI$^2$Lの有効性に与える影響について検討した。 私たちのコードはhttps://github.com/AGI-Edgerunners/IILで公開されています。

This paper introduces a new in-context learning (ICL) mechanism called In-Image Learning (I$^2$L) that combines demonstration examples, visual cues, and chain-of-thought reasoning into an aggregated image to enhance the capabilities of Large Multimodal Models (e.g., GPT-4V) in multimodal reasoning tasks. Unlike previous approaches that rely on converting images to text or incorporating visual input into language models, I$^2$L consolidates all information into an aggregated image and leverages image processing, understanding, and reasoning abilities. This has several advantages: it reduces inaccurate textual descriptions of complex images, provides flexibility in positioning demonstration examples, and avoids multiple input images and lengthy prompts. We also introduce I$^2$L-Hybrid, a method that combines the strengths of I$^2$L with other ICL methods. Specifically, it uses an automatic strategy to select the most suitable method (I$^2$L or another certain ICL method) for a specific task instance. We conduct extensive experiments to assess the effectiveness of I$^2$L and I$^2$L-Hybrid on MathVista, which covers a variety of complex multimodal reasoning tasks. Additionally, we investigate the influence of image resolution, the number of demonstration examples in a single image, and the positions of these demonstrations in the aggregated image on the effectiveness of I$^2$L. Our code is publicly available at https://github.com/AGI-Edgerunners/IIL.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# TAMM:3次元形状理解のためのTriAdapter Multi-Modal Learning

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding ( http://arxiv.org/abs/2402.18490v2 )

ライセンス: Link先を確認
Zhihao Zhang, Shengcao Cao, Yu-Xiong Wang, (参考訳) 現在の3次元形状データセットの限られたスケールは、3次元形状理解の進歩を阻害し、データに基づく2次元画像と言語モダリティから3次元形状へ学習知識を伝達するマルチモーダル学習アプローチを動機付けている。 しかし,CLIPのようなクロスモーダルモデルでは画像表現と言語表現が一致しているが,既存のマルチモーダル3D表現学習手法では,画像モダリティが言語に匹敵しないことがわかった。 これは2次元画像の領域シフトと、各モダリティの異なる焦点に起因する。 事前学習における両方のモダリティをより効果的に活用するために,3つの相乗的アダプタに基づく新しい2段階学習手法であるTriAdapter Multi-Modal Learning (TAMM)を導入する。 まず、CLIP画像適応器は、合成画像テキスト対にCLIPの視覚的表現を適用することにより、3Dレンダリング画像と自然画像との領域ギャップを緩和する。 その後、我々のデュアルアダプタは3次元形状表現空間を2つの相補的な部分空間に分解し、一方は視覚的属性に焦点を当て、もう一方は意味理解に焦点をあて、より包括的で効果的なマルチモーダル事前学習を確実にする。 大規模な実験では、TAMMは広範囲の3Dエンコーダアーキテクチャ、事前学習データセット、下流タスクの3D表現を一貫して強化している。 特に,Objaverse-LVISのゼロショット分類精度を46.8\%から50.7\%に引き上げ,ModelNet40の5ウェイ10ショット線形探索分類精度を96.1\%から99.0\%に改善した。 プロジェクトページ: https://alanzhangcs.github.io/tamm-page

The limited scale of current 3D shape datasets hinders the advancements in 3D shape understanding, and motivates multi-modal learning approaches which transfer learned knowledge from data-abundant 2D image and language modalities to 3D shapes. However, even though the image and language representations have been aligned by cross-modal models like CLIP, we find that the image modality fails to contribute as much as the language in existing multi-modal 3D representation learning methods. This is attributed to the domain shift in the 2D images and the distinct focus of each modality. To more effectively leverage both modalities in the pre-training, we introduce TriAdapter Multi-Modal Learning (TAMM) -- a novel two-stage learning approach based on three synergistic adapters. First, our CLIP Image Adapter mitigates the domain gap between 3D-rendered images and natural images, by adapting the visual representations of CLIP for synthetic image-text pairs. Subsequently, our Dual Adapters decouple the 3D shape representation space into two complementary sub-spaces: one focusing on visual attributes and the other for semantic understanding, which ensure a more comprehensive and effective multi-modal pre-training. Extensive experiments demonstrate that TAMM consistently enhances 3D representations for a wide range of 3D encoder architectures, pre-training datasets, and downstream tasks. Notably, we boost the zero-shot classification accuracy on Objaverse-LVIS from 46.8\% to 50.7\%, and improve the 5-way 10-shot linear probing classification accuracy on ModelNet40 from 96.1\% to 99.0\%. Project page: https://alanzhangcs.github.io/tamm-page.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# 自然言語フォーマットでプロンプトを圧縮する学習

Learning to Compress Prompt in Natural Language Formats ( http://arxiv.org/abs/2402.18700v2 )

ライセンス: Link先を確認
Yu-Neng Chuang, Tianwei Xing, Chia-Yuan Chang, Zirui Liu, Xun Chen, Xia Hu, (参考訳) 大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れていますが、その能力は、長いコンテキストでの性能が劣る、推論速度が遅い、結果の計算コストが高い、という制約があります。 正確で情報的なコンテキストでLLMをデプロイすることは、大規模データセットをより効率的に、コスト効率良く処理するのに役立つ。 既存の作品は、長いプロンプトコンテキストをソフトプロンプトに圧縮することに依存している。 しかし、ソフトプロンプト圧縮は異なるLLM、特にAPIベースのLLM間での転送可能性の制限に遭遇する。 そこで本研究は,LLM転送性を備えた自然言語形式で長大なプロンプトを圧縮することを目的としている。 これは2つの課題を提起する。 (i)自然言語(NL)プロンプトは、バックプロパゲーションと互換性がなく、 (ii)NLは長さ制約を課す際の柔軟性を欠く。 本研究では,NLフォーマットのCapsule Promptにオリジナルのプロンプトを圧縮する自然言語プロンプトカプセル化(Nano-Capsulator)フレームワークを提案する。 特に、最初の課題に取り組むために、ナノカプセルは損失を保存するセマンティクスと相互作用する報酬関数によって最適化される。 2つ目の問題に対処するため、Nano-Capsulatorは長さ制約を含む報酬関数によって最適化される。 実験結果によると、Capsule Promptはオリジナルの長さの81.4%を削減し、推論遅延を4.5倍に削減し、予算オーバーヘッドの80.1%を削減し、多様なLLMと異なるデータセット間の転送性を提供する。

Large language models (LLMs) are great at processing multiple natural language processing tasks, but their abilities are constrained by inferior performance with long context, slow inference speed, and the high cost of computing the results. Deploying LLMs with precise and informative context helps users process large-scale datasets more effectively and cost-efficiently. Existing works rely on compressing long prompt contexts into soft prompts. However, soft prompt compression encounters limitations in transferability across different LLMs, especially API-based LLMs. To this end, this work aims to compress lengthy prompts in the form of natural language with LLM transferability. This poses two challenges: (i) Natural Language (NL) prompts are incompatible with back-propagation, and (ii) NL prompts lack flexibility in imposing length constraints. In this work, we propose a Natural Language Prompt Encapsulation (Nano-Capsulator) framework compressing original prompts into NL formatted Capsule Prompt while maintaining the prompt utility and transferability. Specifically, to tackle the first challenge, the Nano-Capsulator is optimized by a reward function that interacts with the proposed semantics preserving loss. To address the second question, the Nano-Capsulator is optimized by a reward function featuring length constraints. Experimental results demonstrate that the Capsule Prompt can reduce 81.4% of the original length, decrease inference latency up to 4.5x, and save 80.1% of budget overheads while providing transferability across diverse LLMs and different datasets.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# 最大スライスワッサーシュタイン距離に対するシャープ境界

Sharp bounds for max-sliced Wasserstein distances ( http://arxiv.org/abs/2403.00666v4 )

ライセンス: Link先を確認
March T. Boedihardjo, (参考訳) 我々は本質的に、分離可能なヒルベルト空間上の確率測度と$n$サンプルからの経験的分布の間の予想最大スライクな1-ワッサーシュタイン距離に対する上界と下界をマッチングする。 この結果のバナッハ空間バージョンを証明することにより、ユークリッド空間上の対称確率測度$\mu$と、共分散行列の作用素ノルムと$\mu$とのサポートの直径との予想最大スライクな2-ワッサーシュタイン距離に対して、対数係数まで鋭い上限も得られる。

We obtain essentially matching upper and lower bounds for the expected max-sliced 1-Wasserstein distance between a probability measure on a separable Hilbert space and its empirical distribution from $n$ samples. By proving a Banach space version of this result, we also obtain an upper bound, that is sharp up to a log factor, for the expected max-sliced 2-Wasserstein distance between a symmetric probability measure $\mu$ on a Euclidean space and its symmetrized empirical distribution in terms of the operator norm of the covariance matrix of $\mu$ and the diameter of the support of $\mu$.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# 量子ルービックキューブを用いたエネルギーレベル構造理解

Understanding Energy Level Structure Using Quantum Rubik's Cube ( http://arxiv.org/abs/2403.01195v4 )

ライセンス: Link先を確認
Yu Wang, Maolin Bo, (参考訳) この研究は、量子ルービックキューブ行列とベナルカザール・ベルネヴィグ・ヒューズモデルを組み合わせて、畳み込みの逆過程に基づく行列アルゴリズムを定義し、量子ルービックキューブ行列とハミルトン行列の式を構築する。 さらに、量子ルービックキューブ行列の操作をより明確にするために、ジョゼフス環を使ってルービックキューブ拡大の位相グラフを描く。 この記事では、量子ルービックキューブを用いて電子のエネルギー準位遷移を計算し、その演算が経路積分に対応することを示す。 バンド分散が得られる。 この研究は、ハミルトニアンを計算し、エネルギー準位構造を研究するための新しいアイデアと方法を提供する。

This study combines the quantum Rubik's Cube matrix with the Benalcazar Bernevig Hughes model, defines a matrix algorithm based on the reverse process of convolution, and constructs an expression for the quantum Rubik's Cube matrix and Hamiltonian. Furthermore, in order to make the operation of the quantum Rubik's Cube matrix clearer, we use a Josephus ring to draw a topological graph of the Rubik's Cube expansion. This article uses a quantum Rubik's Cube to calculate energy level transitions of electrons, and shows that its operation corresponds to path integration. The band dispersion is obtained. This work provides new ideas and methods for calculating Hamiltonians and studying energy level structure.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-02
# MedMamba:Vision Mamba for Medical Image Classification (動画)

MedMamba: Vision Mamba for Medical Image Classification ( http://arxiv.org/abs/2403.03849v3 )

ライセンス: Link先を確認
Yubiao Yue, Zhenzhang Li, (参考訳) 医用画像分類は、コンピュータビジョンの分野において、非常に基本的で重要な課題である。 近年、CNNベースのモデルとTransformerベースのモデルは、様々な医療画像の分類に広く利用されている。 残念なことに、長距離モデリング機能におけるCNNの制限は、医療画像の特徴を効果的に抽出することを妨げる一方で、トランスフォーマーはその2次計算複雑性によって妨げられている。 近年の研究では、マンバが表現する状態空間モデル(SSM)が線形計算複雑性を維持しつつ、長距離相互作用を効率的にモデル化できることが示されている。 そこで我々は,医療画像分類(MedMamba)のためのVision Mambaを提案する。 具体的には,新しいConv-SSMモジュールを紹介する。 Conv-SSMは、畳み込み層の局所的特徴抽出能力と、長距離依存を捉えるSSMの機能を組み合わせることで、異なるモダリティで医療画像のモデリングを行う。 MedMambaの可能性を実証するために、我々は14の公開医療データセットと2つのプライベートデータセットを用いて広範囲にわたる実験を行った。 その結果,MedMambaは様々な医用画像の病変の検出に有効であることが示唆された。 私たちの知る限りでは、Vision Mambaは医療画像分類用に作られた最初のVision Mambaだ。 本研究の目的は、医用画像分類タスクの新たなベースラインを確立し、より効率的で効率的なSSMベースの人工知能アルゴリズムと医療応用システムの開発に有用な洞察を提供することである。 ソースコードはhttps://github.com/YubiaoYue/MedMamba.comで公開されている。

Medical image classification is a very fundamental and crucial task in the field of computer vision. These years, CNN-based and Transformer-based models have been widely used to classify various medical images. Unfortunately, The limitation of CNNs in long-range modeling capabilities prevents them from effectively extracting features in medical images, while Transformers are hampered by their quadratic computational complexity. Recent research has shown that the state space model (SSM) represented by Mamba can efficiently model long-range interactions while maintaining linear computational complexity. Inspired by this, we propose Vision Mamba for medical image classification (MedMamba). More specifically, we introduce a novel Conv-SSM module. Conv-SSM combines the local feature extraction ability of convolutional layers with the ability of SSM to capture long-range dependency, thereby modeling medical images with different modalities. To demonstrate the potential of MedMamba, we conducted extensive experiments using 14 publicly available medical datasets with different imaging techniques and two private datasets built by ourselves. Extensive experimental results demonstrate that the proposed MedMamba performs well in detecting lesions in various medical images. To the best of our knowledge, this is the first Vision Mamba tailored for medical image classification. The purpose of this work is to establish a new baseline for medical image classification tasks and provide valuable insights for the future development of more efficient and effective SSM-based artificial intelligence algorithms and application systems in the medical. Source code has been available at https://github.com/YubiaoYue/MedMamba.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-02
# 3次元拡散政策: シンプルな3次元表現による一般化可能なビジュモータ政策学習

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations ( http://arxiv.org/abs/2403.03954v2 )

ライセンス: Link先を確認
Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu, (参考訳) 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと、一般化可能に学習することは、通常、大量の人間のデモンストレーションを消費する。 この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。 DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。 72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、24.2%の相対的な改善でベースラインを超えた。 4つの実ロボットタスクにおいて、DP3は、各タスクの40個のデモのみを考慮し、高い成功率85%の正確な制御を示し、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。 興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。 実世界のロボット学習における3D表現の重要性を明らかにする。 ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されている。

Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 24.2% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
翻訳日:2024-04-04 08:19:18 公開日:2024-04-02
# GraphInstruct: グラフ理解と推論機能を備えた大規模言語モデルの実現

GraphInstruct: Empowering Large Language Models with Graph Understanding and Reasoning Capability ( http://arxiv.org/abs/2403.04483v2 )

ライセンス: Link先を確認
Zihan Luo, Xiran Song, Hong Huang, Jianxun Lian, Chenhao Zhang, Jinqi Jiang, Xing Xie, (参考訳) 大規模言語モデル(LLM)の汎用能力の評価と向上は重要な研究課題である。 グラフは現実世界では一般的なデータ構造であり、グラフデータの理解は汎用インテリジェンスを前進させる重要な要素である。 本稿では, LLMのグラフ理解能力を評価するために, 21の古典的グラフ推論タスクを包括的に含み, 多様なグラフ生成パイプラインと詳細な推論ステップを提供するGraphInstructというベンチマークを提案する。 GraphInstructに基づいて、グラフ理解能力を示す効率的な命令チューニングにより、GraphLMをさらに構築する。 グラフ推論機能を備えたLCMを向上するために,ステップマスクトレーニング戦略を提案し,GraphLM+というモデルを構築した。 LLMのグラフ理解と推論能力を高めるための先駆的な取り組みの1つとして、GraphLMとGraphLM+が他のLLMよりも優れていることを示す広範な実験がある。 GraphInstructを通じてグラフデータマイニング領域におけるLLMの可能性を探る研究者がさらに増えるのを楽しみにしています。 GraphInstructを生成するコードは、https://github.com/CGCL-codes/GraphInstructで公開されています。

Evaluating and enhancing the general capabilities of large language models (LLMs) has been an important research topic. Graph is a common data structure in the real world, and understanding graph data is a crucial part for advancing general intelligence. To evaluate and enhance the graph understanding abilities of LLMs, in this paper, we propose a benchmark named GraphInstruct, which comprehensively includes 21 classical graph reasoning tasks, providing diverse graph generation pipelines and detailed reasoning steps. Based on GraphInstruct, we further construct GraphLM through efficient instruction-tuning, which shows prominent graph understanding capability. In order to enhance the LLM with graph reasoning capability as well, we propose a step mask training strategy, and construct a model named GraphLM+. As one of the pioneering efforts to enhance the graph understanding and reasoning abilities of LLMs, extensive experiments have demonstrated the superiority of GraphLM and GraphLM+ over other LLMs. We look forward to more researchers exploring the potential of LLMs in the graph data mining domain through GraphInstruct. Our code for generating GraphInstruct is released publicly at: https://github.com/CGCL-codes/GraphInstruct.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-02
# JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama model

JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models ( http://arxiv.org/abs/2403.04798v2 )

ライセンス: Link先を確認
Arefa, Mohammed Abbas Ansari, Chandni Saxena, Tanvir Ahmad, (参考訳) 本稿では,SemEval-2024タスク3「会話におけるマルチモーダル感情原因分析の競争」のシステム開発について述べる。 人間の会話における感情を効果的に捉えるには、テキスト、オーディオ、ビデオなどの複数のモダリティを統合する必要がある。 しかし、これらの多様性の複雑さは、効率的なマルチモーダル感情原因分析(ECA)システムの開発に困難をもたらす。 提案手法は2段階の枠組みでこれらの課題に対処する。 実装には2つの異なるアプローチを採用しています。 アプローチ1では、感情と原因予測のために2つの別々のLlama 2モデルを用いた命令チューニングを採用する。 アプローチ2では、会話レベルのビデオ記述にGPT-4Vを使用し、GPT 3.5を用いて注釈付き会話を用いたテキスト内学習を採用する。 システムではランク4を勝ち取り,システムアブレーション実験により,提案手法が性能向上に寄与していることが実証された。 実験コードはすべてGithubで公開されている。

This paper presents our system development for SemEval-2024 Task 3: "The Competition of Multimodal Emotion Cause Analysis in Conversations". Effectively capturing emotions in human conversations requires integrating multiple modalities such as text, audio, and video. However, the complexities of these diverse modalities pose challenges for developing an efficient multimodal emotion cause analysis (ECA) system. Our proposed approach addresses these challenges by a two-step framework. We adopt two different approaches in our implementation. In Approach 1, we employ instruction-tuning with two separate Llama 2 models for emotion and cause prediction. In Approach 2, we use GPT-4V for conversation-level video description and employ in-context learning with annotated conversation using GPT 3.5. Our system wins rank 4, and system ablation experiments demonstrate that our proposed solutions achieve significant performance gains. All the experimental codes are available on Github.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-02
# HEVの制約付き最適燃料消費:制約付き強化学習アプローチ

Constrained Optimal Fuel Consumption of HEV: A Constrained Reinforcement Learning Approach ( http://arxiv.org/abs/2403.07503v2 )

ライセンス: Link先を確認
Shuchang Yan, (参考訳) ハイブリッド電気自動車(HEV)は、内燃機関と電動モーターの作動特性をうまく組み合わせられるため、ますます人気が高まっている。 しかし、特定の組立条件下での電池電気バランスケースのHEVの最小燃費と、特定の速度曲線を学術・産業で明らかにする必要がある。 この問題に関して、この研究は、制約付き強化学習(CRL)の観点から初めて、制約付き最適燃料消費(COFC)の数学的表現を提供する。 また、CRLの2つの主流的アプローチ、制約付き変動ポリシー最適化(CVPO)とラグランジアンベースのアプローチを用いて、バッテリ電気バランス条件下での車両の最小燃費を得る。 我々は,NEDC条件下で有名なTOYOTAハイブリッドシステム(THS)のケーススタディを行い,CRL手法の実装とCVPOとラグランジアン方式の性能比較を行う。 CVPO法とラグランジアン法を併用したケーススタディでは,SOCバランスの制約を維持しながら低燃費化が可能であった。 CVPO法は安定に収束するが、ラグランジアン法はより大きな振動を伴って3.95 L/100kmの低燃費が得られる。 本結果は,COFC問題に対する提案したCRL手法の有効性を検証するものである。

Hybrid electric vehicles (HEVs) are becoming increasingly popular because they can better combine the working characteristics of internal combustion engines and electric motors. However, the minimum fuel consumption of an HEV for a battery electrical balance case under a specific assembly condition and a specific speed curve still needs to be clarified in academia and industry. Regarding this problem, this work provides the mathematical expression of constrained optimal fuel consumption (COFC) from the perspective of constrained reinforcement learning (CRL) for the first time globally. Also, two mainstream approaches of CRL, constrained variational policy optimization (CVPO) and Lagrangian-based approaches, are utilized for the first time to obtain the vehicle's minimum fuel consumption under the battery electrical balance condition. We conduct case studies on the well-known Prius TOYOTA hybrid system (THS) under the NEDC condition; we give vital steps to implement CRL approaches and compare the performance between the CVPO and Lagrangian-based approaches. Our case study found that CVPO and Lagrangian-based approaches can obtain the lowest fuel consumption while maintaining the SOC balance constraint. The CVPO approach converges stable, but the Lagrangian-based approach can obtain the lowest fuel consumption at 3.95 L/100km, though with more significant oscillations. This result verifies the effectiveness of our proposed CRL approaches to the COFC problem.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-02
# SSMがビデオ拡散モデルを発表:構造化状態空間を用いた効率的なビデオ生成

SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces ( http://arxiv.org/abs/2403.07711v3 )

ライセンス: Link先を確認
Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo, (参考訳) 拡散モデルによる画像生成における顕著な成果を考えると、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。 映像生成のための近年の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。 しかし、アテンション層はメモリ消費によって制限され、シーケンスの長さとともに2次的に増加する。 この制限は拡散モデルを用いてより長いビデオシーケンスを生成しようとする際の大きな課題となる。 この課題を克服するために、状態空間モデル(SSM)の活用を提案する。 SSMは、最近、シーケンス長に対する線形メモリ消費のために、有効な代替手段として注目されている。 実験では、まず、ビデオ生成の標準ベンチマークであるUCF101を用いて、SSMベースのモデルを評価した。 さらに,より長いビデオ生成のためのSSMの可能性を調べるために,MineRL Navigateデータセットを用いて,フレーム数を64,200,400に変更する実験を行った。 これらの設定では、我々のSSMベースのモデルは、注意ベースのモデルと競合するFVDスコアを維持しながら、長いシーケンスでメモリ消費を大幅に削減することができる。 私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。

Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their memory consumption, which increases quadratically with the length of the sequence. This limitation presents significant challenges when attempting to generate longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs). SSMs have recently gained attention as viable alternatives due to their linear memory consumption relative to sequence length. In the experiments, we first evaluate our SSM-based model with UCF101, a standard benchmark of video generation. In addition, to investigate the potential of SSMs for longer video generation, we perform an experiment using the MineRL Navigate dataset, varying the number of frames to 64, 200, and 400. In these settings, our SSM-based model can considerably save memory consumption for longer sequences, while maintaining competitive FVD scores to the attention-based models. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-02
# モダリティ・デバイアス:言語を用いた画像のサブポピュレーションシフトの軽減

Cross-modality debiasing: using language to mitigate sub-population shifts in imaging ( http://arxiv.org/abs/2403.07888v2 )

ライセンス: Link先を確認
Yijiang Pang, Bao Hoang, Jiayu Zhou, (参考訳) サブ人口シフト(Sub-population shift)とは、特定のサブグループ内のデータ分布の変化や、トレーニングとテストの間の人口の変化を強調する、特定のタイプのドメインシフトである。 サブポピュレーションシフトは、アルゴリズムバイアスの重要な源であり、分散ロバスト性を要求する。 近年の研究では、視覚言語モデルCLIPのような多モード基礎モデルに固有の分布ロバスト性が確認されているが、パラメータの微調整によってこのロバスト性は脆弱である。 本稿では,異なるモーダル間のロバスト性接続を活用し,一方のモーダルの分布ロバスト性と他方のモーダルの分布ロバスト性を再構成する手法を提案する。 具体的には,CLIPの分布ロバスト性の観点から,画像特徴表現の劣化を抑えるために自然言語入力を活用することを提案する。 本研究では, 自然言語による画像表現の劣化が, サブポピュレーションシフトによる性能向上と性能不安定性の低下をもたらすことを実証した。

Sub-population shift is a specific type of domain shift that highlights changes in data distribution within specific sub-groups or populations between training and testing. Sub-population shift accounts for a significant source of algorithmic bias and calls for distributional robustness. Recent studies found inherent distributional robustness in multi-modality foundation models, such as the vision-language model CLIP, yet this robustness is vulnerable through parameter fine-tuning. In this paper, we propose leveraging the connection of robustness among different modalities and reshaping the distributional robustness of one modality with another. Specifically, in the context of the distributional robustness of CLIP, we propose to leverage natural language inputs to debias the image feature representations, to improve worst-case performance on sub-populations. Our extensive empirical studies show that image representations debiased by natural language can achieve significant performance improvement and reduction of performance instability under sub-population shifts.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-02
# 任意の2量子状態の幾何学的量子不一致:正確な値と一般上界

Geometric quantum discord of an arbitrary two-qudit state: the exact value and general upper bounds ( http://arxiv.org/abs/2403.09342v2 )

ライセンス: Link先を確認
Elena R. Loubenets, Louis Hanotel, (参考訳) 2量子状態の幾何学的な量子不協和は、多くの論文で研究されているが、その明示的な形の正確な解析値は、一般的な2量子状態、一般的な2量子状態、いくつかの2量子状態の特別な族についてのみ知られている。 一般的なブロッホベクトル形式主義 (J. Phys. A: Math. Theor. 54 195301 (2021)) に基づいて、その相関行列のパラメータとその縮小状態のブロッホベクトルを通じて、任意の次元の一般2量子状態に対する幾何量子不協和の明確な正確な解析値を求める。 この新たな解析結果は、[Phys. A. 85, 204102 (2012)] で発見された幾何学的量子不協和の低い境界が、各2量子状態で達成され、また、幾何学的不協和の既知の正確な結果が、特定の場合のみ含まれていることを示している。 さらに、この状態のヒルベルト空間特性と純粋な2量子状態の場合には、純あるいは混合の任意の2量子状態を見つけることができる。

The geometric quantum discord of a two-qudit state has been studied in many papers, however, its exact analytical value in the explicit form is known only for a general two-qubit state, a general qubit-qudit state and some special families of two-qudit states. Based on the general Bloch vectors formalism [J. Phys. A: Math. Theor. 54 195301 (2021)], we find the explicit exact analytical value of the geometric quantum discord for a general two-qudit state of an arbitrary dimension via the parameters of its correlation matrix and the Bloch vectors of its reduced states. This new general analytical result indicates that the lower bound on the geometric quantum discord found in [Phys. Rev. A. 85, 204102 (2012)] is attained on each two-qudit state and also, includes all the known exact results on the geometric discord only as particular cases. Moreover, it allows us to find for an arbitrary two-qudit state, pure or mixed, the new general upper bounds on its geometric quantum discord, expressed via the Hilbert space characteristics of this state and in case of a pure two-qudit state -- in terms of its concurrence.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-02
# 図形情報のない社会バイアスの緩和のためのプロトタイプ表現の活用

Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information ( http://arxiv.org/abs/2403.09516v2 )

ライセンス: Link先を確認
Shadi Iskander, Kira Radinsky, Yonatan Belinkov, (参考訳) 社会的バイアスを緩和するには、典型的には、各データサンプルに関連付けられた社会的グループを特定する必要がある。 本稿では,言語モデルにおける社会的バイアスに対処する新しいアプローチであるDAFairを提案する。 明示的な人口統計ラベルに依存する従来の方法とは異なり、我々のアプローチはそのような情報を必要としない。 代わりに、事前定義された原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を組み込んで、モデルの表現におけるバイアスを軽減する。 2つのタスクと2つのモデルにまたがる実験結果から,ラベル付きデータに依存しない従来の手法と比較して,提案手法の有効性が示された。 さらに,人口統計アノテートデータに制限があるため,本手法は一般的なデバイアス・アプローチより優れている。

Mitigating social biases typically requires identifying the social groups associated with each data sample. In this paper, we present DAFair, a novel approach to address social bias in language models. Unlike traditional methods that rely on explicit demographic labels, our approach does not require any such information. Instead, we leverage predefined prototypical demographic texts and incorporate a regularization term during the fine-tuning process to mitigate bias in the model's representations. Our empirical results across two tasks and two models demonstrate the effectiveness of our method compared to previous approaches that do not rely on labeled data. Moreover, with limited demographic-annotated data, our approach outperforms common debiasing approaches.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-02
# ユニバーサルデザインを用いた学習視点による麺使用性評価手法

Moodle Usability Assessment Methodology using the Universal Design for Learning perspective ( http://arxiv.org/abs/2403.10484v2 )

ライセンス: Link先を確認
Rosana Montes, Liliana Herrera, Emilio Crisol, (参考訳) ユニバーサル・デザイン・フォー・ラーニング・フレームワークの応用は、仮想的な教育環境の創出を好んでいる。 アクセス可能なコンテンツを開発し、利用可能なプラットフォームを持ち、常に学生のモチベーションを促進するフレキシブルな実践と評価を使用する必要がある。 本研究の目的は,学習のためのユニバーサルデザインの原則に基づいて,アクセシビリティ,ユーザビリティ,および支援技術の活用性の重要性を認識し,Moodleプラットフォームのユーザビリティを評価する方法論を設計することである。 我々は,Moodleプラットフォームのユーザビリティレベルを評価する方法論を開発,適用し,それらがAssistive Technologiesを統合するか,MOOCコンテキストに使用されるかを考慮して検討した。 我々は、それぞれのMoodle v.2.xとv.3.xファミリーのバージョンの2つのインスタンスを評価するユースケースの結果を提供する。 ユニバーサルデザイン・フォー・ラーニング(Universal Design for Learning)の原則に基づいて考案されたMOOC型教育プログラムを評価するために,混合設計研究の枠組みを採用した。 Moodle v.2.x と v.3.x の評価の結果、国際アクセシビリティ標準に準拠するために、プラットフォームはいくつかの重要な要素(例えば、コントラスト色、代替テキストとリンクの取り込み)を改善しなければならないと結論付けている。 ユーザビリティに関しては,MOOC型仮想学習環境に適用可能なユニバーサルデザインの原則とガイドラインが,学生から肯定的に評価され,認定率に肯定的な影響を与えることが確認できる。

The application of the Universal Design for Learning framework favors the creation of virtual educational environments for all. It requires developing accessible content, having a usable platform, and the use of flexible didactics and evaluations that promote constant student motivation. The present study aims to design a methodology to evaluate the usability of the Moodle platform based on the principles of Universal Design for Learning, recognizing the importance of accessibility, usability and the availability of Assistive Technologies. We developed and applied a methodology to assess the usability level of Moodle platforms, taking into consideration that they integrate Assistive Technologies or are used for MOOC contexts. We provide the results of a use case that assesses two instances for the respective Moodle v.2.x and v.3.x family versions. We employed the framework of mixed design research in order to assess a MOOC-type educational program devised under the principles of Universal Design for Learning. As a result of the assessment of Moodle v.2.x and v.3.x, we conclude that the platforms must improve some key elements (e.g. contrasting colors, incorporation of alternative text and links) in order to comply with international accessibility standards. With respect to usability, we can confirm that the principles and guidelines of Universal Design for Learning are applicable to MOOC-type Virtual Learning Environments, are positively valued by students, and have a positive impact on certification rates.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-02
# 野生動物における感情認識のための複合マルチモーダルトランス

Joint Multimodal Transformer for Emotion Recognition in the Wild ( http://arxiv.org/abs/2403.10488v2 )

ライセンス: Link先を確認
Paul Waligora, Haseeb Aslam, Osama Zeeshan, Soufiane Belharbi, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger, (参考訳) マルチモーダル感情認識システム(MMER)は、通常、視覚的、テキスト的、生理的、聴覚的モダリティ間のモーダル間関係を利用して、単調システムよりも優れる。 本稿では,キーベースクロスアテンションと融合するジョイントマルチモーダルトランスを用いたMMER法を提案する。 このフレームワークは、様々なモダリティの多様で相補的な性質を活用して予測精度を向上させることを目的としている。 異なるバックボーンは、ビデオシーケンス上の各モードにおけるモーダル内時空間依存性をキャプチャする。 その後、ジョイントマルチモーダルトランスフォーマー融合アーキテクチャは個々のモーダル埋め込みを統合し、モデルがモーダル間およびモーダル内関係を効果的にキャプチャすることを可能にする。 1)Affwild2データセットの次元的感情認識(顔と声)と,(2)Biovidデータセットの痛み推定(顔とバイオセンサー)の2つの課題において,提案手法が効果的に動作できることが示唆された。 実験結果から,提案手法を用いたMMERシステムにより,関連するベースラインや最先端手法よりも優れた性能が得られることが示された。

Systems for multimodal emotion recognition (MMER) can typically outperform unimodal systems by leveraging the inter- and intra-modal relationships between, e.g., visual, textual, physiological, and auditory modalities. In this paper, an MMER method is proposed that relies on a joint multimodal transformer for fusion with key-based cross-attention. This framework aims to exploit the diverse and complementary nature of different modalities to improve predictive accuracy. Separate backbones capture intra-modal spatiotemporal dependencies within each modality over video sequences. Subsequently, a joint multimodal transformer fusion architecture integrates the individual modality embeddings, allowing the model to capture inter-modal and intra-modal relationships effectively. Extensive experiments on two challenging expression recognition tasks: (1) dimensional emotion recognition on the Affwild2 dataset (with face and voice), and (2) pain estimation on the Biovid dataset (with face and biosensors), indicate that the proposed method can work effectively with different modalities. Empirical results show that MMER systems with our proposed fusion method allow us to outperform relevant baseline and state-of-the-art methods.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-02
# Ignore Me But Don't Change me: using non-Linguistic Elements for Pretraining on the Cybersecurity Domain

Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain ( http://arxiv.org/abs/2403.10576v2 )

ライセンス: Link先を確認
Eugene Jang, Jian Cui, Dayeon Yim, Youngjin Jin, Jin-Woo Chung, Seungwon Shin, Yongjae Lee, (参考訳) サイバーセキュリティ情報はしばしば技術的に複雑であり、構造化されていないテキストを通して中継される。 高レベルの専門知識を持つテキストドメインでは、ドメイン内のコーパスを事前訓練することが、ドメインの専門知識を得るための言語モデルとして一般的な方法である。 しかし、サイバーセキュリティのテキストには、確立された事前訓練手法には適さない非言語的要素(URLやハッシュ値など)が含まれていることが多い。 他の領域での以前の研究は、ノイズのようなテキストを除去またはフィルタリングしているが、これらの手法の有効性は、特にサイバーセキュリティ領域では調査されていない。 我々は,異なる事前学習手法を提案し,下流タスクと探索タスクを通してその効果を評価する。 提案手法(選択的MLMとNLEトークン分類を共同訓練)は,非言語的要素(NLE)を置き換える一般的なアプローチよりも優れている。 CyBERTunedは、サイバーセキュリティのドメイン言語モデルで、ほとんどのタスクにおいて、他のサイバーセキュリティのPLMよりも優れています。

Cybersecurity information is often technically complex and relayed through unstructured text, making automation of cyber threat intelligence highly challenging. For such text domains that involve high levels of expertise, pretraining on in-domain corpora has been a popular method for language models to obtain domain expertise. However, cybersecurity texts often contain non-linguistic elements (such as URLs and hash values) that could be unsuitable with the established pretraining methodologies. Previous work in other domains have removed or filtered such text as noise, but the effectiveness of these methods have not been investigated, especially in the cybersecurity domain. We propose different pretraining methodologies and evaluate their effectiveness through downstream tasks and probing tasks. Our proposed strategy (selective MLM and jointly training NLE token classification) outperforms the commonly taken approach of replacing non-linguistic elements (NLEs). We use our domain-customized methodology to train CyBERTuned, a cybersecurity domain language model that outperforms other cybersecurity PLMs on most tasks.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-02
# Mambaは時系列予測に有効か?

Is Mamba Effective for Time Series Forecasting? ( http://arxiv.org/abs/2403.11144v2 )

ライセンス: Link先を確認
Zihan Wang, Fanheng Kong, Shi Feng, Ming Wang, Han Zhao, Daling Wang, Yifei Zhang, (参考訳) 時系列予測(TSF)の領域では、モデルが履歴時系列データに埋め込まれた依存関係を適切に識別し、蒸留することが必須である。 これは時間的依存と変量相関(VC)の抽出を含み、将来の状態を予測するためにモデルに権限を与える。 トランスフォーマーをベースとしたモデルは、TDとVCの双方に適応する能力が異なるため、TSFにおいて強烈な効果を発揮している。 しかし、非効率のため、トランスフォーマーを改良するための継続的な努力は継続された。 近年、状態空間モデル(SSM)、例えばMambaは、ほぼ線形の複雑さを維持しながら、Transformerのようなシーケンス内の複雑な依存関係を処理する能力によって、注目を集めている。 このことは、TSFタスクにおけるSSMの可能性を探ることへの我々の関心を暗示している。 そこで本研究では,TSFのためのシンプルマンバ(S-Mamba)モデルを提案する。 具体的には,各変数の時間点を線形層を介して自律的にトークン化する。 その後、双方向のマンバ層を用いてVCを抽出し、TD用フィードフォワードネットワークとマッピング層との合成構造を介して予測結果を生成する。 いくつかのデータセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。 さらに,TSFのTransformerと比較して,Mambaのポテンシャルを深く掘り下げるための広範囲な実験を行った。 私たちのコードはhttps://github.com/wzhwzhhh0921/S-D-Mambaで公開されています。

In the realm of time series forecasting (TSF), it is imperative for models to adeptly discern and distill dependencies embedded within historical time series data. This encompasses the extraction of temporal dependencies and inter-variate correlations (VC), thereby empowering the models to forecast future states. Transformer-based models have exhibited formidable efficacy in TSF, primarily attributed to their distinct proficiency in apprehending both TD and VC. However, due to the inefficiencies, ongoing efforts to refine the Transformer persist. Recently, state space models (SSMs), e.g. Mamba, have gained traction due to their ability to process complex dependencies in sequences, similar to the Transformer, while maintaining near-linear complexity. This has piqued our interest in exploring SSM's potential in TSF tasks. Therefore, we propose a Mamba-based model named Simple-Mamba (S-Mamba) for TSF. Specifically, we tokenize the time points of each variate autonomously via a linear layer. Subsequently, a bidirectional Mamba layer is utilized to extract VC, followed by the generation of forecast outcomes through a composite structure of a Feed-Forward Network for TD and a mapping layer. Experiments on several datasets prove that S-Mamba maintains low computational overhead and achieves leading performance. Furthermore, we conduct extensive experiments to delve deeper into the potential of Mamba compared to the Transformer in the TSF. Our code is available at https://github.com/wzhwzhwzh0921/S-D-Mamba.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-02
# NEDS-SLAM:3次元ガウススプラッティングを用いたニューラル・エクスプリシト・ディッセンス・セマンティック・SLAMフレームワーク

NEDS-SLAM: A Novel Neural Explicit Dense Semantic SLAM Framework using 3D Gaussian Splatting ( http://arxiv.org/abs/2403.11679v2 )

ライセンス: Link先を確認
Yiming Ji, Yang Liu, Guanghu Xie, Boyu Ma, Zongwu Xie, (参考訳) 本稿では,3次元ガウス表現に基づく明示的DenseセマンティックSLAMシステムNEDS-SLAMを提案する。 本システムでは,事前訓練されたセグメンテーションヘッドからの誤推定が意味再構成に与える影響を低減し,ロバストな3次元意味ガウスマッピングを実現するために,空間一貫性のある特徴融合モデルを提案する。 さらに,高次元のセマンティック特徴をコンパクトな3次元ガウス表現に圧縮する軽量エンコーダデコーダを用いて,過剰なメモリ消費の負担を軽減する。 さらに、3Dガウススプラッティングの利点を活用して、効率よく微分可能な新しいビューレンダリングを実現するとともに、外部GSポイントを排除し、シーン表現の質を効果的に向上する仮想カメラビュープルーニング手法を提案する。 NEDS-SLAM法は,ReplicaおよびScanNetデータセット上でのマッピングと追跡精度の観点から,既存の高密度意味論的SLAM法と競合する性能を示した。

We propose NEDS-SLAM, an Explicit Dense semantic SLAM system based on 3D Gaussian representation, that enables robust 3D semantic mapping, accurate camera tracking, and high-quality rendering in real-time. In the system, we propose a Spatially Consistent Feature Fusion model to reduce the effect of erroneous estimates from pre-trained segmentation head on semantic reconstruction, achieving robust 3D semantic Gaussian mapping. Additionally, we employ a lightweight encoder-decoder to compress the high-dimensional semantic features into a compact 3D Gaussian representation, mitigating the burden of excessive memory consumption. Furthermore, we leverage the advantage of 3D Gaussian splatting, which enables efficient and differentiable novel view rendering, and propose a Virtual Camera View Pruning method to eliminate outlier GS points, thereby effectively enhancing the quality of scene representations. Our NEDS-SLAM method demonstrates competitive performance over existing dense semantic SLAM methods in terms of mapping and tracking accuracy on Replica and ScanNet datasets, while also showing excellent capabilities in 3D dense semantic mapping.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-02
# 機械翻訳におけるジェンダーバイアスのマーカーとドライバの検討

Investigating Markers and Drivers of Gender Bias in Machine Translations ( http://arxiv.org/abs/2403.11896v2 )

ライセンス: Link先を確認
Peter J Barclay, Ashkan Sami, (参考訳) 大規模言語モデル(LLM)におけるインプシット・ジェンダーバイアスは、十分に文書化された問題であり、自動翻訳に導入されたジェンダーの影響は、現実世界のバイアスを持続させることができる。 しかし、一部のLLMはヒューリスティックスやポストプロセッシングを使ってそのようなバイアスを隠蔽し、調査を困難にしている。 本稿では,従来の56のソフトウェアエンジニアリングタスクを繰り返し翻訳する際に発生するバイアスをDeepL翻訳APIを用いて,逆翻訳によるLLMのバイアスについて検討する。 それぞれの文は"she"から始まり、最初は"genderless"中間言語に翻訳され、次に英語に戻す。 先行研究は,(1)フィンランド語,インドネシア語,エストニア語,トルコ語,ハンガリー語という5つの中間言語を対象とした結果の比較,(2)反復翻訳で示唆される性別の変動を評価するための新しい指標の提案,(2)先行研究における個々の代名詞の過度な解釈を避けること,(3)バイアスを駆動する文の特徴を調査すること,(4)3つのタイムラプスデータセットの結果を比較してアプローチの再現性を確立すること,の5つの方法によって拡張される。 いくつかの言語は3つのゆるいグループに分類されるが、そのパターンはグループによって異なる。 また,文中に出現する主動詞は,翻訳における意味のあるジェンダーの要因である可能性が示唆された。 さらに,本研究では,DeepL翻訳APIの動作に明らかな変化があるにも関わらず,結果の再現性が良好であることが確認された。 これらの結果から,バックトランスレーション法は,言語モデルにおけるバイアスに関するさらなる洞察を与えることができることがわかった。

Implicit gender bias in Large Language Models (LLMs) is a well-documented problem, and implications of gender introduced into automatic translations can perpetuate real-world biases. However, some LLMs use heuristics or post-processing to mask such bias, making investigation difficult. Here, we examine bias in LLMss via back-translation, using the DeepL translation API to investigate the bias evinced when repeatedly translating a set of 56 Software Engineering tasks used in a previous study. Each statement starts with 'she', and is translated first into a 'genderless' intermediate language then back into English; we then examine pronoun-choice in the back-translated texts. We expand prior research in the following ways: (1) by comparing results across five intermediate languages, namely Finnish, Indonesian, Estonian, Turkish and Hungarian; (2) by proposing a novel metric for assessing the variation in gender implied in the repeated translations, avoiding the over-interpretation of individual pronouns, apparent in earlier work; (3) by investigating sentence features that drive bias; (4) and by comparing results from three time-lapsed datasets to establish the reproducibility of the approach. We found that some languages display similar patterns of pronoun use, falling into three loose groups, but that patterns vary between groups; this underlines the need to work with multiple languages. We also identify the main verb appearing in a sentence as a likely significant driver of implied gender in the translations. Moreover, we see a good level of replicability in the results, and establish that our variation metric proves robust despite an obvious change in the behaviour of the DeepL translation API during the course of the study. These results show that the back-translation method can provide further insights into bias in language models.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# CICLe: 大規模多型食品リスク分類のためのコンフォーマル・インコンテクスト学習

CICLe: Conformal In-Context Learning for Largescale Multi-Class Food Risk Classification ( http://arxiv.org/abs/2403.11904v2 )

ライセンス: Link先を確認
Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren, (参考訳) 汚染された食品や成体の食品は、人間の健康に重大なリスクをもたらす。 トレーニング用のラベル付きWebテキストセットが与えられたら、機械学習と自然言語処理を適用して、そのようなリスクを自動的に検出することができる。 我々は,公開食品リコール発表を記述した7,546の短いテキストのデータセットを公開している。 各テキストは、2つの粒度レベル(粗さと微妙さ)で手動でラベル付けされる。 データセットとベンチマークナイーブ、従来型、トランスフォーマーモデルについて説明する。 分析の結果,tf-idf表現に基づくロジスティック回帰は,低サポートのクラスではRoBERTaとXLM-Rより優れていた。 最後に,異なるプロンプト戦略について議論し,コンフォーマル予測に基づくLLM-in-the-loopフレームワークを提案する。

Contaminated or adulterated food poses a substantial risk to human health. Given sets of labeled web texts for training, Machine Learning and Natural Language Processing can be applied to automatically detect such risks. We publish a dataset of 7,546 short texts describing public food recall announcements. Each text is manually labeled, on two granularity levels (coarse and fine), for food products and hazards that the recall corresponds to. We describe the dataset and benchmark naive, traditional, and Transformer models. Based on our analysis, Logistic Regression based on a tf-idf representation outperforms RoBERTa and XLM-R on classes with low support. Finally, we discuss different prompting strategies and present an LLM-in-the-loop framework, based on Conformal Prediction, which boosts the performance of the base classifier while reducing energy consumption compared to normal prompting.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# 形式的定理証明の強化:Coqコード上でAIモデルをトレーニングするための総合データセット

Enhancing Formal Theorem Proving: A Comprehensive Dataset for Training AI Models on Coq Code ( http://arxiv.org/abs/2403.12627v2 )

ライセンス: Link先を確認
Andreas Florath, (参考訳) 形式的定理証明の領域では、Coq証明アシスタントは数学的主張とソフトウェア正当性を検証するための厳密なアプローチで際立っている。 人工知能と機械学習の進歩にもかかわらず、Coq構文と意味論の特殊性は、大規模言語モデル(LLM)に固有の課題をもたらす。 このギャップに対処するため,我々は,LLMのコーク符号の解釈・生成能力を高めるために設計された包括的データセットを提案する。 このデータセットは1万以上のCoqソースファイルのコレクションから派生したもので、ソース参照やライセンス情報を含むメタデータに富んだ幅広い命題、証明、定義を含んでいる。 我々の主な目的は、構文的に正し、意味的に意味のある Coq 構造を生成することができる LLM の開発を促進することであり、それによって自動定理証明のフロンティアを前進させることである。 このデータセットでの最初の実験では、その大きな可能性を示しており、このデータに基づいてトレーニングされたモデルは、Coqコード生成の精度を向上した。 特に、特定の実験では、微調整されたLLMが基本的な補題に対して141の有効な証明を生成することができ、多種多様な有効な証明戦略の発見を容易にするためのデータセットの有用性を強調した。 本稿では、データセットの構成、その作成の背景となる方法論、そしてフォーマルな検証における機械学習の将来に対する我々の発見の意味について論じる。 データセットは、さらなる調査と調査に利用可能である。 https://huggingface.co/datasets/florath/coq-facts-props-proofs-gen0-v1

In the realm of formal theorem proving, the Coq proof assistant stands out for its rigorous approach to verifying mathematical assertions and software correctness. Despite the advances in artificial intelligence and machine learning, the specialized nature of Coq syntax and semantics poses unique challenges for Large Language Models (LLMs). Addressing this gap, we present a comprehensive dataset specifically designed to enhance LLMs' proficiency in interpreting and generating Coq code. This dataset, derived from a collection of over 10,000 Coq source files, encompasses a wide array of propositions, proofs, and definitions, enriched with metadata including source references and licensing information. Our primary aim is to facilitate the development of LLMs capable of generating syntactically correct and semantically meaningful Coq constructs, thereby advancing the frontier of automated theorem proving. Initial experiments with this dataset have showcased its significant potential; models trained on this data exhibited enhanced accuracy in Coq code generation. Notably, a particular experiment revealed that a fine-tuned LLM was capable of generating 141 valid proofs for a basic lemma, highlighting the dataset's utility in facilitating the discovery of diverse and valid proof strategies. This paper discusses the dataset's composition, the methodology behind its creation, and the implications of our findings for the future of machine learning in formal verification. The dataset is accessible for further research and exploration: https://huggingface.co/datasets/florath/coq-facts-props-proofs-gen0-v1
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# AutoTRIZ: TRIZと大規模言語モデルによる人工的なアイデア

AutoTRIZ: Artificial Ideation with TRIZ and Large Language Models ( http://arxiv.org/abs/2403.13002v2 )

ライセンス: Link先を確認
Shuo Jiang, Jianxi Luo, (参考訳) 研究者やイノベーターは、問題解決とイノベーションのためのエンジニアリング設計の構想を支援するため、形態解析やデザイン・バイ・アナロジーのような思考方法の開発に多大な努力を払ってきた。 これらのうち、TRIZは最もよく知られているアプローチであり、体系的なイノベーションに広く応用されている。 しかし、TRIZリソースと概念の複雑さは、ユーザの知識、経験、推論能力への依存と相まって、その実践性を制限する。 本稿では,大規模言語モデル(LLM)を活用してTRIZ手法の自動化と拡張を行う,人工的思考ツールであるAutoTRIZを提案する。 LLMの幅広い知識と高度な推論能力を活用することで、AutoTRIZは自動化と人工知能による解釈可能なアイデアを設計するための新しいアプローチを提供する。 本稿では,矛盾検出における整合性実験によるAutoTRIZの有効性と,TRIZ教科書から収集した事例との比較を行った。 さらに、提案したLCMベースのフレームワークは、SCAMPER、デザイン・ヒューリスティックス、デザイン・バイ・アナロジーなど、他の知識に基づく思考手法を自動化するための拡張の可能性を秘めており、デザインと革新のための新しい人工的思考の時代への道を歩んでいる。

Researchers and innovators have made enormous efforts in developing ideation methods, such as morphological analysis and design-by-analogy, to aid engineering design ideation for problem solving and innovation. Among these, TRIZ stands out as the most well-known approach, widely applied for systematic innovation. However, the complexity of TRIZ resources and concepts, coupled with its reliance on users' knowledge, experience, and reasoning capabilities, limits its practicability. This paper proposes AutoTRIZ, an artificial ideation tool that leverages large language models (LLMs) to automate and enhance the TRIZ methodology. By leveraging the broad knowledge and advanced reasoning capabilities of LLMs, AutoTRIZ offers a novel approach to design automation and interpretable ideation with artificial intelligence. We demonstrate and evaluate the effectiveness of AutoTRIZ through consistency experiments in contradiction detection and comparative studies with cases collected from TRIZ textbooks. Moreover, the proposed LLM-based framework holds the potential for extension to automate other knowledge-based ideation methods, including SCAMPER, Design Heuristics, and Design-by-Analogy, paving the way for a new era of artificial ideation for design and innovation.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# エントロピーに基づくテキスト透かし検出法

An Entropy-based Text Watermarking Detection Method ( http://arxiv.org/abs/2403.13485v2 )

ライセンス: Link先を確認
Yijian Lu, Aiwei Liu, Dianzhi Yu, Jingjing Li, Irwin King, (参考訳) 現在、大規模言語モデル(LLM)用のテキスト透かしアルゴリズムは、LLMが生成したテキストに隠れた特徴を埋め込んで、後続の検出を容易にするため、LLMの誤用の問題を軽減することができる。 現在のテキスト透かしアルゴリズムは、ほとんどの高エントロピーシナリオでよく機能するが、低エントロピーシナリオでの性能は改善する必要がある。 本研究は, 透かし検出過程において, トークンエントロピーの影響を十分に考慮し, 透かし検出時のトークンの重みを, 従来の方法と同じ値に設定するのではなく, そのエントロピーに応じて調整することを提案した。 具体的には,電子透かし検出(EWD)を提案し,透かし検出時の重みに高いエントロピートークンを付与し,透かしの程度をよりよく反映する。 さらに、提案する検出プロセスは、トレーニング不要で、完全に自動化されている。 実験の結果,低エントロピーのシナリオでは検出性能が向上し,また,異なるエントロピー分布を持つテキストにも適用可能であることがわかった。 私たちのコードとデータはオンラインで公開されます。

Currently, text watermarking algorithms for large language models (LLMs) can embed hidden features to texts generated by LLMs to facilitate subsequent detection, thus alleviating the problem of misuse of LLMs. Although the current text watermarking algorithms perform well in most high-entropy scenarios, its performance in low-entropy scenarios still needs to be improved. In this work, we proposed that the influence of token entropy should be fully considered in the watermark detection process, that is, the weight of each token during watermark detection should be adjusted according to its entropy, rather than setting the weights of all tokens to the same value as in previous methods. Specifically, we proposed an Entropy-based Watermark Detection (EWD) that gives higher-entropy tokens higher influence weights during watermark detection, so as to better reflect the degree of watermarking. Furthermore, the proposed detection process is training-free and fully automated. In the experiment, we found that our method can achieve better detection performance in low-entropy scenarios, and our method is also general and can be applied to texts with different entropy distributions. Our code and data will be available online.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# 超伝導量子コンピュータの熱初期状態からの量子熱化に関する研究

Study on quantum thermalization from thermal initial states in a superconducting quantum computer ( http://arxiv.org/abs/2403.14630v2 )

ライセンス: Link先を確認
Marc Espinosa Edo, Lian-Ao Wu, (参考訳) 現代の量子デバイス、特に量子コンピュータにおける量子熱化は、近年、重要な理論的な関心を集めている。 量子ムペンバ効果 (Quantum Mpemba Effect, QME) のような異常な熱化過程が理論的に研究されている。 しかし、熱状態の調整が難しいため、実験結果が不足している。 本稿では,この問題に対処する手法を提案する。 さらに、我々はIBM量子デバイスを用いたアプローチを実験的に検証し、IBM量子ビットに対して予測される等距離クエンチの非使用緩和結果を提供する。 また、QMEに導入された形式性を評価し、理論的な予測と一致した結果を得る。 この実験は、量子物理学における熱状態と熱化の研究を合理化できることを示すものである。

Quantum thermalization in contemporary quantum devices, in particular quantum computers, has recently attracted significant theoretical interest. Unusual thermalization processes, such as the Quantum Mpemba Effect (QME), have been explored theoretically. However, there is a shortage of experimental results due to the difficulty in preparing thermal states. In this paper, we propose a method to address this challenge. Moreover, we experimentally validate our approach using IBM quantum devices, providing results for unusal relaxation in equidistant quenches as predicted for the IBM qubit. We also assess the formalism introduced for the QME, obtaining results consistent with the theoretical predictions. This demonstration underscores that our method can streamline the investigation of thermal states and thermalization in quantum physics.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# 時系列分析のための基礎モデル:チュートリアルと調査

Foundation Models for Time Series Analysis: A Tutorial and Survey ( http://arxiv.org/abs/2403.14735v2 )

ライセンス: Link先を確認
Yuxuan Liang, Haomin Wen, Yuqi Nie, Yushan Jiang, Ming Jin, Dongjin Song, Shirui Pan, Qingsong Wen, (参考訳) 時系列分析は、データマイニングコミュニティの焦点であり、無数の現実世界のアプリケーションにとって重要な貴重な洞察を抽出するための基盤となる。 ファンデーションモデル(FM)の最近の進歩は、時系列分析のためのモデル設計のパラダイムを根本的に変え、実際に様々な下流タスクを加速させてきた。 これらの革新的なアプローチは、あらかじめ訓練されたFMや微調整されたFMを利用して、時系列分析に特化された一般化された知識を利用することが多い。 本調査では,時系列解析のためのFMの包括的かつ最新の概要について述べる。 以前の調査は、時系列分析におけるFMのアプリケーションまたはパイプラインの側面に主に焦点を合わせてきたが、なぜFMが時系列分析の恩恵を受けるのかを解明する基盤となるメカニズムについて、深い理解が欠如していることが多い。 このギャップに対処するため,本調査では,モデルアーキテクチャ,事前学習技術,適応手法,データモダリティなど,時系列FMの様々な重要な要素を列挙したモデル中心分類を適用した。 全体として、この調査は、時系列分析に係わるFMの最新の進歩を集約し、その理論的基盤、最近の発展の歩み、将来の研究への道筋を強調させるのに役立つ。

Time series analysis stands as a focal point within the data mining community, serving as a cornerstone for extracting valuable insights crucial to a myriad of real-world applications. Recent advancements in Foundation Models (FMs) have fundamentally reshaped the paradigm of model design for time series analysis, boosting various downstream tasks in practice. These innovative approaches often leverage pre-trained or fine-tuned FMs to harness generalized knowledge tailored specifically for time series analysis. In this survey, we aim to furnish a comprehensive and up-to-date overview of FMs for time series analysis. While prior surveys have predominantly focused on either the application or the pipeline aspects of FMs in time series analysis, they have often lacked an in-depth understanding of the underlying mechanisms that elucidate why and how FMs benefit time series analysis. To address this gap, our survey adopts a model-centric classification, delineating various pivotal elements of time-series FMs, including model architectures, pre-training techniques, adaptation methods, and data modalities. Overall, this survey serves to consolidate the latest advancements in FMs pertinent to time series analysis, accentuating their theoretical underpinnings, recent strides in development, and avenues for future research exploration.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# カルマンフィルタと測定に基づくフィードバックによるノイズ原子磁気計測

Noisy atomic magnetometry with Kalman filtering and measurement-based feedback ( http://arxiv.org/abs/2403.14764v2 )

ライセンス: Link先を確認
Julia Amoros-Binefa, Jan Kolodynski, (参考訳) 原子磁気センサでリアルタイムに磁場を追跡することは、主にセンサの非線形性、ノイズの存在、単発推定の必要性など、重大な課題を示す。 これらの課題に対処するために、計測、推定、制御戦略を統合する包括的なアプローチを提案する。 具体的には、原子アンサンブルの連続的な光伝搬に基づく量子非破壊測定を実装することを含む。 得られた光電流は拡張カルマンフィルタに向けられ、システムの動的パラメータを瞬時に推定する。 これらの推定値は、フィードバックループを通じて出力をシステムに戻す線形擬似レギュレータによって利用される。 この手順は自動的に原子アンサンブルをスピンスクイーズ状態にし、精度の量子増強をもたらす。 さらに、提案したフィードバックにより、測定データが破棄された場合でも、原子は絡み合いを示す。 本手法が現実シナリオにおける最適戦略を構成することを証明するため,局所的および集団的デコヒーレンスの存在下で適用可能な推定誤差の究極的境界を導出し,これらが実際に達成されていることを示す。 さらに、大規模なアンサンブルに対して、EKFはリアルタイムに自己推定誤差を確実に予測するだけでなく、短時間でスピンスクイーズを正確に推定することを示した。

Tracking a magnetic field in real-time with an atomic magnetometer presents significant challenges, primarily due to sensor non-linearity, the presence of noise, and the need for one-shot estimation. To address these challenges, we propose a comprehensive approach that integrates measurement, estimation and control strategies. Specifically, this involves implementing a quantum non-demolition measurement based on continuous light-probing of the atomic ensemble. The resulting photocurrent is then directed into an Extended Kalman Filter to produce instantaneous estimates of the system's dynamical parameters. These estimates, in turn, are utilised by a Linear Quadratic Regulator, whose output is applied back to the system through a feedback loop. This procedure automatically steers the atomic ensemble into a spin-squeezed state, yielding a quantum enhancement in precision. Furthermore, thanks to the feedback proposed, the atoms exhibit entanglement even when the measurement data is discarded. To prove that our approach constitutes the optimal strategy in realistic scenarios, we derive ultimate bounds on the estimation error applicable in the presence of both local and collective decoherence, and show that these are indeed attained. Additionally, we demonstrate for large ensembles that the EKF not only reliably predicts its own estimation error in real time, but also accurately estimates spin-squeezing at short timescales.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# 核融合型量子コンピューティングアーキテクチャにおける光損失閾値の解析

Analysis of optical loss thresholds in the fusion-based quantum computing architecture ( http://arxiv.org/abs/2403.14811v2 )

ライセンス: Link先を確認
Aleksandr Melkozerov, Ashot Avanesov, Ivan Dyakonov, Stanislav Straupe, (参考訳) ベル状態測定(BSM)は、量子情報や量子コンピューティング、特に融合ベースの量子コンピューティング(FBQC)において重要な役割を果たす。 FBQCモデルは、小さな絡み合ったリソース状態の量子ビット上で、核融合と呼ばれるエンタングリング測定を行うことができるような、普遍的な量子コンピューティングのためのフレームワークである。 ここでは、FBQCスキームにおける融合として異なる線形光学BSM回路を用いて解析し、このフレームワークにおけるフォールトトレランスのハードウェア要件を数値的に評価する。 いくつかのBSM回路の性能と各種の追加資源の比較を行い、これらの損失による融合ネットワークの誤差を補正できる核融合の線形光学的実現の全てのコンポーネントの損失に対する要求を見積もる。 以上の結果から,FBQCモデルにおけるフォールトトレラント量子コンピューティングは,統合フォトニック実装において現在達成可能なレベルの光学損失を伴って実現可能であることを示し,資源状態の単一光子を0.973以上の完全限界効率で生成・検出できることが示唆された。

Bell state measurements (BSM) play a significant role in quantum information and quantum computing, in particular, in fusion-based quantum computing (FBQC). The FBQC model is a framework for universal quantum computing provided that we are able to perform entangling measurements, called fusions, on qubits within small entangled resource states. Here we analyse the usage of different linear-optical BSM circuits as fusions in the FBQC schemes and numerically evaluate hardware requirements for fault-tolerance in this framework. We examine and compare the performance of several BSM circuits with varying additional resources and estimate the requirements on losses for every component of the linear-optical realization of fusions under which errors in fusion networks caused by these losses can be corrected. Our results show that fault-tolerant quantum computing in the FBQC model is possible with currently achievable levels of optical losses in an integrated photonic implementation, provided that we can create and detect single photons of the resource states with a total marginal efficiency higher than 0.973.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-02
# FusionINN:脳腫瘍モニタリングのための可逆画像融合

FusionINN: Invertible Image Fusion for Brain Tumor Monitoring ( http://arxiv.org/abs/2403.15769v2 )

ライセンス: Link先を確認
Nishant Kumar, Ziyan Tao, Jaikirat Singh, Yang Li, Peiwen Sun, Binghui Zhao, Stefan Gumhold, (参考訳) 画像融合は通常、複数のソースイメージを単一の融合イメージにマージするために、非可逆ニューラルネットワークを使用する。 しかし, 臨床専門医では, 融合機構が原像の特徴を融合させ, 基礎疾患の理解を困難にするため, 融合画像のみに頼って診断を下すには不十分である可能性がある。 融合過程の逆解を解き、融合画像を効率よく生成し、元の画像に分解することができる新しい非可逆画像融合フレームワークであるFusionINNを紹介する。 FusionINNは、通常分散された潜像と融合して分解過程の生成的モデリングを容易にすることで、損失のない1対1のピクセルマッピングを保証する。 特に,マルチフォーカスやマルチ露光画像融合といった他のタスクと比較して,医用画像融合などのライフセンシティブな応用には特に重要である。 我々の広範な実験は、既存の識別的および生成的融合法に対して、主観的および客観的にFusionINNを検証する。 さらに,近年の拡散型核融合モデルと比較すると,より高速かつ質的に優れた核融合結果が得られる。 また,本症例の臨床的有用性も明らかにした。

Image fusion typically employs non-invertible neural networks to merge multiple source images into a single fused image. However, for clinical experts, solely relying on fused images may be insufficient for making diagnostic decisions, as the fusion mechanism blends features from source images, thereby making it difficult to interpret the underlying tumor pathology. We introduce FusionINN, a novel invertible image fusion framework, capable of efficiently generating fused images and also decomposing them back to the source images by solving the inverse of the fusion process. FusionINN guarantees lossless one-to-one pixel mapping by integrating a normally distributed latent image alongside the fused image to facilitate the generative modeling of the decomposition process. To the best of our knowledge, we are the first to investigate the decomposability of fused images, which is particularly crucial for life-sensitive applications such as medical image fusion compared to other tasks like multi-focus or multi-exposure image fusion. Our extensive experimentation validates FusionINN over existing discriminative and generative fusion methods, both subjectively and objectively. Moreover, compared to a recent denoising diffusion-based fusion model, our approach offers faster and qualitatively better fusion results. We also exhibit the clinical utility of our results in aiding disease prognosis.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# 二次元不均質及び均質CFTハミルトニアンによる局所作用素クエンチ

Local operator quench induced by two-dimensional inhomogeneous and homogeneous CFT Hamiltonians ( http://arxiv.org/abs/2403.15851v2 )

ライセンス: Link先を確認
Weibo Mao, Masahiro Nozaki, Kotaro Tamaoka, Mao Tian Tan, (参考訳) 我々は、分割関数、エネルギー密度、絡み合いエントロピーの時間依存性を調べることにより、不均質および均質ハミルトニアンによって誘導される作用素の成長による二次元共形場理論(2d CFTs)の非平衡過程を探索する。 この論文で考慮された非平衡過程は、異なるハミルトン人が支配するローレンツ時間とユークリッド時間から構成される。 自由ボソン CFT と RCFT では,この時間順序が絡み合いエントロピーに影響を与えないが,ホログラフィック CFT ではそうである。 我々の主な発見は、ホログラフ CFT において、不均一ハミルトニアンによって誘導される非単元時間進化は、単元時間進化よりも長い状態情報を保持することができるということである。

We explore non-equilibrium processes in two-dimensional conformal field theories (2d CFTs) due to the growth of operators induced by inhomogeneous and homogeneous Hamiltonians by investigating the time dependence of the partition function, energy density, and entanglement entropy. The non-equilibrium processes considered in this paper are constructed out of the Lorentzian and Euclidean time evolution governed by different Hamiltonians. We explore the effect of the time ordering on entanglement dynamics so that we find that in a free boson CFT and RCFTs, this time ordering does not affect the entanglement entropy, while in the holographic CFTs, it does. Our main finding is that in the holographic CFTs, the non-unitary time evolution induced by the inhomogeneous Hamiltonian can retain the initial state information longer than in the unitary time evolution.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# 生涯的人物再同定のための多元的表現埋め込み

Diverse Representation Embedding for Lifelong Person Re-Identification ( http://arxiv.org/abs/2403.16003v2 )

ライセンス: Link先を確認
Shiben Liu, Huijie Fan, Qiang Wang, Xiai Chen, Zhi Han, Yandong Tang, (参考訳) Lifelong Person Re-Identification (LReID)は、連続したデータストリームから継続的に学習し、複数のカメラにまたがる個人をマッチングすることを目的としている。 LReIDの主な課題は、タスクレベルのドメインギャップとタスクデータセットの制限によって引き起こされる、新たな情報を漸進的に学習しながら、古い知識を効果的に保存する方法である。 CNNのバックボーンに基づく既存のメソッドは、異なる視点から各インスタンスの表現を調べ、古いタスクデータセットと新しいタスクデータセットのモデルパフォーマンスを制限するには不十分である。 これらの手法と異なり、まずLReIDのための純粋なトランスフォーマーを探索するDRE(Diverse Representations Embedding)フレームワークを提案する。 提案したDREは、インスタンスレベルのレイアウトとタスクレベルのレイアウトに基づいて、新しい情報に適応しながら、古い知識を保存する。 具体的には,アダプティブ制約モジュール (Adaptive Constraint Module, ACM) は,トランスフォーマーベースのバックボーンによって生成される複数の重なり合う表現間の操作を,LReIDの適応性を向上させるために各インスタンスに対してリッチで差別的な表現を得る。 処理された多様な表現に基づいて、調整モデルと学習者モデルを導入することで、タスクレベルのレイアウトにおいて知識更新(KU)と知識保存(KP)戦略を提案する。 KU戦略は、事前の調整モデルに基づく学習者モデルの適応学習能力を高め、KP戦略は、LReIDモデルの適応学習情報能力を確保しつつ、限定された古いタスクデータセットにおける表現レベルのアライメントとロジトレベルの監督によって操作される古い知識を保存する。 最先端手法と比較して,本手法は全体的,大規模,排他的データセットの性能を著しく向上させる。

Lifelong Person Re-Identification (LReID) aims to continuously learn from successive data streams, matching individuals across multiple cameras. The key challenge for LReID is how to effectively preserve old knowledge while incrementally learning new information, which is caused by task-level domain gaps and limited old task datasets. Existing methods based on CNN backbone are insufficient to explore the representation of each instance from different perspectives, limiting model performance on limited old task datasets and new task datasets. Unlike these methods, we propose a Diverse Representations Embedding (DRE) framework that first explores a pure transformer for LReID. The proposed DRE preserves old knowledge while adapting to new information based on instance-level and task-level layout. Concretely, an Adaptive Constraint Module (ACM) is proposed to implement integration and push away operations between multiple overlapping representations generated by transformer-based backbone, obtaining rich and discriminative representations for each instance to improve adaptive ability of LReID. Based on the processed diverse representations, we propose Knowledge Update (KU) and Knowledge Preservation (KP) strategies at the task-level layout by introducing the adjustment model and the learner model. KU strategy enhances the adaptive learning ability of learner models for new information under the adjustment model prior, and KP strategy preserves old knowledge operated by representation-level alignment and logit-level supervision in limited old task datasets while guaranteeing the adaptive learning information capacity of the LReID model. Compared to state-of-the-art methods, our method achieves significantly improved performance in holistic, large-scale, and occluded datasets.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# PKU-DyMVHumans:高忠実度ダイナミックヒューマンモデリングのためのマルチビュービデオベンチマーク

PKU-DyMVHumans: A Multi-View Video Benchmark for High-Fidelity Dynamic Human Modeling ( http://arxiv.org/abs/2403.16080v3 )

ライセンス: Link先を確認
Xiaoyun Zheng, Liwei Liao, Xufeng Li, Jianbo Jiao, Rongjie Wang, Feng Gao, Shiqi Wang, Ronggang Wang, (参考訳) ハイクオリティな人間の再構築とダイナミックシーンのフォトリアリスティックレンダリングは、コンピュータビジョンとグラフィックスの長年の問題である。 様々な捕獲システムや再構築アルゴリズムの開発に多大な努力を払っているにもかかわらず、近年の進歩は、ゆるい服や過度に複雑なポーズに苦慮している。 その理由のひとつは、高品質な人間のデータセットを取得することの難しさにある。 本稿では,高忠実度再構成と動的人間シナリオのレンダリングのための多機能な人間中心データセットであるPKU-DyMVHumansを提案する。 フレーム数は820万フレームで、56台以上の同期カメラによって様々なシナリオで撮影されている。 これらのシーケンスは、45のシナリオにまたがって32人の被験者で構成され、それぞれが高精細な外観とリアルな人間の動きを持つ。 ニューラルラジアンスフィールド(NeRF)ベースのシーン表現の最近の進歩に触発されて、我々は、これらの最先端のNeRFベースの実装とベンチマークをPKU-DyMVHumansデータセットで簡単に提供できるオフ・ザ・シェルフ・フレームワークを慎重に構築した。 微粒な前景/背景の分解、高品質な人間の再構築、ダイナミックシーンのフォトリアリスティックなノベルビュー合成など、様々な応用の道を切り開いている。 ベンチマークで大規模な研究が行われ、そのような高忠実度なダイナミックデータから生まれる新しい観察と課題が実証された。

High-quality human reconstruction and photo-realistic rendering of a dynamic scene is a long-standing problem in computer vision and graphics. Despite considerable efforts invested in developing various capture systems and reconstruction algorithms, recent advancements still struggle with loose or oversized clothing and overly complex poses. In part, this is due to the challenges of acquiring high-quality human datasets. To facilitate the development of these fields, in this paper, we present PKU-DyMVHumans, a versatile human-centric dataset for high-fidelity reconstruction and rendering of dynamic human scenarios from dense multi-view videos. It comprises 8.2 million frames captured by more than 56 synchronized cameras across diverse scenarios. These sequences comprise 32 human subjects across 45 different scenarios, each with a high-detailed appearance and realistic human motion. Inspired by recent advancements in neural radiance field (NeRF)-based scene representations, we carefully set up an off-the-shelf framework that is easy to provide those state-of-the-art NeRF-based implementations and benchmark on PKU-DyMVHumans dataset. It is paving the way for various applications like fine-grained foreground/background decomposition, high-quality human reconstruction and photo-realistic novel view synthesis of a dynamic scene. Extensive studies are performed on the benchmark, demonstrating new observations and challenges that emerge from using such high-fidelity dynamic data.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# 新たなグラフニューラルネットワークによる地震検出

Rumor Detection with a novel graph neural network approach ( http://arxiv.org/abs/2403.16206v3 )

ライセンス: Link先を確認
Tianrui Liu, Qi Cai, Changxin Xu, Bo Hong, Fanghao Ni, Yuxin Qiao, Tsungwei Yang, (参考訳) ソーシャルメディアの噂が広まれば、人々の日常生活に悪影響を及ぼし、パニックや恐怖、精神的な健康問題を引き起こしている。 噂をできるだけ早く消し去る方法はまだ難しい問題だ。 既存の研究は主に情報伝達構造を利用して噂を検知するが、ユーザ間の相関に注目する研究はほとんどない。 本稿では,ソーシャルメディア上でのうわさを検出するために,ユーザ相関と情報伝達の両表現を共同で学習する新しい検出モデルを提案する。 具体的には、グラフニューラルネットワークを利用して、ユーザとソースツイートの相関関係を記述する二部グラフと、ツリー構造による情報伝達の表現から、ユーザ相関の表現を学習する。 次に、これらの2つのモジュールから得られた表現を組み合わせて、噂を分類する。 悪意のあるユーザはデプロイ後に我々のモデルを覆すつもりなので、グラフ攻撃、コメント攻撃、共同攻撃という3つの敵攻撃のコストを分析するための欲張り攻撃スキームをさらに発展させます。 2つの公開データセットの評価結果は、提案したMODELが最先端の噂検出モデルより優れていることを示している。 また,本手法は早期のうわさ検出にも有効であることを示す。 さらに,提案手法は,既存手法と比較して,敵攻撃に対してより堅牢である。 重要なことは、攻撃者がユーザ相関パターンを覆すのに高いコストが必要であることを示し、うわさ検出のためにユーザ相関を考慮することが重要であることを示す。

The wide spread of rumors on social media has caused a negative impact on people's daily life, leading to potential panic, fear, and mental health problems for the public. How to debunk rumors as early as possible remains a challenging problem. Existing studies mainly leverage information propagation structure to detect rumors, while very few works focus on correlation among users that they may coordinate to spread rumors in order to gain large popularity. In this paper, we propose a new detection model, that jointly learns both the representations of user correlation and information propagation to detect rumors on social media. Specifically, we leverage graph neural networks to learn the representations of user correlation from a bipartite graph that describes the correlations between users and source tweets, and the representations of information propagation with a tree structure. Then we combine the learned representations from these two modules to classify the rumors. Since malicious users intend to subvert our model after deployment, we further develop a greedy attack scheme to analyze the cost of three adversarial attacks: graph attack, comment attack, and joint attack. Evaluation results on two public datasets illustrate that the proposed MODEL outperforms the state-of-the-art rumor detection models. We also demonstrate our method performs well for early rumor detection. Moreover, the proposed detection method is more robust to adversarial attacks compared to the best existing method. Importantly, we show that it requires a high cost for attackers to subvert user correlation pattern, demonstrating the importance of considering user correlation for rumor detection.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# ニュースレポーティングシナリオにおける画像キャプション

Image Captioning in news report scenario ( http://arxiv.org/abs/2403.16209v3 )

ライセンス: Link先を確認
Tianrui Liu, Qi Cai, Changxin Xu, Bo Hong, Jize Xiong, Yuxin Qiao, Tsungwei Yang, (参考訳) 画像キャプションは、特定の画像に対して関連するキャプションを生成し、コンピュータビジョン(CV)と自然言語処理(NLP)の交差点に自分自身を配置する。 この取り組みは、レコメンデーションシステム、ニュースメディア、ソーシャルメディアなどにおける広範囲の応用において、最重要事項である。 特にニュース報道の領域では、キャプションには、画像に写っている有名人の身元などの詳細な情報が含まれることが期待されている。 しかし、既存の作品の多くは、主に場面や行動を理解することに焦点を当てている。 本稿では,有名人の写真に特化された画像キャプションの領域を探求し,ニュース産業の実践強化の可能性について考察する。 この調査は、自動ニュースコンテンツ生成を強化し、より曖昧な情報発信を容易にすることを目的としている。 私たちの取り組みは、より直感的な画像キャプションフレームワークを通じて、ニュースレポートの物語を豊かにする、より広い視野を示している。

Image captioning strives to generate pertinent captions for specified images, situating itself at the crossroads of Computer Vision (CV) and Natural Language Processing (NLP). This endeavor is of paramount importance with far-reaching applications in recommendation systems, news outlets, social media, and beyond. Particularly within the realm of news reporting, captions are expected to encompass detailed information, such as the identities of celebrities captured in the images. However, much of the existing body of work primarily centers around understanding scenes and actions. In this paper, we explore the realm of image captioning specifically tailored for celebrity photographs, illustrating its broad potential for enhancing news industry practices. This exploration aims to augment automated news content generation, thereby facilitating a more nuanced dissemination of information. Our endeavor shows a broader horizon, enriching the narrative in news reporting through a more intuitive image captioning framework.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# SAMから効率的な画像復元モデルへのセマンティック前駆体蒸留

Distilling Semantic Priors from SAM to Efficient Image Restoration Models ( http://arxiv.org/abs/2403.16368v2 )

ライセンス: Link先を確認
Quan Zhang, Xiaoyu Liu, Wei Li, Hanting Chen, Junchao Liu, Jie Hu, Zhiwei Xiong, Chun Yuan, Yunhe Wang, (参考訳) 画像復元(IR)では、セグメンテーションモデルからセグメンテーションの事前情報を活用することが、性能向上のための一般的なアプローチである。 最近のセグメンテーション・アズ・モデル(SAM)は、IRタスクを強化するために先進的なセマンティック・プリエントを抽出する強力なツールとして登場した。 しかし、SAMの計算コストは、既存の小さなIRモデルと比較して、IRでは禁じられている。 セマンティック事前抽出のためのSAMの導入は、モデル推論効率をかなり損なう。 そこで本研究では,SAMのセマンティック知識を抽出し,推論プロセスに干渉することなく,IRモデルからの撤退を促進するための一般的なフレームワークを提案する。 具体的には, セマンティック先行蒸留法 (SPF) とセマンティック先行蒸留法 (SPD) で構成する。 SPFは、元のIRモデルによって予測される復元画像と、SAMによって予測される回復画像のセマンティックマスクの2つの種類の情報を融合する。 SPDは自己蒸留法を利用して、溶解したセマンティクスを蒸留し、元のIRモデルの性能を高める。 さらに,意味的特徴表現空間の整合性を確保するために,SPDのための意味的誘導関係(SGR)モジュールを設計する。 複数のIRモデルとタスクにまたがるフレームワークの有効性を実証する。

In image restoration (IR), leveraging semantic priors from segmentation models has been a common approach to improve performance. The recent segment anything model (SAM) has emerged as a powerful tool for extracting advanced semantic priors to enhance IR tasks. However, the computational cost of SAM is prohibitive for IR, compared to existing smaller IR models. The incorporation of SAM for extracting semantic priors considerably hampers the model inference efficiency. To address this issue, we propose a general framework to distill SAM's semantic knowledge to boost exiting IR models without interfering with their inference process. Specifically, our proposed framework consists of the semantic priors fusion (SPF) scheme and the semantic priors distillation (SPD) scheme. SPF fuses two kinds of information between the restored image predicted by the original IR model and the semantic mask predicted by SAM for the refined restored image. SPD leverages a self-distillation manner to distill the fused semantic priors to boost the performance of original IR models. Additionally, we design a semantic-guided relation (SGR) module for SPD, which ensures semantic feature representation space consistency to fully distill the priors. We demonstrate the effectiveness of our framework across multiple IR models and tasks, including deraining, deblurring, and denoising.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# SegICL: 医用画像における拡張セグメンテーションのためのユニバーサルインコンテクスト学習フレームワーク

SegICL: A Universal In-context Learning Framework for Enhanced Segmentation in Medical Imaging ( http://arxiv.org/abs/2403.16578v2 )

ライセンス: Link先を確認
Lingdong Shen, Fangxin Shang, Yehui Yang, Xiaoshuang Huang, Shiming Xiang, (参考訳) 文脈内学習を通じて新しいタスクに適応する医用画像セグメンテーションモデルは、エキサイティングな進歩である。 ユニバーサルセグメンテーションモデルは、医療画像の多様なモダリティをまたいで一般化することを目的としているが、その効果は、アウト・オブ・ディストリビューション(OOD)データモダリティやタスクに適用した場合に減少し、最適なパフォーマンスのためにモデルの複雑な微調整を必要とする。 この課題に対処するために、画像セグメンテーションにIn-Context Learning(ICL)を活用する新しいアプローチであるSegICLを紹介する。 既存の方法とは異なり、SegICLはテキスト誘導セグメンテーションを採用し、小さなイメージマスクペアでコンテキスト内学習を行う機能を備えており、OODタスク(OODモダリティとデータセットを含む)のスクラッチや微調整からモデルをトレーニングする必要がなくなる。 SegICLの大規模な実験的検証は,OODモダリティとタスクに対するプロンプトサンプル数とセグメンテーション性能の正の相関を示す。 これは、SegICLがコンテキスト情報に基づく新しいセグメンテーションタスクに効果的に対処していることを示している。 さらに、SegICLはOODおよび分散タスクのメインストリームモデルに匹敵するセグメンテーション性能を示す。 私たちのコードはまもなくリリースされるでしょう。

Medical image segmentation models adapting to new tasks in a training-free manner through in-context learning is an exciting advancement. Universal segmentation models aim to generalize across the diverse modality of medical images, yet their effectiveness often diminishes when applied to out-of-distribution (OOD) data modalities and tasks, requiring intricate fine-tuning of model for optimal performance. For addressing this challenge, we introduce SegICL, a novel approach leveraging In-Context Learning (ICL) for image segmentation. Unlike existing methods, SegICL has the capability to employ text-guided segmentation and conduct in-context learning with a small set of image-mask pairs, eliminating the need for training the model from scratch or fine-tuning for OOD tasks (including OOD modality and dataset). Extensive experimental validation of SegICL demonstrates a positive correlation between the number of prompt samples and segmentation performance on OOD modalities and tasks. This indicates that SegICL effectively address new segmentation tasks based on contextual information. Additionally, SegICL also exhibits comparable segmentation performance to mainstream models on OOD and in-distribution tasks. Our code will be released soon.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# 局所微分プライバシー、平均ベイズプライバシー、最大ベイズプライバシーの相互作用の解読

Deciphering the Interplay between Local Differential Privacy, Average Bayesian Privacy, and Maximum Bayesian Privacy ( http://arxiv.org/abs/2403.16591v3 )

ライセンス: Link先を確認
Xiaojin Zhang, Yulin Fei, Wei Chen, (参考訳) 機械学習の急速な進化は、ローカルディファレンシャルプライバシ(LDP)の概念を含む、プライバシに影響を及ぼす脅威によって、さまざまなプライバシ定義の出現につながった。 多くのドメインで広く受け入れられ、利用されてきたが、この従来のプライバシー測定手法は依然として一定の制限を課している。 本稿では,ベイジアン・プライバシと,そのバイジアン・プライバシ・トレードオフに関する新たな知見を公開して,LDPとベイジアン・プライバシの複雑な関係を掘り下げる。 攻撃戦略と防衛戦略の両方をカプセル化したフレームワークを導入し,その相互作用と有効性を強調した。 LDPと最大ベイズプライバシー(MBP)の関係が最初に明らかにされ、均一な事前分布の下では、$\xi$-LDPを満たすメカニズムが$\xi$-MBPを満足し、逆に$\xi$-MBPもまた2$\xi$-LDPを満足することを示した。 我々の次の理論的貢献は、Average Bayesian Privacy (ABP) と Maximum Bayesian Privacy (MBP) の間の厳密な定義と関係に固定され、方程式 $\epsilon_{p,a} \leq \frac{1}{\sqrt{2}}\sqrt{(\epsilon_{p,m} + \epsilon)\cdot(e^{\epsilon_{p,m} + \epsilon} - 1)} でカプセル化される。 これらの関係は、様々なメカニズムによって提供されるプライバシー保証の理解を強化する。 私たちの研究は、将来の経験的探索の基盤となるだけでなく、プライバシ保護アルゴリズムの設計を容易にし、信頼できる機械学習ソリューションの開発を促進することを約束します。

The swift evolution of machine learning has led to emergence of various definitions of privacy due to the threats it poses to privacy, including the concept of local differential privacy (LDP). Although widely embraced and utilized across numerous domains, this conventional approach to measure privacy still exhibits certain limitations, spanning from failure to prevent inferential disclosure to lack of consideration for the adversary's background knowledge. In this comprehensive study, we introduce Bayesian privacy and delve into the intricate relationship between LDP and its Bayesian counterparts, unveiling novel insights into utility-privacy trade-offs. We introduce a framework that encapsulates both attack and defense strategies, highlighting their interplay and effectiveness. The relationship between LDP and Maximum Bayesian Privacy (MBP) is first revealed, demonstrating that under uniform prior distribution, a mechanism satisfying $\xi$-LDP will satisfy $\xi$-MBP and conversely $\xi$-MBP also confers 2$\xi$-LDP. Our next theoretical contribution are anchored in the rigorous definitions and relationships between Average Bayesian Privacy (ABP) and Maximum Bayesian Privacy (MBP), encapsulated by equations $\epsilon_{p,a} \leq \frac{1}{\sqrt{2}}\sqrt{(\epsilon_{p,m} + \epsilon)\cdot(e^{\epsilon_{p,m} + \epsilon} - 1)}$. These relationships fortify our understanding of the privacy guarantees provided by various mechanisms. Our work not only lays the groundwork for future empirical exploration but also promises to facilitate the design of privacy-preserving algorithms, thereby fostering the development of trustworthy machine learning solutions.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# コンパイラフィードバックによる精密コード生成のためのプロジェクトレベルコードコンテキストの反復的リファインメント

Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback ( http://arxiv.org/abs/2403.16792v2 )

ライセンス: Link先を確認
Zhangqian Bi, Yao Wan, Zheng Wang, Hongyu Zhang, Batu Guan, Fangxin Lu, Zili Zhang, Yulei Sui, Xuanhua Shi, Hai Jin, (参考訳) 大規模言語モデル(LLM)は、コードの自動生成において顕著な進歩を示している。 しかし、LLMベースのコード生成を実際のソフトウェアプロジェクトに組み込むことは、生成されたコードがAPIの使用、クラス、データ構造、プロジェクト固有の情報の欠如を含む可能性があるため、課題となる。 プロジェクト固有のコンテキストの多くはLCMのプロンプトに適合しないので、モデルがプロジェクトレベルのコードコンテキストを探索できるようにする方法を見つけなければなりません。 そこで本研究では,ProCoderと呼ばれる新しいアプローチを提案し,コンパイラフィードバックによって導かれる,正確なコード生成のためのプロジェクトレベルのコードコンテキストを反復的に洗練する。 特にProCoderは、まずコンパイラ技術を活用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。 その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。 我々は ProCoder を GPT-3.5-Turbo と Code Llama (13B) の2つの代表的な LLM と統合し,Python コード生成に適用する。 実験の結果,ProCoderはプロジェクトコンテキストに依存したコード生成において,バニラLLMを80%以上改善し,既存の検索ベースコード生成ベースラインを一貫して上回っていることがわかった。

Large language models (LLMs) have shown remarkable progress in automated code generation. Yet, incorporating LLM-based code generation into real-life software projects poses challenges, as the generated code may contain errors in API usage, class, data structure, or missing project-specific information. As much of this project-specific context cannot fit into the prompts of LLMs, we must find ways to allow the model to explore the project-level code context. To this end, this paper puts forward a novel approach, termed ProCoder, which iteratively refines the project-level code context for precise code generation, guided by the compiler feedback. In particular, ProCoder first leverages compiler techniques to identify a mismatch between the generated code and the project's context. It then iteratively aligns and fixes the identified errors using information extracted from the code repository. We integrate ProCoder with two representative LLMs, i.e., GPT-3.5-Turbo and Code Llama (13B), and apply it to Python code generation. Experimental results show that ProCoder significantly improves the vanilla LLMs by over 80% in generating code dependent on project context, and consistently outperforms the existing retrieval-based code generation baselines.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# FLIGAN: GANを用いた不完全なデータによるフェデレーション学習の促進

FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN ( http://arxiv.org/abs/2403.16930v2 )

ライセンス: Link先を確認
Paul Joe Maliakel, Shashikant Ilager, Ivona Brandic, (参考訳) Federated Learning(FL)は、ネットワークデバイス(モバイルデバイス、IoTエッジノードなど)上のマシンラーニングモデルの分散トレーニングのための、プライバシ保護メカニズムを提供する。 これは、ネットワーク全体で実際のデータを共有せずにモデルを作成することによって、エッジでの人工知能(AI)を可能にする。 既存の研究は、通常、クライアントのシステム特性における非IIDデータの一般的な側面と不均一性に焦点を当てるが、それらはしばしばモデル開発に不十分なデータの問題を無視している。 本研究では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。 まず、GAN(Generative Adversarial Networks)を利用して、複雑なデータ分布を正確にキャプチャし、実世界のデータによく似た合成データを生成する。 次に、合成データを用いて、ノード間のデータセットの堅牢性と完全性を高める。 本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。 我々は,高品質な合成データセットの作成と効率的なFLトレーニングの容易化を目的として,クラスワイズサンプリングやノードグループ化などの手法を取り入れた。 実験の結果, FLIGANはモデル精度を大幅に向上し, 特にクラス不均衡の高いシナリオでは, 従来のFLベースラインよりもモデル精度が20%向上することがわかった。

Federated Learning (FL) provides a privacy-preserving mechanism for distributed training of machine learning models on networked devices (e.g., mobile devices, IoT edge nodes). It enables Artificial Intelligence (AI) at the edge by creating models without sharing actual data across the network. Existing research typically focuses on generic aspects of non-IID data and heterogeneity in client's system characteristics, but they often neglect the issue of insufficient data for model development, which can arise from uneven class label distribution and highly variable data volumes across edge nodes. In this work, we propose FLIGAN, a novel approach to address the issue of data incompleteness in FL. First, we leverage Generative Adversarial Networks (GANs) to adeptly capture complex data distributions and generate synthetic data that closely resemble real-world data. Then, we use synthetic data to enhance the robustness and completeness of datasets across nodes. Our methodology adheres to FL's privacy requirements by generating synthetic data in a federated manner without sharing the actual data in the process. We incorporate techniques such as classwise sampling and node grouping, designed to improve the federated GAN's performance, enabling the creation of high-quality synthetic datasets and facilitating efficient FL training. Empirical results from our experiments demonstrate that FLIGAN significantly improves model accuracy, especially in scenarios with high class imbalances, achieving up to a 20% increase in model accuracy over traditional FL baselines.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-02
# ニューラルネットワーク探索における進化と効率性 - エキスパート設計と自動最適化のギャップを埋める

Evolution and Efficiency in Neural Architecture Search: Bridging the Gap Between Expert Design and Automated Optimization ( http://arxiv.org/abs/2403.17012v2 )

ライセンス: Link先を確認
Fanfei Meng, Chen-Ao Wang, Lele Zhang, (参考訳) この論文は、手動設計から自動化された計算駆動アプローチへの進化を強調した、ニューラルネットワーク探索(NAS)の包括的な概要を提供する。 NASの開始と成長をカバーし、医療画像や自然言語処理など、さまざまな領域での応用を強調している。 この文書では、専門家駆動設計からアルゴリズム駆動プロセスへの移行について詳述し、強化学習や進化的アルゴリズムといった最初の方法論を探求している。 また、計算要求の課題や、微分可能なアーキテクチャ探索やハードウェア対応NASといった効率的なNAS方法論の出現についても論じている。 この論文は、コンピュータビジョン、NLPなどにおけるNASの応用をさらに詳しく説明し、その汎用性と、さまざまなタスクにわたってニューラルネットワークアーキテクチャを最適化する可能性を示している。 計算効率や新興AIドメインとの統合を含む今後の方向性や課題に対処し、NASのダイナミックな性質と、より高度で効率的なアーキテクチャ探索方法への継続的な進化を示す。

The paper provides a comprehensive overview of Neural Architecture Search (NAS), emphasizing its evolution from manual design to automated, computationally-driven approaches. It covers the inception and growth of NAS, highlighting its application across various domains, including medical imaging and natural language processing. The document details the shift from expert-driven design to algorithm-driven processes, exploring initial methodologies like reinforcement learning and evolutionary algorithms. It also discusses the challenges of computational demands and the emergence of efficient NAS methodologies, such as Differentiable Architecture Search and hardware-aware NAS. The paper further elaborates on NAS's application in computer vision, NLP, and beyond, demonstrating its versatility and potential for optimizing neural network architectures across different tasks. Future directions and challenges, including computational efficiency and the integration with emerging AI domains, are addressed, showcasing NAS's dynamic nature and its continued evolution towards more sophisticated and efficient architecture search methods.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# 地域方言によるベンガル文字のIPAへの翻訳

Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens ( http://arxiv.org/abs/2403.17407v3 )

ライセンス: Link先を確認
S M Jishanul Islam, Sadia Ahmmed, Sahid Hossain Mustakim, (参考訳) 国際音声アルファベット (IPA) へのベンガル文字の正確な転写は、言語の複雑な音韻論と文脈に依存した音変化のために難しい課題である。 この課題は、これらの方言の標準化された綴り規則が適用できないこと、これらの地域で人気がある地域や外国語の存在、様々な地域における音韻学的多様性により、ベンガル方言にとってさらに大きな意味を持つ。 本稿では,バングラデシュの6つの地区にまたがる新しいデータセットにDGT手法を導入することにより,このシーケンス・ツー・シーケンス問題へのアプローチを提案する。 鍵となる考え方は、IPA転写を生成する前に、入力されたテキストの地域方言または「区切り」に関する明示的な情報をモデルに提供することである。 これは、地区トークンを入力シーケンスに前置し、各地区に関連付けられた独特の音韻パターンを理解するためのモデルを効果的に導くことによって達成される。 DGTテクニックは、この新しいデータセットに基づいて、いくつかのトランスフォーマーベースのモデルを微調整する。 ByT5モデルは,mT5,BanglaT5,UmT5などの単語ベースモデルよりも優れた性能を示した。 これは、ByT5がテストセット内の語彙外単語を高い割合で処理できる能力に起因している。 提案手法は,多様な音韻変化を持つ言語に対して,地域方言情報をユビキタスな自然言語処理システムに組み込むことの重要性を強調した。 Bhashamulは、ベンガル語の方言と、IPAの転写に関する問題を、https://www.kaggle.com/competitions/regipa/で解決することを目的としている。 トレーニングと推論のノートブックは、コンペティションリンクから入手できる。

Accurate transcription of Bengali text to the International Phonetic Alphabet (IPA) is a challenging task due to the complex phonology of the language and context-dependent sound changes. This challenge is even more for regional Bengali dialects due to unavailability of standardized spelling conventions for these dialects, presence of local and foreign words popular in those regions and phonological diversity across different regions. This paper presents an approach to this sequence-to-sequence problem by introducing the District Guided Tokens (DGT) technique on a new dataset spanning six districts of Bangladesh. The key idea is to provide the model with explicit information about the regional dialect or "district" of the input text before generating the IPA transcription. This is achieved by prepending a district token to the input sequence, effectively guiding the model to understand the unique phonetic patterns associated with each district. The DGT technique is applied to fine-tune several transformer-based models, on this new dataset. Experimental results demonstrate the effectiveness of DGT, with the ByT5 model achieving superior performance over word-based models like mT5, BanglaT5, and umT5. This is attributed to ByT5's ability to handle a high percentage of out-of-vocabulary words in the test set. The proposed approach highlights the importance of incorporating regional dialect information into ubiquitous natural language processing systems for languages with diverse phonological variations. The following work was a result of the "Bhashamul" challenge, which is dedicated to solving the problem of Bengali text with regional dialects to IPA transcription https://www.kaggle.com/competitions/regipa/. The training and inference notebooks are available through the competition link.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# MapGuide: 脳活動から継続的言語を再構築するためのシンプルで効果的な方法

MapGuide: A Simple yet Effective Method to Reconstruct Continuous Language from Brain Activities ( http://arxiv.org/abs/2403.17516v2 )

ライセンス: Link先を確認
Xinpei Zhao, Jingyuan Sun, Shaonan Wang, Jing Ye, Xiaohan Zhang, Chengqing Zong, (参考訳) 脳の活動から連続した言語を復号することは、恐ろしいが有望な研究分野である。 特に、言語障害のある人が脳信号を通してコミュニケーションするのを助けることが重要である。 このフィールドは、脳信号をテキストにマッピングする複雑なタスクに対処する。 最初は、テキストから脳活動をエンコードし、予測された脳反応と整合して、テキスト生成をガイドすることから始まりました。 対照的に、本研究では、脳活動からマッピングされた予測されたテキスト埋め込みと直接比較することで、テキスト再構成をガイドする簡易かつ効果的な方法を提案する。 総合実験の結果,本手法は最先端モデルよりも優れており,BLEUとMETEORのスコアに対して平均77%,54%の改善が見られた。 我々はさらに、詳細なアブレーション研究とケース分析を通じて提案したモジュールを検証し、より正確に脳活動をテキスト埋め込みにマッピングするほど、テキスト再構成結果がより良くなるという、重要な相関関係を強調した。 このような洞察は、将来の作業のために脳の活動から言語を再構築する作業を単純化し、脳からテキストへの埋め込みマッピング技術を改善することの重要性を強調します。

Decoding continuous language from brain activity is a formidable yet promising field of research. It is particularly significant for aiding people with speech disabilities to communicate through brain signals. This field addresses the complex task of mapping brain signals to text. The previous best attempt reverse-engineered this process in an indirect way: it began by learning to encode brain activity from text and then guided text generation by aligning with predicted brain responses. In contrast, we propose a simple yet effective method that guides text reconstruction by directly comparing them with the predicted text embeddings mapped from brain activities. Comprehensive experiments reveal that our method significantly outperforms the current state-of-the-art model, showing average improvements of 77% and 54% on BLEU and METEOR scores. We further validate the proposed modules through detailed ablation studies and case analyses and highlight a critical correlation: the more precisely we map brain activities to text embeddings, the better the text reconstruction results. Such insight can simplify the task of reconstructing language from brain activities for future work, emphasizing the importance of improving brain-to-text-embedding mapping techniques.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# PeersimGym:強化学習によるタスクオフロード問題の解決環境

PeersimGym: An Environment for Solving the Task Offloading Problem with Reinforcement Learning ( http://arxiv.org/abs/2403.17637v2 )

ライセンス: Link先を確認
Frederico Metelo, Stevo Racković, Pedro Ákos Costa, Cláudia Soares, (参考訳) タスクオフロードは、IoT(Internet of Things)などのネットワーク内のデバイス間での計算負荷の分散に不可欠である。 従来の最適化はスケーラビリティに欠けており、ヒューリスティックなアプローチでは最適な結果が得られていないが、Reinforcement Learning (RL)は反復的な相互作用を通じて最適なオフロード戦略の学習を可能にすることで、有望な方法を提供する。 しかし、RLのヒンジは、リッチデータセットやカスタマイズされたリアルなトレーニング環境へのアクセスに有効である。 そこで本稿では,タスクオフロード戦略の開発と最適化に適した,オープンソースのカスタマイズ可能なシミュレーション環境であるPeersimGymを紹介する。 PeersimGymは、幅広いネットワークトポロジと計算制約をサポートし、単体とマルチエージェントの両方のセットアップでRLエージェントのデプロイのための \textit{PettingZoo} ベースのインターフェイスを統合する。 さらに, 深層強化学習エージェントを用いた実験により, 分散コンピューティング環境におけるオフロード戦略を大幅に強化するRLベースのアプローチの可能性を示す。 したがって、PeersimGymは理論的RLモデルとその実践的応用のギャップを埋め、効率的なタスクオフロード手法の進歩の道を開く。

Task offloading, crucial for balancing computational loads across devices in networks such as the Internet of Things, poses significant optimization challenges, including minimizing latency and energy usage under strict communication and storage constraints. While traditional optimization falls short in scalability; and heuristic approaches lack in achieving optimal outcomes, Reinforcement Learning (RL) offers a promising avenue by enabling the learning of optimal offloading strategies through iterative interactions. However, the efficacy of RL hinges on access to rich datasets and custom-tailored, realistic training environments. To address this, we introduce PeersimGym, an open-source, customizable simulation environment tailored for developing and optimizing task offloading strategies within computational networks. PeersimGym supports a wide range of network topologies and computational constraints and integrates a \textit{PettingZoo}-based interface for RL agent deployment in both solo and multi-agent setups. Furthermore, we demonstrate the utility of the environment through experiments with Deep Reinforcement Learning agents, showcasing the potential of RL-based approaches to significantly enhance offloading strategies in distributed computing settings. PeersimGym thus bridges the gap between theoretical RL models and their practical applications, paving the way for advancements in efficient task offloading methodologies.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# CVPR 2023 1st foundation model Challenge-Track2の解決

The Solution for the CVPR 2023 1st foundation model challenge-Track2 ( http://arxiv.org/abs/2403.17702v2 )

ライセンス: Link先を確認
Haonan Xu, Yurui Huang, Sishun Pan, Zhihao Guan, Yi Xu, Yang Yang, (参考訳) 本稿では,クロスモーダル交通検索のためのソリューションを提案する。 交通画像のクロスドメイン問題により、簡単な戦略により、歩行者検索と車両検索の2つのサブタスクに分割する。 歩行者検索タスクでは、IRRAをベースモデルとし、属性ラベルによる知識のマイニングのために属性分類を特に設計する。 さらに重要なことは、包含関係マッチングの戦略を用いて、包含関係を持つ画像テキスト対が特徴空間に類似した表現を持つようにすることである。 車両検索タスクでは、BLIPをベースモデルとして使用する。 車両の色属性の整合は困難であるため,色データ拡張のための画像に色パッチブロックを追加する属性ベースの物体検出技術を導入する。 これは強力な事前情報として機能し、モデルが画像とテキストのアライメントを実行するのに役立つ。 同時に、ラベル付き属性を画像テキストアライメント損失に組み込んで、微粒なアライメントを学習し、類似した画像やテキストが誤って分離されるのを防ぐ。 最終B板試験では70.9点, 最終B板試験では1位であった。

In this paper, we propose a solution for cross-modal transportation retrieval. Due to the cross-domain problem of traffic images, we divide the problem into two sub-tasks of pedestrian retrieval and vehicle retrieval through a simple strategy. In pedestrian retrieval tasks, we use IRRA as the base model and specifically design an Attribute Classification to mine the knowledge implied by attribute labels. More importantly, We use the strategy of Inclusion Relation Matching to make the image-text pairs with inclusion relation have similar representation in the feature space. For the vehicle retrieval task, we use BLIP as the base model. Since aligning the color attributes of vehicles is challenging, we introduce attribute-based object detection techniques to add color patch blocks to vehicle images for color data augmentation. This serves as strong prior information, helping the model perform the image-text alignment. At the same time, we incorporate labeled attributes into the image-text alignment loss to learn fine-grained alignment and prevent similar images and texts from being incorrectly separated. Our approach ranked first in the final B-board test with a score of 70.9.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# 高信頼ミス分類の最小化を目的とした合成テキストデータ源としてのLCMの探索

Exploring LLMs as a Source of Targeted Synthetic Textual Data to Minimize High Confidence Misclassifications ( http://arxiv.org/abs/2403.17860v2 )

ライセンス: Link先を確認
Philip Lippmann, Matthijs T. J. Spaan, Jie Yang, (参考訳) 予測性能に最適化された自然言語処理(NLP)モデルは、しばしば高い信頼性のエラーを発生し、敵対的およびアウト・オブ・ディストリビューションデータに対する脆弱性に悩まされる。 既存の作業は主に、人間または自動化アプローチを使用したこのようなエラーの軽減に重点を置いている。 本研究では,データ拡張のための大規模言語モデル (LLM) の利用を,分類タスク中に高い信頼度で誤った予測を行うNLPモデルの問題に対する潜在的な解決策として検討する。 我々は,LLMが生成した合成データと同一の手順で得られた人的データの有効性を比較した。 緩和のために、人間またはLLMは、高い信頼性の誤分類の自然言語特性を提供し、合成データを生成し、トレーニングセットを拡張するのに使用される。 我々は,3つの分類課題に対するアプローチを広範囲に評価し,その精度を維持しつつ,モデルに存在する高い信頼性の誤分類数を減らし,その効果を実証する。 さらに,人間とLLMのコストギャップは,LLMがよりスケーラブルでありながら人間のような性能を達成するため,桁違いに大きいことが判明した。

Natural Language Processing (NLP) models optimized for predictive performance often make high confidence errors and suffer from vulnerability to adversarial and out-of-distribution data. Existing work has mainly focused on mitigation of such errors using either humans or an automated approach. In this study, we explore the usage of large language models (LLMs) for data augmentation as a potential solution to the issue of NLP models making wrong predictions with high confidence during classification tasks. We compare the effectiveness of synthetic data generated by LLMs with that of human data obtained via the same procedure. For mitigation, humans or LLMs provide natural language characterizations of high confidence misclassifications to generate synthetic data, which are then used to extend the training set. We conduct an extensive evaluation of our approach on three classification tasks and demonstrate its effectiveness in reducing the number of high confidence misclassifications present in the model, all while maintaining the same level of accuracy. Moreover, we find that the cost gap between humans and LLMs surpasses an order of magnitude, as LLMs attain human-like performance while being more scalable.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# 効率的なマルチタスク地球観測モデルのためのニューラル埋め込み圧縮

Neural Embedding Compression For Efficient Multi-Task Earth Observation Modelling ( http://arxiv.org/abs/2403.17886v2 )

ライセンス: Link先を確認
Carlos Gomes, Thomas Brunschwiler, (参考訳) 地球観測(EO)における大規模データのリポジトリが成長するにつれて、モデルトレーニングと推論のための転送と保存コストが増大し、重要なリソースが消費される。 本稿では,生データではなく,データコンシューマへの圧縮埋め込みの転送に基づくNeural Embedding Compression(NEC)を提案する。 我々は、ニューラルネットワークによる基礎モデル(FM)を適用し、圧縮率と埋め込みユーティリティのトレードオフをナビゲートしながらマルチタスクの埋め込みを生成する。 FMパラメータのごく一部(10%)を短いトレーニング期間(事前トレーニングのイテレーションの1%)に更新します。 シーン分類とセマンティックセグメンテーションという2つのEOタスクにおけるNECの評価を行った。 従来の圧縮を生データに適用した場合と比較すると、NECも同様の精度で75%から90%のデータを削減できる。 99.7%の圧縮でも、シーン分類タスクでパフォーマンスは5%低下した。 全体として、NECはマルチタスクEOモデリングのためのデータ効率は高いがパフォーマンスのアプローチである。

As repositories of large scale data in earth observation (EO) have grown, so have transfer and storage costs for model training and inference, expending significant resources. We introduce Neural Embedding Compression (NEC), based on the transfer of compressed embeddings to data consumers instead of raw data. We adapt foundation models (FM) through learned neural compression to generate multi-task embeddings while navigating the tradeoff between compression rate and embedding utility. We update only a small fraction of the FM parameters (10%) for a short training period (1% of the iterations of pre-training). We evaluate NEC on two EO tasks: scene classification and semantic segmentation. Compared with applying traditional compression to the raw data, NEC achieves similar accuracy with a 75% to 90% reduction in data. Even at 99.7% compression, performance drops by only 5% on the scene classification task. Overall, NEC is a data-efficient yet performant approach for multi-task EO modelling.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# 量子強化機械学習によるクレディ・スコーリングシステム

Empowering Credit Scoring Systems with Quantum-Enhanced Machine Learning ( http://arxiv.org/abs/2404.00015v2 )

ライセンス: Link先を確認
Javier Mancilla, André Sequeira, Iraitz Montalbán, Tomas Tagliani, Francisco Llaneza, Claudio Beiza, (参考訳) 量子カーネルは、量子機械学習にアーリーステージの有用性を提供するために計画されている。 しかし、高度に洗練された古典モデルは解釈可能性を失うことなく、特に膨大なデータセットを活用できなければ、超え難い。 それでも、古典的なモデルはデータが不足して歪んでしまえば苦労する。 量子特徴空間は、このような困難なシナリオや最も重要なのは、拡張された一般化機能であっても予測されるデータ特徴とターゲットクラスの間のより良いリンクを見つけるために投影される。 本研究では,SQS(Systemic Quantum Score)と呼ばれる新しい手法を提案し,金融セクターの製品グレードユースケースにおける純粋に古典的なモデルに対する潜在的な優位性を示す予備的な結果を提示する。 SQSは、特定の研究で、少ないデータポイントからパターンを抽出する能力が向上し、XGBoostのようなデータハングリーアルゴリズムの性能が向上し、FinTechやNeobankのような競争市場において有利になることを示した。

Quantum Kernels are projected to provide early-stage usefulness for quantum machine learning. However, highly sophisticated classical models are hard to surpass without losing interpretability, particularly when vast datasets can be exploited. Nonetheless, classical models struggle once data is scarce and skewed. Quantum feature spaces are projected to find better links between data features and the target class to be predicted even in such challenging scenarios and most importantly, enhanced generalization capabilities. In this work, we propose a novel approach called Systemic Quantum Score (SQS) and provide preliminary results indicating potential advantage over purely classical models in a production grade use case for the Finance sector. SQS shows in our specific study an increased capacity to extract patterns out of fewer data points as well as improved performance over data-hungry algorithms such as XGBoost, providing advantage in a competitive market as it is the FinTech and Neobank regime.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# インクと個性: LLMの時代における個人化された物語づくり

Ink and Individuality: Crafting a Personalised Narrative in the Age of LLMs ( http://arxiv.org/abs/2404.00026v2 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Raima Islam, Mst Rafia Islam, (参考訳) 個人性とパーソナライゼーションは、個々の作家をユニークにし、その言葉に影響を与えて、読者を効果的にエンゲージし、真偽を伝えていく特徴である。 しかし、LLMベースの筆記アシスタントへの依存度が高まると、創造性と個性は時とともに悪化する。 この傾向が創造性や独特性に悪影響を及ぼすのを、私たちはしばしば見落としています。 本研究は、様々な視点や概念を探求するための簡単な調査と、その地域の過去の研究と合わせて人々の視点を理解しようとする試みによって、これらの懸念を調査するものである。 これらの課題に対処することは、人間とコンピュータのインタラクションシステムを改善し、パーソナライズとパーソナライズのためのアシスタントを書くために不可欠である。

Individuality and personalization comprise the distinctive characteristics that make each writer unique and influence their words in order to effectively engage readers while conveying authenticity. However, our growing reliance on LLM-based writing assistants risks compromising our creativity and individuality over time. We often overlook the negative impacts of this trend on our creativity and uniqueness, despite the possible consequences. This study investigates these concerns by performing a brief survey to explore different perspectives and concepts, as well as trying to understand people's viewpoints, in conjunction with past studies in the area. Addressing these issues is essential for improving human-computer interaction systems and enhancing writing assistants for personalization and individuality.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# LLMs as writing assistants: Exploring Perspectives on Sense of Ownership and Reasoning

LLMs as Writing Assistants: Exploring Perspectives on Sense of Ownership and Reasoning ( http://arxiv.org/abs/2404.00027v2 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Mst Rafia Islam, Raima Islam, (参考訳) 執筆におけるオーナシップの感覚は、思考、時間、貢献の投資を制限し、アウトプットへのアタッチメントにつながります。 しかし、文章アシスタントを使うことは、いくつかのコンテンツが直接の創造ではないため、精神的なジレンマをもたらす。 例えば、すべてのタスクが同等であっても、創造的なタスクでは、LLM(Large Language Models)を信用する傾向があります。 加えて、私たちはLLM生成コンテンツの完全な所有権を主張しないかもしれないが、著者権は自由に主張する。 筆者らは,これらの問題を調査し,その基礎となる認知過程を理解して,筆記支援システムにおける人間とコンピュータの相互作用のより深い知識を得るための簡単な調査を行っている。

Sense of ownership in writing confines our investment of thoughts, time, and contribution, leading to attachment to the output. However, using writing assistants introduces a mental dilemma, as some content isn't directly our creation. For instance, we tend to credit Large Language Models (LLMs) more in creative tasks, even though all tasks are equal for them. Additionally, while we may not claim complete ownership of LLM-generated content, we freely claim authorship. We conduct a short survey to examine these issues and understand underlying cognitive processes in order to gain a better knowledge of human-computer interaction in writing and improve writing aid systems.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-02
# GDA:ロバストテスト時間適応のための一般化拡散

GDA: Generalized Diffusion for Robust Test-time Adaptation ( http://arxiv.org/abs/2404.00095v2 )

ライセンス: Link先を確認
Yun-Yun Tsai, Fu-Chen Chen, Albert Y. C. Chen, Junfeng Yang, Che-Chun Su, Min Sun, Cheng-Hao Kuo, (参考訳) 機械学習モデルは、予想外の分布シフトを持つOOD(out-of-distribution)サンプルに遭遇する場合、一般化に苦労する。 近年のビジョンタスクにおいて、拡散モデルを用いたテスト時間適応は、モデルの重みを変更することなく、モデルの領域と整合する新しいサンプルを生成することにより、OODサンプルの最先端の精度向上を達成できることが示されている。 残念なことに、これらの研究は主に画素レベルの腐敗に焦点を当てており、OODタイプに適応する一般化が欠如している。 我々は,多様なOODタイプに対して堅牢な新しい拡散型テスト時間適応法である一般化拡散適応(GDA)を導入する。 具体的には、GDAは、逆サンプリング過程におけるスタイルとコンテンツ保存損失と合わせて、モデルから導出される限界エントロピー損失を適用して拡散を反復的に導く。 言い換えれば、GDAはサンプルのセマンティックな情報とともにモデルの出力の振る舞いを考慮し、生成プロセス中の下流タスクのあいまいさを軽減することができる。 様々な人気のあるモデルアーキテクチャとOODベンチマークによる評価は、GDAが拡散駆動適応に関する先行研究を一貫して上回っていることを示している。 特に、ImageNet-Cで4.4\%から5.02\%、Rendition、Sketch、Stylizedベンチマークで2.5\%から7.4\%まで、最も高い分類精度の向上を実現している。 このパフォーマンスは、幅広いOODベンチマークへのGDAの一般化を強調している。

Machine learning models struggle with generalization when encountering out-of-distribution (OOD) samples with unexpected distribution shifts. For vision tasks, recent studies have shown that test-time adaptation employing diffusion models can achieve state-of-the-art accuracy improvements on OOD samples by generating new samples that align with the model's domain without the need to modify the model's weights. Unfortunately, those studies have primarily focused on pixel-level corruptions, thereby lacking the generalization to adapt to a broader range of OOD types. We introduce Generalized Diffusion Adaptation (GDA), a novel diffusion-based test-time adaptation method robust against diverse OOD types. Specifically, GDA iteratively guides the diffusion by applying a marginal entropy loss derived from the model, in conjunction with style and content preservation losses during the reverse sampling process. In other words, GDA considers the model's output behavior with the semantic information of the samples as a whole, which can reduce ambiguity in downstream tasks during the generation process. Evaluation across various popular model architectures and OOD benchmarks shows that GDA consistently outperforms prior work on diffusion-driven adaptation. Notably, it achieves the highest classification accuracy improvements, ranging from 4.4\% to 5.02\% on ImageNet-C and 2.5\% to 7.4\% on Rendition, Sketch, and Stylized benchmarks. This performance highlights GDA's generalization to a broader range of OOD benchmarks.
翻訳日:2024-04-04 07:17:12 公開日:2024-04-02
# InfLoRA:連続学習のための干渉のない低ランク適応

InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning ( http://arxiv.org/abs/2404.00228v2 )

ライセンス: Link先を確認
Yan-Shuo Liang, Wu-Jun Li, (参考訳) 連続学習では、複数のタスクを逐次学習する必要がある。 継続的な学習では、モデルは古いタスク(安定性)でパフォーマンスを維持する能力と、新しいタスクに継続的に適応する能力(塑性)を持つべきである。 近年,パラメータ効率のよい微調整 (PEFT) は,学習済みのモデルを凍結し,下流のタスクに適応するために少数の学習可能なパラメータを注入することで,連続学習において人気が高まっている。 PEFTをベースとした既存の連続学習手法は,PEFTをベースとしないものよりも優れた性能を示したが,そのほとんどが従来のタスクに対する新たなタスクの干渉を排除する方法を考えておらず,モデルが安定性と可塑性のトレードオフを適切に行うことを妨げている。 本研究では,干渉のない低ランク適応(InfLoRA)と呼ばれるPEFT手法を提案する。 InfLoRAは、トレーニング済みの重みを再パラメータ化するために少数のパラメータを注入し、これらのインジェクションされたパラメータを微調整することは、サブスペース内でトレーニング済みの重みを微調整することと同値であることを示す。 さらに、InfLoRAはこのサブスペースを設計し、従来のタスクに対する新しいタスクの干渉を排除し、安定性と可塑性のトレードオフを良好にする。 実験の結果、InfLoRAは複数のデータセット上で既存の最先端の継続的学習方法よりも優れていた。

Continual learning requires the model to learn multiple tasks sequentially. In continual learning, the model should possess the ability to maintain its performance on old tasks (stability) and the ability to adapt to new tasks continuously (plasticity). Recently, parameter-efficient fine-tuning (PEFT), which involves freezing a pre-trained model and injecting a small number of learnable parameters to adapt to downstream tasks, has gained increasing popularity in continual learning. Although existing continual learning methods based on PEFT have demonstrated superior performance compared to those not based on PEFT, most of them do not consider how to eliminate the interference of the new task on the old tasks, which inhibits the model from making a good trade-off between stability and plasticity. In this work, we propose a new PEFT method, called interference-free low-rank adaptation (InfLoRA), for continual learning. InfLoRA injects a small number of parameters to reparameterize the pre-trained weights and shows that fine-tuning these injected parameters is equivalent to fine-tuning the pre-trained weights within a subspace. Furthermore, InfLoRA designs this subspace to eliminate the interference of the new task on the old tasks, making a good trade-off between stability and plasticity. Experimental results show that InfLoRA outperforms existing state-of-the-art continual learning methods on multiple datasets.
翻訳日:2024-04-04 06:36:22 公開日:2024-04-02
# HOI-M3: コンテキスト環境における複数の人間と物体の相互作用

HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment ( http://arxiv.org/abs/2404.00299v2 )

ライセンス: Link先を確認
Juze Zhang, Jingyan Zhang, Zining Song, Zhanhe Shi, Chengfeng Zhao, Ye Shi, Jingyi Yu, Lan Xu, Jingya Wang, (参考訳) 人間は自然に他者と周囲の複数の物体と相互作用し、様々な社会活動に従事している。 しかし、人間と物体の相互作用をモデル化する最近の進歩は、基本的なデータ不足のため、主に孤立した個人や物体を知覚することに焦点を当てている。 本稿では,複数のhumanと複数オブジェクトの相互作用をモデル化する新しい大規模データセットであるHOI-M3を紹介する。 特に、高密度のRGBとオブジェクトマウントIMU入力から、人間とオブジェクトの両方の正確な3D追跡を提供し、199のシーケンスと181Mの多種多様な人間とオブジェクトを、リッチな活動下でカバーしている。 ユニークなHOI-M3データセットでは、モノクロキャプチャーと非構造化された複数オブジェクトの相互作用の生成という、強力なベースラインを持つ2つの新しいデータ駆動タスクを導入する。 大規模な実験により、我々のデータセットは困難であり、複数の人間と物体の相互作用と行動分析に関するさらなる研究に値することが示されている。 私たちのHOI-M3データセット、対応するコード、事前訓練されたモデルは、今後の研究のためにコミュニティに配布されます。

Humans naturally interact with both others and the surrounding multiple objects, engaging in various social activities. However, recent advances in modeling human-object interactions mostly focus on perceiving isolated individuals and objects, due to fundamental data scarcity. In this paper, we introduce HOI-M3, a novel large-scale dataset for modeling the interactions of Multiple huMans and Multiple objects. Notably, it provides accurate 3D tracking for both humans and objects from dense RGB and object-mounted IMU inputs, covering 199 sequences and 181M frames of diverse humans and objects under rich activities. With the unique HOI-M3 dataset, we introduce two novel data-driven tasks with companion strong baselines: monocular capture and unstructured generation of multiple human-object interactions. Extensive experiments demonstrate that our dataset is challenging and worthy of further research about multiple human-object interactions and behavior analysis. Our HOI-M3 dataset, corresponding codes, and pre-trained models will be disseminated to the community for future research.
翻訳日:2024-04-04 04:30:18 公開日:2024-04-02
# 基礎世界モデルを用いた自律ロボットのゼロショット安全予測

Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models ( http://arxiv.org/abs/2404.00462v2 )

ライセンス: Link先を確認
Zhenjiang Mao, Siqi Dai, Yuang Geng, Ivan Ruchkin, (参考訳) 世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。 しかし、既存の世界モデルは、アクションに反応して観測がどのように変化するかの統計的学習のみに依存しており、サロゲート力学の正確さの正確な定量化が欠如しており、安全クリティカルなシステムにおいて大きな課題となっている。 この課題に対処するために,観測結果を意味的かつ因果的に潜伏した表現に埋め込む基礎世界モデルを提案する。 これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。 2つの一般的なベンチマークでは、この新モデルは安全予測タスクにおいて標準的な世界モデルよりも優れており、データを使用しないにもかかわらず教師付き学習に匹敵する性能を有する。 我々は、観測範囲の誤差を集約するのではなく、推定状態を比較することにより、より専門的でシステム関連度の高い測定値を用いて、その性能を評価する。

A world model creates a surrogate world to train a controller and predict safety violations by learning the internal dynamic model of systems. However, the existing world models rely solely on statistical learning of how observations change in response to actions, lacking precise quantification of how accurate the surrogate dynamics are, which poses a significant challenge in safety-critical systems. To address this challenge, we propose foundation world models that embed observations into meaningful and causally latent representations. This enables the surrogate dynamics to directly predict causal future states by leveraging a training-free large language model. In two common benchmarks, this novel model outperforms standard world models in the safety prediction task and has a performance comparable to supervised learning despite not using any data. We evaluate its performance with a more specialized and system-relevant metric by comparing estimated states instead of aggregating observation-wide error.
翻訳日:2024-04-04 03:40:06 公開日:2024-04-02
# MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair extract in Conversations with Multimodal Language Models (英語)

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models ( http://arxiv.org/abs/2404.00511v2 )

ライセンス: Link先を確認
Zebang Cheng, Fuqiang Niu, Yuxiang Lin, Zhi-Qi Cheng, Bowen Zhang, Xiaojiang Peng, (参考訳) 本稿では,SemEval 2024 Task 3 の Subtask 2 に対して,会話におけるマルチモーダル感情の原因分析について提案する。 特殊な感情エンコーダを用いたテキスト,音声,視覚的モダリティを統合した,新しいマルチモーダル感情認識・マルチモーダル感情原因抽出(MER-MCE)フレームワークを提案する。 当社のアプローチは、感情理解の強化と因果推論のために、モダリティ固有の機能を活用することで、トップパフォーマンスチームとは分離します。 実験の結果,F1得点は0.3435で,第1チームでは0.0339,第2チームでは0.0025であった。 プロジェクト:https://github.com/MIPS-COLT/MER-MCE.git

This paper presents our winning submission to Subtask 2 of SemEval 2024 Task 3 on multimodal emotion cause analysis in conversations. We propose a novel Multimodal Emotion Recognition and Multimodal Emotion Cause Extraction (MER-MCE) framework that integrates text, audio, and visual modalities using specialized emotion encoders. Our approach sets itself apart from top-performing teams by leveraging modality-specific features for enhanced emotion understanding and causality inference. Experimental evaluation demonstrates the advantages of our multimodal approach, with our submission achieving a competitive weighted F1 score of 0.3435, ranking third with a margin of only 0.0339 behind the 1st team and 0.0025 behind the 2nd team. Project: https://github.com/MIPS-COLT/MER-MCE.git
翻訳日:2024-04-04 03:20:34 公開日:2024-04-02
# CHAIN:リプシッツ連続性によるデータ効率GANの一般化の促進

CHAIN: Enhancing Generalization in Data-Efficient GANs via lipsCHitz continuity constrAIned Normalization ( http://arxiv.org/abs/2404.00521v2 )

ライセンス: Link先を確認
Yao Ni, Piotr Koniusz, (参考訳) GAN(Generative Adversarial Networks)は画像生成を著しく進歩させるが、その性能は豊富なトレーニングデータに大きく依存する。 限られたデータを持つシナリオでは、GANは差別者の過度な適合と不安定なトレーニングに苦労することが多い。 バッチ正規化(BN)は、一般化と訓練安定性の向上で知られているが、データ効率のよいGANの識別器としてはほとんど使われていない。 我々の研究は、BNの重大な欠陥、すなわち集中とスケーリングの段階における勾配爆発の傾向を特定することで、このギャップに対処する。 この問題に対処するために、従来の中心ステップをゼロ平均正規化に置き換え、スケーリングステップにリプシッツ連続性制約を統合するCHAIN(lipsCHitz continuity constrAIned Normalization)を提案する。 CHAINは、正常化および非正規化特徴を適応的に補間することにより、GANトレーニングをさらに強化し、判別器の過剰適合を効果的に回避する。 我々の理論解析は、CHAINが潜伏特徴と重みの勾配を減少させ、GANトレーニングの安定性と一般化を向上する効果を確固たるものにしている。 実証的な証拠が我々の理論を支持している。 CHAINは、CIFAR-10/100、ImageNet、5つのローショット、7つの高解像度のショットイメージデータセット上のデータ制限シナリオにおいて、最先端の結果を達成する。

Generative Adversarial Networks (GANs) significantly advanced image generation but their performance heavily depends on abundant training data. In scenarios with limited data, GANs often struggle with discriminator overfitting and unstable training. Batch Normalization (BN), despite being known for enhancing generalization and training stability, has rarely been used in the discriminator of Data-Efficient GANs. Our work addresses this gap by identifying a critical flaw in BN: the tendency for gradient explosion during the centering and scaling steps. To tackle this issue, we present CHAIN (lipsCHitz continuity constrAIned Normalization), which replaces the conventional centering step with zero-mean regularization and integrates a Lipschitz continuity constraint in the scaling step. CHAIN further enhances GAN training by adaptively interpolating the normalized and unnormalized features, effectively avoiding discriminator overfitting. Our theoretical analyses firmly establishes CHAIN's effectiveness in reducing gradients in latent features and weights, improving stability and generalization in GAN training. Empirical evidence supports our theory. CHAIN achieves state-of-the-art results in data-limited scenarios on CIFAR-10/100, ImageNet, five low-shot and seven high-resolution few-shot image datasets.
翻訳日:2024-04-04 03:20:34 公開日:2024-04-02
# Text2HOI:ハンドオブジェクトインタラクションのためのテキスト誘導型3Dモーション生成

Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction ( http://arxiv.org/abs/2404.00562v2 )

ライセンス: Link先を確認
Junuk Cha, Jihyeon Kim, Jae Shin Yoon, Seungryul Baek, (参考訳) 本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。 主な課題は、テキストプロンプトからの正しい物理的含意(例えば、連絡先や意味論)と多種多様な3Dハンドオブジェクトの相互作用のモデリングを阻害する、相互作用タイプやオブジェクトカテゴリにおいて、既存の地中真実のデータセットがほとんど一般化できないラベル付きデータがないことである。 この課題に対処するために,インタラクション生成タスクを2つのサブタスクに分解することを提案する。 接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、インタラクション中に手の表面とオブジェクト間の接触の確率を生成する。 ネットワークは、オブジェクトのカテゴリに依存しない多様なオブジェクトの様々な局所幾何学構造を学習し、一般的なオブジェクトに適用できる。 動作生成のために,トランスフォーマーを用いた拡散モデルでは,この3次元接触マップを強力な先行として利用して,拡張ラベル付きデータセットから学習したテキストプロンプトの関数として,物理的に可塑性ハンドオブジェクトの動きを生成する。 最後に, 物体表面と手関節の距離を最小化し, 物体接触の時間的安定性を向上し, 貫通アーティファクトの抑制を図るハンドリファインダモジュールを提案する。 実験では,本手法は,他のベースライン手法と比較して,より現実的で多様な相互作用を生成できることを示した。 また,本手法は未知の物体に適用可能であることを示す。 今後の研究の強力な基盤として、私たちのモデルと、新たにラベル付けされたデータを公開します。 コードとデータは、https://github.com/JunukCha/Text2HOI.comで入手できる。

This paper introduces the first text-guided work for generating the sequence of hand-object interaction in 3D. The main challenge arises from the lack of labeled data where existing ground-truth datasets are nowhere near generalizable in interaction type and object category, which inhibits the modeling of diverse 3D hand-object interaction with the correct physical implication (e.g., contacts and semantics) from text prompts. To address this challenge, we propose to decompose the interaction generation task into two subtasks: hand-object contact generation; and hand-object motion generation. For contact generation, a VAE-based network takes as input a text and an object mesh, and generates the probability of contacts between the surfaces of hands and the object during the interaction. The network learns a variety of local geometry structure of diverse objects that is independent of the objects' category, and thus, it is applicable to general objects. For motion generation, a Transformer-based diffusion model utilizes this 3D contact map as a strong prior for generating physically plausible hand-object motion as a function of text prompts by learning from the augmented labeled dataset; where we annotate text labels from many existing 3D hand and object motion data. Finally, we further introduce a hand refiner module that minimizes the distance between the object surface and hand joints to improve the temporal stability of the object-hand contacts and to suppress the penetration artifacts. In the experiments, we demonstrate that our method can generate more realistic and diverse interactions compared to other baseline methods. We also show that our method is applicable to unseen objects. We will release our model and newly labeled data as a strong foundation for future research. Codes and data are available in: https://github.com/JunukCha/Text2HOI.
翻訳日:2024-04-04 03:00:38 公開日:2024-04-02
# AI法とLarge Language Models (LLMs): 重大な問題とプライバシーへの影響が人的および倫理的監視を必要とする場合

AI Act and Large Language Models (LLMs): When critical issues and privacy impact require human and ethical oversight ( http://arxiv.org/abs/2404.00600v2 )

ライセンス: Link先を確認
Nicola Fabiano, (参考訳) 人工知能システムの暗示的な進化、特にLarge Language Models(LLM)は、プライバシ、個人データ保護、倫理的なレベルで、特に最も弱く最も脆弱な領域において、それらのリスクレベルとそれらが持つ可能性のある影響の評価を実行する必要がある。 この貢献は、人間の監視、倫理的監視、およびプライバシーへの影響評価に対処する。

The imposing evolution of artificial intelligence systems and, specifically, of Large Language Models (LLM) makes it necessary to carry out assessments of their level of risk and the impact they may have in the area of privacy, personal data protection and at an ethical level, especially on the weakest and most vulnerable. This contribution addresses human oversight, ethical oversight, and privacy impact assessment.
翻訳日:2024-04-04 02:50:30 公開日:2024-04-02
# 3次元表示制御可能なポートレートアニメーションのための条件付き三面体生成学習

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation ( http://arxiv.org/abs/2404.00636v2 )

ライセンス: Link先を確認
Taekyung Ki, Dongchan Min, Gyeongsu Chae, (参考訳) 本稿では,顔画像の表情とカメラビューを制御可能な,ワンショット3D対応のポートレートアニメーションであるExport3Dを提案する。 そこで本研究では,3次元MMの表現パラメータを画像に転送することで,3次元の3次元平面を直接生成する3次元平面生成装置を提案する。 三面体は、異なるボリュームレンダリングにより、異なるビューのイメージにデコードされる。 既存のポートレートアニメーション手法は、動き空間における表現の転送に画像のワープに大きく依存しており、外観や表現のゆがみに挑戦している。 対照的に、異性間表現の転送時に不要な外観スワップを排除し、外観自由表現パラメータのための対照的な事前学習フレームワークを提案する。 大規模な実験により,我々の事前学習フレームワークは3DMM内に隠された外見自由表現を学習でき,そのモデルでは外見スワップのない3D認識表現制御可能なポートレート画像を生成することができることがわかった。

In this paper, we present Export3D, a one-shot 3D-aware portrait animation method that is able to control the facial expression and camera view of a given portrait image. To achieve this, we introduce a tri-plane generator that directly generates a tri-plane of 3D prior by transferring the expression parameter of 3DMM into the source image. The tri-plane is then decoded into the image of different view through a differentiable volume rendering. Existing portrait animation methods heavily rely on image warping to transfer the expression in the motion space, challenging on disentanglement of appearance and expression. In contrast, we propose a contrastive pre-training framework for appearance-free expression parameter, eliminating undesirable appearance swap when transferring a cross-identity expression. Extensive experiments show that our pre-training framework can learn the appearance-free expression representation hidden in 3DMM, and our model can generate 3D-aware expression controllable portrait image without appearance swap in the cross-identity manner.
翻訳日:2024-04-04 02:40:27 公開日:2024-04-02
# Face It Yourselflves:ログ経由で構成エラーをローカライズするためのLLMベースの2段階戦略

Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs ( http://arxiv.org/abs/2404.00640v2 )

ライセンス: Link先を確認
Shiwen Shan, Yintong Huo, Yuxin Su, Yichen Li, Dan Li, Zibin Zheng, (参考訳) 構成可能なソフトウェアシステムは、構成エラーを起こしやすいため、企業にとって大きな損失をもたらす。 しかし、これらのエラーの診断は、広大で複雑な構成空間のために困難である。 これらのエラーは、経験豊富なメンテナと新しいエンドユーザ、特にソフトウェアシステムのソースコードにアクセスできないユーザの両方にとって大きな課題となる。 ログがほとんどのエンドユーザに容易にアクセス可能であることを考慮し、設定エラーのローカライズにログを利用する際の課題と機会を概説する予備的研究を行う。 予備研究から得られた知見に基づいて,エンドユーザーがログに基づいて根源構成特性をローカライズするためのLLMベースの2段階戦略を提案する。 私たちはさらに、前述の戦略の設計に沿ってLogConfigLocalizerというツールを実装し、ログ分析を通じて構成エラーに対処するエンドユーザを支援したいと思っています。 私たちの知る限りでは、これはLarge Language Models~(LLM)とログに基づいたエンドユーザのルート原因設定プロパティをローカライズする最初の作業です。 我々はLogConfigLocalizerによるHadoop上の提案した戦略を評価し、その効率を99.91%の平均精度で証明した。 さらに、他の2つの変種とベースラインツールと比較することにより、方法論の異なるフェーズの有効性と必要性を実証する。 さらに,本手法の有効性と妥当性を実証するため,実例で提案手法の有効性を検証した。

Configurable software systems are prone to configuration errors, resulting in significant losses to companies. However, diagnosing these errors is challenging due to the vast and complex configuration space. These errors pose significant challenges for both experienced maintainers and new end-users, particularly those without access to the source code of the software systems. Given that logs are easily accessible to most end-users, we conduct a preliminary study to outline the challenges and opportunities of utilizing logs in localizing configuration errors. Based on the insights gained from the preliminary study, we propose an LLM-based two-stage strategy for end-users to localize the root-cause configuration properties based on logs. We further implement a tool, LogConfigLocalizer, aligned with the design of the aforementioned strategy, hoping to assist end-users in coping with configuration errors through log analysis. To the best of our knowledge, this is the first work to localize the root-cause configuration properties for end-users based on Large Language Models~(LLMs) and logs. We evaluate the proposed strategy on Hadoop by LogConfigLocalizer and prove its efficiency with an average accuracy as high as 99.91%. Additionally, we also demonstrate the effectiveness and necessity of different phases of the methodology by comparing it with two other variants and a baseline tool. Moreover, we validate the proposed methodology through a practical case study to demonstrate its effectiveness and feasibility.
翻訳日:2024-04-04 02:30:41 公開日:2024-04-02
# KTPFormer:3次元人文推定のためのキネマティクスと軌道事前知識強化変換器

KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2404.00658v2 )

ライセンス: Link先を確認
Jihua Peng, Yanghong Zhou, P. Y. Mok, (参考訳) 本稿では,従来の3次元ポーズ推定手法の弱点を克服し,Q,K,Vベクトルの自己認識機構の導出がすべて単純な線形写像に基づいていることを示す,KTPFormer(Kinematics and Trajectory Prior Knowledge-Enhanced Transformer)を提案する。 我々は,人体の解剖学的構造と運動軌跡情報を活用するために,Kinematics Prior Attention (KPA) と Trajectory Prior Attention (TPA) の2つの事前注意モジュールを提案する。 KPAは運動学のトポロジを構築して人体の運動関係をモデル化し、TPAは軌道トポロジを構築し、フレーム間の関節運動のトポロジの情報を学習する。 Q, K, V ベクトルを事前の知識で得られることにより、KTPFormer は空間的および時間的相関を同時にモデル化することができる。 3つのベンチマーク(Human3.6M、MPI-INF-3DHP、HumanEva)の大規模な実験は、KTPFormerが最先端の手法と比較して優れた性能を発揮することを示している。 さらに重要なことは、我々のKPAモジュールとTPAモジュールは軽量なプラグアンドプレイ設計を持ち、様々なトランスフォーマーベースネットワーク(つまり拡散ベース)に統合することで、計算オーバーヘッドをわずかに増加させるだけで性能を向上させることができる。 コードは、https://github.com/JihuaPeng/KTPFormer.comで入手できる。

This paper presents a novel Kinematics and Trajectory Prior Knowledge-Enhanced Transformer (KTPFormer), which overcomes the weakness in existing transformer-based methods for 3D human pose estimation that the derivation of Q, K, V vectors in their self-attention mechanisms are all based on simple linear mapping. We propose two prior attention modules, namely Kinematics Prior Attention (KPA) and Trajectory Prior Attention (TPA) to take advantage of the known anatomical structure of the human body and motion trajectory information, to facilitate effective learning of global dependencies and features in the multi-head self-attention. KPA models kinematic relationships in the human body by constructing a topology of kinematics, while TPA builds a trajectory topology to learn the information of joint motion trajectory across frames. Yielding Q, K, V vectors with prior knowledge, the two modules enable KTPFormer to model both spatial and temporal correlations simultaneously. Extensive experiments on three benchmarks (Human3.6M, MPI-INF-3DHP and HumanEva) show that KTPFormer achieves superior performance in comparison to state-of-the-art methods. More importantly, our KPA and TPA modules have lightweight plug-and-play designs and can be integrated into various transformer-based networks (i.e., diffusion-based) to improve the performance with only a very small increase in the computational overhead. The code is available at: https://github.com/JihuaPeng/KTPFormer.
翻訳日:2024-04-04 02:30:41 公開日:2024-04-02
# LLMがゼロショットワンクラス分類のためのビジョンランゲージモデルに到達

LLM meets Vision-Language Models for Zero-Shot One-Class Classification ( http://arxiv.org/abs/2404.00675v2 )

ライセンス: Link先を確認
Yassir Bendou, Giulia Lioi, Bastien Pasdeloup, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux, Vincent Gripon, (参考訳) ゼロショットワンクラス視覚分類の問題を考える。 この設定では、ターゲットクラスのラベルのみが利用可能であり、目標は、ターゲットタスクからバリデーションサンプルを必要とせずに、正と負のクエリサンプルを区別することである。 視覚的に混乱するオブジェクトに対して,まず大きな言語モデルを問合せし,次に視覚言語で事前訓練されたモデル(例えばCLIP)に頼って分類を行う2段階のソリューションを提案する。 大規模ビジョンベンチマークを適応させることで,提案手法が市販の代替品よりも優れた性能を発揮することを示す。 すなわち,iNaturalist の粒度制御バージョンを含む,正のデータセットから負のクエリサンプルを抽出し,正のデータセットから負のサンプルを定距離に抽出する,現実的なベンチマークを提案する。 我々の研究は、そのラベルのみを用いて、一つのカテゴリと他のセマンティックなカテゴリを区別することが可能であることを示している。

We consider the problem of zero-shot one-class visual classification. In this setting, only the label of the target class is available, and the goal is to discriminate between positive and negative query samples without requiring any validation example from the target task. We propose a two-step solution that first queries large language models for visually confusing objects and then relies on vision-language pre-trained models (e.g., CLIP) to perform classification. By adapting large-scale vision benchmarks, we demonstrate the ability of the proposed method to outperform adapted off-the-shelf alternatives in this setting. Namely, we propose a realistic benchmark where negative query samples are drawn from the same original dataset as positive ones, including a granularity-controlled version of iNaturalist, where negative samples are at a fixed distance in the taxonomy tree from the positive ones. Our work shows that it is possible to discriminate between a single category and other semantically related ones using only its label
翻訳日:2024-04-04 02:20:51 公開日:2024-04-02
# DRCT:画像の超解像度をインフォメーション・ボトルネックから遠ざける

DRCT: Saving Image Super-resolution away from Information Bottleneck ( http://arxiv.org/abs/2404.00722v2 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, (参考訳) 近年、ビジョントランスフォーマーをベースとした低レベル視覚タスクの応用が広く成功している。 CNNベースのモデルとは異なり、Transformerは長距離依存のキャプチャに適しており、非ローカル領域の情報を利用した画像の再構築を可能にする。 超解像領域では、グローバル空間情報を捕捉する能力と、異なるウィンドウ間の情報交換を容易にするシフト・ウインドウ・アテンション機構により、スウィントランスフォーマーベースのアプローチが主流となっている。 多くの研究者は、受容領域を拡張したり、複雑なネットワークを設計することで、画像の品質とネットワーク効率を向上し、賞賛できる結果を得た。 しかし,空間情報は深度の増加により前方伝播過程において減少傾向にあり,空間情報が失われる傾向にあり,その結果,モデルのポテンシャルが制限されることがわかった。 そこで本研究では,層間密な残差接続による空間情報の損失を軽減することを目的としたDense-Residual-connect Transformer (DRCT)を提案する。 実験結果から,本手法は単純であるだけでなく,最先端の手法を超越し,NTIRE2024で順調に動作し,優れた効率を達成できることが示唆された。

In recent years, Vision Transformer-based applications to low-level vision tasks have achieved widespread success. Unlike CNN-based models, Transformers are more adept at capturing long-range dependencies, enabling the reconstruction of images utilizing information from non-local areas. In the domain of super-resolution, Swin-transformer-based approaches have become mainstream due to their capacity to capture global spatial information and their shifting-window attention mechanism that facilitates the interchange of information between different windows. Many researchers have enhanced image quality and network efficiency by expanding the receptive field or designing complex networks, yielding commendable results. However, we observed that spatial information tends to diminish during the forward propagation process due to increased depth, leading to a loss of spatial information and, consequently, limiting the model's potential. To address this, we propose the Dense-residual-connected Transformer (DRCT), aimed at mitigating the loss of spatial information through dense-residual connections between layers, thereby unleashing the model's potential and enhancing performance. Experiment results indicate that our approach is not only straightforward but also achieves remarkable efficiency, surpassing state-of-the-art methods and performing commendably at NTIRE2024.
翻訳日:2024-04-04 02:11:04 公開日:2024-04-02
# 長距離双極子交換誘起原子格子

Long-range dipole-dipole exchange-induced atomic grating ( http://arxiv.org/abs/2404.00730v2 )

ライセンス: Link先を確認
Xuan-Qian Bao, Xue-Dong Tian, Dong-Xiao Li, Yi-Mou Liu, (参考訳) 我々は,超低温のルビジウム (^{87}$Rb) 原子アンサンブルと可動リドバーグスピン原子からなるハイブリッドシステムに基づく双極子交換誘起格子(DEIG)の理論スキームを提案する。 格子の光学的応答は、双極子遮断効果による協調光学的非線形効果と同様に、3段と4段の配置の重畳として現れる。 しかし、そのようなリドバーグ原子格子はスピン原子の空間的位置に一意に反応し、入力プローブ強度を除いて電磁誘導格子(EIG)を動的に制御するための新しいアプローチを提供する。

We propose a theoretical scheme for dipole exchange-induced grating (DEIG) based on a hybrid system consisting of ultra-cold Rubidium ($^{87}$Rb) atomic ensemble and movable Rydberg spin atoms. The optical response of the grating appears as a superposition of three- and four-level configurations, similar to the cooperative optical nonlinear effect caused by the dipole blockade effect. However, such Rydberg atomic grating uniquely responds to the spatial positions of spin atoms, offering a novel approach to dynamically control electromagnetically induced gratings (EIG) except for input probe intensity.
翻訳日:2024-04-04 02:01:09 公開日:2024-04-02
# キャサリンの欠点:ベビーネーミングのゲーム理論

An Abundance of Katherines: The Game Theory of Baby Naming ( http://arxiv.org/abs/2404.00732v2 )

ライセンス: Link先を確認
Katy Blumer, Kate Donahue, Katie Fritz, Kate Ivanovich, Katherine Lee, Katie Luo, Cathy Meng, Katie Van Koevering, (参考訳) 本稿では,乳児命名の競争力が高い分野について考察する。 いくつかの極端に理性的な仮定(つまり、親は、その不公平性だけに基づいて名前を選ぶ、ミオピックで、完全に知識のあるエージェントである)をすることで、私たちは、取り外し可能でクリーンなだけでなく、現実世界を完璧に捉えたモデルを作成します。 次に、数値実験と大規模言語モデルツールの分析により調査を拡大する。 今後の研究の道筋について論じる。

In this paper, we study the highly competitive arena of baby naming. Through making several Extremely Reasonable Assumptions (namely, that parents are myopic, perfectly knowledgeable agents who pick a name based solely on its uniquness), we create a model which is not only tractable and clean, but also perfectly captures the real world. We then extend our investigation with numerical experiments, as well as analysis of large language model tools. We conclude by discussing avenues for future research.
翻訳日:2024-04-04 02:01:09 公開日:2024-04-02
# 静的解析とプログラム検証を用いた大規模言語モデルによるプログラム仕様生成の自動化

Enchanting Program Specification Synthesis by Large Language Models using Static Analysis and Program Verification ( http://arxiv.org/abs/2404.00762v2 )

ライセンス: Link先を確認
Cheng Wen, Jialun Cao, Jie Su, Zhiwu Xu, Shengchao Qin, Mengda He, Haokun Li, Shing-Chi Cheung, Cong Tian, (参考訳) 形式的検証は、ソフトウェアシステムの正確性と信頼性を保証するための厳密で体系的なアプローチを提供する。 しかし、完全な証明のための仕様の構築は、ドメインの専門知識と非自明なマンパワーに依存します。 このようなニーズを考慮すると、仕様合成のための自動アプローチが望まれる。 既存の自動化アプローチは汎用性に制限があるが、例えば、数値プログラムのループ不変量の合成にのみ焦点をあてるか、特定の種類のプログラムや不変量の調整を行う。 複数の複雑なデータ型(例:配列、ポインタ)とコード構造(例:ネストループ、関数呼び出し)を含むプログラムは、その能力を超えることが多い。 このギャップを埋めるために,自動プログラム検証のための仕様を自動生成するAutoSpecを提案する。 仕様の汎用性における既存の作業の欠点を克服し、完全な証明のために十分かつ適切な仕様を合成する。 静的解析とプログラム検証によって駆動され、大きな言語モデル(LLM)によって強化される。 AutoSpec は,(1) 静的解析とプログラム検証により \name を駆動し,(2) 候補仕様を生成するジェネレータとして機能し,(2) プログラムを分解して LLM の注意を向け,(3) 候補仕様を各ラウンドで検証し,LLM との相互作用におけるエラーの蓄積を回避する。 このように、AutoSpecは段階的に、かつ反復的に、満足できる適切な仕様を生成できます。 この評価は, 自動仕様合成によるプログラムの79%の検証に成功し, 1.592倍の大幅な改善を達成し, 既存の作業より優れていることを示す。 また、現実世界のX509パーサプロジェクトにおけるプログラムの検証にも成功している。

Formal verification provides a rigorous and systematic approach to ensure the correctness and reliability of software systems. Yet, constructing specifications for the full proof relies on domain expertise and non-trivial manpower. In view of such needs, an automated approach for specification synthesis is desired. While existing automated approaches are limited in their versatility, i.e., they either focus only on synthesizing loop invariants for numerical programs, or are tailored for specific types of programs or invariants. Programs involving multiple complicated data types (e.g., arrays, pointers) and code structures (e.g., nested loops, function calls) are often beyond their capabilities. To help bridge this gap, we present AutoSpec, an automated approach to synthesize specifications for automated program verification. It overcomes the shortcomings of existing work in specification versatility, synthesizing satisfiable and adequate specifications for full proof. It is driven by static analysis and program verification, and is empowered by large language models (LLMs). AutoSpec addresses the practical challenges in three ways: (1) driving \name by static analysis and program verification, LLMs serve as generators to generate candidate specifications, (2) programs are decomposed to direct the attention of LLMs, and (3) candidate specifications are validated in each round to avoid error accumulation during the interaction with LLMs. In this way, AutoSpec can incrementally and iteratively generate satisfiable and adequate specifications. The evaluation shows its effectiveness and usefulness, as it outperforms existing works by successfully verifying 79% of programs through automatic specification synthesis, a significant improvement of 1.592x. It can also be successfully applied to verify the programs in a real-world X509-parser project.
翻訳日:2024-04-04 01:51:24 公開日:2024-04-02
# DPA-Net:微分プリミティブアセンブリによるスパースビューからの構造化3次元抽象化

DPA-Net: Structured 3D Abstraction from Sparse Views via Differentiable Primitive Assembly ( http://arxiv.org/abs/2404.00875v2 )

ライセンス: Link先を確認
Fenggen Yu, Yiming Qian, Xu Zhang, Francisca Gil-Ureta, Brian Jackson, Eric Bennett, Hao Zhang, (参考訳) 本稿では、3DオブジェクトをキャプチャするスパースRGB画像から、プリミティブアセンブリの形で構造化された3D抽象化を学習するための微分可能なレンダリングフレームワークを提案する。 異なるボリュームレンダリングを活用することで,本手法は3次元監視を必要としない。 アーキテクチャ上,我々のネットワークは,色予測のためにピクセルNeRFで実証された画像条件のニューラル放射場(NeRF)の一般的なパイプラインに従っている。 本研究のコアコントリビューションとして,NeRFに差分プリミティブアセンブリ(DPA)を導入し,密度予測の代わりに3次元占有場を出力する。 我々のネットワークはDPA-Netと呼ばれ、それぞれ凸二次プリミティブの交点として凸の結合を生成し、ターゲットの3Dオブジェクトを近似し、抽象的な損失とマスキングの損失を受け、どちらもボリュームレンダリング時に画像空間で定義される。 テスト時間適応と,得られたアセンブリの精度とコンパクト性向上を目的としたサンプリング・ロス設計により,スパースビューからの3次元プリミティブ抽象化に対する最先端の代替手段よりも優れた性能を示す。

We present a differentiable rendering framework to learn structured 3D abstractions in the form of primitive assemblies from sparse RGB images capturing a 3D object. By leveraging differentiable volume rendering, our method does not require 3D supervision. Architecturally, our network follows the general pipeline of an image-conditioned neural radiance field (NeRF) exemplified by pixelNeRF for color prediction. As our core contribution, we introduce differential primitive assembly (DPA) into NeRF to output a 3D occupancy field in place of density prediction, where the predicted occupancies serve as opacity values for volume rendering. Our network, coined DPA-Net, produces a union of convexes, each as an intersection of convex quadric primitives, to approximate the target 3D object, subject to an abstraction loss and a masking loss, both defined in the image space upon volume rendering. With test-time adaptation and additional sampling and loss designs aimed at improving the accuracy and compactness of the obtained assemblies, our method demonstrates superior performance over state-of-the-art alternatives for 3D primitive abstraction from sparse views.
翻訳日:2024-04-03 23:36:01 公開日:2024-04-02
# サリエンシ誘導弱弱弱化によるセマンティックセマンティックセグメンテーションの再考

Rethinking Saliency-Guided Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2404.00918v2 )

ライセンス: Link先を確認
Beomyoung Kim, Donghyun Kim, Sung Ju Hwang, (参考訳) 本稿では,弱教師付きセマンティックセグメンテーション(WSSS)におけるサリエンシマップの役割について,新たな知見と研究の方向性を実証的知見に基づいて提示する。 我々は、総合的な実験を行い、サリエンシマップの品質がサリエンシ誘導WSSSアプローチにおける重要な要素であることを観察する。 それでも、WSSSに大きな影響を与えるにもかかわらず、以前の作品で使われたサリエンシマップは、しばしば任意に選択される。 さらに,WSSSでは,これまで注目されなかった閾値の選択が非自明であることも確認した。 より有意義で厳密なWSSS調査を容易にするため,統一された条件下での研究を行うための標準化されたフレームワークである「texttt{WSSS-BED}」を紹介した。 \texttt{WSSS-BED} は、7つのWSSSメソッドに対して様々な唾液マップとアクティベーションマップを提供し、また教師なし唾液オブジェクト検出モデルからの唾液マップを提供する。

This paper presents a fresh perspective on the role of saliency maps in weakly-supervised semantic segmentation (WSSS) and offers new insights and research directions based on our empirical findings. We conduct comprehensive experiments and observe that the quality of the saliency map is a critical factor in saliency-guided WSSS approaches. Nonetheless, we find that the saliency maps used in previous works are often arbitrarily chosen, despite their significant impact on WSSS. Additionally, we observe that the choice of the threshold, which has received less attention before, is non-trivial in WSSS. To facilitate more meaningful and rigorous research for saliency-guided WSSS, we introduce \texttt{WSSS-BED}, a standardized framework for conducting research under unified conditions. \texttt{WSSS-BED} provides various saliency maps and activation maps for seven WSSS methods, as well as saliency maps from unsupervised salient object detection models.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-02
# コンピュータビジョンにおける知識蒸留の概観

A Comprehensive Review of Knowledge Distillation in Computer Vision ( http://arxiv.org/abs/2404.00936v2 )

ライセンス: Link先を確認
Sheikh Musa Kaleem, Tufail Rouf, Gousia Habib, Tausifa jan Saleem, Brejesh Lall, (参考訳) 近年、ディープラーニング技術は最先端の機械学習技術を上回ることが実証されており、コンピュータビジョンが最も顕著な例の1つである。 しかし、ディープラーニングモデルは、大きなモデルサイズと高い複雑さのため、リソース制約のある環境にデプロイする際の大きな欠点に悩まされる。 知識蒸留は、この課題を克服するための重要な解決策の1つです。 本稿では, 複雑なモデルをより小さく, より単純なものに圧縮する技術である, 知識蒸留研究の現状について検討する。 本稿では,知識蒸留に関する主要な原則と技術の概要を述べるとともに,コンピュータビジョン分野における知識蒸留の応用について概説する。 本レビューは, 知識蒸留のメリットと, その有効性向上のために克服すべき課題に焦点を当てる。

Deep learning techniques have been demonstrated to surpass preceding cutting-edge machine learning techniques in recent years, with computer vision being one of the most prominent examples. However, deep learning models suffer from significant drawbacks when deployed in resource-constrained environments due to their large model size and high complexity. Knowledge Distillation is one of the prominent solutions to overcome this challenge. This review paper examines the current state of research on knowledge distillation, a technique for compressing complex models into smaller and simpler ones. The paper provides an overview of the major principles and techniques associated with knowledge distillation and reviews the applications of knowledge distillation in the domain of computer vision. The review focuses on the benefits of knowledge distillation, as well as the problems that must be overcome to improve its effectiveness.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-02
# PosterLlama:Langaugeモデルによるコンテンツ認識レイアウト生成のためのブリッジング設計能力

PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation ( http://arxiv.org/abs/2404.00995v2 )

ライセンス: Link先を確認
Jaejung Seol, Seojun Kim, Jaejun Yoo, (参考訳) ビジュアルレイアウトは、広告、ポスター、Web UIデザインなどのグラフィックデザイン分野において重要な役割を果たす。 生成モデルによるコンテンツ認識レイアウト生成への最近の傾向は、将来性を示しているが、単純な数値最適化として扱うことで、レイアウト設計のセマンティックな複雑さを無視することが多い。 このギャップを埋めるために,レイアウト要素をHTMLコードに再構成し,言語モデルに埋め込まれた豊富な設計知識を活用することで,視覚的かつテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークであるPosterLlamaを紹介した。 さらに、独自の奥行きに基づくポスター強化戦略により、モデルの堅牢性を高める。 これにより、生成したレイアウトがセマンティックにリッチでありながら、限られたデータでも視覚的に魅力的であることを保証する。 複数のベンチマークで評価した結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。 これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。

Visual layout plays a critical role in graphic design fields such as advertising, posters, and web UI design. The recent trend towards content-aware layout generation through generative models has shown promise, yet it often overlooks the semantic intricacies of layout design by treating it as a simple numerical optimization. To bridge this gap, we introduce PosterLlama, a network designed for generating visually and textually coherent layouts by reformatting layout elements into HTML code and leveraging the rich design knowledge embedded within language models. Furthermore, we enhance the robustness of our model with a unique depth-based poster augmentation strategy. This ensures our generated layouts remain semantically rich but also visually appealing, even with limited data. Our extensive evaluations across several benchmarks demonstrate that PosterLlama outperforms existing methods in producing authentic and content-aware layouts. It supports an unparalleled range of conditions, including but not limited to unconditional layout generation, element conditional layout generation, layout completion, among others, serving as a highly versatile user manipulation tool.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-02
# テキスト・画像生成におけるバイアスの実態調査:定義・評価・軽減

Survey of Bias In Text-to-Image Generation: Definition, Evaluation, and Mitigation ( http://arxiv.org/abs/2404.01030v2 )

ライセンス: Link先を確認
Yixin Wan, Arjun Subramonian, Anaelia Ovalle, Zongyu Lin, Ashima Suvarna, Christina Chance, Hritik Bansal, Rebecca Pattichis, Kai-Wei Chang, (参考訳) OpenAIのDALLE-3やGoogleのGeminiなど、テキスト・ツー・イメージ(T2I)生成機能を備えた大規模で強力なモデルの最近の進歩により、ユーザはテキスト・プロンプトから高品質な画像を生成することができる。 しかし、単純なプロンプトであっても、T2Iモデルが生成した画像に顕著な社会的バイアスを生じさせる可能性がますます高まっている。 このような偏見は、社会における割当と代表の双方の害を招き、さらに少数派を疎外する可能性がある。 この問題に注目して、最近の多くの研究が、T2Iシステムの様々な次元のバイアスの研究に費やされている。 しかし、これらの研究の広範なレビューが欠如しており、現在の進歩と研究ギャップの体系的な理解を妨げている。 本研究は,T2I生成モデルにおけるバイアスに関する最初の広範な調査である。 本稿では, 偏見の次元に関する先行研究, ジェンダー, スキントン, ジオカルチャーについて概説する。 具体的には、これらの研究がどのようにバイアスの異なる側面を定義し、評価し、緩和するかについて議論する。 その結果,(1) 性別とスキントーンの偏見は広く研究されているが,(2) 性別とスキントーンの偏見は未調査であり,(2) 性別とスキントーンの偏見に関する研究はほとんど調査されていない。 現在の限界に基づいて、人間の中心的な定義、評価、偏見の緩和に寄与する今後の研究の方向性を指摘する。 私たちは、T2Iシステムにおけるバイアスを研究することの重要性を強調し、バイアスを理解して対処し、公正で信頼できるT2I技術を誰にとっても構築する将来の取り組みを奨励したいと考えています。

The recent advancement of large and powerful models with Text-to-Image (T2I) generation abilities -- such as OpenAI's DALLE-3 and Google's Gemini -- enables users to generate high-quality images from textual prompts. However, it has become increasingly evident that even simple prompts could cause T2I models to exhibit conspicuous social bias in generated images. Such bias might lead to both allocational and representational harms in society, further marginalizing minority groups. Noting this problem, a large body of recent works has been dedicated to investigating different dimensions of bias in T2I systems. However, an extensive review of these studies is lacking, hindering a systematic understanding of current progress and research gaps. We present the first extensive survey on bias in T2I generative models. In this survey, we review prior studies on dimensions of bias: Gender, Skintone, and Geo-Culture. Specifically, we discuss how these works define, evaluate, and mitigate different aspects of bias. We found that: (1) while gender and skintone biases are widely studied, geo-cultural bias remains under-explored; (2) most works on gender and skintone bias investigated occupational association, while other aspects are less frequently studied; (3) almost all gender bias works overlook non-binary identities in their studies; (4) evaluation datasets and metrics are scattered, with no unified framework for measuring biases; and (5) current mitigation methods fail to resolve biases comprehensively. Based on current limitations, we point out future research directions that contribute to human-centric definitions, evaluations, and mitigation of biases. We hope to highlight the importance of studying biases in T2I systems, as well as encourage future efforts to holistically understand and tackle biases, building fair and trustworthy T2I technologies for everyone.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-02
# LLMは、プライベート情報を公開することなく、他のLLMから助けを得ることができるか?

Can LLMs get help from other LLMs without revealing private information? ( http://arxiv.org/abs/2404.01041v2 )

ライセンス: Link先を確認
Florian Hartmann, Duc-Hieu Tran, Peter Kairouz, Victor Cărbune, Blaise Aguera y Arcas, (参考訳) カスケード(Cascades)は、ローカルモデルがユーザのデータを自分で正確にラベル付けできない場合、大規模なリモートモデルをクエリできる機械学習システムの一種である。 大規模言語モデル(LLM)のシリアルスタックは、推論コストを劇的に削減しながらタスクパフォーマンスを維持できるため、カスケードの使用が増えている。 しかし、ローカルモデルが機密データにアクセス可能な状況においてカスケードシステムを適用することは、そのようなデータがリモートモデルに転送される可能性があるため、ユーザにとって重大なプライバシーリスクとなる。 本研究では,ローカルモデルにプライバシ保護技術を適用し,リモートモデルに問い合わせる際の個人情報漏洩のリスクを低減することにより,そのようなシステムにカスケードシステムを適用する可能性を示す。 このような設定で情報漏洩を定量化するために、プライバシー対策を2つ導入する。 次に,LLMが自然言語を交換することで相互に協調的に学習する,最近導入された社会学習パラダイムを活用するシステムを提案する。 このパラダイムを用いることで、我々の手法はプライバシ損失を最小限に抑えると同時に、非カスケードベースラインに比べてタスク性能を向上させることを実証する。

Cascades are a common type of machine learning systems in which a large, remote model can be queried if a local model is not able to accurately label a user's data by itself. Serving stacks for large language models (LLMs) increasingly use cascades due to their ability to preserve task performance while dramatically reducing inference costs. However, applying cascade systems in situations where the local model has access to sensitive data constitutes a significant privacy risk for users since such data could be forwarded to the remote model. In this work, we show the feasibility of applying cascade systems in such setups by equipping the local model with privacy-preserving techniques that reduce the risk of leaking private information when querying the remote model. To quantify information leakage in such setups, we introduce two privacy measures. We then propose a system that leverages the recently introduced social learning paradigm in which LLMs collaboratively learn from each other by exchanging natural language. Using this paradigm, we demonstrate on several datasets that our methods minimize the privacy loss while at the same time improving task performance compared to a non-cascade baseline.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-02
# 学習したグアシアンスプラッツレンダリングと微調整拡散特性による雲の復元とデノナイズ

Few-shot point cloud reconstruction and denoising via learned Guassian splats renderings and fine-tuned diffusion features ( http://arxiv.org/abs/2404.01112v2 )

ライセンス: Link先を確認
Pietro Bonazzi, (参考訳) 点雲の復元と復調のための既存のディープラーニング手法は、3次元形状の小さなデータセットに依存している。 何十億もの画像で訓練されたディープラーニング手法を活用することで、この問題を回避する。 画像ベース深層学習モデルから抽出した事前知識を利用して,少ない画像から点雲を再構成し,そのレンダリングから点雲を識別する手法を提案する。 制約設定の再構築を改善するために,意味的整合性管理を導入することで,ハイブリッド表面と外観の相違可能なレンダラーのトレーニングを規則化する。 さらに、ノイズの多い点雲の描画を微調整する安定拡散パイプラインを提案し、これらの学習されたフィルタを用いて、3Dの監督なしに来る点雲ノイズを除去する方法を実証する。 提案手法をDSSとPointRadianceと比較し,Sketchfab TestsetとSCUT Datasetで高品質な3D再構成を実現した。

Existing deep learning methods for the reconstruction and denoising of point clouds rely on small datasets of 3D shapes. We circumvent the problem by leveraging deep learning methods trained on billions of images. We propose a method to reconstruct point clouds from few images and to denoise point clouds from their rendering by exploiting prior knowledge distilled from image-based deep learning models. To improve reconstruction in constraint settings, we regularize the training of a differentiable renderer with hybrid surface and appearance by introducing semantic consistency supervision. In addition, we propose a pipeline to finetune Stable Diffusion to denoise renderings of noisy point clouds and we demonstrate how these learned filters can be used to remove point cloud noise coming without 3D supervision. We compare our method with DSS and PointRadiance and achieved higher quality 3D reconstruction on the Sketchfab Testset and SCUT Dataset.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-02
# MonoBox:Monotonicity Constraintを用いた軽量なボックス管理ポリープセグメンテーション

MonoBox: Tightness-free Box-supervised Polyp Segmentation using Monotonicity Constraint ( http://arxiv.org/abs/2404.01188v2 )

ライセンス: Link先を確認
Qiang Hu, Zhenyu Yi, Ying Zhou, Ting Li, Fan Huang, Mei Liu, Qiang Li, Zhiwei Wang, (参考訳) 単調性に制約された革新的なボックス教師付きセグメンテーション手法であるMonoBoxを提案し,そのトレーニングをユーザフレンドリーでないボックスタイトネスの仮定から解放する。 ボックスエッジが正確にターゲット境界に触れなければならない従来のボックス管理セグメンテーションとは対照的に、MonoBoxは不正確なアノテートボックスを活用して、堅牢なピクセルワイドセグメンテーションを実現する。 この'linchpin'は、ボックスエッジ周辺のノイズの多いゾーンにおいて、MonoBoxは従来のミスガイドによるマルチインスタンス学習損失を捨て、代わりに慎重に設計されたモノトニック性制約と呼ばれる目的を最適化する、というものだ。 前景から背景へと遷移する方向に沿って、この新しい制約は、単調に減少する値の傾向に固執するように応答する。 したがって、ノイズゾーン内の元の信頼性の低い学習は、正しい、効果的な単調性最適化に変換される。 さらに、適応ラベル補正を導入し、MonoBoxは、以前のエポックから予測されたマスクを使用してボックスアノテーションの厳密性を向上し、トレーニングが進むにつれてノイズゾーンを動的に縮小する。 本研究は, ポリープと正常組織の境界が曖昧であるため, ボックスの密閉度を満たすことが困難であるポリープのボックス管理セグメンテーションタスクにおけるMonoBoxの検証である。 公開合成および社内実雑音データセットの実験では、MonoBoxはDiceを少なくとも5.5%改善し、3.3%改善することで、他のアンチ・ノイズ・オブ・ザ・アーティファクトを上回っている。 コードはhttps://github.com/Huster-Hq/MonoBoxにある。

We propose MonoBox, an innovative box-supervised segmentation method constrained by monotonicity to liberate its training from the user-unfriendly box-tightness assumption. In contrast to conventional box-supervised segmentation, where the box edges must precisely touch the target boundaries, MonoBox leverages imprecisely-annotated boxes to achieve robust pixel-wise segmentation. The 'linchpin' is that, within the noisy zones around box edges, MonoBox discards the traditional misguiding multiple-instance learning loss, and instead optimizes a carefully-designed objective, termed monotonicity constraint. Along directions transitioning from the foreground to background, this new constraint steers responses to adhere to a trend of monotonically decreasing values. Consequently, the originally unreliable learning within the noisy zones is transformed into a correct and effective monotonicity optimization. Moreover, an adaptive label correction is introduced, enabling MonoBox to enhance the tightness of box annotations using predicted masks from the previous epoch and dynamically shrink the noisy zones as training progresses. We verify MonoBox in the box-supervised segmentation task of polyps, where satisfying box-tightness is challenging due to the vague boundaries between the polyp and normal tissues. Experiments on both public synthetic and in-house real noisy datasets demonstrate that MonoBox exceeds other anti-noise state-of-the-arts by improving Dice by at least 5.5% and 3.3%, respectively. Codes are at https://github.com/Huster-Hq/MonoBox.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-02
# SurMo:動的人体レンダリングのための表面4次元モーションモデリング

SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering ( http://arxiv.org/abs/2404.01225v2 )

ライセンス: Link先を確認
Tao Hu, Fangzhou Hong, Ziwei Liu, (参考訳) ビデオシーケンスからの動的なヒューマンレンダリングは、静的ポーズから人間のイメージへのマッピングとしてレンダリングを定式化することで、顕著な進歩を遂げた。 しかし、既存の手法は、時間的動きの関係が完全に解明されていない間、すべてのフレームの人間の外観再構成に焦点を当てている。 本稿では,3つの重要な設計を持つ統合フレームワークにおいて,時間的ダイナミクスと人間の外観を協調的にモデル化する新しい4次元モーションモデリングパラダイムであるSurMoを提案する。 1) 効率的なコンパクトな表面ベース三葉機による4次元人間の動きをモデル化した表面ベースの動き符号化。 統計体テンプレートの高密度表面多様体上の空間的および時間的運動関係を符号化し、スパーストレーニング観測による一般化可能な新しいビュー合成のために、身体トポロジーを継承する。 2) 次の段階のt+1における空間微分と時間微分の両方を予測するために,t段の運動三面体の特徴を復号化して身体運動学習を促進するように設計された身体運動復号法。 3) 運動学習条件付き体表面のレンダリングに焦点をあてた効率的な体積表面条件付レンダラーにより, 運動三葉体を画像にレンダリングする4次元外観デコーディングを行う。 広汎な実験により、我々の新しいパラダイムの最先端性能を検証し、高速な動きと動きに依存した影を持つ高忠実な視野を持つ人間をレンダリングするための表面移動三葉飛行機の表現性を示す。 私たちのプロジェクトページは以下の通りです。

Dynamic human rendering from video sequences has achieved remarkable progress by formulating the rendering as a mapping from static poses to human images. However, existing methods focus on the human appearance reconstruction of every single frame while the temporal motion relations are not fully explored. In this paper, we propose a new 4D motion modeling paradigm, SurMo, that jointly models the temporal dynamics and human appearances in a unified framework with three key designs: 1) Surface-based motion encoding that models 4D human motions with an efficient compact surface-based triplane. It encodes both spatial and temporal motion relations on the dense surface manifold of a statistical body template, which inherits body topology priors for generalizable novel view synthesis with sparse training observations. 2) Physical motion decoding that is designed to encourage physical motion learning by decoding the motion triplane features at timestep t to predict both spatial derivatives and temporal derivatives at the next timestep t+1 in the training stage. 3) 4D appearance decoding that renders the motion triplanes into images by an efficient volumetric surface-conditioned renderer that focuses on the rendering of body surfaces with motion learning conditioning. Extensive experiments validate the state-of-the-art performance of our new paradigm and illustrate the expressiveness of surface-based motion triplanes for rendering high-fidelity view-consistent humans with fast motions and even motion-dependent shadows. Our project page is at: https://taohuumd.github.io/projects/SurMo/
翻訳日:2024-04-03 21:46:03 公開日:2024-04-02
# マルチモーダルプロトタイピングによるオープン語彙フェデレーション学習

Open-Vocabulary Federated Learning with Multimodal Prototyping ( http://arxiv.org/abs/2404.01232v2 )

ライセンス: Link先を確認
Huimin Zeng, Zhenrui Yue, Dong Wang, (参考訳) 既存の連邦学習(FL)研究は通常、トレーニングラベル空間とテストラベル空間が同一であると仮定する。 しかし、現実世界の応用では、この仮定は真であるには理想的すぎる。 新しいユーザは、目に見えないクラスのデータを含むクエリを思いつき、そのようなオープン語彙のクエリは、そのようなFLシステムを直に障害する可能性がある。 そこで本研究では,FLにおける未探索のオープン語彙問題に着目する。 つまり、新しいユーザにとって、グローバルサーバは、任意の未知のクラスを含む彼女の/彼のクエリを理解しなければならない。 この問題に対処するために、事前学習された視覚言語モデル(VLM)を利用する。 特に,Fed-MP (Federated Multimodal Prototyping) という名称のFLの文脈で VLM に適した適応フレームワークを提案する。 Fed-MPは、軽量クライアント残量に基づいて局所モデル重みを適応的に集約し、新しいマルチモーダルプロトタイピング機構に基づいて予測を行う。 Fed-MPは、見知らぬクラスから学んだ知識を活用し、適応されたVLMを目に見えないカテゴリに強化する。 各種データセットに対する実証実験により,Fed-MPの有効性が検証された。

Existing federated learning (FL) studies usually assume the training label space and test label space are identical. However, in real-world applications, this assumption is too ideal to be true. A new user could come up with queries that involve data from unseen classes, and such open-vocabulary queries would directly defect such FL systems. Therefore, in this work, we explicitly focus on the under-explored open-vocabulary challenge in FL. That is, for a new user, the global server shall understand her/his query that involves arbitrary unknown classes. To address this problem, we leverage the pre-trained vision-language models (VLMs). In particular, we present a novel adaptation framework tailored for VLMs in the context of FL, named as Federated Multimodal Prototyping (Fed-MP). Fed-MP adaptively aggregates the local model weights based on light-weight client residuals, and makes predictions based on a novel multimodal prototyping mechanism. Fed-MP exploits the knowledge learned from the seen classes, and robustifies the adapted VLM to unseen categories. Our empirical evaluation on various datasets validates the effectiveness of Fed-MP.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-02
# StructLDM:3次元ヒューマンジェネレーションのための構造的潜在拡散

StructLDM: Structured Latent Diffusion for 3D Human Generation ( http://arxiv.org/abs/2404.01241v2 )

ライセンス: Link先を確認
Tao Hu, Fangzhou Hong, Ziwei Liu, (参考訳) 近年の3次元生成モデルは, 2次元画像から3次元認識型GANを学習することにより, 顕著な進歩を遂げている。 しかし、既存の3次元人間の生成法は、人間の身体トポロジーの明瞭な構造や意味を無視して、コンパクトな1次元潜伏空間で人間をモデル化する。 本稿では,より表現的かつ高次元な3次元人体モデリング空間を探索し,拡散に基づく非条件の3次元人体生成モデルであるStructLDMを提案する。 StructLDMは3つの重要な設計で、潜在空間の高次元成長による課題を解決する。 1) 統計的人体テンプレートの高密度表面多様体上に定義された意味構造潜在空間。 2)グローバルな潜伏空間を、身体テンプレートに固定された条件付き局所的NeRFの集合によってパラメータ化されたいくつかの意味体部分に分解する構造化された3D対応オートデコーダであって、2Dトレーニングデータから得られた特性を埋め込んで、異なるポーズや服装スタイルでビュー一貫性のある人間をレンダリングするためにデコードすることができる。 3)人体外見標本作成のための構造的潜伏拡散モデル 広範囲な実験により、StructLDMの最先端生成性能が検証され、構造化された潜時空間の1D潜時空間上の表現性を示す。 特に、StructLDMは、ポーズ/ビュー/シェイプ制御や、合成世代、部品認識衣料品編集、3Dバーチャルトライオンなどのハイレベルなタスクを含む、さまざまなレベルの制御可能な3Dヒューマンジェネレーションと編集を可能にする。 私たちのプロジェクトページは以下の通りです。

Recent 3D human generative models have achieved remarkable progress by learning 3D-aware GANs from 2D images. However, existing 3D human generative methods model humans in a compact 1D latent space, ignoring the articulated structure and semantics of human body topology. In this paper, we explore more expressive and higher-dimensional latent space for 3D human modeling and propose StructLDM, a diffusion-based unconditional 3D human generative model, which is learned from 2D images. StructLDM solves the challenges imposed due to the high-dimensional growth of latent space with three key designs: 1) A semantic structured latent space defined on the dense surface manifold of a statistical human body template. 2) A structured 3D-aware auto-decoder that factorizes the global latent space into several semantic body parts parameterized by a set of conditional structured local NeRFs anchored to the body template, which embeds the properties learned from the 2D training data and can be decoded to render view-consistent humans under different poses and clothing styles. 3) A structured latent diffusion model for generative human appearance sampling. Extensive experiments validate StructLDM's state-of-the-art generation performance and illustrate the expressiveness of the structured latent space over the well-adopted 1D latent space. Notably, StructLDM enables different levels of controllable 3D human generation and editing, including pose/view/shape control, and high-level tasks including compositional generations, part-aware clothing editing, 3D virtual try-on, etc. Our project page is at: https://taohuumd.github.io/projects/StructLDM/.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-02
# 言語モデルからのビデオ大マルチモーダルモデルの直接選好最適化

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward ( http://arxiv.org/abs/2404.01258v2 )

ライセンス: Link先を確認
Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang, (参考訳) 直接選好最適化(DPO)などの選好モデリング技術は,大規模言語モデル(LLM)の一般化能力の向上に有効である。 しかし、映像の指示追従を含むタスクでは、特に生成した応答における幻覚を検出するために、情報的フィードバックを提供することが大きな課題である。 従来の研究では、大規模なマルチモーダルモデル(LMM)を報酬モデルとして利用して嗜好モデリングを導出する方法が検討されてきたが、対応するビデオと比較して、生成した応答の事実性を正確に評価する能力は確立されていない。 本稿では,詳細なビデオキャプションをビデオコンテンツのプロキシとして活用する新たなフレームワークを提案する。 提案手法は,映像フレームを直接入力として取り込むOpenAI GPT-4Vモデルの報酬機構との整合性を示す。 さらに,DPOによる報酬の調整により,ビデオQAタスクにおけるビデオLMMの性能が大幅に向上することを示す。

Preference modeling techniques, such as direct preference optimization (DPO), has shown effective in enhancing the generalization abilities of large language model (LLM). However, in tasks involving video instruction-following, providing informative feedback, especially for detecting hallucinations in generated responses, remains a significant challenge. Previous studies have explored using large large multimodal models (LMMs) as reward models to guide preference modeling, but their ability to accurately assess the factuality of generated responses compared to corresponding videos has not been conclusively established. This paper introduces a novel framework that utilizes detailed video captions as a proxy of video content, enabling language models to incorporate this information as supporting evidence for scoring video Question Answering (QA) predictions. Our approach demonstrates robust alignment with OpenAI GPT-4V model's reward mechanism, which directly takes video frames as input. Furthermore, we show that applying this tailored reward through DPO significantly improves the performance of video LMMs on video QA tasks.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-02
# IsoBench: 同型表現に関するマルチモーダル基礎モデルのベンチマーク

IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations ( http://arxiv.org/abs/2404.01266v2 )

ライセンス: Link先を確認
Deqing Fu, Ghazal Khalighinejad, Ollie Liu, Bhuwan Dhingra, Dani Yogatama, Robin Jia, Willie Neiswanger, (参考訳) 現在の基礎モデルは、テキストのみ、または画像入力とテキスト入力の両方で、印象的な機能を示している。 しかし、それらの能力は入力のモダリティによって変わりますか? 本研究では,数学,科学,アルゴリズム,ゲームという4つの主要分野の問題を含むベンチマークデータセットである$\textbf{IsoBench}$を提案する。 各例には複数の$\textbf{isomorphic representations}$の入力、例えば視覚、テキスト、数学的プレゼンテーションが提示される。 IsoBenchは、表現形式に起因するパフォーマンスギャップを診断するために、きめ細かいフィードバックを提供する。 様々な基礎モデルにおいて、同じ問題において、モデルがテキスト表現に対して一貫した嗜好を持つことが観察される。 最も顕著な点として、すべてのIsoBench問題で評価すると、Claude-3 Opusはテキストの代わりに画像が提供されると28.7ポイント、GPT-4 Turboは18.7ポイント、Gemini Proは14.9ポイント悪い点がある。 最後に,2つのプロンプト技術, $\textit{IsoCombination}$ と $\textit{IsoScratchPad}$ を提示する。

Current foundation models exhibit impressive capabilities when prompted either with text only or with both image and text inputs. But do their capabilities change depending on the input modality? In this work, we propose $\textbf{IsoBench}$, a benchmark dataset containing problems from four major areas: math, science, algorithms, and games. Each example is presented with multiple $\textbf{isomorphic representations}$ of inputs, such as visual, textual, and mathematical presentations. IsoBench provides fine-grained feedback to diagnose performance gaps caused by the form of the representation. Across various foundation models, we observe that on the same problem, models have a consistent preference towards textual representations. Most prominently, when evaluated on all IsoBench problems, Claude-3 Opus performs 28.7 points worse when provided with images instead of text; similarly, GPT-4 Turbo is 18.7 points worse and Gemini Pro is 14.9 points worse. Finally, we present two prompting techniques, $\textit{IsoCombination}$ and $\textit{IsoScratchPad}$, which improve model performance by considering combinations of, and translations between, different input representations.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-02
# Laying Anchors: 言語モデリングにおける数値のセマンティックプライミング

Laying Anchors: Semantically Priming Numerals in Language Modeling ( http://arxiv.org/abs/2404.01536v1 )

ライセンス: Link先を確認
Mandar Sharma, Rutuja Murlidhar Taware, Pravesh Koirala, Nikhil Muralidhar, Naren Ramakrishnan, (参考訳) オフザシェルフで事前訓練された言語モデルは、さまざまな下流タスクのために、NLPパイプラインのデファクトスタンダードになっている。 しかし、これらのモデルが数値を適切にエンコードできないため、数値理解を必要とするタスクのパフォーマンスが制限される。 我々は,任意のコーパスにおいて,そのコーパス内の数値分布に支配されるアンカーを生成することによって,意味的素数に対する戦略を導入し,これらの数値トークンの数学的基底表現を可能にする。 提案手法の優位性は,内領域(目)と外領域(目)の両方の数値タスクの評価により確立する。 さらに,実験的な評価を10億から100億の数値にまで拡張し,従来の同じ性質の研究に比べてはるかに広い範囲で実施し,学習した埋め込みの数学的基礎化において大きな改善が示された。

Off-the-shelf pre-trained language models have become the de facto standard in NLP pipelines for a multitude of downstream tasks. However, the inability of these models to properly encode numerals limits their performance on tasks requiring numeric comprehension. We introduce strategies to semantically prime numerals in any corpus by generating anchors governed by the distribution of numerals in said corpus, thereby enabling mathematically grounded representations of these numeral tokens. We establish the superiority of our proposed techniques through evaluation on a range of numeracy tasks for both in-domain (seen) and out-domain (unseen) numerals. Further, we expand our empirical evaluations to numerals ranging from 1 to 10 billion, a significantly broader range compared to previous studies of the same nature, and we demonstrate significant improvements in the mathematical grounding of our learned embeddings.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-02
# 合意書による基礎モデルの性能予測

Predicting the Performance of Foundation Models via Agreement-on-the-Line ( http://arxiv.org/abs/2404.01542v1 )

ライセンス: Link先を確認
Aman Mehra, Rahul Saxena, Taeyoun Kim, Christina Baek, Zico Kolter, Aditi Raghunathan, (参考訳) ラベルが不足しているレジームにおけるアウト・オブ・ディストリビューションのパフォーマンスを見積もるのは、ファンデーションモデルを安全にデプロイする上で非常に重要です。 近年、ニューラルネットワークのアンサンブルが'agreement-on-the-line'という現象を観測し、ラベルなしでOOD性能を確実に予測できることを示した。 しかし、多くのエポックにおいて、スクラッチから分配データに基づいて訓練された古典的ニューラルネットワークとは対照的に、基礎モデルは、事前訓練された重みから最小限の微調整を受けており、コンセンサス・オン・ザ・ラインの観測に必要なアンサンブルの多様性を低下させる可能性がある。 我々の研究は、$\textit{single}$ファンデーションモデルから複数の実行を軽く微調整する場合、トレーニング中のランダム性の選択(線形ヘッドの初期化、データ順序付け、データサブセット)は、結果として得られるアンサンブルにおいて、劇的に異なるレベルの合意をもたらすことを実証している。 驚くべきことに、視覚と言語ベンチマークをまたいだ微調整された基礎モデルにおいて、ランダムな頭初期化だけが確実に一致を誘導することができる。 第2に、異なるデータセットで事前訓練されているが、同じタスクで微調整された、$\textit{multiple}$ファンデーションモデルのアンサンブルも、ライン上での合意を示すことができることを示す。 総じて、多様なアンサンブルを慎重に構築することにより、高精度な基礎モデルのOOD性能を予測するために、ライン・オン・ザ・ライン・ベースの手法を利用できる。

Estimating the out-of-distribution performance in regimes where labels are scarce is critical to safely deploy foundation models. Recently, it was shown that ensembles of neural networks observe the phenomena ``agreement-on-the-line'', which can be leveraged to reliably predict OOD performance without labels. However, in contrast to classical neural networks that are trained on in-distribution data from scratch for numerous epochs, foundation models undergo minimal finetuning from heavily pretrained weights, which may reduce the ensemble diversity needed to observe agreement-on-the-line. In our work, we demonstrate that when lightly finetuning multiple runs from a $\textit{single}$ foundation model, the choice of randomness during training (linear head initialization, data ordering, and data subsetting) can lead to drastically different levels of agreement-on-the-line in the resulting ensemble. Surprisingly, only random head initialization is able to reliably induce agreement-on-the-line in finetuned foundation models across vision and language benchmarks. Second, we demonstrate that ensembles of $\textit{multiple}$ foundation models pretrained on different datasets but finetuned on the same task can also show agreement-on-the-line. In total, by careful construction of a diverse ensemble, we can utilize agreement-on-the-line-based methods to predict the OOD performance of foundation models with high precision.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-02
# メッシュ型ハッシュテーブルブレンドを用いた高能率3次元インシシトヘッドアバター

Efficient 3D Implicit Head Avatar with Mesh-anchored Hash Table Blendshapes ( http://arxiv.org/abs/2404.01543v1 )

ライセンス: Link先を確認
Ziqian Bai, Feitong Tan, Sean Fanello, Rohit Pandey, Mingsong Dou, Shichen Liu, Ping Tan, Yinda Zhang, (参考訳) 暗黙の容積表現で構築された3Dヘッドアバターは、前例のないレベルのフォトリアリズムを達成した。 しかし、これらの手法の計算コストは、特に仮想現実や遠隔会議のようなリアルタイムアプリケーションにおいて、広く普及する上で大きな障壁となっている。 静的シーンのための高速なニューラルレンダリングアプローチを開発する試みはなされているが、動的な顔のパフォーマンスなど、現実的な表情をサポートするためにこれらの手法は単純には使用できない。 これらの課題に対処するために,高速な3次元暗黙的頭部アバターモデルを提案する。 私たちのキーとなるアイデアは、基礎となる顔パラメトリックモデルの頂点を学習し、アタッチメントするローカルハッシュテーブルのブレンドサップの導入にあります。 これらの頂点ごとのハッシュテーブルは、CNNを介して予測される重みと線形にマージされ、式依存の埋め込みをもたらす。 我々の新しい表現は、階層的近接探索法によりさらに加速される軽量MLPを用いて、効率的な密度と色予測を可能にする。 大規模な実験により、我々の手法はリアルタイムに動作し、最先端のレンダリング品質と同等のレンダリング品質を実現し、挑戦的な表現に対して十分な結果が得られることが示された。

3D head avatars built with neural implicit volumetric representations have achieved unprecedented levels of photorealism. However, the computational cost of these methods remains a significant barrier to their widespread adoption, particularly in real-time applications such as virtual reality and teleconferencing. While attempts have been made to develop fast neural rendering approaches for static scenes, these methods cannot be simply employed to support realistic facial expressions, such as in the case of a dynamic facial performance. To address these challenges, we propose a novel fast 3D neural implicit head avatar model that achieves real-time rendering while maintaining fine-grained controllability and high rendering quality. Our key idea lies in the introduction of local hash table blendshapes, which are learned and attached to the vertices of an underlying face parametric model. These per-vertex hash-tables are linearly merged with weights predicted via a CNN, resulting in expression dependent embeddings. Our novel representation enables efficient density and color predictions using a lightweight MLP, which is further accelerated by a hierarchical nearest neighbor search method. Extensive experiments show that our approach runs in real-time while achieving comparable rendering quality to state-of-the-arts and decent results on challenging expressions.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-02
# 画像レイニングのための双方向多スケール命令型ニューラル表現

Bidirectional Multi-Scale Implicit Neural Representations for Image Deraining ( http://arxiv.org/abs/2404.01547v1 )

ライセンス: Link先を確認
Xiang Chen, Jinshan Pan, Jiangxin Dong, (参考訳) レインストリークのマルチスケール表現を効果的に探索する方法は,画像のデライン化に重要である。 単一スケールの降雨量に大きく依存する既存のTransformer方式とは対照的に,高品質な画像再構成を実現するために,様々なスケールで潜在的に有用な機能を利用するエンドツーエンドのマルチスケールトランスフォーマーを開発した。 空間的に変化する雨害からの一般的な劣化表現をよりよく探索するため, 閉鎖ループ設計において, 劣化した入力と画素座標に基づく大規模暗黙的ニューラル表現を組み込むことで, 学習した特徴が雨の除去を容易にし, 複雑なシナリオにおけるモデルの堅牢性を向上させることができる。 異なるスケールからよりリッチな協調表現を実現するため、粗大かつ細小な情報通信を行うことにより、単純かつ効果的な双方向フィードバック操作をマルチスケールトランスフォーマーに組み込む。 大規模な実験により、我々のアプローチはNeRD-Rainと呼ばれ、合成および実世界のベンチマークデータセットにおいて最先端のアプローチに対して好意的に機能することが示された。 ソースコードとトレーニングされたモデルはhttps://github.com/cschenxiang/NeRD-Rain.orgで公開されている。

How to effectively explore multi-scale representations of rain streaks is important for image deraining. In contrast to existing Transformer-based methods that depend mostly on single-scale rain appearance, we develop an end-to-end multi-scale Transformer that leverages the potentially useful features in various scales to facilitate high-quality image reconstruction. To better explore the common degradation representations from spatially-varying rain streaks, we incorporate intra-scale implicit neural representations based on pixel coordinates with the degraded inputs in a closed-loop design, enabling the learned features to facilitate rain removal and improve the robustness of the model in complex scenarios. To ensure richer collaborative representation from different scales, we embed a simple yet effective inter-scale bidirectional feedback operation into our multi-scale Transformer by performing coarse-to-fine and fine-to-coarse information communication. Extensive experiments demonstrate that our approach, named as NeRD-Rain, performs favorably against the state-of-the-art ones on both synthetic and real-world benchmark datasets. The source code and trained models are available at https://github.com/cschenxiang/NeRD-Rain.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-02
# mChartQA:ビジョンランゲージアライメントと推論に基づくマルチモーダルチャート質問回答の普遍的ベンチマーク

mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning ( http://arxiv.org/abs/2404.01548v1 )

ライセンス: Link先を確認
Jingxuan Wei, Nan Xu, Guiyong Chang, Yin Luo, BiHui Yu, Ruifeng Guo, (参考訳) コンピュータビジョンと自然言語処理の分野では、特に色、構造、テキストレスチャートを含むマルチモーダルチャートの問合せが大きな課題となっている。 通常、直接マルチモーダル処理やテーブル・トゥ・テキスト変換、言語モデル解析を含む従来の手法は、これらの複雑なシナリオを効果的に扱うのに制限がある。 本稿では,これらの複雑な課題に対処するために特別に設計された,新しいマルチモーダルチャート質問応答モデルを提案する。 我々のモデルは、既存の手法の制約を克服し、視覚的および言語的処理を統合する。 初期フェーズは画像とテキスト表現の整合に焦点を合わせ、その後フェーズは、チャート関連クエリにおけるモデルの解釈的および分析的能力の最適化に集中する。 このアプローチは、複数の公開データセット、特に色、構造、テキストレスチャートの質問に優れた性能を示し、複雑なマルチモーダルタスクにおけるその有効性を示している。

In the fields of computer vision and natural language processing, multimodal chart question-answering, especially involving color, structure, and textless charts, poses significant challenges. Traditional methods, which typically involve either direct multimodal processing or a table-to-text conversion followed by language model analysis, have limitations in effectively handling these complex scenarios. This paper introduces a novel multimodal chart question-answering model, specifically designed to address these intricate tasks. Our model integrates visual and linguistic processing, overcoming the constraints of existing methods. We adopt a dual-phase training approach: the initial phase focuses on aligning image and text representations, while the subsequent phase concentrates on optimizing the model's interpretative and analytical abilities in chart-related queries. This approach has demonstrated superior performance on multiple public datasets, particularly in handling color, structure, and textless chart questions, indicating its effectiveness in complex multimodal tasks.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-02
# Octopus: ソフトウェアAPIの関数呼び出しのためのオンデバイス言語モデル

Octopus: On-device language model for function calling of software APIs ( http://arxiv.org/abs/2404.01549v1 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, Mingyuan Ma, (参考訳) 人工知能の急速に発展する領域において、Large Language Models (LLMs) はその高度なテキスト処理と生成能力のために重要な役割を担っている。 本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。 ソフトウェアAPIのドキュメントから得られたデータセットを慎重にコンパイルし,2B,3B,7Bパラメータを持つLCMに微調整を適用する。 当社のアプローチでは,モデルがAPI構造や構文を把握し,API関数呼び出しの精度を大幅に向上させることに集中しています。 さらに、所望のフォーマットでの出力を保証し、推論速度を維持しながらエラー率を低減するために、 \textit{conditional masking} 技術を提案する。 また,APIインタラクションにおけるLLMの有効性を評価するための新しいベンチマークを提案し,その後の研究の基盤を確立する。 微調整されたモデルであるOctopusは、ソフトウェアAPI呼び出しにおけるGPT-4よりも優れたパフォーマンスであることが証明されている。 本研究は,LLM機能と実用的なソフトウェア工学アプリケーションの要求の整合性を大幅に向上させる,自動ソフトウェア開発とAPI統合の進歩を目標とする。

In the rapidly evolving domain of artificial intelligence, Large Language Models (LLMs) play a crucial role due to their advanced text processing and generation abilities. This study introduces a new strategy aimed at harnessing on-device LLMs in invoking software APIs. We meticulously compile a dataset derived from software API documentation and apply fine-tuning to LLMs with capacities of 2B, 3B and 7B parameters, specifically to enhance their proficiency in software API interactions. Our approach concentrates on refining the models' grasp of API structures and syntax, significantly enhancing the accuracy of API function calls. Additionally, we propose \textit{conditional masking} techniques to ensure outputs in the desired formats and reduce error rates while maintaining inference speeds. We also propose a novel benchmark designed to evaluate the effectiveness of LLMs in API interactions, establishing a foundation for subsequent research. Octopus, the fine-tuned model, is proved to have better performance than GPT-4 for the software APIs calling. This research aims to advance automated software development and API integration, representing substantial progress in aligning LLM capabilities with the demands of practical software engineering applications.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-02
# 動的ネットワークブリッジのための制御理論安全保証を用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Control-Theoretic Safety Guarantees for Dynamic Network Bridging ( http://arxiv.org/abs/2404.01551v1 )

ライセンス: Link先を確認
Raffaele Galliera, Konstantinos Mitsopoulos, Niranjan Suri, Raffaele Romagnoli, (参考訳) 安全クリティカル環境における複雑な協調作業に対処することは、特に部分観測可能性の条件下では、マルチエージェントシステムにとって大きな課題となる。 この研究は、マルチエージェント強化学習と制御理論的手法を統合するハイブリッドアプローチを導入し、安全で効率的な分散戦略を確実にする。 私たちのコントリビューションには、ミッションの目的を損なうことなく、エージェントの位置を動的に調整して安全状態を維持する新しいセットポイント更新アルゴリズムが含まれています。 実験により、従来のMARL戦略よりも大きな利点を示し、安全違反のないタスク性能を実現した。 本研究は,安全管理と学習アプローチの統合により,安全コンプライアンスが向上するだけでなく,ミッション目標の達成も達成できることを示唆する。

Addressing complex cooperative tasks in safety-critical environments poses significant challenges for Multi-Agent Systems, especially under conditions of partial observability. This work introduces a hybrid approach that integrates Multi-Agent Reinforcement Learning with control-theoretic methods to ensure safe and efficient distributed strategies. Our contributions include a novel setpoint update algorithm that dynamically adjusts agents' positions to preserve safety conditions without compromising the mission's objectives. Through experimental validation, we demonstrate significant advantages over conventional MARL strategies, achieving comparable task performance with zero safety violations. Our findings indicate that integrating safe control with learning approaches not only enhances safety compliance but also achieves good performance in mission objectives.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-02
# 公共部門におけるオープンイノベーションパラダイムの活用--公開研究の体系的レビュー

The use of the open innovation paradigm in the public sector: a systematic review of published studies ( http://arxiv.org/abs/2404.01552v1 )

ライセンス: Link先を確認
J. A. Lima-Júnior, K. S. Gama, J. S. Correia-Neto, (参考訳) オープンなイノベーションパラダイムの使用は、ここ数年、公共セクターで特に注目を集めてきた。 より複雑で困難な都市環境に動機づけられたいくつかの政府機関は、オープンで参加的な政府のイニシアチブを促進するための財政資源や努力を割り当ててきた。 このシナリオを解明し理解するために、論文の体系的なレビューを行い、出版された科学論文を包括的に分析し、このパラダイムが公共部門でどのように実践されたのかを捉え、分類し、評価し、合成した。 調査対象は4,741件であった。 この数から、データ抽出と分析のプロセスを経て、潜在的に関連性があり前進している記事は37件に過ぎなかった。 得られたデータから, このパラダイムの使用が2013年以降, 文献で高い頻度で報告され始めたことを確認でき, 主な知見として, 経験, 提案, 現象の発生状況, 理論反射の理解の報告を取り上げている。 また、ソーシャルメディアによるオープンイノベーションの利用が、公共セクターと市民の間のエンゲージメントの先駆的手法の1つであることも確認できた。 結論として、このパラダイムが公共セクターに適用される主な課題は、それぞれの官僚的側面と関係していることが確認された。

The use of the open innovation paradigm has been, over the past years, getting special attention in the public sector. Motivated by an urban environment that is increasingly more complex and challenging, several government agencies have been allocating financial resources and efforts to promote open and participative government initiatives. As a way to try and understand this scenario, a systematic review of the literature was conducted, to provide a comprehensive analysis of the scientific papers that were published, seeking to capture, classify, evaluate and synthesize how the use of this paradigm has been put into practice in the public sector. In total, 4,741 preliminary studies were analyzed. From this number, only 37 articles were classified as potentially relevant and moved forward, going through the process of data extraction and analysis. From the data obtained, it was possible to verify that the use of this paradigm started to be reported with a higher frequency in the literature since 2013 and, among the main findings, we highlight the reports of experiences, approach propositions, of understanding how the phenomenon occurs and theoretical reflections. It was also possible to verify that the use of open innovation through social media was one of the pioneer techniques of engagement between the public sector and citizens. In conclusion, the reports confirm that the main challenges of this paradigm applied to the public sector are associated with their respective bureaucratic aspects, therefore lacking a bigger reflection on the procedures and methods to be used in the public sphere.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# FT2Ra: Retrieval-Augmented Code Completionへの微調整によるアプローチ

FT2Ra: A Fine-Tuning-Inspired Approach to Retrieval-Augmented Code Completion ( http://arxiv.org/abs/2404.01554v1 )

ライセンス: Link先を確認
Qi Guo, Xiaohong Li, Xiaofei Xie, Shangqing Liu, Ze Tang, Ruitao Feng, Junjie Wang, Jidong Ge, Lei Bu, (参考訳) 事前トレーニングされたモデルの台頭は、コード補完やGitHub Copilotのようなツールなど、さまざまなコーディングタスクを大幅に強化した。 しかし、これらのモデル、特に大きなモデルの大きさは、特定の下流タスクを微調整する上で大きな課題となる。 代替手法として、検索ベースの手法が有望な解決策として登場し、微調整を必要とせずにモデル予測を増大させた。 それらの可能性にもかかわらず、重要な課題は、これらの手法の設計がしばしばヒューリスティックに頼り、どの情報を保存または取得すべきか、どのようにその情報を補間して予測を強化するべきかという重要な疑問を残していることである。 この課題に対処するために、我々はまず微調整過程の理論解析を行い、モデル予測を改善する触媒としてのデルタロジットの重要性を強調した。 この知見に基づいて,真の微調整を模倣することを目的とした新しい検索手法FT2Raを開発した。 FT2Raは検索に基づく機構を採用しているが,比較的簡単なタスクを表すトークンレベルの補完では,UniXcoderの最良のベースライン手法に比べて4.29%の精度向上を実現している。 より困難なラインレベルの完了タスクでは、エクササイズマッチ(EM)の性能が2倍以上に向上し、理論解析の顕著な利点が示される。 特に、実際の微調整なしで動作している場合でも、FT2Raは実際の微調整のあるモデルと比較して競争性能を示す。

The rise of code pre-trained models has significantly enhanced various coding tasks, such as code completion, and tools like GitHub Copilot. However, the substantial size of these models, especially large models, poses a significant challenge when it comes to fine-tuning them for specific downstream tasks. As an alternative approach, retrieval-based methods have emerged as a promising solution, augmenting model predictions without the need for fine-tuning. Despite their potential, a significant challenge is that the designs of these methods often rely on heuristics, leaving critical questions about what information should be stored or retrieved and how to interpolate such information for augmenting predictions. To tackle this challenge, we first perform a theoretical analysis of the fine-tuning process, highlighting the importance of delta logits as a catalyst for improving model predictions. Building on this insight, we develop a novel retrieval-based method, FT2Ra, which aims to mimic genuine fine-tuning. While FT2Ra adopts a retrieval-based mechanism, it uniquely adopts a paradigm with a learning rate and multi-epoch retrievals, which is similar to fine-tuning.In token-level completion, which represents a relatively easier task, FT2Ra achieves a 4.29% improvement in accuracy compared to the best baseline method on UniXcoder. In the more challenging line-level completion task, we observe a substantial more than twice increase in Exact Match (EM) performance, indicating the significant advantages of our theoretical analysis. Notably, even when operating without actual fine-tuning, FT2Ra exhibits competitive performance compared to the models with real fine-tuning.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# 動的ネットワークブリッジのための分散自律群形成

Distributed Autonomous Swarm Formation for Dynamic Network Bridging ( http://arxiv.org/abs/2404.01557v1 )

ライセンス: Link先を確認
Raffaele Galliera, Thies Möhlenhof, Alessandro Amato, Daniel Duran, Kristen Brent Venable, Niranjan Suri, (参考訳) ロボットシステムの効果的な操作とシームレスな協調は、次世代技術や応用の基本的な構成要素である。 災害対応などの文脈では、Swarm操作は協調行動と移動制御を分散的に扱う必要があり、エージェントの行動の質はそれらと基盤となるネットワーク間の通信に大きく依存する。 本稿では,分散化された部分観測可能なマルコフ決定プロセス(Dec-POMDP)において,エージェント群が協調して2つの移動目標間のリンクを形成する動的ネットワークブリッジの問題を定式化する。 さらに,グラフ畳み込み強化学習(DGN)に基づくマルチエージェント強化学習(MARL)手法を提案する。 提案手法はシミュレーション環境で評価し,将来性を示す集中型ヒューリスティックベースラインと比較した。 さらに、LVC(Live Virtual Constructive) UAV(Live Virtual Constructive) UAV)フレームワークにおいて、提案手法を更に評価することにより、sim-to-realトランスファーの方向性のさらなるステップを示す。

Effective operation and seamless cooperation of robotic systems are a fundamental component of next-generation technologies and applications. In contexts such as disaster response, swarm operations require coordinated behavior and mobility control to be handled in a distributed manner, with the quality of the agents' actions heavily relying on the communication between them and the underlying network. In this paper, we formulate the problem of dynamic network bridging in a novel Decentralized Partially Observable Markov Decision Process (Dec-POMDP), where a swarm of agents cooperates to form a link between two distant moving targets. Furthermore, we propose a Multi-Agent Reinforcement Learning (MARL) approach for the problem based on Graph Convolutional Reinforcement Learning (DGN) which naturally applies to the networked, distributed nature of the task. The proposed method is evaluated in a simulated environment and compared to a centralized heuristic baseline showing promising results. Moreover, a further step in the direction of sim-to-real transfer is presented, by additionally evaluating the proposed approach in a near Live Virtual Constructive (LVC) UAV framework.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# 大規模言語モデルを用いたテストケース仕様によるユーザストーリーの自動生成

Automated User Story Generation with Test Case Specification Using Large Language Model ( http://arxiv.org/abs/2404.01558v1 )

ライセンス: Link先を確認
Tajmilur Rahman, Yuecai Zhu, (参考訳) 現代のソフトウェア工学の時代は人工知能(AI)、特にLarge Language Models(LLM)の助けを借りて急速に進んでいる。 研究者はすでに、ソフトウェア開発ワークフローの多くの部分を自動化し始めている。 要件工学(RE)は、さまざまな形式で文書化された作業の範囲について提案された複数の議論を通じて、ソフトウェア開発サイクルを開始する重要なフェーズである。 REフェーズは、議論を通じて特定された各ユニットタスクのユーザストーリーのリストで終わり、通常はJiraやAzurDevといったプロジェクト管理ツールで作成、追跡される。 本研究では,要件文書からユーザストーリーを自動生成するツールであるGPT-4.0「GeneUS」を開発した。 アウトプットはJSON形式で提供され、ダウンストリーム統合の可能性は人気のあるプロジェクト管理ツールに開放されている。 要求文書の分析には多大な労力と利害関係者との複数のミーティングがかかります。 このプロセスを自動化することで、ソフトウェアエンジニアの負荷が増大し、他の優先順位付けされたタスクに時間を費やすことができるため、生産性が向上する、と私たちは信じています。

Modern Software Engineering era is moving fast with the assistance of artificial intelligence (AI), especially Large Language Models (LLM). Researchers have already started automating many parts of the software development workflow. Requirements Engineering (RE) is a crucial phase that begins the software development cycle through multiple discussions on a proposed scope of work documented in different forms. RE phase ends with a list of user-stories for each unit task identified through discussions and usually these are created and tracked on a project management tool such as Jira, AzurDev etc. In this research we developed a tool "GeneUS" using GPT-4.0 to automatically create user stories from requirements document which is the outcome of the RE phase. The output is provided in JSON format leaving the possibilities open for downstream integration to the popular project management tools. Analyzing requirements documents takes significant effort and multiple meetings with stakeholders. We believe, automating this process will certainly reduce additional load off the software engineers, and increase the productivity since they will be able to utilize their time on other prioritized tasks.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# テープ状ナノビームを用いた効率よく識別不可能なCバンド光子

Efficient, indistinguishable telecom C-band photons using a tapered nanobeam ( http://arxiv.org/abs/2404.01562v1 )

ライセンス: Link先を確認
Mohammad Habibur Rahaman, Samuel Harper, Chang-Min Lee, Kyu-Young Kim, Mustafa Atabey Buyukkaya, Victor J. Patel, Samuel D. Hawkins, Je-Hyung Kim, Sadhvikas Addamane, Edo Waks, (参考訳) テレコムのCバンド単一光子は、光ファイバーにおいて最低減衰を示し、長期の量子安全な通信を可能にする。 しかし、これらの単一光子が長距離伝送において効果的なキャリアとなるためには、光ファイバーとの効率的な結合が不可欠である。 本研究では,InAs/InP量子ドットをテープ状ナノビームに結合した電気通信用Cバンドにおいて,効率的なファイバー結合型単一光子源を実証する。 テーパ状ナノビーム構造は、レンズファイバにモード整合した方向性発光を促進し、ナノビームから単一モードファイバへの回収効率を最大65%向上させる。 このアプローチを用いて、単光子数レートが575$\pm$ 5 Kcps、単光子純度が$g^2$ (0) = 0.015$\pm$ 0.003であることを示す。 さらに、放射光子からの香港・ウー・マンデル干渉の可視性は0.84$\pm$ 0.06である。 これらの測定から、光子のコヒーレンス時間は450$\pm$20 psであり、寿命限界からわずか8.3離れた。 この研究は、ファイバベースの長距離量子ネットワークを実現するために必要な、明るく、純粋で、識別不可能な光子を放出する通信用Cバンド単一光子源の開発に向けた重要なステップである。

Telecom C-band single photons exhibit the lowest attenuation in optical fibers, enabling long-haul quantum-secured communication. However, efficient coupling with optical fibers is crucial for these single photons to be effective carriers in long-distance transmission. In this work, we demonstrate an efficient fiber-coupled single photon source at the telecom C-band using InAs/InP quantum dots coupled to a tapered nanobeam. The tapered nanobeam structure facilitates directional emission that is mode-matched to a lensed fiber, resulting in a collection efficiency of up to 65% from the nanobeam to a single-mode fiber. Using this approach, we demonstrate single photon count rates of 575 $\pm$ 5 Kcps and a single photon purity of $g^2$ (0) = 0.015 $\pm$ 0.003. Additionally, we demonstrate Hong-Ou Mandel interference from the emitted photons with a visibility of 0.84 $\pm$ 0.06. From these measurements, we determine a photon coherence time of 450 $\pm$ 20 ps, a factor of just 8.3 away from the lifetime limit. This work represents an important step towards the development of telecom C-band single-photon sources emitting bright, pure, and indistinguishable photons, which are necessary to realize fiber-based long-distance quantum networks
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# 線量認識を伴う2相多段PET画像再構成

Two-Phase Multi-Dose-Level PET Image Reconstruction with Dose Level Awareness ( http://arxiv.org/abs/2404.01563v1 )

ライセンス: Link先を確認
Yuchen Fei, Yanmei Luo, Yan Wang, Jiaqi Cui, Yuanyuan Xu, Jiliu Zhou, Dinggang Shen, (参考訳) 放射線被曝を最小限に抑えつつ、高画質のポジトロンエミッショントモグラフィ(PET)を得るために、対応する低線量PET(LPET)画像から標準線量PET(SPET)を再構成する様々な方法が考案されている。 しかしながら、現在のほとんどの方法は、単線量レベルのPET画像とSPET画像のマッピングを単に学習するだけであるが、臨床シナリオにおけるLPET画像の線量差を省略する。 本稿では,多線量レベルのPET画像から高品質なSPET画像を再構成するために,前訓練フェーズとSPET予測フェーズを含む,線量レベルの認識が可能な2相多線量レベルのPET再構成アルゴリズムを設計する。 特に、事前学習フェーズは、きめ細かい識別特徴と効果的な意味表現の両方を探索するために考案された。 SPET予測フェーズは、事前学習した線量レベルを利用して予備結果を生成する粗い予測ネットワークと、詳細を正確に保存する精細化ネットワークとを採用する。 MICCAI 2022 Ultra-low Dose PET Imaging Challenge Dataset 実験により,本手法の優位性を実証した。

To obtain high-quality positron emission tomography (PET) while minimizing radiation exposure, a range of methods have been designed to reconstruct standard-dose PET (SPET) from corresponding low-dose PET (LPET) images. However, most current methods merely learn the mapping between single-dose-level LPET and SPET images, but omit the dose disparity of LPET images in clinical scenarios. In this paper, to reconstruct high-quality SPET images from multi-dose-level LPET images, we design a novel two-phase multi-dose-level PET reconstruction algorithm with dose level awareness, containing a pre-training phase and a SPET prediction phase. Specifically, the pre-training phase is devised to explore both fine-grained discriminative features and effective semantic representation. The SPET prediction phase adopts a coarse prediction network utilizing pre-learned dose level prior to generate preliminary result, and a refinement network to precisely preserve the details. Experiments on MICCAI 2022 Ultra-low Dose PET Imaging Challenge Dataset have demonstrated the superiority of our method.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# Vectorized Kernel Mixture (VecKM) を用いた線形時間空間局所点雲幾何エンコーダ

A Linear Time and Space Local Point Cloud Geometry Encoder via Vectorized Kernel Mixture (VecKM) ( http://arxiv.org/abs/2404.01568v1 )

ライセンス: Link先を確認
Dehao Yuan, Cornelia Fermüller, Tahseen Rabbani, Furong Huang, Yiannis Aloimonos, (参考訳) 本稿では,ノイズに対して記述的かつ効率的かつ堅牢な新しい局所点雲幾何エンコーダであるVecKMを提案する。 VecKMは、局所的な点雲を表すためにカーネル混合物をベクトル化するユニークなアプローチを利用する。 この表現は、局所的な形状の類似性を再構築し保存する能力を確認する2つの定理によって支持される。 さらに、VecKMは計算とメモリコストを$O(n^2+nKd)$から$O(nd)$に下げる試みとして初めて成功した。 この効率性は、VecKM の特異な分解可能な性質により、点を地区に明示的にグループ化する必要がなくなるためである。 通常の推定タスクでは、VecKMは100倍高速な推論速度だけでなく、既存のエンコーダに比べて記述性や堅牢性も高いことを示した。 分類とセグメンテーションタスクでは、前処理モジュールとしてVecKMを統合することで、PointNet、PointNet++、ポイントトランスフォーマーベースラインよりも一貫してパフォーマンスが向上し、最大10倍高速に動作する。

We propose VecKM, a novel local point cloud geometry encoder that is descriptive, efficient and robust to noise. VecKM leverages a unique approach by vectorizing a kernel mixture to represent the local point clouds. Such representation is descriptive and robust to noise, which is supported by two theorems that confirm its ability to reconstruct and preserve the similarity of the local shape. Moreover, VecKM is the first successful attempt to reduce the computation and memory costs from $O(n^2+nKd)$ to $O(nd)$ by sacrificing a marginal constant factor, where $n$ is the size of the point cloud and $K$ is neighborhood size. The efficiency is primarily due to VecKM's unique factorizable property that eliminates the need of explicitly grouping points into neighborhoods. In the normal estimation task, VecKM demonstrates not only 100x faster inference speed but also strongest descriptiveness and robustness compared with existing popular encoders. In classification and segmentation tasks, integrating VecKM as a preprocessing module achieves consistently better performance than the PointNet, PointNet++, and point transformer baselines, and runs consistently faster by up to 10x.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# コントラスト集合を用いた大規模言語モデルの評価:実験的アプローチ

Evaluating Large Language Models Using Contrast Sets: An Experimental Approach ( http://arxiv.org/abs/2404.01569v1 )

ライセンス: Link先を確認
Manish Sanwal, (参考訳) 自然言語推論(NLI)分野において、特に複数の入力テキストの分類に関わるタスクにおいて、クロスエントロピーロス計量は誤り測定の標準として広く使われている。 しかし、この指標は、言語の意味を理解するためのモデルの能力を効果的に評価するに足りません。 本研究では,Stanford Natural Language Inference (SNLI)データセットのコントラストセットを生成する革新的な手法を提案する。 我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。 本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。 ELECTRA小モデルを用いて解析を行った。 このモデルは従来のSNLIデータセットでは89.9%の精度を達成したが、コントラストセットでは72.5%の精度が低下し、実質的な17%の低下を示した。 この結果から,モデルの学習行動について詳細に検討した。 その後、SNLI用に特別に設計されたコントラスト強化トレーニングデータセットを微調整することでモデルのレジリエンスを向上し、コントラストセットの精度を85.5%に向上した。 本研究は,NLIタスクのデータセットに多様な言語表現を組み込むことの重要性を強調した。 我々の研究は、より包括的データセットの作成を奨励し、より高度で効果的なNLIモデルの開発に寄与することを願っている。

In the domain of Natural Language Inference (NLI), especially in tasks involving the classification of multiple input texts, the Cross-Entropy Loss metric is widely employed as a standard for error measurement. However, this metric falls short in effectively evaluating a model's capacity to understand language entailments. In this study, we introduce an innovative technique for generating a contrast set for the Stanford Natural Language Inference (SNLI) dataset. Our strategy involves the automated substitution of verbs, adverbs, and adjectives with their synonyms to preserve the original meaning of sentences. This method aims to assess whether a model's performance is based on genuine language comprehension or simply on pattern recognition. We conducted our analysis using the ELECTRA-small model. The model achieved an accuracy of 89.9% on the conventional SNLI dataset but showed a reduced accuracy of 72.5% on our contrast set, indicating a substantial 17% decline. This outcome led us to conduct a detailed examination of the model's learning behaviors. Following this, we improved the model's resilience by fine-tuning it with a contrast-enhanced training dataset specifically designed for SNLI, which increased its accuracy to 85.5% on the contrast sets. Our findings highlight the importance of incorporating diverse linguistic expressions into datasets for NLI tasks. We hope that our research will encourage the creation of more inclusive datasets, thereby contributing to the development of NLI models that are both more sophisticated and effective.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# ドローン画像におけるゼロショット人物検出と行動認識のためのYOLO-WorldとGPT-4V LMMの活用

Leveraging YOLO-World and GPT-4V LMMs for Zero-Shot Person Detection and Action Recognition in Drone Imagery ( http://arxiv.org/abs/2404.01571v1 )

ライセンス: Link先を確認
Christian Limberg, Artur Gonçalves, Bastien Rigault, Helmut Prendinger, (参考訳) 本稿では,ドローン認識分野におけるゼロショット大型マルチモーダルモデル(LMM)の可能性について検討する。 人検出と行動認識のタスクに焦点をあて、航空ビューから取得した公開データセットを用いて、YOLO-WorldとGPT-4V(ision)という2つの顕著なLMMを評価する。 従来のディープラーニングアプローチは、大規模で高品質なトレーニングデータセットに大きく依存しています。 しかし、特定のロボット環境では、そのようなデータセットを取得することは、合理的な時間枠内でリソース集約的または非現実的である可能性がある。 プロンプトベースのLMM(Large Multimodal Models)の柔軟性と、それらの例外的な一般化能力は、これらのシナリオにおけるロボット工学の応用に革命をもたらす可能性がある。 その結果, YOLO-Worldは検出性能が良好であることが示唆された。 GPT-4Vはアクションクラスを正確に分類するのに苦労するが、望ましくない領域の提案をフィルタリングし、風景の一般的な説明を提供するという有望な結果をもたらす。 この研究は、LMMをドローンの認識に活用するための最初のステップであり、この領域における将来の調査の基礎を確立している。

In this article, we explore the potential of zero-shot Large Multimodal Models (LMMs) in the domain of drone perception. We focus on person detection and action recognition tasks and evaluate two prominent LMMs, namely YOLO-World and GPT-4V(ision) using a publicly available dataset captured from aerial views. Traditional deep learning approaches rely heavily on large and high-quality training datasets. However, in certain robotic settings, acquiring such datasets can be resource-intensive or impractical within a reasonable timeframe. The flexibility of prompt-based Large Multimodal Models (LMMs) and their exceptional generalization capabilities have the potential to revolutionize robotics applications in these scenarios. Our findings suggest that YOLO-World demonstrates good detection performance. GPT-4V struggles with accurately classifying action classes but delivers promising results in filtering out unwanted region proposals and in providing a general description of the scenery. This research represents an initial step in leveraging LMMs for drone perception and establishes a foundation for future investigations in this area.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# ブラックボックスニューラルランクモデルに対するマルチグラニュラー逆攻撃

Multi-granular Adversarial Attacks against Black-box Neural Ranking Models ( http://arxiv.org/abs/2404.01574v1 )

ライセンス: Link先を確認
Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng, (参考訳) 敵のランキング攻撃は、脆弱性の探索の成功により注目され、その結果、ニューラルネットワークのランキングモデルの堅牢性を高めている。 従来の攻撃手法では、単一の粒度の摂動(例えば、単語レベルまたは文レベル)を対象文書に使用する。 しかし、摂動を単一レベルの粒度に制限することは、敵の例を作成する柔軟性を低下させ、攻撃の潜在的な脅威を減少させる。 そこで我々は,多粒性摂動を取り入れた高品質な逆数例の生成に焦点をあてる。 この目的を達成するには、あらゆる可能な粒度、位置、およびテキスト部品の摂動の最適な組み合わせを特定する必要がある組合せ爆発問題に取り組む必要がある。 この課題に対処するため、我々は多粒対角攻撃をシーケンシャルな意思決定プロセスに変換し、次の攻撃ステップにおける摂動は現在の攻撃ステップにおける摂動文書に影響される。 攻撃プロセスは直接中間信号無しで最終状態にしかアクセスできないため、強化学習を用いて複数粒状攻撃を行う。 強化学習の過程で、2つのエージェントが協力して、多粒性の脆弱性を攻撃目標として特定し、摂動候補を最終摂動シーケンスにまとめる。 実験結果から,本手法は攻撃の有効性と非受容性の両方において,一般的なベースラインを超えていることが示唆された。

Adversarial ranking attacks have gained increasing attention due to their success in probing vulnerabilities, and, hence, enhancing the robustness, of neural ranking models. Conventional attack methods employ perturbations at a single granularity, e.g., word-level or sentence-level, to a target document. However, limiting perturbations to a single level of granularity may reduce the flexibility of creating adversarial examples, thereby diminishing the potential threat of the attack. Therefore, we focus on generating high-quality adversarial examples by incorporating multi-granular perturbations. Achieving this objective involves tackling a combinatorial explosion problem, which requires identifying an optimal combination of perturbations across all possible levels of granularity, positions, and textual pieces. To address this challenge, we transform the multi-granular adversarial attack into a sequential decision-making process, where perturbations in the next attack step are influenced by the perturbed document in the current attack step. Since the attack process can only access the final state without direct intermediate signals, we use reinforcement learning to perform multi-granular attacks. During the reinforcement learning process, two agents work cooperatively to identify multi-granular vulnerabilities as attack targets and organize perturbation candidates into a final perturbation sequence. Experimental results show that our attack method surpasses prevailing baselines in both attack effectiveness and imperceptibility.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# リモート知覚と人間の生体力学的プロセス解析のためのデジタル知覚技術を活用する:作業負荷と関節力評価のための接触レスアプローチ

Leveraging Digital Perceptual Technologies for Remote Perception and Analysis of Human Biomechanical Processes: A Contactless Approach for Workload and Joint Force Assessment ( http://arxiv.org/abs/2404.01576v1 )

ライセンス: Link先を確認
Jesudara Omidokun, Darlington Egeonu, Bochen Jia, Liang Yang, (参考訳) 本研究では,既存ソフトウェアとのシームレスな統合による生体力学的解析の向上を目的とした,産業環境における人間の動作解析を目的とした,革新的なコンピュータビジョンフレームワークを提案する。 高度なイメージングとモデリング技術を組み合わせることで、このフレームワークは人間の動きの包括的な精査を可能にし、運動パターンや運動データに関する貴重な洞察を提供する。 畳み込みニューラルネットワーク(CNN)、直線形変換(DLT)、Long Short-Term Memory(LSTM)ネットワークを利用することで、キーボディーポイントを正確に検出し、3Dランドマークを再構築し、詳細な3Dボディーメッシュを生成する。 様々な運動にわたる広範囲な評価は、従来のマーカーベースモデルに匹敵する効果を示し、関節角の推定と重量と高さの正確な推定に小さな違いがある。 統計的分析は、股関節屈曲、肘屈曲、膝角度の5度未満の差を示す関節角度推定を用いて、フレームワークの信頼性を一貫して支持する。 さらに, 重量推定値の平均誤差は, 重量の6 %未満であり, 高さの2 %未満である。 Biomech-57ランドマークスケルトンテンプレートの統合により、ロバスト性はさらに強化され、フレームワークの信頼性が強化される。 この枠組みは、産業の文脈における綿密なバイオメカニカル分析、煩雑なマーカーの必要性の排除、様々な研究領域にその有用性を拡張し、特定の外骨格デバイスが負傷した労働者のタスクへの迅速な復帰を促進することへの影響について研究するなど、重要な可能性を示している。

This study presents an innovative computer vision framework designed to analyze human movements in industrial settings, aiming to enhance biomechanical analysis by integrating seamlessly with existing software. Through a combination of advanced imaging and modeling techniques, the framework allows for comprehensive scrutiny of human motion, providing valuable insights into kinematic patterns and kinetic data. Utilizing Convolutional Neural Networks (CNNs), Direct Linear Transform (DLT), and Long Short-Term Memory (LSTM) networks, the methodology accurately detects key body points, reconstructs 3D landmarks, and generates detailed 3D body meshes. Extensive evaluations across various movements validate the framework's effectiveness, demonstrating comparable results to traditional marker-based models with minor differences in joint angle estimations and precise estimations of weight and height. Statistical analyses consistently support the framework's reliability, with joint angle estimations showing less than a 5-degree difference for hip flexion, elbow flexion, and knee angle methods. Additionally, weight estimation exhibits an average error of less than 6 % for weight and less than 2 % for height when compared to ground-truth values from 10 subjects. The integration of the Biomech-57 landmark skeleton template further enhances the robustness and reinforces the framework's credibility. This framework shows significant promise for meticulous biomechanical analysis in industrial contexts, eliminating the need for cumbersome markers and extending its utility to diverse research domains, including the study of specific exoskeleton devices' impact on facilitating the prompt return of injured workers to their tasks.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# GLEMOS: 瞬時グラフ学習モデル選択のためのベンチマーク

GLEMOS: Benchmark for Instantaneous Graph Learning Model Selection ( http://arxiv.org/abs/2404.01578v1 )

ライセンス: Link先を確認
Namyong Park, Ryan Rossi, Xing Wang, Antoine Simoulin, Nesreen Ahmed, Christos Faloutsos, (参考訳) グラフ学習(GL)モデル(すなわち、GLアルゴリズムとそのハイパーパラメータ設定)の選択は、下流タスクのパフォーマンスに大きな影響を与える。 しかし、適切なGLモデルを選択することはますます難しくなり、より多くのGLモデルが開発されるにつれて時間がかかります。 そのため,手動による介入を伴わずに,実効的なGLモデルのほぼ瞬時に選択を行う能力を備えたGLのユーザを装備することは,非常に重要かつ実用的価値である。 この重要な問題に対処しようとする最近の試みにもかかわらず、GLモデル選択手法の性能を評価するための包括的なベンチマーク環境は存在していない。 このギャップを埋めるために、我々は、以下に示すように、即時GLモデル選択のための包括的なベンチマークであるGLEMOSを本研究に提示する。 (i)GLEMOSは、基本的なGLタスク、すなわちリンク予測とノード分類のための広範なベンチマークデータを提供する。 (II)GLEMOSは複数の評価設定を設計し、これらの異なる設定においてモデル選択手法がいかに効果的に機能するかを評価する。 (iii)GLEMOSは、新しいモデル、新しいグラフ、新しいパフォーマンスレコードで容易に拡張できるように設計されている。 (4)実験結果に基づき,既存のアプローチの限界について考察し,今後の研究の方向性を明らかにする。 この重要な問題の研究を促進するため、ベンチマークデータとコードをhttps://github.com/facebookresearch/glemos.comで公開しています。

The choice of a graph learning (GL) model (i.e., a GL algorithm and its hyperparameter settings) has a significant impact on the performance of downstream tasks. However, selecting the right GL model becomes increasingly difficult and time consuming as more and more GL models are developed. Accordingly, it is of great significance and practical value to equip users of GL with the ability to perform a near-instantaneous selection of an effective GL model without manual intervention. Despite the recent attempts to tackle this important problem, there has been no comprehensive benchmark environment to evaluate the performance of GL model selection methods. To bridge this gap, we present GLEMOS in this work, a comprehensive benchmark for instantaneous GL model selection that makes the following contributions. (i) GLEMOS provides extensive benchmark data for fundamental GL tasks, i.e., link prediction and node classification, including the performances of 366 models on 457 graphs on these tasks. (ii) GLEMOS designs multiple evaluation settings, and assesses how effectively representative model selection techniques perform in these different settings. (iii) GLEMOS is designed to be easily extended with new models, new graphs, and new performance records. (iv) Based on the experimental results, we discuss the limitations of existing approaches and highlight future research directions. To promote research on this significant problem, we make the benchmark data and code publicly available at https://github.com/facebookresearch/glemos.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# 拡散ディープフェイク

Diffusion Deepfake ( http://arxiv.org/abs/2404.01579v1 )

ライセンス: Link先を確認
Chaitali Bhattacharyya, Hanxiao Wang, Feng Zhang, Sungho Kim, Xiatian Zhu, (参考訳) 生成AIの最近の進歩は、主に拡散モデルを通じて、現実世界のディープフェイク検出において大きな課題を呈している。 画像の詳細、多様なコンテンツ、そして一般大衆への幅広いアクセス性におけるリアリズムの増加は、これらの洗練されたディープフェイクの識別を複雑にしている。 この進化する脅威に対して、現在のディープフェイク検出器の脆弱性に対処するための緊急性を認め、他のデータセットは多様性が低く、品質が低いため、最先端拡散モデルによって生成された2つの広範囲なディープフェイクデータセットを紹介した。 私たちの大規模な実験は、私たちのデータセットが、他の顔のディープフェイクデータセットよりも難しいことも示しています。 私たちの戦略的データセット作成は、ディープフェイク検出器に挑戦するだけでなく、さらなる評価のための新しいベンチマークも設定します。 画像領域や操作に最適化されることの多い既存の検出手法が,拡散深度関数の複雑な性質に効果的に適応し,実用性を制限していることを示す。 この重要な問題に対処するために,本研究では,代表検出方法に対するトレーニングデータの多様性向上の効果について検討する。 これには、操作テクニックと画像ドメインの両方の多様性の拡大が含まれる。 以上の結果から,トレーニングデータの多様性の向上が一般化可能性の向上をもたらすことが示唆された。 さらに、トレーニングデータの不均一性による追加課題に取り組むために、新たな運動量増加戦略を提案する。 この戦略は、学習難易度に基づいて適切なサンプル重量を動的に割り当て、容易かつ困難なサンプルへのモデルの適応性を高める。 既存および新規に提案されたベンチマークの広範な実験により、我々のモデル最適化アプローチが以前の選択肢を大きく上回っていることが示された。

Recent progress in generative AI, primarily through diffusion models, presents significant challenges for real-world deepfake detection. The increased realism in image details, diverse content, and widespread accessibility to the general public complicates the identification of these sophisticated deepfakes. Acknowledging the urgency to address the vulnerability of current deepfake detectors to this evolving threat, our paper introduces two extensive deepfake datasets generated by state-of-the-art diffusion models as other datasets are less diverse and low in quality. Our extensive experiments also showed that our dataset is more challenging compared to the other face deepfake datasets. Our strategic dataset creation not only challenge the deepfake detectors but also sets a new benchmark for more evaluation. Our comprehensive evaluation reveals the struggle of existing detection methods, often optimized for specific image domains and manipulations, to effectively adapt to the intricate nature of diffusion deepfakes, limiting their practical utility. To address this critical issue, we investigate the impact of enhancing training data diversity on representative detection methods. This involves expanding the diversity of both manipulation techniques and image domains. Our findings underscore that increasing training data diversity results in improved generalizability. Moreover, we propose a novel momentum difficulty boosting strategy to tackle the additional challenge posed by training data heterogeneity. This strategy dynamically assigns appropriate sample weights based on learning difficulty, enhancing the model's adaptability to both easy and challenging samples. Extensive experiments on both existing and newly proposed benchmarks demonstrate that our model optimization approach surpasses prior alternatives significantly.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# マルチカメラ3次元物体検出のための物体移動予測による時間キューの学習

Learning Temporal Cues by Predicting Objects Move for Multi-camera 3D Object Detection ( http://arxiv.org/abs/2404.01580v1 )

ライセンス: Link先を確認
Seokha Moon, Hongbeen Park, Jungphil Kwon, Jaekoo Lee, Jinkyu Kim, (参考訳) 自律運転とロボット工学では、短期的な歴史的データを活用して、複数カメラの3Dオブジェクト検出を強化し、入力ビデオストリームの連続的および相関的な性質を活用することへの関心が高まっている。 最近の研究は、時間経過とともにBEVベースの特徴を空間的に整合させることに重点を置いている。 しかし、これは長期の観測ではうまくスケールしないため、しばしば制限される。 そこで本稿では,過去の観測から得られたオブジェクトのポーズを予測し,対象の時間的手がかりを明示的に学習するためのモデルを提案する。 そこで本研究では,2分岐ネットワークからなるDAP(Detection After Prediction)モデルを提案する。 一 過去の観察の事柄を予知する支店 (ii)現在の観測と過去の観測に基づいて物体を検出する別の枝。 分岐から現在のオブジェクトを予測する特徴 (i)枝に融合する (二)予測知識の伝達 我々は,大規模なnuScenesデータセットを用いた広範囲な実験を行い,このような予測情報を利用することで全体の検出性能が大幅に向上することが観察された。 私たちのモデルはプラグイン・アンド・プレイで使用することができ、一貫したパフォーマンス向上を示します。

In autonomous driving and robotics, there is a growing interest in utilizing short-term historical data to enhance multi-camera 3D object detection, leveraging the continuous and correlated nature of input video streams. Recent work has focused on spatially aligning BEV-based features over timesteps. However, this is often limited as its gain does not scale well with long-term past observations. To address this, we advocate for supervising a model to predict objects' poses given past observations, thus explicitly guiding to learn objects' temporal cues. To this end, we propose a model called DAP (Detection After Prediction), consisting of a two-branch network: (i) a branch responsible for forecasting the current objects' poses given past observations and (ii) another branch that detects objects based on the current and past observations. The features predicting the current objects from branch (i) is fused into branch (ii) to transfer predictive knowledge. We conduct extensive experiments with the large-scale nuScenes datasets, and we observe that utilizing such predictive information significantly improves the overall detection performance. Our model can be used plug-and-play, showing consistent performance gain.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-02
# TSCM:クロスメトリック知識蒸留を用いた教師学習型視覚位置認識モデル

TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation ( http://arxiv.org/abs/2404.01587v1 )

ライセンス: Link先を確認
Yehui Shen, Mingmin Liu, Huimin Lu, Xieyuanli Chen, (参考訳) 視覚的位置認識(VPR)は、複雑な屋外環境における移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たしている。 コスト効率は高く、簡単に展開できるが、カメラセンサーは照明や天候の変化に敏感であり、わずかな画像の変更でさえVPRの効率と精度に大きな影響を及ぼす可能性がある。 既存の手法は、強力だが大規模なネットワークを利用することでこれを克服し、計算資源を著しく消費する。 本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。 設計したクロスメトリックな知識蒸留を利用して、教師と学生のモデルのパフォーマンスギャップを狭め、優れた性能を維持しつつ、デプロイ中に最小限の計算負荷を許容する。 大規模データセット、すなわち、ピッツバーグ30kとピッツバーグ250kについて包括的な評価を行う。 評価精度とモデルパラメータ効率の観点から,本手法がベースラインモデルよりも優れていることを示す実験結果を得た。 さらに,本研究は,提案した知識蒸留技術が他の技術より優れていることを示唆している。 我々のメソッドのコードはhttps://github.com/nubot-nudt/TSCMでリリースされた。

Visual place recognition (VPR) plays a pivotal role in autonomous exploration and navigation of mobile robots within complex outdoor environments. While cost-effective and easily deployed, camera sensors are sensitive to lighting and weather changes, and even slight image alterations can greatly affect VPR efficiency and precision. Existing methods overcome this by exploiting powerful yet large networks, leading to significant consumption of computational resources. In this paper, we propose a high-performance teacher and lightweight student distillation framework called TSCM. It exploits our devised cross-metric knowledge distillation to narrow the performance gap between the teacher and student models, maintaining superior performance while enabling minimal computational load during deployment. We conduct comprehensive evaluations on large-scale datasets, namely Pittsburgh30k and Pittsburgh250k. Experimental results demonstrate the superiority of our method over baseline models in terms of recognition accuracy and model parameter efficiency. Moreover, our ablation studies show that the proposed knowledge distillation technique surpasses other counterparts. The code of our method has been released at https://github.com/nubot-nudt/TSCM.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# テキスト要約のための幻覚の多様性を考慮したアクティブラーニング

Hallucination Diversity-Aware Active Learning for Text Summarization ( http://arxiv.org/abs/2404.01588v1 )

ライセンス: Link先を確認
Yu Xia, Xu Liu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Anup Rao, Tung Mai, Shuai Li, (参考訳) LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。 幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。 さらに、これらの手法の多くは特定の種類の幻覚、例えばエンティティやトークンエラーに焦点を当てており、LLM出力に現れる様々な種類の幻覚に対処する上での有効性を制限している。 本稿では,LLM幻覚を緩和し,人為的な幻覚アノテーションのコスト削減を図るための,最初のアクティブラーニングフレームワークを提案する。 テキスト要約における意味的フレームの誤り,談話,内容の妥当性の詳細な幻覚を測定することで,HADAS(Hallucination Diversity-Aware Sampling)を提案し,LLMファインタニングのためのアクティブラーニングにおけるアノテーションに対する多様な幻覚を抽出する。 3つのデータセットと異なるバックボーンモデルに対する大規模な実験により,LLM幻覚を効果的かつ効率的に緩和する手法の利点が示された。

Large Language Models (LLMs) have shown propensity to generate hallucinated outputs, i.e., texts that are factually incorrect or unsupported. Existing methods for alleviating hallucinations typically require costly human annotations to identify and correct hallucinations in LLM outputs. Moreover, most of these methods focus on a specific type of hallucination, e.g., entity or token errors, which limits their effectiveness in addressing various types of hallucinations exhibited in LLM outputs. To our best knowledge, in this paper we propose the first active learning framework to alleviate LLM hallucinations, reducing costly human annotations of hallucination needed. By measuring fine-grained hallucinations from errors in semantic frame, discourse and content verifiability in text summarization, we propose HAllucination Diversity-Aware Sampling (HADAS) to select diverse hallucinations for annotations in active learning for LLM finetuning. Extensive experiments on three datasets and different backbone models demonstrate advantages of our method in effectively and efficiently mitigating LLM hallucinations.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# オープンソース臨床大言語モデルによるがんステージの分類

Classifying Cancer Stage with Open-Source Clinical Large Language Models ( http://arxiv.org/abs/2404.01589v1 )

ライセンス: Link先を確認
Chia-Hsuan Chang, Mary M. Lucas, Grace Lu-Yao, Christopher C. Yang, (参考訳) 癌ステージ分類は,腫瘍疾患患者に対する治療・ケア管理計画の策定に重要である。 ステージングに関する情報は、しばしば、臨床、病理学、放射線学、その他の自由テキストレポートにおいて構造化されていない形で電子健康記録システムに含まれており、解析と取得には広範囲な作業が必要である。 この情報の抽出を容易にするため、従来のNLPアプローチでは、準備に労力を要するラベル付きトレーニングデータセットに依存していた。 本研究では、ラベル付きトレーニングデータなしで、オープンソースの臨床大言語モデル(LLM)が、実世界の病理報告から病理組織学的腫瘍-リンパ節転移(pTNM)のステージング情報を抽出できることを実証する。 実験ではラベル付きデータを用いて細調整したLLMとBERTモデルを比較した。 以上より, 腫瘍 (T) 分類では, 腫瘍 (T) 分類では, 腫瘍 (T) 分類では, 腫瘍 (T) 分類では, 腫瘍 (T) 分類では, 転移 (M) 分類では同等の性能を示し, リンパ節 (N) 分類では性能が向上することが示唆された。

Cancer stage classification is important for making treatment and care management plans for oncology patients. Information on staging is often included in unstructured form in clinical, pathology, radiology and other free-text reports in the electronic health record system, requiring extensive work to parse and obtain. To facilitate the extraction of this information, previous NLP approaches rely on labeled training datasets, which are labor-intensive to prepare. In this study, we demonstrate that without any labeled training data, open-source clinical large language models (LLMs) can extract pathologic tumor-node-metastasis (pTNM) staging information from real-world pathology reports. Our experiments compare LLMs and a BERT-based model fine-tuned using the labeled data. Our findings suggest that while LLMs still exhibit subpar performance in Tumor (T) classification, with the appropriate adoption of prompting strategies, they can achieve comparable performance on Metastasis (M) classification and improved performance on Node (N) classification.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# 言語モデルによる解釈可能なビデオアクション推論

Language Model Guided Interpretable Video Action Reasoning ( http://arxiv.org/abs/2404.01591v1 )

ライセンス: Link先を確認
Ning Wang, Guangming Zhu, HS Li, Liang Zhang, Syed Afaq Ali Shah, Mohammed Bennamoun, (参考訳) ニューラルネットワークはビデオ行動認識タスクに優れていますが、ブラックボックスの性質は意思決定プロセスの理解を曖昧にします。 近年のアプローチでは、人間の推論に似た方法でビデオアクションを分析するために、本質的に解釈可能なモデルを用いている。 しかしながら、これらのモデルは通常ブラックボックスのモデルと比べて性能が劣っている。 本研究では,Language-guided Interpretable Action Recognition framework (LaIAR) という新しいフレームワークを提案する。 LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。 本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。 言語モデルが捉えた論理的推論を用いて、ビデオモデルのトレーニングを操縦する。 この統合されたアプローチは、ビデオモデルの異なるドメインへの適応性を改善するだけでなく、全体的なパフォーマンスも向上させる。 2つの複雑なビデオアクションデータセットであるCharades & CAD-120に関する大規模な実験は、LaIARフレームワークの性能改善と解釈性を検証する。 LaIARのコードはhttps://github.com/NingWang2049/LaIARで公開されている。

While neural networks have excelled in video action recognition tasks, their black-box nature often obscures the understanding of their decision-making processes. Recent approaches used inherently interpretable models to analyze video actions in a manner akin to human reasoning. These models, however, usually fall short in performance compared to their black-box counterparts. In this work, we present a new framework named Language-guided Interpretable Action Recognition framework (LaIAR). LaIAR leverages knowledge from language models to enhance both the recognition capabilities and the interpretability of video models. In essence, we redefine the problem of understanding video model decisions as a task of aligning video and language models. Using the logical reasoning captured by the language model, we steer the training of the video model. This integrated approach not only improves the video model's adaptability to different domains but also boosts its overall performance. Extensive experiments on two complex video action datasets, Charades & CAD-120, validates the improved performance and interpretability of our LaIAR framework. The code of LaIAR is available at https://github.com/NingWang2049/LaIAR.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# 重み付きマルチモーダルデータの重み付きスコアアライメント

Propensity Score Alignment of Unpaired Multimodal Data ( http://arxiv.org/abs/2404.01595v1 )

ライセンス: Link先を確認
Johnny Xi, Jason Hartford, (参考訳) マルチモーダル表現学習技術は通常、共通の表現を学ぶためにペア化されたサンプルに頼っているが、測定装置がしばしばサンプルを破壊する生物学のような分野において、ペア化されたサンプルを収集することは困難である。 本稿では,マルチモーダル表現学習において,異なるモダリティにまたがるアンペア化サンプルの整列化という課題に対処するアプローチを提案する。 因果推論における潜在的な結果とマルチモーダル観測における潜在的見解との間には類似性があり、ルービンのフレームワークを使ってサンプルにマッチする共通空間を推定することができる。 提案手法では, 処理によって実験的に摂動するサンプルを収集し, この手法を用いて各モードから正当性スコアを推定し, 潜伏状態と治療の間の共有情報を全てカプセル化し, 試料間の距離を定義する。 我々は、この距離を利用する2つのアライメント技術(共有近傍(SNN)と最適輸送(OT)マッチング)を実験し、OTマッチングが、合成マルチモーダル設定とNeurIPSマルチモーダルシングルセル統合チャレンジによる実世界のデータの両方において、最先端アライメントアプローチを大幅に改善することを発見した。

Multimodal representation learning techniques typically rely on paired samples to learn common representations, but paired samples are challenging to collect in fields such as biology where measurement devices often destroy the samples. This paper presents an approach to address the challenge of aligning unpaired samples across disparate modalities in multimodal representation learning. We draw an analogy between potential outcomes in causal inference and potential views in multimodal observations, which allows us to use Rubin's framework to estimate a common space in which to match samples. Our approach assumes we collect samples that are experimentally perturbed by treatments, and uses this to estimate a propensity score from each modality, which encapsulates all shared information between a latent state and treatment and can be used to define a distance between samples. We experiment with two alignment techniques that leverage this distance -- shared nearest neighbours (SNN) and optimal transport (OT) matching -- and find that OT matching results in significant improvements over state-of-the-art alignment approaches in both a synthetic multi-modal setting and in real-world data from NeurIPS Multimodal Single-Cell Integration Challenge.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# PhysORD:オフロード運転における物理拡散運動予測のための神経・シンボリックアプローチ

PhysORD: A Neuro-Symbolic Approach for Physics-infused Motion Prediction in Off-road Driving ( http://arxiv.org/abs/2404.01596v1 )

ライセンス: Link先を確認
Zhipeng Zhao, Bowen Li, Yi Du, Taimeng Fu, Chen Wang, (参考訳) 移動予測はオフロード走行において重要であるが、車両と地形の間の複雑な相互作用のため、オフロード走行よりもはるかに多くの課題が生じる。 従来の物理学に基づくアプローチは、力学系と外乱を正確にモデル化することの難しさに直面する。 対照的に、データ駆動型ニューラルネットワークは広範なデータセットを必要とし、基本的な物理法則を明示的に把握するのに苦労する。 両方の手法の利点を融合することにより、ニューロシンボリックアプローチは有望な方向を示す。 これらの手法は物理法則をニューラルネットワークに組み込み、一般化能力を大幅に向上させる可能性がある。 しかし、オフロード運転の実際の設定では、事前の作業は評価されなかった。 このギャップを埋めるために、我々は、オイラー・ラグランジュ方程式(Euler-Lagrange equation)という保存則をオフロード駆動時の運動予測のためのデータ駆動ニューラルモデルに統合する、ニューラルシンボリックアプローチであるPhysORDを提案する。 実験の結果,PhysORDは不確かさをモデル化することで車体の動きを正確に予測し,外乱を許容できることがわかった。 精度と効率の両方で既存の手法を上回り、長期予測においてデータ効率の学習能力と一般化能力を示す。

Motion prediction is critical for autonomous off-road driving, however, it presents significantly more challenges than on-road driving because of the complex interaction between the vehicle and the terrain. Traditional physics-based approaches encounter difficulties in accurately modeling dynamic systems and external disturbance. In contrast, data-driven neural networks require extensive datasets and struggle with explicitly capturing the fundamental physical laws, which can easily lead to poor generalization. By merging the advantages of both methods, neuro-symbolic approaches present a promising direction. These methods embed physical laws into neural models, potentially significantly improving generalization capabilities. However, no prior works were evaluated in real-world settings for off-road driving. To bridge this gap, we present PhysORD, a neural-symbolic approach integrating the conservation law, i.e., the Euler-Lagrange equation, into data-driven neural models for motion prediction in off-road driving. Our experiments showed that PhysORD can accurately predict vehicle motion and tolerate external disturbance by modeling uncertainties. It outperforms existing methods both in accuracy and efficiency and demonstrates data-efficient learning and generalization ability in long-term prediction.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# 政策最適化の高速化のための極端探索行動選択

Extremum-Seeking Action Selection for Accelerating Policy Optimization ( http://arxiv.org/abs/2404.01598v1 )

ライセンス: Link先を確認
Ya-Chien Chang, Sicun Gao, (参考訳) 連続空間の制御のための強化学習は、通常、ガウス分布のような高エントロピー確率的ポリシーを用いて局所的な探索と、性能を最適化するためのポリシー勾配を推定する。 多くのロボット制御問題は複雑な不安定な力学に対処し、実現可能な制御多様体から外れたアクションを適用すると、すぐに望ましくない分岐が生じる。 このような場合、周囲の行動空間から採取されたほとんどのサンプルは、政策改善にはほとんど寄与しない低値軌道を生成するため、学習が遅く失敗する。 本稿では,ESC(Extremum-Seeking Control)に基づく適応制御を付加することで,モデルフリーなRL設定におけるアクション選択を改善することを提案する。 確率的ポリシからサンプリングされた各アクションに対して、応答信号として正弦波の摂動と推定Q値に対する問合せを適用する。 ESCに基づいて, 環境に適応する前に, 近くの最適点に近づくように, サンプリング動作を動的に改善する。 本手法は, 各種制御学習環境において, 学習効率を向上させるために, 標準方針最適化において容易に追加することができる。

Reinforcement learning for control over continuous spaces typically uses high-entropy stochastic policies, such as Gaussian distributions, for local exploration and estimating policy gradient to optimize performance. Many robotic control problems deal with complex unstable dynamics, where applying actions that are off the feasible control manifolds can quickly lead to undesirable divergence. In such cases, most samples taken from the ambient action space generate low-value trajectories that hardly contribute to policy improvement, resulting in slow or failed learning. We propose to improve action selection in this model-free RL setting by introducing additional adaptive control steps based on Extremum-Seeking Control (ESC). On each action sampled from stochastic policies, we apply sinusoidal perturbations and query for estimated Q-values as the response signal. Based on ESC, we then dynamically improve the sampled actions to be closer to nearby optima before applying them to the environment. Our methods can be easily added in standard policy optimization to improve learning efficiency, which we demonstrate in various control learning environments.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# 変圧器は潜伏深度で何が学べるか : シーケンス学習課題を事例として

What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks ( http://arxiv.org/abs/2404.01601v1 )

ライセンス: Link先を確認
Xingwu Chen, Difan Zou, (参考訳) 本研究では, 変圧器アーキテクチャの機能について, 様々な深さで検討する。 具体的には,変圧器の深さが記憶,推論,一般化,文脈一般化の能力にどのように影響するかを体系的に評価し,理解するための新しいシーケンス学習タスクを設計した。 注意層が1つしかない変圧器は記憶に優れるが、他のタスクでは不足する。 そして, 推論と一般化能力を示すためには, 少なくとも2つの注意層を持つ必要がある一方で, 文脈一般化能力は3つの注意層を必要とする可能性があることを示す。 さらに、単一注意層が実行可能な単純な操作のクラスを特定し、これらの単純な操作の組み合わせとして複雑なタスクにアプローチできることを示し、複数の注意層を積み重ねることによって解決できることを示す。 これは私たちのデザインを超えて、より実用的で複雑なタスクを研究することに光を当てています。 数値実験は理論的な結果を裏付けるものだ。

We study the capabilities of the transformer architecture with varying depth. Specifically, we designed a novel set of sequence learning tasks to systematically evaluate and comprehend how the depth of transformer affects its ability to perform memorization, reasoning, generalization, and contextual generalization. We show a transformer with only one attention layer can excel in memorization but falls short in other tasks. Then, we show that exhibiting reasoning and generalization ability requires the transformer to have at least two attention layers, while context generalization ability may necessitate three attention layers. Additionally, we identify a class of simple operations that a single attention layer can execute, and show that the complex tasks can be approached as the combinations of these simple operations and thus can be resolved by stacking multiple attention layers. This sheds light on studying more practical and complex tasks beyond our design. Numerical experiments corroborate our theoretical findings.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# Helmsman of the Masses? : Werewolf Gameにおける大規模言語モデルのオピニオンリーダーシップの評価

Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game ( http://arxiv.org/abs/2404.01602v1 )

ライセンス: Link先を確認
Silin Du, Xiaowei Zhang, (参考訳) 大規模言語モデル (LLM) は、社会的誘因ゲームにおいて記憶可能な戦略的行動を示す。 しかし、LLMをベースとしたエージェントが提示する意見のリーダーシップの重要性は見過ごされ、マルチエージェントやヒューマン・AIのインタラクション・セッティングにおける実践的応用に欠かせないものとなっている。 野党指導者は、社会集団内の他人の信念や行動に顕著な影響を与える個人である。 本研究では, LLM の意見指導力を評価するため, Werewolf ゲームをシミュレーションプラットフォームとして利用する。 このゲームは保安官の役割を特徴とし、議論を要約し、決定オプションを推奨する。 我々は、保安官の役割を統合する枠組みを開発し、意見指導者の批判的特徴に基づく評価のための2つの新しい指標を考案する。 第1の尺度は、意見リーダーの信頼性を測定し、第2の尺度は、他のプレーヤーの判断に対する意見リーダーの影響を評価する。 異なるスケールのLLMを評価するために、広範囲な実験を行う。 さらに, Werewolf 質問回答データセット (WWQA) を収集し, LLM によるゲームルールの把握と強化を行うとともに,人間の参加者を組み込んでさらなる分析を行う。 その結果,Werewolf ゲームは LLM の意見指導力を評価するのに適したテストベッドであり,意見指導力を持つ LLM は少ないことが示唆された。

Large language models (LLMs) have exhibited memorable strategic behaviors in social deductive games. However, the significance of opinion leadership exhibited by LLM-based agents has been overlooked, which is crucial for practical applications in multi-agent and human-AI interaction settings. Opinion leaders are individuals who have a noticeable impact on the beliefs and behaviors of others within a social group. In this work, we employ the Werewolf game as a simulation platform to assess the opinion leadership of LLMs. The game features the role of the Sheriff, tasked with summarizing arguments and recommending decision options, and therefore serves as a credible proxy for an opinion leader. We develop a framework integrating the Sheriff role and devise two novel metrics for evaluation based on the critical characteristics of opinion leaders. The first metric measures the reliability of the opinion leader, and the second assesses the influence of the opinion leader on other players' decisions. We conduct extensive experiments to evaluate LLMs of different scales. In addition, we collect a Werewolf question-answering dataset (WWQA) to assess and enhance LLM's grasp of the game rules, and we also incorporate human participants for further analysis. The results suggest that the Werewolf game is a suitable test bed to evaluate the opinion leadership of LLMs and few LLMs possess the capacity for opinion leadership.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# WaveDH: 効率的な画像デハージングのためのConvNetガイド付きウェーブレットサブバンド

WaveDH: Wavelet Sub-bands Guided ConvNet for Efficient Image Dehazing ( http://arxiv.org/abs/2404.01604v1 )

ライセンス: Link先を確認
Seongmin Hwang, Daeyoung Han, Cheolkon Jung, Moongu Jeon, (参考訳) 画像デハージングに対する関心の高まりは、ディープラーニングベースのシングルイメージデハージングアプローチの顕著な進歩をもたらし、近年の研究で顕著なパフォーマンスを示している。 これらの努力にもかかわらず、多くの既存の手法は実用アプリケーションの効率性の要求を満たすのに不足している。 本稿では、画像デハージングにおけるこの効率ギャップに対処するために設計された、新しいコンパクトなConvNetであるWaveDHを紹介する。 我々のWaveDHはウェーブレットサブバンドを利用して、誘導型アップ・アンド・ダウンサンプリングと周波数認識機能の改良を行う。 主要なアイデアはウェーブレット分解を利用して特徴レベルから低周波成分を抽出し、高品質な再構成を保ちながら高速な処理を可能にすることである。 ダウンサンプリングブロックは、ノイズ成分を廃棄しながら識別的特徴を保存するウェーブレットドメイン学習を通じて、構造的にコンパクトな機能ダウンサンプリングプロセスを最適化する、新しい圧縮・アンド・アテンション方式を採用している。 増幅ブロックでは、高頻度のコンポーネント認識を高めるための二重アップサンプルと融合機構を導入し、高周波の詳細の再構築を支援する。 低周波成分と高周波成分を均等に処理する従来の脱臭方法とは別に,我々の特徴改善ブロックは周波数認識方式で特徴を戦略的に処理する。 粗い手法を用いることで、周波数レベルで細部を洗練するだけでなく、計算コストを大幅に最適化する。 精錬は最大8倍のダウンサンプリングされた特徴空間で行われ、良好な効率とvs精度のトレードオフを達成できる。 大規模な実験により、我々の手法であるWaveDHは、計算コストを大幅に削減した画像デハージングベンチマークにおいて、多くの最先端の手法より優れていることが示された。 私たちのコードはhttps://github.com/AwesomeHwang/WaveDH.comで公開されています。

The surge in interest regarding image dehazing has led to notable advancements in deep learning-based single image dehazing approaches, exhibiting impressive performance in recent studies. Despite these strides, many existing methods fall short in meeting the efficiency demands of practical applications. In this paper, we introduce WaveDH, a novel and compact ConvNet designed to address this efficiency gap in image dehazing. Our WaveDH leverages wavelet sub-bands for guided up-and-downsampling and frequency-aware feature refinement. The key idea lies in utilizing wavelet decomposition to extract low-and-high frequency components from feature levels, allowing for faster processing while upholding high-quality reconstruction. The downsampling block employs a novel squeeze-and-attention scheme to optimize the feature downsampling process in a structurally compact manner through wavelet domain learning, preserving discriminative features while discarding noise components. In our upsampling block, we introduce a dual-upsample and fusion mechanism to enhance high-frequency component awareness, aiding in the reconstruction of high-frequency details. Departing from conventional dehazing methods that treat low-and-high frequency components equally, our feature refinement block strategically processes features with a frequency-aware approach. By employing a coarse-to-fine methodology, it not only refines the details at frequency levels but also significantly optimizes computational costs. The refinement is performed in a maximum 8x downsampled feature space, striking a favorable efficiency-vs-accuracy trade-off. Extensive experiments demonstrate that our method, WaveDH, outperforms many state-of-the-art methods on several image dehazing benchmarks with significantly reduced computational costs. Our code is available at https://github.com/AwesomeHwang/WaveDH.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# Haina Storage: 改善されたブロックチェーン構造に基づく分散型セキュアストレージフレームワーク

Haina Storage: A Decentralized Secure Storage Framework Based on Improved Blockchain Structure ( http://arxiv.org/abs/2404.01606v1 )

ライセンス: Link先を確認
Zijian Zhou, Caimei Wang, Xiaoheng Deng, Jianhao Lu, Qilue Wen, Chen Zhang, Hong Li, (参考訳) ブロックチェーンに基づく分散ストレージ技術は、クラウドサービス上のセキュアなデータストレージを効果的に実現できます。 しかし、ストレージ容量の低下や効率の低下など、既存のスキームにはまだいくつかの問題がある。 関連問題に対処するため,本研究では, 分散ストレージにおけるデータの保存能力と適用性を向上させる, 双方向循環型連鎖構造(BCLCS)の4つの側面を主眼として, 分散ストレージフレームワークを提案する。 2)資源の証明(PoR)決定モデルを提案する。 記憶権決定の必須評価パラメータとしてネットワーク環境を導入することにより、意思決定のエネルギと時間消費を低減し、意思決定の公平性を向上させる。 3) チェーン構造動的ロック機構 (CSDLM) は, 逆トラバース制御とアクセス制御を実現するために設計されている。 (4) 分散ストレージモードにおけるデータアクセスと取得の効率を向上させる双方向データアクセス機構(BDAM)を提案する。 実験の結果、このフレームワークは現在の分散ストレージの欠点を大幅に改善した。

Although the decentralized storage technology based on the blockchain can effectively realize secure data storage on cloud services. However, there are still some problems in the existing schemes, such as low storage capacity and low efficiency. To address related issues, we propose a novel decentralized storage framework, which mainly includes four aspects: (1) we proposed a Bi-direction Circular Linked Chain Structure (BCLCS), which improves data's storage capacity and applicability in decentralized storage. (2) A Proof of Resources (PoR) decision model is proposed. By introducing the network environment as an essential evaluation parameter of storage right decision, the energy and time consumption of decision-making are reduced, and the fairness of decision-making is improved. (3) A chain structure dynamic locking mechanism (CSDLM) is designed to realize anti-traverse and access control. (4) A Bi-directional data Access Mechanism (BDAM) is proposed, which improves the efficiency of data access and acquisition in decentralized storage mode. The experimental results show that the framework has significantly improved the shortcomings of the current decentralized storage.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# FAIRM:ミニマックス最適性を用いたアルゴリズムフェアネスと領域一般化のための不変表現の学習

FAIRM: Learning invariant representations for algorithmic fairness and domain generalization with minimax optimality ( http://arxiv.org/abs/2404.01608v1 )

ライセンス: Link先を確認
Sai Li, Linjun Zhang, (参考訳) 機械学習の手法は、テストデータがトレーニングデータと同じ分布を持つと仮定することが多い。 しかし、この仮定は応用における多段階の不均一性のために成り立たない可能性があり、アルゴリズム的公正性と領域一般化の問題を提起する。 本研究では、不変原理による公平で一般化可能な機械学習の問題に対処する。 本研究では,多様性型条件下でのフェアネスと領域一般化特性が望ましい学習環境に基づくオラクルFAIRMを提案する。 次に、弱分布仮定の下で有限サンプル理論保証を持つ経験的FAIRMを提供する。 次に、線形モデルにおけるFAIRMを実現するための効率的なアルゴリズムを開発し、最小限の最適性で漸近的性能を示す。 合成データとMNISTデータを用いた数値実験において,本手法が優れていることを示す。

Machine learning methods often assume that the test data have the same distribution as the training data. However, this assumption may not hold due to multiple levels of heterogeneity in applications, raising issues in algorithmic fairness and domain generalization. In this work, we address the problem of fair and generalizable machine learning by invariant principles. We propose a training environment-based oracle, FAIRM, which has desirable fairness and domain generalization properties under a diversity-type condition. We then provide an empirical FAIRM with finite-sample theoretical guarantees under weak distributional assumptions. We then develop efficient algorithms to realize FAIRM in linear models and demonstrate the nonasymptotic performance with minimax optimality. We evaluate our method in numerical experiments with synthetic data and MNIST data and show that it outperforms its counterparts.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# 仮想環境における音源定位のための音響シミュレーション

Audio Simulation for Sound Source Localization in Virtual Evironment ( http://arxiv.org/abs/2404.01611v1 )

ライセンス: Link先を確認
Yi Di Yuan, Swee Liang Wong, Jonathan Pan, (参考訳) 信号遮断環境における非視線局所化は、難しいが関連する問題である。 このような屋内シナリオにおける音響的手法は、残響性により困難に直面する。 本研究では,物理基底音の伝搬シミュレーションと機械学習手法を利用して,仮想環境内の特定の場所に音源を配置することを目的とする。 このプロセスは、特にイベント後の局所化において、音源をその発生位置にローカライズするデータ不足の問題を克服しようとするものである。 オーディオ・トランスフォーマー・スペクトログラム・アプローチを用いて0.786+/- 0.0136 F1スコアを実現する。

Non-line-of-sight localization in signal-deprived environments is a challenging yet pertinent problem. Acoustic methods in such predominantly indoor scenarios encounter difficulty due to the reverberant nature. In this study, we aim to locate sound sources to specific locations within a virtual environment by leveraging physically grounded sound propagation simulations and machine learning methods. This process attempts to overcome the issue of data insufficiency to localize sound sources to their location of occurrence especially in post-event localization. We achieve 0.786+/- 0.0136 F1-score using an audio transformer spectrogram approach.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# スピンアップ:自然光の非校正光度ステレオのためのスピンライト

Spin-UP: Spin Light for Natural Light Uncalibrated Photometric Stereo ( http://arxiv.org/abs/2404.01612v1 )

ライセンス: Link先を確認
Zongrui Li, Zhan Lu, Haojie Yan, Boxin Shi, Gang Pan, Qian Zheng, Xudong Jiang, (参考訳) Natural Light Uncalibrated Photometric Stereo (NaUPS) は、古典的uncalibrated Photometric Stereo (UPS) 法における厳密な環境と光仮定を緩和する。 しかし、本質的な不明瞭さと高次元の曖昧さのため、NaUPSに対処することは依然として未解決の問題である。 既存の作業は環境光やオブジェクトの材料に強い仮定を課し、より一般的なシナリオにおける有効性を制限する。 あるいは、解釈可能性に欠ける複雑なモデルによる教師あり学習を利用して、バイアスのある推定を行う方法もある。 本研究では,様々な環境光や物体のNaUPSに対処するための教師なし手法であるSpin-UP(Spin Light Uncalibrated Photometric Stereo)を提案する。 提案手法は,NUPSの不備を軽減し,NUPSの曖昧性を軽減し,NUPSの曖昧性を緩和するための信頼性の高い事前情報を提供する。 ニューラルネットワークの逆レンダリングと提案したトレーニング戦略を活用して、Spin-UPは計算コストの低い複雑な自然光の下で表面の正常、環境光、等方反射を回復する。 実験によると、Spin-UPは他の教師なし/教師なしのNaUPSメソッドよりも優れており、合成および実世界のデータセット上で最先端のパフォーマンスを達成する。 コードとデータはhttps://github.com/LMozart/CVPR2024-SpinUPで公開されている。

Natural Light Uncalibrated Photometric Stereo (NaUPS) relieves the strict environment and light assumptions in classical Uncalibrated Photometric Stereo (UPS) methods. However, due to the intrinsic ill-posedness and high-dimensional ambiguities, addressing NaUPS is still an open question. Existing works impose strong assumptions on the environment lights and objects' material, restricting the effectiveness in more general scenarios. Alternatively, some methods leverage supervised learning with intricate models while lacking interpretability, resulting in a biased estimation. In this work, we proposed Spin Light Uncalibrated Photometric Stereo (Spin-UP), an unsupervised method to tackle NaUPS in various environment lights and objects. The proposed method uses a novel setup that captures the object's images on a rotatable platform, which mitigates NaUPS's ill-posedness by reducing unknowns and provides reliable priors to alleviate NaUPS's ambiguities. Leveraging neural inverse rendering and the proposed training strategies, Spin-UP recovers surface normals, environment light, and isotropic reflectance under complex natural light with low computational cost. Experiments have shown that Spin-UP outperforms other supervised / unsupervised NaUPS methods and achieves state-of-the-art performance on synthetic and real-world datasets. Codes and data are available at https://github.com/LMozart/CVPR2024-SpinUP.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# LR-FPN:位置修正型特徴ピラミッドネットワークによるリモートセンシング対象検出の実現

LR-FPN: Enhancing Remote Sensing Object Detection with Location Refined Feature Pyramid Network ( http://arxiv.org/abs/2404.01614v1 )

ライセンス: Link先を確認
Hanqian Li, Ruinan Zhang, Ye Pan, Junchi Ren, Fei Shen, (参考訳) リモートセンシングターゲット検出は、リモートセンシング画像内の重要目標を特定し、特定することを目的としており、農業や都市計画に広く応用されている。 特徴ピラミッドネットワーク(FPN)は、マルチスケールの特徴を抽出するために一般的に用いられる。 しかし、既存のFPNは、低レベルの位置情報ときめ細かいコンテキスト相互作用を抽出するのを見落としていることが多い。 そこで本研究では,浅い位置情報を抽出し,きめ細かなコンテキスト相互作用を容易にするために,新しい位置改良型特徴ピラミッドネットワーク(LR-FPN)を提案する。 LR-FPNは、浅い位置情報抽出モジュール(SPIEM)と文脈相互作用モジュール(CIM)の2つの一次モジュールから構成される。 具体的には、SPIEMは、まず、低レベル特徴写像から位置情報と塩分情報を同時に抽出することにより、目標の固体位置情報の保持を最大化する。 その後、CIMは、空間的およびチャネル的相互作用を通じて、この堅牢な位置情報を元のFPNの異なる層に注入し、対象領域を明示的に拡張する。 さらに、空間的相互作用において、オブジェクトの正当性情報を学習し、保持するための単純な局所的および非局所的相互作用戦略を導入する。 最後に、LR-FPNは共通のオブジェクト検出フレームワークに容易に統合でき、性能を大幅に向上させることができる。 2つの大規模なリモートセンシングデータセット(DOTAV1.0とHRSC2016)に対する大規模な実験は、提案されたLR-FPNが最先端のオブジェクト検出アプローチよりも優れていることを示した。 私たちのコードとモデルは公開されます。

Remote sensing target detection aims to identify and locate critical targets within remote sensing images, finding extensive applications in agriculture and urban planning. Feature pyramid networks (FPNs) are commonly used to extract multi-scale features. However, existing FPNs often overlook extracting low-level positional information and fine-grained context interaction. To address this, we propose a novel location refined feature pyramid network (LR-FPN) to enhance the extraction of shallow positional information and facilitate fine-grained context interaction. The LR-FPN consists of two primary modules: the shallow position information extraction module (SPIEM) and the contextual interaction module (CIM). Specifically, SPIEM first maximizes the retention of solid location information of the target by simultaneously extracting positional and saliency information from the low-level feature map. Subsequently, CIM injects this robust location information into different layers of the original FPN through spatial and channel interaction, explicitly enhancing the object area. Moreover, in spatial interaction, we introduce a simple local and non-local interaction strategy to learn and retain the saliency information of the object. Lastly, the LR-FPN can be readily integrated into common object detection frameworks to improve performance significantly. Extensive experiments on two large-scale remote sensing datasets (i.e., DOTAV1.0 and HRSC2016) demonstrate that the proposed LR-FPN is superior to state-of-the-art object detection approaches. Our code and models will be publicly available.
翻訳日:2024-04-03 18:08:16 公開日:2024-04-02
# LLMをクロスモーダルおよびクロスランガル検索システムに変換する

Transforming LLMs into Cross-modal and Cross-lingual RetrievalSystems ( http://arxiv.org/abs/2404.01616v1 )

ライセンス: Link先を確認
Frank Palma Gomez, Ramon Sanabria, Yun-hsuan Sung, Daniel Cer, Siddharth Dalmia, Gustavo Hernandez Abrego, (参考訳) 大規模言語モデル(LLM)は、ペア化された音声とテキストデータを持つ言語を超えた、テキストのみのデータに基づいて訓練される。 同時に、Dual Encoder (DE) ベースの検索システムは、クエリとドキュメントを同じ埋め込み空間に投影し、検索とバイテキストマイニングの成功を実証している。 多くの言語における音声とテキストを一致させるため,マルチモーダルD検索システムを初期化するLLMを提案する。 従来の手法とは異なり,本システムはLLM事前学習中に音声データを必要とせず,LLMの多言語テキスト理解機能を利用して検索訓練中に見つからない言語における音声とテキストのマッチングを行うことができる。 マルチモーダルLLMに基づく検索システムでは,21言語でのみ学習しながら102言語で音声とテキストをマッチングできる。 我々のシステムは、すべての102言語で明示的に訓練された以前のシステムより優れています。 これらの言語で平均されるRecall@1の10%の絶対的な改善を実現しています。 さらに,本モデルでは,機械翻訳データによってさらに拡張された言語間音声とテキストマッチングを実証する。

Large language models (LLMs) are trained on text-only data that go far beyond the languages with paired speech and text data. At the same time, Dual Encoder (DE) based retrieval systems project queries and documents into the same embedding space and have demonstrated their success in retrieval and bi-text mining. To match speech and text in many languages, we propose using LLMs to initialize multi-modal DE retrieval systems. Unlike traditional methods, our system doesn't require speech data during LLM pre-training and can exploit LLM's multilingual text understanding capabilities to match speech and text in languages unseen during retrieval training. Our multi-modal LLM-based retrieval system is capable of matching speech and text in 102 languages despite only training on 21 languages. Our system outperforms previous systems trained explicitly on all 102 languages. We achieve a 10% absolute improvement in Recall@1 averaged across these languages. Additionally, our model demonstrates cross-lingual speech and text matching, which is further enhanced by readily available machine translation data.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# LLM-ABR:大規模言語モデルによる適応ビットレートアルゴリズムの設計

LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models ( http://arxiv.org/abs/2404.01617v1 )

ライセンス: Link先を確認
Zhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang, (参考訳) LLM-ABRは,大規模言語モデル(LLM)の生成能力を利用して,多様なネットワーク特性に適した適応ビットレート(ABR)アルゴリズムを自動設計するシステムである。 LLM-ABRは強化学習フレームワーク内で運用されており、状態やニューラルネットワークアーキテクチャといった重要なコンポーネントを設計する権限をLLMに与えている。 LLM-ABRは,ブロードバンド,衛星,4G,5Gなど多様なネットワーク構成で評価される。 LLM-ABRはデフォルトのABRアルゴリズムより一貫して優れている。

We present LLM-ABR, the first system that utilizes the generative capabilities of large language models (LLMs) to autonomously design adaptive bitrate (ABR) algorithms tailored for diverse network characteristics. Operating within a reinforcement learning framework, LLM-ABR empowers LLMs to design key components such as states and neural network architectures. We evaluate LLM-ABR across diverse network settings, including broadband, satellite, 4G, and 5G. LLM-ABR consistently outperforms default ABR algorithms.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# 強力な保証を備えたプライバシ保護フェデレーショングラフ分析(特定のクエリに対して)

Making Privacy-preserving Federated Graph Analytics with Strong Guarantees Practical (for Certain Queries) ( http://arxiv.org/abs/2404.01619v1 )

ライセンス: Link先を確認
Kunlong Liu, Trinabh Gupta, (参考訳) プライバシー保護のためのフェデレーショングラフ分析は、新たな研究分野である。 目標は、グラフ分析クエリを、グラフとして整理された一連のデバイス上で実行し、生データを集中するのではなく、デバイス上に保持することだ。 さらに、最終クエリ結果以外は、いかなるエンティティも新しい情報も学べない。 例えば、デバイスは隣人のデータを学ばないことがある。 この問題の最先端の作業は、デバイスが悪意を持つ可能性のある強力な脅威モデルにおいて、幅広いクエリのプライバシ保証を提供する。 それぞれのデバイスはローカルで8.79時間以上のCPU時間と5.73ギビットのネットワーク転送を必要とする。 本稿では,プライバシ保護のためのフェデレーショングラフ分析システムであるColoについて述べる。 Coloの中心となる新しいセキュアな計算プロトコルは、デバイスデータ、エッジデータ、トポロジデータを隠蔽しながら、デバイスがローカル近所のグラフクエリを安全かつ効率的に評価することを可能にする。 Coloの実装と評価によると、人口100万のデバイス上でさまざまなCOVID-19クエリを実行するには、デバイスのCPU時間8.4分未満、ネットワーク転送で4.93 MiB(最大3桁の改善)が必要である。

Privacy-preserving federated graph analytics is an emerging area of research. The goal is to run graph analytics queries over a set of devices that are organized as a graph while keeping the raw data on the devices rather than centralizing it. Further, no entity may learn any new information except for the final query result. For instance, a device may not learn a neighbor's data. The state-of-the-art prior work for this problem provides privacy guarantees for a broad set of queries in a strong threat model where the devices can be malicious. However, it imposes an impractical overhead: each device locally requires over 8.79 hours of cpu time and 5.73 GiBs of network transfers per query. This paper presents Colo, a new, low-cost system for privacy-preserving federated graph analytics that requires minutes of cpu time and a few MiBs in network transfers, for a particular subset of queries. At the heart of Colo is a new secure computation protocol that enables a device to securely and efficiently evaluate a graph query in its local neighborhood while hiding device data, edge data, and topology data. An implementation and evaluation of Colo shows that for running a variety of COVID-19 queries over a population of 1M devices, it requires less than 8.4 minutes of a device's CPU time and 4.93 MiBs in network transfers - improvements of up to three orders of magnitude.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# Voice EHR: 健康のためのマルチモーダルオーディオデータの導入

Voice EHR: Introducing Multimodal Audio Data for Health ( http://arxiv.org/abs/2404.01620v1 )

ライセンス: Link先を確認
James Anibal, Hannah Huth, Ming Li, Lindsey Hazen, Yen Minh Lam, Nguyen Thi Thu Hang, Michael Kleinman, Shelley Ost, Christopher Jackson, Laura Sprabery, Cheran Elangovan, Balaji Krishnaiah, Lee Akst, Ioan Lina, Iqbal Elyazar, Lenny Ekwati, Stefan Jansen, Richard Nduwayezu, Charisse Garcia, Jeffrey Plum, Jacqueline Brenner, Miranda Song, Emily Ricotta, David Clifton, C. Louise Thwaites, Yael Bensoussan, Bradford Wood, (参考訳) オーディオデータに基づいてトレーニングされた大規模なAIモデルは、患者を迅速に分類し、医療上の意思決定を強化し、早期発見を通じて結果を改善する可能性がある。 既存の技術は、高所得の英語圏で高価な記録装置を使用する限られたデータセットに依存している。 これにより、オーディオデータが大きな影響を与える可能性のある、リソース制約のある高ボリューム設定へのデプロイメントが困難になる。 本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。 このアプリケーションは最終的に、従来の音声/呼吸機能、音声パターン、意味のある言語から健康の複雑なバイオマーカーを含む音声電子健康記録(ボイスEHR)を出力し、単調な臨床データセットの典型的な制限を補う。 本報告では、グローバルな作業のためのパートナーのコンソーシアムを紹介し、データ収集に使用されるアプリケーションを紹介し、音声AIのスケーラビリティと多様性を向上するために、インフォメーション音声EHRの可能性を示す。

Large AI models trained on audio data may have the potential to rapidly classify patients, enhancing medical decision-making and potentially improving outcomes through early detection. Existing technologies depend on limited datasets using expensive recording equipment in high-income, English-speaking countries. This challenges deployment in resource-constrained, high-volume settings where audio data may have a profound impact. This report introduces a novel data type and a corresponding collection system that captures health data through guided questions using only a mobile/web application. This application ultimately results in an audio electronic health record (voice EHR) which may contain complex biomarkers of health from conventional voice/respiratory features, speech patterns, and language with semantic meaning - compensating for the typical limitations of unimodal clinical datasets. This report introduces a consortium of partners for global work, presents the application used for data collection, and showcases the potential of informative voice EHR to advance the scalability and diversity of audio AI.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# Gen4DS: 生成AI時代のデータストーリーテリングに関するワークショップ

Gen4DS: Workshop on Data Storytelling in an Era of Generative AI ( http://arxiv.org/abs/2404.01622v1 )

ライセンス: Link先を確認
Xingyu Lan, Leni Yang, Zezhong Wang, Danqing Shi, Sheelagh Carpendale, (参考訳) ストーリーテリングは、デジタル時代に復活した古代で貴重な人間の能力である。 過去10年間で、学術と産業の両方において、データストーリーテリングの認識と応用が顕著に急増した。 近年、生成AIの急速な発展により、この分野に新たな機会と課題が生まれ、多くの新しい疑問が持ち上がった。 これらの質問はすぐに論文化されるとは限らないが、コミュニティが今後の重要な課題や研究課題をより明確にするためには、迅速に議論する必要があると考えている。 ですから、私たちのワークショップ(Gen4DS)に参加して、次のような質問を議論してください。 生成AIは、どのようにデータストーリの作成を促進できますか? 生成AIはどのようにデータストーリーテラーのワークフローを変えるのか? ストーリーテリングにAIを導入する際の落とし穴とリスクは何か? ワークショップのために、ペーパープレゼンテーションとインタラクティブなアクティビティ(ハンズオン作成、グループディスカッションポッド、議論の的になっている問題に関する議論を含む)の両方を設計しました。 参加者が最新の進歩について学び、データストーリーテリングにおける先駆的な仕事を学び、互いに批判的な会話をし合い、イベントにおいて楽しい、忘れられない、有意義な経験を得られることを期待しています。

Storytelling is an ancient and precious human ability that has been rejuvenated in the digital age. Over the last decade, there has been a notable surge in the recognition and application of data storytelling, both in academia and industry. Recently, the rapid development of generative AI has brought new opportunities and challenges to this field, sparking numerous new questions. These questions may not necessarily be quickly transformed into papers, but we believe it is necessary to promptly discuss them to help the community better clarify important issues and research agendas for the future. We thus invite you to join our workshop (Gen4DS) to discuss questions such as: How can generative AI facilitate the creation of data stories? How might generative AI alter the workflow of data storytellers? What are the pitfalls and risks of incorporating AI in storytelling? We have designed both paper presentations and interactive activities (including hands-on creation, group discussion pods, and debates on controversial issues) for the workshop. We hope that participants will learn about the latest advances and pioneering work in data storytelling, engage in critical conversations with each other, and have an enjoyable, unforgettable, and meaningful experience at the event.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# 高速量子コンピューティングのための短ポリエンのAb initio拡張ハバードモデル

Ab initio extended Hubbard model of short polyenes for efficient quantum computing ( http://arxiv.org/abs/2404.01623v1 )

ライセンス: Link先を確認
Yuichiro Yoshida, Nayuta Takemori, Wataru Mizukami, (参考訳) 本稿では,分子電子構造計算の効率的な量子計算に向けて,もともと周期材料に定式化されたab initioダウンフォールディング法により導出される拡張ハバード・ハミルトンを導入することを提案する。 この方法を用いることで、化学系の第一原理ハミルトニアンは、高エネルギー空間における電子自由度を排除し、電子反発積分の項数を$\mathcal{O}(N^4)$から$\mathcal{O}(N^2)$に減らし、粗くすることができる。 本手法は, エチレン, ブタジエン, ヘキサトリエンの垂直励起エネルギーおよび励起特性を数値的に検証した。 動的電子相関は、量子計算に先立って制約されたランダム位相近似の枠組みに組み込まれ、構築されたモデルは、実験および高レベルの量子化学計算結果の傾向を捉えている。 予想通り、フェルミオンから量子ビットへの写像モデルであるハミルトニアンの$L^1$-normは、従来のアブ初期ハミルトニアンよりも大幅に低く、量子コンピューティングのスケーラビリティの向上を示唆している。 これらの数値結果と励起状態サンプリングのシミュレーションの結果は、アブ初期拡張ハバードハミルトニアンが量子コンピュータを用いた量子化学計算に有意なポテンシャルを持つことを示した。

We propose introducing an extended Hubbard Hamiltonian derived via the ab initio downfolding method, which was originally formulated for periodic materials, towards efficient quantum computing of molecular electronic structure calculations. By utilizing this method, the first-principles Hamiltonian of chemical systems can be coarse-grained by eliminating the electronic degrees of freedom in higher energy space and reducing the number of terms of electron repulsion integral from $\mathcal{O}(N^4)$ to $\mathcal{O}(N^2)$. Our approach is validated numerically on the vertical excitation energies and excitation characters of ethylene, butadiene, and hexatriene. The dynamical electron correlation is incorporated within the framework of the constrained random phase approximation in advance of quantum computations, and the constructed models capture the trend of experimental and high-level quantum chemical calculation results. As expected, the $L^1$-norm of the fermion-to-qubit mapped model Hamiltonians is significantly lower than that of conventional ab initio Hamiltonians, suggesting improved scalability of quantum computing. Those numerical outcomes and the results of the simulation of excited-state sampling demonstrate that the ab initio extended Hubbard Hamiltonian may hold significant potential for quantum chemical calculations using quantum computers.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# AAA : 局所的に異なる個人平均推定のための適応的メカニズム

AAA: an Adaptive Mechanism for Locally Differential Private Mean Estimation ( http://arxiv.org/abs/2404.01625v1 )

ライセンス: Link先を確認
Fei Wei, Ergute Bao, Xiaokui Xiao, Yin Yang, Bolin Ding, (参考訳) ローカルディファレンシャルプライバシ(LDP)は、一般的なソフトウェアシステムで採用されている強力なプライバシ標準である。 主な考え方は、個々のデータがローカルに摂動し、結果のノイズバージョンをデータアグリゲータにのみ送信するというものである。 様々な種類の集約の計算やLDPによる機械学習アプリケーションの構築に多くの努力が注がれているが、近年は基本的な摂動機構の研究は大きな進歩を遂げていない。 より洗練された結果ユーティリティを目指して、既存の作業は主に最悪のケースの保証を改善することに焦点を当てている。 しかし、実際にはデータが特定の分布に従うという事実を考えると、このアプローチは必ずしもより良い平均性能を約束するわけではない。 本稿では,平均効用に対処し,古典的平均推定問題に対処する分布認識手法である高度適応型加算(AAA)機構を提案する。 AAAは、2段階のアプローチで実行される: まず、グローバルなデータ分布が事前に利用できないため、データ集約器は、(ノイズの多い)量子化されたデータ記述子を計算するために、個人のランダムなサブセットを選択し、次に、データ集約器は、分布を意識した方法で、残りの個人からデータを収集する。 後者のステップに関わる摂動は、前ステップで得られたデータ記述子とタスク決定ユーティリティの所望の特性とで定式化された最適化問題を解くことにより得られる。 我々は、厳密なプライバシー証明、ユーティリティ分析、そしてAAAと最先端のメカニズムを比較した広範な実験を提供する。 評価結果は、AAAメカニズムが、幅広いプライバシー制約と実世界および合成データセットに基づいて、結果ユーティリティの観点から、既存のソリューションよりも明確なマージンで一貫して優れていることを示す。

Local differential privacy (LDP) is a strong privacy standard that has been adopted by popular software systems. The main idea is that each individual perturbs their own data locally, and only submits the resulting noisy version to a data aggregator. Although much effort has been devoted to computing various types of aggregates and building machine learning applications under LDP, research on fundamental perturbation mechanisms has not achieved significant improvement in recent years. Towards a more refined result utility, existing works mainly focus on improving the worst-case guarantee. However, this approach does not necessarily promise a better average performance given the fact that the data in practice obey a certain distribution, which is not known beforehand. In this paper, we propose the advanced adaptive additive (AAA) mechanism, which is a distribution-aware approach that addresses the average utility and tackles the classical mean estimation problem. AAA is carried out in a two-step approach: first, as the global data distribution is not available beforehand, the data aggregator selects a random subset of individuals to compute a (noisy) quantized data descriptor; then, the data aggregator collects data from the remaining individuals, which are perturbed in a distribution-aware fashion. The perturbation involved in the latter step is obtained by solving an optimization problem, which is formulated with the data descriptor obtained in the former step and the desired properties of task-determined utilities. We provide rigorous privacy proofs, utility analyses, and extensive experiments comparing AAA with state-of-the-art mechanisms. The evaluation results demonstrate that the AAA mechanism consistently outperforms existing solutions with a clear margin in terms of result utility, on a wide range of privacy constraints and real-world and synthetic datasets.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# Fusion Entity Decodingによるエンティティの曖昧化

Entity Disambiguation via Fusion Entity Decoding ( http://arxiv.org/abs/2404.01626v1 )

ライセンス: Link先を確認
Junxiong Wang, Ali Mousavi, Omar Attia, Saloni Potdar, Alexander M. Rush, Umar Farooq Minhas, Yunyao Li, (参考訳) 知識ベースにおけるあいまいなエンティティの参照エンティティへの言及をリンクするエンティティ曖昧化(ED)は、エンティティリンク(EL)のコアコンポーネントとして機能する。 既存の生成手法は、標準ZELDAベンチマークによる分類手法と比較して精度が向上している。 それでも、生成的アプローチは大規模な事前学習と非効率な生成の必要性に悩まされている。 最も重要なことは、類似したエンティティを区別するための重要な情報を含むエンティティ記述は、しばしば見過ごされてしまうことである。 より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。 テキストと候補エンティティが与えられた後、エンコーダはテキストと各候補エンティティ間の相互作用を学習し、各エンティティ候補の表現を生成する。 デコーダはエンティティ候補の表現を融合させ、正しいエンティティを選択する。 種々のエンティティの曖昧さを指標とした実験では,このモデルの強靭性,強靭性,特にZELDAベンチマークの +1.5% を GENRE と比較した。 さらに,本手法を検索/読み出しフレームワークに統合し,EntQAと比較してGERBILベンチマークにおけるエンドツーエンドエンティティリンクの+1.5%改善を観察する。

Entity disambiguation (ED), which links the mentions of ambiguous entities to their referent entities in a knowledge base, serves as a core component in entity linking (EL). Existing generative approaches demonstrate improved accuracy compared to classification approaches under the standardized ZELDA benchmark. Nevertheless, generative approaches suffer from the need for large-scale pre-training and inefficient generation. Most importantly, entity descriptions, which could contain crucial information to distinguish similar entities from each other, are often overlooked. We propose an encoder-decoder model to disambiguate entities with more detailed entity descriptions. Given text and candidate entities, the encoder learns interactions between the text and each candidate entity, producing representations for each entity candidate. The decoder then fuses the representations of entity candidates together and selects the correct entity. Our experiments, conducted on various entity disambiguation benchmarks, demonstrate the strong and robust performance of this model, particularly +1.5% in the ZELDA benchmark compared with GENRE. Furthermore, we integrate this approach into the retrieval/reader framework and observe +1.5% improvements in end-to-end entity linking in the GERBIL benchmark compared with EntQA.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# オンライン連続学習のための等角表現の学習

Learning Equi-angular Representations for Online Continual Learning ( http://arxiv.org/abs/2404.01628v1 )

ライセンス: Link先を確認
Minhyuk Seo, Hyunseo Koh, Wonje Jeung, Minjae Lee, San Kim, Hankook Lee, Sungjun Cho, Sungik Choi, Hyunwoo Kim, Jonghyun Choi, (参考訳) オンライン連続学習は、プロンプトモデル更新(例えば、シングルエポックトレーニング)のトレーニングが不十分なため、不適合なソリューションに悩まされる。 この課題に対処するために,ニューラル崩壊現象を用いた効率的なオンライン連続学習手法を提案する。 特に,1つのエポックを持つ連続学習モデルが,表現空間における予備データトレーニングと残差補正を提案してストリームデータに適合するように,表現空間に単純な等角的タイトフレーム(ETF)構造を形成するように神経崩壊を誘導する。 CIFAR-10/100, TinyImageNet, ImageNet-200, ImageNet-1K を用いた実験的な検証により, 提案手法は, 分割やガウス的連続(境界のない)データ設定などのオンライン連続学習シナリオにおいて, 最先端の手法よりも顕著に優れていることを示す。

Online continual learning suffers from an underfitted solution due to insufficient training for prompt model update (e.g., single-epoch training). To address the challenge, we propose an efficient online continual learning method using the neural collapse phenomenon. In particular, we induce neural collapse to form a simplex equiangular tight frame (ETF) structure in the representation space so that the continuously learned model with a single epoch can better fit to the streamed data by proposing preparatory data training and residual correction in the representation space. With an extensive set of empirical validations using CIFAR-10/100, TinyImageNet, ImageNet-200, and ImageNet-1K, we show that our proposed method outperforms state-of-the-art methods by a noticeable margin in various online continual learning scenarios such as disjoint and Gaussian scheduled continuous (i.e., boundary-free) data setups.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# 教師なし機械学習による自動車用AMS回路の機能安全性向上

Enhancing Functional Safety in Automotive AMS Circuits through Unsupervised Machine Learning ( http://arxiv.org/abs/2404.01632v1 )

ライセンス: Link先を確認
Ayush Arunachalam, Ian Kintz, Suvadeep Banerjee, Arnab Raha, Xiankun Jin, Fei Su, Viswanathan Pillai Prasanth, Rubin A. Parekhji, Suriyaprakash Natarajan, Kanad Basu, (参考訳) 自動車分野における安全クリティカルな応用が広く普及していることを考えると、自動車システムにおける回路や部品の機能安全(FuSa)の確保が不可欠である。 これらのシステムで広く使われているAnalog and Mixed-Signal (AMS) 回路は、パラメトリックな摂動、ノイズ、環境ストレス、その他の要因によって引き起こされる故障に対してより脆弱である。 しかし、その連続信号特性は早期異常検出の機会となり、システム障害を防止するための安全機構の実装を可能にした。 そこで本研究では,AMS回路における早期異常検出のための教師なし機械学習に基づく新しいフレームワークを提案する。 提案手法では、様々な回路位置や個々の部品に異常を注入し、多様な総合的な異常データセットを作成し、続いて観察された回路信号から特徴を抽出する。 その後、異常検出を容易にするためにクラスタリングアルゴリズムを用いる。 最後に,異常検出性能の向上と高速化を目的とした時系列フレームワークを提案する。 本手法では, ハードウェアからブロックレベルに至るまで, 自動車領域に関連する複数のレベルの異常抽象化を系統的に解析し, 多様な障害シナリオを生成する。 これらの異常な条件下でのシステムの挙動をモニタリングすることにより、異常の伝播とその影響を異なる抽象レベルで捉え、自動車用SoCのFuSaを確保するための信頼性の高い安全機構の実装の道を開く可能性がある。 実験結果から,本手法は100%異常検出精度を達成し,関連するレイテンシを5倍に大きく最適化し,本手法の有効性を実証した。

Given the widespread use of safety-critical applications in the automotive field, it is crucial to ensure the Functional Safety (FuSa) of circuits and components within automotive systems. The Analog and Mixed-Signal (AMS) circuits prevalent in these systems are more vulnerable to faults induced by parametric perturbations, noise, environmental stress, and other factors, in comparison to their digital counterparts. However, their continuous signal characteristics present an opportunity for early anomaly detection, enabling the implementation of safety mechanisms to prevent system failure. To address this need, we propose a novel framework based on unsupervised machine learning for early anomaly detection in AMS circuits. The proposed approach involves injecting anomalies at various circuit locations and individual components to create a diverse and comprehensive anomaly dataset, followed by the extraction of features from the observed circuit signals. Subsequently, we employ clustering algorithms to facilitate anomaly detection. Finally, we propose a time series framework to enhance and expedite anomaly detection performance. Our approach encompasses a systematic analysis of anomaly abstraction at multiple levels pertaining to the automotive domain, from hardware- to block-level, where anomalies are injected to create diverse fault scenarios. By monitoring the system behavior under these anomalous conditions, we capture the propagation of anomalies and their effects at different abstraction levels, thereby potentially paving the way for the implementation of reliable safety mechanisms to ensure the FuSa of automotive SoCs. Our experimental findings indicate that our approach achieves 100% anomaly detection accuracy and significantly optimizes the associated latency by 5X, underscoring the effectiveness of our devised solution.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# 強化学習によるカメラ露光制御の学習

Learning to Control Camera Exposure via Reinforcement Learning ( http://arxiv.org/abs/2404.01636v1 )

ライセンス: Link先を確認
Kyunghyun Lee, Ukcheol Shin, Byeong-Uk Lee, (参考訳) 任意の照明条件下でカメラの露出を調整することは、コンピュータビジョンアプリケーションの機能を保証するための第一歩である。 微調整されたカメラの露出は、しばしば重大な故障と性能劣化を引き起こす。 従来のカメラ露光制御法では、複数の収束ステップと時間を要するため、動的照明条件には適さない。 本稿では,より深い強化学習を生かしてリアルタイム処理を行いながら,カメラ露出を迅速に制御する新しいカメラ露出制御フレームワークを提案する。 提案するフレームワークは,4つのコントリビューションから構成される。 1)現実世界の多様でダイナミックな照明変化をシミュレートするための簡易な訓練場。 2) リアルタイム処理のための軽量な状態設計とともに、フレッカリングと画像属性対応報酬設計を行う。 3) エージェントの露光調整能力を徐々に改善する静的・動的照明カリキュラム。 4) 訓練場の制限を緩和し, 野生でのシームレスな一般化を実現するための領域ランダム化手法により, 提案手法は, リアルタイム処理(1ms)を用いて, 5段階以内で迅速に所望の露出レベルに達することができた。 また、取得した画像はよく公開されており、特徴抽出やオブジェクト検出など、様々なコンピュータビジョンタスクにおいて優位性を示す。

Adjusting camera exposure in arbitrary lighting conditions is the first step to ensure the functionality of computer vision applications. Poorly adjusted camera exposure often leads to critical failure and performance degradation. Traditional camera exposure control methods require multiple convergence steps and time-consuming processes, making them unsuitable for dynamic lighting conditions. In this paper, we propose a new camera exposure control framework that rapidly controls camera exposure while performing real-time processing by exploiting deep reinforcement learning. The proposed framework consists of four contributions: 1) a simplified training ground to simulate real-world's diverse and dynamic lighting changes, 2) flickering and image attribute-aware reward design, along with lightweight state design for real-time processing, 3) a static-to-dynamic lighting curriculum to gradually improve the agent's exposure-adjusting capability, and 4) domain randomization techniques to alleviate the limitation of the training ground and achieve seamless generalization in the wild.As a result, our proposed method rapidly reaches a desired exposure level within five steps with real-time processing (1 ms). Also, the acquired images are well-exposed and show superiority in various computer vision tasks, such as feature extraction and object detection.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# 連続時間量子ウォークによる完全二部グラフの決定論的探索

Deterministic Search on Complete Bipartite Graphs by Continuous Time Quantum Walk ( http://arxiv.org/abs/2404.01640v1 )

ライセンス: Link先を確認
Honghong Lin, Yun Shang, (参考訳) 本稿では,完全二部グラフ上の決定論的探索アルゴリズムを提案する。 我々のアルゴリズムは、Groverの探索アルゴリズムの一般化である、オラクルと連続時間量子ウォーク演算子の反復を交互に行う単純な形式を採用する。 複数のマーク状態の最も一般的なケースに対処するため、マーク状態の数を推定する問題が存在する。 この目的のために,探索演算子のスペクトル構造に基づく量子カウントアルゴリズムを構築した。 連続時間量子ウォーク演算子を実装するために,量子回路モデルにおいてハミルトニアンシミュレーションを行う。 すなわち、量子回路の複雑さは進化の時間とともにスケールしない。 さらに、決定論的探索は完全状態伝達(PST)のための単純なツールとして機能する。 応用として,完全二部グラフ上でのPST問題について検討する。

This paper presents a deterministic search algorithm on complete bipartite graphs. Our algorithm adopts the simple form of alternating iterations of an oracle and a continuous-time quantum walk operator, which is a generalization of Grover's search algorithm. We address the most general case of multiple marked states, so there is a problem of estimating the number of marked states. To this end, we construct a quantum counting algorithm based on the spectrum structure of the search operator. To implement the continuous-time quantum walk operator, we perform Hamiltonian simulation in the quantum circuit model. We achieve simulation in constant time, that is, the complexity of the quantum circuit does not scale with the evolution time. Besides, deterministic search serves as a simple tool for perfect state transfer (PST). As an application, we explore the problem of PST on complete bipartite graphs.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# ADVREPAIR : 敵攻撃の予防的修復

ADVREPAIR:Provable Repair of Adversarial Attack ( http://arxiv.org/abs/2404.01642v1 )

ライセンス: Link先を確認
Zhiming Chi, Jianan Ma, Pengfei Yang, Cheng-Chao Huang, Renjue Li, Xiaowei Huang, Lijun Zhang, (参考訳) ディープニューラルネットワーク(DNN)は、ますます安全クリティカルなドメインにデプロイされているが、敵の攻撃に対する脆弱性は深刻な安全リスクを引き起こす。 制限されたデータを用いた既存のニューロンレベルの手法は、敵の攻撃機構が本質的に複雑であるために敵の修正に効果がないが、敵の訓練は、多数の敵のサンプルを活用して堅牢性を向上するが、実行可能性に欠ける。 本稿では,限られたデータを用いた敵攻撃の即時修復のための新しいアプローチであるADVREPAIRを提案する。 ADVREPAIRは、形式的検証を利用することで、元のネットワークと統合されたパッチモジュールを構築し、ロバストネス地区内で証明可能で特殊な修復を行う。 さらに,本手法では,パッチモジュールを割り当てるヒューリスティックな機構を導入し,敵攻撃に対する防御を他の入力に一般化する。 ADVREPAIRは優れた効率、スケーラビリティ、修理成功率を示す。 既存のDNN修復法と異なり、我々の修復は一般的な入力に一般化することができ、それによって世界中のニューラルネットワークの堅牢性が向上し、ADVREPAIRの一般化能力の著しいブレークスルーを示す。

Deep neural networks (DNNs) are increasingly deployed in safety-critical domains, but their vulnerability to adversarial attacks poses serious safety risks. Existing neuron-level methods using limited data lack efficacy in fixing adversaries due to the inherent complexity of adversarial attack mechanisms, while adversarial training, leveraging a large number of adversarial samples to enhance robustness, lacks provability. In this paper, we propose ADVREPAIR, a novel approach for provable repair of adversarial attacks using limited data. By utilizing formal verification, ADVREPAIR constructs patch modules that, when integrated with the original network, deliver provable and specialized repairs within the robustness neighborhood. Additionally, our approach incorporates a heuristic mechanism for assigning patch modules, allowing this defense against adversarial attacks to generalize to other inputs. ADVREPAIR demonstrates superior efficiency, scalability and repair success rate. Different from existing DNN repair methods, our repair can generalize to general inputs, thereby improving the robustness of the neural network globally, which indicates a significant breakthrough in the generalization capability of ADVREPAIR.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# 新型コロナウイルス検出のための空間的スライス学習

A Closer Look at Spatial-Slice Features Learning for COVID-19 Detection ( http://arxiv.org/abs/2404.01643v1 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chia-Ming Lee, Yang Fan Chiang, Yi-Shiuan Chou, Chih-Yu Jiang, Shen-Chieh Tai, Chi-Han Tsai, (参考訳) 従来のCT画像認識では,各CTスキャンの解像度とサイズに有意なばらつきがしばしばあり,入力サイズと適応性に対する厳密な要件が要求される。 2)CTスキャンには,多くのアウト・オブ・ディストリビューション(OOD)スライスが含まれている。 重要な特徴は、CTスキャン全体の特定の空間領域とスライスにのみ存在する可能性がある。 これらがどこにあるのか、どうやって効果的に把握できるのか? そこで本稿では,CTスキャンに特化して設計されたSSFL++(Spatial-Slice Feature Learning)フレームワークを提案する。 本研究の目的は,全CTスキャンでOODデータをフィルタリングし,70%の冗長性を完全に低減し,解析のための重要な空間スライスを選択することである。 一方,KDS法は,トレーニングおよび推論段階における安定性を向上させるため,収束率を向上し,性能を向上する。 その結果、トレーニングデータの1%しか持たない単純なE2Dモデルを用いて、本モデルの有望な性能を実証した。 DEF-AI-MIAワークショップで提供されるCOVID-19-CT-DBデータセットとCVPR 2024を併用して,本手法の有効性を検証した。 ソースコードは公開されます。

Conventional Computed Tomography (CT) imaging recognition faces two significant challenges: (1) There is often considerable variability in the resolution and size of each CT scan, necessitating strict requirements for the input size and adaptability of models. (2) CT-scan contains large number of out-of-distribution (OOD) slices. The crucial features may only be present in specific spatial regions and slices of the entire CT scan. How can we effectively figure out where these are located? To deal with this, we introduce an enhanced Spatial-Slice Feature Learning (SSFL++) framework specifically designed for CT scan. It aim to filter out a OOD data within whole CT scan, enabling our to select crucial spatial-slice for analysis by reducing 70% redundancy totally. Meanwhile, we proposed Kernel-Density-based slice Sampling (KDS) method to improve the stability when training and inference stage, therefore speeding up the rate of convergence and boosting performance. As a result, the experiments demonstrate the promising performance of our model using a simple EfficientNet-2D (E2D) model, even with only 1% of the training data. The efficacy of our approach has been validated on the COVID-19-CT-DB datasets provided by the DEF-AI-MIA workshop, in conjunction with CVPR 2024. Our source code will be made available.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# コントラストCAD:コンピュータ支援設計モデルのためのコントラスト学習に基づく表現学習

ContrastCAD: Contrastive Learning-based Representation Learning for Computer-Aided Design Models ( http://arxiv.org/abs/2404.01645v1 )

ライセンス: Link先を確認
Minseop Jung, Minseong Kim, Jibum Kim, (参考訳) Transformerベースのモデルの成功により、多くの研究者がシーケンスベースのアプローチを使ってCADモデルを学ぶようになった。 しかし、CADモデルの学習は、長い構築シーケンスを持つ複雑な形状として表現できるため、依然として課題である。 さらに、同じCADモデルを異なるCAD構成シーケンスで表現することができる。 本稿では,CADモデルの構成シーケンス内の意味情報を効果的にキャプチャする,ContrastCADという新しいコントラスト学習手法を提案する。 ContrastCADはCADモデルの形状を変えることなくドロップアウト技術を用いて拡張ビューを生成する。 また、不均衡学習CADデータセットのトレーニングにおいて、モデルの学習性能を高めるために、RRE法と呼ばれる新しいCADデータ拡張手法を提案する。 実験の結果,提案手法は,非常に長い構成シーケンスを持つ複雑なCADモデルであっても,トランスフォーマーベースのオートエンコーダの学習性能を著しく向上させることがわかった。 提案したContrastCADモデルは,構成系列の置換変化に対して頑健であり,類似CADモデルがより密集した表現空間を生成することにより,表現学習の高速化が図られている。 私たちのコードはhttps://github.com/cm8908/ContrastCADで公開されています。

The success of Transformer-based models has encouraged many researchers to learn CAD models using sequence-based approaches. However, learning CAD models is still a challenge, because they can be represented as complex shapes with long construction sequences. Furthermore, the same CAD model can be expressed using different CAD construction sequences. We propose a novel contrastive learning-based approach, named ContrastCAD, that effectively captures semantic information within the construction sequences of the CAD model. ContrastCAD generates augmented views using dropout techniques without altering the shape of the CAD model. We also propose a new CAD data augmentation method, called a Random Replace and Extrude (RRE) method, to enhance the learning performance of the model when training an imbalanced training CAD dataset. Experimental results show that the proposed RRE augmentation method significantly enhances the learning performance of Transformer-based autoencoders, even for complex CAD models having very long construction sequences. The proposed ContrastCAD model is shown to be robust to permutation changes of construction sequences and performs better representation learning by generating representation spaces where similar CAD models are more closely clustered. Our codes are available at https://github.com/cm8908/ContrastCAD.
翻訳日:2024-04-03 17:58:09 公開日:2024-04-02
# Transformerはリアルタイムバッテリ入札を改善するためにwcDTWと出会う:シナリオ選択のための新しいアプローチ

Transformer meets wcDTW to improve real-time battery bids: A new approach to scenario selection ( http://arxiv.org/abs/2404.01646v1 )

ライセンス: Link先を確認
Sujal Bhavsar, Vera Zaychik Moffitt, Justin Appleby, (参考訳) リアルタイムエネルギー市場における確率的バッテリ入札は、予測の正確性や最適化のために選択された代表的なシナリオによって、その有効性は微妙なプロセスである。 本稿では,制約付き動的時間ウォーピング(wcDTW)を併用したトランスフォーマーに基づく予測手法を先駆的に導入し,シナリオ選択を洗練させる手法を提案する。 提案手法はトランスフォーマーの予測能力を利用してエネルギー価格を予測し,wcDTWは複数の不確実な製品間のコヒーレンスを維持することで,関連する歴史的シナリオの選択を保証する。 2023年7月のPJM市場における広範なシミュレーションを通じて,従来の方法に比べて収益が10%増加したことを示し,リアルタイム市場におけるバッテリ入札戦略に革命をもたらす可能性を強調した。

Stochastic battery bidding in real-time energy markets is a nuanced process, with its efficacy depending on the accuracy of forecasts and the representative scenarios chosen for optimization. In this paper, we introduce a pioneering methodology that amalgamates Transformer-based forecasting with weighted constrained Dynamic Time Warping (wcDTW) to refine scenario selection. Our approach harnesses the predictive capabilities of Transformers to foresee Energy prices, while wcDTW ensures the selection of pertinent historical scenarios by maintaining the coherence between multiple uncertain products. Through extensive simulations in the PJM market for July 2023, our method exhibited a 10% increase in revenue compared to the conventional method, highlighting its potential to revolutionize battery bidding strategies in real-time markets.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# EDTalk:感情的トーキングヘッド合成のための効率的なディスタングル

EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis ( http://arxiv.org/abs/2404.01647v1 )

ライセンス: Link先を確認
Shuai Tan, Bin Ji, Mengxiao Bi, Ye Pan, (参考訳) 複数の顔の動きに対するゆがみ制御を達成し、多様な入力モダリティを収容することで、音声ヘッドジェネレーションの応用とエンターテイメントを大幅に向上させる。 このことは、顔の特徴の疎結合空間を深く探究し、それらを確実にするために必要なものである。 a)相互の干渉なしに独立して活動し、 b) 異なるモーダル入力と共有するために保存することができ、どちらの面も既存の方法では無視されることが多い。 このギャップに対処するため,本論文では,対話型ヘッドジェネレーション(EDTalk)のための新しい効率的な分散化フレームワークを提案する。 本フレームワークは,映像や音声の入力に対して,口形状,頭部ポーズ,感情表現を個別に操作することを可能にする。 具体的には、3つの軽量なモジュールを用いて、顔のダイナミクスをそれぞれ、口、ポーズ、表情を表す3つの異なる潜在空間に分解する。 各空間は、線形結合が特定の運動を定義する学習可能な基底の集合によって特徴づけられる。 独立性を確保し,訓練を加速するために,基地間の直交性を強制し,外部知識に頼ることなく,各空間に行動責任を割り当てる効率的な訓練戦略を考案する。 学習したベースは対応する銀行に格納され、オーディオ入力による視覚的事前共有を可能にする。 さらに,各空間の特性を考慮し,音声駆動音声ヘッド合成のためのAudio-to-Motionモジュールを提案する。 EDTalkの有効性を示す実験を行った。 プロジェクトのWebサイトを見ることをお勧めします。

Achieving disentangled control over multiple facial motions and accommodating diverse input modalities greatly enhances the application and entertainment of the talking head generation. This necessitates a deep exploration of the decoupling space for facial features, ensuring that they a) operate independently without mutual interference and b) can be preserved to share with different modal input, both aspects often neglected in existing methods. To address this gap, this paper proposes a novel Efficient Disentanglement framework for Talking head generation (EDTalk). Our framework enables individual manipulation of mouth shape, head pose, and emotional expression, conditioned on video or audio inputs. Specifically, we employ three lightweight modules to decompose the facial dynamics into three distinct latent spaces representing mouth, pose, and expression, respectively. Each space is characterized by a set of learnable bases whose linear combinations define specific motions. To ensure independence and accelerate training, we enforce orthogonality among bases and devise an efficient training strategy to allocate motion responsibilities to each space without relying on external knowledge. The learned bases are then stored in corresponding banks, enabling shared visual priors with audio input. Furthermore, considering the properties of each space, we propose an Audio-to-Motion module for audio-driven talking head synthesis. Experiments are conducted to demonstrate the effectiveness of EDTalk. We recommend watching the project website: https://tanshuai0219.github.io/EDTalk/
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# 前向きパスのみを用いたテスト時間モデル適応

Test-Time Model Adaptation with Only Forward Passes ( http://arxiv.org/abs/2404.01650v1 )

ライセンス: Link先を確認
Shuaicheng Niu, Chunyan Miao, Guohao Chen, Pengcheng Wu, Peilin Zhao, (参考訳) テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。 しかし、現実のシナリオでは、モデルは通常、リソース制限されたデバイス(例えばFPGA)にデプロイされ、しばしば量子化され、アクセラレーションのための非修飾パラメータでハードコードされる。 既存のメソッドは、サポートされないかもしれないモデル更新の計算集約的なバックプロパゲーションに大きく依存しているため、多くの場合、実現不可能である。 そこで本研究では,テスト時間フォワードオンリー適応法(FOA)を提案する。 FOAでは、微分自由共分散行列適応進化戦略を用いて、新たに追加されたプロンプト(モデルの入力として)のみを学習する。 この戦略をオンラインの教師なし環境下で安定的に動作させるため、テスト学習統計の不一致とモデル予測エントロピーを測定して、新しい適合度関数を考案する。 さらに、シフトテストサンプルのモデルアクティベーションを直接調整し、ソーストレーニング領域と整合させ、適応性能をさらに向上させるアクティベーションシフト方式を設計する。 FOAはバックプロパゲーションやモデルウェイトを変更することなく、量子化された8ビットのViT上で動作し、32ビットの32ビットのViTでは勾配ベースのTENTより優れ、ImageNet-Cでは最大24倍のメモリ削減を実現している。 ソースコードはリリースされます。

Test-time adaptation has proven effective in adapting a given trained model to unseen test samples with potential distribution shifts. However, in real-world scenarios, models are usually deployed on resource-limited devices, e.g., FPGAs, and are often quantized and hard-coded with non-modifiable parameters for acceleration. In light of this, existing methods are often infeasible since they heavily depend on computation-intensive backpropagation for model updating that may be not supported. To address this, we propose a test-time Forward-Only Adaptation (FOA) method. In FOA, we seek to solely learn a newly added prompt (as model's input) via a derivative-free covariance matrix adaptation evolution strategy. To make this strategy work stably under our online unsupervised setting, we devise a novel fitness function by measuring test-training statistic discrepancy and model prediction entropy. Moreover, we design an activation shifting scheme that directly tunes the model activations for shifted test samples, making them align with the source training domain, thereby further enhancing adaptation performance. Without using any backpropagation and altering model weights, FOA runs on quantized 8-bit ViT outperforms gradient-based TENT on full-precision 32-bit ViT, while achieving an up to 24-fold memory reduction on ImageNet-C. The source code will be released.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# メンション・センサ・カウンテル音声からの使用を判断できないNLPシステム : 識別支援の指導

NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps ( http://arxiv.org/abs/2404.01651v1 )

ライセンス: Link先を確認
Kristina Gligoric, Myra Cheng, Lucia Zheng, Esin Durmus, Dan Jurafsky, (参考訳) 話者の意図を伝える言葉の使用は、伝統的に、誰かが言ったことを引用したり、単語の特性を指摘したりする言葉の「メンション」とは区別される。 ここでは、オンラインの対音声処理において、この使い分けを計算的にモデル化することが重要であることを示す。 問題のある内容に反論する対抗語は、しばしば有害な言語に言及するが、それ自体は有害ではない(例えば、ワクチンを危険と呼ぶことは、ワクチンを危険と呼ぶ人の不承認を表すのと同じではない)。 最近の言語モデルでさえ、言及と使用の区別に失敗し、この失敗は、誤情報とヘイトスピーチ検出という2つの重要な下流タスクに伝播し、反音声の検閲をもたらすことを示す。 そこで我々は,これらの誤りを減らし,その軽減を図っている。 我々の研究は、NLPとCSSの使い分けの重要性を強調し、それに対処する方法を提供しています。

The use of words to convey speaker's intent is traditionally distinguished from the `mention' of words for quoting what someone said, or pointing out properties of a word. Here we show that computationally modeling this use-mention distinction is crucial for dealing with counterspeech online. Counterspeech that refutes problematic content often mentions harmful language but is not harmful itself (e.g., calling a vaccine dangerous is not the same as expressing disapproval of someone for calling vaccines dangerous). We show that even recent language models fail at distinguishing use from mention, and that this failure propagates to two key downstream tasks: misinformation and hate speech detection, resulting in censorship of counterspeech. We introduce prompting mitigations that teach the use-mention distinction, and show they reduce these errors. Our work highlights the importance of the use-mention distinction for NLP and CSS and offers ways to address it.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# 文脈記憶の緩和によるオープンドメイン質問回答の一般化に向けて

Towards Better Generalization in Open-Domain Question Answering by Mitigating Context Memorization ( http://arxiv.org/abs/2404.01652v1 )

ライセンス: Link先を確認
Zixuan Zhang, Revanth Gangi Reddy, Kevin Small, Tong Zhang, Heng Ji, (参考訳) Open-Domain Question Answering (OpenQA)は、外部の大規模知識コーパスで事実質問に答えることを目的としている。 しかし、現実世界の知識は静的ではない。 このような知識の動的な特性は、これらのモデルにとって重要な課題となる。 さらに、OpenQAモデルが完全に新しい知識ドメインにどの程度うまく移行できるかは、まだ不明である。 本稿では,検索強化QAモデルの2つのシナリオにおける一般化性能について検討する。 1) 同じ知識コーパスの更新版に適合すること 2) 全く異なる知識領域に切り替える。 我々は,OpenQAモデルの一般化の課題は,外部コーパスからの知識の記憶に対する読者の過度な信頼に起因し,新たな知識コーパスへの一般化を妨げていることを観察する。 我々は,学習中に検索した文脈の可能性を制御し,記憶の過度な知識を軽減するため,シンプルで効果的なトレーニング戦略であるコーパス不変チューニング(CIT)を導入する。 複数のOpenQAベンチマークの大規模な実験結果から、CITは元のコーパスとドメインでモデルの性能を損なうことなく、はるかに優れた一般化性を達成することが示された。

Open-domain Question Answering (OpenQA) aims at answering factual questions with an external large-scale knowledge corpus. However, real-world knowledge is not static; it updates and evolves continually. Such a dynamic characteristic of knowledge poses a vital challenge for these models, as the trained models need to constantly adapt to the latest information to make sure that the answers remain accurate. In addition, it is still unclear how well an OpenQA model can transfer to completely new knowledge domains. In this paper, we investigate the generalization performance of a retrieval-augmented QA model in two specific scenarios: 1) adapting to updated versions of the same knowledge corpus; 2) switching to completely different knowledge domains. We observe that the generalization challenges of OpenQA models stem from the reader's over-reliance on memorizing the knowledge from the external corpus, which hinders the model from generalizing to a new knowledge corpus. We introduce Corpus-Invariant Tuning (CIT), a simple but effective training strategy, to mitigate the knowledge over-memorization by controlling the likelihood of retrieved contexts during training. Extensive experimental results on multiple OpenQA benchmarks show that CIT achieves significantly better generalizability without compromising the model's performance in its original corpus and domain.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# AI WALKUP:パーキンソン病におけるMDS-UPDRの定量化のためのコンピュータビジョンアプローチ

AI WALKUP: A Computer-Vision Approach to Quantifying MDS-UPDRS in Parkinson's Disease ( http://arxiv.org/abs/2404.01654v1 )

ライセンス: Link先を確認
Xiang Xiang, Zihan Zhang, Jing Ma, Yao Deng, (参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、神経変性疾患の2番目に多い疾患である。 PDの既存の評価方法は、様々な種類の運動症状と疾患の進行の重症度を評価するために、運動障害協会(英語版) - Unified Parkinson's Disease Rating Scale (MDS-UPDRS) である。 しかし、手動による評価は、高い主観性、一貫性の欠如、高コストで低効率な手動コミュニケーションに悩まされている。 我々は、コンピュータビジョンベースのソリューションを使用して、カメラに基づいて人間のポーズ画像をキャプチャし、アルゴリズムを用いて動き分析を再構築し、特徴工学を通して動きの量の特徴を抽出したいと考えている。 提案手法はさまざまなスマートフォンに展開可能であり,ビデオ記録と人工知能分析はAPPを通じて迅速かつ容易に行うことができる。

Parkinson's Disease (PD) is the second most common neurodegenerative disorder. The existing assessment method for PD is usually the Movement Disorder Society - Unified Parkinson's Disease Rating Scale (MDS-UPDRS) to assess the severity of various types of motor symptoms and disease progression. However, manual assessment suffers from high subjectivity, lack of consistency, and high cost and low efficiency of manual communication. We want to use a computer vision based solution to capture human pose images based on a camera, reconstruct and perform motion analysis using algorithms, and extract the features of the amount of motion through feature engineering. The proposed approach can be deployed on different smartphones, and the video recording and artificial intelligence analysis can be done quickly and easily through our APP.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# FashionEngine: 3D衣服の対話的生成と編集

FashionEngine: Interactive Generation and Editing of 3D Clothed Humans ( http://arxiv.org/abs/2404.01655v1 )

ライセンス: Link先を確認
Tao Hu, Fangzhou Hong, Zhaoxi Chen, Ziwei Liu, (参考訳) FashionEngineはインタラクティブな3Dヒューマン生成と編集システムで、自然言語、視覚知覚、手描きなど、人間が世界とどのように相互作用するかに合わせて3Dデジタル人間を設計できる。 FashionEngineは、3つの重要なコンポーネントで3Dヒューマンプロダクションを自動化する。 1)2次元画像訓練データから意味的UV潜伏空間における3次元人間のモデリングを学習する事前学習された3次元人体拡散モデル。 2) マルチモーダル入力を暗黙のUV潜在空間に忠実に整合させ, 制御可能な3次元編集を実現する。 マルチモーダルUV空間は、テキスト、画像、スケッチなどの異なるユーザ入力間で共有され、様々な共同マルチモーダル編集タスクを可能にする。 3)マルチモーダル・UVアラインド・サンプラーは,マルチモーダルユーザ入力に先立つ拡散から,高品質で多様な3D人間をサンプリングすることを学ぶ。 大規模な実験は、条件生成/編集タスクに対するFashionEngineの最先端のパフォーマンスを検証する。 さらに,FashionEngine用の対話型ユーザインタフェースを提案する。これは条件付きおよび非条件生成タスクと,ポーズ/ビュー/シェープ制御,テキスト,画像,スケッチ駆動3D編集,仮想トライオンなどの編集タスクを統合されたフレームワークで実現する。 私たちのプロジェクトページは以下の通りです。

We present FashionEngine, an interactive 3D human generation and editing system that allows us to design 3D digital humans in a way that aligns with how humans interact with the world, such as natural languages, visual perceptions, and hand-drawing. FashionEngine automates the 3D human production with three key components: 1) A pre-trained 3D human diffusion model that learns to model 3D humans in a semantic UV latent space from 2D image training data, which provides strong priors for diverse generation and editing tasks. 2) Multimodality-UV Space encoding the texture appearance, shape topology, and textual semantics of human clothing in a canonical UV-aligned space, which faithfully aligns the user multimodal inputs with the implicit UV latent space for controllable 3D human editing. The multimodality-UV space is shared across different user inputs, such as texts, images, and sketches, which enables various joint multimodal editing tasks. 3) Multimodality-UV Aligned Sampler learns to sample high-quality and diverse 3D humans from the diffusion prior for multimodal user inputs. Extensive experiments validate FashionEngine's state-of-the-art performance for conditional generation/editing tasks. In addition, we present an interactive user interface for our FashionEngine that enables both conditional and unconditional generation tasks, and editing tasks including pose/view/shape control, text-, image-, and sketch-driven 3D human editing and 3D virtual try-on, in a unified framework. Our project page is at: https://taohuumd.github.io/projects/FashionEngine.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# 観察者間視線一貫性を用いたミトコンドリア検出AIトレーニング支援

Supporting Mitosis Detection AI Training with Inter-Observer Eye-Gaze Consistencies ( http://arxiv.org/abs/2404.01656v1 )

ライセンス: Link先を確認
Hongyan Gu, Zihan Yan, Ayesha Alvi, Brandon Day, Chunxu Yang, Zida Wu, Shino Magaki, Mohammad Haeri, Xiang 'Anthony' Chen, (参考訳) 病理タスクにおける人工知能(AI)の拡張は、AI開発における医師のアノテーションの需要を増大させた。 しかし、医師から高品質なアノテーションを収集するのには費用がかかり、時間がかかるため、AIの進歩のボトルネックが生じる。 本研究は,眼球運動追跡をAIトレーニングのための医師の行動データを収集するための費用効率の高い技術として,有糸分裂検出の病的課題に着目したものである。 視線データを使用する際の大きな課題の1つは、意味のある情報の抽出を妨げる低信号対雑音比である。 我々は、観測者の群が共有する一貫した眼球固定から、サーバ間視線成分の特性を向上し、視線ラベルを作成することで、この問題に対処した。 本研究は,14名の非医学的参加者を対象に,眼球運動データと眼球運動ラベルを生成した。 我々は、CNN(Convolutional Neural Networks)を訓練し、それらの性能を、地上の真実の注釈とヒューリスティックベースのベースラインで訓練されたものと比較することにより、このような視線ラベルの有効性を評価した。 その結果,眼球運動ラベルを用いて訓練したCNNは,地中信頼度に基づくCNNのパフォーマンスにほぼ追随し,ベースラインを著しく上回った。 主に有糸分裂に焦点が当てられているが、この研究から得られた知見は、他の医療画像タスクに一般化できると考えている。

The expansion of artificial intelligence (AI) in pathology tasks has intensified the demand for doctors' annotations in AI development. However, collecting high-quality annotations from doctors is costly and time-consuming, creating a bottleneck in AI progress. This study investigates eye-tracking as a cost-effective technology to collect doctors' behavioral data for AI training with a focus on the pathology task of mitosis detection. One major challenge in using eye-gaze data is the low signal-to-noise ratio, which hinders the extraction of meaningful information. We tackled this by levering the properties of inter-observer eye-gaze consistencies and creating eye-gaze labels from consistent eye-fixations shared by a group of observers. Our study involved 14 non-medical participants, from whom we collected eye-gaze data and generated eye-gaze labels based on varying group sizes. We assessed the efficacy of such eye-gaze labels by training Convolutional Neural Networks (CNNs) and comparing their performance to those trained with ground truth annotations and a heuristic-based baseline. Results indicated that CNNs trained with our eye-gaze labels closely followed the performance of ground-truth-based CNNs, and significantly outperformed the baseline. Although primarily focused on mitosis, we envision that insights from this study can be generalized to other medical imaging tasks.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# 日本語のための事前学習モデルのリリース

Release of Pre-Trained Models for the Japanese Language ( http://arxiv.org/abs/2404.01657v1 )

ライセンス: Link先を確認
Kei Sawada, Tianyu Zhao, Makoto Shing, Kentaro Mitsui, Akio Kaga, Yukiya Hono, Toshiaki Wakatsuki, Koh Mitsuda, (参考訳) AIの民主化は、平均的な人がAI技術を利用できる世界を作ることを目的としている。 この目標を達成するために、多くの研究機関がその結果を一般に公開しようと試みている。 特に、大規模データでトレーニングされた大規模な事前トレーニングモデルには、前例のない可能性があり、そのリリースには大きな影響がある。 しかし、リリースされたモデルのほとんどは英語を専門としているため、非英語コミュニティにおけるAIの民主化は著しく遅れている。 このAIアクセスのギャップを軽減するため,日本語で事前学習した生成事前学習用トランスフォーマ(GPT),コントラスト言語と画像事前学習(CLIP),安定拡散,HuBERTによる隠れユニット双方向エンコーダ表現(HuBERT)をリリースした。 これらのモデルを提供することで、ユーザーは、日本の文化的価値観と整合し、日本の文化のアイデンティティを保証するAIと自由に対話でき、それによってAIの民主化が促進される。 さらに,日本語に特化した事前学習モデルにより,日本語タスクの高性能化が図られた。

AI democratization aims to create a world in which the average person can utilize AI techniques. To achieve this goal, numerous research institutes have attempted to make their results accessible to the public. In particular, large pre-trained models trained on large-scale data have shown unprecedented potential, and their release has had a significant impact. However, most of the released models specialize in the English language, and thus, AI democratization in non-English-speaking communities is lagging significantly. To reduce this gap in AI access, we released Generative Pre-trained Transformer (GPT), Contrastive Language and Image Pre-training (CLIP), Stable Diffusion, and Hidden-unit Bidirectional Encoder Representations from Transformers (HuBERT) pre-trained in Japanese. By providing these models, users can freely interface with AI that aligns with Japanese cultural values and ensures the identity of Japanese culture, thus enhancing the democratization of AI. Additionally, experiments showed that pre-trained models specialized for Japanese can efficiently achieve high performance in Japanese tasks.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# CMAT: 小規模言語モデルの強化のためのマルチエージェントコラボレーションチューニングフレームワーク

CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models ( http://arxiv.org/abs/2404.01663v1 )

ライセンス: Link先を確認
Xuechen Liang, Meiling Tao, Tianyu Shi, Yiting Xie, (参考訳) オープンな大規模言語モデル(LLM)は、自然言語処理の分野を著しく進歩させ、様々なタスクにおいて印象的なパフォーマンスを示しているが、LLMの大幅な進歩にもかかわらず、その効果的な操作は、対話の流れを正確に導くために人間の入力に大きく依存している。 また,環境フィードバックに基づく適応重み更新による言語エージェントの能力向上を目的とした,協調型マルチエージェントチューニング(CMAT)フレームワークを提案する。 このフレームワークは、複数の知的エージェント間の協調学習とリアルタイム適応を促進し、コンテキスト認識と長期記憶を高める。 本研究では,マルチエージェントシステムと環境フィードバック機構を統合し,協調動作を探索するスケーラブルな手法を提供する通信エージェントフレームワークを提案する。 特に,我々のTinyAgent-7Bモデルは,パラメータが少ないにもかかわらず,GPT-3.5と同等の性能を示し,LCMの効率と有効性を大幅に向上させることを示す。

Open large language models (LLMs) have significantly advanced the field of natural language processing, showcasing impressive performance across various tasks.Despite the significant advancements in LLMs, their effective operation still relies heavily on human input to accurately guide the dialogue flow, with agent tuning being a crucial optimization technique that involves human adjustments to the model for better response to such guidance.Addressing this dependency, our work introduces the TinyAgent model, trained on a meticulously curated high-quality dataset. We also present the Collaborative Multi-Agent Tuning (CMAT) framework, an innovative system designed to augment language agent capabilities through adaptive weight updates based on environmental feedback. This framework fosters collaborative learning and real-time adaptation among multiple intelligent agents, enhancing their context-awareness and long-term memory. In this research, we propose a new communication agent framework that integrates multi-agent systems with environmental feedback mechanisms, offering a scalable method to explore cooperative behaviors. Notably, our TinyAgent-7B model exhibits performance on par with GPT-3.5, despite having fewer parameters, signifying a substantial improvement in the efficiency and effectiveness of LLMs.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# METAL:多言語メタ評価を目指して

METAL: Towards Multilingual Meta-Evaluation ( http://arxiv.org/abs/2404.01667v1 )

ライセンス: Link先を確認
Rishav Hada, Varun Gumma, Mohamed Ahmed, Kalika Bali, Sunayana Sitaram, (参考訳) LLM(Large Language Models)が多くのタスクで人間のような精度が向上するにつれ、様々な現実世界のアプリケーションでの利用がますます広まりつつある。 いくつかの研究により、LLMは標準のNLPベンチマークよりも優れていることが示されている。 しかし、データセットの汚染と従来のメトリクスの制限のため、LSMを評価することは困難である。 人的評価は収集が難しいため,LLM自体を主観的指標の基準自由評価器として利用することに対するコミュニティの関心が高まっている。 しかし、過去の研究は、LLMに基づく評価者が偏見を示し、人間の判断と整合性に乏しいことを示した。 本研究では,多言語シナリオにおける評価手法として,LLMのエンドツーエンド評価のためのフレームワークを提案する。 要約作業のための母国語話者判断を含む10の言語を網羅した、精巧にキュレートされたデータセットを作成する。 このデータセットは、メタ評価(METAL)と呼ばれるLCMベースの評価器を特に評価するために作成される。 GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。 以上の結果から, GPT-4に基づくLCMによる評価は, GPT-3.5-Turboでは性能が低かった。 さらに, LLMに基づく評価器による推論を解析した結果, 人間の判断と一致しない場合が多いことがわかった。

With the rising human-like precision of Large Language Models (LLMs) in numerous tasks, their utilization in a variety of real-world applications is becoming more prevalent. Several studies have shown that LLMs excel on many standard NLP benchmarks. However, it is challenging to evaluate LLMs due to test dataset contamination and the limitations of traditional metrics. Since human evaluations are difficult to collect, there is a growing interest in the community to use LLMs themselves as reference-free evaluators for subjective metrics. However, past work has shown that LLM-based evaluators can exhibit bias and have poor alignment with human judgments. In this study, we propose a framework for an end-to-end assessment of LLMs as evaluators in multilingual scenarios. We create a carefully curated dataset, covering 10 languages containing native speaker judgments for the task of summarization. This dataset is created specifically to evaluate LLM-based evaluators, which we refer to as meta-evaluation (METAL). We compare the performance of LLM-based evaluators created using GPT-3.5-Turbo, GPT-4, and PaLM2. Our results indicate that LLM-based evaluators based on GPT-4 perform the best across languages, while GPT-3.5-Turbo performs poorly. Additionally, we perform an analysis of the reasoning provided by LLM-based evaluators and find that it often does not match the reasoning provided by human judges.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# 新型コロナウイルス(COVID-19)が抗ワクチンの言論にどう影響したか:Twitterによる大規模調査

How COVID-19 has Impacted the Anti-Vaccine Discourse: A Large-Scale Twitter Study Spanning Pre-COVID and Post-COVID Era ( http://arxiv.org/abs/2404.01669v1 )

ライセンス: Link先を確認
Soham Poddar, Rajdeep Mukherjee, Subhendu Khatuya, Niloy Ganguly, Saptarshi Ghosh, (参考訳) ワクチンをめぐる議論は何十年も続いているが、新型コロナウイルス(COVID-19)のパンデミックは、ワクチンに対する感情を理解し緩和することがいかに重要かを示した。 パンデミックが終わったとしても、パンデミックが抗ワクチンの言論にどのような影響を及ぼしたのか、また、非新型コロナウイルスワクチン(例えば、Flu、MMR、IPV、HPVワクチン)に対する議論も、パンデミックによって変化したかどうかを理解することが依然として重要である。 本研究は,Twitter上での抗ワクチンポストの大規模調査を通じて,これらの疑問に答えようとするものである。 ソーシャルメディアを利用して反ワクチン的意見を理解する以前の作品のほとんど全ては、アンチ・ヴァックス、プロ・ヴァックス、ニュートラルの3つの広いスタンスのみを考慮に入れていた。 ソーシャルメディア上でのアンチヴァックス感情(例えば、副作用、陰謀論、政治的理由)の背景にある特定の理由や原因を特定する努力は、まだなされていない。 本研究では,ツイートを11種類のアンチヴァックスに分類する2つの新しい手法,識別的アプローチ(エンタプリメントベース)と生成的アプローチ(LLMの命令チューニングに基づく)を提案する。 そして、この分類を5年にわたる(2018年6月~2023年1月)に投稿された抗ワクチンツイートに適用し、新型コロナウイルスのパンデミックが集団の抗ワクチン懸念にどのように影響したかを理解する。 パンデミックの影響で、ワクチン接種は新型コロナウイルス以前のものよりもはるかに複雑になり、さまざまな懸念の声が上がっていることがわかりました。 新型コロナウイルスワクチンに関する懸念が、現在非新型コロナウイルスワクチンに投射されていることがわかりました。

The debate around vaccines has been going on for decades, but the COVID-19 pandemic showed how crucial it is to understand and mitigate anti-vaccine sentiments. While the pandemic may be over, it is still important to understand how the pandemic affected the anti-vaccine discourse, and whether the arguments against non-COVID vaccines (e.g., Flu, MMR, IPV, HPV vaccines) have also changed due to the pandemic. This study attempts to answer these questions through a large-scale study of anti-vaccine posts on Twitter. Almost all prior works that utilized social media to understand anti-vaccine opinions considered only the three broad stances of Anti-Vax, Pro-Vax, and Neutral. There has not been any effort to identify the specific reasons/concerns behind the anti-vax sentiments (e.g., side-effects, conspiracy theories, political reasons) on social media at scale. In this work, we propose two novel methods for classifying tweets into 11 different anti-vax concerns -- a discriminative approach (entailment-based) and a generative approach (based on instruction tuning of LLMs) -- which outperform several strong baselines. We then apply this classifier on anti-vaccine tweets posted over a 5-year period (Jan 2018 - Jan 2023) to understand how the COVID-19 pandemic has impacted the anti-vaccine concerns among the masses. We find that the pandemic has made the anti-vaccine discourse far more complex than in the pre-COVID times, and increased the variety of concerns being voiced. Alarmingly, we find that concerns about COVID vaccines are now being projected onto the non-COVID vaccines, thus making more people hesitant in taking vaccines in the post-COVID era.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# ハイパースペクトル画像分類のための共通知識埋め込み型コントラスト学習フレームワーク

A Universal Knowledge Embedded Contrastive Learning Framework for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.01673v1 )

ライセンス: Link先を確認
Quanwei Liu, Yanni Dong, Tao Huang, Lefei Zhang, Bo Do, (参考訳) ハイパースペクトル画像(HSI)分類技術の研究が盛んに行われ、様々なモデルが開発されている。 しかし、これらのHSI分類モデルは、ポケットモデルと非現実的なデータセット分割方法に限られている。 前者はモデルの一般化性能を制限し、後者は分割され、膨らんだモデル評価指標が導かれる。 そこで本研究では,ポケットモデルと標準視覚バックボーン間のHSI分類モデルのギャップを埋める,教師付き・教師なし・半教師付きHSI分類のための共通知識埋め込み型コントラスト学習フレームワーク(KnowCL)を提案する。 我々は、多様なデータ表現とリアルなデータ分割を提供する一連のデータ変換および拡張技術と共に、新しいHSI処理パイプラインを提案する。 このパイプラインに基づく提案されたフレームワークは、あらゆる種類のバックボーンと互換性があり、ラベル付きおよびラベルなしのサンプルを、期待されるトレーニング時間で完全に活用することができる。 さらに,教師付き損失と教師なし損失を適応的に融合し,学習性能を向上させる新たな損失関数を設計する。 提案した新たな分類パラダイムは,HSI分類技術の探索における大きな可能性を示している。 コードはhttps://github.com/quanweiliu/KnowCLでアクセスできる。

Hyperspectral image (HSI) classification techniques have been intensively studied and a variety of models have been developed. However, these HSI classification models are confined to pocket models and unrealistic ways of datasets partitioning. The former limits the generalization performance of the model and the latter is partitioned leads to inflated model evaluation metrics, which results in plummeting model performance in the real world. Therefore, we propose a universal knowledge embedded contrastive learning framework (KnowCL) for supervised, unsupervised, and semisupervised HSI classification, which largely closes the gap of HSI classification models between pocket models and standard vision backbones. We present a new HSI processing pipeline in conjunction with a range of data transformation and augmentation techniques that provide diverse data representations and realistic data partitioning. The proposed framework based on this pipeline is compatible with all kinds of backbones and can fully exploit labeled and unlabeled samples with expected training time. Furthermore, we design a new loss function, which can adaptively fuse the supervised loss and unsupervised loss, enhancing the learning performance. This proposed new classification paradigm shows great potentials in exploring for HSI classification technology. The code can be accessed at https://github.com/quanweiliu/KnowCL.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# PRISM-TopoMap: 位置認識とスキャンマッチングを備えたオンライントポロジマッピング

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching ( http://arxiv.org/abs/2404.01674v1 )

ライセンス: Link先を確認
Kirill Muravyev, Alexander Melekhin, Dmitriy Yudin, Konstantin Yakovlev, (参考訳) マッピングは、移動ロボットの自律的なナビゲーションを可能にする重要なタスクの1つだ。 従来のマッピング手法は、例えば占有格子のような密度の高い幾何学的地図表現を出力する。 一方、ワークスペースのトポロジ的構造をキャプチャすることで、高速な経路計画が可能となり、計測誤差の蓄積が少なくなり、メモリをあまり消費しない。 本稿では,グローバルな距離座標に依存しない局所的な位置のグラフを保持するトポロジカルマッピング手法であるPRISM-TopoMapを紹介する。 提案手法は,学習可能なマルチモーダル位置認識とスキャンマッチングパイプラインを組み合わせ,位置グラフの局所化とループ閉鎖を行う。 後者はオンラインで更新され、ロボットは各タイミングで適切なノードにローカライズされる。 提案手法を実物と実物(車輪付きディファレンシャル駆動型ハスキーロボット)で広範に実験的に評価し,最先端技術と比較した。 実験による評価の結果,PRISM-Topomap は地図作成とナビゲーションの効率性において競争相手より一貫して優れており,実際のロボットでは良好であることがわかった。 PRISM-Topomapのコードは、https://github.com/kirillMouraviev/prism-topomap.comで公開されている。

Mapping is one of the crucial tasks enabling autonomous navigation of a mobile robot. Conventional mapping methods output dense geometric map representation, e.g. an occupancy grid, which is not trivial to keep consistent for the prolonged runs covering large environments. Meanwhile, capturing the topological structure of the workspace enables fast path planning, is less prone to odometry error accumulation and does not consume much memory. Following this idea, this paper introduces PRISM-TopoMap -- a topological mapping method that maintains a graph of locally aligned locations not relying on global metric coordinates. The proposed method involves learnable multimodal place recognition paired with the scan matching pipeline for localization and loop closure in the graph of locations. The latter is updated online and the robot is localized in a proper node at each time step. We conduct a broad experimental evaluation of the suggested approach in a range of photo-realistic environments and on a real robot (wheeled differential driven Husky robot), and compare it to state of the art. The results of the empirical evaluation confirm that PRISM-Topomap consistently outperforms competitors across several measures of mapping and navigation efficiency and performs well on a real robot. The code of PRISM-Topomap is open-sourced and available at https://github.com/kirillMouraviev/prism-topomap.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# プライベートコラボレーティブ機械学習のインセンティブ

Incentives in Private Collaborative Machine Learning ( http://arxiv.org/abs/2404.01676v1 )

ライセンス: Link先を確認
Rachael Hwee Ling Sim, Yehong Zhang, Trong Nghia Hoang, Xinyi Xu, Bryan Kian Hsiang Low, Patrick Jaillet, (参考訳) コラボレーション型機械学習は、複数のパーティのデータに基づいてモデルをトレーニングするが、参加にインセンティブを与える必要がある。 既存のデータバリュエーション手法は、共有データやモデルパラメータに基づいて各パーティに価値と報酬を与えるが、関連するプライバシーリスクは無視する。 これを解決するために,差分プライバシー(DP)をインセンティブとして導入する。 各党は必要なDPの保証を選択し、それに応じて十分な統計(SS)を摂動することができる。 仲介者は、モデルパラメータに関してベイジアン・サプライズによって妨害されたSSを評価する。 当社のバリュエーション機能は、プライバシー評価のトレードオフを強制するので、大連立政権のモデルの有用性を低下させる過剰な民主党の保証を選ぶのを妨げます。 最後に、メディエータはモデルパラメータの異なる後続サンプルで各パーティに報酬を与える。 このような報酬は、なおも公正性のような既存のインセンティブを満足するが、DPを保存し、大連立政権の後継と高い類似性を保っている。 合成および実世界のデータセットに対するアプローチの有効性と実用性を実証的に実証した。

Collaborative machine learning involves training models on data from multiple parties but must incentivize their participation. Existing data valuation methods fairly value and reward each party based on shared data or model parameters but neglect the privacy risks involved. To address this, we introduce differential privacy (DP) as an incentive. Each party can select its required DP guarantee and perturb its sufficient statistic (SS) accordingly. The mediator values the perturbed SS by the Bayesian surprise it elicits about the model parameters. As our valuation function enforces a privacy-valuation trade-off, parties are deterred from selecting excessive DP guarantees that reduce the utility of the grand coalition's model. Finally, the mediator rewards each party with different posterior samples of the model parameters. Such rewards still satisfy existing incentives like fairness but additionally preserve DP and a high similarity to the grand coalition's posterior. We empirically demonstrate the effectiveness and practicality of our approach on synthetic and real-world datasets.
翻訳日:2024-04-03 17:48:15 公開日:2024-04-02
# 自然言語に対する一般化可能かつ忠実な論理推論に向けて : 解答論を通して

Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation ( http://arxiv.org/abs/2404.01677v1 )

ライセンス: Link先を確認
Zhouhao Sun, Xiao Ding, Li Du, Bibo Cai, Jinglong Gao, Ting Liu, Qin Bing, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語推論タスクにおいて大きなパフォーマンスを実現している。 しかし、彼らは自然言語で表される形式論理理論について一階述語論理論を行うのに苦戦している。 これは、従来の LLM ベースの推論システムには理論的不完全性の問題があったためである。 その結果、単純な推論の問題にのみ対処でき、一般化能力は著しく低下する。 この問題に対処するため,我々はGFaiR(Generalizable and Faithful Reasoner)という新しいフレームワークを提案する。 解法解法は, 解法則を拡張し, 矛盾による証明の原理を取り入れた一階述語論理推論問題を全て解くことができるので, 解法解法を導入することにより, システムの完全性を向上させることができる。 実験結果から,本システムは複雑なシナリオにおける最先端の性能と,単純なシナリオにおける性能の維持を両立させることにより,従来よりも優れていた性能を実証した。 さらに、GFaiRはその推論過程に忠実であることを示す。

Large language models (LLMs) have achieved significant performance in various natural language reasoning tasks. However, they still struggle with performing first-order logic reasoning over formal logical theories expressed in natural language. This is because the previous LLMs-based reasoning systems have the theoretical incompleteness issue. As a result, it can only address a limited set of simple reasoning problems, which significantly decreases their generalization ability. To address this issue, we propose a novel framework, named Generalizable and Faithful Reasoner (GFaiR), which introduces the paradigm of resolution refutation. Resolution refutation has the capability to solve all first-order logic reasoning problems by extending reasoning rules and employing the principle of proof by contradiction, so our system's completeness can be improved by introducing resolution refutation. Experimental results demonstrate that our system outperforms previous works by achieving state-of-the-art performances in complex scenarios while maintaining performances in simple scenarios. Besides, we observe that GFaiR is faithful to its reasoning process.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# エピデミック予測のためのソーシャルメディアからのイベント検出

Event Detection from Social Media for Epidemic Prediction ( http://arxiv.org/abs/2404.01679v1 )

ライセンス: Link先を確認
Tanmay Parekh, Anh Mac, Jiarui Yu, Yuxuan Dong, Syed Shahriar, Bonnie Liu, Eric Yang, Kuan-Hao Huang, Wei Wang, Nanyun Peng, Kai-Wei Chang, (参考訳) ソーシャルメディアは、ソーシャルトレンドやイベントに関するタイムリーなアップデートを提供する、簡単にアクセスできるプラットフォームである。 感染、症状、社会的相互作用などの流行関連事象に関する議論は、流行発生時の政策決定を知らせる上で重要である。 本研究は,ソーシャルメディア投稿から流行関連事象を抽出・解析する枠組みを開発することにより,今後の流行の予防と早期警戒のためにイベント検出(ED)を開拓した。 この目的のために,7種類の病原性イベントからなる疫病イベントオントロジーをキュレートし,COVID-19パンデミックに焦点をあてた人間関連イベントを用いたTwitterデータセットを構築した。 実験では、新型コロナウイルスベースのSPEEDでトレーニングされたEDモデルが、サルポックス、ジカ、デングの3つの目に見えない流行の流行を効果的に検出する方法が明らかにされている。 さらに,本フレームワークによる抽出イベントの急激な増加は,WHOのMonkeypox流行宣言より4~9週間早く警告できることを示した。 この枠組みの実用性は、新興の流行に対するより良い準備の基盤を築き上げている。

Social media is an easy-to-access platform providing timely updates about societal trends and events. Discussions regarding epidemic-related events such as infections, symptoms, and social interactions can be crucial for informing policymaking during epidemic outbreaks. In our work, we pioneer exploiting Event Detection (ED) for better preparedness and early warnings of any upcoming epidemic by developing a framework to extract and analyze epidemic-related events from social media posts. To this end, we curate an epidemic event ontology comprising seven disease-agnostic event types and construct a Twitter dataset SPEED with human-annotated events focused on the COVID-19 pandemic. Experimentation reveals how ED models trained on COVID-based SPEED can effectively detect epidemic events for three unseen epidemics of Monkeypox, Zika, and Dengue; while models trained on existing ED datasets fail miserably. Furthermore, we show that reporting sharp increases in the extracted events by our framework can provide warnings 4-9 weeks earlier than the WHO epidemic declaration for Monkeypox. This utility of our framework lays the foundations for better preparedness against emerging epidemics.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# カーネルサイズスケーリングによる埋め込みスパイクニューラルネットワークの精度向上手法

A Methodology for Improving Accuracy of Embedded Spiking Neural Networks through Kernel Size Scaling ( http://arxiv.org/abs/2404.01685v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique, (参考訳) Spiking Neural Networks (SNN) は、スパーススパイクベースの操作のため、機械学習ベースのアプリケーションに対して、超低電力/エネルギー消費を提供することができる。 現在、ほとんどのSNNアーキテクチャは、より精度の高いモデルサイズを必要とするが、リソース制約のある組み込みアプリケーションには適さない。 そのため,メモリフットプリントを許容できる精度の高いSNNの開発が不可欠である。 そこで本研究では,カーネルサイズスケーリングによるSNNの精度向上手法を提案する。 その重要なステップは、異なるカーネルサイズが精度に与える影響を調査し、新しいカーネルサイズを考案し、選択したカーネルサイズに基づいてSNNアーキテクチャを生成し、SNNモデル選択の精度-メモリトレードオフを分析することである。 実験の結果,CIFAR10では93.24%,CIFAR100では70.84%,探索時間の最大3.45倍の高速化を実現し,組込みアプリケーションに適していることがわかった。

Spiking Neural Networks (SNNs) can offer ultra low power/ energy consumption for machine learning-based applications due to their sparse spike-based operations. Currently, most of the SNN architectures need a significantly larger model size to achieve higher accuracy, which is not suitable for resource-constrained embedded applications. Therefore, developing SNNs that can achieve high accuracy with acceptable memory footprint is highly needed. Toward this, we propose a novel methodology that improves the accuracy of SNNs through kernel size scaling. Its key steps include investigating the impact of different kernel sizes on the accuracy, devising new sets of kernel sizes, generating SNN architectures based on the selected kernel sizes, and analyzing the accuracy-memory trade-offs for SNN model selection. The experimental results show that our methodology achieves higher accuracy than state-of-the-art (93.24% accuracy for CIFAR10 and 70.84% accuracy for CIFAR100) with less than 10M parameters and up to 3.45x speed-up of searching time, thereby making it suitable for embedded applications.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# JRDB-PanoTrack:人混み環境におけるオープンワールドパノプティクスセグメンテーションとロボットデータ追跡

JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments ( http://arxiv.org/abs/2404.01686v1 )

ライセンス: Link先を確認
Duy-Tho Le, Chenhui Gou, Stavya Datta, Hengcan Shi, Ian Reid, Jianfei Cai, Hamid Rezatofighi, (参考訳) 近年,ロボットナビゲーション,人間とロボットのインタラクション,意思決定において,環境理解が重要なステップとなっている。 現実のロボットシステムは、通常、複数のセンサーから視覚データを収集し、複雑な人間の身近な環境で多数の物体とその動きを認識する必要がある。 従来のベンチマークでは、単一のセンサーと限られたオブジェクトクラスとシナリオに依存しており、正確なナビゲーション、インタラクション、意思決定に必要な総合的な環境理解ロボットを提供していない。 JRDBデータセットの拡張として、より包括的な環境認識に向けて、新しいオープンワールドの汎視的セグメンテーションと追跡ベンチマークであるJRDB-PanoTrackを公表する。 JRDB-PanoTrackは,(1)屋内および屋外の混在するシーンを含む様々なデータと,(2)高品質な2次元空間パノスコープセグメンテーションと時間追跡アノテーション,さらに空間的理解のための3Dラベルプロジェクション,(3)クローズドおよびオープンワールド認識ベンチマークのための多様なオブジェクトクラス,およびOSPAに基づく評価用メトリクスを含む。 先行手法の広範囲な評価は,我々のデータセットがもたらす重要な課題を示している。

Autonomous robot systems have attracted increasing research attention in recent years, where environment understanding is a crucial step for robot navigation, human-robot interaction, and decision. Real-world robot systems usually collect visual data from multiple sensors and are required to recognize numerous objects and their movements in complex human-crowded settings. Traditional benchmarks, with their reliance on single sensors and limited object classes and scenarios, fail to provide the comprehensive environmental understanding robots need for accurate navigation, interaction, and decision-making. As an extension of JRDB dataset, we unveil JRDB-PanoTrack, a novel open-world panoptic segmentation and tracking benchmark, towards more comprehensive environmental perception. JRDB-PanoTrack includes (1) various data involving indoor and outdoor crowded scenes, as well as comprehensive 2D and 3D synchronized data modalities; (2) high-quality 2D spatial panoptic segmentation and temporal tracking annotations, with additional 3D label projections for further spatial understanding; (3) diverse object classes for closed- and open-world recognition benchmarks, with OSPA-based metrics for evaluation. Extensive evaluation of leading methods shows significant challenges posed by our dataset.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# RPLベースの6LoWPANにおけるハッチマン攻撃軽減のための軽量セキュリティソリューション

A Lightweight Security Solution for Mitigation of Hatchetman Attack in RPL-based 6LoWPAN ( http://arxiv.org/abs/2404.01689v1 )

ライセンス: Link先を確認
Girish Sharma, Jyoti Grover, Abhishek Verma, (参考訳) 近年,IoT(Internet of Things,モノのインターネット)は産業で著しく増加しており,各デバイスがインターネットに接続される産業 4.0 の時代を生きている。 これらのデバイスは人工知能(AI)が有効であり、パースペクティブ分析が可能である。 2023年までに、インターネット上では400億以上のスマートデバイスが利用できるようになると予測されています。 これらのアプリケーションは、メモリ、電力、その他のリソース制限がノードに適用される無線環境で動作する。 また,従来のルーティング方式は,限られたリソースデバイス,リンク損失,データレートの遅いネットワークでは有効ではない。 ローパワー・ロッシーネットワークのためのルーティングプロトコル (RPL) はIETFのROLLグループによって提案された。 RPLはStoringとNon-Storingの2つのモードで動作する。 ストリングモードでは、各ノードは他のノードに届く情報を持っている。 非保存モードでは、ルーティング情報はルートノードのみに置かれる。 攻撃者はRPLのNon-Storing機能を利用することができる。 ルートノードがUser Datagram Protocol~(UDP)またはコントロールメッセージパケットを子ノードに送信すると、ルーティング情報はIPv6パケットの拡張ヘッダに格納される。 攻撃者は、Denial of Service (DoS)攻撃につながるソースルーティングヘッダからアドレスを変更することができる。 この攻撃は、ハッチェットマン攻撃(Hatchetman attack)として知られるRPL固有の攻撃である。 本稿では,攻撃者がこの機能を利用すると,ネットワーク性能が著しく低下することを示す。 また,IoTにおけるハチェットマン攻撃を検出するゲーム理論を用いたハチェットマン攻撃の軽量化も提案する。

In recent times, the Internet of Things (IoT) has a significant rise in industries, and we live in the era of Industry 4.0, where each device is connected to the Internet from small to big. These devices are Artificial Intelligence (AI) enabled and are capable of perspective analytics. By 2023, it's anticipated that over 14 billion smart devices will be available on the Internet. These applications operate in a wireless environment where memory, power, and other resource limitations apply to the nodes. In addition, the conventional routing method is ineffective in networks with limited resource devices, lossy links, and slow data rates. Routing Protocol for Low Power and Lossy Networks (RPL), a new routing protocol for such networks, was proposed by the IETF's ROLL group. RPL operates in two modes: Storing and Non-Storing. In Storing mode, each node have the information to reach to other node. In Non-Storing mode, the routing information lies with the root node only. The attacker may exploit the Non-Storing feature of the RPL. When the root node transmits User Datagram Protocol~(UDP) or control message packet to the child nodes, the routing information is stored in the extended header of the IPv6 packet. The attacker may modify the address from the source routing header which leads to Denial of Service (DoS) attack. This attack is RPL specific which is known as Hatchetman attack. This paper shows significant degradation in terms of network performance when an attacker exploits this feature. We also propose a lightweight mitigation of Hatchetman attack using game theoretic approach to detect the Hatchetman attack in IoT.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# RefQSR:画像超解像ネットワークのための参照型量子化

RefQSR: Reference-based Quantization for Image Super-Resolution Networks ( http://arxiv.org/abs/2404.01690v1 )

ライセンス: Link先を確認
Hongjae Lee, Jun-Sang Yoo, Seung-Won Jung, (参考訳) 単一画像超解像(SISR)はその低分解能観測から高分解能画像を再構成することを目的としている。 近年のディープラーニングベースのSISRモデルでは,計算コストの増大を犠牲にし,資源制約のある環境での使用を制限している。 計算効率の良いネットワーク設計のための有望なソリューションとして、ネットワーク量子化が広く研究されている。 しかし、SISRのために開発された既存の量子化法はまだ画像の自己相似性を効果的に活用していない。 本稿では,画像スーパーレゾリューション(RefQSR)のための参照ベース量子化と呼ばれる新しい手法を紹介し,複数の代表パッチに高ビット量子化を適用し,画像中の他のパッチの低ビット量子化の参照として利用する。 この目的のために、パッチクラスタリングと参照ベースの量子化モジュールを設計し、既存のSISRネットワーク量子化手法に統合する。 実験により,様々なSISRネットワークおよび量子化手法におけるRefQSRの有効性が示された。

Single image super-resolution (SISR) aims to reconstruct a high-resolution image from its low-resolution observation. Recent deep learning-based SISR models show high performance at the expense of increased computational costs, limiting their use in resource-constrained environments. As a promising solution for computationally efficient network design, network quantization has been extensively studied. However, existing quantization methods developed for SISR have yet to effectively exploit image self-similarity, which is a new direction for exploration in this study. We introduce a novel method called reference-based quantization for image super-resolution (RefQSR) that applies high-bit quantization to several representative patches and uses them as references for low-bit quantization of the rest of the patches in an image. To this end, we design dedicated patch clustering and reference-based quantization modules and integrate them into existing SISR network quantization methods. The experimental results demonstrate the effectiveness of RefQSR on various SISR networks and quantization methods.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# タスク駆動型知覚損失の画像認識のための超解像の超解像を超えて

Beyond Image Super-Resolution for Image Recognition with Task-Driven Perceptual Loss ( http://arxiv.org/abs/2404.01692v1 )

ライセンス: Link先を確認
Jaeha Kim, Junghun Oh, Kyoung Mu Lee, (参考訳) 現実のシナリオでは、セマンティックセグメンテーションやオブジェクト検出といった画像認識タスクは、低解像度(LR)コンテンツで利用可能な情報がないため、より大きな課題を生じることが多い。 画像超解像(SR)は課題に対処するための有望な解決策の1つである。 しかし,SR法の特徴が乏しいため,タスク関連高頻度コンテンツを復元することは,SR法の利点を損なう可能性がある。 そこで本稿では,LR画像の処理において,良好な画像認識性能を実現するのに有用なSR画像の生成を効果的にガイドする超解像画像認識(SR4IR)を提案する。 我々のSR4IRの重要な構成要素はタスク駆動型知覚障害(TDP)であり、SRネットワークは特定のタスクに適したネットワークからタスク固有の知識を取得することができる。 さらに,TDP損失を利用した場合の潜在的な問題に対処することにより,TDP損失の有効性を大幅に向上させる,クロス品質パッチミックスと代替トレーニングフレームワークを提案する。 広範にわたる実験により、SR4IRは、セマンティックセグメンテーション、オブジェクト検出、画像分類を含む、特定の画像認識タスクに有用なSR画像を生成することで、優れたタスク性能を達成できることを実証した。 実装コードはhttps://github.com/JaehaKim97/SR4IRで公開されている。

In real-world scenarios, image recognition tasks, such as semantic segmentation and object detection, often pose greater challenges due to the lack of information available within low-resolution (LR) content. Image super-resolution (SR) is one of the promising solutions for addressing the challenges. However, due to the ill-posed property of SR, it is challenging for typical SR methods to restore task-relevant high-frequency contents, which may dilute the advantage of utilizing the SR method. Therefore, in this paper, we propose Super-Resolution for Image Recognition (SR4IR) that effectively guides the generation of SR images beneficial to achieving satisfactory image recognition performance when processing LR images. The critical component of our SR4IR is the task-driven perceptual (TDP) loss that enables the SR network to acquire task-specific knowledge from a network tailored for a specific task. Moreover, we propose a cross-quality patch mix and an alternate training framework that significantly enhances the efficacy of the TDP loss by addressing potential problems when employing the TDP loss. Through extensive experiments, we demonstrate that our SR4IR achieves outstanding task performance by generating SR images useful for a specific image recognition task, including semantic segmentation, object detection, and image classification. The implementation code is available at https://github.com/JaehaKim97/SR4IR.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# HeMeNet:タンパク質マルチタスク学習のための異種マルチチャネル等価ネットワーク

HeMeNet: Heterogeneous Multichannel Equivariant Network for Protein Multitask Learning ( http://arxiv.org/abs/2404.01693v1 )

ライセンス: Link先を確認
Rong Han, Wenbing Huang, Lingxiao Luo, Xinyan Han, Jiaming Shen, Zhiqiang Zhang, Jun Zhou, Ting Chen, (参考訳) タンパク質の3D構造を理解し、活用することは、様々な生物学的および薬物発見タスクの中心である。 深層学習は構造に基づくタンパク質機能予測タスクにうまく適用されているが、現在の手法では各タスクに対して異なる訓練を施している。 しかし、それぞれのタスクは小さく、そのような単一タスク戦略はモデルの性能と一般化能力を妨げる。 いくつかのラベル付き3Dタンパク質データセットは生物学的に関連しているため、大規模なマルチタスク学習にマルチソースデータセットを組み合わせることは、この問題を克服する1つの方法である。 本稿では,3次元タンパク質構造の入力に基づいて,複数のタスクを協調的に処理するニューラルネットワークモデルを提案する。 具体的には、4つの公開データセットから統合された親和性予測や特性予測を含む6つの生物学的タスクからなる標準構造ベースのマルチタスクベンチマークであるProtein-MTを構築した。 そこで我々は,多タスク学習のための新しいグラフニューラルネットワークであるヘテロジニアス・マルチチャネル同変ネットワーク(HeMeNet)を開発した。 さらに、HeMeNetはタスク認識の読み出し機構を通じてタスク固有の学習を実現することができる。 本ベンチマークでは,マルチタスク学習の有効性を総合的に評価し,概ね最先端モデルを上回っている。

Understanding and leveraging the 3D structures of proteins is central to a variety of biological and drug discovery tasks. While deep learning has been applied successfully for structure-based protein function prediction tasks, current methods usually employ distinct training for each task. However, each of the tasks is of small size, and such a single-task strategy hinders the models' performance and generalization ability. As some labeled 3D protein datasets are biologically related, combining multi-source datasets for larger-scale multi-task learning is one way to overcome this problem. In this paper, we propose a neural network model to address multiple tasks jointly upon the input of 3D protein structures. In particular, we first construct a standard structure-based multi-task benchmark called Protein-MT, consisting of 6 biologically relevant tasks, including affinity prediction and property prediction, integrated from 4 public datasets. Then, we develop a novel graph neural network for multi-task learning, dubbed Heterogeneous Multichannel Equivariant Network (HeMeNet), which is E(3) equivariant and able to capture heterogeneous relationships between different atoms. Besides, HeMeNet can achieve task-specific learning via the task-aware readout mechanism. Extensive evaluations on our benchmark verify the effectiveness of multi-task learning, and our model generally surpasses state-of-the-art models.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# 原子価2中性子系の高精度・高精度量子計算

Accurate and precise quantum computation of valence two-neutron systems ( http://arxiv.org/abs/2404.01694v1 )

ライセンス: Link先を確認
Sota Yoshida, Takeshi Sato, Takumi Ogata, Tomoya Naito, Masaaki Kimura, (参考訳) 量子コンピュータによる原子核多体問題の解法の開発は、核物理学コミュニティにおいて必須の追求である。 本稿では,現在利用可能なノイズ中間スケール量子デバイスを利用した原子価2中性子系の基底状態を精度よく正確に計算する量子アルゴリズムを提案する。 我々の焦点は、2つの原子核と2つの原子価中性子を持つ核で、それぞれ$ p $, $ sd $, $ pf $ shells、すなわち${}^6$He, ${}^{18}$O, ${}^{42}$Caである。 我々のアンサッツである量子回路は、システムの対称性を明示的な方法で考慮し、必要となる量子ビットの数とCNOTゲートの数を減らすことができる。 IBM Quantum Platform による実量子ハードウェアの結果、提案手法は、通常、${}^6$He と ${}^{18}$O のエネルギーにおける 0.1 \, \% $ の誤差と、${}^{42}$Ca の少なくとも 1 \, \% $ の誤差を含む基底状態エネルギーの非常に正確な結果を与えることを示した。 さらに、実際の量子デバイスを用いた実験では、回路レイアウト設計の重要な役割も示している。

Developing methods to solve nuclear many-body problems with quantum computers is an imperative pursuit within the nuclear physics community. Here, we introduce a quantum algorithm to accurately and precisely compute the ground state of valence two-neutron systems leveraging presently available Noisy Intermediate-Scale Quantum devices. Our focus lies on the nuclei having a doubly-magic core plus two valence neutrons in the $ p $, $ sd $, and $ pf $ shells, i.e. ${}^6$He, ${}^{18}$O, and ${}^{42}$Ca, respectively. Our ansatz, quantum circuit, is constructed in the pair-wise form, taking into account the symmetries of the system in an explicit manner, and enables us to reduce the number of qubits and the number of CNOT gates required. The results on a real quantum hardware by IBM Quantum Platform show that the proposed method gives very accurate results of the ground-state energies, which are typically within $ 0.1 \, \% $ error in the energy for ${}^6$He and ${}^{18}$O and at most $ 1 \, \% $ error for ${}^{42}$Ca. Furthermore, our experiments using real quantum devices also show the pivotal role of the circuit layout design, attuned to the connectivity of the qubits, in mitigating errors.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# Selective Temporal Knowledge Graph Reasoning

Selective Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2404.01695v1 )

ライセンス: Link先を確認
Zhongni Hou, Xiaolong Jin, Zixuan Li, Long Bai, Jiafeng Guo, Xueqi Cheng, (参考訳) 時間的知識グラフ(TKG)は、時間的に進化する事実(対象、関係、対象、タイムスタンプ)を特徴付けるもので、近年注目を集めている。 TKG推論は、与えられた歴史的事実に基づいて将来の事実を予測することを目的としている。 しかし、既存のTKG推論モデルは、不確実な予測を控えることができないため、必然的に現実世界のアプリケーションにリスクをもたらす。 そこで本稿では,既存のモデルが無差別な予測ではなく,選択的に生成するのに役立つ,TKG推論の棄却機構を提案する。 具体的には、既存のTKG推論モデルにおいて、まず予測の信頼性を推定し、次いで信頼性の低い者から控えるように、信頼度推定器(Confidence Estimator with History,CEHis)を開発した。 そのため、CEHisは2種類の情報、すなわち現在の予測の正確さと過去の予測の正確さを考慮に入れている。 2つのベンチマークデータセット上での代表的なTKG推論モデルによる実験は、提案したCEHisの有効性を示す。

Temporal Knowledge Graph (TKG), which characterizes temporally evolving facts in the form of (subject, relation, object, timestamp), has attracted much attention recently. TKG reasoning aims to predict future facts based on given historical ones. However, existing TKG reasoning models are unable to abstain from predictions they are uncertain, which will inevitably bring risks in real-world applications. Thus, in this paper, we propose an abstention mechanism for TKG reasoning, which helps the existing models make selective, instead of indiscriminate, predictions. Specifically, we develop a confidence estimator, called Confidence Estimator with History (CEHis), to enable the existing TKG reasoning models to first estimate their confidence in making predictions, and then abstain from those with low confidence. To do so, CEHis takes two kinds of information into consideration, namely, the certainty of the current prediction and the accuracy of historical predictions. Experiments with representative TKG reasoning models on two benchmark datasets demonstrate the effectiveness of the proposed CEHis.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# ガウス過程潜在変数モデルにおけるモデル崩壊防止

Preventing Model Collapse in Gaussian Process Latent Variable Models ( http://arxiv.org/abs/2404.01697v1 )

ライセンス: Link先を確認
Ying Li, Zhidi Lin, Feng Yin, Michael Minyi Zhang, (参考訳) ガウス過程潜在変数モデル(英: Gaussian process latent variable model、GPLVMs)は、非教師なし学習モデルの汎用的なファミリーであり、一般に次元の減少に使用される。 しかし、GPLVMを用いたデータモデリングにおける一般的な課題は、カーネルの柔軟性の不足とプロジェクションノイズの不適切な選択である。 本稿では,まず,線状GPLVMのレンズによるモデル崩壊に対する射影分散の影響を理論的に検討する。 第2に、スペクトル混合(SM)カーネルと微分可能なランダムフーリエ特徴(RFF)カーネル近似を統合することにより、カーネルのハイパーパラメータ、投影分散、潜時表現を可変推論フレームワーク内で学習するオフザシェル自動微分ツールにより、計算スケーラビリティと効率を確保することにより、カーネルの柔軟性の低下によるモデル崩壊の問題に対処する。 提案されたGPLVMは、アドバイスRFLVMと名付けられ、さまざまなデータセットで評価され、最新式の変分オートエンコーダ(VAE)やGPLVMの変種など、有意義な遅延表現や欠落したデータ計算など、さまざまな競合モデルよりも一貫して優れています。

Gaussian process latent variable models (GPLVMs) are a versatile family of unsupervised learning models, commonly used for dimensionality reduction. However, common challenges in modeling data with GPLVMs include inadequate kernel flexibility and improper selection of the projection noise, which leads to a type of model collapse characterized primarily by vague latent representations that do not reflect the underlying structure of the data. This paper addresses these issues by, first, theoretically examining the impact of the projection variance on model collapse through the lens of a linear GPLVM. Second, we address the problem of model collapse due to inadequate kernel flexibility by integrating the spectral mixture (SM) kernel and a differentiable random Fourier feature (RFF) kernel approximation, which ensures computational scalability and efficiency through off-the-shelf automatic differentiation tools for learning the kernel hyperparameters, projection variance, and latent representations within the variational inference framework. The proposed GPLVM, named advisedRFLVM, is evaluated across diverse datasets and consistently outperforms various salient competing models, including state-of-the-art variational autoencoders (VAEs) and GPLVM variants, in terms of informative latent representations and missing data imputation.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# オブジェクト検出器のタスク統合蒸留

Task Integration Distillation for Object Detectors ( http://arxiv.org/abs/2404.01699v1 )

ライセンス: Link先を確認
Hai Su, ZhenWen Jian, Songsen Yu, (参考訳) 知識蒸留は、モデルライティングに広く採用されている技術である。 しかし, 対象検出領域におけるほとんどの知識蒸留法の性能は不十分である。 通常、知識蒸留法では、物体検出器の2つのサブタスクの分類タスクのみを考慮しており、主に回帰タスクを見下ろしている。 この監視は、対象検出器の包括的なタスクを部分的に理解し、歪んだ推定と潜在的に有害な影響をもたらす。 そこで本研究では,課題重要戦略を取り入れ,分類課題と回帰課題の両方に対処する知識蒸留手法を提案する。 検出器の2つのサブタスクの出力に基づいて特徴量の重要性を評価することにより,オブジェクト検出における分類タスクと回帰タスクの両方について,バランスよく検討する。 実世界の教育プロセスと学習条件の定義からインスピレーションを得た上で,鍵領域と弱領域の両方に焦点を当てた手法を提案する。 知識蒸留における特徴量の価値を,その重要性の違いに基づいて評価することにより,現在のモデルの学習状況を正確に把握する。 本手法は,検出器の出力の不完全利用に起因する学習現実に関するバイアス予測の問題を効果的に防止する。

Knowledge distillation is a widely adopted technique for model lightening. However, the performance of most knowledge distillation methods in the domain of object detection is not satisfactory. Typically, knowledge distillation approaches consider only the classification task among the two sub-tasks of an object detector, largely overlooking the regression task. This oversight leads to a partial understanding of the object detector's comprehensive task, resulting in skewed estimations and potentially adverse effects. Therefore, we propose a knowledge distillation method that addresses both the classification and regression tasks, incorporating a task significance strategy. By evaluating the importance of features based on the output of the detector's two sub-tasks, our approach ensures a balanced consideration of both classification and regression tasks in object detection. Drawing inspiration from real-world teaching processes and the definition of learning condition, we introduce a method that focuses on both key and weak areas. By assessing the value of features for knowledge distillation based on their importance differences, we accurately capture the current model's learning situation. This method effectively prevents the issue of biased predictions about the model's learning reality caused by an incomplete utilization of the detector's outputs.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# MotionChain:マルチモーダルプロンプトによる会話型モーションコントローラ

MotionChain: Conversational Motion Controllers via Multimodal Prompts ( http://arxiv.org/abs/2404.01700v1 )

ライセンス: Link先を確認
Biao Jiang, Xin Chen, Chi Zhang, Fukun Yin, Zhuoyuan Li, Gang YU, Jiayuan Fan, (参考訳) 言語モデルの最近の進歩は、多ターン対話の実施と会話の文脈の維持において、その適応性を実証している。 しかしながら、この習熟度は他のマルチモーダル生成モデル、特にヒトの運動モデルにおいてほとんど探索されていない。 連続的な仮想人間の動きを制御するために多ターン会話を統合することで、人型ロボット、ゲームエージェント、または他の具体的システムに対する人間のタスク実行の直感的でステップバイステップのプロセスを実現することができる。 本研究では,マルチモーダルプロンプトによる人間の連続的・長期的動作を生成する対話型モーションコントローラであるMotionChainを紹介する。 具体的には、MotionChainは、テキスト、画像、モーションなどのさまざまなデータ型を個別のトークンに変換するマルチモーダルトークンライザと、Vision-Motion-Aware Languageモデルで構成される。 そこでMotionChainは、大規模言語、視覚言語、視覚運動データを活用して、動作関連生成タスクを支援することにより、マルチターン会話における各命令を理解し、それに続く人間の動作を生成する。 広範囲にわたる実験は、モーションチェインの有効性を検証し、会話の動作生成における最先端のパフォーマンスを実証し、仮想人間と制御し相互作用するより直感的な方法を示した。

Recent advancements in language models have demonstrated their adeptness in conducting multi-turn dialogues and retaining conversational context. However, this proficiency remains largely unexplored in other multimodal generative models, particularly in human motion models. By integrating multi-turn conversations in controlling continuous virtual human movements, generative human motion models can achieve an intuitive and step-by-step process of human task execution for humanoid robotics, game agents, or other embodied systems. In this work, we present MotionChain, a conversational human motion controller to generate continuous and long-term human motion through multimodal prompts. Specifically, MotionChain consists of multi-modal tokenizers that transform various data types such as text, image, and motion, into discrete tokens, coupled with a Vision-Motion-aware Language model. By leveraging large-scale language, vision-language, and vision-motion data to assist motion-related generation tasks, MotionChain thus comprehends each instruction in multi-turn conversation and generates human motions followed by these prompts. Extensive experiments validate the efficacy of MotionChain, demonstrating state-of-the-art performance in conversational motion generation, as well as more intuitive manners of controlling and interacting with virtual humans.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# テキスト要約評価における要約コンテンツユニットの役割について

On the Role of Summary Content Units in Text Summarization Evaluation ( http://arxiv.org/abs/2404.01701v1 )

ライセンス: Link先を確認
Marcel Nawrath, Agnieszka Nowak, Tristan Ratz, Danilo C. Walenta, Juri Opitz, Leonardo F. R. Ribeiro, João Sedoc, Daniel Deutsch, Simon Mille, Yixin Liu, Lining Zhang, Sebastian Gehrmann, Saad Mahamood, Miruna Clinciu, Khyathi Chandu, Yufang Hou, (参考訳) テキスト要約のためのピラミッド評価手法の核心は、人書き要約コンテンツユニット(SCU)にある。 これらのSCUは、要約を小さな事実に分解する簡潔な文である。 このようなSCUは、自然言語推論(NLI)システムによって部分的に自動化される可能性のある、候補の要約の品質を判断するために使用することができる。 興味深いことに、ピラミッドの評価を完全に自動化することを目的として、Zhang and Bansal (2021)は、自動的に生成されたセマンティックロール三重項(STU)によってSCUを近似できることを示した。 しかし、現在いくつかの疑問が答えを欠いている。 i)SCUの利点を享受できる他の方法がありますか? 二 最も価値の高いSCU(又はそれらの近似)がどの条件下にあるか。 本研究では,SCU を近似する2つの新しい手法について検討する。AMR の表現(SMU)から SCU 近似を生成することと,大言語モデル(SGU)から SCU 近似を生成することである。 STUとSMUは競合するが、最高の近似品質はSGUによって達成される。 また、簡単な文分解ベースライン(SSU)を通して、SCU(およびそれらの近似)が短い要約のランク付け時に最も価値を提供するが、ランキングシステムや長い要約ではそれほど役に立たないことを示す。

At the heart of the Pyramid evaluation method for text summarization lie human written summary content units (SCUs). These SCUs are concise sentences that decompose a summary into small facts. Such SCUs can be used to judge the quality of a candidate summary, possibly partially automated via natural language inference (NLI) systems. Interestingly, with the aim to fully automate the Pyramid evaluation, Zhang and Bansal (2021) show that SCUs can be approximated by automatically generated semantic role triplets (STUs). However, several questions currently lack answers, in particular: i) Are there other ways of approximating SCUs that can offer advantages? ii) Under which conditions are SCUs (or their approximations) offering the most value? In this work, we examine two novel strategies to approximate SCUs: generating SCU approximations from AMR meaning representations (SMUs) and from large language models (SGUs), respectively. We find that while STUs and SMUs are competitive, the best approximation quality is achieved by SGUs. We also show through a simple sentence-decomposition baseline (SSUs) that SCUs (and their approximations) offer the most value when ranking short summaries, but may not help as much when ranking systems or longer summaries.
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# ディープチャネルを優先した実世界劣化における自律走行のための視覚認識の強化

Boosting Visual Recognition for Autonomous Driving in Real-world Degradations with Deep Channel Prior ( http://arxiv.org/abs/2404.01703v1 )

ライセンス: Link先を確認
Zhanwen Liu, Yuhang Li, Yang Wang, Bolin Gao, Yisheng An, Xiangmo Zhao, (参考訳) 通常の環境下での自動運転車の環境認識は、過去10年間にかなりの成功を収めてきた。 しかし、霧、低照度、動きのぼかしなどの様々な不快な条件は、画像の品質を低下させ、自動運転の安全性に重大な脅威をもたらす。 すなわち、劣化画像に適用した場合、画像の統計的・構造的特性の破壊による特徴量損失やアーチファクトの干渉により、最先端の視覚モデルが性能低下に悩まされることがしばしばある。 そこで本研究では,劣化した視覚認識のための新しいDeep Channel Prior (DCP)を提案する。 具体的には、事前学習されたモデルの深部表現空間において、劣化した特徴と同一の劣化型とのチャネル相関が、異なる内容や意味を持つ場合でも一様分布を持ち、高分離性特徴空間における劣化した特徴と明確な表現の間のマッピング関係の学習を容易にすることを観察する。 そこで,UFEMの第1段階では,多目的機構を導入して,高分離性特徴空間における遅延コンテンツ復元とアーティファクト除去を実現する,新しいプラグアンドプレイunsupervised Feature Enhancement Module (UFEM)を提案する。 次に、DCPの指導の下、大域的相関変調のための第2段階に生成した特徴を移し、高品質で認識しやすい特徴を得る。 3つのタスクと8つのベンチマークデータセットの評価結果から,提案手法は実劣化条件下での事前学習モデルの性能を総合的に向上できることを示した。 ソースコードはhttps://github.com/liyuhang166/Deep_Channel_Priorで入手できる。

The environmental perception of autonomous vehicles in normal conditions have achieved considerable success in the past decade. However, various unfavourable conditions such as fog, low-light, and motion blur will degrade image quality and pose tremendous threats to the safety of autonomous driving. That is, when applied to degraded images, state-of-the-art visual models often suffer performance decline due to the feature content loss and artifact interference caused by statistical and structural properties disruption of captured images. To address this problem, this work proposes a novel Deep Channel Prior (DCP) for degraded visual recognition. Specifically, we observe that, in the deep representation space of pre-trained models, the channel correlations of degraded features with the same degradation type have uniform distribution even if they have different content and semantics, which can facilitate the mapping relationship learning between degraded and clear representations in high-sparsity feature space. Based on this, a novel plug-and-play Unsupervised Feature Enhancement Module (UFEM) is proposed to achieve unsupervised feature correction, where the multi-adversarial mechanism is introduced in the first stage of UFEM to achieve the latent content restoration and artifact removal in high-sparsity feature space. Then, the generated features are transferred to the second stage for global correlation modulation under the guidance of DCP to obtain high-quality and recognition-friendly features. Evaluations of three tasks and eight benchmark datasets demonstrate that our proposed method can comprehensively improve the performance of pre-trained models in real degradation conditions. The source code is available at https://github.com/liyuhang166/Deep_Channel_Prior
翻訳日:2024-04-03 17:38:25 公開日:2024-04-02
# Samba: 状態空間モデルによるリモートセンシング画像のセマンティックセグメンテーション

Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model ( http://arxiv.org/abs/2404.01705v1 )

ライセンス: Link先を確認
Qinfeng Zhu, Yuanzhi Cai, Yuan Fang, Yihan Yang, Cheng Chen, Lei Fan, Anh Nguyen, (参考訳) 高解像度のリモートセンシング画像は、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった一般的なセマンティックセグメンテーション手法の課題となっている。 CNNベースの手法は、受容領域が限られているため、そのような高解像度画像を扱うのに苦労するが、ViTは長いシーケンスを扱うための課題に直面している。 グローバルな意味情報を効率的に捉えるためにステートスペースモデル(SSM)を採用したMambaに着想を得て,Sambaという高解像度リモートセンシング画像のためのセマンティックセマンティックセマンティック・セマンティック・フレームワークを提案する。 Sambaはエンコーダ-デコーダアーキテクチャを使用し、Sambaブロックは効率的なマルチレベルセマンティック情報抽出のためのエンコーダとして機能し、UperNetはデコーダとして機能する。 また,SambaをLoveDAデータセット上で評価し,その性能を最高性能のCNNおよびViT手法と比較した。 その結果、SambaはLoveDAで例外のないパフォーマンスを達成したことが判明した。 このことは、提案したSambaがリモートセンシングされた画像のセマンティックセグメンテーションにおけるSSMの効果的な応用であり、この特定のアプリケーションにおけるMambaベースの技術のための新しいベンチマークを設定できることを示している。 ソースコードとベースラインの実装はhttps://github.com/zhuqinfeng 1999/Samba.comで公開されている。

High-resolution remotely sensed images poses a challenge for commonly used semantic segmentation methods such as Convolutional Neural Network (CNN) and Vision Transformer (ViT). CNN-based methods struggle with handling such high-resolution images due to their limited receptive field, while ViT faces challenges to handle long sequences. Inspired by Mamba, which adopts a State Space Model (SSM) to efficiently capture global semantic information, we propose a semantic segmentation framework for high-resolution remotely sensed images, named Samba. Samba utilizes an encoder-decoder architecture, with Samba blocks serving as the encoder for efficient multi-level semantic information extraction, and UperNet functioning as the decoder. We evaluate Samba on the LoveDA dataset, comparing its performance against top-performing CNN and ViT methods. The results reveal that Samba achieved unparalleled performance on LoveDA. This represents that the proposed Samba is an effective application of the SSM in semantic segmentation of remotely sensed images, setting a new benchmark in performance for Mamba-based techniques in this specific application. The source code and baseline implementations are available at https://github.com/zhuqinfeng1999/Samba.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# オピニオン要約のための極性校正

Polarity Calibration for Opinion Summarization ( http://arxiv.org/abs/2404.01706v1 )

ライセンス: Link先を確認
Yuanyuan Lei, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Ruihong Huang, Dong Yu, (参考訳) 意見要約は、製品レビューや政治的意見など、さまざまな主観的な情報から自動的に要約を生成する。 意見の要約の課題は、異なる意見や矛盾する意見を提示することにある。 我々は,従来の要約モデルの分析を行い,極性バイアスを増幅する傾向を明らかにし,少数意見を無視しながら多数意見を強調した。 この問題に対処し、要約者が意見の両面を表現するために、出力要約の極性を入力テキストの極性と整合させる極性校正の概念を導入する。 具体的には、極性校正のための強化訓練手法を開発する。 提案手法は, 出力要約と入力テキスト間の極性距離を報酬として要約器に供給し, コンテンツ保存と言語自然性のバランスをとる。 製品レビューと政治意見記事の要約という,2種類の意見要約タスクに基づいて,極性校正モデル(PoCa)を評価した。 自動的および人為的評価は,提案手法が出力要約と入力テキスト間の極性ミスマッチを緩和し,コンテンツセマンティクスと言語品質を維持できることを示す。

Opinion summarization is automatically generating summaries from a variety of subjective information, such as product reviews or political opinions. The challenge of opinions summarization lies in presenting divergent or even conflicting opinions. We conduct an analysis of previous summarization models, which reveals their inclination to amplify the polarity bias, emphasizing the majority opinions while ignoring the minority opinions. To address this issue and make the summarizer express both sides of opinions, we introduce the concept of polarity calibration, which aims to align the polarity of output summary with that of input text. Specifically, we develop a reinforcement training approach for polarity calibration. This approach feeds the polarity distance between output summary and input text as reward into the summarizer, and also balance polarity calibration with content preservation and language naturality. We evaluate our Polarity Calibration model (PoCa) on two types of opinions summarization tasks: summarizing product reviews and political opinions articles. Automatic and human evaluation demonstrate that our approach can mitigate the polarity mismatch between output summary and input text, as well as maintain the content semantic and language quality.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# Upsample Guidance: トレーニングなしで拡散モデルをスケールアップする

Upsample Guidance: Scale Up Diffusion Models without Training ( http://arxiv.org/abs/2404.01709v1 )

ライセンス: Link先を確認
Juno Hwang, Yong-Hyun Park, Junghyo Jo, (参考訳) 拡散モデルは、画像、ビデオ、オーディオを含む様々な生成タスクにおいて優れたパフォーマンスを示している。 しかし、彼らは高解像度のサンプルを直接生成するのに困難に直面した。 以前提案されたこの問題に対する解決策には、アーキテクチャの変更、さらなるトレーニング、サンプリングプロセスを複数のステージに分割することが含まれる。 これらの方法は、事前訓練されたモデルをそのまま利用できないという制限があり、追加の作業が必要になる。 本稿では,事前学習した拡散モデル(例:512^2$)を適用して,サンプリングプロセスに1つの項を追加することで高解像度画像(例:1536^2$)を生成する手法であるアップサンプルガイダンスを導入する。 注目すべきは、このテクニックは追加のトレーニングや外部モデルへの依存を必要としないことだ。 アップサンプルガイダンスは,画素空間,潜時空間,ビデオ拡散モデルなど,様々なモデルに適用可能であることを示す。 また、ガイダンス尺度の適切な選択により、画質、忠実度、迅速なアライメントが向上することを示した。

Diffusion models have demonstrated superior performance across various generative tasks including images, videos, and audio. However, they encounter difficulties in directly generating high-resolution samples. Previously proposed solutions to this issue involve modifying the architecture, further training, or partitioning the sampling process into multiple stages. These methods have the limitation of not being able to directly utilize pre-trained models as-is, requiring additional work. In this paper, we introduce upsample guidance, a technique that adapts pretrained diffusion model (e.g., $512^2$) to generate higher-resolution images (e.g., $1536^2$) by adding only a single term in the sampling process. Remarkably, this technique does not necessitate any additional training or relying on external models. We demonstrate that upsample guidance can be applied to various models, such as pixel-space, latent space, and video diffusion models. We also observed that the proper selection of guidance scale can improve image quality, fidelity, and prompt alignment.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# Hessian-free Recollection of individual data Statistics によるオンライン学習の効率化

Efficient Online Unlearning via Hessian-Free Recollection of Individual Data Statistics ( http://arxiv.org/abs/2404.01712v1 )

ライセンス: Link先を確認
Xinbao Qiao, Meng Zhang, Ming Tang, Ermin Wei, (参考訳) 機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。 近年の手法では,2次情報を含む統計データを事前計算・保存することで,計算効率とメモリ効率を向上させる方法が提案されている。 しかし、それらは制限的な仮定に依存しており、計算/記憶はモデルパラメータの次元性の呪いに苦しむため、ほとんどのディープニューラルネットワークに適用することは困難である。 本研究では,Hessian-free online unlearning法を提案する。 本稿では,再学習モデルと学習モデルの違いの確率的再帰近似を用いて計算した各データ点に対する統計的ベクトルを維持することを提案する。 提案アルゴリズムは,ベクトル加算操作のみを必要とするため,ほぼ瞬時にオンラインアンラーニングを実現する。 データを忘れる統計を再現する戦略に基づいて,提案手法は未学習のランタイムを大幅に削減する。 実験により,提案手法は時間とメモリコストの面で,既存の結果を桁違いに上回り,精度も向上することを示した。

Machine unlearning strives to uphold the data owners' right to be forgotten by enabling models to selectively forget specific data. Recent methods suggest that one approach of data forgetting is by precomputing and storing statistics carrying second-order information to improve computational and memory efficiency. However, they rely on restrictive assumptions and the computation/storage suffer from the curse of model parameter dimensionality, making it challenging to apply to most deep neural networks. In this work, we propose a Hessian-free online unlearning method. We propose to maintain a statistical vector for each data point, computed through affine stochastic recursion approximation of the difference between retrained and learned models. Our proposed algorithm achieves near-instantaneous online unlearning as it only requires a vector addition operation. Based on the strategy that recollecting statistics for forgetting data, the proposed method significantly reduces the unlearning runtime. Experimental studies demonstrate that the proposed scheme surpasses existing results by orders of magnitude in terms of time and memory costs, while also enhancing accuracy.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# 没入型コミュニケーションのためのジェネレーティブAI:6Gによるインターネットの次のフロンティア

Generative AI for Immersive Communication: The Next Frontier in Internet-of-Senses Through 6G ( http://arxiv.org/abs/2404.01713v1 )

ライセンス: Link先を確認
Nassim Sehad, Lina Bariah, Wassim Hamidouche, Hamed Hellaoui, Riku Jäntti, Mérouane Debbah, (参考訳) 過去20年間、IoT(Internet-of-Things)は変革的な概念であり、2030年に近づくにつれ、IoS(Internet of Senses)として知られる新しいパラダイムが生まれています。 従来のバーチャルリアリティ(VR)とは異なり、IoSは多感覚体験を提供しようとしている。 本稿では,没入型マルチ感覚メディアを駆動する既存の技術について考察し,その能力と応用の可能性について考察する。 この調査は、従来の没入型メディアストリーミングと、生成人工知能(AI)によって強化されたレバー年齢意味コミュニケーションのユースケースの比較分析を含む。 この分析の焦点は、提案方式の帯域消費を99.93%削減することである。 この比較を通じて、我々は、没入型メディアにおける生成AIの実践的応用について、課題に対処しつつ、今後の軌道の概要を明らかにすることを目的としている。

Over the past two decades, the Internet-of-Things (IoT) has been a transformative concept, and as we approach 2030, a new paradigm known as the Internet of Senses (IoS) is emerging. Unlike conventional Virtual Reality (VR), IoS seeks to provide multi-sensory experiences, acknowledging that in our physical reality, our perception extends far beyond just sight and sound; it encompasses a range of senses. This article explores existing technologies driving immersive multi-sensory media, delving into their capabilities and potential applications. This exploration includes a comparative analysis between conventional immersive media streaming and a proposed use case that lever- ages semantic communication empowered by generative Artificial Intelligence (AI). The focal point of this analysis is the substantial reduction in bandwidth consumption by 99.93% in the proposed scheme. Through this comparison, we aim to underscore the practical applications of generative AI for immersive media while addressing the challenges and outlining future trajectories.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning

Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning ( http://arxiv.org/abs/2404.01714v1 )

ライセンス: Link先を確認
Jiawu Tian, Liwei Xu, Xiaowei Zhang, Yongqi Li, (参考訳) ディープニューラルネットワークのトレーニングは難しい課題だ。 深層ニューラルネットワークの性能向上とトレーニングの高速化を目的として,バニラ共役勾配を共役勾配のように修正し,汎用的なAdamに組み込むことにより,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。 具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。 収束解析は、一階モーメント推定の指数移動平均係数が一定であり、一階モーメント推定が偏りのない場合を扱う。 CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。

Training deep neural networks is a challenging task. In order to speed up training and enhance the performance of deep neural networks, we rectify the vanilla conjugate gradient as conjugate-gradient-like and incorporate it into the generic Adam, and thus propose a new optimization algorithm named CG-like-Adam for deep learning. Specifically, both the first-order and the second-order moment estimation of generic Adam are replaced by the conjugate-gradient-like. Convergence analysis handles the cases where the exponential moving average coefficient of the first-order moment estimation is constant and the first-order moment estimation is unbiased. Numerical experiments show the superiority of the proposed algorithm based on the CIFAR10/100 dataset.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# EMONA:ニュース記事におけるイベントレベルのモラルオピニオン

EMONA: Event-level Moral Opinions in News Articles ( http://arxiv.org/abs/2404.01715v1 )

ライセンス: Link先を確認
Yuanyuan Lei, Md Messal Monem Miah, Ayesha Qamar, Sai Ramana Reddy, Jonathan Tong, Haotian Xu, Ruihong Huang, (参考訳) 道徳的枠組みに関するこれまでの研究は、ソーシャルメディアの短いテキストに焦点を合わせてきたが、ニュース記事の中で道徳的感情を探求する研究はほとんどなかった。 ニュース記事において、著者はしばしば、出来事に対する道徳的判断を通じて意見や政治的スタンスを表現し、特にその出来事が社会的道徳的規則に従って正しいか間違っているかを示す。 本稿では,ニュース記事における出来事に対する道徳的意見を理解するための新たなタスクを開始する。 我々は新しいデータセット、EMONAを作成し、ニュース記事に注釈付きイベントレベルの道徳的意見を作成しました。 このデータセットは10k以上の文を含む400のニュース記事と45kのイベントで構成され、そのうち9,613のイベントが道徳的基礎ラベルを受け取った。 出来事に対する道徳的判断は非常に暗黙的であるため、出来事のモラルを抽出することは難しい課題である。 基本モデルは、出来事の道徳的識別と分類のために作られた。 さらに、イベントレベルの道徳的見解を下流3つの課題に統合するための外部評価も実施する。 統計的分析と実験により、出来事の道徳的意見は、イデオロギー的偏見や主観的出来事を特定するための情報的特徴として機能することが示された。

Most previous research on moral frames has focused on social media short texts, little work has explored moral sentiment within news articles. In news articles, authors often express their opinions or political stance through moral judgment towards events, specifically whether the event is right or wrong according to social moral rules. This paper initiates a new task to understand moral opinions towards events in news articles. We have created a new dataset, EMONA, and annotated event-level moral opinions in news articles. This dataset consists of 400 news articles containing over 10k sentences and 45k events, among which 9,613 events received moral foundation labels. Extracting event morality is a challenging task, as moral judgment towards events can be very implicit. Baseline models were built for event moral identification and classification. In addition, we also conduct extrinsic evaluations to integrate event-level moral opinions into three downstream tasks. The statistical analysis and experiments show that moral opinions of events can serve as informative features for identifying ideological bias or subjective events.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# 因子化トランスデューサモデルのための効果的な内部言語モデルトレーニングと融合

Effective internal language model training and fusion for factorized transducer model ( http://arxiv.org/abs/2404.01716v1 )

ライセンス: Link先を確認
Jinxi Guo, Niko Moritz, Yingyi Ma, Frank Seide, Chunyang Wu, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer, (参考訳) ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。 これまでのほとんどの研究では、主にILMスコアを推定するために使われ、その後推論中に減算され、外部言語モデルとの統合の改善を容易にする。 近年,非ブランクトークン予測にスタンドアロンの内部言語モデルを採用する因子化トランスデューサモデルが提案されている。 しかし, 因子化トランスデューサモデルが採用されても, 浅い核融合に比べて限られた改良が見られた。 本稿では, 空白, 音響およびILMスコアを効果的に組み合わせた, 因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。 実験により,よく訓練されたILMとLibriSpeechデータセットの復号化戦略を利用する場合,標準復号法に比べて17%の相対的な改善が得られた。 さらに、外部のLM融合により強化された強いRNN-Tベースラインと比較して、提案モデルは、一般セットに対する5.5%の相対的な改善と、レアワードに対する8.9%のWER削減をもたらす。 提案モデルでは,外部言語モデルに頼らずに優れた性能を実現し,実運用環境での効率向上を実現している。 性能向上のために,ILM統合を大幅に改善する新規かつメモリ効率の高いILM融合対応最小単語誤り率(MWER)訓練法を提案する。

The internal language model (ILM) of the neural transducer has been widely studied. In most prior work, it is mainly used for estimating the ILM score and is subsequently subtracted during inference to facilitate improved integration with external language models. Recently, various of factorized transducer models have been proposed, which explicitly embrace a standalone internal language model for non-blank token prediction. However, even with the adoption of factorized transducer models, limited improvement has been observed compared to shallow fusion. In this paper, we propose a novel ILM training and decoding strategy for factorized transducer models, which effectively combines the blank, acoustic and ILM scores. Our experiments show a 17% relative improvement over the standard decoding method when utilizing a well-trained ILM and the proposed decoding strategy on LibriSpeech datasets. Furthermore, when compared to a strong RNN-T baseline enhanced with external LM fusion, the proposed model yields a 5.5% relative improvement on general-sets and an 8.9% WER reduction for rare words. The proposed model can achieve superior performance without relying on external language models, rendering it highly efficient for production use-cases. To further improve the performance, we propose a novel and memory-efficient ILM-fusion-aware minimum word error rate (MWER) training method which improves ILM integration significantly.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# AddSR: 逆拡散蒸留を併用したBlind Super-Resolutionの高速化

AddSR: Accelerating Diffusion-based Blind Super-Resolution with Adversarial Diffusion Distillation ( http://arxiv.org/abs/2404.01717v1 )

ライセンス: Link先を確認
Rui Xie, Ying Tai, Kai Zhang, Zhenyu Zhang, Jun Zhou, Jian Yang, (参考訳) 低分解能入力からの複雑な詳細で鮮明な高分解能画像の再構成における, 安定拡散ショーケースに基づくブラインド超解像法 しかし、その実用性はしばしば、数千から数百のサンプリングステップの要求から生じる、効率の悪さによって妨げられている。 本稿では, 効率的なテキスト対画像拡散蒸留法 (ADD) に着想を得て, 蒸留と制御ネットの両方のアイデアを取り入れたAddSRを設計する。 具体的には、まず、学生モデル出力の高頻度情報に限界的な追加時間コストで提供する予測に基づく自己抑止戦略を提案する。 さらに、LR画像ではなくHR画像を用いて教師モデルを制御することにより、トレーニングプロセスを洗練し、蒸留のより堅牢な制約を提供する。 第2に、ADDが導入した知覚歪不均衡問題に対処するために、タイムステップ適応損失を導入する。 拡張実験により、AddSRは、従来のSDベースの最先端モデル(例えば、SeeSRより7倍高速)よりも高速に、より優れた復元結果が得られた。

Blind super-resolution methods based on stable diffusion showcase formidable generative capabilities in reconstructing clear high-resolution images with intricate details from low-resolution inputs. However, their practical applicability is often hampered by poor efficiency, stemming from the requirement of thousands or hundreds of sampling steps. Inspired by the efficient text-to-image approach adversarial diffusion distillation (ADD), we design AddSR to address this issue by incorporating the ideas of both distillation and ControlNet. Specifically, we first propose a prediction-based self-refinement strategy to provide high-frequency information in the student model output with marginal additional time cost. Furthermore, we refine the training process by employing HR images, rather than LR images, to regulate the teacher model, providing a more robust constraint for distillation. Second, we introduce a timestep-adapting loss to address the perception-distortion imbalance problem introduced by ADD. Extensive experiments demonstrate our AddSR generates better restoration results, while achieving faster speed than previous SD-based state-of-the-art models (e.g., 7x faster than SeeSR).
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# 時間的知識グラフ質問応答のための自己改善プログラミング

Self-Improvement Programming for Temporal Knowledge Graph Question Answering ( http://arxiv.org/abs/2404.01720v1 )

ライセンス: Link先を確認
Zhuo Chen, Zhao Zhang, Zixuan Li, Fei Wang, Yutao Zeng, Xiaolong Jin, Yongjun Xu, (参考訳) 時間的知識グラフ質問回答(TKGQA)は、時間的知識グラフ(TKG)に対する時間的意図で質問に答えることを目的としている。 このタスクの中核的な課題は、質問における複数の時間制約(例えば、前、先)に関する複雑な意味情報を理解することである。 既存のエンドツーエンドの手法は、質問と候補者の回答のタイムアウェアな埋め込みを学習することで、時間制約を暗黙的にモデル化する。 記号演算子を用いた論理形式を生成することで,問題内の制約を明示的にモデル化する意味解析に基づくアプローチにより,時間制約のための基本時間演算子を設計し,TKGQAのための新しい自己改善プログラミング手法(Prog-TQA)を導入する。 具体的には、 Prog-TQAは、Large Language Models(LLM)のコンテキスト内学習能力を活用して、質問の組合せ時間制約を理解し、いくつかの例で対応するプログラムドラフトを生成する。 そして、これらのドラフトをリンクモジュールとTKGにアライメントし、その後、それらを実行して回答を生成する。 質問の理解力を高めるため,Prog-TQAには,高品質な自己生成ドラフトを用いたLLMを効果的にブートストラップする自己改善戦略が備わっている。 大規模な実験は、MultiTQおよびCronQuestionsデータセットにおける提案されたProg-TQAの優位性を、特にHits@1メトリックで示している。

Temporal Knowledge Graph Question Answering (TKGQA) aims to answer questions with temporal intent over Temporal Knowledge Graphs (TKGs). The core challenge of this task lies in understanding the complex semantic information regarding multiple types of time constraints (e.g., before, first) in questions. Existing end-to-end methods implicitly model the time constraints by learning time-aware embeddings of questions and candidate answers, which is far from understanding the question comprehensively. Motivated by semantic-parsing-based approaches that explicitly model constraints in questions by generating logical forms with symbolic operators, we design fundamental temporal operators for time constraints and introduce a novel self-improvement Programming method for TKGQA (Prog-TQA). Specifically, Prog-TQA leverages the in-context learning ability of Large Language Models (LLMs) to understand the combinatory time constraints in the questions and generate corresponding program drafts with a few examples given. Then, it aligns these drafts to TKGs with the linking module and subsequently executes them to generate the answers. To enhance the ability to understand questions, Prog-TQA is further equipped with a self-improvement strategy to effectively bootstrap LLMs using high-quality self-generated drafts. Extensive experiments demonstrate the superiority of the proposed Prog-TQA on MultiTQ and CronQuestions datasets, especially in the Hits@1 metric.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# イベント関係グラフを用いた文レベルメディアバイアス解析

Sentence-level Media Bias Analysis with Event Relation Graph ( http://arxiv.org/abs/2404.01722v1 )

ライセンス: Link先を確認
Yuanyuan Lei, Ruihong Huang, (参考訳) 今やメディアメディアはパルチザン的になり、偏光化が進んでいる。 本稿では,メディアの偏見を文レベルで同定し,読者の意見を損なうことを目的としたピンポイント偏見文について述べる。 バイアス文はしばしば中立的で事実的な方法で表現されるので、文の外のより広い文脈を考慮すると、バイアスを明らかにするのに役立つ。 特に、偏見文中の事象は、文書内の他の事象と関連して理解する必要があることを観察する。 そこで本稿では,文レベルのバイアス識別のために,イベントとイベントの関係性を明確に推論するイベント関係グラフを構築することを提案する。 設計されたイベント関係グラフは、ノードとしてのイベントと、コア参照、時間的、因果関係、亜種関係の4つの共通の種類のイベント関係で構成されている。 次に, 偏見文識別のための事象関係グラフを2段階に組み込む: イベント認識言語モデルは, 基本言語モデルに, ソフトラベルを用いてイベントとイベントの関係知識を注入するために構築され, さらに, ハードラベルに基づくイベントとイベント関係情報への埋め込みを更新するために, 関係認識グラフアテンションネットワークを設計する。 2つのベンチマークデータセットの実験により、事象関係グラフによるアプローチは、バイアス文識別の精度とリコールの両方を改善することが示された。

Media outlets are becoming more partisan and polarized nowadays. In this paper, we identify media bias at the sentence level, and pinpoint bias sentences that intend to sway readers' opinions. As bias sentences are often expressed in a neutral and factual way, considering broader context outside a sentence can help reveal the bias. In particular, we observe that events in a bias sentence need to be understood in associations with other events in the document. Therefore, we propose to construct an event relation graph to explicitly reason about event-event relations for sentence-level bias identification. The designed event relation graph consists of events as nodes and four common types of event relations: coreference, temporal, causal, and subevent relations. Then, we incorporate event relation graph for bias sentences identification in two steps: an event-aware language model is built to inject the events and event relations knowledge into the basic language model via soft labels; further, a relation-aware graph attention network is designed to update sentence embedding with events and event relations information based on hard labels. Experiments on two benchmark datasets demonstrate that our approach with the aid of event relation graph improves both precision and recall of bias sentence identification.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# ボリューム画像分割のための2次元ネットワーク構築のためのコンテキスト埋め込み学習

Contextual Embedding Learning to Enhance 2D Networks for Volumetric Image Segmentation ( http://arxiv.org/abs/2404.01723v1 )

ライセンス: Link先を確認
Zhuoyuan Wang, Dong Sun, Xiangyun Zeng, Ruodai Wu, Yi Wang, (参考訳) ボリューム医療画像における臓器の分節化は,コンピュータ支援による診断・治療・手術計画において重要な役割を担っている。 従来の2次元畳み込みニューラルネットワーク(CNN)は、体積データの空間的相関をほとんど利用できない。 現在の3D CNNは、より強力なボリューム表現を抽出する利点があるが、通常は過剰なメモリと計算を占有する。 本研究では,2次元ネットワークを文脈情報で拡張し,ボリューム画像のセグメンテーションを改善することを目的とする。 そこで本稿では,空間情報を適切に捉えた2次元CNNを容易にするためのコンテキスト埋め込み学習手法を提案する。 提案手法では,学習した埋め込みとスライスワイズマッチングをソフトキューとして活用し,ネットワークを誘導する。 このように、コンテキスト情報をスライス・バイ・スライスで転送することで、ネットワークの容積表現が向上する。 前立腺MRIデータセット(PROMISE12)と腹部CTデータセット(CHAOS)の実験は、文脈埋め込み学習がスライス間コンテキストを効果的に活用し、セグメンテーション性能を向上させることを示す。 提案手法は、ボリュームセグメンテーションのための2次元ネットワークを強化するための、プラグアンドプレイとメモリ効率のソリューションである。 コードは公開されます。

The segmentation of organs in volumetric medical images plays an important role in computer-aided diagnosis and treatment/surgery planning. Conventional 2D convolutional neural networks (CNNs) can hardly exploit the spatial correlation of volumetric data. Current 3D CNNs have the advantage to extract more powerful volumetric representations but they usually suffer from occupying excessive memory and computation nevertheless. In this study we aim to enhance the 2D networks with contextual information for better volumetric image segmentation. Accordingly, we propose a contextual embedding learning approach to facilitate 2D CNNs capturing spatial information properly. Our approach leverages the learned embedding and the slice-wisely neighboring matching as a soft cue to guide the network. In such a way, the contextual information can be transferred slice-by-slice thus boosting the volumetric representation of the network. Experiments on challenging prostate MRI dataset (PROMISE12) and abdominal CT dataset (CHAOS) show that our contextual embedding learning can effectively leverage the inter-slice context and improve segmentation performance. The proposed approach is a plug-and-play, and memory-efficient solution to enhance the 2D networks for volumetric segmentation. The code will be publicly available.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# 人間と物体の相互作用検出のための遠絡事前学習

Disentangled Pre-training for Human-Object Interaction Detection ( http://arxiv.org/abs/2404.01725v1 )

ライセンス: Link先を確認
Zhuolong Li, Xingao Li, Changxing Ding, Xiangmin Xu, (参考訳) 人-物相互作用(HOI)の検出は、長い間、教師付きデータの量によって制限されてきた。 近年のアプローチでは、画像キャプションから解析したHOI三重項と対象領域を整列する擬似ラベルによる事前学習によってこの問題に対処している。 しかし、擬似ラベリングは難易度が高くうるさいため、HOIの事前学習は複雑なプロセスである。 そこで本研究では,この問題に対処するために,効率的な非拘束型事前学習法(DP-HOI)を提案する。 まず、DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、それぞれ検出と相互作用デコーダ層を事前トレーニングする。 そして、これらのデコーダ層を、トレーニング前のアーキテクチャが下流HOI検出タスクと整合するように配置する。 これは効率的な知識伝達を促進する。 具体的には、検出デコーダは、各行動認識データセット画像中の信頼性の高い人間のインスタンスを特定し、対応するクエリを1つ生成し、動詞分類のための対話デコーダにフィードする。 次に、人間の例動詞予測を同じ画像に組み合わせ、画像レベルの監督を課す。 DP-HOI構造はHOI検出タスクに容易に適応でき、効果的なモデルパラメータの初期化を可能にする。 そのため, 既存のHOI検出モデルの性能は, 広範囲の稀なカテゴリで大幅に向上する。 コードとトレーニング済みのウェイトはhttps://github.com/xingaoli/DP-HOI.comで公開されている。

Detecting human-object interaction (HOI) has long been limited by the amount of supervised data available. Recent approaches address this issue by pre-training according to pseudo-labels, which align object regions with HOI triplets parsed from image captions. However, pseudo-labeling is tricky and noisy, making HOI pre-training a complex process. Therefore, we propose an efficient disentangled pre-training method for HOI detection (DP-HOI) to address this problem. First, DP-HOI utilizes object detection and action recognition datasets to pre-train the detection and interaction decoder layers, respectively. Then, we arrange these decoder layers so that the pre-training architecture is consistent with the downstream HOI detection task. This facilitates efficient knowledge transfer. Specifically, the detection decoder identifies reliable human instances in each action recognition dataset image, generates one corresponding query, and feeds it into the interaction decoder for verb classification. Next, we combine the human instance verb predictions in the same image and impose image-level supervision. The DP-HOI structure can be easily adapted to the HOI detection task, enabling effective model parameter initialization. Therefore, it significantly enhances the performance of existing HOI detection models on a broad range of rare categories. The code and pre-trained weight are available at https://github.com/xingaoli/DP-HOI.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# ドメイン優先知識による6-DoFグラフ検出の一般化

Generalizing 6-DoF Grasp Detection via Domain Prior Knowledge ( http://arxiv.org/abs/2404.01727v1 )

ライセンス: Link先を確認
Haoxiang Ma, Modi Shi, Boyang Gao, Di Huang, (参考訳) 本稿では,6-DoFグリップ検出手法の一般化能力に着目した。 学習に基づくグリップ検出手法は、学習セットから学習したグリップ分布を用いて、未知の物体に対するグリップポーズを予測できるが、様々な形状や構造を持つ物体に遭遇した場合、顕著な性能低下を示すことがしばしばある。 つかみ検出手法の一般化能力を高めるため,ロボットのつかみに関するドメイン事前知識を取り入れ,形状や構造の違いの大きい物体への適応性を向上した。 より具体的には、トレーニング期間中の物理的な制約正則化を用いて、把握の物理規則に準拠する把握を予測するためのモデルを導出する。 新規な物体に予測される不安定なグリップポーズに対して,投影接点マップを用いた接触スコア共同最適化を設計し,これらのポーズを散らかしたシナリオで洗練する。 GraspNet-1billionベンチマークで行った大規模な実験は、新しいオブジェクトセットに対してかなりの性能向上を示し、実世界のグリップ実験は、一般化した6-DoFグリップ検出法の有効性も示している。

We focus on the generalization ability of the 6-DoF grasp detection method in this paper. While learning-based grasp detection methods can predict grasp poses for unseen objects using the grasp distribution learned from the training set, they often exhibit a significant performance drop when encountering objects with diverse shapes and structures. To enhance the grasp detection methods' generalization ability, we incorporate domain prior knowledge of robotic grasping, enabling better adaptation to objects with significant shape and structure differences. More specifically, we employ the physical constraint regularization during the training phase to guide the model towards predicting grasps that comply with the physical rule on grasping. For the unstable grasp poses predicted on novel objects, we design a contact-score joint optimization using the projection contact map to refine these poses in cluttered scenarios. Extensive experiments conducted on the GraspNet-1billion benchmark demonstrate a substantial performance gain on the novel object set and the real-world grasping experiments also demonstrate the effectiveness of our generalizing 6-DoF grasp detection method.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# 言語モデルアライメントの漸近

Asymptotics of Language Model Alignment ( http://arxiv.org/abs/2404.01730v1 )

ライセンス: Link先を確認
Joy Qiping Yang, Salman Salamatian, Ziteng Sun, Ananda Theertha Suresh, Ahmad Beirami, (参考訳) p$ は生成言語モデルを表す。 r$は、$p$からの引き分けが好まれる度合いをキャプチャするスカラーを返す報酬モデルを表す。 言語モデルのアライメントの目標は、$\phi$ を新しいディストリビューション $\phi$ に変更することで、$\phi$ を $p に近く保ちながら、期待されるより高い報酬をもたらすことである。 一般的なアライメント法はKL制約強化学習(RL)であり、分布 $\phi_\Delta$ を最大化する$E_{\phi_{\Delta}} r(y)$ を相対エントロピー制約 $KL(\phi_\Delta || p) \leq \Delta を選択する。 もうひとつの単純なアライメントメソッドは$N$で、$N$サンプルは$p$から引き出され、最も報酬の高いものが選択される。 本稿では,最適KL制約RL解の閉形式特性について述べる。 我々は、相対エントロピーの観点から、KL分散と報酬の同等のトレードオフを達成するアライメント法は、最適KL制約されたRL解を近似しなければならないことを示した。 さらに,アライメント手法の特性を解析するために,言語モデルをメモリレスにし,報酬モデルを線形にする,という2つの単純化された仮定を導入する。 これらの仮定は、複雑な実世界のシナリオを反映していないかもしれないが、情報理論量の観点からは、最良のN$アライメントとKL制約RL法の両方の漸近挙動を正確に評価することができる。 我々は、最適KL制約RL解の報酬が大きな偏差原理を満たすことを証明し、その速度関数を完全に特徴づける。 また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。 最後に、Fest-of-N$ は KL-制約された RL 解と漸近的に同値であることを示し、それらの期待される報酬が漸近的に等しいことを示し、2つの分布が KL の発散において近接でなければならないと結論付ける。

Let $p$ denote a generative language model. Let $r$ denote a reward model that returns a scalar that captures the degree at which a draw from $p$ is preferred. The goal of language model alignment is to alter $p$ to a new distribution $\phi$ that results in a higher expected reward while keeping $\phi$ close to $p.$ A popular alignment method is the KL-constrained reinforcement learning (RL), which chooses a distribution $\phi_\Delta$ that maximizes $E_{\phi_{\Delta}} r(y)$ subject to a relative entropy constraint $KL(\phi_\Delta || p) \leq \Delta.$ Another simple alignment method is best-of-$N$, where $N$ samples are drawn from $p$ and one with highest reward is selected. In this paper, we offer a closed-form characterization of the optimal KL-constrained RL solution. We demonstrate that any alignment method that achieves a comparable trade-off between KL divergence and reward must approximate the optimal KL-constrained RL solution in terms of relative entropy. To further analyze the properties of alignment methods, we introduce two simplifying assumptions: we let the language model be memoryless, and the reward model be linear. Although these assumptions may not reflect complex real-world scenarios, they enable a precise characterization of the asymptotic behavior of both the best-of-$N$ alignment, and the KL-constrained RL method, in terms of information-theoretic quantities. We prove that the reward of the optimal KL-constrained RL solution satisfies a large deviation principle, and we fully characterize its rate function. We also show that the rate of growth of the scaled cumulants of the reward is characterized by a proper Renyi cross entropy. Finally, we show that best-of-$N$ is asymptotically equivalent to KL-constrained RL solution by proving that their expected rewards are asymptotically equal, and concluding that the two distributions must be close in KL divergence.
翻訳日:2024-04-03 17:28:41 公開日:2024-04-02
# マイクロインテリジェンス予測のためのウィスパーからの伝達学習

Transfer Learning from Whisper for Microscopic Intelligibility Prediction ( http://arxiv.org/abs/2404.01737v1 )

ライセンス: Link先を確認
Paul Best, Santiago Cuervo, Ricard Marxer, (参考訳) マクロ的インテリジェンスモデルは、与えられた音声刺激に対する人間の単語エラー率を予測する。 対照的に、微視的インテリジェンスモデルは、聞き手の知覚を微妙に予測することを目的としており、例えば、音声応答や語彙応答を予測している。 最先端のマクロモデルでは,大規模深層学習モデルからの伝達学習を音声処理に用いているが,このような手法は顕微鏡モデリングにはほとんど使われていない。 本稿では,音声認識のための最先端ディープラーニングモデルであるWhisperからの伝達学習を用いて,語彙応答のレベルでの微視的インテリジェンス予測を行う。 提案手法は,ゼロショット設定においても,検討されたベースラインよりも優れており,聴取者の応答を微調整した場合の相対的改善率は66\%である。 この結果から,大規模深層学習による微視的インテリジェンス予測の可能性が示された。

Macroscopic intelligibility models predict the expected human word-error-rate for a given speech-in-noise stimulus. In contrast, microscopic intelligibility models aim to make fine-grained predictions about listeners' perception, e.g. predicting phonetic or lexical responses. State-of-the-art macroscopic models use transfer learning from large scale deep learning models for speech processing, whereas such methods have rarely been used for microscopic modeling. In this paper, we study the use of transfer learning from Whisper, a state-of-the-art deep learning model for automatic speech recognition, for microscopic intelligibility prediction at the level of lexical responses. Our method outperforms the considered baselines, even in a zero-shot setup, and yields a relative improvement of up to 66\% when fine-tuned to predict listeners' responses. Our results showcase the promise of large scale deep learning based methods for microscopic intelligibility prediction.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# バイモーダル・セマンティック類似性を用いた弱教師付き音声分離

Weakly-supervised Audio Separation via Bi-modal Semantic Similarity ( http://arxiv.org/abs/2404.01740v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Saeed Amizadeh, Kazuhito Koishida, Diana Marculescu, (参考訳) 訓練中に単一の音源データにアクセスできないマルチソースオーディオミックスの条件付き音源分離は、長年の課題である。 既存のミックス・アンド・セパレート方式は、トレーニング中に単一ソース分離ケースの監視信号が欠如しているため、マルチソース・トレーニング・ミックスの大幅な性能低下に悩まされている。 しかし、言語条件による音声分離の場合、トレーニングデータ中の各オーディオミックスの対応するテキスト記述にアクセスでき、言語モダリティにおけるオーディオサンプルの(粗い)表現として見ることができる。 そこで,本稿では,既存の教師なしフレームワークを拡張して,対象モダリティにおける単一ソースサンプルへのアクセスを必要とせずに,条件付きモダリティ(言語)において容易に分離可能な対応信号を用いて,対象モダリティ(音声)内で単一ソース信号を分離する,汎用的なバイモーダル分離フレームワークを提案する。 2つのモダリティ(CLAP)間の事前訓練された結合埋め込みモデルにアクセスできれば,これは十分に到達範囲内であることが実証的に示される。 さらに,分離性能を高めるために,我々のフレームワークを2つの基本的なシナリオに組み込むことを提案する。 まず,本提案手法は,トレーニングとテストサンプル間の分布シフトを小さくすることで,教師なしベースラインの性能を著しく向上することを示す。 特に,本フレームワークは,ベースライン上でのSDR(Signal-to-Distortion Ratio)で71%向上し,教師付き学習性能の97.5%に達することを示す。 第2に、音声分離のための強力な半教師付きフレームワークを実現する弱教師付きフレームワークにより、教師付き学習自体の性能を17%向上させることができることを示す。

Conditional sound separation in multi-source audio mixtures without having access to single source sound data during training is a long standing challenge. Existing mix-and-separate based methods suffer from significant performance drop with multi-source training mixtures due to the lack of supervision signal for single source separation cases during training. However, in the case of language-conditional audio separation, we do have access to corresponding text descriptions for each audio mixture in our training data, which can be seen as (rough) representations of the audio samples in the language modality. To this end, in this paper, we propose a generic bi-modal separation framework which can enhance the existing unsupervised frameworks to separate single-source signals in a target modality (i.e., audio) using the easily separable corresponding signals in the conditioning modality (i.e., language), without having access to single-source samples in the target modality during training. We empirically show that this is well within reach if we have access to a pretrained joint embedding model between the two modalities (i.e., CLAP). Furthermore, we propose to incorporate our framework into two fundamental scenarios to enhance separation performance. First, we show that our proposed methodology significantly improves the performance of purely unsupervised baselines by reducing the distribution shift between training and test samples. In particular, we show that our framework can achieve 71% boost in terms of Signal-to-Distortion Ratio (SDR) over the baseline, reaching 97.5% of the supervised learning performance. Second, we show that we can further improve the performance of the supervised learning itself by 17% if we augment it by our proposed weakly-supervised framework, that enables a powerful semi-supervised framework for audio separation.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 2レベルフィードバック制御によるネットワークシステムの侵入耐性

Intrusion Tolerance for Networked Systems through Two-Level Feedback Control ( http://arxiv.org/abs/2404.01741v1 )

ライセンス: Link先を確認
Kim Hammar, Rolf Stadler, (参考訳) サービスレプリカを2段階最適制御問題とするシステムの侵入耐性を定式化する。 ローカルレベルではノードコントローラが侵入回復を行い、グローバルレベルではシステムコントローラが複製係数を管理する。 局所的およびグローバルな制御問題は、操作研究における古典的な問題、すなわち機械交換問題と在庫補充問題として定式化することができる。 この定式化に基づいて、侵入耐性システムのための新しい制御アーキテクチャであるTOLERANCEを設計する。 両レベルにおける最適制御戦略がしきい値構造を持ち、それらの計算に効率的なアルゴリズムを設計することを証明する。 10種類のネットワーク侵入を行うエミュレーション環境でのTOLERANCEの実装と評価を行う。 その結果、TOLERANCEは、最先端の侵入耐性システムと比較して、サービスの可用性を向上し、運用コストを低減できることがわかった。

We formulate intrusion tolerance for a system with service replicas as a two-level optimal control problem. On the local level node controllers perform intrusion recovery, and on the global level a system controller manages the replication factor. The local and global control problems can be formulated as classical problems in operations research, namely, the machine replacement problem and the inventory replenishment problem. Based on this formulation, we design TOLERANCE, a novel control architecture for intrusion-tolerant systems. We prove that the optimal control strategies on both levels have threshold structure and design efficient algorithms for computing them. We implement and evaluate TOLERANCE in an emulation environment where we run 10 types of network intrusions. The results show that TOLERANCE can improve service availability and reduce operational cost compared with state-of-the-art intrusion-tolerant systems.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 限定スーパービジョンによる原子レベル光化学構造認識

Atom-Level Optical Chemical Structure Recognition with Limited Supervision ( http://arxiv.org/abs/2404.01743v1 )

ライセンス: Link先を確認
Martijn Oldenhof, Edward De Brouwer, Adam Arany, Yves Moreau, (参考訳) 分子のグラフィカルな表現やイメージから化学構造を同定することは、薬物開発に大きな恩恵をもたらす、困難なパターン認識タスクである。 しかし、既存の化学構造認識法は一般的には一般化せず、データが少ない領域や、手書きの分子画像のような生成にコストがかかる領域に直面すると効果が低下する。 この制限に対処するため、我々は最先端の性能を提供し、限られた数のデータサンプルと監視を行う新しい領域に適応できる新しい化学構造認識ツールを提案する。 従来の手法とは異なり、この手法は原子レベルの局所化を提供し、したがって画像を異なる原子と結合に分割することができる。 我々のモデルは、SMILESの監督のみで原子レベルの実体検出を行い、OCSRを実行する最初のモデルである。 厳密で広範囲なベンチマークを通じて、データ効率、精度、原子レベルの実体予測の観点から、化学構造認識アプローチの優位性を実証する。

Identifying the chemical structure from a graphical representation, or image, of a molecule is a challenging pattern recognition task that would greatly benefit drug development. Yet, existing methods for chemical structure recognition do not typically generalize well, and show diminished effectiveness when confronted with domains where data is sparse, or costly to generate, such as hand-drawn molecule images. To address this limitation, we propose a new chemical structure recognition tool that delivers state-of-the-art performance and can adapt to new domains with a limited number of data samples and supervision. Unlike previous approaches, our method provides atom-level localization, and can therefore segment the image into the different atoms and bonds. Our model is the first model to perform OCSR with atom-level entity detection with only SMILES supervision. Through rigorous and extensive benchmarking, we demonstrate the preeminence of our chemical structure recognition approach in terms of data efficiency, accuracy, and atom-level entity prediction.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# Octopus v2:スーパーエージェントのオンデバイス言語モデル

Octopus v2: On-device language model for super agent ( http://arxiv.org/abs/2404.01744v1 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, (参考訳) 言語モデルは様々なソフトウェアアプリケーション、特に自動ワークフローに関連するタスクにおいて有効性を示している。 これらのモデルには、AIエージェントを作成する上で不可欠な機能を呼び出す重要な能力がある。 クラウド環境での大規模言語モデルのパフォーマンスは高いが、プライバシやコストに関する懸念に関係していることが多い。 関数呼び出しの現在のオンデバイスモデルには、レイテンシと正確性がある。 本研究では,20億のパラメータを持つデバイス上でのモデルを用いて,GPT-4の性能を精度とレイテンシの両方で上回り,コンテキスト長を95%削減する手法を提案する。 Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。 この方法では,実環境におけるさまざまなエッジデバイスへのデプロイに適したレベルへの遅延を低減し,実環境アプリケーションのパフォーマンス要件に適合する。

Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 映像ハイライト検出におけるCLIPの可能性

Unleash the Potential of CLIP for Video Highlight Detection ( http://arxiv.org/abs/2404.01745v1 )

ライセンス: Link先を確認
Donghoon Han, Seunghyeon Seo, Eunhwan Park, Seong-Uk Nam, Nojun Kwak, (参考訳) マルチモーダルおよび大規模言語モデル(LLM)は、様々なタスクやアプリケーションにまたがる新しいポテンシャルを解き放ち、オープンワールドの知識の利用に革命をもたらした。 これらのドメインの中で、ビデオドメインは特にその能力の恩恵を受けている。 本稿では,マルチモーダルモデルに埋め込まれた事前学習された知識を活用することで,映像ハイライト検出タスクの効率化を目的としたHighlight-CLIP(HL-CLIP)を提案する。 マルチモーダルエンコーダとイノベーティブなサリエンパリング技術を組み合わせることで、ハイライト検出タスクであるQVHighlight Benchmarkにおける最先端のパフォーマンスを、私たちの知る限りで達成しました。

Multimodal and large language models (LLMs) have revolutionized the utilization of open-world knowledge, unlocking novel potentials across various tasks and applications. Among these domains, the video domain has notably benefited from their capabilities. In this paper, we present Highlight-CLIP (HL-CLIP), a method designed to excel in the video highlight detection task by leveraging the pre-trained knowledge embedded in multimodal models. By simply fine-tuning the multimodal encoder in combination with our innovative saliency pooling technique, we have achieved the state-of-the-art performance in the highlight detection task, the QVHighlight Benchmark, to the best of our knowledge.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 知識蒸留を用いた自律走行車におけるスケーラブルで効率的なインタラクションアウェア計画に向けて

Towards Scalable & Efficient Interaction-Aware Planning in Autonomous Vehicles using Knowledge Distillation ( http://arxiv.org/abs/2404.01746v1 )

ライセンス: Link先を確認
Piyush Gupta, David Isele, Sangjae Bae, (参考訳) 現実の運転には、密集した交通シナリオをナビゲートする車両間の複雑な相互作用が含まれる。 近年の研究では、意思決定においてこれらのインタラクションを活用する自動運転車のインタラクション意識の向上に焦点が当てられている。 これらのインタラクション対応プランナは、ニューラルネットワークベースの予測モデルを使用して、車間インタラクションをキャプチャし、モデル予測制御のような従来の制御技術とこれらの予測を統合することを目指している。 しかし、このディープラーニングモデルと従来の制御パラダイムの統合は、しばしばヒューリスティックな手法に依存して、計算的に要求される最適化問題を引き起こす。 本研究では,ディープラーニングと制約付き最適化を併用し,知識蒸留を用いてより小型で効率的なネットワークを学習し,複雑性を緩和する原理的かつ効率的な手法を提案する。 これらの改良されたネットワークは、より大きなモデルの問題解決効果を維持しつつ、最適化を著しく加速することを示した。 具体的には、自律走行車における対話対応軌道計画の分野において、知識蒸留を用いてより小さな予測ネットワークを訓練することで、精度を犠牲にすることなく最適化を高速化することを示す。

Real-world driving involves intricate interactions among vehicles navigating through dense traffic scenarios. Recent research focuses on enhancing the interaction awareness of autonomous vehicles to leverage these interactions in decision-making. These interaction-aware planners rely on neural-network-based prediction models to capture inter-vehicle interactions, aiming to integrate these predictions with traditional control techniques such as Model Predictive Control. However, this integration of deep learning-based models with traditional control paradigms often results in computationally demanding optimization problems, relying on heuristic methods. This study introduces a principled and efficient method for combining deep learning with constrained optimization, employing knowledge distillation to train smaller and more efficient networks, thereby mitigating complexity. We demonstrate that these refined networks maintain the problem-solving efficacy of larger models while significantly accelerating optimization. Specifically, in the domain of interaction-aware trajectory planning for autonomous vehicles, we illustrate that training a smaller prediction network using knowledge distillation speeds up optimization without sacrificing accuracy.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# リモートセンシングと機械学習を用いた極小開発途上国における露光のグローバルマッピングと物理的脆弱性ダイナミクス

Global Mapping of Exposure and Physical Vulnerability Dynamics in Least Developed Countries using Remote Sensing and Machine Learning ( http://arxiv.org/abs/2404.01748v1 )

ライセンス: Link先を確認
Joshua Dimasaka, Christian Geiß, Emily So, (参考訳) 世界が2015-2030年の仙台災害リスク対策枠組みの中期を目論む中、多くの国は、露出の分布や身体的脆弱性の大規模調査に苦慮しているため、気候変動の影響が強まる中、リスクの低減に苦慮している。 本稿では,現在公開されているSentinel-1 SAR GRDとSentinel-2 Harmonized MSIから,機械学習と時系列リモートセンシングを用いて,この重要な情報をマッピングする作業を行っている。 我々は,ほとんど開発されていない(LDC)47カ国からなる「OpenSendaiBench」の開発と,ResNet-50深層学習モデルの訓練を行い,バングラデシュのダッカの地域について,その非公式な構成の分布をマッピングして実演した。 本研究では,地球規模の防災リスクを経時的に評価する先駆的な取り組みとして,気候や災害リスクの低減に向け,大規模リスク定量化の分野を推し進めることを目的とする。

As the world marked the midterm of the Sendai Framework for Disaster Risk Reduction 2015-2030, many countries are still struggling to monitor their climate and disaster risk because of the expensive large-scale survey of the distribution of exposure and physical vulnerability and, hence, are not on track in reducing risks amidst the intensifying effects of climate change. We present an ongoing effort in mapping this vital information using machine learning and time-series remote sensing from publicly available Sentinel-1 SAR GRD and Sentinel-2 Harmonized MSI. We introduce the development of "OpenSendaiBench" consisting of 47 countries wherein most are least developed (LDCs), trained ResNet-50 deep learning models, and demonstrated the region of Dhaka, Bangladesh by mapping the distribution of its informal constructions. As a pioneering effort in auditing global disaster risk over time, this paper aims to advance the area of large-scale risk quantification in informing our collective long-term efforts in reducing climate and disaster risk.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 潜在経路探索:変分オートエンコーダによる自律走行の解釈性向上

Exploring Latent Pathways: Enhancing the Interpretability of Autonomous Driving with a Variational Autoencoder ( http://arxiv.org/abs/2404.01750v1 )

ライセンス: Link先を確認
Anass Bairouk, Mirjana Maras, Simon Herlin, Alexander Amini, Marc Blanchon, Ramin Hasani, Patrick Chareyre, Daniela Rus, (参考訳) 自律運転は複雑な課題であり、通常はエンドツーエンドまたはモジュール化された人工知能モデルで対処される。 モジュラーアプローチの風景の中で、バイオインスパイアされたニューラルネットワークポリシーモデルが革新的な制御モジュールとして登場し、抽象的な視覚的特徴からハンドルコマンドを推論するコンパクトで本質的に解釈可能なシステムを提供している。 ここでは、可変オートエンコーダをニューラルネットワークポリシーコントローラに統合し、入力されたカメライメージから直接ステアリングコマンドを生成するソリューションを構築することで、飛躍的に前進する。 従来の畳み込みニューラルネットワークアプローチを変分オートエンコーダで特徴抽出に置き換えることで、システムの解釈可能性を高め、より透明で理解可能な意思決定プロセスを可能にします。 本研究は,変分オートエンコーダへのアーキテクチャシフトに加えて,変分オートエンコーダ内の潜時特徴を探索・解明するための新しいコントリビューションである自動潜時摂動ツールを導入する。 自動潜伏摂動ツールは、解釈可能性プロセスを自動化し、特定の潜伏変数が全体モデルの振る舞いにどのように影響するかに関する詳細な洞察を提供する。 一連の数値実験を通して,変分自己エンコーダ・ニューラル回路ポリシーモデルの解釈力と,自律運転システムの内部動作をより透過的にするための自動潜時摂動ツールの有用性を実証した。

Autonomous driving presents a complex challenge, which is usually addressed with artificial intelligence models that are end-to-end or modular in nature. Within the landscape of modular approaches, a bio-inspired neural circuit policy model has emerged as an innovative control module, offering a compact and inherently interpretable system to infer a steering wheel command from abstract visual features. Here, we take a leap forward by integrating a variational autoencoder with the neural circuit policy controller, forming a solution that directly generates steering commands from input camera images. By substituting the traditional convolutional neural network approach to feature extraction with a variational autoencoder, we enhance the system's interpretability, enabling a more transparent and understandable decision-making process. In addition to the architectural shift toward a variational autoencoder, this study introduces the automatic latent perturbation tool, a novel contribution designed to probe and elucidate the latent features within the variational autoencoder. The automatic latent perturbation tool automates the interpretability process, offering granular insights into how specific latent variables influence the overall model's behavior. Through a series of numerical experiments, we demonstrate the interpretative power of the variational autoencoder-neural circuit policy model and the utility of the automatic latent perturbation tool in making the inner workings of autonomous driving systems more transparent.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# T-VSL:混合音におけるテキストガイド型視覚音源定位

T-VSL: Text-Guided Visual Sound Source Localization in Mixtures ( http://arxiv.org/abs/2404.01751v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Yapeng Tian, Diana Marculescu, (参考訳) 視覚的音源定位は、ビデオ内の各音源の意味領域を特定する上で重要な課題となる。 既存の教師付きおよび弱教師付きソースローカライゼーション手法は、特にマルチソース混合において、各サウンドオブジェクトのセマンティック領域を正確に区別するのに苦労する。 これらの手法は、複雑なマルチソースのローカライゼーションシナリオにおいて、大きなパフォーマンス低下につながるであろうガイダンスとして、音声と視覚の対応に依存することが多い。 トレーニング中の複数音源混合音に対する個々の音源音へのアクセスの欠如は、ローカライゼーションのための効果的な音声-視覚対応の学習の困難さを増す。 この制限に対処するため、本論文では、テキストモダリティを3モーダル結合埋め込みモデル(例:AudioCLIP)を用いて中間的特徴ガイドとして組み込むことにより、マルチソースミックスにおける意味的音声-視覚的ソース対応を解消する。 我々のフレームワークは、T-VSLと呼ばれ、混合物中の音素のクラスを予測することから始まります。 その後、マルチソース混合物から微細なオーディオ・ビジュアル・ソース・コンパレンスを切り離し、トリモーダルAudioCLIP埋め込みを利用するためのガイダンスとして、各音源のテキスト表現を用いる。 このアプローチにより、当社のフレームワークは、フレキシブルな数のソースを処理でき、テスト期間中に見つからないクラスに対して、期待できるゼロショット転送可能性を示すことができます。 MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された大規模な実験は、最先端の手法よりも大幅に性能が向上したことを示している。

Visual sound source localization poses a significant challenge in identifying the semantic region of each sounding source within a video. Existing self-supervised and weakly supervised source localization methods struggle to accurately distinguish the semantic regions of each sounding object, particularly in multi-source mixtures. These methods often rely on audio-visual correspondence as guidance, which can lead to substantial performance drops in complex multi-source localization scenarios. The lack of access to individual source sounds in multi-source mixtures during training exacerbates the difficulty of learning effective audio-visual correspondence for localization. To address this limitation, in this paper, we propose incorporating the text modality as an intermediate feature guide using tri-modal joint embedding models (e.g., AudioCLIP) to disentangle the semantic audio-visual source correspondence in multi-source mixtures. Our framework, dubbed T-VSL, begins by predicting the class of sounding entities in mixtures. Subsequently, the textual representation of each sounding source is employed as guidance to disentangle fine-grained audio-visual source correspondence from multi-source mixtures, leveraging the tri-modal AudioCLIP embedding. This approach enables our framework to handle a flexible number of sources and exhibits promising zero-shot transferability to unseen classes during test time. Extensive experiments conducted on the MUSIC, VGGSound, and VGGSound-Instruments datasets demonstrate significant performance improvements over state-of-the-art methods.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 連続空間におけるスケーラブルなマルチロボット経路計画のためのセーフインターバルRT*

Safe Interval RRT* for Scalable Multi-Robot Path Planning in Continuous Space ( http://arxiv.org/abs/2404.01752v1 )

ライセンス: Link先を確認
Joonyeol Sim, Joonkyung Kim, Changjoo Nam, (参考訳) 本稿では、競合のない経路を見つけるために、連続空間におけるマルチロボットパス計画(MRPP)の問題を検討する。 問題の難しさは2つの主要な要因から生じる。 第一に、複数のロボットの関与は、指数関数的に探索空間をエスカレートする組合せ決定につながる。 第二に、連続空間は潜在的に無限の状態と作用を示す。 そこで本研究では,低レベルをサンプリングベースとしたセーフインターバルRT* (SI-RRT*) とし,個々のロボットに対して衝突のない軌道を求める2段階のアプローチを提案する。 高レベルは、優先順位付け計画(SI-CPP)と競合ベース探索(SI-CCBS)という2つの代表的手法を用いて、ロボット間の衝突を解消できるあらゆる方法を使用することができる。 実験結果から,SI-RRT* は少数のサンプルで高速に高品質な解を見つけることができることがわかった。 SI-CPPは拡張性の向上を示し、SI-CCBSは連続空間の最先端プランナーに比べて高品質なソリューションを生産している。 最もスケーラブルな既存のアルゴリズムと比較して、SI-CPPは、ソリューションの品質(フロータイム、全ロボットの走行時間の合計)を維持しながら、大きな妥協なしに最大94%の成功率を達成する。 SI-CPPはまた、メイクパンを45%まで減少させる。 SI-CCBSは競争相手と比較して流速を9%減少させるが、成功率は14%低い。

In this paper, we consider the problem of Multi-Robot Path Planning (MRPP) in continuous space to find conflict-free paths. The difficulty of the problem arises from two primary factors. First, the involvement of multiple robots leads to combinatorial decision-making, which escalates the search space exponentially. Second, the continuous space presents potentially infinite states and actions. For this problem, we propose a two-level approach where the low level is a sampling-based planner Safe Interval RRT* (SI-RRT*) that finds a collision-free trajectory for individual robots. The high level can use any method that can resolve inter-robot conflicts where we employ two representative methods that are Prioritized Planning (SI-CPP) and Conflict Based Search (SI-CCBS). Experimental results show that SI-RRT* can find a high-quality solution quickly with a small number of samples. SI-CPP exhibits improved scalability while SI-CCBS produces higher-quality solutions compared to the state-of-the-art planners for continuous space. Compared to the most scalable existing algorithm, SI-CPP achieves a success rate that is up to 94% higher with 100 robots while maintaining solution quality (i.e., flowtime, the sum of travel times of all robots) without significant compromise. SI-CPP also decreases the makespan up to 45%. SI-CCBS decreases the flowtime by 9% compared to the competitor, albeit exhibiting a 14% lower success rate.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# M2SA:つぶやきの知覚分析のための多モーダルおよび多言語モデル

M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets ( http://arxiv.org/abs/2404.01753v1 )

ライセンス: Link先を確認
Gaurish Thakkar, Sherzod Hakimov, Marko Tadić, (参考訳) 近年,多様なデータ型から学習することを目的としたマルチモーダル自然言語処理が注目されている。 しかし、多言語コンテキストにおけるマルチモーダルタスクの分析に関しては、より明確にする必要がある。 ツイートの感情分析に関する先行研究は、主に英語に重点を置いているが、本稿では、既存のテキストTwitter感情データセットを、簡単なキュレーションプロセスを通じてマルチモーダルフォーマットに変換することで、このギャップに対処する。 本研究は,研究コミュニティにおける感情関連研究の新たな道を開くものである。 さらに、この拡張データセットを利用してベースライン実験を行い、その結果を報告する。 特に,非モーダル・マルチモーダル構成の比較において,テキストエンコーダとしての感情調整型大言語モデルを用いることで,優れた性能が得られた。

In recent years, multimodal natural language processing, aimed at learning from diverse data types, has garnered significant attention. However, there needs to be more clarity when it comes to analysing multimodal tasks in multi-lingual contexts. While prior studies on sentiment analysis of tweets have predominantly focused on the English language, this paper addresses this gap by transforming an existing textual Twitter sentiment dataset into a multimodal format through a straightforward curation process. Our work opens up new avenues for sentiment-related research within the research community. Additionally, we conduct baseline experiments utilising this augmented dataset and report the findings. Notably, our evaluations reveal that when comparing unimodal and multimodal configurations, using a sentiment-tuned large language model as a text encoder performs exceptionally well.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# Peer-Aided repairer: 大規模言語モデルを活用して上級学生の課題を修復する

Peer-aided Repairer: Empowering Large Language Models to Repair Advanced Student Assignments ( http://arxiv.org/abs/2404.01754v1 )

ライセンス: Link先を確認
Qianhui Zhao, Fang Liu, Li Zhang, Yang Liu, Zhen Yan, Zhenghao Chen, Yufei Zhou, Jing Jiang, Ge Li, (参考訳) プログラミング課題に対するフィードバックの自動生成は、特に高度な課題に関しては、プログラミング教育に大きな利益をもたらす。 プログラム修復の自動化技術、特に大規模言語モデルに基づくアプローチは、導入課題を修正する可能性について顕著に認識されている。 しかし、評価に用いられるプログラムは比較的単純である。 より高度なプログラミングコースからのプログラムの修復において、既存のアプローチがどのように機能するかは、まだ不明である。 これらの制約に対処するため、より高度なプログラミングコースからDefects4DSという名前の新しい高度な学生割当てデータセットをキュレートする。 その後、先進的な課題におけるバグ修正に関わる課題を特定した。 この分析に基づいて, LLM を利用した PaR というフレームワークを開発した。 PaRは、ピアソリューション選択、マルチソースプロンプト生成、プログラム修復の3段階で動作する。 ピアソリューション選択は、語彙、意味、統語的基準に基づいて、密接に関連するピアプログラムを特定する。 次に、マルチソース・プロンプト・ジェネレーションは、複数の情報ソースを包括的に組み合わせて、最後のプログラム修復段階の包括的で情報的なプロンプトを作成する。 Defects4DS と別のよく検証された ITSP データセットの評価は、PaR が新しい最先端のパフォーマンスを達成し、従来の最先端 LLM とシンボルベースのアプローチと比較して、それぞれ19.94% と 15.2% の大幅な改善が見られたことを示している。

Automated generation of feedback on programming assignments holds significant benefits for programming education, especially when it comes to advanced assignments. Automated Program Repair techniques, especially Large Language Model based approaches, have gained notable recognition for their potential to fix introductory assignments. However, the programs used for evaluation are relatively simple. It remains unclear how existing approaches perform in repairing programs from higher-level programming courses. To address these limitations, we curate a new advanced student assignment dataset named Defects4DS from a higher-level programming course. Subsequently, we identify the challenges related to fixing bugs in advanced assignments. Based on the analysis, we develop a framework called PaR that is powered by the LLM. PaR works in three phases: Peer Solution Selection, Multi-Source Prompt Generation, and Program Repair. Peer Solution Selection identifies the closely related peer programs based on lexical, semantic, and syntactic criteria. Then Multi-Source Prompt Generation adeptly combines multiple sources of information to create a comprehensive and informative prompt for the last Program Repair stage. The evaluation on Defects4DS and another well-investigated ITSP dataset reveals that PaR achieves a new state-of-the-art performance, demonstrating impressive improvements of 19.94% and 15.2% in repair rate compared to prior state-of-the-art LLM- and symbolic-based approaches, respectively
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 調和振動子の量子電荷

Quantum charges of harmonic oscillators ( http://arxiv.org/abs/2404.01756v1 )

ライセンス: Link先を確認
Alexander D. Popov, (参考訳) 一次元量子調和振動子のリーマン幾何学について論じる。 その波動関数は複素直線束 $L_{\sf{v}}$ の位相空間 $\mathbb{R}^2$ の正則部分である。 エネルギー固有函数 $\psi_n$ と $n\ge 1$ とすると、エネルギー準位 $E_n$ はオービフォールド $\mathbb{R}^2/\mathbb{Z}_n$ 上の複素座標であり、$L_{\sf{v}}$ に埋め込まれ、$\mathbb{Z}_n$ は位数 $n$ の巡回群である。 実際、$\psi_n (t,z)$ は $\mathbb{R}^2/\mathbb{Z}_n$ 上の定常波であり、$z$ は相空間 $\mathbb{R}^2\cong\mathbb{C}$ 上の複素座標である。 振動子は、2つの量子電荷$(q_l^{}, q_{\sf{v}})=(n,1)$, where $q_l^{}=n$は、$\mathbb{R}^2/\mathbb{Z}_n$と$q_{\sf{v}}^{}=1$は、束 $L_{\sf{v}}\to\mathbb{R}^2$と$E_n=\hbar\omega(q_l^{}+\frac{1}{2} q_{\sf{v}})のファイバー上のU(1)-回転の巻数である。 $ は反対の量子電荷と同じ正のエネルギーを持つ ' `antioscillator' についても論じる。

We discuss Riemannian geometry of one-dimensional quantum harmonic oscillator. Its wavefunction is a holomorphic section of the complex line bundle $L_{\sf{v}}$ over the phase space $\mathbb{R}^2$. We show that the energy eigenfunctions $\psi_n$ with $n\ge 1$, corresponding to the energy levels $E_n$, are complex coordinates on orbifolds $\mathbb{R}^2/\mathbb{Z}_n$ embedded into $L_{\sf{v}}$, where $\mathbb{Z}_n$ is the cyclic group of order $n$. In fact, $\psi_n (t,z)$ is a standing wave on $\mathbb{R}^2/\mathbb{Z}_n$, where $z$ is a complex coordinate on the phase space $\mathbb{R}^2\cong\mathbb{C}$. Oscillators are characterized by two quantum charges $(q_l^{}, q_{\sf{v}})=(n,1)$, where $q_l^{}=n$ is the winding number for the group U(1) acting on $\mathbb{R}^2/\mathbb{Z}_n$ and $q_{\sf{v}}^{}=1$ is the winding number for the U(1)-rotations on fibres of the bundle $L_{\sf{v}}\to\mathbb{R}^2$, and $E_n=\hbar\omega(q_l^{}+\frac{1}{2} q_{\sf{v}}).$ We also discuss ``antioscillators" with opposite quantum charges and the same positive energy.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# GEARS:局所幾何学的手・物体間相互作用合成

GEARS: Local Geometry-aware Hand-object Interaction Synthesis ( http://arxiv.org/abs/2404.01758v1 )

ライセンス: Link先を確認
Keyang Zhou, Bharat Lal Bhatnagar, Jan Eric Lenssen, Gerard Pons-moll, (参考訳) 物体との相互作用における現実的な手の動き列の生成は、デジタル人間への関心の高まりとともに注目を集めている。 以前の研究は、手動物体の相互作用の特徴を抽出するために、占有率に基づくまたは距離に基づく仮想センサを使うことの有効性を実証してきた。 にもかかわらず、これらの手法は対象圏、形状、大きさにまたがる限定的な一般化性を示す。 これは2つの理由によるものと仮定する。 1)使用済み仮想センサの限られた表現性、及び 2) 利用可能なトレーニングデータの不足。 この課題に対処するために、我々は、潜在的な相互作用領域近傍の局所物体形状を推論する新しい共同中心センサを導入する。 各手関節近傍の物体表面点に対するセンサクエリ 学習の複雑さを軽減するための重要なステップとして、グローバルフレームからハンドテンプレートフレームへポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。 その後、異なる次元の関節間の相関を捉えることを目的とした時空間変圧器ネットワークが続く。 さらに,手幅の広い静的握りサンプルを用いて,限られたトレーニングシーケンスを増強するための単純なヒューリスティックなルールを考案した。 これにより、トレーニング中に観察される把握タイプの幅広いスペクトルが導かれ、それによってモデルの一般化能力が向上する。 GRABとInterCapの2つの公開データセットについて評価し,本手法はベースラインよりも定量的かつ知覚的に優れていることを示す。

Generating realistic hand motion sequences in interaction with objects has gained increasing attention with the growing interest in digital humans. Prior work has illustrated the effectiveness of employing occupancy-based or distance-based virtual sensors to extract hand-object interaction features. Nonetheless, these methods show limited generalizability across object categories, shapes and sizes. We hypothesize that this is due to two reasons: 1) the limited expressiveness of employed virtual sensors, and 2) scarcity of available training data. To tackle this challenge, we introduce a novel joint-centered sensor designed to reason about local object geometry near potential interaction regions. The sensor queries for object surface points in the neighbourhood of each hand joint. As an important step towards mitigating the learning complexity, we transform the points from global frame to hand template frame and use a shared module to process sensor features of each individual joint. This is followed by a spatio-temporal transformer network aimed at capturing correlation among the joints in different dimensions. Moreover, we devise simple heuristic rules to augment the limited training sequences with vast static hand grasping samples. This leads to a broader spectrum of grasping types observed during training, in turn enhancing our model's generalization capability. We evaluate on two public datasets, GRAB and InterCap, where our method shows superiority over baselines both quantitatively and perceptually.
翻訳日:2024-04-03 17:18:56 公開日:2024-04-02
# 対向電線通信路のセキュリティ

Security for adversarial wiretap channels ( http://arxiv.org/abs/2404.01760v1 )

ライセンス: Link先を確認
Esther Hänggi, Iyán Méndez Veiga, Ligong Wang, (参考訳) 個々のチャネルがメモリを持つ場合や、相手の影響を受けやすい場合を考える。 抽出器と誤り訂正符号の逆を用いた情報理論的にセキュアな符号化方式の明示的で効率的な構成を解析する。 これらのスキームは、大量のメモリレス・ワイヤタップ・チャネルにおいて機密容量を達成することが知られている。 これは、メモリを持つ特定のチャネルタイプにも当てはまります。 特に、敵がチャネルの振舞いを管理する「状態」のシーケンスを選択できるチャンネルでは、可能な状態が全てある限り、チャンネルは強い対称性を持つ。

We consider the wiretap channel, where the individual channel uses have memory or are influenced by an adversary. We analyze the explicit and computationally efficient construction of information-theoretically secure coding schemes which use the inverse of an extractor and an error-correcting code. These schemes are known to achieve secrecy capacity on a large class of memoryless wiretap channels. We show that this also holds for certain channel types with memory. In particular, they can achieve secrecy capacity on channels where an adversary can pick a sequence of ``states'' governing the channel's behavior, as long as, given every possible state, the channel is strongly symmetric.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# 脳血管のセグメンテーションに関するガイドライン:半監督学習の文脈における不完全アノテーションの管理

Guidelines for Cerebrovascular Segmentation: Managing Imperfect Annotations in the context of Semi-Supervised Learning ( http://arxiv.org/abs/2404.01765v1 )

ライセンス: Link先を確認
Pierre Rougé, Pierre-Henri Conze, Nicolas Passat, Odyssée Merveille, (参考訳) 医用画像のセグメンテーションは画像処理チェーンにおいて必須であり、しばしば予備的な課題であり、ロバストなセグメンテーションアルゴリズムの設計に向けた多くの取り組みを推進している。 教師付き学習法は、十分な量のラベル付きデータを入力した場合に優れた性能を達成する。 しかし、そのようなラベルは通常、非常に時間がかかり、エラーが発生し、製造コストがかかる。 あるいは、半教師付き学習アプローチはラベル付きデータとラベルなしデータの両方を活用する。 特に脳血管のセグメンテーションには有用であり、単一のボリュームのラベル付けには専門家に数時間を要する。 アノテーション不足による課題に加えて、アノテーションの一貫性に関する懸念もある。 脳血管樹のアノテートは本質的に曖昧である。 画像の独立した性質のため、船舶の境界線や極端線はしばしば不明瞭である。 その結果、アノテーションは専門家の主観性と根底にある臨床目的に大きく依存している。 これらの相違は、モデルのセグメンテーションタスクの複雑さを著しく増加させ、その結果を損なう。 したがって、アノテーションプロセスを改善し、より均一なデータセットを構築するために、臨床医に正確なガイドラインを提供することが義務づけられる。 本稿では,脳血管セグメンテーションにおける不完全データと半教師付き学習の文脈における深層学習手法のデータ依存性について検討する。 具体的には、教師なし正規化に基づく最先端の半教師あり手法を比較し、多種多様な量と品質データシナリオでそれらの性能を評価する。 これらの実験に基づいて、脳血管セグメンテーションモデルのアノテーションとトレーニングのガイドラインを提供する。

Segmentation in medical imaging is an essential and often preliminary task in the image processing chain, driving numerous efforts towards the design of robust segmentation algorithms. Supervised learning methods achieve excellent performances when fed with a sufficient amount of labeled data. However, such labels are typically highly time-consuming, error-prone and expensive to produce. Alternatively, semi-supervised learning approaches leverage both labeled and unlabeled data, and are very useful when only a small fraction of the dataset is labeled. They are particularly useful for cerebrovascular segmentation, given that labeling a single volume requires several hours for an expert. In addition to the challenge posed by insufficient annotations, there are concerns regarding annotation consistency. The task of annotating the cerebrovascular tree is inherently ambiguous. Due to the discrete nature of images, the borders and extremities of vessels are often unclear. Consequently, annotations heavily rely on the expert subjectivity and on the underlying clinical objective. These discrepancies significantly increase the complexity of the segmentation task for the model and consequently impair the results. Consequently, it becomes imperative to provide clinicians with precise guidelines to improve the annotation process and construct more uniform datasets. In this article, we investigate the data dependency of deep learning methods within the context of imperfect data and semi-supervised learning, for cerebrovascular segmentation. Specifically, this study compares various state-of-the-art semi-supervised methods based on unsupervised regularization and evaluates their performance in diverse quantity and quality data scenarios. Based on these experiments, we provide guidelines for the annotation and training of cerebrovascular segmentation models.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# クラスインクリメンタルFew-Shotイベント検出

Class-Incremental Few-Shot Event Detection ( http://arxiv.org/abs/2404.01767v1 )

ライセンス: Link先を確認
Kailin Zhao, Xiaolong Jin, Long Bai, Jiafeng Guo, Xueqi Cheng, (参考訳) イベント検出は、情報抽出と知識グラフにおける基本的なタスクの1つである。 しかし、現実的なイベント検出システムは、しばしば新しいイベントクラスを常に扱う必要がある。 これらの新しいクラスは通常、ラベル付けされていない多数のインスタンスに注釈をつけるのに時間がかかり、労力がかかるため、ラベル付けされたインスタンスがいくつかしか持たない。 そこで本稿では,クラスインクリメンタルなイベント検出と呼ばれる新しいタスクを提案する。 それにもかかわらず、このタスクは、古い知識の忘れと新しいクラスオーバーフィッティングという2つの問題に直面している。 本稿では,これらの問題を解決するために,Prompt-KDと呼ばれる新しい知識蒸留法と迅速な学習手法を提案する。 具体的には,従来の知識を忘れる問題に対処するため,Prompt-KDは,すべての学習セッションにおいて,ベースクラスで事前学習された祖先教師モデルを再利用する,注目に基づく多教師知識蒸留フレームワークを開発し,父親教師モデルは適応を通じて現在の学生モデルを導出する。 一方,数発の学習シナリオに対処し,それに対応する新しいクラスオーバーフィッティング問題を緩和するために,Prompt-KDには即時学習機構も備えている。 FewEventとMAVENという2つのベンチマークデータセットに対する大規模な実験は、Prompt-KDの優れた性能を示している。

Event detection is one of the fundamental tasks in information extraction and knowledge graph. However, a realistic event detection system often needs to deal with new event classes constantly. These new classes usually have only a few labeled instances as it is time-consuming and labor-intensive to annotate a large number of unlabeled instances. Therefore, this paper proposes a new task, called class-incremental few-shot event detection. Nevertheless, this task faces two problems, i.e., old knowledge forgetting and new class overfitting. To solve these problems, this paper further presents a novel knowledge distillation and prompt learning based method, called Prompt-KD. Specifically, to handle the forgetting problem about old knowledge, Prompt-KD develops an attention based multi-teacher knowledge distillation framework, where the ancestor teacher model pre-trained on base classes is reused in all learning sessions, and the father teacher model derives the current student model via adaptation. On the other hand, in order to cope with the few-shot learning scenario and alleviate the corresponding new class overfitting problem, Prompt-KD is also equipped with a prompt learning mechanism. Extensive experiments on two benchmark datasets, i.e., FewEvent and MAVEN, demonstrate the superior performance of Prompt-KD.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# テキストに基づくステレオタイプ検出と探索に基づくバイアス評価のための大規模言語モデルの検討

Auditing Large Language Models for Enhanced Text-Based Stereotype Detection and Probing-Based Bias Evaluation ( http://arxiv.org/abs/2404.01768v1 )

ライセンス: Link先を確認
Zekun Wu, Sahan Bulathwela, Maria Perez-Ortiz, Adriano Soares Koshiyama, (参考訳) 近年のLarge Language Models (LLMs) の進歩は、人工知能(AI)の応用において、その存在感を著しく高めている。 しかし、LSMはトレーニングデータからステレオタイプ出力を再現し、さらに悪化させることができた。 この研究は、Multi-Grain Stereotype (MGS)データセットを導入し、性別、人種、職業、宗教、ステレオタイプテキストの51,867のインスタンスを包含し、これまでに公開された複数のステレオタイプ検出データセットを融合して収集した。 ステレオタイプ検出のためのベースラインを確立することを目的とした、さまざまな機械学習アプローチを探求し、様々なアーキテクチャとモデルサイズの言語モデルを微調整し、本研究では、MGSで訓練された英語テキストのための一連のステレオタイプ分類モデルを示す。 我々のステレオタイプ検出器が関連する特徴(人間の常識に合わせて)を捉えているかどうかを理解するために、SHAP、LIME、BertVizなど、さまざまな説明可能なAIツールを活用し、その結果を議論する一連の事例を分析します。 最後に,これまでに提示したステレオタイプ検出器の1つを用いて,テキスト生成タスクにおけるステレオタイプの存在を評価・評価する。 実験の結果, 多次元環境下でのステレオタイプ検出器の訓練は, 複数の単次元分類器を訓練するよりも優れた結果が得られることがわかった。 三 GPT ファミリー LLM の新たなバージョンによるコンテンツにステレオタイプが減少していること。

Recent advancements in Large Language Models (LLMs) have significantly increased their presence in human-facing Artificial Intelligence (AI) applications. However, LLMs could reproduce and even exacerbate stereotypical outputs from training data. This work introduces the Multi-Grain Stereotype (MGS) dataset, encompassing 51,867 instances across gender, race, profession, religion, and stereotypical text, collected by fusing multiple previously publicly available stereotype detection datasets. We explore different machine learning approaches aimed at establishing baselines for stereotype detection, and fine-tune several language models of various architectures and model sizes, presenting in this work a series of stereotypes classifier models for English text trained on MGS. To understand whether our stereotype detectors capture relevant features (aligning with human common sense) we utilise a variety of explanainable AI tools, including SHAP, LIME, and BertViz, and analyse a series of example cases discussing the results. Finally, we develop a series of stereotype elicitation prompts and evaluate the presence of stereotypes in text generation tasks with popular LLMs, using one of our best performing previously presented stereotypes detectors. Our experiments yielded several key findings: i) Training stereotype detectors in a multi-dimension setting yields better results than training multiple single-dimension classifiers.ii) The integrated MGS Dataset enhances both the in-dataset and cross-dataset generalisation ability of stereotype detectors compared to using the datasets separately. iii) There is a reduction in stereotypes in the content generated by GPT Family LLMs with newer versions.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# DNN制御システムの質的・定量的安全性検証の統一化

Unifying Qualitative and Quantitative Safety Verification of DNN-Controlled Systems ( http://arxiv.org/abs/2404.01769v1 )

ライセンス: Link先を確認
Dapeng Zhi, Peixin Wang, Si Liu, Luke Ong, Min Zhang, (参考訳) 深層強化学習技術の急速な進歩は、ディープニューラルネットワーク(DNN)を利用した安全クリティカルシステムの監視を可能にする。 このことは、DNNが制御するシステムに対する認証された安全保証を迅速に確立する必要性を浮き彫りにしている。 既存の検証アプローチのほとんどは定性的アプローチに依存しており、主に到達可能性分析を利用している。 しかしながら、定性的検証は、DNNが制御するシステムでは、その動作がオープンな環境や対向的な環境での動作において確率的傾向を示すため、不十分であることを示す。 本稿では,DNN制御システムの定性的・定量的安全性検証問題を統一する新しい枠組みを提案する。 これは、有効なニューラルバリア証明書(NBC)の合成として検証タスクを定式化することで達成される。 当初、このフレームワークは質的検証を通じてほぼ確実に安全性を保証することを目指している。 定性検証が失敗した場合、定量検証法が実行され、無限時間地平線と有限時間地平線の両方において、確率的安全性の正確な下限と上限が得られる。 NBC の合成を容易にするため,$k$-inductive variant を導入する。 また, シミュレーション誘導によるNBCの訓練手法を考案し, 精度の高い下限と上限の計算における厳密性の実現を目指す。 この手法を$\textsf{UniQQ}$というツールにプロトタイプし、4つの古典的DNN制御システムで有効性を示す。

The rapid advance of deep reinforcement learning techniques enables the oversight of safety-critical systems through the utilization of Deep Neural Networks (DNNs). This underscores the pressing need to promptly establish certified safety guarantees for such DNN-controlled systems. Most of the existing verification approaches rely on qualitative approaches, predominantly employing reachability analysis. However, qualitative verification proves inadequate for DNN-controlled systems as their behaviors exhibit stochastic tendencies when operating in open and adversarial environments. In this paper, we propose a novel framework for unifying both qualitative and quantitative safety verification problems of DNN-controlled systems. This is achieved by formulating the verification tasks as the synthesis of valid neural barrier certificates (NBCs). Initially, the framework seeks to establish almost-sure safety guarantees through qualitative verification. In cases where qualitative verification fails, our quantitative verification method is invoked, yielding precise lower and upper bounds on probabilistic safety across both infinite and finite time horizons. To facilitate the synthesis of NBCs, we introduce their $k$-inductive variants. We also devise a simulation-guided approach for training NBCs, aiming to achieve tightness in computing precise certified lower and upper bounds. We prototype our approach into a tool called $\textsf{UniQQ}$ and showcase its efficacy on four classic DNN-controlled systems.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# 部屋の中の騒々しい象:あなたのアウト・オブ・ディストリビューション・ディテクターは、ラベルのノイズに頑丈か?

A noisy elephant in the room: Is your out-of-distribution detector robust to label noise? ( http://arxiv.org/abs/2404.01775v1 )

ライセンス: Link先を確認
Galadrielle Humblot-Renaux, Sergio Escalera, Thomas B. Moeslund, (参考訳) コンピュータビジョンシステムの安全な配置には、不慣れな画像や予期せぬ画像を検出する能力が不可欠である。 分類の文脈では、モデルのトレーニング領域外の画像を検出するタスクは、アウト・オブ・ディストリビューション(OOD)検出として知られている。 ポストホックなOOD検出手法の開発には研究の関心が高まりつつあるが、基礎となる分類器がクリーンで慎重にキュレートされたデータセットでトレーニングされていない場合、これらの手法がどのように機能するかについては、ほとんど議論されていない。 本研究では,基礎となる分類器をトレーニングするラベルが信頼できない(例えば,クラウドソースやWebスクラッドラベル)という(より現実的な)シナリオにおいて,最先端のOOD検出方法20について詳しく検討する。 異なるデータセット、ノイズタイプ、レベル、アーキテクチャ、チェックポインティング戦略にわたる大規模な実験は、クラスラベルノイズがOOD検出に与える影響についての洞察を与え、誤って分類されたIDサンプルとOODサンプルの分離が不十分であることを示す。 コード:https://github.com/glhr/ood-labelnoise

The ability to detect unfamiliar or unexpected images is essential for safe deployment of computer vision systems. In the context of classification, the task of detecting images outside of a model's training domain is known as out-of-distribution (OOD) detection. While there has been a growing research interest in developing post-hoc OOD detection methods, there has been comparably little discussion around how these methods perform when the underlying classifier is not trained on a clean, carefully curated dataset. In this work, we take a closer look at 20 state-of-the-art OOD detection methods in the (more realistic) scenario where the labels used to train the underlying classifier are unreliable (e.g. crowd-sourced or web-scraped labels). Extensive experiments across different datasets, noise types & levels, architectures and checkpointing strategies provide insights into the effect of class label noise on OOD detection, and show that poor separation between incorrectly classified ID samples vs. OOD samples is an overlooked yet important limitation of existing methods. Code: https://github.com/glhr/ood-labelnoise
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# Fibonacci Anyonsを用いたトポロジカル量子計算への対角コセットアプローチ

Diagonal Coset Approach to Topological Quantum Computation with Fibonacci Anyons ( http://arxiv.org/abs/2404.01779v1 )

ライセンス: Link先を確認
Lachezar S. Georgiev, Ludmil Hadjiivanov, Grigori Matein, (参考訳) フィボナッチ・アロンに基づく位相量子計算のための有望な共形場理論実現スキームについて検討し, 補充係数$\nu=12/5$で第2ランダウの準粒子励起$\mathbb{Z}_3$パラフェルミオン分数量子ホール状態において, 準粒子励起として実現されると考えられる。 これらのエノンは非アベリア式であり、普遍的な位相量子計算が可能であることが知られている。 量子情報は、これらの非アベリア異性体の対の融合チャネルに符号化され、これらの系のトポロジカルな性質によってノイズやデコヒーレンスから保護され、量子ゲートはこれらの異性体のブレイディングによって実現される。 ここでは、$n+2$ Fibonacci anyon の観点から、$n$-qubit 位相量子レジスタの実装を提案する。 任意の交換から生じる行列、すなわち1量子ビットに対するブレイド群の生成物は、多数の電子孔の座標波関数と、さらに$\mathbb{Z}_3$パラフェルミオン2次元共形場理論において相関関数として表される4つのフィボナッチアロンから導かれる。 4つ以上のエノンに対するブレイド群の表現は、ブレイディングの前にエノンのペアを融合させることで得られ、最終的にはシステムを4エノンに還元する。

We investigate a promising conformal field theory realization scheme for topological quantum computation based on the Fibonacci anyons, which are believed to be realized as quasiparticle excitations in the $\mathbb{Z}_3$ parafermion fractional quantum Hall state in the second Landau level with filling factor $\nu=12/5$. These anyons are non-Abelian and are known to be capable of universal topological quantum computation. The quantum information is encoded in the fusion channels of pairs of such non-Abelian anyons and is protected from noise and decoherence by the topological properties of these systems.The quantum gates are realized by braiding of these anyons. We propose here an implementation of the $n$-qubit topological quantum register in terms of $2n+2$ Fibonacci anyons. The matrices emerging from the anyon exchanges, i.e. the generators of the braid group for one qubit are derived from the coordinate wave functions of a large number of electron holes and 4 Fibonacci anyons which can furthermore be represented as correlation functions in $\mathbb{Z}_3$ parafermionic two-dimensional conformal field theory. The representations of the braid groups for more than 4 anyons are obtained by fusing pairs of anyons before braiding, thus reducing eventually the system to 4 anyons.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# CSST強度レンズの準備:中国サーベイ宇宙望遠鏡(CSST)による多色イメージングサーベイにおける強レンズ検出フレームワーク

CSST Strong Lensing Preparation: a Framework for Detecting Strong Lenses in the Multi-color Imaging Survey by the China Survey Space Telescope (CSST) ( http://arxiv.org/abs/2404.01780v1 )

ライセンス: Link先を確認
Xu Li, Ruiqi Sun, Jiameng Lv, Peng Jia, Nan Li, Chengliang Wei, Zou Hu, Xinzhong Er, Yun Chen, Zhang Ban, Yuedong Fang, Qi Guo, Dezi Liu, Guoliang Li, Lin Lin, Ming Li, Ran Li, Xiaobo Li, Yu Luo, Xianmin Meng, Jundan Nie, Zhaoxiang Qi, Yisheng Qiu, Li Shao, Hao Tian, Lei Wang, Wei Wang, Jingtian Xian, Youhua Xu, Tianmeng Zhang, Xin Zhang, Zhimin Zhou, (参考訳) 強い重力レンズはダークマターとダークエネルギー特性を研究する強力なツールである。 大規模なスカイサーベイの出現により、何十億もの天体からそれらを抽出するための効率的なツールを必要とする、前例のないスケールで強力なレンズシステムを発見することができる。 既存のメインストリームのレンズフィニングツールは、機械学習アルゴリズムに基づいており、カットアウトされた銀河に適用されている。 しかし、CSSTによる光サーベイの設計と調査戦略によれば、複数のバンドによるカットアウトの準備にはかなりの努力が必要である。 これらの課題を克服するため,画像全体に強力なレンズシステムを求めるスライディングウインドウ技術を用いた階層型ビジュアルトランスフォーマに基づくフレームワークを開発した。 さらに、強いレンズシステムのマルチカラー画像が、その物理的特性に関する洞察を与えることができることを踏まえ、我々のフレームワークは、任意の数のチャネルを持つ画像中の強いレンズシステムを特定するために特別に設計されている。 CosmoDC2 というセミアナリシスモデルに基づくCSSTモックデータを用いて,本フレームワークは,それぞれ0.98 と 0.90 の精度とリコール率を達成する。 実観測における本手法の有効性を評価するため, DESI Legacy Imaging Surveys と Euclid Early Release Observations のメディア画像のサブセットに適用した。 61個のレンズシステム候補が得られた。 しかし、シミュレーション中の銀河形態学の簡易な仮定から生じる偽陽性も同定した。 このことは、我々のアプローチの実践的限界を浮き彫りにして、将来の改善への潜在的な道のりを同時に強調する。

Strong gravitational lensing is a powerful tool for investigating dark matter and dark energy properties. With the advent of large-scale sky surveys, we can discover strong lensing systems on an unprecedented scale, which requires efficient tools to extract them from billions of astronomical objects. The existing mainstream lens-finding tools are based on machine learning algorithms and applied to cut-out-centered galaxies. However, according to the design and survey strategy of optical surveys by CSST, preparing cutouts with multiple bands requires considerable efforts. To overcome these challenges, we have developed a framework based on a hierarchical visual Transformer with a sliding window technique to search for strong lensing systems within entire images. Moreover, given that multi-color images of strong lensing systems can provide insights into their physical characteristics, our framework is specifically crafted to identify strong lensing systems in images with any number of channels. As evaluated using CSST mock data based on an Semi-Analytic Model named CosmoDC2, our framework achieves precision and recall rates of 0.98 and 0.90, respectively. To evaluate the effectiveness of our method in real observations, we have applied it to a subset of images from the DESI Legacy Imaging Surveys and media images from Euclid Early Release Observations. 61 new strong lensing system candidates are discovered by our method. However, we also identified false positives arising primarily from the simplified galaxy morphology assumptions within the simulation. This underscores the practical limitations of our approach while simultaneously highlighting potential avenues for future improvements.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# 人間はドメインを識別できるのか?

Can Humans Identify Domains? ( http://arxiv.org/abs/2404.01785v1 )

ライセンス: Link先を確認
Maria Barrett, Max Müller-Eberstein, Elisa Bassignana, Amalie Brogaard Pauli, Mike Zhang, Rob van der Goot, (参考訳) テキストドメインは、下流モデルのパフォーマンスに影響を及ぼすため、自然言語処理(NLP)コミュニティにおいて重要な特性である。 しかし、概念そのものは緩やかに定義されており、実際には、ジャンル、話題、媒体、文書のスタイルなど、あらゆる非タイムロジカルな性質を指している。 本研究は,本質的なテクスト特性,特にジャンル(コミュニケーション目的)と話題(対象物)の概念を識別する上で,人間の習熟によるドメインの中核的概念について考察する。 我々は、GUMデータセット(Zeldes, 2017)の9.1k文の1文と、11のジャンル(ソースタイプ)の1つに対するより大きな文脈(散文)アノテーションと、Dwey Decimalライブラリ分類システム(Dewey, 1979)によるトピック/サブトピック(トピック/サブトピック)のコレクションを、粒度が増大する10/100の階層的なトピックで構成されている。 各インスタンスには3つのアノテーションがアノテートされ、合計32.7kのアノテーションにより、人間の不一致のレベルと各アノテーションタスクの相対的困難度を調べることができる。 文レベルでは少なくとも0.53カッパ、散文レベルでは0.66カッパであり、NLPのドメインが多用されているにもかかわらず、それらを定義する方法に関する人間のコンセンサスはほとんどない。 同じタスクを実行するために分類器を訓練することにより、この不確実性はNLPモデルにも及ぶことが分かる。

Textual domain is a crucial property within the Natural Language Processing (NLP) community due to its effects on downstream model performance. The concept itself is, however, loosely defined and, in practice, refers to any non-typological property, such as genre, topic, medium or style of a document. We investigate the core notion of domains via human proficiency in identifying related intrinsic textual properties, specifically the concepts of genre (communicative purpose) and topic (subject matter). We publish our annotations in *TGeGUM*: A collection of 9.1k sentences from the GUM dataset (Zeldes, 2017) with single sentence and larger context (i.e., prose) annotations for one of 11 genres (source type), and its topic/subtopic as per the Dewey Decimal library classification system (Dewey, 1979), consisting of 10/100 hierarchical topics of increased granularity. Each instance is annotated by three annotators, for a total of 32.7k annotations, allowing us to examine the level of human disagreement and the relative difficulty of each annotation task. With a Fleiss' kappa of at most 0.53 on the sentence level and 0.66 at the prose level, it is evident that despite the ubiquity of domains in NLP, there is little human consensus on how to define them. By training classifiers to perform the same task, we find that this uncertainty also extends to NLP models.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# 事前学習GPT-2モデルを用いたAIベースのテキスト生成手法

Generative AI-Based Text Generation Methods Using Pre-Trained GPT-2 Model ( http://arxiv.org/abs/2404.01786v1 )

ライセンス: Link先を確認
Rohit Pandey, Hetvi Waghela, Sneha Rakshit, Aparna Rangari, Anjali Singh, Rahul Kumar, Ratnadeep Ghosal, Jaydip Sen, (参考訳) この研究は自動テキスト生成の領域を掘り下げ、伝統的な決定論的アプローチからより現代的な確率的手法まで様々な手法を探求した。 欲求探索、ビームサーチ、トップクサンプリング、トップpサンプリング、コントラスト探索、および局所的な典型探索の分析を通じて、この研究は各手法の強み、弱み、および潜在的な応用に関する貴重な洞察を与えてきた。 各テキスト生成法は,いくつかの標準指標を用いて評価し,提案手法の性能について比較研究を行った。 最後に,自動テキスト生成分野における今後の研究の方向性も明らかにした。

This work delved into the realm of automatic text generation, exploring a variety of techniques ranging from traditional deterministic approaches to more modern stochastic methods. Through analysis of greedy search, beam search, top-k sampling, top-p sampling, contrastive searching, and locally typical searching, this work has provided valuable insights into the strengths, weaknesses, and potential applications of each method. Each text-generating method is evaluated using several standard metrics and a comparative study has been made on the performance of the approaches. Finally, some future directions of research in the field of automatic text generation are also identified.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# Kerrカーネル量子機械学習マシン

A Kerr kernel quantum learning machine ( http://arxiv.org/abs/2404.01787v1 )

ライセンス: Link先を確認
Carolyn Wood, Sally Shrapnel, G J Milburn, (参考訳) カーネル法は、高次元特徴量(ヒルベルト)空間で情報を処理する方法において、量子コンピューティングと類似しているため、量子機械学習に現在関心がある。 カーネルは古典的に計算できない場合に特に利点があると考えられており、特定の物理機械で効率的に生成できるならば、不可分に非古典的要素を持つカーネル行列が望ましい。 ケラ非線形性は、普遍連続変数(CV)量子計算へのルートとして知られており、量子機械学習においてこの役割を果たす可能性がある。 超伝導量子回路に基づく量子ハードウェアカーネルの実装手法を提案する。 このスキームは量子ビットや量子回路を使用せず、カー結合モードのアナログ特性を利用する。 我々のアプローチは、確率的量子制御により、エンジニアされたデバイスに直接量子確率をサンプリングすることに基づくアナログ機械学習スキームの増加に類似している。

Kernel methods are of current interest in quantum machine learning due to similarities with quantum computing in how they process information in high-dimensional feature (Hilbert) spaces. Kernels are believed to offer particular advantages when they cannot be computed classically, so a kernel matrix with indisputably nonclassical elements is desirable provided it can be generated efficiently in a particular physical machine. Kerr nonlinearities, known to be a route to universal continuous variable (CV) quantum computation, may be able to play this role for quantum machine learning. We propose a quantum hardware kernel implementation scheme based on superconducting quantum circuits. The scheme does not use qubits or quantum circuits but rather exploits the analogue features of Kerr coupled modes. Our approach is more akin to the growing number of analog machine learning schemes based on sampling quantum probabilities directly in an engineered device by stochastic quantum control.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# マイクロサービスベースのシステムの特徴データセット

A Feature Dataset of Microservices-based Systems ( http://arxiv.org/abs/2404.01789v1 )

ライセンス: Link先を確認
Weipan Yang, Yongchao Xing, Yiming Lyu, Zhihao Liang, Zhiying Tu, (参考訳) マイクロサービスアーキテクチャは、サービス指向ソフトウェア産業において、支配的なアーキテクチャスタイルになっています。 マイクロサービスの設計と開発における粗悪なプラクティスは、マイクロサービスの悪臭と呼ばれる。 マイクロサービスの悪臭の研究では、これらの悪臭の検出はマイクロサービスの特徴データに依存する。 しかし、適切なオープンソースのマイクロサービス機能データセットがない。 このようなデータセットの可用性は、予期しない悪臭の検出に寄与する可能性がある。 この研究ギャップに対処するため,本稿では,Spring Cloudを利用したオープンソースのマイクロサービスシステムを多数集める。 さらに、Spring Bootスタイルのマイクロサービスのアーキテクチャとインタラクションに基づいて、機能メトリクスが確立されます。 抽出プログラムも開発されている。 このプログラムは収集されたオープンソースマイクロサービスシステムに適用され、必要な情報を抽出し、手作業による検証を行い、Spring Cloudを使用してマイクロサービスシステムに特化したオープンソース機能データセットを作成する。 データセットはCSVファイルを通じて利用できる。 抽出プログラムとデータセットの両方が、マイクロサービスの悪臭の研究に寄与する可能性があると考えている。

Microservice architecture has become a dominant architectural style in the service-oriented software industry. Poor practices in the design and development of microservices are called microservice bad smells. In microservice bad smells research, the detection of these bad smells relies on feature data from microservices. However, there is a lack of an appropriate open-source microservice feature dataset. The availability of such datasets may contribute to the detection of microservice bad smells unexpectedly. To address this research gap, this paper collects a number of open-source microservice systems utilizing Spring Cloud. Additionally, feature metrics are established based on the architecture and interactions of Spring Boot style microservices. And an extraction program is developed. The program is then applied to the collected open-source microservice systems, extracting the necessary information, and undergoing manual verification to create an open-source feature dataset specific to microservice systems using Spring Cloud. The dataset is made available through a CSV file. We believe that both the extraction program and the dataset have the potential to contribute to the study of micro-service bad smells.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# 埋立処分廃棄物の超溶解分析

Super-Resolution Analysis for Landfill Waste Classification ( http://arxiv.org/abs/2404.01790v1 )

ライセンス: Link先を確認
Matias Molina, Rita P. Ribeiro, Bruno Veloso, João Gama, (参考訳) 違法な埋立地は環境、経済、公衆衛生への影響から重要な問題である。 本研究は環境犯罪監視に航空画像を利用する。 人工知能とコンピュータビジョンの進歩は有望だが、課題は、高解像度の文献データセットを使用してモデルをトレーニングし、低解像度の画像にオープンアクセスすることにある。 実質的な品質差と限定的なアノテーションを考慮すると、これらの領域にわたるモデルの適応性について検討する。 廃棄物検出アルゴリズムの総合的な評価の必要性から, 不法埋立地の拡散対策評価として, 画像解像度の違いが廃棄物分類に与える影響を分析するために, クロスドメイン分類と超高解像度化を提唱している。 画像品質の向上による性能向上が観察されたが, モデル感度に影響を及ぼし, 慎重にしきい値の微調整が必要であった。

Illegal landfills are a critical issue due to their environmental, economic, and public health impacts. This study leverages aerial imagery for environmental crime monitoring. While advances in artificial intelligence and computer vision hold promise, the challenge lies in training models with high-resolution literature datasets and adapting them to open-access low-resolution images. Considering the substantial quality differences and limited annotation, this research explores the adaptability of models across these domains. Motivated by the necessity for a comprehensive evaluation of waste detection algorithms, it advocates cross-domain classification and super-resolution enhancement to analyze the impact of different image resolutions on waste classification as an evaluation to combat the proliferation of illegal landfills. We observed performance improvements by enhancing image quality but noted an influence on model sensitivity, necessitating careful threshold fine-tuning.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# 模擬ゲーム: モデルベースおよび模擬学習による深層強化学習ハイブリッド

Imitation Game: A Model-based and Imitation Learning Deep Reinforcement Learning Hybrid ( http://arxiv.org/abs/2404.01794v1 )

ライセンス: Link先を確認
Eric MSP Veith, Torben Logemann, Aleksandr Berezin, Arlena Wellßow, Stephan Balduin, (参考訳) 深層強化学習に基づく自律学習システムは、レジリエンスで効率的なサイバー物理エネルギーシステムを構築するための基盤として、しっかりと確立されてきた。 しかし、現在のほとんどのアプローチは、2つの異なる問題に悩まされている。 ソフトアクター批判のような近代的なモデルフリーアルゴリズムは、意味のあるポリシーを学ぶのに大量のサンプルを必要とし、概念の漂流に対して後退する(例えば、破滅的な忘れ)。 本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。

Autonomous and learning systems based on Deep Reinforcement Learning have firmly established themselves as a foundation for approaches to creating resilient and efficient Cyber-Physical Energy Systems. However, most current approaches suffer from two distinct problems: Modern model-free algorithms such as Soft Actor Critic need a high number of samples to learn a meaningful policy, as well as a fallback to ward against concept drifts (e. g., catastrophic forgetting). In this paper, we present the work in progress towards a hybrid agent architecture that combines model-based Deep Reinforcement Learning with imitation learning to overcome both problems.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# PATCH -- 大規模言語モデルの心理学的補助的ベンチマーキング--数学の習熟度を事例として

PATCH -- Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Mathematics Proficiency ( http://arxiv.org/abs/2404.01799v1 )

ライセンス: Link先を確認
Qixiang Fang, Daniel L. Oberski, Dong Nguyen, (参考訳) 大規模(マルチモーダル)言語モデル(LLM)の既存のベンチマークの多くは、LLMの学術的習熟度の測定に重点を置いており、多くの場合、モデルパフォーマンスと人間のテストテイカーの比較にも関心がある。 これらのベンチマークはLSMの開発に鍵があることが証明されているが、疑わしい測定品質(例えば、信頼できる方法で何を計測するのか?)、アイテムレベルの品質評価の欠如(例えば、他のものよりも重要か難しいか?)、不明瞭な人口基準(例えば、モデルを比較できるのか? これらの課題に対応するため,学術的習熟度などの潜伏変数の測定を専門とする心理測定学の知識をLLMベンチマークに活用することを提案する。 主な貢献は3つある。 まず, LLM の心理学的アシステッドベンチマーキングのための新しいフレームワークである PATCH を紹介する。 PATCHは上記の制限に対処し、LLMベンチマーク研究の新しい方向性を示す。 第2に,第8級数学における GPT-4 と Gemini-Pro-Vision の習熟度を56人に対して測定し,PATCH を実装した。 心理測定に基づくアプローチを採用すると、既存のベンチマークプラクティスに基づく評価結果と異なる評価結果が得られることを示す。 第3に,小学校数学・理科におけるLLM習熟度の測定と比較を支援する4つのデータセットを人間集団に対してリリースする。

Many existing benchmarks of large (multimodal) language models (LLMs) focus on measuring LLMs' academic proficiency, often with also an interest in comparing model performance with human test takers. While these benchmarks have proven key to the development of LLMs, they suffer from several limitations, including questionable measurement quality (e.g., Do they measure what they are supposed to in a reliable way?), lack of quality assessment on the item level (e.g., Are some items more important or difficult than others?) and unclear human population reference (e.g., To whom can the model be compared?). In response to these challenges, we propose leveraging knowledge from psychometrics - a field dedicated to the measurement of latent variables like academic proficiency - into LLM benchmarking. We make three primary contributions. First, we introduce PATCH: a novel framework for Psychometrics-AssisTed benCHmarking of LLMs. PATCH addresses the aforementioned limitations, presenting a new direction for LLM benchmark research. Second, we implement PATCH by measuring GPT-4 and Gemini-Pro-Vision's proficiency in 8th grade mathematics against 56 human populations. We show that adopting a psychometrics-based approach yields evaluation outcomes that diverge from those based on existing benchmarking practices. Third, we release 4 datasets to support measuring and comparing LLM proficiency in grade school mathematics and science against human populations.
翻訳日:2024-04-03 17:09:01 公開日:2024-04-02
# ChatGPTを用いた科学論文の調味料の感性分析:可能性バイアスと利害対立の同定

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest ( http://arxiv.org/abs/2404.01800v1 )

ライセンス: Link先を確認
Walid Hariri, (参考訳) 科学論文は、知識を推進し、研究の方向性を伝える上で重要な役割を担っている。 科学的記事を評価する上で重要な側面は引用の分析であり、引用された作品の影響と受容についての洞察を提供する。 本稿では,大規模言語モデル,特にChatGPTの科学的論文における引用の包括的感情分析における革新的利用について紹介する。 高度な自然言語処理(NLP)技術を活用することで、ChatGPTは引用のニュアンスな肯定性や否定性を識別し、引用された作品の受信と影響に関する洞察を提供する。 さらに、ChatGPTの能力は、引用に対する潜在的なバイアスや関心の対立を検出し、科学的文献評価の客観性と信頼性を高める。 本研究は,学術研究における引用分析の強化と整合性向上における人工知能(AI)を活用したツールの変容の可能性を示す。

Scientific articles play a crucial role in advancing knowledge and informing research directions. One key aspect of evaluating scientific articles is the analysis of citations, which provides insights into the impact and reception of the cited works. This article introduces the innovative use of large language models, particularly ChatGPT, for comprehensive sentiment analysis of citations within scientific articles. By leveraging advanced natural language processing (NLP) techniques, ChatGPT can discern the nuanced positivity or negativity of citations, offering insights into the reception and impact of cited works. Furthermore, ChatGPT's capabilities extend to detecting potential biases and conflicts of interest in citations, enhancing the objectivity and reliability of scientific literature evaluation. This study showcases the transformative potential of artificial intelligence (AI)-powered tools in enhancing citation analysis and promoting integrity in scholarly research.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# EventSleep: イベントカメラによる睡眠行動認識

EventSleep: Sleep Activity Recognition with Event Cameras ( http://arxiv.org/abs/2404.01801v1 )

ライセンス: Link先を確認
Carlos Plou, Nerea Gallego, Alberto Sabater, Eduardo Montijano, Pablo Urcola, Luis Montesano, Ruben Martinez-Cantin, Ana C. Murillo, (参考訳) イベントカメラは、そのユニークな性質のため、暗い環境でのアクティビティ認識に有望な技術である。 しかし、低照度条件下での実際のイベントカメラデータセットは依然として不足しており、この種の問題を解決するためのアプローチの数も制限されており、多くのアプリケーションにおいてこの技術の可能性を妨げることになる。 我々は、このギャップに対処するための新しいデータセットと方法論であるEventSleepを紹介し、非常に関連する医療応用のためのイベントカメラの適合性、睡眠障害分析のための睡眠モニタリングについて研究する。 データセットには、睡眠中に発生する共通の動きをエミュレートする同期イベントと赤外線記録が含まれており、暗黒環境でのアクティビティ認識のための新しい挑戦的でユニークなデータセットを提供する。 我々の新しいパイプラインは、これらの困難な条件下で高い精度を達成でき、医療応用の基礎となる予測の堅牢性を高めるためにベイズ的アプローチ(ラプラスアンサンブル)を取り入れています。 我々の研究は、イベントカメラに対するベイズニューラルネットワークの最初の応用であり、Laplaceアンサンブルを現実的な問題に初めて使用し、また、新しいアプリケーション領域におけるイベントカメラの可能性、すなわち現在の睡眠評価手順を強化するために初めて実証する。 活動認識の結果は、暗黒環境下でのイベントカメラの可能性、睡眠時の活動認識能力と堅牢性、および暗黒環境へのイベントデータ前処理技術の適応としての課題を浮き彫りにした。

Event cameras are a promising technology for activity recognition in dark environments due to their unique properties. However, real event camera datasets under low-lighting conditions are still scarce, which also limits the number of approaches to solve these kind of problems, hindering the potential of this technology in many applications. We present EventSleep, a new dataset and methodology to address this gap and study the suitability of event cameras for a very relevant medical application: sleep monitoring for sleep disorders analysis. The dataset contains synchronized event and infrared recordings emulating common movements that happen during the sleep, resulting in a new challenging and unique dataset for activity recognition in dark environments. Our novel pipeline is able to achieve high accuracy under these challenging conditions and incorporates a Bayesian approach (Laplace ensembles) to increase the robustness in the predictions, which is fundamental for medical applications. Our work is the first application of Bayesian neural networks for event cameras, the first use of Laplace ensembles in a realistic problem, and also demonstrates for the first time the potential of event cameras in a new application domain: to enhance current sleep evaluation procedures. Our activity recognition results highlight the potential of event cameras under dark conditions, and its capacity and robustness for sleep activity recognition, and open problems as the adaptation of event data pre-processing techniques to dark environments.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# 高速ユニタリダイナミクスを用いた断熱除去のための明示的式

Explicit formulas for adiabatic elimination with fast unitary dynamics ( http://arxiv.org/abs/2404.01802v1 )

ライセンス: Link先を確認
Angela Riva, Alain Sarlette, Pierre Rouchon, (参考訳) 開量子系における高速減衰自由度のいわゆる「アディアバティック消去」は、時間スケールの分離において一連の展開によって行うことができる。 関連する計算は、残りの自由度(中心多様体)が単に遅くなるのではなく、高速なユニタリダイナミクスに従う場合、はるかに困難である。 本稿では, シルヴェスター方程式と随伴ダイナミクスを用いた定式化が, 身体的関心の設定のために高次で体系的, 明示的な表現をもたらすかを明らかにする。

The so-called ``adiabatic elimination'' of fast decaying degrees of freedom in open quantum systems can be performed with a series expansion in the timescale separation. The associated computations are significantly more difficult when the remaining degrees of freedom (center manifold) follow fast unitary dynamics instead of just being slow. This paper highlights how a formulation with Sylvester's equation and with adjoint dynamics leads to systematic, explicit expressions at high orders for settings of physical interest.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# ログインと認証セキュリティのためのシステムソリューション:デュアルパスワードログイン認証機構

Systematic Solutions to Login and Authentication Security: A Dual-Password Login-Authentication Mechanism ( http://arxiv.org/abs/2404.01803v1 )

ライセンス: Link先を確認
Yun Su, Mo Xi, (参考訳) 認証盗難とリモート攻撃は、認証メカニズムに対する最も深刻な脅威である。 問題は、そのような行動を制御できないことだ。 しかし、パスワードがユーザーの秘密を含まない場合、それを盗むことは無駄である。 不正な入力が無効になった場合、リモートアタックは無効にできる。 これにより、アカウントへのクレデンシャルシークレットと入力フィールドを制御することができる。 パスワードを暗号化する代わりに、ユーザーが選択した秘密のログインパスワードを不正なパスワードに変換する、デュアルパスワードのログイン認証機構を設計する。 その後、認証パスワードの認証可能機能と、認証パスワードのタイプ可能な機能とを無効又は無効にすることができ、クレデンシャル盗難やリモート攻撃を防止できる。 したがって、ユーザビリティ・セキュリティのトレードオフとパスワードの再利用が解決され、認証パスワードのローカルストレージはもはや不要になる。 さらに重要なのは、パスワードコンバータがオープンハッシュアルゴリズムとして機能するため、その中間要素はログインプロセスの真にユニークなアイデンティティを定義するために使用でき、新しいデュアルID認証を実装することができる。 特に、これらの要素は隠蔽され、アクセス不能であり、あらゆる個人情報から独立しているため、許可されていない入力を識別し無効にするための完全な偽造不可能なプロセス識別子を定義するのに使うことができる。

Credential theft and remote attacks are the most serious threats to authentication mechanisms. The crux of the problems is that we cannot control such behaviors. However, if a password does not contain user's secrets, stealing it is useless. If unauthorized inputs are disabled, the remote attacks can be invalidated. Thereby, credential secrets and input fields to our accounts can be controlled. Rather than encrypting passwords, we design a dual-password login-authentication mechanism, where a user-selected secret-free login password is converted into an untypable authentication password. Subsequently, the authenticatable functionality of the login password and the typable functionality of the authentication password may be disabled or invalidated so that the credential theft and remote attacks can be prevented. Thus, the usability-security trade-off and password reuse are resolved; local storage of authentication passwords is no longer necessary. More importantly, the password converter acts as an open hash algorithm, meaning that its intermediate elements can be used to define a truly unique identity of the login process to implement a novel dual-identity authentication. Particularly, the elements are concealed, inaccessible, and independent of any personal information, and therefore can be used to define a perfect unforgeable process identifier to identify and disable the unauthorized inputs.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# Directed Information Bottleneckによるニューロモルフィック無線デバイスエッジ共振

Neuromorphic Wireless Device-Edge Co-Inference via the Directed Information Bottleneck ( http://arxiv.org/abs/2404.01804v1 )

ライセンス: Link先を確認
Yuzhen Ke, Zoran Utkovski, Mehdi Heshmati, Osvaldo Simeone, Johannes Dommel, Slawomir Stanczak, (参考訳) 次世代無線システムの重要なユースケースは、デバイスとエッジサーバの間でセマンティックタスクが分割されるデバイスエッジ共推論である。 リモートサーバは、デバイスから受信した情報に基づいて、所定のタスクを完了する。 デバイス上では処理と通信を可能な限り効率的に行う必要があり、エッジではより多くのコンピューティングリソースが利用可能である。 このようなシナリオに対処するために、ニューロモルフィック無線デバイスエッジコ推論と呼ばれる新しいシステムソリューションを導入する。 それによると、このデバイスはニューロモルフィックハードウェアを使用してセンシング、処理、通信ユニットを動作させ、サーバは従来の無線およびコンピューティング技術を使用している。 提案システムは,通信オーバーヘッドの低減を目標とした送信者中心の情報理論的基準を用いて設計され,関心のエンド・ツー・エンド・エンド・セマンティック・タスクに最も関連性の高い情報を保持する。 標準データセットの数値計算により提案したアーキテクチャが検証され,予備的なテストベッドの実現が報告される。

An important use case of next-generation wireless systems is device-edge co-inference, where a semantic task is partitioned between a device and an edge server. The device carries out data collection and partial processing of the data, while the remote server completes the given task based on information received from the device. It is often required that processing and communication be run as efficiently as possible at the device, while more computing resources are available at the edge. To address such scenarios, we introduce a new system solution, termed neuromorphic wireless device-edge co-inference. According to it, the device runs sensing, processing, and communication units using neuromorphic hardware, while the server employs conventional radio and computing technologies. The proposed system is designed using a transmitter-centric information-theoretic criterion that targets a reduction of the communication overhead, while retaining the most relevant information for the end-to-end semantic task of interest. Numerical results on standard data sets validate the proposed architecture, and a preliminary testbed realization is reported.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# 有理値と覚醒順序分類を組み合わせたテキスト感情予測の改良

Improved Text Emotion Prediction Using Combined Valence and Arousal Ordinal Classification ( http://arxiv.org/abs/2404.01805v1 )

ライセンス: Link先を確認
Michael Mitsios, Georgios Vamvoukakis, Georgia Maniati, Nikolaos Ellinas, Georgios Dimitriou, Konstantinos Markopoulos, Panos Kakoulidis, Alexandra Vioni, Myrsini Christidou, Junkwang Oh, Gunu Jho, Inchul Hwang, Georgios Vardaxoglou, Aimilios Chalamandaris, Pirros Tsiakoulis, Spyros Raptis, (参考訳) 近年,共感的人間とコンピュータのインタラクションシステムの開発において,感情検出が重要な役割を担っている。 本稿では,テキストから感情を分類する手法を紹介し,様々な感情の相違点と相違点を認識・区別する。 最初は、標準的な感情分類のためのトランスフォーマーベースモデルをトレーニングし、最先端のパフォーマンスを達成することでベースラインを確立する。 すべての誤分類が、感情階級間で知覚上の類似点があるため、同じ重要性を持つわけではないと我々は主張する。 そこで,従来の分類モデルから正規分類モデルにシフトすることで,感情のラベル付け問題を再定義する。 最後に,2次元の感情空間において,有声度と覚醒度の両方を考慮した順序分類を行う手法を提案する。 その結果,本手法は感情予測の精度を向上するだけでなく,誤分類の場合の誤りの程度を著しく低減することがわかった。

Emotion detection in textual data has received growing interest in recent years, as it is pivotal for developing empathetic human-computer interaction systems. This paper introduces a method for categorizing emotions from text, which acknowledges and differentiates between the diversified similarities and distinctions of various emotions. Initially, we establish a baseline by training a transformer-based model for standard emotion classification, achieving state-of-the-art performance. We argue that not all misclassifications are of the same importance, as there are perceptual similarities among emotional classes. We thus redefine the emotion labeling problem by shifting it from a traditional classification model to an ordinal classification one, where discrete emotions are arranged in a sequential order according to their valence levels. Finally, we propose a method that performs ordinal classification in the two-dimensional emotion space, considering both valence and arousal scales. The results show that our approach not only preserves high accuracy in emotion prediction but also significantly reduces the magnitude of errors in cases of misclassification.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# Software-Defined Cryptography: 暗号のアジリティ設計の特徴

Software-Defined Cryptography: A Design Feature of Cryptographic Agility ( http://arxiv.org/abs/2404.01808v1 )

ライセンス: Link先を確認
Jihoon Cho, Changhoon Lee, Eunkyung Kim, Jieun Lee, Beumjin Cho, (参考訳) 暗号のアジリティ(英: Cryptographic agility, 英: Cryptographic-agility)は、新しい暗号アルゴリズムと標準へのアジャイルアップデートを可能にする設計機能である。 本稿では,暗号処理の前提条件について検討し,その望まれる設計特徴について述べる。 より具体的には、広く展開されているサイバーセキュリティパラダイム、すなわちゼロ信頼の設計特性を調査し、その設計特徴を暗号化管理の可視性と自動化を達成する。

Cryptographic agility, or crypto-agility, is a design feature that enables agile updates to new cryptographic algorithms and standards without the need to modify or replace the surrounding infrastructure. This paper examines the prerequisites for crypto-agility and proposes its desired design feature. More specifically, we investigate the design characteristics of widely deployed cybersecurity paradigms, i.e., zero trust, and apply its design feature to crypto-agility, achieving greater visibility and automation in cryptographic management.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# 新たなステレオビューによるガウススプラッティングの表面再構成

Surface Reconstruction from Gaussian Splatting via Novel Stereo Views ( http://arxiv.org/abs/2404.01810v1 )

ライセンス: Link先を確認
Yaniv Wolf, Amit Bracha, Ron Kimmel, (参考訳) 近年, 正確なシーン表現のための効率的な手法として, 放射場描画のためのガウススメッティング法が登場している。 3次元ガウス要素の雲の位置、大きさ、色、形状を最適化し、投影後の視覚的に一致させる。 しかし、ガウス要素が形状境界に近接しているにもかかわらず、現場の物体の直接的な表面再構成は困難である。 本稿では,ガウススプラッティングモデルを用いた表面再構成手法を提案する。 表面再構成の先駆けとしてガウス元素の位置に頼るのではなく、3DGSの優れたノベルビュー合成能力を活用する。 そこで我々はガウススプラッティングモデルを用いて,ステレオマッチング法を用いて深度プロファイルを抽出するステレオキャリブレーションされた新しいビューのペアを描画する。 抽出したRGB-D画像を幾何学的に一貫した曲面に結合する。 結果として得られた再構成はより正確で、ガウススプラッティングモデルからの表面再構成を行う他の方法と比較して細部が分かるが、他の表面再構成法に比べて計算時間が大幅に短い。 提案手法をスマートフォンで撮影し,より優れた再現能力を示すため,広範に実験を行った。 さらに, 提案手法をタンク・アンド・テンプルのベンチマークで検証し, ガウススプラッティングモデルによる表面改質法を先導した。 プロジェクトページ: https://gs2mesh.github.io/.com

The Gaussian splatting for radiance field rendering method has recently emerged as an efficient approach for accurate scene representation. It optimizes the location, size, color, and shape of a cloud of 3D Gaussian elements to visually match, after projection, or splatting, a set of given images taken from various viewing directions. And yet, despite the proximity of Gaussian elements to the shape boundaries, direct surface reconstruction of objects in the scene is a challenge. We propose a novel approach for surface reconstruction from Gaussian splatting models. Rather than relying on the Gaussian elements' locations as a prior for surface reconstruction, we leverage the superior novel-view synthesis capabilities of 3DGS. To that end, we use the Gaussian splatting model to render pairs of stereo-calibrated novel views from which we extract depth profiles using a stereo matching method. We then combine the extracted RGB-D images into a geometrically consistent surface. The resulting reconstruction is more accurate and shows finer details when compared to other methods for surface reconstruction from Gaussian splatting models, while requiring significantly less compute time compared to other surface reconstruction methods. We performed extensive testing of the proposed method on in-the-wild scenes, taken by a smartphone, showcasing its superior reconstruction abilities. Additionally, we tested the proposed method on the Tanks and Temples benchmark, and it has surpassed the current leading method for surface reconstruction from Gaussian splatting models. Project page: https://gs2mesh.github.io/.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# 視覚的・リオリエンテーション行動を用いたロボットマニピュレータのためのNeRFに基づく物体モデルの不確実性を考慮したアクティブラーニング

Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions ( http://arxiv.org/abs/2404.01812v1 )

ライセンス: Link先を確認
Saptarshi Dasgupta, Akshat Gupta, Shreshth Tuli, Rohan Paul, (参考訳) 見えない物体を操作することは、3D表現なしでは難しい。 これは、内部表現を構築するためにオブジェクトとの物理的相互作用を必要とする。 本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。 我々は、部分的に構成されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、情報性と実現可能性の最適化により次の動作(視覚的または再指向的動作)を決定する。 さらに,提案手法は,部分的NeRFモデルを用いて物体をいつ,どのように把握し,どのように再配置するかを判断し,相互作用中に導入された不整合を補正するためにオブジェクトのポーズを再推定する。 ベンチマークオブジェクトを用いたテーブルトップ環境で動作する模擬フランカエミカロボットマニピュレータによる実験は、改善を実証する。 (i)視覚再建品質(PSNR)14% (二 物体表面(Fスコア)の幾何・深度復元における20% 三 作業成功率の七1%が、現場の見当たらない配向・安定配置を操作し、現在の方法による。 プロジェクトページは以下の通りである。

Manipulating unseen objects is challenging without a 3D representation, as objects generally have occluded surfaces. This requires physical interaction with objects to build their internal representations. This paper presents an approach that enables a robot to rapidly learn the complete 3D model of a given object for manipulation in unfamiliar orientations. We use an ensemble of partially constructed NeRF models to quantify model uncertainty to determine the next action (a visual or re-orientation action) by optimizing informativeness and feasibility. Further, our approach determines when and how to grasp and re-orient an object given its partial NeRF model and re-estimates the object pose to rectify misalignments introduced during the interaction. Experiments with a simulated Franka Emika Robot Manipulator operating in a tabletop environment with benchmark objects demonstrate an improvement of (i) 14% in visual reconstruction quality (PSNR), (ii) 20% in the geometric/depth reconstruction of the object surface (F-score) and (iii) 71% in the task success rate of manipulating objects a-priori unseen orientations/stable configurations in the scene; over current methods. The project page can be found here: https://actnerf.github.io.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# ニューラルネットワークによるハイブリッドシステム同定と制御

A neural network-based approach to hybrid systems identification for control ( http://arxiv.org/abs/2404.01814v1 )

ライセンス: Link先を確認
Filippo Fabiani, Bartolomeo Stellato, Daniele Masti, Paul J. Goulart, (参考訳) 与えられたモデルが最適制御設計にも適するように、未知の力学系の機械学習ベースモデルを有限個の(状態インプット)状態データポイントから設計する問題を考察する。 本稿では,ネットワークのパラメータに対して微分可能な断片的ファインダイナミックスを持つハイブリッドシステムを実現するニューラルネットワーク(NN)アーキテクチャを提案する。 NNの重みを慎重に選択すると、有限地平面最適制御問題(OCP)の一部として使用する場合に非常に有利な構造特性を持つハイブリッドシステムモデルが得られることを示す。 具体的には、通常、混合整数最適化を必要とする一般的なハイブリッドシステムに対する古典的なOCPとは対照的に、強い局所最適性保証を持つ最適解は非線形プログラミングによって計算可能であることを示す。 最適制御設計に適しただけでなく,我々のNNベースの手法は,ハイブリッドシステムにおける最先端システム識別手法と非常によく似た性能を示し,非線形ベンチマークでは競合する。

We consider the problem of designing a machine learning-based model of an unknown dynamical system from a finite number of (state-input)-successor state data points, such that the model obtained is also suitable for optimal control design. We propose a specific neural network (NN) architecture that yields a hybrid system with piecewise-affine dynamics that is differentiable with respect to the network's parameters, thereby enabling the use of derivative-based training procedures. We show that a careful choice of our NN's weights produces a hybrid system model with structural properties that are highly favourable when used as part of a finite horizon optimal control problem (OCP). Specifically, we show that optimal solutions with strong local optimality guarantees can be computed via nonlinear programming, in contrast to classical OCPs for general hybrid systems which typically require mixed-integer optimization. In addition to being well-suited for optimal control design, numerical simulations illustrate that our NN-based technique enjoys very similar performance to state-of-the-art system identification methodologies for hybrid systems and it is competitive on nonlinear benchmarks.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# ウェイクアップラジオを用いたニューロモルフィックスプリットコンピューティング:デジタルツインニングによるアーキテクチャと設計

Neuromorphic Split Computing with Wake-Up Radios: Architecture and Design via Digital Twinning ( http://arxiv.org/abs/2404.01815v1 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, Petar Popovski, H. Vincent Poor, Osvaldo Simeone, (参考訳) ニューロモルフィックコンピューティングは、時間データの間隔を利用して、各ステップでニューロンとシナプスの小さなサブセットを活性化することで、処理エネルギーを削減する。 エッジベースシステムにおけるスプリットコンピューティングのためにデプロイされると、リモートニューロモルフィック処理ユニット(NPU)はスパースインパルス電波(IR)波形を用いて非同期に通信することで通信電力予算を削減できる。 このように、入力信号の間隔は計算と通信の両面で直接省エネに変換される。 しかし、IR伝送では、エネルギー消費全体への主な貢献は、主無線を継続するために必要な電力である。 本研究は,遠隔・無線接続型NPUからなる分割計算機システムに,覚醒無線機構を統合した新しいアーキテクチャを提案する。 覚醒無線に基づくニューロモルフィックスプリットコンピューティングシステムの設計における重要な課題は、検知、覚醒信号検出、意思決定のためのしきい値の選択である。 この問題に対処するため、第2のコントリビューションとして、物理システムのシミュレータであるデジタルツイン(DT)と、理論的信頼性を保証するためのLearning Then Test(LTT)と呼ばれるシーケンシャルな統計的テスト手法を併用した、新しい方法論を提案する。 提案したDT-LTT法は他の設計問題にも広く適用でき、神経形通信にも応用できる。 実験結果は,信頼性の保証と信頼性,エネルギー消費,意思決定の伝達性に関するトレードオフを検証し,設計と分析を検証した。

Neuromorphic computing leverages the sparsity of temporal data to reduce processing energy by activating a small subset of neurons and synapses at each time step. When deployed for split computing in edge-based systems, remote neuromorphic processing units (NPUs) can reduce the communication power budget by communicating asynchronously using sparse impulse radio (IR) waveforms. This way, the input signal sparsity translates directly into energy savings both in terms of computation and communication. However, with IR transmission, the main contributor to the overall energy consumption remains the power required to maintain the main radio on. This work proposes a novel architecture that integrates a wake-up radio mechanism within a split computing system consisting of remote, wirelessly connected, NPUs. A key challenge in the design of a wake-up radio-based neuromorphic split computing system is the selection of thresholds for sensing, wake-up signal detection, and decision making. To address this problem, as a second contribution, this work proposes a novel methodology that leverages the use of a digital twin (DT), i.e., a simulator, of the physical system, coupled with a sequential statistical testing approach known as Learn Then Test (LTT) to provide theoretical reliability guarantees. The proposed DT-LTT methodology is broadly applicable to other design problems, and is showcased here for neuromorphic communications. Experimental results validate the design and the analysis, confirming the theoretical reliability guarantees and illustrating trade-offs among reliability, energy consumption, and informativeness of the decisions.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# アノテーションシミュレーションの再考:全体PET病変インタラクティブセグメンテーション法の現実的評価

Rethinking Annotator Simulation: Realistic Evaluation of Whole-Body PET Lesion Interactive Segmentation Methods ( http://arxiv.org/abs/2404.01816v1 )

ライセンス: Link先を確認
Zdravko Marinov, Moon Kim, Jens Kleesiek, Rainer Stiefelhagen, (参考訳) 対話的セグメンテーションは、特に核医学のような専門知識を必要とする領域において、アノテーションを加速する上で重要な役割を担っている。 例えば、全身ポジトロン・エミッション・トモグラフィ(PET)画像のアノテート病変は、体積あたり1時間以上必要である。 これまでの研究では、実際のユーザスタディやシミュレートされたアノテータを通じて、インタラクティブなセグメンテーションモデルを評価してきたが、どちらのアプローチも課題を提示している。 実際のユーザスタディは高価で大規模に制限されることが多いが、ロボットユーザとしても知られるシミュレートされたアノテータは、その理想化された性質のためにモデルパフォーマンスを過大評価する傾向がある。 これらの制約に対処するために、実とシミュレートされたアノテータ間のユーザシフトを定量化する4つの評価指標を導入する。 4つのアノテータを含む初期のユーザスタディでは,提案した指標を用いて既存のロボットユーザを評価し,実際のアノテータと比較して,ロボットユーザがパフォーマンスやアノテーションの振る舞いを著しく逸脱していることを見出した。 これらの結果をもとに,クリック変動やアノテーション間の不一致といった人的要因を取り入れた,より現実的なロボットユーザを提案する。 ロボットユーザを,他の4つのアノテータを含む第2のユーザスタディで検証し,従来のロボットユーザと比較してシミュレーションから実際のユーザシフトを一貫して減少させることを示す。 ロボットを用いて対話型セグメンテーションモデルの大規模かつ費用効率の高い評価を行う。 実装はmonAI Labelをベースにしており、公開されます。

Interactive segmentation plays a crucial role in accelerating the annotation, particularly in domains requiring specialized expertise such as nuclear medicine. For example, annotating lesions in whole-body Positron Emission Tomography (PET) images can require over an hour per volume. While previous works evaluate interactive segmentation models through either real user studies or simulated annotators, both approaches present challenges. Real user studies are expensive and often limited in scale, while simulated annotators, also known as robot users, tend to overestimate model performance due to their idealized nature. To address these limitations, we introduce four evaluation metrics that quantify the user shift between real and simulated annotators. In an initial user study involving four annotators, we assess existing robot users using our proposed metrics and find that robot users significantly deviate in performance and annotation behavior compared to real annotators. Based on these findings, we propose a more realistic robot user that reduces the user shift by incorporating human factors such as click variation and inter-annotator disagreement. We validate our robot user in a second user study, involving four other annotators, and show it consistently reduces the simulated-to-real user shift compared to traditional robot users. By employing our robot user, we can conduct more large-scale and cost-efficient evaluations of interactive segmentation models, while preserving the fidelity of real user studies. Our implementation is based on MONAI Label and will be made publicly available.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# GPU加速のための拡張トポロジのテンソル化神経進化

Tensorized NeuroEvolution of Augmenting Topologies for GPU Acceleration ( http://arxiv.org/abs/2404.01817v1 )

ライセンス: Link先を確認
Lishuang Wang, Mengfei Zhao, Enyu Liu, Kebin Sun, Ran Cheng, (参考訳) 神経進化(NeuroEvolution of Augmenting Topologies、NEAT)アルゴリズムは、神経進化の分野でかなりの認知を得ている。 その効果は単純なネットワークで開始し、トポロジと重みの両方を漸進的に進化させることから導かれる。 様々な課題にまたがる能力は明らかだが、アルゴリズムの計算効率は依然として障害であり、スケーラビリティの可能性を制限している。 そこで本研究では,NEATアルゴリズムのテンソル化手法を導入し,ネットワークトポロジと関連する演算を一様テンソルに変換する手法を提案する。 この進歩は、NEATアルゴリズムを全人口にわたって並列的に実行することを容易にする。 さらに, テンソルネットは, CPPN や HyperNEAT など, テンソル化NEAT アルゴリズムとその変種を実装したライブラリである。 JAX上に構築されたTensorNEATは、自動関数ベクトル化とハードウェアアクセラレーションによる効率的な並列計算を促進する。 さらに、TensorNEATライブラリは、Gym, Brax, gymnaxなど、さまざまなベンチマーク環境をサポートしている。 Braxのさまざまなロボット制御環境の評価を通じて、TensorNEATはNEAT-Pythonのような既存の実装と比較して最大500倍のスピードアップを実現している。 ソースコードは、https://github.com/EMI-Group/tensorneat.comで入手できる。

The NeuroEvolution of Augmenting Topologies (NEAT) algorithm has received considerable recognition in the field of neuroevolution. Its effectiveness is derived from initiating with simple networks and incrementally evolving both their topologies and weights. Although its capability across various challenges is evident, the algorithm's computational efficiency remains an impediment, limiting its scalability potential. In response, this paper introduces a tensorization method for the NEAT algorithm, enabling the transformation of its diverse network topologies and associated operations into uniformly shaped tensors for computation. This advancement facilitates the execution of the NEAT algorithm in a parallelized manner across the entire population. Furthermore, we develop TensorNEAT, a library that implements the tensorized NEAT algorithm and its variants, such as CPPN and HyperNEAT. Building upon JAX, TensorNEAT promotes efficient parallel computations via automated function vectorization and hardware acceleration. Moreover, the TensorNEAT library supports various benchmark environments including Gym, Brax, and gymnax. Through evaluations across a spectrum of robotics control environments in Brax, TensorNEAT achieves up to 500x speedups compared to the existing implementations such as NEAT-Python. Source codes are available at: https://github.com/EMI-Group/tensorneat.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# Sparse Semi-DETR:Sparse Learnable Queries for Semi-Supervised Object Detection

Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection ( http://arxiv.org/abs/2404.01819v1 )

ライセンス: Link先を確認
Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) 本稿では,DreTRに基づく半教師付きオブジェクト検出(SSOD)フレームワークの限界に対処する。 DETRベースのSSODでは、1対1の代入戦略は不正確な擬似ラベルを提供し、一方1対1の代入戦略は重なり合う予測をもたらす。 これらの問題は訓練効率を損なうとともにモデル性能を低下させる。 Sparse Semi-DETRは、トランスフォーマーをベースとした、エンドツーエンドの半教師付きオブジェクト検出ソリューションである。 Sparse Semi-DETR には Query Refinement Module が組み込まれており、オブジェクトクエリの品質を高め、小型で部分的に隠されたオブジェクトの検出能力を著しく改善している。 さらに、高品質な擬似ラベルを選択的にフィルタリングし、検出精度と整合性を向上させる信頼性の高い擬似ラベルフィルタリングモジュールを統合する。 MS-COCO と Pascal のVOC オブジェクト検出ベンチマークでは、Sparse Semi-DETR が半教師付きオブジェクト検出において、特に小または部分的に隠蔽されたオブジェクトを含む困難なシナリオにおいて、Sparse Semi-DETR の有効性を強調した現在の最先端メソッドよりも大幅に改善されている。

In this paper, we address the limitations of the DETR-based semi-supervised object detection (SSOD) framework, particularly focusing on the challenges posed by the quality of object queries. In DETR-based SSOD, the one-to-one assignment strategy provides inaccurate pseudo-labels, while the one-to-many assignments strategy leads to overlapping predictions. These issues compromise training efficiency and degrade model performance, especially in detecting small or occluded objects. We introduce Sparse Semi-DETR, a novel transformer-based, end-to-end semi-supervised object detection solution to overcome these challenges. Sparse Semi-DETR incorporates a Query Refinement Module to enhance the quality of object queries, significantly improving detection capabilities for small and partially obscured objects. Additionally, we integrate a Reliable Pseudo-Label Filtering Module that selectively filters high-quality pseudo-labels, thereby enhancing detection accuracy and consistency. On the MS-COCO and Pascal VOC object detection benchmarks, Sparse Semi-DETR achieves a significant improvement over current state-of-the-art methods that highlight Sparse Semi-DETR's effectiveness in semi-supervised object detection, particularly in challenging scenarios involving small or partially obscured objects.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# 悪意コンテンツ検出におけるコミュニティモデルの一般化のための実例評価セット

A (More) Realistic Evaluation Setup for Generalisation of Community Models on Malicious Content Detection ( http://arxiv.org/abs/2404.01822v1 )

ライセンス: Link先を確認
Ivo Verhoeven, Pushkar Mishra, Rahel Beloch, Helen Yannakoudakis, Ekaterina Shutova, (参考訳) 悪意のあるコンテンツ検出のためのコミュニティモデルは、ソーシャルグラフからコンテンツ自体のコンテキストを考慮に入れ、ベンチマークデータセットで顕著なパフォーマンスを示している。 しかし、偽情報やヘイトスピーチがソーシャルメディア上で拡散し続けている。 このミスマッチは、オンラインコンテンツと基礎となるソーシャルグラフの急速な進化を無視した、現在の評価設定の限界に起因する可能性がある。 本稿では,本手法を用いたモデル一般化のための新しい評価手法を提案する。 この設定テストは、より現実的なアプリケーション設定をエミュレートして、より大きなグラフの局所的な探索でラベル付けされた例をほとんど含まない。 トレーニンググラフの強いパフォーマンスは、目に見えないタスクやドメイン、あるいはグラフ構造のパフォーマンスを示すものではない。 最後に,提案した数ショットのサブグラフを用いて学習したグラフメタラーが,インダクティブ・セットアップにおいて標準コミュニティモデルより優れていたことを示す。 コードを公開しています。

Community models for malicious content detection, which take into account the context from a social graph alongside the content itself, have shown remarkable performance on benchmark datasets. Yet, misinformation and hate speech continue to propagate on social media networks. This mismatch can be partially attributed to the limitations of current evaluation setups that neglect the rapid evolution of online content and the underlying social graph. In this paper, we propose a novel evaluation setup for model generalisation based on our few-shot subgraph sampling approach. This setup tests for generalisation through few labelled examples in local explorations of a larger graph, emulating more realistic application settings. We show this to be a challenging inductive setup, wherein strong performance on the training graph is not indicative of performance on unseen tasks, domains, or graph structures. Lastly, we show that graph meta-learners trained with our proposed few-shot subgraph sampling outperform standard community models in the inductive setup. We make our code publicly available.
翻訳日:2024-04-03 16:59:04 公開日:2024-04-02
# 対等・等方的擬似リプレイによる対人防御

Defense without Forgetting: Continual Adversarial Defense with Anisotropic & Isotropic Pseudo Replay ( http://arxiv.org/abs/2404.01828v1 )

ライセンス: Link先を確認
Yuhang Zhou, Zhongyun Hua, (参考訳) ディープニューラルネットワークは敵の攻撃に対する感受性を示している。 敵の防御技術は攻撃に対する堅牢性を維持するために一発設定に焦点を当てることが多い。 しかし、現実のデプロイメントシナリオでは、新しい攻撃がシーケンスに現れる可能性がある。 その結果、防衛モデルは新たな攻撃に常に適応することが不可欠であるが、適応プロセスは、これまで防衛されていた攻撃を破滅的に忘れてしまう可能性がある。 本稿では,攻撃の連続による連続的対角防御の概念を初めて論じるとともに,(1)等方的リプレイは,新データの近傍分布におけるモデル整合性を保証し,旧タスクと新タスク間の出力嗜好を間接的に整合させる,Anisotropic \& Isotropic Replay (AIR) という長寿命防衛ベースラインを提案する。 2) 異方的リプレイにより,新たな混合セマンティクスを用いた妥協データ多様体の学習が可能となり,さらなるリプレイ制約や将来的な攻撃が可能となる。 (3)新旧タスク間のモデル出力の整合による「塑性安定」トレードオフを緩和する。 実験の結果、AIRは関節トレーニングによって達成された経験的性能上界を近似または超えることができることが示された。

Deep neural networks have demonstrated susceptibility to adversarial attacks. Adversarial defense techniques often focus on one-shot setting to maintain robustness against attack. However, new attacks can emerge in sequences in real-world deployment scenarios. As a result, it is crucial for a defense model to constantly adapt to new attacks, but the adaptation process can lead to catastrophic forgetting of previously defended against attacks. In this paper, we discuss for the first time the concept of continual adversarial defense under a sequence of attacks, and propose a lifelong defense baseline called Anisotropic \& Isotropic Replay (AIR), which offers three advantages: (1) Isotropic replay ensures model consistency in the neighborhood distribution of new data, indirectly aligning the output preference between old and new tasks. (2) Anisotropic replay enables the model to learn a compromise data manifold with fresh mixed semantics for further replay constraints and potential future attacks. (3) A straightforward regularizer mitigates the 'plasticity-stability' trade-off by aligning model output between new and old tasks. Experiment results demonstrate that AIR can approximate or even exceed the empirical performance upper bounds achieved by Joint Training.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# 推定ログポリシによる二重ロバスト・オフ・ポリティクス評価

Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy ( http://arxiv.org/abs/2404.01830v1 )

ライセンス: Link先を確認
Kyungbok Lee, Myunghee Cho Paik, (参考訳) 本稿では,マルコフ決定プロセスのための新しい2重ロバストオフ政治評価(OPE)推定器,DRUnknownを導入し,ログポリシと値関数の双方が未知な状況を想定した。 提案した推定器は,まずログポリシを推定し,その評価器の漸近的分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。 ロギングポリシモデルが正しく指定されると、DRUnknownは既存のOPE推定器を含むクラス内の最小の漸近分散を達成する。 値関数モデルも正しく指定されている場合、DRUnknownはその漸近分散が半パラメトリック下界に達するため最適である。 本稿では,DRUnknownの性能と既存手法の性能を比較するために,文脈的帯域幅と強化学習で実施した実験結果について述べる。

We introduce a novel doubly-robust (DR) off-policy evaluation (OPE) estimator for Markov decision processes, DRUnknown, designed for situations where both the logging policy and the value function are unknown. The proposed estimator initially estimates the logging policy and then estimates the value function model by minimizing the asymptotic variance of the estimator while considering the estimating effect of the logging policy. When the logging policy model is correctly specified, DRUnknown achieves the smallest asymptotic variance within the class containing existing OPE estimators. When the value function model is also correctly specified, DRUnknown is optimal as its asymptotic variance reaches the semiparametric lower bound. We present experimental results conducted in contextual bandits and reinforcement learning to compare the performance of DRUnknown with that of existing methods.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# Subaggingはいつ機能するのか?

When does Subagging Work? ( http://arxiv.org/abs/2404.01832v1 )

ライセンス: Link先を確認
Christos Revelas, Otilia Boldea, Bas J. M. Werker, (参考訳) 機械学習における非パラメトリック手法である回帰木に対するサブアグリゲーションやサブサンプルアグリゲーションの有効性について検討した。 まず、木を点的に整合させるのに十分な条件を与える。 私たちはそれを形式化する i) バイアスは細胞の直径に依存するため、分裂が少ない木はバイアスを受ける傾向があり、 (ii) 細胞内の観察数に依存するため、多くの分割を持つ木は大きなばらつきを持つ傾向にある。 これらの偏りと分散のステートメントは、共変量空間においてグローバルに保持されることが知られているが、いくつかの制約の下では、それらは局所的に真であることを示す。 第2に,異なる分割数にまたがる木間伐採の性能を比較した。 その結果,(1) 特定の分割数に対して,(1) サブタグは1本の木で改善され,(2) 分割数よりも多くの分割で改善が大きくなることがわかった。 しかし、(3) 最適な大きさで成長した1本の木は、その個々の木のサイズが最適に選択されない場合、サブタグよりも優れる。 この最後の結果は、バイアスを取り除くために大きなランダム化木を成長させ、分散を減らすために平均化するという一般的な慣習に反する。

We study the effectiveness of subagging, or subsample aggregating, on regression trees, a popular non-parametric method in machine learning. First, we give sufficient conditions for pointwise consistency of trees. We formalize that (i) the bias depends on the diameter of cells, hence trees with few splits tend to be biased, and (ii) the variance depends on the number of observations in cells, hence trees with many splits tend to have large variance. While these statements for bias and variance are known to hold globally in the covariate space, we show that, under some constraints, they are also true locally. Second, we compare the performance of subagging to that of trees across different numbers of splits. We find that (1) for any given number of splits, subagging improves upon a single tree, and (2) this improvement is larger for many splits than it is for few splits. However, (3) a single tree grown at optimal size can outperform subagging if the size of its individual trees is not optimally chosen. This last result goes against common practice of growing large randomized trees to eliminate bias and then averaging to reduce variance.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# 映画「Crescendo Multi-Turn LLM」のジェイルブレイク事件

Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack ( http://arxiv.org/abs/2404.01833v1 )

ライセンス: Link先を確認
Mark Russinovich, Ahmed Salem, Ronen Eldan, (参考訳) 大規模言語モデル(LLM)は急速に人気を高め、複数のアプリケーションにまたがって採用されつつある。 これらのLSMは、責任あるAI害への貢献を避ける手段として、違法または非倫理的なトピックへの関与に強く対応している。 しかし、最近の一連の攻撃は"jailbreaks"と呼ばれ、このアライメントを克服しようと試みている。 直感的には、jailbreak攻撃は、モデルができることと、それがやろうとしていることの間のギャップを狭めることを目的としています。 本稿では,Crescendoと呼ばれる新しいジェイルブレイク攻撃について紹介する。 既存のjailbreakメソッドとは異なり、Crescendoはマルチターンのjailbreakであり、一見した方法でモデルと対話する。 これは、手元にあるタスクに関する一般的なプロンプトや質問から始まり、モデルの応答を参照して徐々に対話をエスカレートし、徐々にジェイルブレイクを成功させる。 我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。 以上の結果から,Crescendoの強力な有効性を示し,すべての評価モデルとタスクに対して高い攻撃成功率を達成できた。 さらに、Crescendomationは、Crescendo攻撃を自動化するツールであり、その評価は最先端のモデルに対する効果を示す。

Large Language Models (LLMs) have risen significantly in popularity and are increasingly being adopted across multiple applications. These LLMs are heavily aligned to resist engaging in illegal or unethical topics as a means to avoid contributing to responsible AI harms. However, a recent line of attacks, known as "jailbreaks", seek to overcome this alignment. Intuitively, jailbreak attacks aim to narrow the gap between what the model can do and what it is willing to do. In this paper, we introduce a novel jailbreak attack called Crescendo. Unlike existing jailbreak methods, Crescendo is a multi-turn jailbreak that interacts with the model in a seemingly benign manner. It begins with a general prompt or question about the task at hand and then gradually escalates the dialogue by referencing the model's replies, progressively leading to a successful jailbreak. We evaluate Crescendo on various public systems, including ChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b Chat, and Anthropic Chat. Our results demonstrate the strong efficacy of Crescendo, with it achieving high attack success rates across all evaluated models and tasks. Furthermore, we introduce Crescendomation, a tool that automates the Crescendo attack, and our evaluation showcases its effectiveness against state-of-the-art models.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# CARLOS: C-ITS用ソフトウェアの開発とテストのためのオープンでモジュール化されたスケーラブルなシミュレーションフレームワーク

CARLOS: An Open, Modular, and Scalable Simulation Framework for the Development and Testing of Software for C-ITS ( http://arxiv.org/abs/2404.01836v1 )

ライセンス: Link先を確認
Christian Geller, Benedikt Haas, Amarin Kloeker, Jona Hermens, Bastian Lampe, Lutz Eckstein, (参考訳) 将来のモビリティシステムとそのコンポーネントは、ソフトウェアによってますます定義される。 これらの協調的インテリジェントトランスポートシステム(C-ITS)の複雑さと、ソフトウェアで引き起こされる絶え間ない要求は、継続的なソフトウェア更新を必要とする。 システムの動的な性質と、異なるソフトウェアコンポーネントが一緒に動作する事実上無数のシナリオは、シミュレーションを1つのコア方法論として使用する、効率的で自動化された開発およびテスト手順を必要とします。 このようなシミュレーションアーキテクチャが利用できることは、特に自動運転の分野で多くの利害関係者の間で共通の関心を集めている。 CARLOS - C-ITSでソフトウェアの開発とテストを行うためのオープンでモジュール化されたスケーラブルなシミュレーションフレームワークで、リッチなCARLAとROSエコシステムを活用しています。 このフレームワークの中核となるビルディングブロックを提供し、コミュニティによってどのように利用され、拡張されるかを説明します。 そのアーキテクチャは、コンテナ化や継続的インテグレーションといった現代的なマイクロサービスとDevOpsの原則の上に構築されている。 この記事では、重要な設計原則を説明し、ソフトウェアプロトタイピング、データ駆動開発、自動テストの3つの主要なユースケースを示します。 CARLOSと、github.com/ika-rwthaachen/carlosで公開されている3つのユースケースの実装例を作成します。

Future mobility systems and their components are increasingly defined by their software. The complexity of these cooperative intelligent transport systems (C-ITS) and the everchanging requirements posed at the software require continual software updates. The dynamic nature of the system and the practically innumerable scenarios in which different software components work together necessitate efficient and automated development and testing procedures that use simulations as one core methodology. The availability of such simulation architectures is a common interest among many stakeholders, especially in the field of automated driving. That is why we propose CARLOS - an open, modular, and scalable simulation framework for the development and testing of software in C-ITS that leverages the rich CARLA and ROS ecosystems. We provide core building blocks for this framework and explain how it can be used and extended by the community. Its architecture builds upon modern microservice and DevOps principles such as containerization and continuous integration. In our paper, we motivate the architecture by describing important design principles and showcasing three major use cases - software prototyping, data-driven development, and automated testing. We make CARLOS and example implementations of the three use cases publicly available at github.com/ika-rwthaachen/carlos
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# 半監督ドメイン適応による山火事検出

Semi-Supervised Domain Adaptation for Wildfire Detection ( http://arxiv.org/abs/2404.01842v1 )

ライセンス: Link先を確認
JooYoung Jang, Youngseo Cha, Jisu Kim, SooHyung Lee, Geonu Lee, Minkook Cho, Young Hwang, Nojun Kwak, (参考訳) 近年は、主に気候変動により、世界中の山火事の頻度と強度が増大している。 本稿では,半教師付きドメイン適応をオブジェクト検出に活用した,山火事検出のための新しいプロトコルを提案する。 我々のデータセットは、現在の最大のベンチマークワイルドファイアデータセットHPWRENの30倍の多様なラベル付きシーンを含み、ワイルドファイア検出のための新しいラベル付けポリシーを導入しています。 筆者らはCoordConvに触発されて,山火事の特徴のある翻訳分散特徴を抽出できる教師学生ベースのフレームワークを用いて,半監視ドメイン適応のためのロバストなベースラインである位置認識オブジェクト検出(LADA)を提案する。 1%のターゲットドメインラベル付きデータのみを使用することで、HPWRENのワイルドファイアデータセットの平均精度の平均3.8%の顕著なマージンで、我々のフレームワークは、ソースのみのベースラインを著しく上回ります。 データセットはhttps://github.com/BloomBerry/LADAで公開しています。

Recently, both the frequency and intensity of wildfires have increased worldwide, primarily due to climate change. In this paper, we propose a novel protocol for wildfire detection, leveraging semi-supervised Domain Adaptation for object detection, accompanied by a corresponding dataset designed for use by both academics and industries. Our dataset encompasses 30 times more diverse labeled scenes for the current largest benchmark wildfire dataset, HPWREN, and introduces a new labeling policy for wildfire detection. Inspired by CoordConv, we propose a robust baseline, Location-Aware Object Detection for Semi-Supervised Domain Adaptation (LADA), utilizing a teacher-student based framework capable of extracting translational variance features characteristic of wildfires. With only using 1% target domain labeled data, our framework significantly outperforms our source-only baseline by a notable margin of 3.8% in mean Average Precision on the HPWREN wildfire dataset. Our dataset is available at https://github.com/BloomBerry/LADA.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# Sketch3D:Sketch-to-3D生成のためのスタイル一貫性ガイダンス

Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation ( http://arxiv.org/abs/2404.01843v1 )

ライセンス: Link先を確認
Wangguandong Zheng, Haifeng Xia, Rui Chen, Ming Shao, Siyu Xia, Zhengming Ding, (参考訳) 近年,画像から3Dへのアプローチは自然なイメージを入力として大きな成果を上げている。 しかし、これらのリッチなカラー入力サンプルを、スケッチのみが利用可能な実用的なアプリケーションでアクセスすることは必ずしも不可能である。 既存のスケッチ・ツー・3D研究は、カラー情報や多視点コンテンツが不足しているため、幅広い応用の限界に悩まされている。 そこで本研究では,入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新たな生成パラダイムであるSketch3Dを提案する。 具体的には、Sketch3Dは、まず、形状保存生成プロセスを通じて基準画像中の所定のスケッチをインスタンス化する。 次に、参照画像を利用して粗い3Dガウス先行を推定し、3Dガウスのレンダリングに基づいて多視点スタイルのガイダンス画像を生成する。 最後に、3つの戦略は、3Dガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何類似性損失によるスケッチ類似性最適化である。 大規模な視覚比較と定量的分析は、入力との整合性を維持しながらリアルな3Dアセットを生成する際のSketch3Dの利点を示しています。

Recently, image-to-3D approaches have achieved significant results with a natural image as input. However, it is not always possible to access these enriched color input samples in practical applications, where only sketches are available. Existing sketch-to-3D researches suffer from limitations in broad applications due to the challenges of lacking color information and multi-view content. To overcome them, this paper proposes a novel generation paradigm Sketch3D to generate realistic 3D assets with shape aligned with the input sketch and color matching the textual description. Concretely, Sketch3D first instantiates the given sketch in the reference image through the shape-preserving generation process. Second, the reference image is leveraged to deduce a coarse 3D Gaussian prior, and multi-view style-consistent guidance images are generated based on the renderings of the 3D Gaussians. Finally, three strategies are designed to optimize 3D Gaussians, i.e., structural optimization via a distribution transfer mechanism, color optimization with a straightforward MSE loss and sketch similarity optimization with a CLIP-based geometric similarity loss. Extensive visual comparisons and quantitative analysis illustrate the advantage of our Sketch3D in generating realistic 3D assets while preserving consistency with the input.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# 2:4間隔での変圧器事前訓練の高速化

Accelerating Transformer Pre-Training with 2:4 Sparsity ( http://arxiv.org/abs/2404.01847v1 )

ライセンス: Link先を確認
Yuezhou Hu, Kang Zhao, Weiyu Huang, Jianfei Chen, Jun Zhu, (参考訳) 大きなトランスフォーマーのトレーニングは遅いが、GPUアーキテクチャに関する最近のイノベーションは、私たちに利点を与えてくれる。 NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。 この特性から,トランスフォーマーのフィードフォワードネットワーク(FFN)の事前学習における実現可能性について包括的に検討する。 まず、2:4のトレーニングプロセスの安定性を監視するために「フリップ率」を定義します。 本手法を応用して, グラデーションにマスク減衰項を適用し, スパース精製ストレートスルー推定器を改良し, プレトレーニング終了付近で, 簡易かつ効果的に高密度微調整を行うことで, モデル品質を向上させる2つの手法を提案する。 さらに,畳み込みによるトランスポーザブル2:4マスクの計算と,GPU L2キャッシュミスの低減によるゲートアクティベーション機能の高速化という2つの効果的なトレーニング手法を考案した。 実験により, 異なる2:4のトレーニング手法で複数のトランスフォーマーにおいて, それらの組み合わせが最高の性能に到達し, 実際のアクセラレーションはトランスフォーマーブロックの異なる形状で観測できることがわかった。

Training large Transformers is slow, but recent innovations on GPU architecture gives us an advantage. NVIDIA Ampere GPUs can execute a fine-grained 2:4 sparse matrix multiplication twice as fast as its dense equivalent. In the light of this property, we comprehensively investigate the feasibility of accelerating feed-forward networks (FFNs) of Transformers in pre-training. First, we define a "flip rate" to monitor the stability of a 2:4 training process. Utilizing this metric, we suggest two techniques to preserve accuracy: to modify the sparse-refined straight-through estimator by applying the mask decay term on gradients, and to enhance the model's quality by a simple yet effective dense fine-tuning procedure near the end of pre-training. Besides, we devise two effective techniques to practically accelerate training: to calculate transposable 2:4 mask by convolution, and to accelerate gated activation functions by reducing GPU L2 cache miss. Experiments show that a combination of our methods reaches the best performance on multiple Transformers among different 2:4 training methods, while actual acceleration can be observed on different shapes of Transformer block.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# EV2Gym:EVスマート充電研究とベンチマークのための柔軟なV2Gシミュレータ

EV2Gym: A Flexible V2G Simulator for EV Smart Charging Research and Benchmarking ( http://arxiv.org/abs/2404.01849v1 )

ライセンス: Link先を確認
Stavros Orfanoudakis, Cesar Diaz-Londono, Yunus E. Yılmaz, Peter Palensky, Pedro P. Vergara, (参考訳) 電気自動車(EV)の数が増加するにつれて、現在の充電能力と電力グリッドインフラの容量に対する懸念が高まり、スマート充電ソリューションの開発が必要とされる。 近年、多くのスマート充電シミュレータが開発されているが、Gym環境の形で強化学習(Reinforcement Learning, RL)アルゴリズムの開発をサポートするのはごくわずかである。 上記の問題に対処するため,本研究では,小型かつ大規模なスマート充電アルゴリズムを標準化されたプラットフォーム内で開発・評価するための,現実的なシミュレータプラットフォームEV2Gymを紹介する。 提案するシミュレータには, 実データを用いた総合的なEV, 充電ステーション, 電力変換器, EV挙動モデルが格納されている。 EV2Gymにはカスタマイズ可能なインターフェースがあり、ユーザーは事前に設計されたケーススタディを選択できる。 さらに、新しいソリューションの開発とベンチマークを高速化するために、RL、数学的プログラミング、ヒューリスティックアルゴリズムの多種多様な配列が組み込まれている。 EV2Gymは、統一された標準化されたプラットフォームを提供することで、研究者や実践者にスマート充電アルゴリズムの進歩と評価のための堅牢な環境を提供することを目指している。

As electric vehicle (EV) numbers rise, concerns about the capacity of current charging and power grid infrastructure grow, necessitating the development of smart charging solutions. While many smart charging simulators have been developed in recent years, only a few support the development of Reinforcement Learning (RL) algorithms in the form of a Gym environment, and those that do usually lack depth in modeling Vehicle-to-Grid (V2G) scenarios. To address the aforementioned issues, this paper introduces the EV2Gym, a realistic simulator platform for the development and assessment of small and large-scale smart charging algorithms within a standardized platform. The proposed simulator is populated with comprehensive EV, charging station, power transformer, and EV behavior models validated using real data. EV2Gym has a highly customizable interface empowering users to choose from pre-designed case studies or craft their own customized scenarios to suit their specific requirements. Moreover, it incorporates a diverse array of RL, mathematical programming, and heuristic algorithms to speed up the development and benchmarking of new solutions. By offering a unified and standardized platform, EV2Gym aims to provide researchers and practitioners with a robust environment for advancing and assessing smart charging algorithms.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# 雑音ラベル学習のためのペアワイズ類似分布クラスタリング

Pairwise Similarity Distribution Clustering for Noisy Label Learning ( http://arxiv.org/abs/2404.01853v1 )

ライセンス: Link先を確認
Sihan Bai, (参考訳) ノイズラベル学習は、大量のサンプルとノイズラベルを使ってディープニューラルネットワークをトレーニングすることを目的としている。 既存の作業では、ラベルの修正やサンプル選択のパラダイムを採用して、正確なラベルを持つより多くのサンプルをトレーニングプロセスに含めている。 本稿では,Pairwise similarity Distribution Clustering~(PSDC)と呼ばれる単純なサンプル選択アルゴリズムを提案し,トレーニングサンプルを1つのクリーンセットと他のノイズセットに分割する。 具体的には、サンプルのペア間のペアの類似性をサンプル構造を表現するためにと、同じノイズクラスタに属するサンプルペア間の類似度分布をモデル化するために、ガウス混合モデル~(GMM)を用いて、各サンプルをクリーンセットまたはノイズセットに確実に分割することができる。 厳密なラベルノイズ率の下でも、結果として生じるデータ分割機構は、理論と実践の両方においてラベルの信頼性を判断する上で、より堅牢であることが証明されている。 CIFAR-10、CIFAR-100、Clothing1Mといった様々なベンチマークデータセットの実験結果は、最先端の手法よりも大幅に改善されている。

Noisy label learning aims to train deep neural networks using a large amount of samples with noisy labels, whose main challenge comes from how to deal with the inaccurate supervision caused by wrong labels. Existing works either take the label correction or sample selection paradigm to involve more samples with accurate labels into the training process. In this paper, we propose a simple yet effective sample selection algorithm, termed as Pairwise Similarity Distribution Clustering~(PSDC), to divide the training samples into one clean set and another noisy set, which can power any of the off-the-shelf semi-supervised learning regimes to further train networks for different downstream tasks. Specifically, we take the pairwise similarity between sample pairs to represent the sample structure, and the Gaussian Mixture Model~(GMM) to model the similarity distribution between sample pairs belonging to the same noisy cluster, therefore each sample can be confidently divided into the clean set or noisy set. Even under severe label noise rate, the resulting data partition mechanism has been proved to be more robust in judging the label confidence in both theory and practice. Experimental results on various benchmark datasets, such as CIFAR-10, CIFAR-100 and Clothing1M, demonstrate significant improvements over state-of-the-art methods.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# IndoCulture: インドネシアの11州にまたがる地理的影響のある文化的コモンセンスの探索

IndoCulture: Exploring Geographically-Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces ( http://arxiv.org/abs/2404.01854v1 )

ライセンス: Link先を確認
Fajri Koto, Rahmad Mahendra, Nurul Aisyah, Timothy Baldwin, (参考訳) コモンセンス推論は文化的・地理的要因によって大きく形作られたが、以前の言語モデルの研究は主に英語の文化に焦点を当てており、アングロセントリックな偏見をもたらす可能性がある。 本稿では,インドネシアの11州で見られる多様な文化に着目し,地理的要因が言語モデル推論能力に与える影響を理解することを目的としたIndoCultureを紹介する。 テンプレート (Yin et al , 2022) やオンラインスクラップ (Fung et al , 2024) に頼っていた従来の作業とは対照的に, 事前に定義されたトピックに基づいたコンテキストと妥当なオプションを手作業で開発するように地元住民に求めることで, IndoCulture を開発した。 1 最高のオープンソースモデルでさえ 53.2% の精度で苦労し、(2) モデルはバリや西ジャワのような特定の州でより正確な予測をしばしば提供し、(3) ロケーションコンテキストの導入は、特に GPT-4 のような大規模モデルでは、コモンセンス推論における地理的コンテキストの重要性を強調する。

Although commonsense reasoning is greatly shaped by cultural and geographical factors, previous studies on language models have predominantly centered on English cultures, potentially resulting in an Anglocentric bias. In this paper, we introduce IndoCulture, aimed at understanding the influence of geographical factors on language model reasoning ability, with a specific emphasis on the diverse cultures found within eleven Indonesian provinces. In contrast to prior works that relied on templates (Yin et al., 2022) and online scrapping (Fung et al., 2024), we created IndoCulture by asking local people to manually develop the context and plausible options based on predefined topics. Evaluations of 23 language models reveal several insights: (1) even the best open-source model struggles with an accuracy of 53.2%, (2) models often provide more accurate predictions for specific provinces, such as Bali and West Java, and (3) the inclusion of location contexts enhances performance, especially in larger models like GPT-4, emphasizing the significance of geographical context in commonsense reasoning.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# 次の動き方:次のPOI勧告のためのLCMのゼロショット一般化

Where to Move Next: Zero-shot Generalization of LLMs for Next POI Recommendation ( http://arxiv.org/abs/2404.01855v1 )

ライセンス: Link先を確認
Shanshan Feng, Haoming Lyu, Caishun Chen, Yew-Soon Ong, (参考訳) Next Point-of-interest (POI)レコメンデーションは、ユーザが周囲の環境を探索するための貴重な提案を提供する。 既存の研究は、大規模ユーザのチェックインデータから推薦モデルを構築することに依存している。 近年,様々なNLPタスクにおいて,事前訓練された大規模言語モデル (LLM) が大幅に進歩しており,推奨シナリオについても検討されている。 しかし、LLMの一般化能力は、ユーザの地理的移動パターンを抽出する次のPOIレコメンデーションに対処するためには、まだ探索されていない。 LLMを次の項目のレコメンデーションに活用する研究は存在するが、地理的影響と連続的な遷移を考慮できない。 したがって、彼らは次のPOIレコメンデーションタスクを効果的に解決することはできない。 この目的のために、我々は新規なプロンプト戦略を設計し、ユーザの次のチェックインを予測するためのLCM(例えばChatGPT)の能力を評価するための実証的研究を行う。 具体的には、ユーザの地理的嗜好、空間距離、連続的な遷移など、人間の行動行動に不可欠な要素をいくつか考慮し、推薦タスクをランキング問題として定式化する。 広く使われている2つの実世界のデータセットに関する広範な実験を通じて、いくつかの重要な発見を導き出した。 実証的な評価では、LLMはゼロショットレコメンデーション能力を持ち、正確で合理的な予測を提供することができる。 また、LLMは地理的文脈情報を正確に理解することができず、候補POIの提示順序に敏感であり、LLMの限界を示すとともに、堅牢な人間の移動的推論機構に関するさらなる研究が必要であることも明らかにした。

Next Point-of-interest (POI) recommendation provides valuable suggestions for users to explore their surrounding environment. Existing studies rely on building recommendation models from large-scale users' check-in data, which is task-specific and needs extensive computational resources. Recently, the pretrained large language models (LLMs) have achieved significant advancements in various NLP tasks and have also been investigated for recommendation scenarios. However, the generalization abilities of LLMs still are unexplored to address the next POI recommendations, where users' geographical movement patterns should be extracted. Although there are studies that leverage LLMs for next-item recommendations, they fail to consider the geographical influence and sequential transitions. Hence, they cannot effectively solve the next POI recommendation task. To this end, we design novel prompting strategies and conduct empirical studies to assess the capability of LLMs, e.g., ChatGPT, for predicting a user's next check-in. Specifically, we consider several essential factors in human movement behaviors, including user geographical preference, spatial distance, and sequential transitions, and formulate the recommendation task as a ranking problem. Through extensive experiments on two widely used real-world datasets, we derive several key findings. Empirical evaluations demonstrate that LLMs have promising zero-shot recommendation abilities and can provide accurate and reasonable predictions. We also reveal that LLMs cannot accurately comprehend geographical context information and are sensitive to the order of presentation of candidate POIs, which shows the limitations of LLMs and necessitates further research on robust human mobility reasoning mechanisms.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# Poro 34Bと多言語性の祝福

Poro 34B and the Blessing of Multilinguality ( http://arxiv.org/abs/2404.01856v1 )

ライセンス: Link先を確認
Risto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo, (参考訳) 最先端の大規模言語モデルの事前訓練は、今や数兆ワードのテキストを必要としており、これは大多数の言語で利用できるものよりも桁違いに多い。 複数の言語にテキストを含めることは、より事前訓練されたデータを取得するための明らかな方法であるが、多言語性はしばしば呪いと見なされる。 我々は、多言語性は祝福であり、多言語学習を通じて、小言語に対する単言語モデルの性能を大幅に向上させることが可能であると信じている。 本研究では, フィンランド語, 英語, プログラミング言語の1兆トークンに対して訓練された34億のパラメータモデルであるPoro 34Bを紹介し, 多言語学習アプローチは, 既存のフィンランド語モデルの能力よりも大幅に進歩するだけでなく, 翻訳に優れ, 英語やプログラミング言語の生成においてそのクラスにおいて競争力を持つモデルを生成することができることを示した。 我々は、オープンライセンスの下でモデルパラメータ、スクリプト、データをhttps://huggingface.co/LumiOpen/Poro-34Bでリリースします。

The pretraining of state-of-the-art large language models now requires trillions of words of text, which is orders of magnitude more than available for the vast majority of languages. While including text in more than one language is an obvious way to acquire more pretraining data, multilinguality is often seen as a curse, and most model training efforts continue to focus near-exclusively on individual large languages. We believe that multilinguality can be a blessing and that it should be possible to substantially improve over the capabilities of monolingual models for small languages through multilingual training. In this study, we introduce Poro 34B, a 34 billion parameter model trained for 1 trillion tokens of Finnish, English, and programming languages, and demonstrate that a multilingual training approach can produce a model that not only substantially advances over the capabilities of existing models for Finnish, but also excels in translation and is competitive in its class in generating English and programming languages. We release the model parameters, scripts, and data under open licenses at https://huggingface.co/LumiOpen/Poro-34B.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# コース評価におけるジェンダーバイアスの検出

Detecting Gender Bias in Course Evaluations ( http://arxiv.org/abs/2404.01857v1 )

ライセンス: Link先を確認
Sarah Lindau, Linnea Nilsson, (参考訳) 機械学習とnlpのレンズによる授業評価における性別バイアスを研究対象とする修士論文の成果 我々は、データを調べ、探索するために異なる方法を使用し、試験者の性別に応じて、学生がコースについて書く内容の違いを見つける。 英語とスウェーデンのコースからのデータを評価・比較し、発見されるかもしれない性バイアスのニュアンスをより正確に捉える。 ここでは、これまでの作業の結果をお見せしますが、これは進行中のプロジェクトであり、より多くの作業が必要です。

An outtake from the findnings of a master thesis studying gender bias in course evaluations through the lense of machine learning and nlp. We use different methods to examine and explore the data and find differences in what students write about courses depending on gender of the examiner. Data from English and Swedish courses are evaluated and compared, in order to capture more nuance in the gender bias that might be found. Here we present the results from the work so far, but this is an ongoing project and there is more work to do.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# 行動プログラムを存続させる: 生活必需品の特定と実行

Keeping Behavioral Programs Alive: Specifying and Executing Liveness Requirements ( http://arxiv.org/abs/2404.01858v1 )

ライセンス: Link先を確認
Tom Yaacov, Achiya Elyasaf, Gera Weiss, (参考訳) 振舞いプログラミング(BP)のような実行可能な仕様を使用する利点の1つは、システム実装をその要件と整合させる能力である。 これはBPにおいて、システムができること、すべきこと、すべきでないことを指定する独立した実装モジュールを許可するプロトコルによって促進される。 これにより、各モジュールは "Don't do X after Y" などの負の仕様を含む単一のシステム要件を強制することができる。 しかし、既存のBPプロトコルは、安全要件の実施のみを許可し、「少なくとも3回はXを行う」といった生活特性の実行をサポートしない。 BPの寿命要件を直接かつ独立にモデル化するために,タスクがまだ完了していないことを示す"must-finish"のタグ付け状態のイディオムを提案する。 このイディオムは、文献から既知の要求パターンを直接指定できることを示す。 また,B\"uchi Automaticaへの翻訳に基づくセマンティクスと,マルコフ決定プロセス(MDP)に基づく2つの実行メカニズムも提供する。 後者のアプローチは、大規模ソフトウェアシステムを効果的に扱う可能性を秘めている、深層強化学習(DRL)アルゴリズムを活用する可能性を提供する。 本稿では,概念実証ツールを用いて,提案手法の質的,定量的な評価を行う。 MDPベースの実行機構の形式解析を付録に記載する。

One of the benefits of using executable specifications such as Behavioral Programming (BP) is the ability to align the system implementation with its requirements. This is facilitated in BP by a protocol that allows independent implementation modules that specify what the system may, must, and must not do. By that, each module can enforce a single system requirement, including negative specifications such as "don't do X after Y." The existing BP protocol, however, allows only the enforcement of safety requirements and does not support the execution of liveness properties such as "do X at least three times." To model liveness requirements in BP directly and independently, we propose idioms for tagging states with "must-finish," indicating that tasks are yet to be completed. We show that this idiom allows a direct specification of known requirements patterns from the literature. We also offer semantics and two execution mechanisms, one based on a translation to B\"uchi automata and the other based on a Markov decision process (MDP). The latter approach offers the possibility of utilizing deep reinforcement learning (DRL) algorithms, which bear the potential to handle large software systems effectively. This paper presents a qualitative and quantitative assessment of the proposed approach using a proof-of-concept tool. A formal analysis of the MDP-based execution mechanism is given in an appendix.
翻訳日:2024-04-03 16:49:07 公開日:2024-04-02
# SemEval-2024 Task 1: Self-Structuring AutoEncodersによる学習

Self-StrAE at SemEval-2024 Task 1: Making Self-Structuring AutoEncoders Learn More With Less ( http://arxiv.org/abs/2404.01860v1 )

ライセンス: Link先を確認
Mattia Opper, N. Siddharth, (参考訳) 本稿では,自己構築型オートエンコーダ(Self-StrAE)の2つの改良点について述べる。 まず,補助的な目的として語彙の再構成を含めることで,表現の質が向上することを示す。 第二に、独立したチャネルの数を増やすことで、埋め込み品質が大幅に向上し、同時にパラメータの数も減少することを示す。 驚くべきことに、非埋め込みパラメータの総数を7に減らしても、この傾向は極端に続くことが示される。 我々のシステムは、入力データの1000万トークンをゼロから事前訓練することができ、英語、スペイン語、アフリカーンで有効であることを示す。

This paper presents two simple improvements to the Self-Structuring AutoEncoder (Self-StrAE). Firstly, we show that including reconstruction to the vocabulary as an auxiliary objective improves representation quality. Secondly, we demonstrate that increasing the number of independent channels leads to significant improvements in embedding quality, while simultaneously reducing the number of parameters. Surprisingly, we demonstrate that this trend can be followed to the extreme, even to point of reducing the total number of non-embedding parameters to seven. Our system can be pre-trained from scratch with as little as 10M tokens of input data, and proves effective across English, Spanish and Afrikaans.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# モーションデカップリング拡散モデルによる音声合成

Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model ( http://arxiv.org/abs/2404.01862v1 )

ライセンス: Link先を確認
Xu He, Qiaochu Huang, Zhensong Zhang, Zhiwei Lin, Zhiyong Wu, Sicheng Yang, Minglei Li, Zhiyi Chen, Songcen Xu, Xiaofei Wu, (参考訳) ビデオの活発な形式で提示された共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を達成できる。 従来の作品では、主に人間の骨格構造が生成され、外観情報の欠落が生じたが、本作品では、音声駆動の音声合成ジェスチャビデオの直接生成に焦点を当てている。 主な課題は2つある。 1) 複雑な人間の動作を重要な外観情報で記述するためには, 適切な動作特徴が必要である。 2)ジェスチャーと音声は固有の依存関係を示し,任意の長さであっても時間的に整列すべきである。 これらの問題を解決するために,共同音声ジェスチャビデオを生成する新しい動き分離フレームワークを提案する。 具体的には、まずよく設計された非線形TPS変換を導入し、本質的な外観情報を保持する潜在動作特徴を得る。 次に,ジェスチャーと音声の時間的相関を学習するためにトランスフォーマーに基づく拡散モデルを提案し,その次に,長期的コヒーレントかつ一貫したジェスチャービデオを生成するための最適な動き選択モジュールを生成する。 視覚的知覚をより良くするために、特定の領域の詳細の欠如に焦点を当てた改良ネットワークをさらに設計する。 大規模な実験結果から,提案手法は動作評価と映像評価の両方において,既存の手法よりも優れていたことが示唆された。 私たちのコード、デモ、その他のリソースはhttps://github.com/thuhcsi/S2G-MDDiffusion.comで公開されています。

Co-speech gestures, if presented in the lively form of videos, can achieve superior visual effects in human-machine interaction. While previous works mostly generate structural human skeletons, resulting in the omission of appearance information, we focus on the direct generation of audio-driven co-speech gesture videos in this work. There are two main challenges: 1) A suitable motion feature is needed to describe complex human movements with crucial appearance information. 2) Gestures and speech exhibit inherent dependencies and should be temporally aligned even of arbitrary length. To solve these problems, we present a novel motion-decoupled framework to generate co-speech gesture videos. Specifically, we first introduce a well-designed nonlinear TPS transformation to obtain latent motion features preserving essential appearance information. Then a transformer-based diffusion model is proposed to learn the temporal correlation between gestures and speech, and performs generation in the latent motion space, followed by an optimal motion selection module to produce long-term coherent and consistent gesture videos. For better visual perception, we further design a refinement network focusing on missing details of certain areas. Extensive experimental results show that our proposed framework significantly outperforms existing approaches in both motion and video-related evaluations. Our code, demos, and more resources are available at https://github.com/thuhcsi/S2G-MDDiffusion.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 微調整テキスト・画像モデルに対する信頼度を考慮したリワード最適化

Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models ( http://arxiv.org/abs/2404.01863v1 )

ライセンス: Link先を確認
Kyuyoung Kim, Jongheon Jeong, Minyong An, Mohammad Ghavamzadeh, Krishnamurthy Dvijotham, Jinwoo Shin, Kimin Lee, (参考訳) 人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。 しかし、そのような報酬モデルによる過度な最適化は、単なるプロキシ目的として機能し、報酬過度最適化(英語版)として知られる、微調整されたモデルの性能を損なう可能性がある。 この問題を深く研究するために,テキストプロンプト,画像,人間のアノテーションの多種多様なコレクションからなるテキスト画像アライメントアセスメント(TIA2)ベンチマークを導入する。 本ベンチマークでは, 現状の報奨モデルに対する評価結果から, 人的評価との相違が頻発していることが判明した。 我々は、微調整目的として不整合報酬モデルを用いる場合、特に過度な最適化が生じることを実証的に実証した。 そこで本研究では,テキストプロンプトの集合から推定した報酬モデル信頼度に基づいてアライメントを強化するシンプルな方法であるTextNormを提案する。 細調整に信頼性校正報酬を組み込むことで過度な最適化を効果的に減らし、ベースラインの報酬モデルと比較してテキスト画像のアライメントに対する人間による評価の2倍の勝利をもたらすことを示した。

Fine-tuning text-to-image models with reward functions trained on human feedback data has proven effective for aligning model behavior with human intent. However, excessive optimization with such reward models, which serve as mere proxy objectives, can compromise the performance of fine-tuned models, a phenomenon known as reward overoptimization. To investigate this issue in depth, we introduce the Text-Image Alignment Assessment (TIA2) benchmark, which comprises a diverse collection of text prompts, images, and human annotations. Our evaluation of several state-of-the-art reward models on this benchmark reveals their frequent misalignment with human assessment. We empirically demonstrate that overoptimization occurs notably when a poorly aligned reward model is used as the fine-tuning objective. To address this, we propose TextNorm, a simple method that enhances alignment based on a measure of reward model confidence estimated across a set of semantically contrastive text prompts. We demonstrate that incorporating the confidence-calibrated rewards in fine-tuning effectively reduces overoptimization, resulting in twice as many wins in human evaluation for text-image alignment compared against the baseline reward models.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 金融時系列予測のためのスーパービジョンオートエンコーダMLP

Supervised Autoencoder MLP for Financial Time Series Forecasting ( http://arxiv.org/abs/2404.01866v1 )

ライセンス: Link先を確認
Bartosz Bieganowski, Robert Slepaczuk, (参考訳) 本稿では、投資戦略の性能向上を目的とした、教師付きオートエンコーダによるニューラルネットワーク利用による金融時系列予測の強化について検討する。 具体的には、シャープとインフォメーション比を用いて、ノイズ増大と三重障壁ラベルがリスク調整されたリターンに与える影響を具体的に調べる。 この調査は2010年1月1日から2022年4月30日までの取引資産としてS&P500指数、EUR/USD、BTC/USDに焦点を当てている。 その結果、教師付きオートエンコーダは、バランスの取れたノイズ増大とボトルネックサイズにより、戦略の有効性を著しく向上させることがわかった。 しかし、過度なノイズと大きなボトルネックサイズは性能を損なう可能性があり、正確なパラメータチューニングの重要性を強調している。 本稿では,三重バリアラベリングで使用可能な新しい最適化指標の導出について述べる。 本研究の結果は、市場安定と投資家保護を高めるため、金融機関や規制当局が提示した手法を活用できるとともに、様々な金融分野におけるより情報に富んだ戦略的投資アプローチを奨励できることを示唆している。

This paper investigates the enhancement of financial time series forecasting with the use of neural networks through supervised autoencoders, aiming to improve investment strategy performance. It specifically examines the impact of noise augmentation and triple barrier labeling on risk-adjusted returns, using the Sharpe and Information Ratios. The study focuses on the S&P 500 index, EUR/USD, and BTC/USD as the traded assets from January 1, 2010, to April 30, 2022. Findings indicate that supervised autoencoders, with balanced noise augmentation and bottleneck size, significantly boost strategy effectiveness. However, excessive noise and large bottleneck sizes can impair performance, highlighting the importance of precise parameter tuning. This paper also presents a derivation of a novel optimization metric that can be used with triple barrier labeling. The results of this study have substantial policy implications, suggesting that financial institutions and regulators could leverage techniques presented to enhance market stability and investor protection, while also encouraging more informed and strategic investment approaches in various financial sectors.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# ベイズモデルに基づくロボットマニピュレーションのための強化学習におけるアクティブ探索

Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation ( http://arxiv.org/abs/2404.01867v1 )

ライセンス: Link先を確認
Carlos Plou, Ana C. Murillo, Ruben Martinez-Cantin, (参考訳) ロボット操作などの複雑な環境において、複数のタスクを効果的に処理することは、ロボット工学における継続的な課題であり、強化学習(RL)のようなデータ駆動型ソリューションの機会である。 モデルに基づくRLは、ロボットの動的モデルを構築することにより、同じロボットと類似した環境のタスク間でのデータ再利用と学習を可能にする。 さらに、ロボット工学におけるデータ収集は高価であり、学習モデルに基づくより安価なシミュレーションに基づいてポリシー学習を行うモデルベースRLのようなデータ効率のよいアプローチに頼らなければならない。 したがって、後続タスクの性能にはモデルの品質が不可欠である。 本研究では,情報収集の最大化に基づく予備探査段階において,動的モデルの能動的学習を行うことにより,モデルの品質向上とデータ効率の維持に注力する。 我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。 提案した戦略では,これらを探索報酬として,各遷移の新規性を積極的に見積もっています。 本研究では,ニューラルネットワークのベイズ的推論手法を,ロボット工学の文脈ではこれまで使用されていないものと比較し,現実的なロボット操作設定で評価する。 実験の結果,提案手法の利点は,ロボットの実行手順に関する要件がはるかに低い関係の代替案よりも,結果に類似した品質のベイズモデルを用いたRL手法の利点が示された。 おもちゃの問題だけに焦点を絞ったこれまでの研究とは違って、我々の研究はロボットアームのエンドタスクに対処するより現実的なセットアップに向けて一歩踏み出した。

Efficiently tackling multiple tasks within complex environment, such as those found in robot manipulation, remains an ongoing challenge in robotics and an opportunity for data-driven solutions, such as reinforcement learning (RL). Model-based RL, by building a dynamic model of the robot, enables data reuse and transfer learning between tasks with the same robot and similar environment. Furthermore, data gathering in robotics is expensive and we must rely on data efficient approaches such as model-based RL, where policy learning is mostly conducted on cheaper simulations based on the learned model. Therefore, the quality of the model is fundamental for the performance of the posterior tasks. In this work, we focus on improving the quality of the model and maintaining the data efficiency by performing active learning of the dynamic model during a preliminary exploration phase based on maximize information gathering. We employ Bayesian neural network models to represent, in a probabilistic way, both the belief and information encoded in the dynamic model during exploration. With our presented strategies we manage to actively estimate the novelty of each transition, using this as the exploration reward. In this work, we compare several Bayesian inference methods for neural networks, some of which have never been used in a robotics context, and evaluate them in a realistic robot manipulation setup. Our experiments show the advantages of our Bayesian model-based RL approach, with similar quality in the results than relevant alternatives with much lower requirements regarding robot execution steps. Unlike related previous studies that focused the validation solely on toy problems, our research takes a step towards more realistic setups, tackling robotic arm end-tasks.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 正確性を超えて:大規模言語モデルの推論行動を評価する -- 調査

Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey ( http://arxiv.org/abs/2404.01869v1 )

ライセンス: Link先を確認
Philipp Mondorf, Barbara Plank, (参考訳) 大規模言語モデル(LLM)は、最近、推論を含むタスクにおいて印象的なパフォーマンスを示しており、これらのモデルが人間に似た推論能力を持っているかどうかを活発に議論している。 しかし、これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。 この不確実性の一部は、モデルの推論動作を徹底的に調査するのではなく、浅い精度のメトリクスを通して測定されるタスクパフォーマンスに主に焦点をあてることに由来する。 本稿では,タスクの精度を超える研究を包括的にレビューし,モデルの推論プロセスに関する深い洞察を提供することにより,このギャップに対処することを目的とする。 さらに, LLMの推論行動を評価するための一般的な手法を調査し, 現状を強調し, よりニュアンスな推論分析への取り組みについて検討した。 我々のレビューでは、LCMは真の推論能力よりも、トレーニングデータの表面レベルのパターンや相関に頼っている傾向が示唆されている。 さらに、人間とLLMに基づく推論の主な相違点を示すさらなる研究の必要性も確認する。 本調査では,LSMの複雑な推論プロセスについて光を当てることを目的としている。

Large language models (LLMs) have recently shown impressive performance on tasks involving reasoning, leading to a lively debate on whether these models possess reasoning capabilities similar to humans. However, despite these successes, the depth of LLMs' reasoning abilities remains uncertain. This uncertainty partly stems from the predominant focus on task performance, measured through shallow accuracy metrics, rather than a thorough investigation of the models' reasoning behavior. This paper seeks to address this gap by providing a comprehensive review of studies that go beyond task accuracy, offering deeper insights into the models' reasoning processes. Furthermore, we survey prevalent methodologies to evaluate the reasoning behavior of LLMs, emphasizing current trends and efforts towards more nuanced reasoning analyses. Our review suggests that LLMs tend to rely on surface-level patterns and correlations in their training data, rather than on genuine reasoning abilities. Additionally, we identify the need for further research that delineates the key differences between human and LLM-based reasoning. Through this survey, we aim to shed light on the complex reasoning processes within LLMs.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 投票アドバイザの迅速かつ適応的なアンケート

Fast and Adaptive Questionnaires for Voting Advice Applications ( http://arxiv.org/abs/2404.01872v1 )

ライセンス: Link先を確認
Fynn Bachmann, Cristina Sarasua, Abraham Bernstein, (参考訳) 投票支援アプリケーション(VAA)の有効性は、アンケートの長さによってしばしば損なわれる。 ユーザの疲労と不完全な応答に対処するために、いくつかのアプリケーション(Swiss Smartvoteなど)は、そのアンケートの凝縮版を提供する。 しかし、これらの凝縮版は推奨政党や候補者の正確さを保証できない。 これらの制約に対処するため, 利用者の過去の回答に基づいて質問を適応的に選択し, 推薦精度を高めるとともに, 有権者に提示する質問の数を減らすことを目的としている。 本手法はエンコーダとデコーダモジュールを用いて, 政治科学の従来の政治的指向を可視化する手法を反映した2次元潜在空間を利用して, 任意の完了段階における欠落値の予測を行う。 さらに、投票者の現在位置と残りの未回答の質問に基づいて、最も情報に富む質問を決定するためのセレクタモジュールが提案されている。 私たちは、2019年のスイス連邦選挙のSmartvoteデータセットを使用して、システムの予測精度を最適化するために、さまざまな空間モデルと選択方法をテストするアプローチを検証しました。 以上の結果から,IDEALモデルをエンコーダとデコーダの両方として使用することにより,質問選択のためのPosteriorRMSE法と組み合わせることで,提案手法の精度が向上し,コンデンサ版と同じ質問数で74%の精度が得られた。

The effectiveness of Voting Advice Applications (VAA) is often compromised by the length of their questionnaires. To address user fatigue and incomplete responses, some applications (such as the Swiss Smartvote) offer a condensed version of their questionnaire. However, these condensed versions can not ensure the accuracy of recommended parties or candidates, which we show to remain below 40%. To tackle these limitations, this work introduces an adaptive questionnaire approach that selects subsequent questions based on users' previous answers, aiming to enhance recommendation accuracy while reducing the number of questions posed to the voters. Our method uses an encoder and decoder module to predict missing values at any completion stage, leveraging a two-dimensional latent space reflective of political science's traditional methods for visualizing political orientations. Additionally, a selector module is proposed to determine the most informative subsequent question based on the voter's current position in the latent space and the remaining unanswered questions. We validated our approach using the Smartvote dataset from the Swiss Federal elections in 2019, testing various spatial models and selection methods to optimize the system's predictive accuracy. Our findings indicate that employing the IDEAL model both as encoder and decoder, combined with a PosteriorRMSE method for question selection, significantly improves the accuracy of recommendations, achieving 74% accuracy after asking the same number of questions as in the condensed version.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 衛星フェデレーションエッジラーニング:アーキテクチャ設計と収束解析

Satellite Federated Edge Learning: Architecture Design and Convergence Analysis ( http://arxiv.org/abs/2404.01875v1 )

ライセンス: Link先を確認
Yuanming Shi, Li Zeng, Jingyang Zhu, Yong Zhou, Chunxiao Jiang, Khaled B. Letaief, (参考訳) 低軌道(LEO)衛星ネットワークの拡散は、伝統的に地上サーバに転送される大量のリモートセンシングデータを生成し、プライバシーと帯域幅の懸念を提起する。 分散機械学習アプローチとしてのFederated Edge Learning(FEEL)は、生データの代わりにモデルパラメータを共有することによって、これらの課題に対処する可能性がある。 将来性はあるものの、衛星の高モビリティと短地対衛星リンク(GSL)の持続時間によって特徴付けられるLEOネットワークのダイナミクスは、FEELに固有の課題をもたらす。 特に、衛星と地上の間の頻繁なモデル伝送は、待ち時間と送信遅延を長くする。 本稿では,LEOメガコンステレーションネットワークに適した新しいFEELアルゴリズムFEDMEGAを提案する。 軌道内モデルアグリゲーションのための衛星間リンク(ISL)を統合することにより、提案アルゴリズムは低データレートと断続的なGSLの使用を著しく削減する。 提案手法は, リング全リデューサに基づく軌道内アグリゲーション機構と, グローバルモデルアグリゲーションのためのネットワークフローベースのトランスミッションスキームを組み合わせることで, 伝送効率を向上する。 アルゴリズムの性能を特徴付けるために理論的収束解析が提供される。 我々のFEDMEGAアルゴリズムは、既存の衛星FEELアルゴリズムよりも優れており、収束率のおよそ30%向上している。

The proliferation of low-earth-orbit (LEO) satellite networks leads to the generation of vast volumes of remote sensing data which is traditionally transferred to the ground server for centralized processing, raising privacy and bandwidth concerns. Federated edge learning (FEEL), as a distributed machine learning approach, has the potential to address these challenges by sharing only model parameters instead of raw data. Although promising, the dynamics of LEO networks, characterized by the high mobility of satellites and short ground-to-satellite link (GSL) duration, pose unique challenges for FEEL. Notably, frequent model transmission between the satellites and ground incurs prolonged waiting time and large transmission latency. This paper introduces a novel FEEL algorithm, named FEDMEGA, tailored to LEO mega-constellation networks. By integrating inter-satellite links (ISL) for intra-orbit model aggregation, the proposed algorithm significantly reduces the usage of low data rate and intermittent GSL. Our proposed method includes a ring all-reduce based intra-orbit aggregation mechanism, coupled with a network flow-based transmission scheme for global model aggregation, which enhances transmission efficiency. Theoretical convergence analysis is provided to characterize the algorithm performance. Extensive simulations show that our FEDMEGA algorithm outperforms existing satellite FEEL algorithms, exhibiting an approximate 30% improvement in convergence rate.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 機械学習における手続き的公正性

Procedural Fairness in Machine Learning ( http://arxiv.org/abs/2404.01877v1 )

ライセンス: Link先を確認
Ziming Wang, Changwu Huang, Xin Yao, (参考訳) 機械学習(ML)における公正さは注目されている。 しかし、既存の研究は主にMLモデルの分配的公正性に焦点を当てている。 その他の公平性、すなわち手続き的公正性は無視されている。 本稿では、まずMLモデルの手続き的公正性を定義し、その後、個人的およびグループ的手続き的公正性の形式的定義を与える。 本稿では,MLモデルの群手続き的公正性を評価するための新しい指標,GPF_{FAE$を提案する。 合成データセットと実世界の8つのデータセットに対する$GPF_{FAE}$の有効性を検証する。 本実験は,MLモデルの手続き的公正性と分配的公正性の関係を明らかにするものである。 そこで本研究では,モデルの手続き的不公平につながる特徴を識別する手法を提案し,不公平な特徴を特定して手続き的公正性を改善する2つの方法を提案する。 実験の結果,MLモデルにおける手続き的不公平性の原因となる特徴を正確に識別できることが示され,提案手法のどちらも,モデル性能にわずかに影響を及ぼすことなく,手続き的公正性を大幅に向上させることができるとともに,分配的公正性も向上できることがわかった。

Fairness in machine learning (ML) has received much attention. However, existing studies have mainly focused on the distributive fairness of ML models. The other dimension of fairness, i.e., procedural fairness, has been neglected. In this paper, we first define the procedural fairness of ML models, and then give formal definitions of individual and group procedural fairness. We propose a novel metric to evaluate the group procedural fairness of ML models, called $GPF_{FAE}$, which utilizes a widely used explainable artificial intelligence technique, namely feature attribution explanation (FAE), to capture the decision process of the ML models. We validate the effectiveness of $GPF_{FAE}$ on a synthetic dataset and eight real-world datasets. Our experiments reveal the relationship between procedural and distributive fairness of the ML model. Based on our analysis, we propose a method for identifying the features that lead to the procedural unfairness of the model and propose two methods to improve procedural fairness after identifying unfair features. Our experimental results demonstrate that we can accurately identify the features that lead to procedural unfairness in the ML model, and both of our proposed methods can significantly improve procedural fairness with a slight impact on model performance, while also improving distributive fairness.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 本物の、偽の、合成的な顔 - コインには3つの側面がありますか?

Real, fake and synthetic faces - does the coin have three sides? ( http://arxiv.org/abs/2404.01878v1 )

ライセンス: Link先を確認
Shahzeb Naeem, Ramzi Al-Sharawi, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Hasan Al-Nashash, (参考訳) 進化を続ける人工知能の力により、ディープフェイクと人工的な(合成された)メディアはオンラインに広がり続けており、それらの使用に関して様々な倫理的・道徳的な懸念を生み出している。 そこで本研究では, 現実, ディープフェイク, 合成顔画像の傾向とパターンを新たに探索する。 提案した分析は,まず,8つのディープラーニングモデルを組み込んで,その性能を3種類の画像と区別して分析する。 次に,これら3つの画像の類似点と相違点について,画像全体のコンテキストと画像内の特定の領域のコンテキストの両方において,それらの画像特性を調査することによって検討する。 また,ANOVA試験も実施し,これら3種類の画像間のパターンについてさらに明瞭性を示した。 以上の結果から,VT Patch-16モデルでは,平均感度,特異度,精度,精度が97.37%,98.69%,97.48%,98.25%であった。 この観察は、様々な画像特性のさらなる解析によって裏付けられた。 画像の3つのカテゴリで顕著な違いが見られた。 この分析は、顔画像生成のためのより良いアルゴリズムを構築するのに役立つだけでなく、合成、ディープフェイク、および実際の顔画像が実際には3つの異なるクラスであることを示す。

With the ever-growing power of generative artificial intelligence, deepfake and artificially generated (synthetic) media have continued to spread online, which creates various ethical and moral concerns regarding their usage. To tackle this, we thus present a novel exploration of the trends and patterns observed in real, deepfake and synthetic facial images. The proposed analysis is done in two parts: firstly, we incorporate eight deep learning models and analyze their performances in distinguishing between the three classes of images. Next, we look to further delve into the similarities and differences between these three sets of images by investigating their image properties both in the context of the entire image as well as in the context of specific regions within the image. ANOVA test was also performed and provided further clarity amongst the patterns associated between the images of the three classes. From our findings, we observe that the investigated deeplearning models found it easier to detect synthetic facial images, with the ViT Patch-16 model performing best on this task with a class-averaged sensitivity, specificity, precision, and accuracy of 97.37%, 98.69%, 97.48%, and 98.25%, respectively. This observation was supported by further analysis of various image properties. We saw noticeable differences across the three category of images. This analysis can help us build better algorithms for facial image generation, and also shows that synthetic, deepfake and real face images are indeed three different classes.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# 時間依存ヒルベルト空間を持つ量子系の連続的処理

Consistent treatment of quantum systems with a time-dependent Hilbert space ( http://arxiv.org/abs/2404.01881v1 )

ライセンス: Link先を確認
Ali Mostafazadeh, (参考訳) 時間依存ヒルベルト空間を持つ系の量子力学に関するいくつかの基本的な問題を考察する。 我々はこれらの系を一貫した扱いを行い、時間に依存しないヒルベルト空間でそれらを記述する可能性に対処する。 一般に、ハミルトニアン作用素は、それが自己随伴作用素であるとしても、システムの可観測性を表すものではない。 これは、演算子値のゲージポテンシャルの存在から生じる量子力学の隠れ幾何学的な側面に関連している。 また、ヒルベルト空間が時間に依存しないベクトル空間と時間に依存しない内部積を持つことで得られる量子系を慎重に扱う。

We consider some basic problems associated with quantum mechanics of systems having a time-dependent Hilbert space. We provide a consistent treatment of these systems and address the possibility of describing them in terms of a time-independent Hilbert space. We show that in general the Hamiltonian operator does not represent an observable of the system even if it is a self-adjoint operator. This is related to a hidden geometric aspect of quantum mechanics arising from the presence of an operator-valued gauge potential. We also offer a careful treatment of quantum systems whose Hilbert space is obtained by endowing a time-independent vector space with a time-dependent inner product.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# イベントベースオブジェクト検出のためのシーン適応スパース変換器

Scene Adaptive Sparse Transformer for Event-based Object Detection ( http://arxiv.org/abs/2404.01882v1 )

ライセンス: Link先を確認
Yansong Peng, Hebei Li, Yueyi Zhang, Xiaoyan Sun, Feng Wu, (参考訳) 最近のTransformerベースのアプローチでは、イベントベースのオブジェクト検出タスクにおいて顕著なパフォーマンスを示しているが、その高い計算コストは、イベントカメラの低消費電力の利点を損なう。 画像ベースの作業は、スパーストランスフォーマーを導入して、これらのコストを削減しようとする。 しかし、これらの手法はトークンレベルのスペーシングの粒度とウィンドウベースのトランスフォーマーの効率のバランスが取れないので、イベントベースのオブジェクト検出に適用された場合、スパーシリティと適応性が不十分であり、性能と効率が低下する。 さらに、シーン固有の空間最適化が欠如し、情報損失とリコールレートが低下する。 これらの制約を克服するため,SAST (Scene Adaptive Sparse Transformer) を提案する。 SASTはウィンドウツーケンコスパーシフィケーションを可能にし、フォールトトレランスを大幅に向上し、計算オーバーヘッドを低減する。 Masked Sparse Window Self-Attentionとともに、革新的なスコアリングとセレクションモジュールを活用することで、SASTは、重要なオブジェクトのみに焦点を当て、シーンの複雑さに応じて空間レベルを動的に最適化し、パフォーマンスと計算コストの顕著なバランスを維持します。 評価の結果,SASTは2つの大規模イベントベースオブジェクト検出データセット(1MpxとGen1)の性能と効率の両方において,他の疎結合ネットワークよりも優れていた。 コード:https://github.com/Peterande/SAST

While recent Transformer-based approaches have shown impressive performances on event-based object detection tasks, their high computational costs still diminish the low power consumption advantage of event cameras. Image-based works attempt to reduce these costs by introducing sparse Transformers. However, they display inadequate sparsity and adaptability when applied to event-based object detection, since these approaches cannot balance the fine granularity of token-level sparsification and the efficiency of window-based Transformers, leading to reduced performance and efficiency. Furthermore, they lack scene-specific sparsity optimization, resulting in information loss and a lower recall rate. To overcome these limitations, we propose the Scene Adaptive Sparse Transformer (SAST). SAST enables window-token co-sparsification, significantly enhancing fault tolerance and reducing computational overhead. Leveraging the innovative scoring and selection modules, along with the Masked Sparse Window Self-Attention, SAST showcases remarkable scene-aware adaptability: It focuses only on important objects and dynamically optimizes sparsity level according to scene complexity, maintaining a remarkable balance between performance and computational cost. The evaluation results show that SAST outperforms all other dense and sparse networks in both performance and efficiency on two large-scale event-based object detection datasets (1Mpx and Gen1). Code: https://github.com/Peterande/SAST
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# スイッチングコストを考慮したアベレーティブバンド

Adversarial Combinatorial Bandits with Switching Costs ( http://arxiv.org/abs/2404.01883v1 )

ライセンス: Link先を確認
Yanyan Dong, Vincent Y. F. Tan, (参考訳) 本研究では,各ラウンドにおける各選択アームのスイッチングに対して,スイッチングコストが$\lambda$の対向組合せ帯域幅の問題について,バンド幅フィードバックと半帯域幅フィードバックの設定の両方を考慮して検討した。 基本アームが$K$、時間水平が$T$の曖昧な逆向きの場合、ミニマックスの後悔とそれにアプローチするための設計アルゴリズムの低い境界を導出する。 これらの下限を証明するため、Dekel et al (2014) の以前の研究から得られたアイデアに基づいて、両方のフィードバック設定に対する確率的損失列を設計する。 バンドイットフィードバックの低いバウンダリは$ \tilde{\Omega}\big( (\lambda K)^{\frac{1}{3}}\big)$であるが、半バンドイットフィードバックのバウンダリは$ \tilde{\Omega}\big( (\lambda K I)^{\frac{1}{3}}\big)$である。 これらの下位境界にアプローチするために、時間軸をバッチに分割してバッチ内で動作するアルゴリズムを設計し、アクション間のスイッチ数を制限する。 組合せアームの総損失のみが観測されるバンドイットフィードバック設定に対しては、$T$が無限大になる傾向にあるような、$\tilde{O}\big((\lambda K)^{\frac{1}{3}}T^{\frac{2}{3}}I^{\frac{4}{3}}\big)$の後悔の上界を達成するBatched-Exp2アルゴリズムを導入する。 組み合わせアームのすべての損失が観測される半帯域フィードバック設定では、Batched-BROADアルゴリズムが$\tilde{O}\big( (\lambda K)^{\frac{1}{3}} (TI)^{\frac{2}{3}}\big)$の償却上限を達成する。

We study the problem of adversarial combinatorial bandit with a switching cost $\lambda$ for a switch of each selected arm in each round, considering both the bandit feedback and semi-bandit feedback settings. In the oblivious adversarial case with $K$ base arms and time horizon $T$, we derive lower bounds for the minimax regret and design algorithms to approach them. To prove these lower bounds, we design stochastic loss sequences for both feedback settings, building on an idea from previous work in Dekel et al. (2014). The lower bound for bandit feedback is $ \tilde{\Omega}\big( (\lambda K)^{\frac{1}{3}} (TI)^{\frac{2}{3}}\big)$ while that for semi-bandit feedback is $ \tilde{\Omega}\big( (\lambda K I)^{\frac{1}{3}} T^{\frac{2}{3}}\big)$ where $I$ is the number of base arms in the combinatorial arm played in each round. To approach these lower bounds, we design algorithms that operate in batches by dividing the time horizon into batches to restrict the number of switches between actions. For the bandit feedback setting, where only the total loss of the combinatorial arm is observed, we introduce the Batched-Exp2 algorithm which achieves a regret upper bound of $\tilde{O}\big((\lambda K)^{\frac{1}{3}}T^{\frac{2}{3}}I^{\frac{4}{3}}\big)$ as $T$ tends to infinity. In the semi-bandit feedback setting, where all losses for the combinatorial arm are observed, we propose the Batched-BROAD algorithm which achieves a regret upper bound of $\tilde{O}\big( (\lambda K)^{\frac{1}{3}} (TI)^{\frac{2}{3}}\big)$.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# マイクロサービスは信頼性の低いデータベースに耐えられるか? 障害注入と可視化によるレジリエンステスト

Can My Microservice Tolerate an Unreliable Database? Resilience Testing with Fault Injection and Visualization ( http://arxiv.org/abs/2404.01886v1 )

ライセンス: Link先を確認
Michael Assad, Christopher Meiklejohn, Heather Miller, Stephan Krusche, (参考訳) マイクロサービスアプリケーションでは、データベースやサービス障害時のレジリエンスを確保することが大きな課題になります。 サービス障害に対するレジリエンステストにはいくつかのツールがあるが、特にデータベース障害に対するレジリエンステスト用に設計されたツールには、注目すべきギャップがある。 このギャップを埋めるため、私たちはデータベースクライアントのフォールトインジェクションの拡張を開発し、マイクロサービスアプリケーション内のサービスに既存のフォールトインジェクション用のツールであるFilibusterに統合しました。 我々のツールは、データベースの破壊を体系的にシミュレートし、アプリケーションレジリエンスの包括的なテストと評価を可能にする。 汎用性があり、Redis、Apache Cassandra、CockroachDB、PostgreSQL、DynamoDBなど、SQLおよびNoSQLデータベースシステムの両方をサポートする。 IntelliJ IDEプラグインは、インジェクションされた障害のタイプ、場所、影響に対する視覚的なフィードバックを提供する。 ツールの機能のデモはhttps://youtu.be/bvaUVCy1m1sで見ることができる。

In microservice applications, ensuring resilience during database or service disruptions constitutes a significant challenge. While several tools address resilience testing for service failures, there is a notable gap in tools specifically designed for resilience testing of database failures. To bridge this gap, we have developed an extension for fault injection in database clients, which we integrated into Filibuster, an existing tool for fault injection in services within microservice applications. Our tool systematically simulates database disruptions, thereby enabling comprehensive testing and evaluation of application resilience. It is versatile, supporting a range of both SQL and NoSQL database systems, such as Redis, Apache Cassandra, CockroachDB, PostgreSQL, and DynamoDB. A defining feature is its integration during the development phase, complemented by an IntelliJ IDE plugin, which offers developers visual feedback on the types, locations, and impacts of injected faults. A video demonstration of the tool's capabilities is accessible at https://youtu.be/bvaUVCy1m1s.
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# シーングラフからの3次元シーン生成と自己認識

3D Scene Generation from Scene Graphs and Self-Attention ( http://arxiv.org/abs/2404.01887v1 )

ライセンス: Link先を確認
Pietro Bonazzi, Mengqi Wang, Diego Martin Arroyo, Fabian Manhardt, Federico Tombari, (参考訳) リアルで多様な屋内3Dシーンレイアウトをコントロール可能な方法で合成することで、シミュレートされたナビゲーションとバーチャルリアリティーの応用が開かれる。 シーンの簡潔で堅牢な表現として、シーングラフは生成されたレイアウトのセマンティックコントロールとして適していることが証明されている。 本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。 我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用し、これらをモデルの構築ブロックとして使用します。 本モデルでは,室内の物体の大きさ,寸法,配向を推定するために,所定のシーングラフ内の関係を満足させながらグラフトランスフォーマーを利用する。 実験の結果,自己注意層はスペーサー (HOW MUCH) や,より多様なシーン (HOW MUCH) につながることがわかった。 本研究は,XXX部屋(フロアプランとシーングラフ)を含むシーングラフから条件付きシーン生成のための大規模データセットを初めて公開する。

Synthesizing realistic and diverse indoor 3D scene layouts in a controllable fashion opens up applications in simulated navigation and virtual reality. As concise and robust representations of a scene, scene graphs have proven to be well-suited as the semantic control on the generated layout. We present a variant of the conditional variational autoencoder (cVAE) model to synthesize 3D scenes from scene graphs and floor plans. We exploit the properties of self-attention layers to capture high-level relationships between objects in a scene, and use these as the building blocks of our model. Our model, leverages graph transformers to estimate the size, dimension and orientation of the objects in a room while satisfying relationships in the given scene graph. Our experiments shows self-attention layers leads to sparser (HOW MUCH) and more diverse scenes (HOW MUCH)\. Included in this work, we publish the first large-scale dataset for conditioned scene generation from scene graphs, containing over XXX rooms (of floor plans and scene graphs).
翻訳日:2024-04-03 16:38:36 公開日:2024-04-02
# RAVE:CLIP誘導バックライト画像強調のための残留ベクトル埋め込み

RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement ( http://arxiv.org/abs/2404.01889v1 )

ライセンス: Link先を確認
Tatiana Gaintseva, Marting Benning, Gregory Slabaugh, (参考訳) 本稿では,教師なしバックライト画像強調作業のためのコントラスト言語画像事前訓練(CLIP)の新たな修正を提案する。 この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。 学習したプロンプトは、画像拡張ネットワークをガイドする。 CLIP-LITフレームワークに基づいて,CLIP誘導のための2つの新しい手法を提案する。 まず、テキスト埋め込みの空間において、プロンプトをチューニングする代わりに、その埋め込みを直接、品質を損なうことなく調整できることを示す。 これにより、トレーニングが加速し、テキストエンコーダを持たない追加のエンコーダの使用が可能になる。 第2に,即時チューニングを必要としない新しい手法を提案する。 代わりに、トレーニングデータからのバックライト画像とバックライト画像のCLIP埋め込みに基づいて、埋め込み空間における残差ベクトルを、バックライト画像とバックライト画像の平均埋め込みとの単純な差として計算する。 このベクターはトレーニング中にエンハンスメントネットワークを誘導し、バックライトイメージを明るい画像の空間にプッシュする。 このアプローチはトレーニング時間を劇的に短縮し、トレーニングを安定化し、教師なしのトレーニング体制と教師なしのトレーニング体制の両方において、アーティファクトなしで高品質な画像を生成する。 さらに、残差ベクトルを解釈し、トレーニングデータのバイアスを明らかにし、潜在的なバイアス補正を可能にすることを示す。

In this paper we propose a novel modification of Contrastive Language-Image Pre-Training (CLIP) guidance for the task of unsupervised backlit image enhancement. Our work builds on the state-of-the-art CLIP-LIT approach, which learns a prompt pair by constraining the text-image similarity between a prompt (negative/positive sample) and a corresponding image (backlit image/well-lit image) in the CLIP embedding space. Learned prompts then guide an image enhancement network. Based on the CLIP-LIT framework, we propose two novel methods for CLIP guidance. First, we show that instead of tuning prompts in the space of text embeddings, it is possible to directly tune their embeddings in the latent space without any loss in quality. This accelerates training and potentially enables the use of additional encoders that do not have a text encoder. Second, we propose a novel approach that does not require any prompt tuning. Instead, based on CLIP embeddings of backlit and well-lit images from training data, we compute the residual vector in the embedding space as a simple difference between the mean embeddings of the well-lit and backlit images. This vector then guides the enhancement network during training, pushing a backlit image towards the space of well-lit images. This approach further dramatically reduces training time, stabilizes training and produces high quality enhanced images without artifacts, both in supervised and unsupervised training regimes. Additionally, we show that residual vectors can be interpreted, revealing biases in training data, and thereby enabling potential bias correction.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# ASTRA:サッカービデオのためのアクションスポッティングトラスフォーマー

ASTRA: An Action Spotting TRAnsformer for Soccer Videos ( http://arxiv.org/abs/2404.01891v1 )

ライセンス: Link先を確認
Artur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés, (参考訳) 本稿では,サッカーにおけるアクションスポッティングのためのトランスフォーマーモデルであるASTRAを紹介する。 ASTRAはタスクとデータセットに固有のいくつかの課題に対処し、正確なアクションローカライゼーションの要件、長いテールデータ分布の存在、特定のアクションの非可視性、固有のラベルノイズを含む。 そのため ASTRA は (a)トランスフォーマーエンコーダデコーダアーキテクチャにより、所望の出力時間分解を達成し、正確な予測を行う。 (b)データの長期分布を扱うためのバランスの取れた混合戦略 (c)ラベルの変動を捉える不確実性を考慮した変位ヘッド、及び (d)非可視動作の検出を強化するための入力音声信号。 その結果、ASTRAの有効性が示され、テストセット上で平均平均mAP66.82が達成された。 さらに、サッカーネット2023アクションスポッティングチャレンジでは、平均mAP70.21で3位を確保します。

In this paper, we introduce ASTRA, a Transformer-based model designed for the task of Action Spotting in soccer matches. ASTRA addresses several challenges inherent in the task and dataset, including the requirement for precise action localization, the presence of a long-tail data distribution, non-visibility in certain actions, and inherent label noise. To do so, ASTRA incorporates (a) a Transformer encoder-decoder architecture to achieve the desired output temporal resolution and to produce precise predictions, (b) a balanced mixup strategy to handle the long-tail distribution of the data, (c) an uncertainty-aware displacement head to capture the label variability, and (d) input audio signal to enhance detection of non-visible actions. Results demonstrate the effectiveness of ASTRA, achieving a tight Average-mAP of 66.82 on the test set. Moreover, in the SoccerNet 2023 Action Spotting challenge, we secure the 3rd position with an Average-mAP of 70.21 on the challenge set.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# バイアス補償による量子化出力誤差の最小化

Minimize Quantization Output Error with Bias Compensation ( http://arxiv.org/abs/2404.01892v1 )

ライセンス: Link先を確認
Cheng Gong, Haoshuai Zheng, Mengting Hu, Zheng Lin, Deng-Ping Fan, Yuzhi Zhang, Tao Li, (参考訳) 量子化は、ディープニューラルネットワーク(DNN)のメモリ使用量と計算強度を減少させる有望な手法であるが、しばしばモデル展開を妨げる大きな出力エラーを引き起こす。 本稿では,Bias Compensation (BC) を提案し,出力誤差を最小限に抑え,モデル微調整なしで超低精度量子化を実現する。 従来の方法のように非凸量子化過程を最適化する代わりに、BCは補償のためのバイアスベクトルを同定することによって、量子化出力誤差を直接最小化するステップをバイパスする。 我々は、BCによる出力誤差の最小化は凸問題であり、トレーニングや微調整を必要とせず、最小出力誤差に関連する最適解を得るための効率的な戦略を提供する。 我々はビジョントランスフォーマーモデルと大規模言語モデルに関する広範な実験を行い、本手法は量子化出力誤差を顕著に低減し、超低精度のポストトレーニング量子化を可能にし、モデルのタスク性能を向上することを示した。 特に、BCは、ImageNet-1kタスクで4ビットのPTQ4ViTでViT-Bの精度を36.89%改善し、WikiText2で3ビットのGPTQでOPT-350Mの難易度を5.97削減した。

Quantization is a promising method that reduces memory usage and computational intensity of Deep Neural Networks (DNNs), but it often leads to significant output error that hinder model deployment. In this paper, we propose Bias Compensation (BC) to minimize the output error, thus realizing ultra-low-precision quantization without model fine-tuning. Instead of optimizing the non-convex quantization process as in most previous methods, the proposed BC bypasses the step to directly minimize the quantizing output error by identifying a bias vector for compensation. We have established that the minimization of output error through BC is a convex problem and provides an efficient strategy to procure optimal solutions associated with minimal output error,without the need for training or fine-tuning. We conduct extensive experiments on Vision Transformer models and Large Language Models, and the results show that our method notably reduces quantization output error, thereby permitting ultra-low-precision post-training quantization and enhancing the task performance of models. Especially, BC improves the accuracy of ViT-B with 4-bit PTQ4ViT by 36.89% on the ImageNet-1k task, and decreases the perplexity of OPT-350M with 3-bit GPTQ by 5.97 on WikiText2.The code is in https://github.com/GongCheng1919/bias-compensation.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# 連続スパイクグラフニューラルネットワーク

Continuous Spiking Graph Neural Networks ( http://arxiv.org/abs/2404.01897v1 )

ライセンス: Link先を確認
Nan Yin, Mengzhu Wan, Li Shen, Hitesh Laxmichand Patel, Baopu Li, Bin Gu, Huan Xiong, (参考訳) 連続グラフニューラルネットワーク(CGNN)は、連続力学を導入して既存の離散グラフニューラルネットワーク(GNN)を一般化する能力により、大きな注目を集めている。 通常は拡散に基づく手法からインスピレーションを得て、通常の微分方程式(ODE)を用いて解析される新しい伝播スキームを導入する。 しかし、CGNNの実装には計算能力がかなり必要であり、バッテリー駆動デバイスへの展開が困難である。 生物学的推論プロセスをエミュレートし、エネルギー効率のよいニューラルネットワークを提供する最近のスパイキングニューラルネットワーク(SNN)に触発されて、SNNとCGNNを統合されたフレームワーク、Continuous Spiking Graph Neural Networks(COS-GNN)に組み込んだ。 我々は各ステップでグラフノード表現にSNNを使用し、時間とともにODEプロセスに統合される。 SNNにおける情報保存と情報損失を軽減するため,2次ODEをスパイク表現と連続伝播に用いたCOS-GNNの高次構造を導入する。 さらに、COS-GNNが爆発や消滅の問題を効果的に軽減し、ノード間の長距離依存関係を捕捉できるという理論的証明を提供する。 グラフベースの学習課題に関する実験結果から,提案したCOS-GNNの競争ベースラインに対する効果が示された。

Continuous graph neural networks (CGNNs) have garnered significant attention due to their ability to generalize existing discrete graph neural networks (GNNs) by introducing continuous dynamics. They typically draw inspiration from diffusion-based methods to introduce a novel propagation scheme, which is analyzed using ordinary differential equations (ODE). However, the implementation of CGNNs requires significant computational power, making them challenging to deploy on battery-powered devices. Inspired by recent spiking neural networks (SNNs), which emulate a biological inference process and provide an energy-efficient neural architecture, we incorporate the SNNs with CGNNs in a unified framework, named Continuous Spiking Graph Neural Networks (COS-GNN). We employ SNNs for graph node representation at each time step, which are further integrated into the ODE process along with time. To enhance information preservation and mitigate information loss in SNNs, we introduce the high-order structure of COS-GNN, which utilizes the second-order ODE for spiking representation and continuous propagation. Moreover, we provide the theoretical proof that COS-GNN effectively mitigates the issues of exploding and vanishing gradients, enabling us to capture long-range dependencies between nodes. Experimental results on graph-based learning tasks demonstrate the effectiveness of the proposed COS-GNN over competitive baselines.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# CodeLLMにおけるロバスト型予測のためのアクティベーションステアリング

Activation Steering for Robust Type Prediction in CodeLLMs ( http://arxiv.org/abs/2404.01903v1 )

ライセンス: Link先を確認
Francesca Lucchetti, Arjun Guha, (参考訳) コードで事前訓練された現代のLLMは、様々なプログラミングタスクで成功することができる。 しかし、それらのパフォーマンスは、変数や型の名前、コードの構造、型ヒントの存在など、構文的な特徴に非常に敏感である。 我々は,意味的に無関係な構文的障害に対して,CodeLLMsをより堅牢にするための推論時間技術に貢献している。 本手法は,内部モデルのアクティベーションを編集し,正しい予測に向けてモデルをステアリングする,アクティベーションステアリングに依存する。 我々は、最小限の意味論を破るコード編集を構成する突然変異テストからインスピレーションを得て、ステアリングベクターを構築する新しい方法に貢献する。 対照的に、セマンティクスを保存するコード編集からステアリングベクトルを構築する。 我々は、徐々に型付けされた言語であるPythonとTypeScriptの型予測タスクに、我々のアプローチを適用した。 このアプローチでは、最大90%の型誤予測が修正される。 最後に、Pythonアクティベーションから計算したステアリングベクターがTypeScriptの型誤予測を確実に正し、その逆であることを示す。 この結果は、LLMがプログラミング言語間で型に関する知識を伝達することを学んでいることを示唆している。

Contemporary LLMs pretrained on code are capable of succeeding at a wide variety of programming tasks. However, their performance is very sensitive to syntactic features, such as the names of variables and types, the structure of code, and presence of type hints. We contribute an inference-time technique to make CodeLLMs more robust to syntactic distractors that are semantically irrelevant. Our methodology relies on activation steering, which involves editing internal model activations to steer the model towards the correct prediction. We contribute a novel way to construct steering vectors by taking inspiration from mutation testing, which constructs minimal semantics-breaking code edits. In contrast, we construct steering vectors from semantics-preserving code edits. We apply our approach to the task of type prediction for the gradually typed languages Python and TypeScript. This approach corrects up to 90% of type mispredictions. Finally, we show that steering vectors calculated from Python activations reliably correct type mispredictions in TypeScript, and vice versa. This result suggests that LLMs may be learning to transfer knowledge of types across programming languages.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# 人為的マシン生成コンテンツ: 敵攻撃によるAIテキスト検出の活用

Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack ( http://arxiv.org/abs/2404.01907v1 )

ライセンス: Link先を確認
Ying Zhou, Ben He, Le Sun, (参考訳) 大規模言語モデル(LLM)の開発に伴い,偽情報の拡散,知的財産の保護,学術的盗作防止といった悪意あるユースケースに直面して,機械によるテキスト生成の検出がますます困難になる。 十分に訓練されたテキスト検出器は、目に見えないテストデータに対して有望な性能を示したが、最近の研究は、これらの検出器がパラフレージングのような敵の攻撃に対処する際に脆弱性があることを示唆している。 本稿では,機械が生成したコンテンツのわずかな摂動を回避し,検出を回避するために設計した,より広いレベルの敵攻撃のためのフレームワークを提案する。 我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、動的シナリオにおいて敵の学習を用い、そのような攻撃に対して現在の検出モデルの堅牢性を高める可能性を評価する。 実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。 さらに,反復的対人学習におけるモデルの堅牢性向上の可能性についても検討する。 モデルの堅牢性はいくつか改善されているが、実際的な応用は依然として重大な課題に直面している。 これらの発見は、AIテキスト検出装置の今後の発展に光を当て、より正確で堅牢な検出方法の必要性を強調した。

With the development of large language models (LLMs), detecting whether text is generated by a machine becomes increasingly challenging in the face of malicious use cases like the spread of false information, protection of intellectual property, and prevention of academic plagiarism. While well-trained text detectors have demonstrated promising performance on unseen test data, recent research suggests that these detectors have vulnerabilities when dealing with adversarial attacks such as paraphrasing. In this paper, we propose a framework for a broader class of adversarial attacks, designed to perform minor perturbations in machine-generated content to evade detection. We consider two attack settings: white-box and black-box, and employ adversarial learning in dynamic scenarios to assess the potential enhancement of the current detection model's robustness against such attacks. The empirical results reveal that the current detection models can be compromised in as little as 10 seconds, leading to the misclassification of machine-generated text as human-written content. Furthermore, we explore the prospect of improving the model's robustness over iterative adversarial learning. Although some improvements in model robustness are observed, practical applications still face significant challenges. These findings shed light on the future development of AI-text detectors, emphasizing the need for more accurate and robust detection methods.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# 混合臨界系の時限攻撃のためのマルチコアDRAMバンク・アンド・ロウ・コンフリクト爆弾

Multicore DRAM Bank-& Row-Conflict Bomb for Timing Attacks in Mixed-Criticality Systems ( http://arxiv.org/abs/2404.01910v1 )

ライセンス: Link先を確認
Antonio Savino, Gautam Gala, Marcello Cinque, Gerhard Fohler, (参考訳) 混合臨界システムを実現するためのマルチコアプラットフォームの利用の増加に伴い、コア間で共有されるメモリ階層などの基盤となる共有リソースの理解や、異なる臨界レベルを持つ同一プラットフォーム上で実行されるタスクの分離の実現が重要になる。 安全上の考慮に加えて、悪意のあるエンティティは共有リソースを利用して重要なアプリケーションに対するタイミングアタックを生成することができる。 本稿では,共有DRAM二重インラインメモリモジュールの理解に焦点をあて,マルチコアプラットフォームにおける被害者のタスクを狙うために,"bank & row conflict bomb" と名付けたタイミングアタックを作成した。 また、メモリコントローラによって被害者の要求がどのように管理されているかを理解し、銀行と行の衝突爆弾を設計するための貴重なインプットを提供する"ナビゲート"アルゴリズムを作成しました。 8GBのDDR4-2666 DRAMモジュールを搭載した第2世代Intel Xeonプロセッサで実験を行い、このような攻撃によって被害者タスクの実行時間が約150%増加し、重要なアプリケーションの安全性と安全性を確保するための適切な対策の必要性が示唆された。

With the increasing use of multicore platforms to realize mixed-criticality systems, understanding the underlying shared resources, such as the memory hierarchy shared among cores, and achieving isolation between co-executing tasks running on the same platform with different criticality levels becomes relevant. In addition to safety considerations, a malicious entity can exploit shared resources to create timing attacks on critical applications. In this paper, we focus on understanding the shared DRAM dual in-line memory module and created a timing attack, that we named the "bank & row conflict bomb", to target a victim task in a multicore platform. We also created a "navigate" algorithm to understand how victim requests are managed by the Memory Controller and provide valuable inputs for designing the bank & row conflict bomb. We performed experimental tests on a 2nd Gen Intel Xeon Processor with an 8GB DDR4-2666 DRAM module to show that such an attack can produce a significant increase in the execution time of the victim task by about 150%, motivating the need for proper countermeasures to help ensure the safety and security of critical applications.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# VLRM:イメージキャプションのためのリワードモデルとして機能するビジョンランゲージモデル

VLRM: Vision-Language Models act as Reward Models for Image Captioning ( http://arxiv.org/abs/2404.01911v1 )

ライセンス: Link先を確認
Maksim Dzabraev, Alexander Kunitsyn, Andrei Ivaniuta, (参考訳) 本稿では,CLIP や BLIP2-ITM などの視覚言語モデルを用いて,画像キャプションモデル(BLIP2) を向上するための教師なし手法を提案する。 RLで調整されたモデルは、より長くより包括的な記述を生成することができる。 われわれのモデルはMS-COCO Carpathy Test Splitで0.90 R@1 CLIP Recallスコアに達した。 重量はhttps://huggingface.co/sashakunitsyn/vlrm-blip2-opt-2.7bで確認できる。

In this work, we present an unsupervised method for enhancing an image captioning model (in our case, BLIP2) using reinforcement learning and vision-language models like CLIP and BLIP2-ITM as reward models. The RL-tuned model is able to generate longer and more comprehensive descriptions. Our model reaches impressive 0.90 R@1 CLIP Recall score on MS-COCO Carpathy Test Split. Weights are available at https://huggingface.co/sashakunitsyn/vlrm-blip2-opt-2.7b.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# なぜ量子ゼノ効果によって宇宙が凍結されないのか?

Why is the universe not frozen by the quantum Zeno effect? ( http://arxiv.org/abs/2404.01913v1 )

ライセンス: Link先を確認
Antoine Soulas, (参考訳) 本研究では,2レベルシステムの自由内部進化と環境との相互作用によって引き起こされるデコヒーレンスとのユビキタスな競合をシミュレートする離散モデルを構築した。 できるだけ普遍的であることを目標としており、具体的にハミルトニアンが仮定されることはない。 これにより、短時間のデコヒーレンスレベルによって分析的基準が導かれ、ゼノ効果によりシステムが凍結するかどうかが決定される。 この基準を、異なる物理的状況に対応するいくつかの関数のクラスで検証する。 最も一般的な場合、自由進化はデコヒーレンスに勝って、宇宙が実際に凍っていない理由を説明する。

We build a discrete model that simulates the ubiquitous competition between the free internal evolution of a two-level system and the decoherence induced by the interaction with its surrounding environment. It is aimed at being as universal as possible, so that no specific Hamiltonian is assumed. This leads to an analytic criterion, depending on the level of short time decoherence, allowing to determine whether the system will freeze due to the Zeno effect. We check this criterion on several classes of functions which correspond to different physical situations. In the most generic case, the free evolution wins over decoherence, thereby explaining why the universe is indeed not frozen.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# SCANNER: 未知のエンティティのロバストなマルチモーダル名前付きエンティティ認識のための知識強化アプローチ

SCANNER: Knowledge-Enhanced Approach for Robust Multi-modal Named Entity Recognition of Unseen Entities ( http://arxiv.org/abs/2404.01914v1 )

ライセンス: Link先を確認
Hyunjong Ok, Taeho Kil, Sukmin Seo, Jaeho Lee, (参考訳) 名前付きエンティティ認識(NER)の最近の進歩は、タスクの境界を視覚信号に組み込むように押し付け、マルチモーダルNER(MNER)やグラウンドドMNER(GMNER)など多くのバリエーションを生み出している。 これらのタスクの重要な課題は、トレーニング中に見つからないエンティティにモデルを一般化し、ノイズの多いアノテーションでトレーニングサンプルを処理できることである。 この障害に対処するために,3つのNER変種を効果的に扱えるモデルであるSCANNER(Span CANdidate Detection and Recognition for NER)を提案する。 SCANNERは2段階構造であり、まずエンティティ候補を抽出し、知識を得るためのクエリとして利用し、様々な情報源から効果的に知識を引き出す。 このエンティティ中心の抽出された知識を利用して、目に見えないエンティティに対処することで、パフォーマンスを向上させることができます。 さらに,NERデータセットにおけるノイズの多いアノテーションから生じる課題に対処するため,不確実性のあるトレーニングデータ処理におけるモデルの堅牢性と正確性を向上させる,新しい自己蒸留手法を提案する。 提案手法は,NERベンチマーク上での競合性能を示し,MNERベンチマークとGMNERベンチマークの両方の既存手法を上回ります。 さらに分析した結果, 提案した蒸留法と知識利用法により, 種々のベンチマークにおいて, モデルの性能が向上することがわかった。

Recent advances in named entity recognition (NER) have pushed the boundary of the task to incorporate visual signals, leading to many variants, including multi-modal NER (MNER) or grounded MNER (GMNER). A key challenge to these tasks is that the model should be able to generalize to the entities unseen during the training, and should be able to handle the training samples with noisy annotations. To address this obstacle, we propose SCANNER (Span CANdidate detection and recognition for NER), a model capable of effectively handling all three NER variants. SCANNER is a two-stage structure; we extract entity candidates in the first stage and use it as a query to get knowledge, effectively pulling knowledge from various sources. We can boost our performance by utilizing this entity-centric extracted knowledge to address unseen entities. Furthermore, to tackle the challenges arising from noisy annotations in NER datasets, we introduce a novel self-distillation method, enhancing the robustness and accuracy of our model in processing training data with inherent uncertainties. Our approach demonstrates competitive performance on the NER benchmark and surpasses existing methods on both MNER and GMNER benchmarks. Further analysis shows that the proposed distillation and knowledge utilization methods improve the performance of our model on various benchmarks.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# クロスドキュメントイベント参照解決のためのライナリー中心の対実データ拡張手法

A Rationale-centric Counterfactual Data Augmentation Method for Cross-Document Event Coreference Resolution ( http://arxiv.org/abs/2404.01921v1 )

ライセンス: Link先を確認
Bowen Ding, Qingkai Min, Shengkun Ma, Yingjie Li, Linyi Yang, Yue Zhang, (参考訳) 事前訓練された言語モデル(PLM)に基づいて、イベントコア参照解決(ECR)システムは、文書間でコアイベントをクラスタリングする際、顕著なパフォーマンスを示した。 しかし,既存のシステムでは,入力参照ペアテキストの「トリガー語彙マッチング」パターンに過度に依存している。 本研究では, 構造因果モデル(Structure Causal Model, SCM)を用いて, ベースラインECRシステムの意思決定過程を定式化し, ECRタスク内での突発的・因果的関連(理性)の同定を目的とする。 LLM-in-the-loop を用いた有理中心の反実データ拡張法を開発した。 本手法は, 因果関係の緩和を図り, 因果関係を強調しつつ, 引き金や文脈の直接的介入を行うECRシステムにおいて, ペア入力に特化している。 提案手法は,3つのクロスドキュメント ECR ベンチマークの最先端性能を実現し,ドメイン外シナリオの堅牢性を実証する。

Based on Pre-trained Language Models (PLMs), event coreference resolution (ECR) systems have demonstrated outstanding performance in clustering coreferential events across documents. However, the existing system exhibits an excessive reliance on the `triggers lexical matching' spurious pattern in the input mention pair text. We formalize the decision-making process of the baseline ECR system using a Structural Causal Model (SCM), aiming to identify spurious and causal associations (i.e., rationales) within the ECR task. Leveraging the debiasing capability of counterfactual data augmentation, we develop a rationale-centric counterfactual data augmentation method with LLM-in-the-loop. This method is specialized for pairwise input in the ECR system, where we conduct direct interventions on triggers and context to mitigate the spurious association while emphasizing the causation. Our approach achieves state-of-the-art performance on three popular cross-document ECR benchmarks and demonstrates robustness in out-of-domain scenarios.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# SGSH:知識ベース質問生成のためのスケルトンヒューリスティックを用いた大規模言語モデルの構築

SGSH: Stimulate Large Language Models with Skeleton Heuristics for Knowledge Base Question Generation ( http://arxiv.org/abs/2404.01923v1 )

ライセンス: Link先を確認
Shasha Guo, Lizi Liao, Jing Zhang, Yanling Wang, Cuiping Li, Hong Chen, (参考訳) 知識ベース質問生成(KBQG)は、KBから抽出された3つの事実の集合から自然言語の質問を生成することを目的としている。 既存の手法は、豊かに提供されたセマンティック知識のおかげで、事前訓練された言語モデル(PLM)を介してKBQGの性能を大幅に向上させた。 事前学習技術の進歩により、大きな言語モデル (LLM) (例: GPT-3.5) は間違いなくより意味的な知識を持っている。 そのため,KBQGの豊富な知識を効果的に整理し,活用する方法が本研究の焦点となっている。 本研究では, KBQG を向上するスケルトンヒューリスティックスを用いて GPT-3.5 を刺激するための簡易かつ効果的なフレームワーク SGSH を提案する。 具体的には,ChatGPTを利用した骨格学習データセット構築のための自動データ構築戦略を考案し,各入力に関連付けられた骨格生成専用のBARTモデルをソフト・プロンプト・アプローチで学習する。 その後、骨格ヒューリスティックがGPT-3.5にインセンティブを与えて望ましい質問を生成するプロンプトにエンコードされる。 大規模な実験により、SGSHはKBQGタスクにおける新しい最先端性能を導出することを示した。

Knowledge base question generation (KBQG) aims to generate natural language questions from a set of triplet facts extracted from KB. Existing methods have significantly boosted the performance of KBQG via pre-trained language models (PLMs) thanks to the richly endowed semantic knowledge. With the advance of pre-training techniques, large language models (LLMs) (e.g., GPT-3.5) undoubtedly possess much more semantic knowledge. Therefore, how to effectively organize and exploit the abundant knowledge for KBQG becomes the focus of our study. In this work, we propose SGSH--a simple and effective framework to Stimulate GPT-3.5 with Skeleton Heuristics to enhance KBQG. The framework incorporates "skeleton heuristics", which provides more fine-grained guidance associated with each input to stimulate LLMs to generate optimal questions, encompassing essential elements like the question phrase and the auxiliary verb.More specifically, we devise an automatic data construction strategy leveraging ChatGPT to construct a skeleton training dataset, based on which we employ a soft prompting approach to train a BART model dedicated to generating the skeleton associated with each input. Subsequently, skeleton heuristics are encoded into the prompt to incentivize GPT-3.5 to generate desired questions. Extensive experiments demonstrate that SGSH derives the new state-of-the-art performance on the KBQG tasks.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# 効率的な視覚ジャイロスコープに向けて:球面カメラ応用のための球運動,高調波フィルタ,マスキング技術

Toward Efficient Visual Gyroscopes: Spherical Moments, Harmonics Filtering, and Masking Techniques for Spherical Camera Applications ( http://arxiv.org/abs/2404.01924v1 )

ライセンス: Link先を確認
Yao Du, Carlos M. Mateo, Mirjana Maras, Tsun-Hsuan Wang, Marc Blanchon, Alexander Amini, Daniela Rus, Omar Tahri, (参考訳) 従来のジャイロスコープとは異なり、視覚ジャイロスコープは画像を通してカメラの回転を推定する。 従来のRGBカメラに比べて視野が広い全方位カメラの統合は、より正確で堅牢な結果をもたらすことが証明されている。 しかし、特徴が欠如し、重大なノイズが発生し、画像の特定の特徴が十分な強度に欠けており、正確な予測結果が得られない状況において、課題が生じる。 本稿では,解析手法とニューラルネットワーク手法を組み合わせた新しい視覚ジャイロスコープを導入することにより,球面画像からのより効率的かつ正確な回転推定を実現する。 提案手法は,球面モーメント係数を計算するための適応的解析手法,グローバルな特徴表現を改善するためのマスクの導入,マスクとフィルタの最適組み合わせを適応的に選択するための多層パーセプトロンの利用,の3つの重要な貢献に依存している。 実験により,提案手法の精度において優れた性能を示した。 分析ソリューションを最適化し、制限について議論し、将来の研究の方向性を提案するため、機械学習を統合する利点を強調した。

Unlike a traditional gyroscope, a visual gyroscope estimates camera rotation through images. The integration of omnidirectional cameras, offering a larger field of view compared to traditional RGB cameras, has proven to yield more accurate and robust results. However, challenges arise in situations that lack features, have substantial noise causing significant errors, and where certain features in the images lack sufficient strength, leading to less precise prediction results. Here, we address these challenges by introducing a novel visual gyroscope, which combines an analytical method with a neural network approach to provide a more efficient and accurate rotation estimation from spherical images. The presented method relies on three key contributions: an adapted analytical approach to compute the spherical moments coefficients, introduction of masks for better global feature representation, and the use of a multilayer perceptron to adaptively choose the best combination of masks and filters. Experimental results demonstrate superior performance of the proposed approach in terms of accuracy. The paper emphasizes the advantages of integrating machine learning to optimize analytical solutions, discusses limitations, and suggests directions for future research.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# タスク分解による鳥の視線セマンティックセマンティックセグメンテーションの改善

Improving Bird's Eye View Semantic Segmentation by Task Decomposition ( http://arxiv.org/abs/2404.01925v1 )

ライセンス: Link先を確認
Tianhao Zhao, Yongcan Chen, Yu Wu, Tianyang Liu, Bo Du, Peilun Xiao, Shi Qiu, Hongda Yang, Guozhen Li, Yi Yang, Yutian Lin, (参考訳) 鳥眼ビュー(BEV)におけるセマンティックセグメンテーションは自律運転において重要な役割を担っている。 従来の手法は通常エンドツーエンドのパイプラインに従っており、モノクラーRGB入力からBEVセグメンテーションマップを直接予測する。 しかし、RGB入力とBEVが異なる視点からターゲットとすることで、直接的にポイント・ツー・ポイントを予測するのが難しくなる。 本稿では,元のBEV分割タスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。 第1段階では,BEVオートエンコーダを訓練して,劣化した雑音の潜在表現を付与したBEVセグメンテーションマップを再構築し,典型的なBEVパターンの基本的な知識をデコーダに学習させる。 第2ステージでは、RGB入力画像を第1ステージのBEV潜在空間にマッピングし、特徴レベルでの2つのビュー間の相関を直接最適化する。 我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。 さらに,BEV分割マップをカルテアンから極座標系に変換し,RGB画像とBEVマップのカラムワイド対応を確立することを提案する。 さらに,深度推定にはマルチスケールの特徴もカメラ固有のパラメータも必要とせず,計算オーバーヘッドを削減できる。 nuScenes と Argoverse の大規模な実験により,本手法の有効性と有効性を示した。 コードはhttps://github.com/happytianhao/TaDe.comで入手できる。

Semantic segmentation in bird's eye view (BEV) plays a crucial role in autonomous driving. Previous methods usually follow an end-to-end pipeline, directly predicting the BEV segmentation map from monocular RGB inputs. However, the challenge arises when the RGB inputs and BEV targets from distinct perspectives, making the direct point-to-point predicting hard to optimize. In this paper, we decompose the original BEV segmentation task into two stages, namely BEV map reconstruction and RGB-BEV feature alignment. In the first stage, we train a BEV autoencoder to reconstruct the BEV segmentation maps given corrupted noisy latent representation, which urges the decoder to learn fundamental knowledge of typical BEV patterns. The second stage involves mapping RGB input images into the BEV latent space of the first stage, directly optimizing the correlations between the two views at the feature level. Our approach simplifies the complexity of combining perception and generation into distinct steps, equipping the model to handle intricate and challenging scenes effectively. Besides, we propose to transform the BEV segmentation map from the Cartesian to the polar coordinate system to establish the column-wise correspondence between RGB images and BEV maps. Moreover, our method requires neither multi-scale features nor camera intrinsic parameters for depth estimation and saves computational overhead. Extensive experiments on nuScenes and Argoverse show the effectiveness and efficiency of our method. Code is available at https://github.com/happytianhao/TaDe.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# EBUS-TBNAにおける肺がん病変解析の高度化に向けて -- 半監督ビデオオブジェクト検出法-

Towards Enhanced Analysis of Lung Cancer Lesions in EBUS-TBNA -- A Semi-Supervised Video Object Detection Method ( http://arxiv.org/abs/2404.01929v1 )

ライセンス: Link先を確認
Jyun-An Lin, Yun-Chien Cheng, Ching-Kai Lin, (参考訳) 本研究の目的は,気管支内視鏡検査(EBUS)による肺病変の診断システムを構築し,病変部位の同定を支援することである。 EBUS-TBNA (EBUS-transbronchial needle aspiration) 術中、医師は病変の位置をグレースケールの超音波画像に頼っている。 しかし、これらの画像は大きなノイズを伴い、周囲の組織や血管の影響を受けやすいため、解釈は困難である。 これまでの研究では、EBUS-TBNAへのオブジェクト検出モデルの適用が欠けており、EBUS-TBNAデータセットに注釈をつけるための明確な解決策は存在していない。 超音波画像の関連研究では、各タスクのターゲット領域の取得に成功しているが、トレーニングと予測は2次元画像に基づいており、時間的特徴を活用して予測を改善する能力が制限されている。 本研究では3次元画像に基づく物体検出モデルを提案する。 時間的相関を捕捉するアテンション機構を利用して,従来のフレームから関連情報を選択するフィルタ機構を実装する。 その後、教師-学生モデルトレーニングアプローチを用いて、未ラベルデータを活用することにより、モデルをさらに最適化する。 学生モデルに対する質の悪い擬似ラベルの影響を軽減するため、擬似ラベルの品質を確保するため、特殊なガウス混合モデル(GMM)を追加する。

This study aims to establish a computer-aided diagnostic system for lung lesions using bronchoscope endobronchial ultrasound (EBUS) to assist physicians in identifying lesion areas. During EBUS-transbronchial needle aspiration (EBUS-TBNA) procedures, physicians rely on grayscale ultrasound images to determine the location of lesions. However, these images often contain significant noise and can be influenced by surrounding tissues or blood vessels, making interpretation challenging. Previous research has lacked the application of object detection models to EBUS-TBNA, and there has been no well-defined solution for annotating the EBUS-TBNA dataset. In related studies on ultrasound images, although models have been successful in capturing target regions for their respective tasks, their training and predictions have been based on two-dimensional images, limiting their ability to leverage temporal features for improved predictions. This study introduces a three-dimensional image-based object detection model. It utilizes an attention mechanism to capture temporal correlations and we will implements a filtering mechanism to select relevant information from previous frames. Subsequently, a teacher-student model training approach is employed to optimize the model further, leveraging unlabeled data. To mitigate the impact of poor-quality pseudo-labels on the student model, we will add a special Gaussian Mixture Model (GMM) to ensure the quality of pseudo-labels.
翻訳日:2024-04-03 16:28:46 公開日:2024-04-02
# Adaptive Combinatorial Maximization: 近似グリーディポリシーを超えて

Adaptive Combinatorial Maximization: Beyond Approximate Greedy Policies ( http://arxiv.org/abs/2404.01930v1 )

ライセンス: Link先を確認
Shlomi Weitzman, Sivan Sabato, (参考訳) 我々は、機械学習における中核的な課題である適応的組合せ最大化(Adaptive combinatorial maximization)について研究する。 ベイズの設定について検討し、基準制約と最小コストカバレッジの下での最大化の目的について考察する。 我々は、以前の結果をサブスメイトし、それらを大幅に強化する新しい包括的近似保証を提供する。 我々の近似は最大ゲイン比と準モジュラーなユーティリティ関数を同時にサポートし、濃度制約の下での最大化と最小コストカバレッジ保証の両方を含む。 さらに,修正前の確率に依存しないアクティブな学習保証を得るためには,修正前の確率を近似保証する。 さらに,適応選択政策のパラメータを新たに発見し,これを「最大ゲイン比」と呼ぶ。 このパラメータは, 従来の近似保証に使用されていたグリーディ近似パラメータよりも厳密に制限されていないことを示し, 従来の結果よりも強い近似保証を提供できることを示す。 特に、最大ゲイン比が政策のグリーディ近似因子より大きくないことを示し、それよりもかなり小さくできることを示した。 これは、アダプティブな組合せの最大化に有用なポリシーを作る性質に関する新しい洞察を与える。

We study adaptive combinatorial maximization, which is a core challenge in machine learning, with applications in active learning as well as many other domains. We study the Bayesian setting, and consider the objectives of maximization under a cardinality constraint and minimum cost coverage. We provide new comprehensive approximation guarantees that subsume previous results, as well as considerably strengthen them. Our approximation guarantees simultaneously support the maximal gain ratio as well as near-submodular utility functions, and include both maximization under a cardinality constraint and a minimum cost coverage guarantee. In addition, we provided an approximation guarantee for a modified prior, which is crucial for obtaining active learning guarantees that do not depend on the smallest probability in the prior. Moreover, we discover a new parameter of adaptive selection policies, which we term the "maximal gain ratio". We show that this parameter is strictly less restrictive than the greedy approximation parameter that has been used in previous approximation guarantees, and show that it can be used to provide stronger approximation guarantees than previous results. In particular, we show that the maximal gain ratio is never larger than the greedy approximation factor of a policy, and that it can be considerably smaller. This provides a new insight into the properties that make a policy useful for adaptive combinatorial maximization.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# ブリッジング言語、ビジョン、アクション:ロボット操作タスクにおけるマルチモーダルVAE

Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks ( http://arxiv.org/abs/2404.01932v1 )

ライセンス: Link先を確認
Gabriela Sejnova, Michal Vavrecka, Karla Stepanova, (参考訳) 本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに焦点を当てた。 近年,この課題に対して,事前学習型大規模言語と視覚モデルを用いた複数のアプローチが提案されている。 しかし、それらは計算的に要求され、生成した出力を慎重に微調整する必要がある。 より軽量な代替手段はマルチモーダル変分オートエンコーダ(VAE)の実装であり、これはデータの潜伏した特徴を抽出し、それらを関節表現に統合することができる。 そこで本研究では,シミュレーション環境下での非教師なしロボット操作作業において,マルチモーダルVAEをいかに活用できるかについて検討する。 得られた結果に基づいて,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。 さらに,物体やロボットの位置の変動,邪魔者の数,タスクの長さなど,個々のタスクによって生じる課題を体系的に評価する。 我々の研究は、視覚と言語に基づくロボット運動軌跡の教師なし学習に、現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。

In this work, we focus on unsupervised vision-language-action mapping in the area of robotic manipulation. Recently, multiple approaches employing pre-trained large language and vision models have been proposed for this task. However, they are computationally demanding and require careful fine-tuning of the produced outputs. A more lightweight alternative would be the implementation of multimodal Variational Autoencoders (VAEs) which can extract the latent features of the data and integrate them into a joint representation, as has been demonstrated mostly on image-image or image-text data for the state-of-the-art models. Here we explore whether and how can multimodal VAEs be employed in unsupervised robotic manipulation tasks in a simulated environment. Based on the obtained results, we propose a model-invariant training alternative that improves the models' performance in a simulator by up to 55%. Moreover, we systematically evaluate the challenges raised by the individual tasks such as object or robot position variability, number of distractors or the task length. Our work thus also sheds light on the potential benefits and limitations of using the current multimodal VAEs for unsupervised learning of robotic motion trajectories based on vision and language.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# PreGO:PRocedural EGOセントリックビデオにおけるオンラインエラー検出

PREGO: online mistake detection in PRocedural EGOcentric videos ( http://arxiv.org/abs/2404.01933v1 )

ライセンス: Link先を確認
Alessandro Flaborea, Guido Maria D'Amely di Melendugno, Leonardo Plini, Luca Scofano, Edoardo De Matteis, Antonino Furnari, Giovanni Maria Farinella, Fabio Galasso, (参考訳) オンライン設定で、エゴセントリックなビデオから手続き的エラーを素早く特定することは、間違いをすぐに検出する上で非常に困難で価値のあることです。 この能力は、製造業や医療など、さまざまな分野に適用できる。 手続き的ミスの性質は、新しいタイプの失敗が起こる可能性があり、正しく実行される手順で訓練された一級分類器を要求するため、オープンセットである。 しかし、現在、オープンセットの手続き上の誤りをオンラインで検出する技術はない。 PRocedural EGO 中心ビデオにおける誤り検出のためのオンライン一級分類モデル PreGO を提案する。 PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。 認識された現在の動作と期待される将来の動作とを比較して誤検出を行う。 我々は、手続き的誤り検出のオンラインベンチマークに適応し、適切なベンチマークを確立するための2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価し、それぞれAmbly101-OとEpic-tent-Oを定義した。

Promptly identifying procedural errors from egocentric videos in an online setting is highly challenging and valuable for detecting mistakes as soon as they happen. This capability has a wide range of applications across various fields, such as manufacturing and healthcare. The nature of procedural mistakes is open-set since novel types of failures might occur, which calls for one-class classifiers trained on correctly executed procedures. However, no technique can currently detect open-set procedural mistakes online. We propose PREGO, the first online one-class classification model for mistake detection in PRocedural EGOcentric videos. PREGO is based on an online action recognition component to model the current action, and a symbolic reasoning module to predict the next actions. Mistake detection is performed by comparing the recognized current action with the expected future one. We evaluate PREGO on two procedural egocentric video datasets, Assembly101 and Epic-tent, which we adapt for online benchmarking of procedural mistake detection to establish suitable benchmarks, thus defining the Assembly101-O and Epic-tent-O datasets, respectively.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# シナリオ概念の完全性論に向けて

Towards a Completeness Argumentation for Scenario Concepts ( http://arxiv.org/abs/2404.01934v1 )

ライセンス: Link先を確認
Christoph Glasmacher, Hendrik Weber, Lutz Eckstein, (参考訳) シナリオベースのテストは、自動運転車の安全性を保証するために、現実の交通の複雑さを克服するための有望なアプローチとなっている。 シナリオベースのテストでは、テスト対象のシステムは、事前に定義されたシナリオのセットに直面します。 このセットは、実際のテストと比較して、オープンコンテキストで動作する自動車両のより効率的なテストを保証する。 しかし、シナリオカタログが十分に安全な運転関数の議論を可能にするのに十分なオープンコンテキストをカバーできるかどうか、どのように証明できるかが問題となる。 本稿では,目標構造表記を用いたシナリオ概念の完全性について論じる手法を提案する。 これにより、完全性とカバレッジの区別が議論される。 どちらも、合理化された議論と証拠に関する手法が提案されている。 これらの手法はシナリオの概念とinDデータセットに適用され、ユーザビリティが証明される。

Scenario-based testing has become a promising approach to overcome the complexity of real-world traffic for safety assurance of automated vehicles. Within scenario-based testing, a system under test is confronted with a set of predefined scenarios. This set shall ensure more efficient testing of an automated vehicle operating in an open context compared to real-world testing. However, the question arises if a scenario catalog can cover the open context sufficiently to allow an argumentation for sufficiently safe driving functions and how this can be proven. Within this paper, a methodology is proposed to argue a sufficient completeness of a scenario concept using a goal structured notation. Thereby, the distinction between completeness and coverage is discussed. For both, methods are proposed for a streamlined argumentation and regarding evidence. These methods are applied to a scenario concept and the inD dataset to prove the usability.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# ビッグデータクラスタリングにおける時間と精度のトレードオフ

Settling Time vs. Accuracy Tradeoffs for Clustering Big Data ( http://arxiv.org/abs/2404.01936v1 )

ライセンス: Link先を確認
Andrew Draganov, David Saulpic, Chris Schwiegelshohn, (参考訳) 大規模データセット上でのk-meansおよびk-medianクラスタリングの理論的および実用的な実行限界について検討する。 事実上、すべてのクラスタリングメソッドはデータセットを読むのに要する時間よりも遅いので、最も高速なアプローチは、データを素早く圧縮し、圧縮された表現上でクラスタリングを実行することである。 残念なことに、点数を圧縮するための普遍的な選択は存在しない - ランダムサンプリングはサブ線形時間で実行され、コアセットは理論的な保証を提供するが、前者は精度を強制しないが、後者は点数やクラスタの数が増えるにつれて遅すぎる。 実際、感度に基づくコアセットの構成はデータセットサイズにおいて超線形時間を必要とすると推測されている。 この関係は、データを読み取るのに要する時間をログファクター内で、効果的に線形時間で感度サンプリングによってコアセットを得るアルゴリズムがあることを最初に示すことで検証する。 これに関して大幅に改善されるアプローチは、実用的なヒューリスティックスに頼らなければならないため、静的およびストリーミング設定において、実データと人工データセットの両方にわたるサンプリング戦略のスペクトルを考える必要がある。 これにより,クラスタの有効性を維持するためにコアセットが必要な条件と,より高速で粗いサンプリング戦略が十分である設定を示す。 その結果,データサイズによらず,効果的なクラスタリングを行うための総合的な理論的,実践的な青写真が得られた。 私たちのコードは公開されており、実験を再現するためのスクリプトがあります。

We study the theoretical and practical runtime limits of k-means and k-median clustering on large datasets. Since effectively all clustering methods are slower than the time it takes to read the dataset, the fastest approach is to quickly compress the data and perform the clustering on the compressed representation. Unfortunately, there is no universal best choice for compressing the number of points - while random sampling runs in sublinear time and coresets provide theoretical guarantees, the former does not enforce accuracy while the latter is too slow as the numbers of points and clusters grow. Indeed, it has been conjectured that any sensitivity-based coreset construction requires super-linear time in the dataset size. We examine this relationship by first showing that there does exist an algorithm that obtains coresets via sensitivity sampling in effectively linear time - within log-factors of the time it takes to read the data. Any approach that significantly improves on this must then resort to practical heuristics, leading us to consider the spectrum of sampling strategies across both real and artificial datasets in the static and streaming settings. Through this, we show the conditions in which coresets are necessary for preserving cluster validity as well as the settings in which faster, cruder sampling strategies are sufficient. As a result, we provide a comprehensive theoretical and practical blueprint for effective clustering regardless of data size. Our code is publicly available and has scripts to recreate the experiments.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# サイバー犯罪の理解向上に向けて : 翻訳における微調整LDMの役割

Towards Better Understanding of Cybercrime: The Role of Fine-Tuned LLMs in Translation ( http://arxiv.org/abs/2404.01940v1 )

ライセンス: Link先を確認
Veronica Valeros, Anna Širokova, Carlos Catania, Sebastian Garcia, (参考訳) サイバー犯罪通信を理解することはサイバーセキュリティ防衛にとって最重要課題である。 これはしばしば、処理、解釈、タイムリーなインテリジェンスを生成するために、英語に通信を翻訳する。 問題は翻訳が難しいことです。 人間の翻訳は遅く、高価で、少ない。 機械翻訳は不正確で偏りがある。 我々は,サイバー犯罪言語のニュアンスを正確に捉えることができる翻訳を生成するために,細調整のLarge Language Models (LLM) を提案する。 我々は,ロシア語を話すハクティビストグループNoName05716の公開チャットに適用する。 以上の結果から,我々の微調整 LLM モデルはより良く,より速く,より正確で,言語のニュアンスを捉えることができることがわかった。 提案手法は, 高忠実度翻訳が可能であり, 翻訳者に比べて430~23,000のコスト削減が可能であることを示す。

Understanding cybercrime communications is paramount for cybersecurity defence. This often involves translating communications into English for processing, interpreting, and generating timely intelligence. The problem is that translation is hard. Human translation is slow, expensive, and scarce. Machine translation is inaccurate and biased. We propose using fine-tuned Large Language Models (LLM) to generate translations that can accurately capture the nuances of cybercrime language. We apply our technique to public chats from the NoName057(16) Russian-speaking hacktivist group. Our results show that our fine-tuned LLM model is better, faster, more accurate, and able to capture nuances of the language. Our method shows it is possible to achieve high-fidelity translations and significantly reduce costs by a factor ranging from 430 to 23,000 compared to a human translator.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# LPSNet: エンド・ツー・エンドヒューマン・ポースとレンズレスイメージングによる形状推定

LPSNet: End-to-End Human Pose and Shape Estimation with Lensless Imaging ( http://arxiv.org/abs/2404.01941v1 )

ライセンス: Link先を確認
Haoyang Ge, Qiao Feng, Hailong Jia, Xiongzheng Li, Xiangjun Yin, You Zhou, Jingyu Yang, Kun Li, (参考訳) レンズレス画像を用いたHPS(Human pose and shape)推定は、プライバシ保護に有用であるだけでなく、この装置の小型で単純な構造のため、隠蔽監視のシナリオにも利用できる。 しかし、この課題は、キャプチャーされた測定の本来のあいまいさと、レンズレスデータから人間のポーズや形状を直接推定する効果的な方法が欠如していることから、重大な課題を提起する。 本稿では,レンズレス計測から知識まで,人間の3次元ポーズと形状を復元する初のエンドツーエンドフレームワークを提案する。 具体的には、光学的に符号化されたマスクを用いてレンズレス計測をデコードし、効率的な特徴抽出を行うマルチスケールレンズレス特徴デコーダを設計する。 また,人間の手足端推定精度を向上させるために,両頭補助補助機構を提案する。 さらに、レンズレスイメージングシステムを構築し、レンズレスイメージングシステムによって取得された様々なデータセットに対して、本手法の有効性を検証する。

Human pose and shape (HPS) estimation with lensless imaging is not only beneficial to privacy protection but also can be used in covert surveillance scenarios due to the small size and simple structure of this device. However, this task presents significant challenges due to the inherent ambiguity of the captured measurements and lacks effective methods for directly estimating human pose and shape from lensless data. In this paper, we propose the first end-to-end framework to recover 3D human poses and shapes from lensless measurements to our knowledge. We specifically design a multi-scale lensless feature decoder to decode the lensless measurements through the optically encoded mask for efficient feature extraction. We also propose a double-head auxiliary supervision mechanism to improve the estimation accuracy of human limb ends. Besides, we establish a lensless imaging system and verify the effectiveness of our method on various datasets acquired by our lensless imaging system.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# 連続視野ナビゲーションのためのニューラルラジアンス表現を用いたルックヘッド探索

Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation ( http://arxiv.org/abs/2404.01943v1 )

ライセンス: Link先を確認
Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Junjie Hu, Ming Jiang, Shuqiang Jiang, (参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。 各ナビゲーションステップでは、エージェントが候補場所から選択し、移動させる。 より良い航法計画のために、ルックアヘッド探索戦略は、候補地の将来環境を正確に予測し、エージェントの次の行動を効果的に評価することを目的としている。 この目的のために、いくつかの既存の研究は将来の環境におけるRGB画像を予測しているが、この戦略は画像の歪みと高い計算コストに悩まされている。 これらの課題に対処するため、我々は、画素ワイドRGB再構成よりも堅牢で効率的な将来の環境のためのマルチレベルセマンティック特徴を生成するために、事前訓練された階層型ニューラルラディアンス表現モデル(HNR)を提案する。 さらに, 将来の環境表現の予測により, 我々のルックアヘッドVLNモデルは, 航法可能な将来の経路木を構築し, 効率的な並列評価により最適な経路を選択することができる。 VLN-CEデータセットの大規模な実験により,本手法の有効性が確認された。

Vision-and-language navigation (VLN) enables the agent to navigate to a remote location following the natural language instruction in 3D environments. At each navigation step, the agent selects from possible candidate locations and then makes the move. For better navigation planning, the lookahead exploration strategy aims to effectively evaluate the agent's next action by accurately anticipating the future environment of candidate locations. To this end, some existing works predict RGB images for future environments, while this strategy suffers from image distortion and high computational cost. To address these issues, we propose the pre-trained hierarchical neural radiance representation model (HNR) to produce multi-level semantic features for future environments, which are more robust and efficient than pixel-wise RGB reconstruction. Furthermore, with the predicted future environmental representations, our lookahead VLN model is able to construct the navigable future path tree and select the optimal path via efficient parallel evaluation. Extensive experiments on the VLN-CE datasets confirm the effectiveness of our method.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# イベント支援低照度ビデオオブジェクトセグメンテーション

Event-assisted Low-Light Video Object Segmentation ( http://arxiv.org/abs/2404.01945v1 )

ライセンス: Link先を確認
Hebei Li, Jin Wang, Jiahui Yuan, Yue Li, Wenming Weng, Yansong Peng, Yueyi Zhang, Zhiwei Xiong, Xiaoyan Sun, (参考訳) ビデオオブジェクトセグメンテーション(VOS)の分野では、低照度条件下での操作の課題が持続し、クエリとメモリフレームを類似性計算で比較する場合、画像の品質が著しく低下し、精度が低下する。 イベントカメラは、高ダイナミックレンジとオブジェクトの動き情報をキャプチャする能力によって特徴付けられ、オブジェクトの可視性を高め、このような低照度条件下でのVOS手法を支援することを約束する。 本稿では、イベントカメラデータを利用してセグメンテーション精度を向上させる、低照度VOSに適した先駆的なフレームワークを提案する。 アダプティブ・クロスモーダル・フュージョン(ACMF)モジュールは、ノイズ干渉を軽減するために画像とイベントのモダリティを融合させながら、関連する特徴を抽出することを目的としており、イベントガイドメモリマッチング(EGMM)モジュールは、低照度で発生する不正確なマッチングの問題を修正するために設計されている。 さらに,合成LLE-DAVISデータセットの作成と,フレームやイベントを含む実世界のLLE-VOSデータセットのキュレーションについて述べる。 実験により,本手法の有効性を両データセットで検証し,低照度シナリオにおける有効性を確認した。

In the realm of video object segmentation (VOS), the challenge of operating under low-light conditions persists, resulting in notably degraded image quality and compromised accuracy when comparing query and memory frames for similarity computation. Event cameras, characterized by their high dynamic range and ability to capture motion information of objects, offer promise in enhancing object visibility and aiding VOS methods under such low-light conditions. This paper introduces a pioneering framework tailored for low-light VOS, leveraging event camera data to elevate segmentation accuracy. Our approach hinges on two pivotal components: the Adaptive Cross-Modal Fusion (ACMF) module, aimed at extracting pertinent features while fusing image and event modalities to mitigate noise interference, and the Event-Guided Memory Matching (EGMM) module, designed to rectify the issue of inaccurate matching prevalent in low-light settings. Additionally, we present the creation of a synthetic LLE-DAVIS dataset and the curation of a real-world LLE-VOS dataset, encompassing frames and events. Experimental evaluations corroborate the efficacy of our method across both datasets, affirming its effectiveness in low-light scenarios.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# ロバストストロークセグメンテーションのための合成データ

Synthetic Data for Robust Stroke Segmentation ( http://arxiv.org/abs/2404.01946v1 )

ライセンス: Link先を確認
Liam Chalcroft, Ioannis Pappas, Cathy J. Price, John Ashburner, (参考訳) ニューロイメージングにおける深層学習に基づくセマンティックセグメンテーションは、高解像度スキャンと広範囲の注釈付きデータセットを必要としており、臨床応用に重大な障壁がある。 本研究は, 病変分割作業のための新しい総合的枠組みであるSynthSegアプローチを拡張して, 病変特異的増強戦略を取り入れた大規模異種疾患の適応を図ったものである。 本手法は,健常および脳卒中データセットから得られたラベルマップを用いて,UNetアーキテクチャを用いて深層学習モデルのトレーニングを行う。 我々のフレームワークは、ドメイン内およびドメイン外(OOD)データセットに対して評価され、堅牢なパフォーマンスを示し、トレーニングドメイン内の現在のメソッドと競合し、OODデータでそれらを著しく上回る。 この貢献は、臨床、特に脳卒中病理における医療画像解析の進歩を約束するものであり、大きな注釈付きコーパスへの依存度を減らして、様々な画像シーケンスにわたる信頼性の高いセグメンテーションを可能にする。 コードとウェイトはhttps://github.com/liamchalcroft/SynthStroke.comで入手できる。

Deep learning-based semantic segmentation in neuroimaging currently requires high-resolution scans and extensive annotated datasets, posing significant barriers to clinical applicability. We present a novel synthetic framework for the task of lesion segmentation, extending the capabilities of the established SynthSeg approach to accommodate large heterogeneous pathologies with lesion-specific augmentation strategies. Our method trains deep learning models, demonstrated here with the UNet architecture, using label maps derived from healthy and stroke datasets, facilitating the segmentation of both healthy tissue and pathological lesions without sequence-specific training data. Evaluated against in-domain and out-of-domain (OOD) datasets, our framework demonstrates robust performance, rivaling current methods within the training domain and significantly outperforming them on OOD data. This contribution holds promise for advancing medical imaging analysis in clinical settings, especially for stroke pathology, by enabling reliable segmentation across varied imaging sequences with reduced dependency on large annotated corpora. Code and weights available at https://github.com/liamchalcroft/SynthStroke.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# ダイナミックビジョンセンサのノイズの定量化

Quantifying Noise of Dynamic Vision Sensor ( http://arxiv.org/abs/2404.01948v1 )

ライセンス: Link先を確認
Evgeny V. Votyakov, Alessandro Artusi, (参考訳) 動的視覚センサ(DVS)は、元の(クリーン化された)センサ信号と混在する大量のバックグラウンドアクティビティ(BA)ノイズによって特徴付けられる。 信号のダイナミックな性質と、地上の真実の実践的適用の欠如により、標準的な画像処理技術を用いて、ノイズと浄化されたセンサ信号の区別が困難であることは明らかである。 本稿では,DFA(Detrended Fluctuation Analysis)から得られたBAノイズを特徴付ける新しい手法を提案する。 提案手法は既存のDVS問題に対処するために使用することができる。これは、基底的真理を伴わずにノイズや信号を定量的に特徴付ける方法であり、最適なデノナイジングフィルタパラメータを導出する方法である。 後者の問題の解決策は、一般的な実動車データセットに対して実証されている。

Dynamic visual sensors (DVS) are characterized by a large amount of background activity (BA) noise, which it is mixed with the original (cleaned) sensor signal. The dynamic nature of the signal and the absence in practical application of the ground truth, it clearly makes difficult to distinguish between noise and the cleaned sensor signals using standard image processing techniques. In this letter, a new technique is presented to characterise BA noise derived from the Detrended Fluctuation Analysis (DFA). The proposed technique can be used to address an existing DVS issues, which is how to quantitatively characterised noise and signal without ground truth, and how to derive an optimal denoising filter parameters. The solution of the latter problem is demonstrated for the popular real moving-car dataset.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# SATDと他のソフトウェア開発活動との関係に関する探索的研究

An Exploratory Study of the Relationship between SATD and Other Software Development Activities ( http://arxiv.org/abs/2404.01950v1 )

ライセンス: Link先を確認
Shima Esfandiari, Ashkan Sami, (参考訳) 技術的負債(Technical Debt)は、長期的なコストよりも短期的な利益が優先され、コードの品質が低下する、という一般的な問題である。 Self-Admitted Technical Debt (SATD)は、開発者が負債を思い出させるためにコードをドキュメント化する、特定のタイプのTechnical Debtである。 これまで、SATDの様々な側面を調査してきた。検出方法、分布、ソフトウェアの品質への影響などだ。 SATDをよりよく理解するために、リファクタリングやバグ修正といった他のアクティビティとの共起性を調べる方法がある。 本研究では、SATDの削除と追加とリファクタリング、バグ修正、新機能の追加、テストといったアクティビティとの関係について検討する。 そのため,TODO/FIXME/XXX削除やインラインコメントの追加をSATDの指標として,77のオープンソースプロジェクトを分析した。 本研究では,各プロジェクトにおけるSATDと各活動の共起性について,チ二乗およびオッズ比評価を用いて検討した。 その結果,SATDの除去は95%のプロジェクトのリファクタリングと同時に行われるのに対し,追加は89%のプロジェクトで行われることがわかった。 さらに,SATDの存在下では,3種類のリファクタリング – "move class", "remove method", "move attribute" – がより頻繁に発生することがわかった。 しかし、その分布はSATDと無関係のプロジェクトで類似している。

Technical Debt is a common issue that arises when short-term gains are prioritized over long-term costs, leading to a degradation in the quality of the code. Self-Admitted Technical Debt (SATD) is a specific type of Technical Debt that involves documenting code to remind developers of its debt. Previous research has explored various aspects of SATD, including detection methods, distribution, and its impact on software quality. To better understand SATD, one comprehension technique is to examine its co-occurrence with other activities, such as refactoring and bug fixing. This study investigates the relationship between removing and adding SATD and activities such as refactoring, bug fixing, adding new features, and testing. To do so, we analyzed 77 open-source Java projects using TODO/FIXME/XXX removal or addition in inline comments as indicators of SATD. We examined the co-occurrence of SATD with each activity in each project through chi-square and odds ratio evaluations. Our results show that SATD removal occurs simultaneously with refactoring in 95% of projects, while its addition occurs in 89% of projects. Furthermore, we found that three types of refactoring - "move class", "remove method", and "move attribute" - occur more frequently in the presence of SATD. However, their distribution is similar in projects with and without SATD.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# 異方性及び独立性原子量子ノードから放出される単一光子の近距離不均一性

Near-unity indistinguishability of single photons emitted from dissimilar and independent atomic quantum nodes ( http://arxiv.org/abs/2404.01951v1 )

ライセンス: Link先を確認
Félix Hoffet, Jan Lowinski, Lukas Heller, Auxiliadora Padrón-Brito, Hugues de Riedmatten, (参考訳) 独立ノードから区別不可能な光子を生成することは、量子ネットワークを開発する上で重要な課題である。 本研究では、2つの異なる原子量子ノードから非常に区別できない単一光子を生成することを実証する。 1つのノードは、完全にブロックされたコールドRydbergアンサンブルに基づいており、オンデマンドの単一光子を生成する。 他方のノードは、DLCZ量子メモリに基づく量子リピータノードであり、2つのソースを同期するために使用される制御可能なメモリ時間の後、隠蔽された単一光子を出力する。 時間窓に${94.6 \pm 5.2 \%}$の光子を${90\%}$とする不明瞭性を実証する。 この進歩は、その効率を犠牲にすることなく、高忠実度ベル状態測定で量子リピータと処理ノードを相互接続する新たな可能性を開く。

Generating indistinguishable photons from independent nodes is an important challenge for the development of quantum networks. In this work, we demonstrate the generation of highly indistinguishable single photons from two dissimilar atomic quantum nodes. One node is based on a fully blockaded cold Rydberg ensemble and generates on-demand single photons. The other node is a quantum repeater node based on a DLCZ quantum memory and emits heralded single photons after a controllable memory time that is used to synchronize the two sources. We demonstrate an indistinguishability of ${94.6 \pm 5.2 \%}$ for a temporal window including ${90\%}$ of the photons. This advancement opens new possibilities for interconnecting quantum repeater and processing nodes with high fidelity Bell-state measurement without sacrificing its efficiency.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# 自動木管検出装置:局所方位推定とロバスト蓄積

Automatic Wood Pith Detector: Local Orientation Estimation and Robust Accumulation ( http://arxiv.org/abs/2404.01952v1 )

ライセンス: Link先を確認
Henry Marichal, Diego Passarella, Gregory Randall, (参考訳) 木材リングスライスの構造の同心円形状に依存した完全自動木材穴検出技術(APD)を導入する。 この方法は、2次元構造テンソルを用いてリングの局所配向を推定し、ピット位置を見つけ、この問題のために設計されたコスト関数を最適化する。 また、並列座標空間を用いた変種(APD-PCL)を提案する。 さらに、YoloV8ネットであるKurdthongmeeによる以前の研究を精錬して、穴の検出をトレーニングし、同じ問題(APD-DL)に対するディープラーニングベースのアプローチを生成する。 様々な条件下で撮影された画像(実験室の設定、製材所、森林)を含む7つのデータセットで試験を行い、様々な木種(Pinus taeda, Douglas fir, Abies alba, Gleditsia triacanthos)を特徴とした。 提案手法はすべて既存の最先端の手法より優れており、CPUベースのリアルタイムアプリケーションで使用することができる。 さらに,体育種およびアンジオスペルム種の画像からなる新規なデータセットを提供する。 データセットとソースコードはhttp://github.com/hmarichal93/apd.comで入手できる。

A fully automated technique for wood pith detection (APD), relying on the concentric shape of the structure of wood ring slices, is introduced. The method estimates the ring's local orientations using the 2D structure tensor and finds the pith position, optimizing a cost function designed for this problem. We also present a variant (APD-PCL), using the parallel coordinates space, that enhances the method's effectiveness when there are no clear tree ring patterns. Furthermore, refining previous work by Kurdthongmee, a YoloV8 net is trained for pith detection, producing a deep learning-based approach to the same problem (APD-DL). All methods were tested on seven datasets, including images captured under diverse conditions (controlled laboratory settings, sawmill, and forest) and featuring various tree species (Pinus taeda, Douglas fir, Abies alba, and Gleditsia triacanthos). All proposed approaches outperform existing state-of-the-art methods and can be used in CPU-based real-time applications. Additionally, we provide a novel dataset comprising images of gymnosperm and angiosperm species. Dataset and source code are available at http://github.com/hmarichal93/apd.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# ファジィ推論システムによる英語単語の文法分類

Classifying Graphemes in English Words Through the Application of a Fuzzy Inference System ( http://arxiv.org/abs/2404.01953v1 )

ライセンス: Link先を確認
Samuel Rose, Chandrasekhar Kambhampati, (参考訳) 言語学において、グラテム(グラテム、英: grapheme)とは、音韻音に対応する書記体系の書記単位である。 自然言語処理タスクでは、文章言語は、単語分析と文字解析という2つの異なる媒体を通して分析される。 本稿では,第3のアプローチであるグラテムの分析に焦点をあてる。 グラフエムは、音声の自己完結した表現によって、単語や文字の分析よりも有利である。 単語を複雑な非二項規則に基づくグラフエムに分割する性質のため、ファジィ論理の適用は単語中のグラフエムの数を予測するのに適した媒体を提供する。 本稿では,単語をグラフに分割するファジィ推論システムを提案する。 このファジィ推論システムは、その時間の50.18%の単語でグラフエムの数を正確に予測し、93.51%は正しい分類から+-1の範囲内である。 言語の多様性から、グラテムは発音と結びついているので、局所的なアクセント/方言によって変化しうるので、+-1の精度は、地域差が考慮されるときのグラテム分類の不正確さを表す。 比較基準を与えるために,発音辞書を用いた再帰的IPAマッピング演習を含む第2の手法を開発した。

In Linguistics, a grapheme is a written unit of a writing system corresponding to a phonological sound. In Natural Language Processing tasks, written language is analysed through two different mediums, word analysis, and character analysis. This paper focuses on a third approach, the analysis of graphemes. Graphemes have advantages over word and character analysis by being self-contained representations of phonetic sounds. Due to the nature of splitting a word into graphemes being based on complex, non-binary rules, the application of fuzzy logic would provide a suitable medium upon which to predict the number of graphemes in a word. This paper proposes the application of a Fuzzy Inference System to split words into their graphemes. This Fuzzy Inference System results in a correct prediction of the number of graphemes in a word 50.18% of the time, with 93.51% being within a margin of +- 1 from the correct classification. Given the variety in language, graphemes are tied with pronunciation and therefore can change depending on a regional accent/dialect, the +- 1 accuracy represents the impreciseness of grapheme classification when regional variances are accounted for. To give a baseline of comparison, a second method involving a recursive IPA mapping exercise using a pronunciation dictionary was developed to allow for comparisons to be made.
翻訳日:2024-04-03 16:19:00 公開日:2024-04-02
# HyperCLOVA X 技術報告

HyperCLOVA X Technical Report ( http://arxiv.org/abs/2404.01954v1 )

ライセンス: Link先を確認
Kang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung, (参考訳) 韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xと、英語、数学、コーディングの競争力を紹介する。 HyperCLOVA Xは、韓国、英語、コードデータのバランスの取れた混合でトレーニングされ、続いて、高品質な人間アノテーション付きデータセットによるインストラクションチューニングと、責任を負うAIへのコミットメントを反映した厳格な安全ガイドラインを遵守した。 このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。 HyperCLOVA Xは、言語と文化的ニュアンスを深く理解した韓国で強力な推論能力を示している。 固有バイリンガルの性質のさらなる分析と多言語主義への拡張は、複数の言語ペア間の機械翻訳や言語間推論タスクを含む、非ターゲット言語に対するモデルの言語間習熟度と強力な一般化能力を強調している。 我々は,HyperCLOVA Xが,自国のLDM開発において,地域や国に有用なガイダンスを提供することができると考えている。

We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competitive capabilities in English, math, and coding. HyperCLOVA X was trained on a balanced mix of Korean, English, and code data, followed by instruction-tuning with high-quality human-annotated datasets while abiding by strict safety guidelines reflecting our commitment to responsible AI. The model is evaluated across various benchmarks, including comprehensive reasoning, knowledge, commonsense, factuality, coding, math, chatting, instruction-following, and harmlessness, in both Korean and English. HyperCLOVA X exhibits strong reasoning capabilities in Korean backed by a deep understanding of the language and cultural nuances. Further analysis of the inherent bilingual nature and its extension to multilingualism highlights the model's cross-lingual proficiency and strong generalization ability to untargeted languages, including machine translation between several language pairs and cross-lingual inference tasks. We believe that HyperCLOVA X can provide helpful guidance for regions or countries in developing their sovereign LLMs.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# MESEN: 少数のラベルで一様人間活動認識を設計するマルチモーダルデータ

MESEN: Exploit Multimodal Data to Design Unimodal Human Activity Recognition with Few Labels ( http://arxiv.org/abs/2404.01958v1 )

ライセンス: Link先を確認
Lilin Xu, Chaojie Gu, Rui Tan, Shibo He, Jiming Chen, (参考訳) HAR(Human Activity Recognition)は、様々な新興アプリケーションに欠かせない機能である。 しかし、HARは通常、モダリティの制限とラベルの不足に関連する課題に直面し、現在のソリューションと現実世界の要件の間のアプリケーションギャップを生じさせます。 本研究では,HARモデル設計フェーズで利用可能なラベルなしのマルチモーダルデータを利用して,デプロイフェーズにおける非モーダルHAR拡張を実現するための,マルチモーダル内蔵型単一モーダルセンシングフレームワークMESENを提案する。 教師付きマルチモーダル融合が単一特徴抽出に与える影響についての研究から、MESENはマルチモーダル支援事前学習段階におけるマルチタスク機構を特徴付けるように設計されている。 クロスモーダル特徴のコントラスト学習とマルチモーダル擬似分類整合を併用する機構により,MESENはラベルのないマルチモーダルデータを利用して各モーダルに対して効果的な非モーダル特徴を抽出する。 その後、MESENは数個のラベル付きサンプルで下流の単潮HARに適応できる。 8つの公開マルチモーダルデータセットに対する大規模な実験により、MESENは、マルチモーダルデータを活用することにより、一元的HARの強化において、最先端のベースラインよりも大幅なパフォーマンス向上を実現していることが示された。

Human activity recognition (HAR) will be an essential function of various emerging applications. However, HAR typically encounters challenges related to modality limitations and label scarcity, leading to an application gap between current solutions and real-world requirements. In this work, we propose MESEN, a multimodal-empowered unimodal sensing framework, to utilize unlabeled multimodal data available during the HAR model design phase for unimodal HAR enhancement during the deployment phase. From a study on the impact of supervised multimodal fusion on unimodal feature extraction, MESEN is designed to feature a multi-task mechanism during the multimodal-aided pre-training stage. With the proposed mechanism integrating cross-modal feature contrastive learning and multimodal pseudo-classification aligning, MESEN exploits unlabeled multimodal data to extract effective unimodal features for each modality. Subsequently, MESEN can adapt to downstream unimodal HAR with only a few labeled samples. Extensive experiments on eight public multimodal datasets demonstrate that MESEN achieves significant performance improvements over state-of-the-art baselines in enhancing unimodal HAR by exploiting multimodal data.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# Bi-LORA:合成画像検出のための視覚言語アプローチ

Bi-LORA: A Vision-Language Approach for Synthetic Image Detection ( http://arxiv.org/abs/2404.01959v1 )

ライセンス: Link先を確認
Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdenour Hadid, Abdelmalik Taleb-Ahmed, (参考訳) GAN(Generative Adversarial Network)や拡散モデル(Difusion Model)といった深層画像合成技術の進歩は、高度に現実的な画像を生成する時代を後押ししている。 この技術進歩は大きな関心を集めているが、実際の画像と合成画像とを区別することの難しさを懸念する声も上がっている。 本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得た。 我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。 我々の方法論における重要な概念シフトは、画像キャプションタスクとしてバイナリ分類をリフレーミングすることで、最先端のVLM、特にブートストラップ言語画像事前学習(BLIP2)の特長を活用することである。 提案手法の有効性,特に未知の拡散ベース生成モデルから未知の拡散生成画像を検出し,ノイズに対する堅牢性を示し,GANに対する一般化能力を実証するために,厳密かつ包括的な実験を行った。 その結果, 合成画像検出における平均精度は93.41%であった。 この研究に関連するコードとモデルはhttps://github.com/Mamadou-Keita/VLM-DETECT.comで公開されている。

Advancements in deep image synthesis techniques, such as generative adversarial networks (GANs) and diffusion models (DMs), have ushered in an era of generating highly realistic images. While this technological progress has captured significant interest, it has also raised concerns about the potential difficulty in distinguishing real images from their synthetic counterparts. This paper takes inspiration from the potent convergence capabilities between vision and language, coupled with the zero-shot nature of vision-language models (VLMs). We introduce an innovative method called Bi-LORA that leverages VLMs, combined with low-rank adaptation (LORA) tuning techniques, to enhance the precision of synthetic image detection for unseen model-generated images. The pivotal conceptual shift in our methodology revolves around reframing binary classification as an image captioning task, leveraging the distinctive capabilities of cutting-edge VLM, notably bootstrapping language image pre-training (BLIP2). Rigorous and comprehensive experiments are conducted to validate the effectiveness of our proposed approach, particularly in detecting unseen diffusion-generated images from unknown diffusion-based generative models during training, showcasing robustness to noise, and demonstrating generalization capabilities to GANs. The obtained results showcase an impressive average accuracy of 93.41% in synthetic image detection on unseen generation models. The code and models associated with this research can be publicly accessed at https://github.com/Mamadou-Keita/VLM-DETECT.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# $(n,m,p)$型量子ネットワークの構成とその非局所性

$(n,m,p)$-type quantum network configuration and its nonlocality ( http://arxiv.org/abs/2404.01960v1 )

ライセンス: Link先を確認
Zan-Jia Li, Ying-Qiu He, Dong Ding, Ming-Xing Yu, Ting Gao, Feng-Li Yan, (参考訳) 遠方ノード間の量子ネットワーク共有絡み線源により、適切な測定により、ネットワークに沿った絡線を分散することができる。 ネットワーク非局所性は、独立したソースから出力されるローカル変数を含むネットワークモデルを認めないことを意味する。 本研究では、$(n,m,p)$型量子ネットワークの構成を構築し、それに対応する$n$-局所相関不等式を独立情報源の仮定に基づいて導出する。 普遍的な非環状ネットワーク構成として、典型的なチェーンネットワークやスターネットワークのような既存のネットワークモデルの多くをカバーでき、センターレスと非対称の両方の構成を許容できる。 次に、現在のネットワークの非$$-localityを、二部共役源とパウリ測定による$n$-local inequalityの違反を計算して示す。

A quantum network shared entangled sources among distant nodes enables us to distribute entanglement along the network by suitable measurements. Network nonlocality means that it does not admit a network model involving local variables emitted from independent sources. In this work, we construct an $(n,m,p)$-type quantum network configuration and then derive the corresponding $n$-local correlation inequalities based on the assumption of independent sources. As a universal acyclic network configuration, it can cover most of the existing network models, such as the typical chain-network and star-network, and admit both centerless and asymmetric configurations. Then we demonstrate the non-$n$-locality of the present network by calculating the violation of the $n$-local inequality with bipartite entangled sources and Pauli measurements.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# UTSA-NLP at SemEval 2024 Task 5: Prompt Ensbling for Argument Reasoning in Civil procedures with GPT4

Team UTSA-NLP at SemEval 2024 Task 5: Prompt Ensembling for Argument Reasoning in Civil Procedures with GPT4 ( http://arxiv.org/abs/2404.01961v1 )

ライセンス: Link先を確認
Dan Schumacher, Anthony Rios, (参考訳) 本稿では,民事訴訟における訴訟処理課題として,SemEval Task 5について紹介する。 法的議論の推論は、すべての法学生がマスターしなければならない必須のスキルである。 さらに,ドメイン固有のコンテキスト情報に対する質問を推論できる自然言語処理ソリューションを開発することも重要である。 本システムでは,GPT4を用いて法的議論を推理するプロンプトベースソリューションを提案する。 また、チェーン・オブ・ソート推論や文脈内学習など、促進戦略のアンサンブルを評価する。 システム全体としては、検証データセットでは.8095のマクロF1、最終テストセットでは.7315(21チーム中5位)となる。 このプロジェクトのコードはhttps://github.com/danschumac1/CivilPromptReasoningGPT4で公開されている。

In this paper, we present our system for the SemEval Task 5, The Legal Argument Reasoning Task in Civil Procedure Challenge. Legal argument reasoning is an essential skill that all law students must master. Moreover, it is important to develop natural language processing solutions that can reason about a question given terse domain-specific contextual information. Our system explores a prompt-based solution using GPT4 to reason over legal arguments. We also evaluate an ensemble of prompting strategies, including chain-of-thought reasoning and in-context learning. Overall, our system results in a Macro F1 of .8095 on the validation dataset and .7315 (5th out of 21 teams) on the final test set. Code for this project is available at https://github.com/danschumac1/CivilPromptReasoningGPT4.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# CAMに基づく壁を通して見る方法

CAM-Based Methods Can See through Walls ( http://arxiv.org/abs/2404.01964v1 )

ライセンス: Link先を確認
Magamed Taimeskhanov, Ronan Sicre, Damien Garreau, (参考訳) CAMに基づく手法は、画像分類モデルの決定を説明するために、サリエンシマップを生成するポストホック解釈法として広く使われている。 サリエンシマップは、予測に関連する画像の重要な領域をハイライトする。 本稿では,これらの手法のほとんどが,モデルが見ることができない画像の一部に重要なスコアを誤って属性付けることができることを示す。 この現象は理論的にも実験的にも起こる。 理論面では、初期化時に単純なマスク付きCNNモデルを用いてGradCAMの挙動を解析する。 実験では、画像の下部を使わないよう制約されたVGGライクなモデルを訓練するが、それでも画像の見えない部分の正のスコアを観察する。 この挙動は、2つの新しいデータセットで定量的に評価される。 これは問題であり、モデルの振る舞いを誤解させる可能性があると私たちは考えています。

CAM-based methods are widely-used post-hoc interpretability method that produce a saliency map to explain the decision of an image classification model. The saliency map highlights the important areas of the image relevant to the prediction. In this paper, we show that most of these methods can incorrectly attribute an important score to parts of the image that the model cannot see. We show that this phenomenon occurs both theoretically and experimentally. On the theory side, we analyze the behavior of GradCAM on a simple masked CNN model at initialization. Experimentally, we train a VGG-like model constrained to not use the lower part of the image and nevertheless observe positive scores in the unseen part of the image. This behavior is evaluated quantitatively on two new datasets. We believe that this is problematic, potentially leading to mis-interpretation of the model's behavior.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# 持続可能なディープラーニングのためのAutoMLの活用に向けて:Deep Shift Neural Networksにおける多目的HPOアプローチ

Towards Leveraging AutoML for Sustainable Deep Learning: A Multi-Objective HPO Approach on Deep Shift Neural Networks ( http://arxiv.org/abs/2404.01965v1 )

ライセンス: Link先を確認
Leona Hennig, Tanja Tornede, Marius Lindauer, (参考訳) ディープラーニング(DL)は、大規模なデータセットから複雑なパターンを抽出することで、様々な分野を進化させた。 しかし、DLモデルの計算要求は環境と資源の課題を引き起こす。 ディープシフトニューラルネットワーク(DSNN)は、シフト演算を活用して推論時の計算複雑性を低減するソリューションを提供する。 標準DNNからの洞察に従い、私たちはAutoML技術を用いてDSNNの潜在能力を最大限活用することに興味を持っています。 本研究では,資源消費を最小化しつつ,DSNNの性能を最大化するためのハイパーパラメータ最適化(HPO)の影響について検討する。 これは、多目的最適化(MO)と精度とエネルギー消費を相補的な目的として組み合わせたものであるので、現状の多目的最適化(MF)HPOと多目的最適化(MF)HPOを組み合わせることを提案する。 実験の結果,提案手法の有効性が示され,精度が80%以上,計算コストが低いモデルが得られた。 全体として,本手法は,持続可能なAIアプリケーションを実現しつつ,効率的なモデル開発を促進する。

Deep Learning (DL) has advanced various fields by extracting complex patterns from large datasets. However, the computational demands of DL models pose environmental and resource challenges. Deep shift neural networks (DSNNs) offer a solution by leveraging shift operations to reduce computational complexity at inference. Following the insights from standard DNNs, we are interested in leveraging the full potential of DSNNs by means of AutoML techniques. We study the impact of hyperparameter optimization (HPO) to maximize DSNN performance while minimizing resource consumption. Since this combines multi-objective (MO) optimization with accuracy and energy consumption as potentially complementary objectives, we propose to combine state-of-the-art multi-fidelity (MF) HPO with multi-objective optimization. Experimental results demonstrate the effectiveness of our approach, resulting in models with over 80\% in accuracy and low computational cost. Overall, our method accelerates efficient model development while enabling sustainable AI applications.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# DSGNN:地域空気質推定のためのデュアルビュー超グリッド対応グラフニューラルネットワーク

DSGNN: A Dual-View Supergrid-Aware Graph Neural Network for Regional Air Quality Estimation ( http://arxiv.org/abs/2404.01975v1 )

ライセンス: Link先を確認
Xin Zhang, Ling Chen, Xing Tang, Hongyu Shi, (参考訳) 大気質評価は, 大気質評価局を使わずに, 対象地域の大気質を評価できる。 既存の大気質推定法では, 研究領域を不整合格子領域に分割し, 地理の第1法則に基づく隣接格子領域の空間依存性のモデル化に2次元畳み込みを適用し, 遠隔格子領域の空間依存性のモデル化に失敗する。 この目的のために,2つのビュー(衛星由来のエアロゾル光深度(AOD)と気象学)から離れたグリッド領域の空間依存性をモデル化できる,地域空気質推定のためのDual-view Supergrid-aware Graph Neural Network (DSGNN)を提案する。 具体的には、画像を用いて地域データ(AODデータと気象データ)を表現している。 双対ビュー超グリッド学習モジュールはパラメータ化された方法で超格子を生成するために導入された。 双対ビュー超格子に基づいて、双対ビュー暗黙相関符号化モジュールを導入し、対の超格子間の相関を学習する。 さらに、スーパーグリッドグラフや画像上での情報インタラクションを実装するために、デュアルビューメッセージパッシングネットワークを導入している。 2つの実世界のデータセットに対する大規模な実験は、DSGNNが大気質の推定タスクにおける最先端のパフォーマンスを達成し、MAEの平均19.64%のベースラインを上回っていることを示している。

Air quality estimation can provide air quality for target regions without air quality stations, which is useful for the public. Existing air quality estimation methods divide the study area into disjointed grid regions, and apply 2D convolution to model the spatial dependencies of adjacent grid regions based on the first law of geography, failing to model the spatial dependencies of distant grid regions. To this end, we propose a Dual-view Supergrid-aware Graph Neural Network (DSGNN) for regional air quality estimation, which can model the spatial dependencies of distant grid regions from dual views (i.e., satellite-derived aerosol optical depth (AOD) and meteorology). Specifically, images are utilized to represent the regional data (i.e., AOD data and meteorology data). The dual-view supergrid learning module is introduced to generate supergrids in a parameterized way. Based on the dual-view supergrids, the dual-view implicit correlation encoding module is introduced to learn the correlations between pairwise supergrids. In addition, the dual-view message passing network is introduced to implement the information interaction on the supergrid graphs and images. Extensive experiments on two real-world datasets demonstrate that DSGNN achieves the state-of-the-art performances on the air quality estimation task, outperforming the best baseline by an average of 19.64% in MAE.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# 部分ラベル付きマルチタスク学習のための共同タスク正規化

Joint-Task Regularization for Partially Labeled Multi-Task Learning ( http://arxiv.org/abs/2404.01976v1 )

ライセンス: Link先を確認
Kento Nishi, Junsik Kim, Wanhua Li, Hanspeter Pfister, (参考訳) 機械学習分野ではマルチタスク学習がますます人気になっているが、その実用性は大規模ラベル付きデータセットの必要性によって妨げられている。 多くのマルチタスク学習手法は、全ての目標タスクに対して、各入力例に接地トラスラベルが付随する完全ラベル付きデータセットに依存している。 残念なことに、画像ごとにピクセルごとのラベルを必要とする高密度な予測タスクでは、そのようなデータセットのキュレーションは違法に高価で実用的ではない。 このことを念頭に置いて,全タスクに完全ラベルが付けられていない場合の学習を改善するために,クロスタスク関係を利用して1つのジョイントタスク潜在空間における全タスクを同時に正規化する直感的な手法であるジョイントタスク正規化(JTR)を提案する。 JTRは、すべてのタスクをペアで個別にではなく、共同で正規化するという既存のアプローチから際立っている。 提案手法の有効性を示すために,我々は,NYU-v2,Cityscapes,Taskonomyをベースとした多種多様な部分的にラベル付けされたシナリオに対して,我々の手法を広範囲にベンチマークした。

Multi-task learning has become increasingly popular in the machine learning field, but its practicality is hindered by the need for large, labeled datasets. Most multi-task learning methods depend on fully labeled datasets wherein each input example is accompanied by ground-truth labels for all target tasks. Unfortunately, curating such datasets can be prohibitively expensive and impractical, especially for dense prediction tasks which require per-pixel labels for each image. With this in mind, we propose Joint-Task Regularization (JTR), an intuitive technique which leverages cross-task relations to simultaneously regularize all tasks in a single joint-task latent space to improve learning when data is not fully labeled for all tasks. JTR stands out from existing approaches in that it regularizes all tasks jointly rather than separately in pairs -- therefore, it achieves linear complexity relative to the number of tasks while previous methods scale quadratically. To demonstrate the validity of our approach, we extensively benchmark our method across a wide variety of partially labeled scenarios based on NYU-v2, Cityscapes, and Taskonomy.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# 治験におけるゼロショット多言語話者の検証

Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials ( http://arxiv.org/abs/2404.01981v1 )

ライセンス: Link先を確認
Ali Akram, Marija Stanojevic, Malikeh Ehghaghi, Jekaterina Novikova, (参考訳) 多くの臨床医、患者、データ収集環境が臨床試験に関与しているため、優れた品質のデータを集めることは大きな課題である。 臨床試験では、患者の音声データに基づいて、認知や精神の健康障害を検出し、モニターする。 我々は,これらの音声記録を用いて,登録患者の身元を確認し,同じ臨床試験で複数回登録しようとする個人を特定し,排除することを提案する。 臨床研究は様々な国で行われているため、さらなる開発努力を伴わずに多様な言語で話者検証を行うシステムを構築することが不可欠である。 我々は、英語、ドイツ語、デンマーク語、スペイン語、アラビア語を母語とする言語障害者を対象に、事前訓練したTitaNet, ECAPA-TDNN, SpeakerNetモデルの評価を行った。 これらの結果から,ヨーロッパ語では2.7%,アラビア語では8.26%であった。 これは、様々な言語や方言で使用できる認知的および精神的な臨床試験のための、より汎用的で効率的な話者検証システムを開発するための重要なステップであり、複数の言語のための話者検証システムを開発するのに必要な労力を大幅に削減する。 また,実験に関わった音声タスクと話者数がどのように影響するかを評価し,その種類がモデル性能に影響を及ぼすことを示す。

Due to the substantial number of clinicians, patients, and data collection environments involved in clinical trials, gathering data of superior quality poses a significant challenge. In clinical trials, patients are assessed based on their speech data to detect and monitor cognitive and mental health disorders. We propose using these speech recordings to verify the identities of enrolled patients and identify and exclude the individuals who try to enroll multiple times in the same trial. Since clinical studies are often conducted across different countries, creating a system that can perform speaker verification in diverse languages without additional development effort is imperative. We evaluate pre-trained TitaNet, ECAPA-TDNN, and SpeakerNet models by enrolling and testing with speech-impaired patients speaking English, German, Danish, Spanish, and Arabic languages. Our results demonstrate that tested models can effectively generalize to clinical speakers, with less than 2.7% EER for European Languages and 8.26% EER for Arabic. This represents a significant step in developing more versatile and efficient speaker verification systems for cognitive and mental health clinical trials that can be used across a wide range of languages and dialects, substantially reducing the effort required to develop speaker verification systems for multiple languages. We also evaluate how speech tasks and number of speakers involved in the trial influence the performance and show that the type of speech tasks impacts the model performance.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# ジェネレーション・ヒューマン・プライオリティを用いたファッションスタイル編集

Fashion Style Editing with Generative Human Prior ( http://arxiv.org/abs/2404.01984v1 )

ライセンス: Link先を確認
Chaerin Kong, Seungyong Lee, Soohyeok Im, Wonsuk Yang, (参考訳) 画像編集は研究コミュニティで長年の課題であり、多くのアプリケーションに大きく影響している。 近年、テキスト駆動方式は人間の顔のような領域で有望な結果をもたらし始めているが、より複雑な領域への適用は比較的限られている。 そこで本研究では,人間の画像のファッションスタイルをテキスト記述を用いて操作することを目的とした,ファッションスタイル編集の課題について検討する。 具体的には、生成した人間の先行性を活用し、学習した潜在空間をナビゲートすることでファッションスタイルの編集を実現する。 まず,既存のテキスト駆動編集手法が,過度に単純化されたガイダンス信号により,我々の問題に乏しいことを検証し,テキスト拡張とビジュアル参照の2つの方法を提案する。 我々のファッションスタイル編集フレームワーク(FaSE)は、潜在空間構造に関する経験的知見と相まって、人間のイメージに抽象的なファッション概念を投影し、この分野にエキサイティングな新しい応用をもたらすことに成功しました。

Image editing has been a long-standing challenge in the research community with its far-reaching impact on numerous applications. Recently, text-driven methods started to deliver promising results in domains like human faces, but their applications to more complex domains have been relatively limited. In this work, we explore the task of fashion style editing, where we aim to manipulate the fashion style of human imagery using text descriptions. Specifically, we leverage a generative human prior and achieve fashion style editing by navigating its learned latent space. We first verify that the existing text-driven editing methods fall short for our problem due to their overly simplified guidance signal, and propose two directions to reinforce the guidance: textual augmentation and visual referencing. Combined with our empirical findings on the latent space structure, our Fashion Style Editing framework (FaSE) successfully projects abstract fashion concepts onto human images and introduces exciting new applications to the field.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# サービスロボットと対話する意図の予測:迷路クイズの役割

Predicting the Intention to Interact with a Service Robot:the Role of Gaze Cues ( http://arxiv.org/abs/2404.01986v1 )

ライセンス: Link先を確認
Simone Arreghini, Gabriele Abbate, Alessandro Giusti, Antonio Paolillo, (参考訳) サービスロボットにとって、接近する人が対話しようとすることをできるだけ早く認識することが不可欠である。 本稿では,対話を意図した潜在的ユーザ意図のシーケンス・ツー・シーケンス分類器を用いて,この認識課題を解決する。 我々の主な貢献は、この文脈における人の視線を表す特徴の利点の研究である。 新たなデータセットに対する大規模な実験により、視線を含むと分類性能が著しく向上する(AUROCは84.5%から91.2%に増加し、正確な分類が可能な距離は2.4mから3.2mに向上する。 また、外部の監督なしに新しい環境に適応するシステムの能力を定量化する。 定性的実験は、ウェイターロボットによる実用的応用を示す。

For a service robot, it is crucial to perceive as early as possible that an approaching person intends to interact: in this case, it can proactively enact friendly behaviors that lead to an improved user experience. We solve this perception task with a sequence-to-sequence classifier of a potential user intention to interact, which can be trained in a self-supervised way. Our main contribution is a study of the benefit of features representing the person's gaze in this context. Extensive experiments on a novel dataset show that the inclusion of gaze cues significantly improves the classifier performance (AUROC increases from 84.5% to 91.2%); the distance at which an accurate classification can be achieved improves from 2.4 m to 3.2 m. We also quantify the system's ability to adapt to new environments without external supervision. Qualitative experiments show practical applications with a waiter robot.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# ゲージ理論の双対変換と絡み合いエントロピー

Duality transformations and the entanglement entropy of gauge theories ( http://arxiv.org/abs/2404.01987v1 )

ライセンス: Link先を確認
Andrea Bulgarelli, Marco Panero, (参考訳) ゲージ理論における絡み合いの研究は、閉じ込めを含む多くの基本的な現象についての洞察を与えることが期待されている。 しかし、ゲージ理論における絡み合いに関連する量の計算は、ヒルベルト空間の非分解性に由来するあいまいさによって制限される。 本研究では、スピンモデルの観点から二重記述を持つ格子ゲージ理論について研究し、レプリカトリックとR'enyiエントロピーがよく定義される。 この研究の前半では、ゲージ理論のレプリカ空間の構造を導出し、レプリカ幾何学における双対変換を明示的に行う。 次に,モンテカルロシミュレーションを用いて3次元時空次元における$\Z_2$ゲージ理論のエントロピックc-函数を計算し,その双対記述を3次元イジングモデルの観点から評価する。

The study of entanglement in gauge theories is expected to provide insights into many fundamental phenomena, including confinement. However, calculations of quantities related to entanglement in gauge theories are limited by ambiguities that stem from the non-factorizability of the Hilbert space. In this work we study lattice gauge theories that admit a dual description in terms of spin models, for which the replica trick and R\'enyi entropies are well defined. In the first part of this work, we explicitly perform the duality transformation in a replica geometry, deriving the structure of a replica space for a gauge theory. Then, in the second part, we calculate, by means of Monte Carlo simulations, the entropic c-function of the $\Z_2$ gauge theory in three spacetime dimension, exploiting its dual description in terms of the three-dimensional Ising model.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# 夜間物体検出における教師なし領域適応の誘導

Cooperative Students: Navigating Unsupervised Domain Adaptation in Nighttime Object Detection ( http://arxiv.org/abs/2404.01988v1 )

ライセンス: Link先を確認
Jicheng Yuan, Anh Le-Tuan, Manfred Hauswirth, Danh Le-Phuoc, (参考訳) 教師なし領域適応 (Unsupervised Domain Adaptation, UDA) は、よく照らされた条件下での物体検出の大幅な進歩を示すが、特に夜間の低可視性シナリオでは、低信号-雑音比 (SNR) 条件での適応性だけでなく、自動車両の信頼性と効率性にも課題が生じる。 この問題に対処するために,グローバルローカル変換(GLT)を革新的に採用した \textbf{Co}operative \textbf{S}tudents (\textbf{CoS}) フレームワークと,日夜のシナリオにおける空間的一貫性を効果的に捉えるプロキシベースのターゲット整合性(PTC)機構を提案する。 これに基づいて、適応IoUインフォームドしきい値(AIT)モジュールをさらに考案し、潜在的な正の見落としを徐々に回避し、ターゲット領域の潜伏情報を豊かにする。 総合的な実験の結果,CoS は低視認性条件下での UDA 性能を本質的に向上させ,現在の最先端技術を超え,それぞれ BDD100K と ShiFT と ACDC のデータセット上で mAP が 3.0 %, 1.9 %,2.5 % の増加を達成した。 コードはhttps://github.com/jichengyuan/Cooperitive_Students.comで入手できる。

Unsupervised Domain Adaptation (UDA) has shown significant advancements in object detection under well-lit conditions; however, its performance degrades notably in low-visibility scenarios, especially at night, posing challenges not only for its adaptability in low signal-to-noise ratio (SNR) conditions but also for the reliability and efficiency of automated vehicles. To address this problem, we propose a \textbf{Co}operative \textbf{S}tudents (\textbf{CoS}) framework that innovatively employs global-local transformations (GLT) and a proxy-based target consistency (PTC) mechanism to capture the spatial consistency in day- and night-time scenarios effectively, and thus bridge the significant domain shift across contexts. Building upon this, we further devise an adaptive IoU-informed thresholding (AIT) module to gradually avoid overlooking potential true positives and enrich the latent information in the target domain. Comprehensive experiments show that CoS essentially enhanced UDA performance in low-visibility conditions and surpasses current state-of-the-art techniques, achieving an increase in mAP of 3.0\%, 1.9\%, and 2.5\% on BDD100K, SHIFT, and ACDC datasets, respectively. Code is available at https://github.com/jichengyuan/Cooperitive_Students.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-02
# Kallaama:セネガルの3つの最も広い言語における農業に関する音声データセット

Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal ( http://arxiv.org/abs/2404.01991v1 )

ライセンス: Link先を確認
Elodie Gauthier, Aminata Ndiaye, Abdoulaye Guissé, (参考訳) この研究は、農業分野において、スピーチ技術開発のための国語コーパスを生産し、広めることを目的としているカラマ計画の一部である。 自然言語処理のための言語データから恩恵を受けるWolofを除いて、セネガルの国語は言語技術提供者によって無視されている。 しかし、これらの技術はこれらの言語の保護、促進、教育の鍵となっている。 カラーマ語は、セネガルの3つの主要な言語(Wolof、Pulaar、Sereer)に焦点を当てている。 これらの言語は住民によって広く話されており、セネガル語話者の約1000万人が国外で話されている。 しかし、これらは、自動処理や言語技術に使用できる機械可読データという観点からは、いまだに過小評価されている。 上記各言語における農業に関する125時間の記録を含む音声データセットを作成した。 これらのリソースは、従来のアプローチを含む、音声認識の目的のために特別に設計されている。 このような技術を構築するために、Wolof と Pulaar のテキストコーパスと、Wolof データセットから49,132 個のエントリを含む発音辞書を提供する。

This work is part of the Kallaama project, whose objective is to produce and disseminate national languages corpora for speech technologies developments, in the field of agriculture. Except for Wolof, which benefits from some language data for natural language processing, national languages of Senegal are largely ignored by language technology providers. However, such technologies are keys to the protection, promotion and teaching of these languages. Kallaama focuses on the 3 main spoken languages by Senegalese people: Wolof, Pulaar and Sereer. These languages are widely spoken by the population, with around 10 million of native Senegalese speakers, not to mention those outside the country. However, they remain under-resourced in terms of machine-readable data that can be used for automatic processing and language technologies, all the more so in the agricultural sector. We release a transcribed speech dataset containing 125 hours of recordings, about agriculture, in each of the above-mentioned languages. These resources are specifically designed for Automatic Speech Recognition purpose, including traditional approaches. To build such technologies, we provide textual corpora in Wolof and Pulaar, and a pronunciation lexicon containing 49,132 entries from the Wolof dataset.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# パラフレーズの分離:事前訓練された言語モデルからの知識検索におけるプロンプト構文と補足情報の影響

Dissecting Paraphrases: The Impact of Prompt Syntax and supplementary Information on Knowledge Retrieval from Pretrained Language Models ( http://arxiv.org/abs/2404.01992v1 )

ライセンス: Link先を確認
Stephan Linzbach, Dimitar Dimitrov, Laura Kallmeyer, Kilian Evang, Hajira Jabeen, Stefan Dietze, (参考訳) プレトレーニング言語モデル(PLM)には様々な種類の知識が含まれていることが知られている。 リレーショナルな知識を推測する1つの方法はクローゼスタイルのプロンプトを使用することであり、そこではモデルが行方不明の被写体や物体を予測する。 通常、これらのプロンプトを設計するのは面倒な作業である。なぜなら、構文や意味論の小さな違いが知識検索性能に大きな影響を及ぼす可能性があるからだ。 同時に、相互依存のため、素早い構文や情報の影響を評価することは困難である。 最小限のパラフレーズ間の比較を容易にする3400万の異なるプロンプトからなる専用プローブであるCONPARE-LAMAを設計した。 これらのパラフレーズは、任意の関係にまたがる構文と意味の制御可能な統一メタテンプレートに従う。 CONPARE-LAMAは, PLMの知識検索性能に対する統語的形態や意味情報の独立的な影響についての洞察を可能にする。 広範囲にわたる知識検索実験では, 接尾辞構文と比較して, 接尾辞構文に従うプロンプトにはいくつかの望ましい性質があることが判明した。 一 補足情報の組み合わせによりPLMを照会する際に有用であること。 二 知識は、補足情報の異なる組み合わせでより一貫して呼び戻され、 三 既知の事実を回収するときの応答の不確実性を低減すること。 さらに、ドメイン情報が構文形式にまたがってより確実に有用であっても、範囲情報はドメイン情報よりも知識検索性能を高めることができる。

Pre-trained Language Models (PLMs) are known to contain various kinds of knowledge. One method to infer relational knowledge is through the use of cloze-style prompts, where a model is tasked to predict missing subjects or objects. Typically, designing these prompts is a tedious task because small differences in syntax or semantics can have a substantial impact on knowledge retrieval performance. Simultaneously, evaluating the impact of either prompt syntax or information is challenging due to their interdependence. We designed CONPARE-LAMA - a dedicated probe, consisting of 34 million distinct prompts that facilitate comparison across minimal paraphrases. These paraphrases follow a unified meta-template enabling the controlled variation of syntax and semantics across arbitrary relations. CONPARE-LAMA enables insights into the independent impact of either syntactical form or semantic information of paraphrases on the knowledge retrieval performance of PLMs. Extensive knowledge retrieval experiments using our probe reveal that prompts following clausal syntax have several desirable properties in comparison to appositive syntax: i) they are more useful when querying PLMs with a combination of supplementary information, ii) knowledge is more consistently recalled across different combinations of supplementary information, and iii) they decrease response uncertainty when retrieving known facts. In addition, range information can boost knowledge retrieval performance more than domain information, even though domain information is more reliably helpful across syntactic forms.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# DELAN:クロスモーダルコントラスト学習による視覚・言語ナビゲーションのためのデュアルレベルアライメント

DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning ( http://arxiv.org/abs/2404.01994v1 )

ライセンス: Link先を確認
Mengfei Du, Binhao Wu, Jiwen Zhang, Zhihao Fan, Zejun Li, Ruipu Luo, Xuanjing Huang, Zhongyu Wei, (参考訳) VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、見えない環境でナビゲートする必要がある。 タスク完了のためには、エージェントは、指示、観察、ナビゲーション履歴を含む様々なナビゲーションモダリティを調整および統合する必要がある。 既存の作業は、この目的を達成するために主に核融合段階におけるクロスモーダルな注意に焦点を当てている。 それでも、異なるユニエンコーダによって生成されるモダリティは、それぞれの空間に存在し、モダリティ間の融合と決定の質が低下する。 この問題に対処するために,クロスモーダルコントラスト学習によるDual-level AligNment(DELAN)フレームワークを提案する。 このフレームワークは、融合前に様々なナビゲーション関連モダリティを整列するように設計されており、これにより、相互モーダル相互作用とアクション決定の強化を図っている。 具体的には,プレフュージョンアライメントを,その意味的相関に基づいて,命令履歴レベルとランドマーク観測レベルという2つのレベルに分割する。 また、二重レベルアライメントへの適応のための二重レベル命令を再構成する。 プレフュージョンアライメントのためのトレーニング信号は非常に限られているため、異なるモーダル間のマッチングを強制するために自己教師付きコントラスト学習戦略が採用されている。 提案手法は既存のモデルの大部分とシームレスに統合され,R2R,R4R,RxR,CVDNなど,さまざまなVLNベンチマークのナビゲーション性能が向上した。

Vision-and-Language navigation (VLN) requires an agent to navigate in unseen environment by following natural language instruction. For task completion, the agent needs to align and integrate various navigation modalities, including instruction, observation and navigation history. Existing works primarily concentrate on cross-modal attention at the fusion stage to achieve this objective. Nevertheless, modality features generated by disparate uni-encoders reside in their own spaces, leading to a decline in the quality of cross-modal fusion and decision. To address this problem, we propose a Dual-levEL AligNment (DELAN) framework by cross-modal contrastive learning. This framework is designed to align various navigation-related modalities before fusion, thereby enhancing cross-modal interaction and action decision-making. Specifically, we divide the pre-fusion alignment into dual levels: instruction-history level and landmark-observation level according to their semantic correlations. We also reconstruct a dual-level instruction for adaptation to the dual-level alignment. As the training signals for pre-fusion alignment are extremely limited, self-supervised contrastive learning strategies are employed to enforce the matching between different modalities. Our approach seamlessly integrates with the majority of existing models, resulting in improved navigation performance on various VLN benchmarks, including R2R, R4R, RxR and CVDN.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# ヴァイオリンの低減に関する一考察:ミニマの輪郭線と流路の幾何学的解析

A discussion about violin reduction: geometric analysis of contour lines and channel of minima ( http://arxiv.org/abs/2404.01995v1 )

ライセンス: Link先を確認
Philémon Beghin, Anne-Emmanuelle Ceulemans, François Glineur, (参考訳) 初期のヴァイオリンのいくつかは、その歴史の中でモルフォロジー標準に適合するように縮小され、より最近のヴァイオリンはこれらの標準に直接組み込まれている。 縮小された楽器と非還元された楽器の差を観察でき、特に輪郭線やミニマの流路で観察できる。 最近の予備研究で、我々はこの2つの特徴を3次元三角形メッシュを用いて計算、強調し、その忠実度をサブミリメートル精度で評価し、検証した。 ここでは、38のヴァイオリン、ヴァイオラ、チェロからなるコーパスの拡張を提案し、改良された手順を導入し、幾何学的解析についてより深く議論する。 私たちはまず、一緒に作業している材料を思い出します。 次に、輪郭線とミニマ流路の計算に欠かせないバイオリンアライメントのための最良の基準面を導出する方法について議論する。 最後に、両方の特性を効率的に計算する方法を示し、その結果をいくつかの例で示す。

Some early violins have been reduced during their history to fit imposed morphological standards, while more recent ones have been built directly to these standards. We can observe differences between reduced and unreduced instruments, particularly in their contour lines and channel of minima. In a recent preliminary work, we computed and highlighted those two features for two instruments using triangular 3D meshes acquired by photogrammetry, whose fidelity has been assessed and validated with sub-millimetre accuracy. We propose here an extension to a corpus of 38 violins, violas and cellos, and introduce improved procedures, leading to a stronger discussion of the geometric analysis. We first recall the material we are working with. We then discuss how to derive the best reference plane for the violin alignment, which is crucial for the computation of contour lines and channel of minima. Finally, we show how to compute efficiently both characteristics and we illustrate our results with a few examples.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# 低照度化のための特異度因子化

Specularity Factorization for Low-Light Enhancement ( http://arxiv.org/abs/2404.01998v1 )

ライセンス: Link先を確認
Saurabh Saini, P J Narayanan, (参考訳) 本稿では,分解の間隔を調節して再帰的に再帰的に推定できる,複数の潜在特異成分からなる画像を扱う新たな付加的画像分解手法を提案する。 我々のモデル駆動型 {\em RSFNet} は、最適化をネットワーク層にアンロールすることでこれらの因子を推定する。 結果の因子は設計によって解釈可能であり、ネットワークを介して異なる画像強調タスクに融合したり、ユーザーが直接制御可能な方法で組み合わせたりすることができる。 RSFNetに基づいて、ペアやアンペアの監督なしにトレーニングされたゼロ参照低光強調(LLE)アプリケーションを詳述する。 本システムは,標準ベンチマークの最先端性能を向上し,他の複数のデータセットのより優れた一般化を実現する。 我々はまた、デライニング、デブロアリング、デヘイジングといったアプリケーションのための他のタスク固有のフュージョンネットワークと、無視できるオーバーヘッドで要素を統合することで、提案したRCFNetのマルチドメインおよびマルチタスクの一般化性を強調します。 コードとデータはプロジェクトのホームページで再現性のためにリリースされます。

We present a new additive image factorization technique that treats images to be composed of multiple latent specular components which can be simply estimated recursively by modulating the sparsity during decomposition. Our model-driven {\em RSFNet} estimates these factors by unrolling the optimization into network layers requiring only a few scalars to be learned. The resultant factors are interpretable by design and can be fused for different image enhancement tasks via a network or combined directly by the user in a controllable fashion. Based on RSFNet, we detail a zero-reference Low Light Enhancement (LLE) application trained without paired or unpaired supervision. Our system improves the state-of-the-art performance on standard benchmarks and achieves better generalization on multiple other datasets. We also integrate our factors with other task specific fusion networks for applications like deraining, deblurring and dehazing with negligible overhead thereby highlighting the multi-domain and multi-task generalizability of our proposed RSFNet. The code and data is released for reproducibility on the project homepage.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# マルチエージェント強化学習によるケモティックストラテジーの創発

Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2404.01999v1 )

ライセンス: Link先を確認
Samuel Tovey, Christoph Lohrmann, Christian Holm, (参考訳) 強化学習(Reinforcement Learning, RL)は、複雑な環境でマイクロロボットをプログラミングするための柔軟で効率的な方法である。 ここでは, 強化学習が, 化学運動の訓練を行う際の生体システムに対する洞察を与えることができるかどうかを検討する。 すなわち、知的エージェントがターゲットに向かって泳ぐために、与えられた情報をどのように処理するかを学ぶことができるかどうかである。 各種エージェントの形状,サイズ,水泳速度をシミュレーションし,生物学的水泳選手の身体的制約,すなわちブラウン運動が,強化学習者のトレーニングが失敗する地域につながるかどうかを判定する。 RL剤は, 身体的に可能であれば早期に遊泳でき, 能動的水泳が確率的環境を圧倒する前であっても, ある程度の確率で遊泳が可能であることが判明した。 創発的政策の効率性について検討し,エージェントサイズと水泳速度の収束性について検討した。 最後に、強化学習アルゴリズムが採用する戦略について検討し、エージェントがどのようにタスクを実行するかを説明する。 この目的のために、我々は3つの新たな支配的戦略といくつかの稀なアプローチを特定した。 これらの戦略は、シミュレーションにおいてほぼ同一の軌道を生成する一方で、生物学的エージェントが環境を探索し、変化する条件に反応する可能性についての洞察を与えている。

Reinforcement learning (RL) is a flexible and efficient method for programming micro-robots in complex environments. Here we investigate whether reinforcement learning can provide insights into biological systems when trained to perform chemotaxis. Namely, whether we can learn about how intelligent agents process given information in order to swim towards a target. We run simulations covering a range of agent shapes, sizes, and swim speeds to determine if the physical constraints on biological swimmers, namely Brownian motion, lead to regions where reinforcement learners' training fails. We find that the RL agents can perform chemotaxis as soon as it is physically possible and, in some cases, even before the active swimming overpowers the stochastic environment. We study the efficiency of the emergent policy and identify convergence in agent size and swim speeds. Finally, we study the strategy adopted by the reinforcement learning algorithm to explain how the agents perform their tasks. To this end, we identify three emerging dominant strategies and several rare approaches taken. These strategies, whilst producing almost identical trajectories in simulation, are distinct and give insight into the possible mechanisms behind which biological agents explore their environment and respond to changing conditions.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# サブサハラ語文脈における多言語音声表現のためのアフリカ中心の自己教師付き事前学習

Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context ( http://arxiv.org/abs/2404.02000v1 )

ライセンス: Link先を確認
Antoine Caubrière, Elodie Gauthier, (参考訳) アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。 このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。 FLEURS-102データセットのSSAサブセットでは,HuBERT$_{base}$ (0.09B)アーキテクチャに基づくアプローチが,FLEURSベンチマークで提案されたw2v-bert-51(0.6B)事前学習モデルと比較して,ASRダウンストリームタスクに対する競合結果を示している。 さらに,LIDダウンストリームタスクの文脈では,FLEURSの精度を22.5%以上向上させる。

We present the first self-supervised multilingual speech model trained exclusively on African speech. The model learned from nearly 60 000 hours of unlabeled speech segments in 21 languages and dialects spoken in sub-Saharan Africa. On the SSA subset of the FLEURS-102 dataset, our approach based on a HuBERT$_{base}$ (0.09B) architecture shows competitive results, for ASR downstream task, compared to the w2v-bert-51 (0.6B) pre-trained model proposed in the FLEURS benchmark, while being more efficient by using 7x less data and 6x less parameters. Furthermore, in the context of a LID downstream task, our approach outperforms FLEURS baselines accuracy by over 22\%.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# AUTODIFF: 構造に基づく医薬品設計のための自己回帰拡散モデリング

AUTODIFF: Autoregressive Diffusion Modeling for Structure-based Drug Design ( http://arxiv.org/abs/2404.02003v1 )

ライセンス: Link先を確認
Xinze Li, Penglei Wang, Tianfan Fu, Wenhao Gao, Chengtao Li, Leilei Shi, Junhong Liu, (参考訳) SBDD(Structure-based drug design)は、標的タンパク質に強く結合する分子を生成することを目的としており、薬物発見において重要な問題である。 しかし、既存のほとんどの手法は、結合角やねじれ角の弱い傾きが原因で、いまだに不正な局所構造や非現実的なコンフォーメーションの問題に悩まされている。 これらの問題を緩和するために,拡散に基づく断片的自己回帰生成モデルであるAUTODIFFを提案する。 具体的には、まず分子の局所構造のコンフォメーションを保存し、SE(3)-同変の畳み込みネットワークとタンパク質-リガンド複合体の相互作用を符号化し、拡散モデルによる分子モチーフ・バイ・モチーフを生成する、コンフォメーションモチーフと呼ばれる新しい分子組立戦略を設計する。 さらに, 生成分子の分子重み付けを同じ範囲で制限し, 評価をより公平かつ実用的なものにすることで, SBDDの評価枠組みも改善する。 CrossDocked2020の大規模な実験により,本手法は,高結合親和性を維持しつつ,有効な構造と配座を持つ現実的な分子を生成する上で,既存のモデルよりも優れていることが示された。

Structure-based drug design (SBDD), which aims to generate molecules that can bind tightly to the target protein, is an essential problem in drug discovery, and previous approaches have achieved initial success. However, most existing methods still suffer from invalid local structure or unrealistic conformation issues, which are mainly due to the poor leaning of bond angles or torsional angles. To alleviate these problems, we propose AUTODIFF, a diffusion-based fragment-wise autoregressive generation model. Specifically, we design a novel molecule assembly strategy named conformal motif that preserves the conformation of local structures of molecules first, then we encode the interaction of the protein-ligand complex with an SE(3)-equivariant convolutional network and generate molecules motif-by-motif with diffusion modeling. In addition, we also improve the evaluation framework of SBDD by constraining the molecular weights of the generated molecules in the same range, together with some new metrics, which make the evaluation more fair and practical. Extensive experiments on CrossDocked2020 demonstrate that our approach outperforms the existing models in generating realistic molecules with valid structures and conformations while maintaining high binding affinity.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# オオカミにおけるボット音声対話の先駆的概念

Preuve de concept d'un bot vocal dialoguant en wolof ( http://arxiv.org/abs/2404.02009v1 )

ライセンス: Link先を確認
Elodie Gauthier, Papa-Séga Wade, Thierry Moudenc, Patrice Collen, Emilie De Neef, Oumar Ba, Ndeye Khoyane Cama, Cheikh Ahmadou Bamba Kebe, Ndeye Aissatou Gningue, Thomas Mendo'o Aristide, (参考訳) 本稿では,セネガルで話される主要な車両言語であるWolof言語で構築された最初の自動音声アシスタントのコンセプト実証について述べる。 このボイスボットは、フランスのOrange Innovation、Orange Senegal(別名Sonatel)と、セネガルのDakarに本社を置く小さなIT企業ADNCorpの共同研究プロジェクトの結果である。 ボイスボットの目的は、オレンジセネガルのサルガル忠誠プログラムについて、最も自然な手段である音声を用いて、オレンジの顧客に情報を提供することである。 ボイスボットは、SLUシステムによって処理された顧客の口頭要求を入力し、音声記録を用いて顧客の要求に応答する。 ASRタスクではWERの22倍、NLUタスクではF1スコアの78倍を達成した。

This paper presents the proof-of-concept of the first automatic voice assistant ever built in Wolof language, the main vehicular language spoken in Senegal. This voicebot is the result of a collaborative research project between Orange Innovation in France, Orange Senegal (aka Sonatel) and ADNCorp, a small IT company based in Dakar, Senegal. The purpose of the voicebot is to provide information to Orange customers about the Sargal loyalty program of Orange Senegal by using the most natural mean to communicate: speech. The voicebot receives in input the customer's oral request that is then processed by a SLU system to reply to the customer's request using audio recordings. The first results of this proof-of-concept are encouraging as we achieved 22\% of WER for the ASR task and 78\% of F1-score on the NLU task.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# ヒンディー語、タミル語、インド英語のオンライン空間における沈黙の検出・緩和

Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces ( http://arxiv.org/abs/2404.02013v1 )

ライセンス: Link先を確認
Advaitha Vetagiri, Gyandeep Kalita, Eisha Halder, Chetna Taparia, Partha Pakray, Riyanka Manna, (参考訳) オンラインのジェンダーベースのハラスメントは、女性の自由な表現と参加と、デジタル空間における男女の疎外を制限した広範な問題である。 このような乱暴なコンテンツを検出することで、プラットフォームはこの脅威を抑制することができる。 ICON2023では、英語、ヒンディー語、タミル語で注釈付きTwitter投稿のデータセットを提供し、性別による虐待を識別するための分類器を構築しました。 我々のチームであるCNLP-NITS-PPは、テキストデータのセマンティックパターンとシーケンシャルパターンを効果的にモデル化できるCNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。 CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。 文脈に基づく攻撃性を決定するために、BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。 各言語データセットに対するFastTextとGloVeワードの埋め込みを使用して、明示的な乱用、標的とするマイノリティ攻撃、一般犯罪のためにラベル全体で7,600以上のクラウドソースされたアノテーションをトレーニングした。 検証結果は,f1尺度,特に英語0.84に対して高い性能を示した。 我々の実験は、埋め込みとモデルハイパーパラメータのカスタマイズが検出能力をいかに改善するかを明らかにした。 提案されたアーキテクチャは競争で1位にランクされ、コードスイッチングで現実世界のノイズの多いテキストを処理できることが証明された。 この技術は、プラットフォームがIndic言語インターネットユーザーに対してサイバーハラスメントと戦うために、有望な範囲を持つ。 私たちのコードはhttps://github.com/advaithavetagiri/CNLP-NITS-PPにあります。

Online gender-based harassment is a widespread issue limiting the free expression and participation of women and marginalized genders in digital spaces. Detecting such abusive content can enable platforms to curb this menace. We participated in the Gendered Abuse Detection in Indic Languages shared task at ICON2023 that provided datasets of annotated Twitter posts in English, Hindi and Tamil for building classifiers to identify gendered abuse. Our team CNLP-NITS-PP developed an ensemble approach combining CNN and BiLSTM networks that can effectively model semantic and sequential patterns in textual data. The CNN captures localized features indicative of abusive language through its convolution filters applied on embedded input text. To determine context-based offensiveness, the BiLSTM analyzes this sequence for dependencies among words and phrases. Multiple variations were trained using FastText and GloVe word embeddings for each language dataset comprising over 7,600 crowdsourced annotations across labels for explicit abuse, targeted minority attacks and general offences. The validation scores showed strong performance across f1-measures, especially for English 0.84. Our experiments reveal how customizing embeddings and model hyperparameters can improve detection capability. The proposed architecture ranked 1st in the competition, proving its ability to handle real-world noisy text with code-switching. This technique has a promising scope as platforms aim to combat cyber harassment facing Indic language internet users. Our Code is at https://github.com/advaithavetagiri/CNLP-NITS-PP
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# ブラウン粒子と物質波

Brownian Particles and Matter Waves ( http://arxiv.org/abs/2404.02016v1 )

ライセンス: Link先を確認
Nicos Makris, (参考訳) 微小レオロジーによるブラウン粒子のランダムな運動を極小のナノメートルで観測する顕著な進歩を考慮し, ブラウン粒子が量子デコヒーレンス(英語版)の先行引数を使わずに粒子-波双対性を示すことができるかどうかを考察した。 まず、時間非依存の拡散係数を持つ無記憶粘性流体にブラウン粒子が浸漬されている場合について検討し、粒子波双対性を示すためのブラウン粒子の要求は、拡散係数が逆時間に比例しなければならないという不安定な結果をもたらす。 この発見は、量子力学がマルコフ拡散過程と等価でないという過去の結論に一致する。 次に,ブラウン粒子が散逸を伴わずとも調和ポテンシャルに閉じ込められている場合について検討する。 散逸のない場合のフォッカー・プランク方程式と散逸のない場合のシュロディンガー方程式の両方の解は、同じ物理的に許容できる結果をもたらす。ブラウン粒子が粒子-波双対性を示すためには、その平均運動エネルギーは量子調和振動子の基底状態エネルギーの半分である必要がある。 私たちの1次元の計算では、このトラップは非常に強く、ブラウンナノ粒子を非常に硬い固体に埋め込む必要があることが示されています。

In view of the remarkable progress in micro-rheology to monitor the random motion of Brownian particles with size as small as few nanometers, in association that de Broglie matter waves have been experimentally observed for large molecules of comparable nanometer size; we examine whether Brownian particles can manifest a particle-wave duality without employing a priori arguments from quantum decoherence. First, we examine the case where Brownian particles are immersed in a memoryless viscous fluid with a time-independent diffusion coefficient; and the requirement for the Brownian particles to manifest a particle-wave duality leads to the untenable result that the diffusion coefficient has to be proportional to the inverse time; therefore, diverging at early times. This finding agrees with past conclusions--that quantum mechanics is not equivalent to a Markovian diffusion process. Next, we examine the case where the Brownian particle is trapped in a harmonic potential well with and without dissipation. Both solutions of the Fokker-Plank equation for the case with dissipation, and of the Schrodinger equation for the case without dissipation lead to the same physically acceptable result-that for the Brownian particle to manifest a particle-wave duality, its mean kinetic energy needs to be half the ground-state energy of the quantum harmonic oscillator. Our one-dimensional calculations show that for this to happen, the trapping needs to be very strong so that a Brownian nanoparticle needs to be embedded in an extremely stiff solid.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# 双方向ロボットのオーケストレーションのための大規模言語モデル

Large Language Models for Orchestrating Bimanual Robots ( http://arxiv.org/abs/2404.02018v1 )

ライセンス: Link先を確認
Kun Chu, Xufeng Zhao, Cornelius Weber, Mengdi Li, Wenhao Lu, Stefan Wermter, (参考訳) 複雑な操作タスクを解く能力を持つロボットの能力は急速に進歩してきたが、効果的な時間的・空間的調整の困難さから、両手に関わるタスクを解くためのバイマニュアルロボットの制御ポリシーを作成することは依然として困難である。 ステップ・バイ・ステップの推論と文脈内学習という観点からの創発的な能力により、LLM(Large Language Models)は様々なロボットタスクを制御している。 しかし, 言語コミュニケーションの性質は, 連続空間におけるLLMに基づくコーディネーションを両面的タスクの特定の課題とする。 LLMによるこの課題に初めて取り組むために,Language-based Bimanual Orchestration (LABOR)を提案する。 シミュレーション環境では、NICOLヒューマノイドロボット上での日常的な作業を通じて、LABORエージェントを評価する。 報告された成功率は、全体的な調整効率が最適性能に近いことを示しているが、失敗原因の分析は、空間的および時間的調整とスキル選択に分類され、これらがタスクによって異なることを示している。 プロジェクトのWebサイトはhttp://labor-agent.github.ioにある。

Although there has been rapid progress in endowing robots with the ability to solve complex manipulation tasks, generating control policies for bimanual robots to solve tasks involving two hands is still challenging because of the difficulties in effective temporal and spatial coordination. With emergent abilities in terms of step-by-step reasoning and in-context learning, Large Language Models (LLMs) have taken control of a variety of robotic tasks. However, the nature of language communication via a single sequence of discrete symbols makes LLM-based coordination in continuous space a particular challenge for bimanual tasks. To tackle this challenge for the first time by an LLM, we present LAnguage-model-based Bimanual ORchestration (LABOR), an agent utilizing an LLM to analyze task configurations and devise coordination control policies for addressing long-horizon bimanual tasks. In the simulated environment, the LABOR agent is evaluated through several everyday tasks on the NICOL humanoid robot. Reported success rates indicate that overall coordination efficiency is close to optimal performance, while the analysis of failure causes, classified into spatial and temporal coordination and skill selection, shows that these vary over tasks. The project website can be found at http://labor-agent.github.io
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# 検索機能強化されたオープンドメイン質問-ベクトル化コンテキストによる回答

Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts ( http://arxiv.org/abs/2404.02022v1 )

ライセンス: Link先を確認
Zhuo Chen, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Kewei Tu, (参考訳) 大規模言語モデルの時代において、検索拡張生成のようなテクニックを適用することは、オープンドメインの質問応答問題にもっとうまく対処できる。 モデルのサイズや計算資源などの制約のため、コンテキストの長さは制限されることが多く、オープンドメインからの質問に答えながら、長いコンテキストをカバーするようにモデルに権限を与えるのは難しい。 本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる汎用的,便利な手法を提案する。 コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。 本手法では,ベースラインに近い計算要求を保ちながら,元の言語モデルで数倍のコンテキストをカバーできる。 我々の実験は、微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定におけるパフォーマンスが向上したことを示した。

In the era of large language models, applying techniques such as Retrieval Augmented Generation can better address Open-Domain Question-Answering problems. Due to constraints including model sizes and computing resources, the length of context is often limited, and it becomes challenging to empower the model to cover overlong contexts while answering questions from open domains. This paper proposes a general and convenient method to covering longer contexts in Open-Domain Question-Answering tasks. It leverages a small encoder language model that effectively encodes contexts, and the encoding applies cross-attention with origin inputs. With our method, the origin language models can cover several times longer contexts while keeping the computing requirements close to the baseline. Our experiments demonstrate that after fine-tuning, there is improved performance across two held-in datasets, four held-out datasets, and also in two In Context Learning settings.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# QUSL: 高性能な量子教師なし画像類似学習

QUSL: Quantum Unsupervised Image Similarity Learning with Enhanced Performance ( http://arxiv.org/abs/2404.02028v1 )

ライセンス: Link先を確認
Lian-Hui Yu, Xiao-Yu Li, Geng Chen, Qin-Sheng Zhu, Guo-Wu Yang, (参考訳) 機械学習能力を高めるために量子アドバンテージを活用することは、特に画像の類似性検出のような複雑なタスクにおいて、研究の中心となっている。 量子コンピューティングの可能性を完全に活用するためには、手前のタスクの特定の特性に合わせた量子回路を設計することが不可欠である。 そこで本研究では,量子教師なし類似性学習手法QUSLを提案する。 類似性検出三重項の基礎の上に構築され、アンカー画像の摂動によって正のサンプルを生成するため、QUSLは古典的なオラクルとは独立して動作する。 三重項の性能と量子回路の特性を活用することで、QUSLはメタヒューリスティックアルゴリズムを用いてデータセットの特徴に合わせてカスタマイズされた高性能な量子回路アーキテクチャを体系的に探求し、回路コストを削減して効率的な量子特徴抽出を実現する。 総合的な実験は、最先端の量子法と比較してQUSLの顕著な性能を示している。 QUSLは、DEC21、COCO、ランドスケープデータセット間の類似性検出相関の約20%の強化を実現するとともに、臨界量子リソース利用の50%を超える削減を実現している。 これにより、大規模未ラベル画像データの量子資源利用率を低減した効率的な量子類似性モデリングが可能となる。

Leveraging quantum advantages to enhance machine learning capabilities has become a primary focus of research, particularly for complex tasks such as image similarity detection. To fully exploit the potential of quantum computing, it is essential to design quantum circuits tailored to the specific characteristics of the task at hand. In response to this challenge, we propose a novel quantum unsupervised similarity learning method, QUSL. Building upon the foundation of similarity detection triplets and generating positive samples through perturbations of anchor images, QUSL operates independently of classical oracles. By leveraging the performance of triplets and the characteristics of quantum circuits, QUSL systematically explores high-performance quantum circuit architectures customized for dataset features using metaheuristic algorithms, thereby achieving efficient quantum feature extraction with reduced circuit costs. Comprehensive experiments demonstrate QUSL's remarkable performance compared to state-of-the-art quantum methods. QUSL achieves reductions exceeding 50% in critical quantum resource utilization while also realizing an enhancement of approximately 20% in similarity detection correlation across the DISC21, COCO, and landscape datasets. This enables efficient quantum similarity modeling for large-scale unlabeled image data with reduced quantum resource utilization.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# 効率的な運用のために対称性の測定はどの程度必要か?

How much symmetry do symmetric measurements need for efficient operational applications? ( http://arxiv.org/abs/2404.02034v1 )

ライセンス: Link先を確認
Katarzyna Siudzińska, (参考訳) 本稿では,非等量正の演算子値測度(POVM)の集合に対称測定の一般化を導入する。 情報的完備集合に対しては、正則エルミート作用素基底を用いた構成法を提案する。 演算子基底と測定値の対応は、追加の仮定でのみ従う1対1の対応で、最大4対4の対応を持つことができる。 重要なことに、一般化の過程で失われる対称性の性質のいくつかは、すべてのPOVMに対して同じ数の要素を固定することなく回復できることが判明した。 特に、円錐型2-設計である幅広い非等量対称測度に対して、偶然性、エントロピー的不確実性関係、および二部量子状態の分離性基準の指標を導出する。

We introduce a generalization of symmetric measurements to collections of unequinumerous positive, operator-valued measures (POVMs). For informationally complete sets, we propose construction methods from orthonormal Hermitian operator bases. The correspondence between operator bases and measurements can be as high as four-to-four, with a one-to-one correspondence following only under additional assumptions. Importantly, it turns out that some of the symmetry properties, lost in the process of generalization, can be recovered without fixing the same number of elements for all POVMs. In particular, for a wide class of unequinumerous symmetric measurements that are conical 2-designs, we derive the index of coincidence, entropic uncertainty relations, and separability criteria for bipartite quantum states.
翻訳日:2024-04-03 15:59:17 公開日:2024-04-02
# MultiParaDetox: 並列データによるテキストデトックスを新しい言語に拡張

MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages ( http://arxiv.org/abs/2404.02037v1 )

ライセンス: Link先を確認
Daryna Dementieva, Nikolay Babakov, Alexander Panchenko, (参考訳) テキストデトックス化(英: text detoxification)とは、テキストが有害な表面形態から中性レジスタへパラフレーズされるテキストスタイル転送(TST)タスクである。 近年では、Long et al , 2023; He et al , 2024; Tang et al , 2023; Mun et al , 2023; Agarwal et al , 2023) などの大規模言語モデル(LLMs)の解毒法や、ソーシャルネットワークにおける有毒な会話(Deng et al , 2023; Mun et al , 2023; Agarwal et al , 2023)など、様々なタスクに応用されている。 これらのアプリケーションは、現代のデジタル世界で安全なコミュニケーションを確保するために非常に重要である。 しかし,ParaDetox(Logacheva et al ,2022)とAPPADIA(Atwell et al ,2022)の並列テキストデトキシフィケーションコーパスコレクションに対する従来のアプローチは,単言語設定でのみ検討された。 本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。 次に, 教師なしベースラインからLLM, 提案した並列コーパス上での微調整モデルに至るまで, さまざまなテキストデトックス化モデルを実験し, 並列コーパスの存在の優れた利点を示し, 任意の言語に対して最先端のテキストデトックス化モデルを得る。

Text detoxification is a textual style transfer (TST) task where a text is paraphrased from a toxic surface form, e.g. featuring rude words, to the neutral register. Recently, text detoxification methods found their applications in various task such as detoxification of Large Language Models (LLMs) (Leong et al., 2023; He et al., 2024; Tang et al., 2023) and toxic speech combating in social networks (Deng et al., 2023; Mun et al., 2023; Agarwal et al., 2023). All these applications are extremely important to ensure safe communication in modern digital worlds. However, the previous approaches for parallel text detoxification corpora collection -- ParaDetox (Logacheva et al., 2022) and APPADIA (Atwell et al., 2022) -- were explored only in monolingual setup. In this work, we aim to extend ParaDetox pipeline to multiple languages presenting MultiParaDetox to automate parallel detoxification corpus collection for potentially any language. Then, we experiment with different text detoxification models -- from unsupervised baselines to LLMs and fine-tuned models on the presented parallel corpora -- showing the great benefit of parallel corpus presence to obtain state-of-the-art text detoxification models for any language.
翻訳日:2024-04-03 15:49:32 公開日:2024-04-02
# 大規模言語モデルに基づくゲームエージェントに関する調査

A Survey on Large Language Model-Based Game Agents ( http://arxiv.org/abs/2404.02039v1 )

ライセンス: Link先を確認
Sihao Hu, Tiansheng Huang, Fatih Ilhan, Selim Tekin, Gaowen Liu, Ramana Kompella, Ling Liu, (参考訳) ゲームエージェントの開発は、人工知能(AGI)に進む上で重要な役割を担っている。 LLMとそのマルチモーダル(MLLM)の進歩は、複雑なコンピュータゲーム環境において、人間のような意思決定能力を持つゲームエージェントを進化させ、強化する前例のない機会を提供する。 本稿では, LLMをベースとしたゲームエージェントについて, 総合的な視点から概観する。 まず, 認知, 記憶, 思考, ロールプレイング, アクション, 学習の6つの重要な機能的要素を中心に, LLMベースのゲームエージェントの概念的アーキテクチャを紹介する。 第2に、冒険、コミュニケーション、競争、協力、シミュレーション、工芸と探検ゲームを含む6つのジャンルのゲームにおいて、方法論と適応の俊敏性に関する文献に記録されている既存の代表的LSMベースのゲームエージェントを調査した。 最後に,この急成長分野における今後の研究・開発方向性について概観する。 関連論文のキュレートされたリストは、https://github.com/git-disl/awesome-LLM-game-agent-papersで維持およびアクセス可能である。

The development of game agents holds a critical role in advancing towards Artificial General Intelligence (AGI). The progress of LLMs and their multimodal counterparts (MLLMs) offers an unprecedented opportunity to evolve and empower game agents with human-like decision-making capabilities in complex computer game environments. This paper provides a comprehensive overview of LLM-based game agents from a holistic viewpoint. First, we introduce the conceptual architecture of LLM-based game agents, centered around six essential functional components: perception, memory, thinking, role-playing, action, and learning. Second, we survey existing representative LLM-based game agents documented in the literature with respect to methodologies and adaptation agility across six genres of games, including adventure, communication, competition, cooperation, simulation, and crafting & exploration games. Finally, we present an outlook of future research and development directions in this burgeoning field. A curated list of relevant papers is maintained and made accessible at: https://github.com/git-disl/awesome-LLM-game-agent-papers.
翻訳日:2024-04-03 15:49:32 公開日:2024-04-02
# トランスデューサとしてのトランスフォーマー

Transformers as Transducers ( http://arxiv.org/abs/2404.02040v1 )

ライセンス: Link先を確認
Lena Strobl, Dana Angluin, David Chiang, Jonathan Rawski, Ashish Sabharwal, (参考訳) 変圧器のシーケンス・ツー・シーケンスマッピング能力について有限トランスデューサに関連付けて検討し,驚くほど大きなトランスダクションのクラスを表現できることを見出した。 私たちは、中間表現として、人々が"トランスフォーマーのように考える"ために設計されたプログラミング言語であるRASPの亜種を使っています。 既存のブール変量 B-RASP をシーケンス・ツー・シーケンス関数に拡張し、一階有理関数(弦回転など)を正確に計算することを示す。 次に、2つの新しい拡張を紹介します。 B-RASP[pos]は、(文字列の前半をコピーするなど)位置の計算を可能にし、全ての一階正則関数を含む。 S-RASPはプレフィックス和を追加し、(文字列のスクアリングのような)算術演算を可能とし、全ての一階多型関数を含む。 最後に、マスク付き平均的注意変換器がS-RASPをシミュレート可能であることを示す。 この結果は、変換器デコーダがチューリング完全であることの新たな証明である。

We study the sequence-to-sequence mapping capacity of transformers by relating them to finite transducers, and find that they can express surprisingly large classes of transductions. We do so using variants of RASP, a programming language designed to help people "think like transformers," as an intermediate representation. We extend the existing Boolean variant B-RASP to sequence-to-sequence functions and show that it computes exactly the first-order rational functions (such as string rotation). Then, we introduce two new extensions. B-RASP[pos] enables calculations on positions (such as copying the first half of a string) and contains all first-order regular functions. S-RASP adds prefix sum, which enables additional arithmetic operations (such as squaring a string) and contains all first-order polyregular functions. Finally, we show that masked average-hard attention transformers can simulate S-RASP. A corollary of our results is a new proof that transformer decoders are Turing-complete.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# SelfPose3d: 自己監督型マルチパーソン型マルチパーソン3次元ポーズ推定

SelfPose3d: Self-Supervised Multi-Person Multi-View 3d Pose Estimation ( http://arxiv.org/abs/2404.02041v1 )

ライセンス: Link先を確認
Vinkle Srivastav, Keqi Chen, Nicolas Padoy, (参考訳) 複数のカメラビューから複数の人の3dポーズを推定する自己教師型アプローチであるSelfPose3dを提案する。 現在の最先端のフル教師方式とは異なり、我々のアプローチでは2dまたは3dの地平線ポーズを一切必要とせず、キャリブレーションされたカメラ設定とオフ・ザ・シェルフ2d人間のポーズ推定器から生成された2d擬似ポーズから得られるマルチビュー入力画像のみを使用する。 本研究では,3次元空間における自己教師型人物位置推定と3次元ポーズ推定という2つの自己教師型学習目標を提案する。 我々は,合成した3d点のモデルを学習し,3d人物のルート位置,および全ての視点で投影されたルート・ヒートマップとして機能させることにより,自己監督型3d人物位置決めを実現する。 次に、ボトルネック表現を持つすべての局所的人物の3dポーズをモデル化し、それらを2dジョイントを得るすべてのビューにマッピングし、2dガウス熱マップをエンドツーエンドの微分可能な方法でレンダリングする。 その後、擬似2dポーズから対応する2d関節とヒートマップを学習に用いる。 擬似ラベルの内在的不正確性を軽減するため,自己監督を導くための適応型監視注意機構を提案する。 Panoptic、Shelf、Campusを含む3つの公開ベンチマークデータセットの実験と分析は、完全に教師された手法に匹敵するアプローチの有効性を示している。 コードは \url{https://github.com/CAMMA-public/SelfPose3D} で公開されている。

We present a new self-supervised approach, SelfPose3d, for estimating 3d poses of multiple persons from multiple camera views. Unlike current state-of-the-art fully-supervised methods, our approach does not require any 2d or 3d ground-truth poses and uses only the multi-view input images from a calibrated camera setup and 2d pseudo poses generated from an off-the-shelf 2d human pose estimator. We propose two self-supervised learning objectives: self-supervised person localization in 3d space and self-supervised 3d pose estimation. We achieve self-supervised 3d person localization by training the model on synthetically generated 3d points, serving as 3d person root positions, and on the projected root-heatmaps in all the views. We then model the 3d poses of all the localized persons with a bottleneck representation, map them onto all views obtaining 2d joints, and render them using 2d Gaussian heatmaps in an end-to-end differentiable manner. Afterwards, we use the corresponding 2d joints and heatmaps from the pseudo 2d poses for learning. To alleviate the intrinsic inaccuracy of the pseudo labels, we propose an adaptive supervision attention mechanism to guide the self-supervision. Our experiments and analysis on three public benchmark datasets, including Panoptic, Shelf, and Campus, show the effectiveness of our approach, which is comparable to fully-supervised methods. Code is available at \url{https://github.com/CAMMA-public/SelfPose3D}
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# ウクライナ語テキスト分類 : 言語間知識伝達アプローチの探索

Ukrainian Texts Classification: Exploration of Cross-lingual Knowledge Transfer Approaches ( http://arxiv.org/abs/2404.02043v1 )

ライセンス: Link先を確認
Daryna Dementieva, Valeriia Khylenko, Georg Groh, (参考訳) NLPテキスト分類分野におけるラベル付きデータセットの多さにもかかわらず、様々な言語におけるデータ可用性の持続的不均衡は明らかである。 特にウクライナ語は、言語間の方法論の洗練の継続から恩恵を受けることができる言語である。 我々の知る限り、典型的なテキスト分類タスクにはウクライナのコーパスが欠如している。 本研究では,NLPの最先端技術を活用し,多言語エンコーダや翻訳システム,LLM,言語アダプタなど,手動データキュレーションを回避する言語間知識伝達手法を探索する。 我々は,3つのテキスト分類タスク(毒性分類,形式分類,自然言語推論)に対して,最適設定のための"レシピ"を提供するアプローチを検証した。

Despite the extensive amount of labeled datasets in the NLP text classification field, the persistent imbalance in data availability across various languages remains evident. Ukrainian, in particular, stands as a language that still can benefit from the continued refinement of cross-lingual methodologies. Due to our knowledge, there is a tremendous lack of Ukrainian corpora for typical text classification tasks. In this work, we leverage the state-of-the-art advances in NLP, exploring cross-lingual knowledge transfer methods avoiding manual data curation: large multilingual encoders and translation systems, LLMs, and language adapters. We test the approaches on three text classification tasks -- toxicity classification, formality classification, and natural language inference -- providing the "recipe" for the optimal setups.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# 因果性に基づく運転シナリオの未確認領域への移動

Causality-based Transfer of Driving Scenarios to Unseen Intersections ( http://arxiv.org/abs/2404.02046v1 )

ライセンス: Link先を確認
Christoph Glasmacher, Michael Schuldes, Sleiman El Masri, Lutz Eckstein, (参考訳) シナリオベースの自動運転機能のテストは、実世界のテストと比較して時間とコストを削減するための有望な方法となっている。 シナリオベースのテストでは、自動関数は事前に定義されたシナリオのセットで評価される。 これらのシナリオは、パラメータを使用して車両の挙動、環境条件、道路特性に関する情報を提供する。 現実的なシナリオを作成するには、パラメータとパラメータの依存関係を実際のデータを活用する必要がある。 しかし、実際には多くの交点や運動星座があるため、特定のシナリオではデータが利用できない可能性がある。 本稿では,シナリオのパラメータ間の関係を体系的に解析する手法を提案する。 ベイジアンネットワークは、必要なデータ量を減らすために因果依存性を分析し、未知のシナリオを生成する因果パターンを転送するために利用される。 そこで,非観測交差点における現実的なシナリオを生成するために,運動パターンに対するインフラ的影響を調査した。 評価には、inDデータセットからシナリオと基礎となるパラメータを抽出する。 移動パターンは、当初目に見えない交差点から記録されたデータに対して推定され、転送され、チェックされる。

Scenario-based testing of automated driving functions has become a promising method to reduce time and cost compared to real-world testing. In scenario-based testing automated functions are evaluated in a set of pre-defined scenarios. These scenarios provide information about vehicle behaviors, environmental conditions, or road characteristics using parameters. To create realistic scenarios, parameters and parameter dependencies have to be fitted utilizing real-world data. However, due to the large variety of intersections and movement constellations found in reality, data may not be available for certain scenarios. This paper proposes a methodology to systematically analyze relations between parameters of scenarios. Bayesian networks are utilized to analyze causal dependencies in order to decrease the amount of required data and to transfer causal patterns creating unseen scenarios. Thereby, infrastructural influences on movement patterns are investigated to generate realistic scenarios on unobserved intersections. For evaluation, scenarios and underlying parameters are extracted from the inD dataset. Movement patterns are estimated, transferred and checked against recorded data from those initially unseen intersections.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# 金融取引データの普遍的表現--局所的・グローバル的・外部的文脈を取り入れて

Universal representations for financial transactional data: embracing local, global, and external contexts ( http://arxiv.org/abs/2404.02047v1 )

ライセンス: Link先を確認
Alexandra Bazarova, Maria Kovaleva, Ilya Kuleshov, Evgenia Romanenkova, Alexander Stepikin, Alexandr Yugay, Dzhambulat Mollaev, Ivan Kireev, Andrey Savchenko, Alexey Zaytsev, (参考訳) 金融取引の効果的な処理は、銀行のデータ分析に不可欠である。 しかし、この領域では、ほとんどの手法は、多くの問題に適した普遍表現を構築するのではなく、スタンドアローン問題に対する特別な解に焦点を当てている。 多様なビジネス課題に対処する表現学習フレームワークを提案する。 また、データ特化を考慮に入れた新たな生成モデルを提案し、外部情報をクライアントの表現に統合し、他のユーザの行動からの洞察を活用する方法を提案する。 最後に、クライアントの現在の状態をローカルに反映し、時間とともに表現の進化を動的にキャプチャする、トランザクション履歴全体の表現品質をグローバルに記述するベンチマークを提供します。 我々の生成的アプローチは、次のMCC予測タスクでは最大14 %、既存のコントラストベースラインでは最大46 %のROC-AUCが増加し、ローカルタスクにおいて優れた性能を示す。 外部情報を組み込むことで、スコアが20\%向上する。

Effective processing of financial transactions is essential for banking data analysis. However, in this domain, most methods focus on specialized solutions to stand-alone problems instead of constructing universal representations suitable for many problems. We present a representation learning framework that addresses diverse business challenges. We also suggest novel generative models that account for data specifics, and a way to integrate external information into a client's representation, leveraging insights from other customers' actions. Finally, we offer a benchmark, describing representation quality globally, concerning the entire transaction history; locally, reflecting the client's current state; and dynamically, capturing representation evolution over time. Our generative approach demonstrates superior performance in local tasks, with an increase in ROC-AUC of up to 14\% for the next MCC prediction task and up to 46\% for downstream tasks from existing contrastive baselines. Incorporating external information improves the scores by an additional 20\%.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# 事前訓練音声モデルのノイズマスキング攻撃と防御

Noise Masking Attacks and Defenses for Pretrained Speech Models ( http://arxiv.org/abs/2404.02052v1 )

ライセンス: Link先を確認
Matthew Jagielski, Om Thakkar, Lun Wang, (参考訳) 音声モデルは、モデルパフォーマンスを改善するために、しばしば機密データに基づいて訓練される。 Amid et al 2022 が導入したノイズマスキング攻撃は,音声の書き起こしを部分的にノイズに置き換えることで自動音声認識(ASR)モデルを攻撃する。 彼らは、トレーニング時に記録が見られたとき、そのモデルは暗記されたセンシティブな書き起こしでノイズの多いレコードを転写することを示した。 我々の研究は、これらの攻撃をASRモデルを超えて拡張し、事前訓練された音声エンコーダを攻撃する。 我々の手法はエンコーダを微調整してASRモデルを生成し、そのモデル上でノイズマスキングを行い、事前学習データからプライベート情報を復元する。 我々は、これらの攻撃の精度を向上させる方法を示し、我々の攻撃に対する多くの対策を調査する。

Speech models are often trained on sensitive data in order to improve model performance, leading to potential privacy leakage. Our work considers noise masking attacks, introduced by Amid et al. 2022, which attack automatic speech recognition (ASR) models by requesting a transcript of an utterance which is partially replaced with noise. They show that when a record has been seen at training time, the model will transcribe the noisy record with its memorized sensitive transcript. In our work, we extend these attacks beyond ASR models, to attack pretrained speech encoders. Our method fine-tunes the encoder to produce an ASR model, and then performs noise masking on this model, which we find recovers private information from the pretraining data, despite the model never having seen transcripts at pretraining time! We show how to improve the precision of these attacks and investigate a number of countermeasures to our attacks.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# BERTopicが株価予測を下方修正

BERTopic-Driven Stock Market Predictions: Unraveling Sentiment Insights ( http://arxiv.org/abs/2404.02053v1 )

ライセンス: Link先を確認
Enmin Zhu, (参考訳) 本稿では,自然言語処理(NLP)と財務分析の共通点について考察し,株価予測における感情分析の影響に着目した。 NLP技術であるBERTopicを用いて、株式市場のコメントから派生したトピックの感情を分析する。 本手法は,この感情分析と様々な深層学習モデルを統合し,時系列およびストック予測タスクの有効性で有名である。 総合的な実験を通して、話題の感情を取り入れることで、これらのモデルの性能が顕著に向上することを示した。 その結果、株式市場のコメントの話題は、株式市場のボラティリティと価格トレンドに関する暗黙の貴重な洞察を提供することを示している。 本研究は、金融分析の充実におけるNLPの可能性を示すとともに、リアルタイムの感情分析と市場感情の感情的・文脈的側面の探究に関するさらなる研究の道を開くことにより、この分野に寄与する。 BERTopicのような先進的なNLP技術と従来の財務分析手法を統合することは、市場行動を理解し予測するためのより高度なツールを開発するための一歩となる。

This paper explores the intersection of Natural Language Processing (NLP) and financial analysis, focusing on the impact of sentiment analysis in stock price prediction. We employ BERTopic, an advanced NLP technique, to analyze the sentiment of topics derived from stock market comments. Our methodology integrates this sentiment analysis with various deep learning models, renowned for their effectiveness in time series and stock prediction tasks. Through comprehensive experiments, we demonstrate that incorporating topic sentiment notably enhances the performance of these models. The results indicate that topics in stock market comments provide implicit, valuable insights into stock market volatility and price trends. This study contributes to the field by showcasing the potential of NLP in enriching financial analysis and opens up avenues for further research into real-time sentiment analysis and the exploration of emotional and contextual aspects of market sentiment. The integration of advanced NLP techniques like BERTopic with traditional financial analysis methods marks a step forward in developing more sophisticated tools for understanding and predicting market behaviors.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# 文脈内学習のデコンストラクタ:破壊によるプロンプト理解

Deconstructing In-Context Learning: Understanding Prompts via Corruption ( http://arxiv.org/abs/2404.02054v1 )

ライセンス: Link先を確認
Namrata Shivagunde, Vladislav Lialin, Sherin Muckatira, Anna Rumshisky, (参考訳) 大きな言語モデル(LLM)が提供されたプロンプトに基づいて"文脈内で学習"する能力は、ChatGPT、Claude、BardといったAIアシスタントの普及を頂点に、その使用の爆発的な増加につながった。 これらのAIアシスタントは、人間のフィードバックを使用するアライメント技術によって、マイナーな迅速な修正に対して堅牢であることが知られている。 対照的に、彼らがバックボーンとして使用する基礎となる事前訓練されたLSMは、この点において脆いことが知られている。 高品質のバックボーンモデルの構築は依然として中心的な課題であり、その品質を評価するための一般的なアプローチは、ほとんどショット評価を行うことである。 このような評価は、マイナーな迅速な修正に非常に敏感であることや、特定のインコンテキストの例を選択することで有名である。 これまでの研究では、プロンプトの異なる要素の変更がモデルのパフォーマンスにどのように影響するかを調べてきた。 しかし、これらの初期の研究は特定のプロンプト属性の限られた数に集中する傾向があり、しばしば矛盾する結果を生んだ。 さらに、以前の研究では、パラメータが150億未満のモデルに焦点を当てたり、GPT-3やPaLMのようなブラックボックスモデルのみを精査し、複製を困難にしていた。 本研究では,全プロンプトをタスク記述,デモインプット,ラベル,インラインインストラクションの4つのコンポーネントに分解する。 これらの要素の構造的・意味的腐敗がモデル性能に及ぼす影響について検討する。 分類と生成タスクをカバーする10のデータセットを用いて,1.5Bから70Bのモデルについて検討した。 プロンプト内の繰り返しテキストはモデル性能を向上し、より大きなモデル($30B)はプロンプトのセマンティクスにより敏感であることがわかった。 最後に、実演にタスクとインライン命令を追加することで、意味的に破損してもモデル性能が向上することが観察された。

The ability of large language models (LLMs) to "learn in context" based on the provided prompt has led to an explosive growth in their use, culminating in the proliferation of AI assistants such as ChatGPT, Claude, and Bard. These AI assistants are known to be robust to minor prompt modifications, mostly due to alignment techniques that use human feedback. In contrast, the underlying pre-trained LLMs they use as a backbone are known to be brittle in this respect. Building high-quality backbone models remains a core challenge, and a common approach to assessing their quality is to conduct few-shot evaluation. Such evaluation is notorious for being highly sensitive to minor prompt modifications, as well as the choice of specific in-context examples. Prior work has examined how modifying different elements of the prompt can affect model performance. However, these earlier studies tended to concentrate on a limited number of specific prompt attributes and often produced contradictory results. Additionally, previous research either focused on models with fewer than 15 billion parameters or exclusively examined black-box models like GPT-3 or PaLM, making replication challenging. In the present study, we decompose the entire prompt into four components: task description, demonstration inputs, labels, and inline instructions provided for each demonstration. We investigate the effects of structural and semantic corruptions of these elements on model performance. We study models ranging from 1.5B to 70B in size, using ten datasets covering classification and generation tasks. We find that repeating text within the prompt boosts model performance, and bigger models ($\geq$30B) are more sensitive to the semantics of the prompt. Finally, we observe that adding task and inline instructions to the demonstrations enhances model performance even when the instructions are semantically corrupted.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# マルチタスクによるオープンソースのLCMのソフトウェア脆弱性評価

Multitask-based Evaluation of Open-Source LLM on Software Vulnerability ( http://arxiv.org/abs/2404.02056v1 )

ライセンス: Link先を確認
Xin Yin, Chao Ni, (参考訳) 本稿では,公開データセットを用いた対話型LCMの定量的評価パイプラインを提案する。 我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。 このデータセットに基づいて,LLMのマルチタスクおよびマルチ言語的側面を評価する。 既存の最先端手法は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることが判明した。 LLMは、文脈情報を提供する際の精度を改善するが、特定のCWEタイプの重度評価を正確に予測する際の制限がある。 加えて、LLMは特定のCWEタイプの脆弱性を見つける能力を示しているが、その性能は異なるCWEタイプによって異なる。 最後に、LLMは様々なCWEタイプのCVE記述を生成する際に不均一な性能を示し、数ショット設定では精度が制限される。 全体として、LLMはいくつかの面でうまく機能するが、コード脆弱性の微妙な違いと、その潜在的な可能性を十分に実現するための脆弱性を記述する能力を理解するためには、依然として改善が必要である。 我々の評価パイプラインは、LSMのソフトウェア脆弱性処理能力をさらに強化するための貴重な洞察を提供する。

This paper proposes a pipeline for quantitatively evaluating interactive LLMs using publicly available datasets. We carry out an extensive technical evaluation of LLMs using Big-Vul covering four different common software vulnerability tasks. We evaluate the multitask and multilingual aspects of LLMs based on this dataset. We find that the existing state-of-the-art methods are generally superior to LLMs in software vulnerability detection. Although LLMs improve accuracy when providing context information, they still have limitations in accurately predicting severity ratings for certain CWE types. In addition, LLMs demonstrate some ability to locate vulnerabilities for certain CWE types, but their performance varies among different CWE types. Finally, LLMs show uneven performance in generating CVE descriptions for various CWE types, with limited accuracy in a few-shot setting. Overall, though LLMs perform well in some aspects, they still need improvement in understanding the subtle differences in code vulnerabilities and the ability to describe vulnerabilities to fully realize their potential. Our evaluation pipeline provides valuable insights for further enhancing LLMs' software vulnerability handling capabilities.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# Fastprop Part 1:フレームワークとベンチマークによるDeepQSPRの一般化、高速化

Generalizable, Fast, and Accurate DeepQSPR with fastprop Part 1: Framework and Benchmarks ( http://arxiv.org/abs/2404.02058v1 )

ライセンス: Link先を確認
Jackson Burns, William Green, (参考訳) 定量的構造特性関係研究は、分子構造と任意の量の興味のマッピングを定義することを目的としている。 これは歴史的に、ドメインの専門知識と一般化の難しさを必要とする記述子の開発によって達成された。 このように、場は分子特性予測に変化し、非常に一般化可能な学習された表現に渡された。 本稿では,DeepQSPRフレームワークであるFastpropを紹介した。このフレームワークは,分子レベル記述子のコジェントなセットを用いて,多様なデータセット上での学習表現の性能を劇的に向上させる。 fastpropはgithub.com/JacksonBurns/fastpropで無料で利用できる。

Quantitative Structure Property Relationship studies aim to define a mapping between molecular structure and arbitrary quantities of interest. This was historically accomplished via the development of descriptors which requires significant domain expertise and struggles to generalize. Thus the field has morphed into Molecular Property Prediction and been given over to learned representations which are highly generalizable. The paper introduces fastprop, a DeepQSPR framework which uses a cogent set of molecular level descriptors to meet and exceed the performance of learned representations on diverse datasets in dramatically less time. fastprop is freely available on github at github.com/JacksonBurns/fastprop.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# IISAN:decoupled PEFTを用いたシーケンスレコメンデーションのためのマルチモーダル表現の適応

IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT ( http://arxiv.org/abs/2404.02059v1 )

ライセンス: Link先を確認
Junchen Fu, Xuri Ge, Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Jie Wang, Joemon M Jose, (参考訳) マルチモーダル基礎モデルは、強力な表現学習能力を活用して、シーケンシャルなレコメンデーションシステムにおいて変換される。 パラメータ効率の微調整(PEFT)は推奨タスクに基礎モデルを適用するのに一般的に使用されるが、ほとんどの研究はパラメータ効率を優先し、GPUメモリ効率やトレーニング速度といった重要な要素を見落としている。 このギャップに対処するため,本論文では,デカップリングPEFT構造を用いたシンプルなプラグアンドプレイアーキテクチャであるIISAN(Intra- and Inter-modal Side Adapted Network for Multimodal Representation)を導入する。 IISANはフルファインチューニング(FFT)と最先端PEFTのパフォーマンスにマッチする。 さらに重要なのは、マルチモーダルシーケンシャルレコメンデーションタスクにおいて、GPUメモリ使用量を47GBから3GBに大幅に削減することです。 さらに、FFTと比較して、エポックあたりのトレーニング時間を443から22に短縮する。 トレーニングには37~39GBのGPUメモリと350~380秒のトレーニングが必要だ。 さらに,「パラメータ効率は全体の効率を表す」という誤解を緩和するために,TPME(Training-time,パラメータ,GPUメモリ効率)という新しい複合効率指標を提案する。 TPMEは、異なる方法間の実用的な効率比較に関するより包括的な洞察を提供する。 さらに,全PEFTおよびFFTアプローチの効率解析を行い,IISANの優位性を示す。 コードやその他の資料はhttps://github.com/jGenAILab/IISAN.comで公開しています。

Multimodal foundation models are transformative in sequential recommender systems, leveraging powerful representation learning capabilities. While Parameter-efficient Fine-tuning (PEFT) is commonly used to adapt foundation models for recommendation tasks, most research prioritizes parameter efficiency, often overlooking critical factors like GPU memory efficiency and training speed. Addressing this gap, our paper introduces IISAN (Intra- and Inter-modal Side Adapted Network for Multimodal Representation), a simple plug-and-play architecture using a Decoupled PEFT structure and exploiting both intra- and inter-modal adaptation. IISAN matches the performance of full fine-tuning (FFT) and state-of-the-art PEFT. More importantly, it significantly reduces GPU memory usage - from 47GB to just 3GB for multimodal sequential recommendation tasks. Additionally, it accelerates training time per epoch from 443s to 22s compared to FFT. This is also a notable improvement over the Adapter and LoRA, which require 37-39 GB GPU memory and 350-380 seconds per epoch for training. Furthermore, we propose a new composite efficiency metric, TPME (Training-time, Parameter, and GPU Memory Efficiency) to alleviate the prevalent misconception that "parameter efficiency represents overall efficiency". TPME provides more comprehensive insights into practical efficiency comparisons between different methods. Besides, we give an accessible efficiency analysis of all PEFT and FFT approaches, which demonstrate the superiority of IISAN. We release our codes and other materials at https://github.com/jjGenAILab/IISAN.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# 長文内学習を用いた長文LLMスラグル

Long-context LLMs Struggle with Long In-context Learning ( http://arxiv.org/abs/2404.02060v1 )

ライセンス: Link先を確認
Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen, (参考訳) 大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。 しかし、それらのパフォーマンス評価は、複雑度や合成タスクのようなメトリクスに限定されており、よりニュアンスな実世界のシナリオでは、その能力を完全には捉えられない可能性がある。 本研究は,極端ラベル分類の領域内での長い文脈内学習に焦点を当てた特殊なベンチマーク(liconBench)を紹介する。 ラベル範囲が28から174の6つのデータセットを慎重に選択した。 我々のベンチマークでは、LLMが入力全体を理解し、巨大なラベル空間を認識して正確な予測を行う必要がある。 13個の長文LLMをベンチマークで評価した。 長文LLMはトークン長20K以下で比較的良好に動作し,長文ウィンドウの利用による性能上のメリットが確認できた。 しかし、コンテキストウィンドウが20Kを超えると、GPT-4を除くほとんどのLCMは劇的に減少する。 これは、長いコンテキストに富んだシーケンスを処理および理解するための現在のLLM機能に顕著なギャップがあることを示唆している。 さらに分析した結果, 列の最後に表示されるラベルの予測が好まれる傾向が示された。 長いシーケンスで複数の部品を推論する能力はまだ改善されていない。 本研究は,LLMの長期的理解と推論が依然として課題であることを示す。 我々は、liconBenchが将来の長期LLMのより現実的な評価に役立つと信じている。

Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LIConBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) length from 2K to 50K. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct prediction. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well under the token length of 20K and the performance benefits from utilizing the long context window. However, after the context window exceeds 20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented towards the end at the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LIConBench could serve as a more realistic evaluation for the future long context LLMs.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# 大規模言語モデルにおけるデジタルフォーミング:未学習の手法に関する調査

Digital Forgetting in Large Language Models: A Survey of Unlearning Methods ( http://arxiv.org/abs/2404.02062v1 )

ライセンス: Link先を確認
Alberto Blanco-Justicia, Najeeb Jebreel, Benet Manzanares, David Sánchez, Josep Domingo-Ferrer, Guillem Collell, Kuan Eeik Tan, (参考訳) デジタル忘れることの目的は、望ましくない知識や行動を持つモデルが与えられた場合、検出された問題がもはや存在しない新しいモデルを得ることである。 忘れる動機は、プライバシー保護、著作権保護、偏見と差別の排除、有害なコンテンツ生成の防止である。 効果的なデジタル忘れは効果的でなければならない(新しいモデルは、望ましくない知識/振る舞いをいかに忘れたか)、元のモデルのパフォーマンスを望ましいタスクで維持し、スケーラブルでなければなりません(特に忘れることの方が、タスク/データだけをスクラッチからトレーニングするよりも効率的です)。 この調査は、大きな言語モデル(LLM)の忘れ方に焦点を当てている。 まず、LLMのコンポーネント、LLMのタイプ、通常のトレーニングパイプラインなど、LLMのバックグラウンドを提供します。 次に,デジタル忘れることの動機,タイプ,望ましい特性について述べる。 第3に,LLMにおけるデジタル忘れへのアプローチを紹介する。 第4に、LLMのための機械学習手法の詳細な分類法を提供し、現在のアプローチを調査し比較する。 第5に、忘れ、保持、実行の評価に使用されるデータセット、モデル、メトリクスについて詳述します。 第6回では,この領域の課題について論じる。 最後に、いくつかの結論を述べる。

The objective of digital forgetting is, given a model with undesirable knowledge or behavior, obtain a new model where the detected issues are no longer present. The motivations for forgetting include privacy protection, copyright protection, elimination of biases and discrimination, and prevention of harmful content generation. Effective digital forgetting has to be effective (meaning how well the new model has forgotten the undesired knowledge/behavior), retain the performance of the original model on the desirable tasks, and be scalable (in particular forgetting has to be more efficient than retraining from scratch on just the tasks/data to be retained). This survey focuses on forgetting in large language models (LLMs). We first provide background on LLMs, including their components, the types of LLMs, and their usual training pipeline. Second, we describe the motivations, types, and desired properties of digital forgetting. Third, we introduce the approaches to digital forgetting in LLMs, among which unlearning methodologies stand out as the state of the art. Fourth, we provide a detailed taxonomy of machine unlearning methods for LLMs, and we survey and compare current approaches. Fifth, we detail datasets, models and metrics used for the evaluation of forgetting, retaining and runtime. Sixth, we discuss challenges in the area. Finally, we provide some concluding remarks.
翻訳日:2024-04-03 15:49:31 公開日:2024-04-02
# SPMamba: ステートスペースモデルは音声分離に必要なもの

SPMamba: State-space model is all you need in speech separation ( http://arxiv.org/abs/2404.02063v1 )

ライセンス: Link先を確認
Kai Li, Guo Chen, (参考訳) 音声分離では,CNNモデルとトランスフォーマーモデルの両方が頑健な分離能力を示し,研究コミュニティ内で大きな注目を集めている。 しかし、CNNに基づく手法は、長周期音声のモデリング能力に制限があり、最適部分分離性能が向上する。 逆に、Transformerベースの手法は計算複雑性が高いため、実用的な応用に限られている。 特に、コンピュータビジョンにおいて、マンバベースの手法は、その強烈な性能と計算要求の低減のために祝われてきた。 本稿では,状態空間モデル,すなわちSPMambaを用いた音声分離のためのネットワークアーキテクチャを提案する。 我々はTF-GridNetモデルを基本フレームワークとして採用し,そのTransformerコンポーネントを双方向のMambaモジュールで置き換える。 実験の結果,マンバモデルの性能面において重要な役割を担っていることが明らかとなった。 SPMambaは、Librispeech上に構築されたデータセットにおいて、既存の分離モデルよりも優れたパフォーマンスを示している。 特に、SPMambaは、TF-GridNetと比較して、SI-SNRiの2.42dB向上により、分離品質を大幅に改善している。 SPMambaのソースコードはhttps://github.com/JusperLee/SPMambaで公開されている。

In speech separation, both CNN- and Transformer-based models have demonstrated robust separation capabilities, garnering significant attention within the research community. However, CNN-based methods have limited modelling capability for long-sequence audio, leading to suboptimal separation performance. Conversely, Transformer-based methods are limited in practical applications due to their high computational complexity. Notably, within computer vision, Mamba-based methods have been celebrated for their formidable performance and reduced computational requirements. In this paper, we propose a network architecture for speech separation using a state-space model, namely SPMamba. We adopt the TF-GridNet model as the foundational framework and substitute its Transformer component with a bidirectional Mamba module, aiming to capture a broader range of contextual information. Our experimental results reveal an important role in the performance aspects of Mamba-based models. SPMamba demonstrates superior performance with a significant advantage over existing separation models in a dataset built on Librispeech. Notably, SPMamba achieves a substantial improvement in separation quality, with a 2.42 dB enhancement in SI-SNRi compared to the TF-GridNet. The source code for SPMamba is publicly accessible at https://github.com/JusperLee/SPMamba .
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# QDarts: 有限トンネル結合、非定常帯電エネルギー、センサドットの存在下での電荷遷移を求める量子ドット配列遷移シミュレータ

QDarts: A Quantum Dot Array Transition Simulator for finding charge transitions in the presence of finite tunnel couplings, non-constant charging energies and sensor dots ( http://arxiv.org/abs/2404.02064v1 )

ライセンス: Link先を確認
Jan A. Krzywda, Weikun Liu, Evert van Nieuwenburg, Oswin Krause, (参考訳) 平衡状態における量子ドットアレイ(QDA)デバイスの実効電荷安定性図の効率的なシミュレータであるQDartを提案する。 これは、高次元の電圧空間における(任意の2次元切断によって)コンクリートの電荷状態とその遷移の位置をピンポイントし、有限トンネル結合、非定常充電エネルギー、ノイズの多いセンサドットのシミュレーションを含む。 これらの機能は、文献における様々な実験結果の密なマッチングを可能にし、パッケージは、QDA実験をテストするための柔軟なツールを提供するとともに、新しいデバイスチューニング手法を開発するための道を開く。

We present QDarts, an efficient simulator for realistic charge stability diagrams of quantum dot array (QDA) devices in equilibrium states. It allows for pinpointing the location of concrete charge states and their transitions in a high-dimensional voltage space (via arbitrary two-dimensional cuts through it), and includes effects of finite tunnel coupling, non-constant charging energy and a simulation of noisy sensor dots. These features enable close matching of various experimental results in the literature, and the package hence provides a flexible tool for testing QDA experiments, as well as opening the avenue for developing new methods of device tuning.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# 半教師付きセマンティックセマンティックセグメンテーションのための蒸留性パターンによる多層ラベル補正

Multi-Level Label Correction by Distilling Proximate Patterns for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2404.02065v1 )

ライセンス: Link先を確認
Hui Xiao, Yuting Hong, Li Dong, Diqun Yan, Jiayan Zhuang, Junjie Xiong, Dongtai Liang, Chengbin Peng, (参考訳) 半教師付きセマンティックセグメンテーションは、ラベルなしデータを活用することで、大規模ラベル付きデータへの依存を緩和する。 最近の半教師付きセマンティックセグメンテーションアプローチは、主にラベルのないデータを利用する擬似ラベル付け手法を利用している。 しかし、信頼できない擬似ラベルは半超越過程を損なう可能性がある。 本稿では,SLG(Semantic-Level Graphs)とCLG(Class-Level Graphs)の構造的関係を把握し,誤った擬似ラベルの修正を目的としたMLLC(Multi-Level Label Correction)アルゴリズムを提案する。 具体的には、SLGはピクセルの特徴のペア間のセマンティック親和性を表現し、CLGはピクセルラベルのペア間の分類を記述している。 グラフからの近接パターン情報のサポートにより、MLLCは誤った予測された擬似ラベルを修正でき、識別的特徴表現を容易にすることができる。 我々は、この効果的なラベル補正機構を訓練し、実行するためのエンドツーエンドネットワークを設計する。 MLLCは、CityscapesとPASCAL VOC 2012データセットの異なるシナリオにおいて、教師付きベースラインを大幅に改善し、最先端のアプローチを上回ることを実証した。 具体的には、MLLCは、それぞれ異なるパーティションプロトコルの下で、DeepLabV2とDeepLabV3+で、教師付きベースラインを少なくとも5%と2%改善する。

Semi-supervised semantic segmentation relieves the reliance on large-scale labeled data by leveraging unlabeled data. Recent semi-supervised semantic segmentation approaches mainly resort to pseudo-labeling methods to exploit unlabeled data. However, unreliable pseudo-labeling can undermine the semi-supervision processes. In this paper, we propose an algorithm called Multi-Level Label Correction (MLLC), which aims to use graph neural networks to capture structural relationships in Semantic-Level Graphs (SLGs) and Class-Level Graphs (CLGs) to rectify erroneous pseudo-labels. Specifically, SLGs represent semantic affinities between pairs of pixel features, and CLGs describe classification consistencies between pairs of pixel labels. With the support of proximate pattern information from graphs, MLLC can rectify incorrectly predicted pseudo-labels and can facilitate discriminative feature representations. We design an end-to-end network to train and perform this effective label corrections mechanism. Experiments demonstrate that MLLC can significantly improve supervised baselines and outperforms state-of-the-art approaches in different scenarios on Cityscapes and PASCAL VOC 2012 datasets. Specifically, MLLC improves the supervised baseline by at least 5% and 2% with DeepLabV2 and DeepLabV3+ respectively under different partition protocols.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# Red-Teaming Segment Anything Model

Red-Teaming Segment Anything Model ( http://arxiv.org/abs/2404.02067v1 )

ライセンス: Link先を確認
Krzysztof Jankowski, Bartlomiej Sobieski, Mateusz Kwiatkowski, Jakub Szulc, Michal Janik, Hubert Baniecki, Przemyslaw Biecek, (参考訳) ファンデーションモデルは重要なツールとして登場し、膨大なデータセットの事前トレーニングと、その後の特定のアプリケーションの微調整を通じて、多くの複雑なタスクに対処している。 Segment Anything Modelは、コンピュータビジョンのセグメンテーションタスクのための、最もよく知られた基礎モデルの一つである。 本研究は,都市道路のダッシュボード画像に悪天候条件や雨滴を施すことで生成したマスクを著しく歪ませることを示すとともに,そのスタイル伝達がセグメンテーションマスクに与える影響を分析した。 2) モデルが有名人の顔の認識などのプライバシーに対する攻撃に利用できるかどうかを評価することに集中し, モデルが好ましくない知識を持っていることを示す。 (3)最後に,テキストプロンプト下のセグメンテーションマスクに対する攻撃に対して,モデルがいかに頑健であるかを確認する。 我々は、一般的なホワイトボックス攻撃の有効性とブラックボックス攻撃に対する抵抗性を示すだけでなく、ホワイトボックスアプローチを組み合わせて効率的な攻撃を構築する新しいアプローチであるフォーカスされた反復グラディエント攻撃(FIGA)を導入する。 画像セグメンテーションの基礎モデルにおける安全性対策の強化の必要性が示唆されている。

Foundation models have emerged as pivotal tools, tackling many complex tasks through pre-training on vast datasets and subsequent fine-tuning for specific applications. The Segment Anything Model is one of the first and most well-known foundation models for computer vision segmentation tasks. This work presents a multi-faceted red-teaming analysis that tests the Segment Anything Model against challenging tasks: (1) We analyze the impact of style transfer on segmentation masks, demonstrating that applying adverse weather conditions and raindrops to dashboard images of city roads significantly distorts generated masks. (2) We focus on assessing whether the model can be used for attacks on privacy, such as recognizing celebrities' faces, and show that the model possesses some undesired knowledge in this task. (3) Finally, we check how robust the model is to adversarial attacks on segmentation masks under text prompts. We not only show the effectiveness of popular white-box attacks and resistance to black-box attacks but also introduce a novel approach - Focused Iterative Gradient Attack (FIGA) that combines white-box approaches to construct an efficient attack resulting in a smaller number of modified pixels. All of our testing methods and analyses indicate a need for enhanced safety measures in foundation models for image segmentation.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# モデル強化のための解釈法

Using Interpretation Methods for Model Enhancement ( http://arxiv.org/abs/2404.02068v1 )

ライセンス: Link先を確認
Zhuo Chen, Chengyue Jiang, Kewei Tu, (参考訳) ニューラルな自然言語処理の時代には、ニューラルなモデルの解釈を導こうとする研究がたくさんある。 直観的には、訓練中に金の有理数が存在するとき、その解釈を有理数と一致するようにモデルを訓練することができる。 しかし、この直感的な考えは完全には解明されていない。 本稿では,解釈手法と金の理性を利用してモデルを強化する枠組みを提案する。 私たちのフレームワークは、様々な解釈手法を組み込むことができるという意味で、非常に一般的なものです。 従来提案されていた勾配に基づく手法を,フレームワークの例として示すことができる。 また,他の2種類の解釈手法である消去/置換方式と抽出器方式の2つの新しいインスタンスをモデル拡張のために提案する。 我々は様々なタスクについて総合的な実験を行う。 実験結果から,本フレームワークは低リソース環境において,様々な解釈手法によるモデル拡張に有効であることが示唆された。 コードはhttps://github.com/Chord-Chen-30/UIMERで入手できる。

In the age of neural natural language processing, there are plenty of works trying to derive interpretations of neural models. Intuitively, when gold rationales exist during training, one can additionally train the model to match its interpretation with the rationales. However, this intuitive idea has not been fully explored. In this paper, we propose a framework of utilizing interpretation methods and gold rationales to enhance models. Our framework is very general in the sense that it can incorporate various interpretation methods. Previously proposed gradient-based methods can be shown as an instance of our framework. We also propose two novel instances utilizing two other types of interpretation methods, erasure/replace-based and extractor-based methods, for model enhancement. We conduct comprehensive experiments on a variety of tasks. Experimental results show that our framework is effective especially in low-resource settings in enhancing models with various interpretation methods, and our two newly-proposed methods outperform gradient-based methods in most settings. Code is available at https://github.com/Chord-Chen-30/UIMER.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# EGTR:Scene Graph 生成のための Transformer からのグラフ抽出

EGTR: Extracting Graph from Transformer for Scene Graph Generation ( http://arxiv.org/abs/2404.02072v1 )

ライセンス: Link先を確認
Jinbae Im, JeongYeon Nam, Nokyung Park, Hyungmin Lee, Seunghyun Park, (参考訳) SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。 DETRの開発後、一段物体検出器に基づく一段SGGモデルが活発に研究されている。 しかし、オブジェクト間の関係を予測するために複雑なモデリングが使用され、オブジェクト検出器のマルチヘッド自己アテンションで学習したオブジェクトクエリー間の固有の関係は無視されている。 本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。 自己注意副産物を十分に活用することにより、浅い関係抽出ヘッドで関係グラフを効果的に抽出することができる。 対象検出タスクにおける関係抽出タスクの依存性を考慮して,検出対象の品質に応じて関係ラベルを適応的に調整する新しい関係平滑化手法を提案する。 関係の平滑化により、モデルは訓練開始時の対象検出タスクに焦点を当てた連続カリキュラムに従って訓練され、対象検出性能が徐々に向上するにつれてマルチタスク学習を行う。 さらに,関係抽出の補助タスクとして,オブジェクトペア間に関係が存在するかどうかを予測する接続予測タスクを提案する。 本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。 私たちのコードはhttps://github.com/naver-ai/egtrで公開されています。

Scene Graph Generation (SGG) is a challenging task of detecting objects and predicting relationships between objects. After DETR was developed, one-stage SGG models based on a one-stage object detector have been actively studied. However, complex modeling is used to predict the relationship between objects, and the inherent relationship between object queries learned in the multi-head self-attention of the object detector has been neglected. We propose a lightweight one-stage SGG model that extracts the relation graph from the various relationships learned in the multi-head self-attention layers of the DETR decoder. By fully utilizing the self-attention by-products, the relation graph can be extracted effectively with a shallow relation extraction head. Considering the dependency of the relation extraction task on the object detection task, we propose a novel relation smoothing technique that adjusts the relation label adaptively according to the quality of the detected objects. By the relation smoothing, the model is trained according to the continuous curriculum that focuses on object detection task at the beginning of training and performs multi-task learning as the object detection performance gradually improves. Furthermore, we propose a connectivity prediction task that predicts whether a relation exists between object pairs as an auxiliary task of the relation extraction. We demonstrate the effectiveness and efficiency of our method for the Visual Genome and Open Image V6 datasets. Our code is publicly available at https://github.com/naver-ai/egtr .
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# 選好木を用いたLLM推論ジェネリストの育成

Advancing LLM Reasoning Generalists with Preference Trees ( http://arxiv.org/abs/2404.02078v1 )

ライセンス: Link先を確認
Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun, (参考訳) 推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Mistral-7B と CodeLlama-70B から微調整されたEulusモデルは、数学、コード生成、論理的推論問題をカバーする様々なベンチマークで、オープンソースモデルの最先端の結果を得る。 注目すべきなのは、Eurus-70BがGPT-3.5 Turboを破り、5つのタスクをカバーする12の総合的なベンチマークを通し、LeetCodeで33.3%のパス@1の精度を達成し、2つの挑戦的なベンチマークであるTheoremQAで32.6%を達成し、既存のオープンソースモデルを実質的に13.3%以上のマージンで上回ったことである。 Eurusの強力なパフォーマンスは、主に、複雑な推論タスクのために特別に設計された、新しく修正された大規模で高品質なアライメントデータセットであるUltraInteractに起因している。 UltraInteractは教師付き微調整と選好学習の両方で利用できる。 各教示は,(1)多様な計画戦略を持つ推論チェーンと(2)環境と批判とのマルチターンインタラクショントラジェクトリと,(3)嗜好学習を容易にするペアワイズデータからなる選好木を含む。 UltraInteractは、推論タスクに対する好み学習の詳細な調査を可能にする。 本研究は, 一般的な会話において, 課題の推論に適さない選好学習アルゴリズムがいくつか存在することを明らかにした。 そこで我々は,UltraInteractとともに強力な報酬モデルをもたらす新たな報酬モデリング目標を導出した。

We introduce Eurus, a suite of large language models (LLMs) optimized for reasoning. Finetuned from Mistral-7B and CodeLlama-70B, Eurus models achieve state-of-the-art results among open-source models on a diverse set of benchmarks covering mathematics, code generation, and logical reasoning problems. Notably, Eurus-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks, and achieves a 33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging benchmarks, substantially outperforming existing open-source models by margins more than 13.3%. The strong performance of Eurus can be primarily attributed to UltraInteract, our newly-curated large-scale, high-quality alignment dataset specifically designed for complex reasoning tasks. UltraInteract can be used in both supervised fine-tuning and preference learning. For each instruction, it includes a preference tree consisting of (1) reasoning chains with diverse planning strategies in a unified format, (2) multi-turn interaction trajectories with the environment and the critique, and (3) pairwise data to facilitate preference learning. UltraInteract allows us to conduct an in-depth exploration of preference learning for reasoning tasks. Our investigation reveals that some well-established preference learning algorithms may be less suitable for reasoning tasks compared to their effectiveness in general conversations. Inspired by this, we derive a novel reward modeling objective which, together with UltraInteract, leads to a strong reward model.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# フォノンと光子を用いた光量子ドットのコヒーレント制御

Coherent Control of an Optical Quantum Dot Using Phonons and Photons ( http://arxiv.org/abs/2404.02079v1 )

ライセンス: Link先を確認
Ryan A DeCrescent, Zixuan Wang, Joseph T Bush, Poolad Imany, Alexander Kwiatkowski, Dileep V Reddy, Sae Woo Nam, Richard P Mirin, Kevin L Silverman, (参考訳) 量子力学的効果は、ボゾン(古典的)光共振器からなる現代の光学系では容易に観測できる。 このようなシステムは、メソスコピックオブジェクトのレーザー冷却、硬化した光の生成、マイクロ波と光学モード間の光子の変換を可能にした。 ここでは、光学力学における光学的二レベルシステム(qubits)の独特な利点を示す。 クォービット状態は、フォノンと共振子または脱調光子を含む多種多様な駆動方式を用いてコヒーレントに制御することができる。 表面音響波共振器における電荷制御InAs量子ドット(QD)を用いてこれを実験的に実証する。 時間関連単一光子計数測定により、工学的光パルスと機械的運動を用いたQD人口動態の制御が明らかになった。 最初の例として、マイクロ波-光伝送プロセスにおける信号-背景散乱を改善する方法を示す。 具体的には,光学系からの直接偏向光子散乱に対して,機械的支援光子散乱が促進されるように調整する。 これらの差は、戦略的時間的パルス整形によって大きく増幅される。 量子力学計算は、実験結果とよく一致し、マイクロ波-光量子トランスダクションに関連する小さなフォノン占有率にこれらのスキームを適用するためのガイダンスを提供する。

Genuine quantum-mechanical effects are readily observable in modern optomechanical systems comprising bosonic (``classical") optical resonators. Such systems have enabled laser-cooling of mesoscopic objects, generation of squeezed light, and the conversion of photons between microwave and optical modes. Here we demonstrate unique advantages of optical two-level systems, or qubits, for optomechanics. The qubit state can be coherently controlled using an immense variety of driving schemes including both phonons and resonant or detuned photons. We experimentally demonstrate this using charge-controlled InAs quantum dots (QDs) in surface-acoustic-wave resonators. Time-correlated single-photon counting measurements reveal the control of QD population dynamics using engineered optical pulses and mechanical motion. As a first example, we show how this can improve signal-to-background scattering in microwave-to-optical transduction processes. Specifically, we tailor the scheme so that mechanically assisted photon scattering is enhanced over the direct detuned photon scattering from the optical system. These differences are greatly amplified by strategic temporal pulse shaping. Quantum-mechanical calculations show good agreement with our experimental results and provide guidance for adapting these schemes to small phonon occupancies relevant for microwave-to-optical quantum transduction.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# WcDT:交通シーン生成のための世界中心拡散変圧器

WcDT: World-centric Diffusion Transformer for Traffic Scene Generation ( http://arxiv.org/abs/2404.02082v1 )

ライセンス: Link先を確認
Chen Yang, Aaron Xuxiang Tian, Dong Chen, Tianyu Shi, Arsalan Heydarian, (参考訳) 本稿では,拡散確率モデル(拡散モデル)と変圧器の相補的強度を利用して,自律走行軌道生成のための新しいアプローチを提案する。 We proposed framework, called the "World-Centric Diffusion Transformer" (WcDT)。 シーンの多様性と確率性を高めるため,Deffusion with Transformer (DiT)ブロックで拡張したDenoising Diffusion Probabilistic Models (DDPM)を用いて,履歴軌跡データをまず前処理し,潜時空間に符号化する。 次に、潜伏する特徴、履歴軌跡、HDマップ特徴、および過去の交通信号情報を、様々なトランスフォーマーベースのエンコーダで融合する。 符号化されたトラフィックシーンは、トラジェクトリデコーダによってデコードされ、マルチモーダルな将来のトラジェクトリを生成する。 総合的な実験結果から,提案手法は現実的かつ多様な軌道を生成する上で優れた性能を示し,自動走行シミュレーションシステムへの統合の可能性を示している。

In this paper, we introduce a novel approach for autonomous driving trajectory generation by harnessing the complementary strengths of diffusion probabilistic models (a.k.a., diffusion models) and transformers. Our proposed framework, termed the "World-Centric Diffusion Transformer" (WcDT), optimizes the entire trajectory generation process, from feature extraction to model inference. To enhance the scene diversity and stochasticity, the historical trajectory data is first preprocessed and encoded into latent space using Denoising Diffusion Probabilistic Models (DDPM) enhanced with Diffusion with Transformer (DiT) blocks. Then, the latent features, historical trajectories, HD map features, and historical traffic signal information are fused with various transformer-based encoders. The encoded traffic scenes are then decoded by a trajectory decoder to generate multimodal future trajectories. Comprehensive experimental results show that the proposed approach exhibits superior performance in generating both realistic and diverse trajectories, showing its potential for integration into automatic driving simulation systems.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# 眼底画像を用いた緑内障手術のための適応型特徴融合ニューラルネットワーク

Adaptive Feature Fusion Neural Network for Glaucoma Segmentation on Unseen Fundus Images ( http://arxiv.org/abs/2404.02084v1 )

ライセンス: Link先を確認
Jiyuan Zhong, Hu Ke, Ming Yan, (参考訳) 特に、小さな医療データセットでトレーニングされた過度にパラメータ化された深部モデルでは、未確認領域のファンドスイメージセグメンテーションは困難である。 この課題に対処するために,未確認領域における緑内障のセグメンテーションのための適応的特徴融合ニューラルネットワーク (AFNN) という手法を提案する。 具体的には、予め訓練されたモデルが他の画像領域から医療用眼底画像領域に迅速に適応するのを手助けする。 エンコーダとデコーダのための特徴融合ネットワークと自己教師型マルチタスク学習を導入し、ドメインの一般化能力を向上させる。 さらに,複雑なオプティカルカップ分割タスクにおけるモデル性能を向上させるために,重み付きダイスロスを設計する。 提案手法は,4つの公共緑内障データセット上の既存のファンドスセグメンテーション法と比較して,競争力のある性能を実現する。

Fundus image segmentation on unseen domains is challenging, especially for the over-parameterized deep models trained on the small medical datasets. To address this challenge, we propose a method named Adaptive Feature-fusion Neural Network (AFNN) for glaucoma segmentation on unseen domains, which mainly consists of three modules: domain adaptor, feature-fusion network, and self-supervised multi-task learning. Specifically, the domain adaptor helps the pretrained-model fast adapt from other image domains to the medical fundus image domain. Feature-fusion network and self-supervised multi-task learning for the encoder and decoder are introduced to improve the domain generalization ability. In addition, we also design the weighted-dice-loss to improve model performance on complex optic-cup segmentation tasks. Our proposed method achieves a competitive performance over existing fundus segmentation methods on four public glaucoma datasets.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# 極小プラズモン

Extreme plasmons ( http://arxiv.org/abs/2404.02087v1 )

ライセンス: Link先を確認
Aakash A. Sahai, (参考訳) ナノサイエンスは、離散量子状態を占める伝導帯電子からなる量子電子ガスの集合振動によって構成される準粒子であるプラズモンに大きく依存している。 我々の研究は振動振幅を持つ非摂動プラズモンを導入し、特性コヒーレンスの分解によって設定された極限に近づいた。 対照的に、従来のプラズモンは小さな振幅振動である。 我々の研究でモデル化された極端プラズモンの制御された励起は、前例のないペタボルト1メートル当たりの励起を解き放つ。 本研究では、量子力学の枠組みに基づいて、この新しい種類のプラズモンの分析モデルを開発した。 制御可能な極端プラズモン、表面の「クランチイン」プラズモンは、量子振動周波数を考慮に入れた改良された独立電子近似を用いてモデル化される。 このような実現可能な極端プラズモンの鍵となる性質が得られた。

Nanosciences largely rely on plasmons which are quasiparticles constituted by collective oscillations of quantum electron gas composed of conduction band electrons that occupy discrete quantum states. Our work has introduced non-perturbative plasmons with oscillation amplitudes that approach the extreme limit set by breakdown in characteristic coherence. In contrast, conventional plasmons are small-amplitude oscillations. Controlled excitation of extreme plasmons modeled in our work unleashes unprecedented Petavolts per meter fields. In this work, an analytical model of this new class of plasmons is developed based on quantum kinetic framework. A controllable extreme plasmon, the surface "crunch-in" plasmon, is modeled here using a modified independent electron approximation which takes into account the quantum oscillation frequency. Key characteristics of such realizable extreme plasmons that unlock unparalleled possibilities, are obtained.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion caused Pair extract as Sequence Labelling Task

LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion Cause Pair Extraction as Sequence Labelling Task ( http://arxiv.org/abs/2404.02088v1 )

ライセンス: Link先を確認
Suyash Vardhan Mathur, Akshett Rai Jindal, Hardik Mittal, Manish Shrivastava, (参考訳) 会話は人間のコミュニケーションの最も自然な形態であり、それぞれの発話は様々な感情にまたがる。 テキスト中の感情を検出するための重要な作業は行われているが、特にマルチモーダル環境では、その感情の原因を見つけるための作業はほとんど行われていない。 SemEval 2024では、会話におけるマルチモーダル感情原因分析(Multimodal Emotion Cause Analysis in Conversations)というタスクを導入している。 本稿では,この課題を発話ラベリングとシーケンスラベリングの問題として取り組んだモデルを提案し,異なるエンコーダを用いたベースライン,会話の文脈情報追加のためのBiLSTM,そして最後にCRF層を追加して,隣接発話間の相互依存性をより効果的にモデル化する手法を提案する。 このタスクの公式リーダーボードでは、私たちのアーキテクチャは8位にランクされ、リーダーボードのF1スコアは0.1759でした。

Conversation is the most natural form of human communication, where each utterance can range over a variety of possible emotions. While significant work has been done towards the detection of emotions in text, relatively little work has been done towards finding the cause of the said emotions, especially in multimodal settings. SemEval 2024 introduces the task of Multimodal Emotion Cause Analysis in Conversations, which aims to extract emotions reflected in individual utterances in a conversation involving multiple modalities (textual, audio, and visual modalities) along with the corresponding utterances that were the cause for the emotion. In this paper, we propose models that tackle this task as an utterance labeling and a sequence labeling problem and perform a comparative study of these models, involving baselines using different encoders, using BiLSTM for adding contextual information of the conversation, and finally adding a CRF layer to try to model the inter-dependencies between adjacent utterances more effectively. In the official leaderboard for the task, our architecture was ranked 8th, achieving an F1-score of 0.1759 on the leaderboard.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# 騒音に強いロバスト性を持つ中性個体群

Already Moderate Population Sizes Provably Yield Strong Robustness to Noise ( http://arxiv.org/abs/2404.02090v1 )

ライセンス: Link先を確認
Denis Antipov, Benjamin Doerr, Alexandra Ivanova, (参考訳) 経験から、典型的な進化的アルゴリズムは、ノイズ関数評価のような確率的障害にうまく対応できることが示されている。 1+\lambda)$と$(1,\lambda)$の進化的アルゴリズムのこの最初の数学的ランタイム解析では、両方のアルゴリズムがOneMaxベンチマークの漸近的ランタイムを増大させることなく、一定のノイズ確率を許容できることが示される。 これに対し、集団サイズ$\lambda$ sufficesは、少なくとも問題サイズ$n$の対数である。 この方向に向けられた唯一の結果は、現実的でない1ビットノイズモデルであり、問題サイズが超直線的であることが必要であり、OneMaxベンチマークのノイズレスランタイムでは、ほぼ3分の1の保証が保証された。 より強力な結果は、ノイズのない子孫は親と騒々しい子孫の間に偏りのある均一な交叉と見なすことができるという新しい証明理論に基づくものである。 この知見から得られた技術的補題は、進化的アルゴリズムの数学的ランタイム解析にも応用できると楽観的である。

Experience shows that typical evolutionary algorithms can cope well with stochastic disturbances such as noisy function evaluations. In this first mathematical runtime analysis of the $(1+\lambda)$ and $(1,\lambda)$ evolutionary algorithms in the presence of prior bit-wise noise, we show that both algorithms can tolerate constant noise probabilities without increasing the asymptotic runtime on the OneMax benchmark. For this, a population size $\lambda$ suffices that is at least logarithmic in the problem size $n$. The only previous result in this direction regarded the less realistic one-bit noise model, required a population size super-linear in the problem size, and proved a runtime guarantee roughly cubic in the noiseless runtime for the OneMax benchmark. Our significantly stronger results are based on the novel proof argument that the noiseless offspring can be seen as a biased uniform crossover between the parent and the noisy offspring. We are optimistic that the technical lemmas resulting from this insight will find applications also in future mathematical runtime analyses of evolutionary algorithms.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# 量子ビット量子系に対する最適ベル不等式

Optimal Bell inequalities for qubit-qudit systems ( http://arxiv.org/abs/2404.02092v1 )

ライセンス: Link先を確認
Alexander Bernal, J. Alberto Casas, Jesus M. Moreno, (参考訳) 汎用量子キューディットシステムに対するベルの最大値違反を評価し,任意のキューディット次元で容易に計算可能な式を得る。 この研究は、よく知られたホロデキスの結果を量子ビット系に対して一般化する。 また、この違反に対して単純な下限と上限を与え、クディット・ヒルベルト空間をより大きな次元の1つに埋め込むことでベル違反量を改善する可能性について研究する。 結果は、量子ビット量子系の文脈における密度行列の族で示される。

We evaluate the maximal Bell violation for a generic qubit-qudit system, obtaining easily computable expressions in arbitrary qudit dimension. This work generalizes the well-known Horodeckis's result for a qubit-qubit system. We also give simple lower and upper bounds on that violation and study the possibility of improving the amount of Bell-violation by embedding the qudit Hilbert space in one of larger dimension. The results are illustrated with a family of density matrices in the context of a qubit-qutrit system.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# 荷電AdSブラックホールのリアプノフ指数と相転移の相互作用

Interplay between the Lyapunov exponents and phase transitions of charged AdS black holes ( http://arxiv.org/abs/2404.02095v1 )

ライセンス: Link先を確認
Bhaskar Shukla, Pranaya Pratik Das, David Dudal, Subhash Mahapatra, (参考訳) 種々のAdSブラックホールの標準・拡張熱力学的相構造と, ヌル・アンド・タイム・ライクな測地線に関連するリャプノフ指数との関係について検討した。 我々は、ダイオニクス、バルディーン、ガウス・ボネット、ローレンツ対称性が巨大な重力ブラックホールを破ると考え、ブラックホールに近い不安定な円形測地線における質量を持たない質量粒子と質量粒子のリャプノフ指数を計算した。 Lyapunov指数の温度分布は、小ブラックホール相と大ブラックホール相の異なる挙動を示し、ファンデルワールス型小ブラックホール相転移の特定の側面を包含できることがわかった。 さらに、Lyapunov指数の性質を順序パラメータとして分析し、その臨界指数がここで考慮される全てのブラックホールの臨界点付近で1/2$であることを示す。

We study the relationship between the standard or extended thermodynamic phase structure of various AdS black holes and the Lyapunov exponents associated with the null and time-like geodesics. We consider dyonic, Bardeen, Gauss-Bonnet, and Lorentz-symmetry breaking massive gravity black holes and calculate the Lyapunov exponents of massless and massive particles in unstable circular geodesics close to the black hole. We find that the thermal profile of the Lyapunov exponents exhibits distinct behaviour in the small and large black hole phases and can encompass certain aspects of the van der Waals type small/large black hole phase transition. We further analyse the properties of Lyapunov exponents as an order parameter and find that its critical exponent is $1/2$, near the critical point for all black holes considered here.
翻訳日:2024-04-03 15:39:47 公開日:2024-04-02
# BRAVEn:視覚・聴覚音声認識のための自己監督型事前学習の改善

BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition ( http://arxiv.org/abs/2404.02098v1 )

ライセンス: Link先を確認
Alexandros Haliassos, Andreas Zinonos, Rodrigo Mira, Stavros Petridis, Maja Pantic, (参考訳) 自己監督は、最近、未学習のデータから視覚的および聴覚的音声表現を学習する大きな可能性を示してきた。 本研究では,RAVEn法の拡張であるBRAVEnを提案する。 RAVEnの修正により、BRAVEnは様々な設定で自己教師付き手法で最先端の結果を得ることができる。 さらに,他の自己管理作業を超えて,非ラベルデータ量を増やすことにより,良好なスケーリング行動が観察される。 特に、LSS3テストセットでVSR/ASRの20.0%/1.7%のワードエラー率を実現し、ラベル付きデータの30時間に過ぎず、外部のASRモデルがない。 以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。

Self-supervision has recently shown great promise for learning visual and auditory speech representations from unlabelled data. In this work, we propose BRAVEn, an extension to the recent RAVEn method, which learns speech representations entirely from raw audio-visual data. Our modifications to RAVEn enable BRAVEn to achieve state-of-the-art results among self-supervised methods in various settings. Moreover, we observe favourable scaling behaviour by increasing the amount of unlabelled data well beyond other self-supervised works. In particular, we achieve 20.0% / 1.7% word error rate for VSR / ASR on the LRS3 test set, with only 30 hours of labelled data and no external ASR models. Our results suggest that readily available unlabelled audio-visual data can largely replace costly transcribed data.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# キック後の1次元フェルミポーラロン:運動量分布の両側特異性、ブラッグ反射およびその他の正確な結果

One-dimensional Fermi polaron after a kick: two-sided singularity of the momentum distribution, Bragg reflection and other exact results ( http://arxiv.org/abs/2404.02099v1 )

ライセンス: Link先を確認
Oleksandr Gamayun, Oleg Lychkovskiy, (参考訳) 量子流体に浸漬された移動不純物粒子は、その周りの流体の局所的な乱れと不純物からなる準粒子であるポーラロンを形成する。 キック後に1次元のポラロンがどうなるか、即時に不純物に有限のインパルスを与える力の突然の応用について尋ねる。 フェルミオンまたはハードコアボソンの一次元気体中の不純物を記述する可積分モデルの枠組みにおいて、ポストキック緩和が終わったときに確立されたポーラロン運動量の分布を計算する。 この分布の顕著な特徴は、2つの過程のうちの1つに対応することができる両側のパワーロー特異点である。 最初のプロセスでは、全てのインパルスは、流体のフォノンのような励起を発生させることなく、ポーラロンに転送される。 第2のプロセスでは、インパルスは流体の中心運動とポラロンの間で共有されるが、流体の励起は生じない。 後者の過程は、実際にはブリュアンゾーンの端にあるブラッグ反射である。 両症例の条件を慎重に解析し,特異点近傍の分布の漸近形式を導出する。

A mobile impurity particle immersed in a quantum fluid forms a polaron - a quasiparticle consisting of the impurity and a local disturbance of the fluid around it. We ask what happens to a one-dimensional polaron after a kick, i.e. an abrupt application of a force that instantly delivers a finite impulse to the impurity. In the framework of an integrable model describing an impurity in a one-dimensional gas of fermions or hard-core bosons, we calculate the distribution of the polaron momentum established when the post-kick relaxation is over. A remarkable feature of this distribution is a two-sided power-law singularity that can correspond to one of two processes. In the first process, the whole impulse is transferred to the polaron, without creating phonon-like excitations of the fluid. In the second process, the impulse is shared between the polaron and the center-of-mass motion of the fluid, again without creating any fluid excitations. The latter process is, in fact, a Bragg reflection at the edge of the emergent Brillouin zone. We carefully analyze the conditions for each of the two cases and derive the asymptotic form of the distribution in the vicinity of the singularity.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# CameraCtrl:テキスト・ビデオ・ジェネレーションのためのカメラ制御

CameraCtrl: Enabling Camera Control for Text-to-Video Generation ( http://arxiv.org/abs/2404.02101v1 )

ライセンス: Link先を確認
Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang, (参考訳) ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。 しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの正確な制御をほとんど見落としていた。 この問題を軽減するために、私たちはCameraCtrlを導入し、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にした。 カメラの軌道を正確にパラメータ化した後、プラグアンドプレイのカメラモジュールがT2Vモデルで訓練され、他のモジュールは触れられなくなる。 さらに、様々なデータセットの効果に関する包括的な研究も行われ、多様なカメラ分布と類似の外観を持つビデオは、制御可能性と一般化を実際に促進していることを示唆している。 実験結果から、テキストとカメラのポーズ入力から動的でカスタマイズされたビデオストーリーテリングを追求し、精密かつドメイン適応的なカメラ制御を実現する上で、CameraCtrlの有効性が示された。 プロジェクトのWebサイトは以下の通り。

Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# サファイアシリコン中における準曲面偏光ビームスプリッタを用いた原子磁気計測

Atomic magnetometry using a metasurface polarizing beamsplitter in silicon on sapphire ( http://arxiv.org/abs/2404.02102v1 )

ライセンス: Link先を確認
Xuting Yang, Pritha Mukherjee, Minjeong Kim, Hongyan Mei, Chengyu Fang, Soyeon Choi, Yuhan Tong, Sarah Perlowski, David A. Czaplewski, Alan M. Dibos, Mikhail A. Kats, Jennifer T. Choy, (参考訳) シリコン・オン・サファイア(SOS)プラットフォーム上に作製した準曲面偏光ビームスプリッタを用いて原子磁気計測を行った。 準曲面はルビジウム原子(795nm)とほぼ共鳴するビームを直交線形偏光に分割し、平衡偏光法によるルビジウム蒸気中の磁気感度を持つ円形複屈折の測定を可能にする。 我々は, 非線形磁気光学回転と測定サブノートラ感度に基づく原子磁気センサにメタサイトを組み込んだ。 我々の知る限り、この研究は原子ベースのセンシングのためのSOSナノフォトニクスの最初の実証であり、感度と可搬性を高めた高集積化小型原子センサーの道を開く。

We demonstrate atomic magnetometry using a metasurface polarizing beamsplitter fabricated on a silicon-on-sapphire (SOS) platform. The metasurface splits a beam that is near-resonant with the rubidium atoms (795 nm) into orthogonal linear polarizations, enabling measurement of magnetically sensitive circular birefringence in a rubidium vapor through balanced polarimetry. We incorporated the metasurface into an atomic magnetometer based on nonlinear magneto-optical rotation and measured sub-nanotesla sensitivity, which is limited by low-frequency technical noise and transmission loss through the metasurface. To our knowledge, this work represents the first demonstration of SOS nanophotonics for atom-based sensing and paves the way for highly integrated, miniaturized atomic sensors with enhanced sensitivity and portability.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# CLAPNQ:RAGシステムに対する自然問題におけるパスからの結合型ロングフォーム回答

CLAPNQ: Cohesive Long-form Answers from Passages in Natural Questions for RAG systems ( http://arxiv.org/abs/2404.02103v1 )

ライセンス: Link先を確認
Sara Rosenthal, Avirup Sil, Radu Florian, Salim Roukos, (参考訳) Retrieval Augmented Generation (RAG)は、大規模言語モデルの一般的なアプリケーションとなっている。 成功しているRAGシステムは、幻覚のない通路に接地することで支援される正確な答えを提供するのが好ましい。 完全なRAGパイプラインを構築するにはかなりの作業が必要だが、パフォーマンスのベンチマークも必要だ。 完全なRAGパイプラインのためのロングフォーム質問回答データセットのベンチマークであるClapNQを提示する。 ClapNQには、Natural Questions (NQ) の接地された金の通路と、検索、生成、完全なRAGパイプラインを実行するコーパスがある。 ClapNQの答えは簡潔で、全通より3倍小さく、結束性があり、複数の節は連続しない。 RAGモデルはこれらの特性に適応し、ClarpNQで成功する必要がある。 本稿では,基礎となるRAGの改善の余地がまだ残っている地域に焦点を当てた,ClapNQのベースライン実験と解析を行う。 CLAPNQはhttps://github.com/primeqa/clapnqで公開されている。

Retrieval Augmented Generation (RAG) has become a popular application for large language models. It is preferable that successful RAG systems provide accurate answers that are supported by being grounded in a passage without any hallucinations. While considerable work is required for building a full RAG pipeline, being able to benchmark performance is also necessary. We present ClapNQ, a benchmark Long-form Question Answering dataset for the full RAG pipeline. ClapNQ includes long answers with grounded gold passages from Natural Questions (NQ) and a corpus to perform either retrieval, generation, or the full RAG pipeline. The ClapNQ answers are concise, 3x smaller than the full passage, and cohesive, with multiple pieces of the passage that are not contiguous. RAG models must adapt to these properties to be successful at ClapNQ. We present baseline experiments and analysis for ClapNQ that highlight areas where there is still significant room for improvement in grounded RAG. CLAPNQ is publicly available at https://github.com/primeqa/clapnq
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# ペニングトラップにおける個別イオンアドレスと読み出し

Individual-Ion Addressing and Readout in a Penning Trap ( http://arxiv.org/abs/2404.02105v1 )

ライセンス: Link先を確認
Brian J. McMahon, Kenton R. Brown, Creston D. Herold, Brian C. Sawyer, (参考訳) 我々は、コンパクトな永久磁石ペニングトラップにおいて、固回転平面結晶にイオンの個別のアドレッシングと読み出しを実装した。 ^{40}$Ca$^+$の結晶は、回転する三角形ポテンシャルによって欠陥なく閉じ込められ、安定化される。 平行読み出し用回転フレームには、トラップされたイオン蛍光が検出される。 量子ビットは準安定なD$_{5/2}$多様体で符号化されており、量子ビット演算に高出力近赤外レーザーシステムを使用することができる。 アドレス $\sigma_z$ 演算は、焦点を絞った交流スタークシフトレーザビームで実現される。 結晶の中心付近および大きな半径付近でのイオンのアドレス化を実証した。 シミュレーションでは、ドップラー限界付近の面内モードのイオンの温度範囲によって、現在のアドレッシング動作の忠実度は$\sim 97\%$に制限されているが、これはサブドップラー冷却を伴う不均一度$<10-3}$に改善される可能性がある。 本論文で実証された手法は, プラットフォームを用いた量子シミュレーションのための演算セットを完成させるものである。

We implement individual addressing and readout of ions in a rigidly rotating planar crystal in a compact, permanent magnet Penning trap. The crystal of $^{40}$Ca$^+$ is trapped and stabilized without defects via a rotating triangular potential. The trapped ion fluorescence is detected in the rotating frame for parallel readout. The qubit is encoded in the metastable D$_{5/2}$ manifold enabling the use of high-power near-infrared laser systems for qubit operations. Addressed $\sigma_z$ operations are realized with a focused AC Stark shifting laser beam. We demonstrate addressing of ions near the center of the crystal and at large radii. Simulations show that the current addressing operation fidelity is limited to $\sim 97\%$ by the ion's thermal extent for the in-plane modes near the Doppler limit, but this could be improved to infidelities $<10^{-3}$ with sub-Doppler cooling. The techniques demonstrated in this paper complete the set of operations for quantum simulation with the platform.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# ニューラル正規微分方程式に基づく動的キャラクタリゼーションのための逐次画像登録

Neural Ordinary Differential Equation based Sequential Image Registration for Dynamic Characterization ( http://arxiv.org/abs/2404.02106v1 )

ライセンス: Link先を確認
Yifan Wu, Mengjin Dong, Rohit Jena, Chen Qin, James C. Gee, (参考訳) 変形可能な画像登録(DIR)は、臓器運動などの生物学的ダイナミクスの探索や、画像の縦方向の変化を可能にする医療画像解析において重要である。 ニューラル正規微分方程式(ODE)を登録に利用し、この拡張作業は、このフレームワークがシーケンシャルな生物学的プロセスのキャラクタリゼーションにどのように役立つかを論じる。 ニューラルネットワークを用いて状態微分をモデル化するNeural ODEの能力を利用することで、我々のNeural Ordinary Differential Equation Optimization-based (NODEO)フレームワークは、ボクセルを動的システム内の粒子とみなし、ニューラル微分方程式の統合による変形場を定義する。 この方法はデータから直接ダイナミックスを学習し、物理的プリエントの必要性を回避し、そのようなプリエントが利用できない、あるいは適用できない医療シナリオに非常に適している。 これにより、基盤となるダイナミクスを識別し、シーケンスデータを使用して変換軌道を規則化することが可能になる。 心臓運動追跡用と経時的脳MRI画像解析用の2つの臨床データセットについて検討した。 本フレームワークは,2次元および3次元画像シナリオにおいて有効性を示すとともに,画像シーケンスの管理とラベルの伝播を容易にする柔軟性とモデル非依存性を提供する。 この研究は、Neural ODEベースのフレームワークが、画像登録の難しさにどのように貢献するかを包括的に理解する。

Deformable image registration (DIR) is crucial in medical image analysis, enabling the exploration of biological dynamics such as organ motions and longitudinal changes in imaging. Leveraging Neural Ordinary Differential Equations (ODE) for registration, this extension work discusses how this framework can aid in the characterization of sequential biological processes. Utilizing the Neural ODE's ability to model state derivatives with neural networks, our Neural Ordinary Differential Equation Optimization-based (NODEO) framework considers voxels as particles within a dynamic system, defining deformation fields through the integration of neural differential equations. This method learns dynamics directly from data, bypassing the need for physical priors, making it exceptionally suitable for medical scenarios where such priors are unavailable or inapplicable. Consequently, the framework can discern underlying dynamics and use sequence data to regularize the transformation trajectory. We evaluated our framework on two clinical datasets: one for cardiac motion tracking and another for longitudinal brain MRI analysis. Demonstrating its efficacy in both 2D and 3D imaging scenarios, our framework offers flexibility and model agnosticism, capable of managing image sequences and facilitating label propagation throughout these sequences. This study provides a comprehensive understanding of how the Neural ODE-based framework uniquely benefits the image registration challenge.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# 無限水平平均逆マルコフ決定過程に対する可変化政策勾配法

Variance-Reduced Policy Gradient Approaches for Infinite Horizon Average Reward Markov Decision Processes ( http://arxiv.org/abs/2404.02108v1 )

ライセンス: Link先を確認
Swetha Ganesh, Washim Uddin Mondal, Vaneet Aggarwal, (参考訳) 無限水平平均報酬マルコフ決定過程の文脈におけるパラメータ化を一般化した2つのポリシーグラディエントに基づく手法を提案する。 第一のアプローチはインプリシット・グラディエント・トランスポート (Implicit Gradient Transport) を分散還元に用い、$\tilde{\mathcal{O}}(T^{3/5})$を期待された後悔を保証する。 2つ目のアプローチは、ヘッセンの手法をルーツとするもので、$\tilde{\mathcal{O}}(\sqrt{T})$の順序に対する期待された後悔を保証する。 これらの結果は問題の最先端性を著しく改善し、$\tilde{\mathcal{O}}(T^{3/4})$を後悔する。

We present two Policy Gradient-based methods with general parameterization in the context of infinite horizon average reward Markov Decision Processes. The first approach employs Implicit Gradient Transport for variance reduction, ensuring an expected regret of the order $\tilde{\mathcal{O}}(T^{3/5})$. The second approach, rooted in Hessian-based techniques, ensures an expected regret of the order $\tilde{\mathcal{O}}(\sqrt{T})$. These results significantly improve the state of the art of the problem, which achieves a regret of $\tilde{\mathcal{O}}(T^{3/4})$.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# ImageNot:ImageNetとは対照的に、モデルランキングが保存される

ImageNot: A contrast with ImageNet preserves model rankings ( http://arxiv.org/abs/2404.02112v1 )

ライセンス: Link先を確認
Olawale Salaudeen, Moritz Hardt, (参考訳) 私たちは、ImageNetのスケールに合わせて設計されたデータセットであるImageNotを紹介します。 我々は、ImageNet で長年にわたって開発されてきたキーモデルアーキテクチャが、ImageNot でトレーニングされ評価されたときに、ImageNet 上でどのようにランク付けされているかを示す。 これは、モデルをスクラッチからトレーニングしたり、微調整する場合に当てはまる。 さらに、以前のモデルに対する各モデルの相対的な改善は、両方のデータセットに強く相関する。 さらに、ImageNotは、転写学習目的のImageNetと同様のユーティリティを持っていることを示す。 本研究は,画像分類モデルの相対的性能において,驚くほどの外部妥当性を示すものである。 これは、データセットの小さな変更の下でも、通常は急降下する絶対精度の数値とは対照的である。

We introduce ImageNot, a dataset designed to match the scale of ImageNet while differing drastically in other aspects. We show that key model architectures developed for ImageNet over the years rank identically when trained and evaluated on ImageNot to how they rank on ImageNet. This is true when training models from scratch or fine-tuning them. Moreover, the relative improvements of each model over earlier models strongly correlate in both datasets. We further give evidence that ImageNot has a similar utility as ImageNet for transfer learning purposes. Our work demonstrates a surprising degree of external validity in the relative performance of image classification models. This stands in contrast with absolute accuracy numbers that typically drop sharply even under small changes to a dataset.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# 未知へのチューニング - 生涯RLの評価方略の再考

Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL ( http://arxiv.org/abs/2404.02113v1 )

ライセンス: Link先を確認
Golnaz Mesbahi, Olya Mastikhina, Parham Mohammad Panahi, Martha White, Adam White, (参考訳) 持続的または生涯にわたる強化学習は、環境へのアクセスを制限するべきである。 もし私たちが、新しい予期せぬ状況に継続的に適応し、長期間実行可能なアルゴリズムを設計したいなら、エージェントの生涯にわたってハイパーパラメータを調整せずにエージェントをデプロイしなければなりません。 ディープRL(そして連続RL)の標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境へのフェッターのないアクセスを仮定することである。 本稿では, 寿命の長いRL研究の進展が, 不適切な経験的方法論によって支えられているという考えを考察する。 本稿では,実験データの1%しかハイパーパラメータチューニングに使用できない長寿命RLエージェントのチューニングと評価のための新しい手法を提案する。 次に、DQNとSoft Actor Criticの連続および非定常領域に関する実証的研究を行う。 いずれの手法も1パーセントのチューニングに制限された場合,性能が低下するのに対して,ネットワークの可塑性を維持するために設計されたアルゴリズム的緩和は驚くべき性能を発揮する。 さらに,ネットワークの学習能力を測定するために設計された特性は,1パーセントのチューニング下での性能と実際に相関していることがわかった。

In continual or lifelong reinforcement learning access to the environment should be limited. If we aspire to design algorithms that can run for long-periods of time, continually adapting to new, unexpected situations then we must be willing to deploy our agents without tuning their hyperparameters over the agent's entire lifetime. The standard practice in deep RL -- and even continual RL -- is to assume unfettered access to deployment environment for the full lifetime of the agent. This paper explores the notion that progress in lifelong RL research has been held back by inappropriate empirical methodologies. In this paper we propose a new approach for tuning and evaluating lifelong RL agents where only one percent of the experiment data can be used for hyperparameter tuning. We then conduct an empirical study of DQN and Soft Actor Critic across a variety of continuing and non-stationary domains. We find both methods generally perform poorly when restricted to one-percent tuning, whereas several algorithmic mitigations designed to maintain network plasticity perform surprising well. In addition, we find that properties designed to measure the network's ability to learn continually indeed correlate with performance under one-percent tuning.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# GINopic:グラフ同型ネットワークによるトピックモデリング

GINopic: Topic Modeling with Graph Isomorphism Network ( http://arxiv.org/abs/2404.02115v1 )

ライセンス: Link先を確認
Suman Adhya, Debarshi Kumar Sanyal, (参考訳) トピックモデリングは大規模文書コレクションの分析と探索に広く用いられている手法である。 最近の研究は、BERT埋め込みのような事前学習された文脈言語モデルをトピックモデリングに取り入れている。 しかし、語間の相互依存によって伝達される本質的な情報的価値は無視されることが多い。 本研究では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。 各種ベンチマークデータセットの内在的(質的、質的)および外在的評価を行うことにより、既存のトピックモデルと比較してGINopicの有効性を実証し、トピックモデリングの進展の可能性を明らかにする。

Topic modeling is a widely used approach for analyzing and exploring large document collections. Recent research efforts have incorporated pre-trained contextualized language models, such as BERT embeddings, into topic modeling. However, they often neglect the intrinsic informational value conveyed by mutual dependencies between words. In this study, we introduce GINopic, a topic modeling framework based on graph isomorphism networks to capture the correlation between words. By conducting intrinsic (quantitative as well as qualitative) and extrinsic evaluations on diverse benchmark datasets, we demonstrate the effectiveness of GINopic compared to existing topic models and highlight its potential for advancing topic modeling.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# 事前学習された視覚と言語変換者は、インクリメンタル学習者が少ない

Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners ( http://arxiv.org/abs/2404.02117v1 )

ライセンス: Link先を確認
Keon-Hee Park, Kyungwoo Song, Gyeong-Moon Park, (参考訳) FSCIL(Few-Shot Class Incremental Learning)は、クラスごとにいくつかのサンプルしか与えられていないことを忘れずに、新しいクラスを漸進的に学習するモデルを必要とするタスクである。 FSCILは、破滅的な忘れと過度な適合という2つの大きな課題に直面しており、これらの課題は、ResNet-18のような浅いモデルに主に依存するように先行研究を駆り立てている。 制限された能力は、問題を忘れたり、過度に適合させたりすることを軽減しますが、数ショットのインクリメンタルセッションでは、知識の伝達が不十分になります。 本稿では,大規模データセット上で事前学習した視覚や言語変換器などの大規模モデルは,数発のインクリメンタル学習に優れていると論じる。 そこで本研究では,機能や知識の蒸留を促進できるPriViLege,Pre-trained Vision,Language Transformerという新しいFSCILフレームワークを提案する。 本フレームワークは,新たな事前学習知識チューニング(PKT)と2つの損失 – エントロピーに基づく分散損失と意味的知識の蒸留損失 – を通じて,大規模モデルの破滅的な忘れと過剰適合の課題を効果的に解決する。 実験の結果,提案したPriViLegeは既存の最先端手法,例えばCUB200では+9.38%,CIFAR-100では+20.58%,miniImageNetでは+13.36%で大幅に優れていた。 私たちの実装コードはhttps://github.com/KHU-AGI/PriViLege.comで公開されています。

Few-Shot Class Incremental Learning (FSCIL) is a task that requires a model to learn new classes incrementally without forgetting when only a few samples for each class are given. FSCIL encounters two significant challenges: catastrophic forgetting and overfitting, and these challenges have driven prior studies to primarily rely on shallow models, such as ResNet-18. Even though their limited capacity can mitigate both forgetting and overfitting issues, it leads to inadequate knowledge transfer during few-shot incremental sessions. In this paper, we argue that large models such as vision and language transformers pre-trained on large datasets can be excellent few-shot incremental learners. To this end, we propose a novel FSCIL framework called PriViLege, Pre-trained Vision and Language transformers with prompting functions and knowledge distillation. Our framework effectively addresses the challenges of catastrophic forgetting and overfitting in large models through new pre-trained knowledge tuning (PKT) and two losses: entropy-based divergence loss and semantic knowledge distillation loss. Experimental results show that the proposed PriViLege significantly outperforms the existing state-of-the-art methods with a large margin, e.g., +9.38% in CUB200, +20.58% in CIFAR-100, and +13.36% in miniImageNet. Our implementation code is available at https://github.com/KHU-AGI/PriViLege.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# エッジモード量子熱電および冷凍における線形応答におけるリーチングカーゾン・アルボーン極限と非線形応答におけるホイットニー極限

Reaching Curzon-Ahlborn limit in linear response and Whitney limit in nonlinear response in edge mode quantum thermoelectrics and refrigeration ( http://arxiv.org/abs/2404.02118v1 )

ライセンス: Link先を確認
Sachiraj Mishra, Colin Benjamin, (参考訳) 線形および非線形輸送状態における電圧温度プローブを備えた3つの終端量子ホール(QH)および量子スピンホール(QSH)セットアップにおいて、量子熱エンジンと量子冷蔵庫が提案される。 線形応答系では、最大出力での効率は、QHとQSHの両方のセットアップにおいてカーゾン=アルボーン極限に近づく。 同様に、非線形応答では、最大出力での効率がホイットニー境界に達することが分かる。 線形および非線形輸送系における熱電効率の限界は、同じ設定で量子点接触を用いて達成される。

Quantum heat engines and quantum refrigerators are proposed in three-terminal quantum Hall (QH) and quantum spin Hall (QSH) setups with a voltage-temperature probe in linear and nonlinear transport regimes. In the linear response regime, we find that efficiency at maximum power approaches the Curzon-Ahlborn limit in both QH and QSH setups. Similarly, in nonlinear response, we find that efficiency at maximum power reaches the Whitney bounds. For the first time, we see that the thermoelectric efficiency limits in linear and nonlinear transport regimes are achieved using quantum point contacts in the same setup.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# 大規模言語モデルによる数学多重選択問題に対する自動ディトラクタ生成の探索

Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models ( http://arxiv.org/abs/2404.02124v1 )

ライセンス: Link先を確認
Wanyong Feng, Jaewook Lee, Hunter McNichols, Alexander Scarlatos, Digory Smith, Simon Woodhead, Nancy Otero Ornelas, Andrew Lan, (参考訳) 多重選択質問(MCQ)は、管理しやすく、格付けしやすく、評価や実践の信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。 MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。 現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。 本研究では,数学MCQの領域における自動散逸器生成の課題について検討し,文脈内学習から微調整に至るまで,多種多様な大規模言語モデル(LLM)に基づくアプローチを探索する。 実世界の数学MCQデータセットを用いて広範な実験を行い、LLMは数学的に有効な散逸器を生成できるが、実際の学生の間での一般的な誤りや誤解を予測できないことを発見した。

Multiple-choice questions (MCQs) are ubiquitous in almost all levels of education since they are easy to administer, grade, and are a reliable format in assessments and practices. One of the most important aspects of MCQs is the distractors, i.e., incorrect options that are designed to target common errors or misconceptions among real students. To date, the task of crafting high-quality distractors largely remains a labor and time-intensive process for teachers and learning content designers, which has limited scalability. In this work, we study the task of automated distractor generation in the domain of math MCQs and explore a wide variety of large language model (LLM)-based approaches, from in-context learning to fine-tuning. We conduct extensive experiments using a real-world math MCQ dataset and find that although LLMs can generate some mathematically valid distractors, they are less adept at anticipating common errors or misconceptions among real students.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# 3Dコンゲーリング:野生の3D認識画像アライメント

3D Congealing: 3D-Aware Image Alignment in the Wild ( http://arxiv.org/abs/2404.02125v1 )

ライセンス: Link先を確認
Yunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani, (参考訳) 意味的に類似したオブジェクトをキャプチャする2次元画像のための3次元アライメントの新たな問題である3D Congealingを提案する。 ラベルのないインターネット画像の集合を前提として、入力から共有意味部分を関連付け、その知識を2次元画像から共有3次元標準空間に集約する。 形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。 中心となるのは、幾何学的および意味的な情報をカプセル化する標準的な3D表現である。 このフレームワークは、各入力画像のポーズと共に標準表現を最適化し、2D画素座標を3D標準フレームにワープして形状マッチングを考慮した画像毎の座標マップを生成する。 最適化手順は、事前訓練された画像生成モデルからの事前知識と入力画像からの意味情報とを融合する。 前者は、この制約下のタスクに対する強力な知識ガイダンスを提供し、後者は、事前訓練されたモデルからトレーニングデータのバイアスを軽減するために必要な情報を提供する。 このフレームワークは、対応マッチング、ポーズ推定、画像編集などの様々なタスクに利用でき、実世界の画像データセットに対して、難解な照明条件下での強力な結果や、現在進行中のオンライン画像収集に利用することができる。

We propose 3D Congealing, a novel problem of 3D-aware alignment for 2D images capturing semantically similar objects. Given a collection of unlabeled Internet images, our goal is to associate the shared semantic parts from the inputs and aggregate the knowledge from 2D images to a shared 3D canonical space. We introduce a general framework that tackles the task without assuming shape templates, poses, or any camera parameters. At its core is a canonical 3D representation that encapsulates geometric and semantic information. The framework optimizes for the canonical representation together with the pose for each input image, and a per-image coordinate map that warps 2D pixel coordinates to the 3D canonical frame to account for the shape matching. The optimization procedure fuses prior knowledge from a pre-trained image generative model and semantic information from input images. The former provides strong knowledge guidance for this under-constraint task, while the latter provides the necessary information to mitigate the training data bias from the pre-trained model. Our framework can be used for various tasks such as correspondence matching, pose estimation, and image editing, achieving strong results on real-world image datasets under challenging illumination conditions and on in-the-wild online image collections.
翻訳日:2024-04-03 15:30:03 公開日:2024-04-02
# リマッチ: 局所知識グラフのロバストかつ効率的なマッチングによる構造的・意味的類似性の向上

Rematch: Robust and Efficient Matching of Local Knowledge Graphs to Improve Structural and Semantic Similarity ( http://arxiv.org/abs/2404.02126v1 )

ライセンス: Link先を確認
Zoher Kachwala, Jisun An, Haewoon Kwak, Filippo Menczer, (参考訳) 知識グラフは、質問応答やファクトチェックなど、様々なアプリケーションにおいて重要な役割を果たす。 抽象的意味表現(AMR)は知識グラフとしてテキストを表す。 これらのグラフの品質を評価するには、構造的に相互にマッチングし、ソーステキストと意味的にマッチングする必要がある。 既存のAMRメトリクスは非効率であり、セマンティックな類似性を捉えるのに苦労する。 また、AMRグラフ間の構造的類似性を評価するための体系的評価ベンチマークも欠如している。 これらの制約を克服するために、新しいAMR類似度指標であるrematchを導入し、RAREと呼ばれる構造類似度を新たに評価する。 最先端の指標の中で、リマッチは構造的類似度で2位、第1位はSTS-BとSICK-Rのベンチマークで1~5ポイントのセマンティック類似度で2位である。 Rematchはまた、次の最も効率的なメトリックの5倍高速である。

Knowledge graphs play a pivotal role in various applications, such as question-answering and fact-checking. Abstract Meaning Representation (AMR) represents text as knowledge graphs. Evaluating the quality of these graphs involves matching them structurally to each other and semantically to the source text. Existing AMR metrics are inefficient and struggle to capture semantic similarity. We also lack a systematic evaluation benchmark for assessing structural similarity between AMR graphs. To overcome these limitations, we introduce a novel AMR similarity metric, rematch, alongside a new evaluation for structural similarity called RARE. Among state-of-the-art metrics, rematch ranks second in structural similarity; and first in semantic similarity by 1--5 percentage points on the STS-B and SICK-R benchmarks. Rematch is also five times faster than the next most efficient metric.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# FLawN-T5: 法的推論のための効果的な命令-調整データ混合の実験的検討

FLawN-T5: An Empirical Examination of Effective Instruction-Tuning Data Mixtures for Legal Reasoning ( http://arxiv.org/abs/2404.02127v1 )

ライセンス: Link先を確認
Joel Niklaus, Lucia Zheng, Arya D. McCarthy, Christopher Hahn, Brian M. Rosen, Peter Henderson, Daniel E. Ho, Garrett Honke, Percy Liang, Christopher Manning, (参考訳) インストラクションチューニングは、言語モデルを直接的なユーザインタラクションに役立つものにするための重要なステップである。 しかし、多くの法的タスクは、ほとんどのオープンなLLMには及ばず、ドメインのための大規模な命令データセットは存在しない。 これにより、この応用分野の研究は極めて制限される。 本研究では,17の管轄区域,24の言語,合計12万のサンプルを対象とする大規模法的指導データセットであるLawInstructをキュレートする。 そこで本研究では,ドメイン固有の事前学習と指導訓練により,Flan-T5 XLを8点,あるいは16\%向上させるなど,LegalBenchの性能が向上することを示す。 しかし、この効果は全てのタスク、訓練体制、モデルサイズ、その他の要因にまたがって一般化されるわけではない。 LawInstructは、より強力な情報処理と法的領域における意思決定能力を備えたモデルの開発を促進するためのリソースである。

Instruction tuning is an important step in making language models useful for direct user interaction. However, many legal tasks remain out of reach for most open LLMs and there do not yet exist any large scale instruction datasets for the domain. This critically limits research in this application area. In this work, we curate LawInstruct, a large legal instruction dataset, covering 17 jurisdictions, 24 languages and a total of 12M examples. We present evidence that domain-specific pretraining and instruction tuning improve performance on LegalBench, including improving Flan-T5 XL by 8 points or 16\% over the baseline. However, the effect does not generalize across all tasks, training regimes, model sizes, and other factors. LawInstruct is a resource for accelerating the development of models with stronger information processing and decision making capabilities in the legal domain.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# ViTamin: ビジョンランゲージ時代のスケーラブルなビジョンモデルの設計

ViTamin: Designing Scalable Vision Models in the Vision-Language Era ( http://arxiv.org/abs/2404.02132v1 )

ライセンス: Link先を確認
Jienneg Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen, (参考訳) ビジョン言語モデル(VLM)の最近のブレークスルーは、ビジョンコミュニティで新しいページを始めます。 VLMは、大規模なインターネットイメージテキストペアのトレーニングのおかげで、ImageNetでトレーニングされたモデルと比較して、より強く、より一般化可能な機能埋め込みを提供する。 しかし、VLMの素晴らしい成果にもかかわらず、バニラビジョントランスフォーマー(ViT)がイメージエンコーダのデフォルトの選択肢である。 純粋変換器はテキスト符号化領域においてその有効性を証明するが、画像符号化においても、特に、VLMではほとんど研究されていないImageNetベンチマークにおいて、様々な種類のネットワークが提案されていることを考えると、疑問が残る。 小規模なデータ/モデルスケールのため、ImageNet上でのモデル設計の当初の結論は限定的かつ偏りがある。 本稿では,言語画像事前学習(CLIP)フレームワークを用いて,視覚言語時代の視覚モデルの評価プロトコルを構築することを目的とする。 さまざまなビジョンモデルをベンチマークする包括的な方法を提供し、そのゼロショットのパフォーマンスとスケーラビリティをモデルとトレーニングデータサイズの両方でカバーしています。 この目的のために、VLMに適した新しいビジョンモデルViTaminを紹介する。 ViTamin-Lは、同じ公開データComp-1Bデータセットと同じOpenCLIPトレーニングスキームを使用する場合、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回っている。 ViTamin-Lは、分類、検索、オープン語彙の検出とセグメンテーション、大規模なマルチモーダルモデルを含む60の様々なベンチマークで有望な結果を示す。 モデルサイズのさらなるスケールアップでは、436Mパラメータしか持たないViTamin-XLが82.9%のImageNetゼロショット精度に達し、10倍のパラメータ(4.4B)を持つEVA-Eによって82.0%を超える。

Recent breakthroughs in vision-language models (VLMs) start a new page in the vision community. The VLMs provide stronger and more generalizable feature embeddings compared to those from ImageNet-pretrained models, thanks to the training on the large-scale Internet image-text pairs. However, despite the amazing achievement from the VLMs, vanilla Vision Transformers (ViTs) remain the default choice for the image encoder. Although pure transformer proves its effectiveness in the text encoding area, it remains questionable whether it is also the case for image encoding, especially considering that various types of networks are proposed on the ImageNet benchmark, which, unfortunately, are rarely studied in VLMs. Due to small data/model scale, the original conclusions of model design on ImageNet can be limited and biased. In this paper, we aim at building an evaluation protocol of vision models in the vision-language era under the contrastive language-image pretraining (CLIP) framework. We provide a comprehensive way to benchmark different vision models, covering their zero-shot performance and scalability in both model and training data sizes. To this end, we introduce ViTamin, a new vision models tailored for VLMs. ViTamin-L significantly outperforms ViT-L by 2.0% ImageNet zero-shot accuracy, when using the same publicly available DataComp-1B dataset and the same OpenCLIP training scheme. ViTamin-L presents promising results on 60 diverse benchmarks, including classification, retrieval, open-vocabulary detection and segmentation, and large multi-modal models. When further scaling up the model size, our ViTamin-XL with only 436M parameters attains 82.9% ImageNet zero-shot accuracy, surpassing 82.0% achieved by EVA-E that has ten times more parameters (4.4B).
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 集団崩壊と個人崩壊の相互作用における量子不安定性

Quantum bistability at the interplay between collective and individual decay ( http://arxiv.org/abs/2404.02134v1 )

ライセンス: Link先を確認
Nikita Leppenen, Ephraim Shahmoon, (参考訳) 我々は、空洞内に原子の集合体を配置し、自由空間モードへの個々の原子放出を考慮に入れた。 定常状態は、双安定平均場解に対応する2つの集合量子状態の混合によって形成される散逸相転移を示す。 これらの状態の1つが絡み合っていて、コヒーレントに放射されるスピン状態(CRSS)とよく似ている。 我々は2つの状態間の量子スイッチングを予測し、量子軌道シミュレーションにより検証する。 スイッチングレートは、Liouvillanギャップが閉じるにつれて原子番号とともに消滅する傾向にある。 注目すべきことに、この系はディック物理と相関するCRSSのような絡み合った状態にあるかもしれない。 これは、実験と理論の両方において、集団と個人の間の相互作用を体系的に研究するための道を開く。

We study driven collective radiation of an ensemble of atoms placed inside a cavity, accounting for individual-atom emission to free space modes. We find that the steady state exhibits a dissipative phase transition, formed by a mixture of two collective quantum states corresponding to a bistable mean-field solution. One of these states is entangled and closely resembles a coherently radiating spin state (CRSS) -- the solution obtained by neglecting individual decay (Dicke superradiance) -- allowing us to analytically find the optimally achievable spin squeezing. We predict quantum switching between the two states, verified by quantum trajectories simulations. The switching rate tends to vanish with the atom number, as the Liouvillan gap closes. Remarkably, this suggests that the system may reside in an entangled CRSS-like state associated with correlated Dicke physics, even in the presence of decorrelating individual decay. This opens a path for a systematic study of the interplay between collective and individual decay, in both experiments and theory.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 光衛星画像の転送学習を用いた船種分類用統合畳み込みブロック注意モジュールResNet

ResNet with Integrated Convolutional Block Attention Module for Ship Classification Using Transfer Learning on Optical Satellite Imagery ( http://arxiv.org/abs/2404.02135v1 )

ライセンス: Link先を確認
Ryan Donghan Kwon, Gangjoo Robin Nam, Jisoo Tak, Yeom Hyeok, Junseob Shin, Hyerin Cha, Kim Soo Bin, (参考訳) 本研究では,高分解能光リモートセンシング衛星画像を用いた船舶の効率的な分類のための新しい移動学習フレームワークを提案する。 このフレームワークは深層畳み込みニューラルネットワークモデルResNet50をベースにしており、CBAM(Convolutional Block Attention Module)を組み込んでパフォーマンスを向上させる。 CBAMにより、船と背景の微妙な違いを識別しやすくする。 さらに, 本研究は, 各種船種を正確に分類するための伝達学習手法を採用し, 訓練済みモデルの微調整を行った。 光リモートセンシング画像を用いた船種分類において提案手法の有効性を実証し,5クラスで94%の高い分類精度を実現し,既存手法よりも優れた性能を示した。 本研究は、海上監視・管理、違法な漁獲検知、海上交通監視における潜在的な応用について述べる。

This study proposes a novel transfer learning framework for effective ship classification using high-resolution optical remote sensing satellite imagery. The framework is based on the deep convolutional neural network model ResNet50 and incorporates the Convolutional Block Attention Module (CBAM) to enhance performance. CBAM enables the model to attend to salient features in the images, allowing it to better discriminate between subtle differences between ships and backgrounds. Furthermore, this study adopts a transfer learning approach tailored for accurately classifying diverse types of ships by fine-tuning a pre-trained model for the specific task. Experimental results demonstrate the efficacy of the proposed framework in ship classification using optical remote sensing imagery, achieving a high classification accuracy of 94% across 5 classes, outperforming existing methods. This research holds potential applications in maritime surveillance and management, illegal fishing detection, and maritime traffic monitoring.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# LLMテキストのためのトピックベースの透かし

Topic-based Watermarks for LLM-Generated Text ( http://arxiv.org/abs/2404.02138v1 )

ライセンス: Link先を確認
Alexander Nemecek, Yuzhou Jiang, Erman Ayday, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、人間の生成したテキストに匹敵する識別不能なテキスト出力をもたらしている。 ウォーターマーキングアルゴリズムは、LLM生成出力に検出可能なシグネチャを埋め込むことで、LLMと人為的なテキストを区別する方法を提供する潜在的なツールである。 しかし、現在の透かし方式は、透かしアルゴリズムに対する既知の攻撃に対して堅牢性を欠いている。 加えて、LLMは1日に数万のテキスト出力を生成し、ウォーターマーキングアルゴリズムは、その検出のために生成された各出力を記憶する必要がある。 本研究では,現在の透かし方式の限界に着目し,LLMに対する"トピックベース透かしアルゴリズム"の概念を提案する。 提案アルゴリズムは,入力プロンプトの抽出されたトピックや非透かしLLMの出力に基づいて,透かしLLM出力のトークンを生成する方法を決定する。 従来の研究から着想を得て, LLMの透かし出力を生成しながら, 含めるべきトークンや排除すべきトークンを指定したリスト(特定抽出されたトピック(s)に基づいて生成するリスト)のペアを提案する。 提案手法を用いて,透かし検出アルゴリズムの実用性を示す。 さらに,LLMの透かしアルゴリズムに対して出現する広範囲な攻撃と,その利点と損失を考慮に入れた潜在的な攻撃者をモデル化可能な透かし方式の利点について論じる。

Recent advancements of large language models (LLMs) have resulted in indistinguishable text outputs comparable to human-generated text. Watermarking algorithms are potential tools that offer a way to differentiate between LLM- and human-generated text by embedding detectable signatures within LLM-generated output. However, current watermarking schemes lack robustness against known attacks against watermarking algorithms. In addition, they are impractical considering an LLM generates tens of thousands of text outputs per day and the watermarking algorithm needs to memorize each output it generates for the detection to work. In this work, focusing on the limitations of current watermarking schemes, we propose the concept of a "topic-based watermarking algorithm" for LLMs. The proposed algorithm determines how to generate tokens for the watermarked LLM output based on extracted topics of an input prompt or the output of a non-watermarked LLM. Inspired from previous work, we propose using a pair of lists (that are generated based on the specified extracted topic(s)) that specify certain tokens to be included or excluded while generating the watermarked output of the LLM. Using the proposed watermarking algorithm, we show the practicality of a watermark detection algorithm. Furthermore, we discuss a wide range of attacks that can emerge against watermarking algorithms for LLMs and the benefit of the proposed watermarking scheme for the feasibility of modeling a potential attacker considering its benefit vs. loss.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 羅生門分割を用いた因子データのロバストな不均一性推定

Robustly estimating heterogeneity in factorial data using Rashomon Partitions ( http://arxiv.org/abs/2404.02141v1 )

ライセンス: Link先を確認
Aparajithan Venkateswaran, Anirudh Sankar, Arun G. Chandrasekhar, Tyler H. McCormick, (参考訳) 多くの統計分析では、観測データとランダム化制御試験の両方において、関心の結果は観測可能な共変量の組み合わせとどのように異なるのか? 様々な薬物の組み合わせが健康にどのような影響を及ぼすのか、テクノロジーの採用はインセンティブや人口統計にどのように依存するのか? 私たちのゴールは、この因子空間を、(プール内ではなく)プール間で結果が異なる共変量の組み合わせの '‘pools'' に分割することです。 既存のアプローチ (i)共変量体又は共変量体間の関連を前提として、1つの「最適」分割を探索すること (ii) 可能なパーティションの集合全体のサンプル。 これらのアプローチは、特に共変量空間の相関構造において、多くの方法で共変量空間を分割することは、政策や科学に全く異なる意味を持つにもかかわらず統計的に区別できないという現実を無視している。 我々は、羅生門分割セット(RPS)と呼ばれる別の視点を開発する。 RPSの各項目は木のような幾何学を用いて共変量の空間を分割する。 RPSは、たとえ実質的に異なる説明を提供するとしても、最大 A 後方分割の近傍で後続値を持つすべての分割を包含し、前者は共変量間の関係について仮定しない。 これは$\ell_0$ pre で、minimax が最適であることを示す。 RPS が与えられたとき、特徴効果ベクトルの任意の測定可能な関数の後部、つまり RPS に含まれる条件を計算します。 また, 後方に対する近似誤差を特徴付けるとともに, RPSの大きさに限界を与える。 シミュレーションは、このフレームワークが従来の正規化手法と比較して堅牢な結論を導くことを実証している。 提案手法は,チャリタブルギフトの価格効果,染色体構造(テロメア長),マイクロファイナンスの導入の3つの経験的設定に適用した。

Many statistical analyses, in both observational data and randomized control trials, ask: how does the outcome of interest vary with combinations of observable covariates? How do various drug combinations affect health outcomes, or how does technology adoption depend on incentives and demographics? Our goal is to partition this factorial space into ``pools'' of covariate combinations where the outcome differs across the pools (but not within a pool). Existing approaches (i) search for a single ``optimal'' partition under assumptions about the association between covariates or (ii) sample from the entire set of possible partitions. Both these approaches ignore the reality that, especially with correlation structure in covariates, many ways to partition the covariate space may be statistically indistinguishable, despite very different implications for policy or science. We develop an alternative perspective, called Rashomon Partition Sets (RPSs). Each item in the RPS partitions the space of covariates using a tree-like geometry. RPSs incorporate all partitions that have posterior values near the maximum a posteriori partition, even if they offer substantively different explanations, and do so using a prior that makes no assumptions about associations between covariates. This prior is the $\ell_0$ prior, which we show is minimax optimal. Given the RPS we calculate the posterior of any measurable function of the feature effects vector on outcomes, conditional on being in the RPS. We also characterize approximation error relative to the entire posterior and provide bounds on the size of the RPS. Simulations demonstrate this framework allows for robust conclusions relative to conventional regularization techniques. We apply our method to three empirical settings: price effects on charitable giving, chromosomal structure (telomere length), and the introduction of microfinance.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 反復学習は大規模視覚言語モデルにおける構成性を改善する

Iterated Learning Improves Compositionality in Large Vision-Language Models ( http://arxiv.org/abs/2404.02145v1 )

ライセンス: Link先を確認
Chenhao Zheng, Jieyu Zhang, Aniruddha Kembhavi, Ranjay Krishna, (参考訳) 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。 しかし、大きなビジョンと言語の事前訓練によるパフォーマンス向上にもかかわらず、最近の調査では、すべての最先端のビジョン言語モデルは構成性に苦しむ。 彼らは「黒の男に面した白の少女」と「白の男に面した黒の少女」のイメージを区別できない。 さらに、以前の研究は、構成性はスケールで発生しないことを示唆している。 本稿では,構成性にインセンティブを与える新しい反復学習アルゴリズムを提案する。 文化的な伝達を識別する認知科学研究は、人間に作曲言語を開発する動機を与える前に、新しい世代をインダクティブとして教える必要がある。 具体的には、視覚エージェントと言語エージェントのルイスシグナリングゲームとして視覚言語コントラスト学習を再構成し、トレーニング中のエージェントの重みの1つを反復的にリセットすることで文化的伝達を運用する。 例えば、CC3MとCC12Mでトレーニングされた私たちのモデルは、SugarCrepeベンチマークにおいて、標準のCLIPを4.7%改善します。

A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, recent investigations find that most-if not all-our state-of-the-art vision-language models struggle at compositionality. They are unable to distinguish between images of " a girl in white facing a man in black" and "a girl in black facing a man in white". Moreover, prior work suggests that compositionality doesn't arise with scale: larger model sizes or training data don't help. This paper develops a new iterated training algorithm that incentivizes compositionality. We draw on decades of cognitive science research that identifies cultural transmission-the need to teach a new generation-as a necessary inductive prior that incentivizes humans to develop compositional languages. Specifically, we reframe vision-language contrastive learning as the Lewis Signaling Game between a vision agent and a language agent, and operationalize cultural transmission by iteratively resetting one of the agent's weights during training. After every iteration, this training paradigm induces representations that become "easier to learn", a property of compositional languages: e.g. our model trained on CC3M and CC12M improves standard CLIP by 4.7%, 4.0% respectfully in the SugarCrepe benchmark.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 拡散$^2$:直交拡散モデルのスコア構成による動的3次元コンテンツ生成

Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models ( http://arxiv.org/abs/2404.02148v1 )

ライセンス: Link先を確認
Zeyu Yang, Zijie Pan, Chun Gu, Li Zhang, (参考訳) 近年の3D生成の進歩は、インターネット規模の画像データで事前訓練され、大量の3Dデータで微調整された3D対応画像拡散モデルの改善により、高度に一貫したマルチビュー画像を生成する能力によって大きく促進されている。 しかし、同期したマルチビュービデオデータが不足しているため、このパラダイムを4D生成に直接適用することは不可能である。 それにもかかわらず、利用可能なビデオと3Dデータは、ビデオと多視点拡散モデルのトレーニングに適しており、それぞれが満足できる動的および幾何学的事前情報を提供することができる。 本稿では,これらのモデルからの幾何的整合性および時間的滑らか性に関する知識を活用し,連続した4次元表現の最適化に使用できる高密度な多視点画像と多フレーム画像を直接サンプリングする動的3次元コンテンツ作成のための新しいフレームワークであるDiffusion$^2$を提案する。 具体的には、生成する画像の確率構造に基づいて、ビデオと多視点拡散モデルのスコア合成による簡易かつ効果的な復調戦略を設計する。 画像生成の並列性の高さと現代の4D再構成パイプラインの効率性により、我々のフレームワークは数分で4Dコンテンツを生成できる。 さらに,本手法は4次元データへの依存を回避し,基礎映像や多視点拡散モデルのスケーラビリティから恩恵を受ける可能性がある。 大規模な実験により,提案手法の有効性と各種のプロンプトに柔軟に適応する能力が実証された。

Recent advancements in 3D generation are predominantly propelled by improvements in 3D-aware image diffusion models which are pretrained on Internet-scale image data and fine-tuned on massive 3D data, offering the capability of producing highly consistent multi-view images. However, due to the scarcity of synchronized multi-view video data, it is impractical to adapt this paradigm to 4D generation directly. Despite that, the available video and 3D data are adequate for training video and multi-view diffusion models that can provide satisfactory dynamic and geometric priors respectively. In this paper, we present Diffusion$^2$, a novel framework for dynamic 3D content creation that leverages the knowledge about geometric consistency and temporal smoothness from these models to directly sample dense multi-view and multi-frame images which can be employed to optimize continuous 4D representation. Specifically, we design a simple yet effective denoising strategy via score composition of video and multi-view diffusion models based on the probability structure of the images to be generated. Owing to the high parallelism of the image generation and the efficiency of the modern 4D reconstruction pipeline, our framework can generate 4D content within few minutes. Furthermore, our method circumvents the reliance on 4D data, thereby having the potential to benefit from the scalability of the foundation video and multi-view diffusion models. Extensive experiments demonstrate the efficacy of our proposed framework and its capability to flexibly adapt to various types of prompts.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 海藻からセキュリティへ:IoTフィンガープリントセンサーの妥協におけるアルギン酸の出現

From Seaweed to Security: The Emergence of Alginate in Compromising IoT Fingerprint Sensors ( http://arxiv.org/abs/2404.02150v1 )

ライセンス: Link先を確認
Pouria Rad, Gokila Dorai, Mohsen Jozani, (参考訳) IoTデバイスへの容量型指紋認識センサの統合の増加は、特に高度な指紋スプーフィングの文脈において、デジタル法医学において新たな課題を提起している。 これまでの研究は、生体認証システムの劣化におけるラテックスやシリコーンなどの材料の有効性を強調してきた。 本研究では,藻類由来のバイオポリマーであるアルギン酸を,IoT特異的な容量型指紋センサをスポーフィングする新しい材料として紹介する。 当社の研究では、Alginateと最先端の画像認識技術を使用して、セキュリティとプライバシに関する重大な懸念を提起するニュアンスなIoT脆弱性を明らかにしています。 概念実証実験では、真正の指紋型を使ってアルギン酸塩のレプリカを作りました。 アルギン酸塩の電気伝導性と比抵抗特性は、人間の皮膚によく似ているため、特にIoTデバイスセンサーをスポープする能力に関して、デジタル法医学分野への関心の対象となっている。 この研究は、デジタル法医学コミュニティに、進化するIoTインフラストラクチャをこのような高度な脅威から守るための高度なアンチスプーフィング戦略を開発するよう呼びかける。

The increasing integration of capacitive fingerprint recognition sensors in IoT devices presents new challenges in digital forensics, particularly in the context of advanced fingerprint spoofing. Previous research has highlighted the effectiveness of materials such as latex and silicone in deceiving biometric systems. In this study, we introduce Alginate, a biopolymer derived from brown seaweed, as a novel material with the potential for spoofing IoT-specific capacitive fingerprint sensors. Our research uses Alginate and cutting-edge image recognition techniques to unveil a nuanced IoT vulnerability that raises significant security and privacy concerns. Our proof-of-concept experiments employed authentic fingerprint molds to create Alginate replicas, which exhibited remarkable visual and tactile similarities to real fingerprints. The conductivity and resistivity properties of Alginate, closely resembling human skin, make it a subject of interest in the digital forensics field, especially regarding its ability to spoof IoT device sensors. This study calls upon the digital forensics community to develop advanced anti-spoofing strategies to protect the evolving IoT infrastructure against such sophisticated threats.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 簡易アダプティブアタックによる安全に配慮したLLMの脱獄

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks ( http://arxiv.org/abs/2404.02151v1 )

ライセンス: Link先を確認
Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, (参考訳) 近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。 まず、jailbreakでlogprobへのアクセスをうまく活用する方法を実証する: 最初は逆プロンプトテンプレートを設計し、次に接尾辞にランダム検索を適用して、ターゲットのlogprob(例えば、トークン"Sure")を複数の再起動で最大化する。 このようにして、GCG攻撃に対して敵対的に訓練されたHarmBenchのGPT-3.5/4、Llama-2-Chat-7B/13B/70B、Gemma-7B、R2D2の攻撃成功率(GPT-4)を100倍近く達成する。 また、転送またはプリフィル攻撃のいずれかを通じて、Crudeモデル -- ログプロブを公開していない -- を、100%の成功率でジェイルブレイクする方法も示しています。 さらに、毒殺モデル(ジェイルブレイクと多くの類似点を持つタスク)でトロイの木馬の文字列を見つけるために制限されたトークンセットをランダムに検索する方法も示しています。 異なるモデルが異なるプロンプトテンプレート(例えば、R2D2は、コンテキスト内の学習プロンプトに非常に敏感である)に対して脆弱である、いくつかのモデルは、APIに基づいてユニークな脆弱性を持っている(例えば、Claudeのプリフィル)、いくつかの設定では、事前の知識に基づいてトークン検索スペースを制限することが重要である(例えば、トロイの木馬検出)。 私たちはhttps://github.com/tml-epfl/llm-adaptive- attacksで攻撃のコード、プロンプト、ログを提供します。

We show that even the most recent safety-aligned LLMs are not robust to simple adaptive jailbreaking attacks. First, we demonstrate how to successfully leverage access to logprobs for jailbreaking: we initially design an adversarial prompt template (sometimes adapted to the target LLM), and then we apply random search on a suffix to maximize the target logprob (e.g., of the token "Sure"), potentially with multiple restarts. In this way, we achieve nearly 100\% attack success rate -- according to GPT-4 as a judge -- on GPT-3.5/4, Llama-2-Chat-7B/13B/70B, Gemma-7B, and R2D2 from HarmBench that was adversarially trained against the GCG attack. We also show how to jailbreak all Claude models -- that do not expose logprobs -- via either a transfer or prefilling attack with 100\% success rate. In addition, we show how to use random search on a restricted set of tokens for finding trojan strings in poisoned models -- a task that shares many similarities with jailbreaking -- which is the algorithm that brought us the first place in the SaTML'24 Trojan Detection Competition. The common theme behind these attacks is that adaptivity is crucial: different models are vulnerable to different prompting templates (e.g., R2D2 is very sensitive to in-context learning prompts), some models have unique vulnerabilities based on their APIs (e.g., prefilling for Claude), and in some settings it is crucial to restrict the token search space based on prior knowledge (e.g., for trojan detection). We provide the code, prompts, and logs of the attacks at https://github.com/tml-epfl/llm-adaptive-attacks.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# GeneAvatar: 単一画像からのジェネリック表現対応ボリュームヘッドアバター編集

GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image ( http://arxiv.org/abs/2404.02152v1 )

ライセンス: Link先を確認
Chong Bao, Yinda Zhang, Yuan Li, Xiyu Zhang, Bangbang Yang, Hujun Bao, Marc Pollefeys, Guofeng Zhang, Zhaopeng Cui, (参考訳) 近年, アニマタブルヘッドアバターのモデル化において, 様々な体積表現の爆発的な成長が見られた。 しかし、フレームワークの多様性のため、異なる表現をまたいだ3Dヘッドアバター編集のような高レベルのアプリケーションをサポートするための実践的な方法はない。 本稿では,多種多様な3DMM駆動ヘッドアバターに適用可能な汎用的なアバター編集手法を提案する。 この目的を達成するために、単一の画像から一貫した3D修正フィールドへのリフト2D編集を可能にする新しい表現対応修正生成モデルを設計する。 生成的修正プロセスの有効性を確保するため, 大規模頭部アバターモデルと2次元顔テクスチャ編集ツールから知識を引き出す表現依存型改質蒸留法, モデル収束性を高める暗黙の潜在空間ガイダンス, 細粒度テクスチャインバージョンのためのセグメンテーションに基づくロスリウェイト戦略などを開発した。 大規模な実験により,本手法は複数の表現と視点をまたいだ高品質で一貫した結果をもたらすことが示された。 プロジェクトページ: https://zju3dv.github.io/geneavatar/

Recently, we have witnessed the explosive growth of various volumetric representations in modeling animatable head avatars. However, due to the diversity of frameworks, there is no practical method to support high-level applications like 3D head avatar editing across different representations. In this paper, we propose a generic avatar editing approach that can be universally applied to various 3DMM driving volumetric head avatars. To achieve this goal, we design a novel expression-aware modification generative model, which enables lift 2D editing from a single image to a consistent 3D modification field. To ensure the effectiveness of the generative modification process, we develop several techniques, including an expression-dependent modification distillation scheme to draw knowledge from the large-scale head avatar model and 2D facial texture editing tools, implicit latent space guidance to enhance model convergence, and a segmentation-based loss reweight strategy for fine-grained texture inversion. Extensive experiments demonstrate that our method delivers high-quality and consistent results across multiple expression and viewpoints. Project page: https://zju3dv.github.io/geneavatar/
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 動的事前トレーニング - 効率的かつスケーラブルなオールインワン画像復元を目指して

Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration ( http://arxiv.org/abs/2404.02154v1 )

ライセンス: Link先を確認
Akshay Dudhane, Omkar Thawakar, Syed Waqas Zamir, Salman Khan, Fahad Shahbaz Khan, Ming-Hsuan Yang, (参考訳) オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。 同じモデルを用いて複数の劣化に対処する必要性は、より効率的な代替品への適応性に欠ける固定された構成の高複雑さ設計につながる可能性がある。 我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。 我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができ、単一のトレーニングで効率的なモデルデプロイメントのための柔軟性を提供します。 このシームレスな切り替えは、重み共有機構によって実現され、アーキテクチャのコアを形成し、初期化モジュール重みの再利用を容易にする。 さらに、ロバストウェイトの初期化を確立するために、提案したDyNetの変種を同時に訓練する動的事前学習戦略を導入し、GPU時間の50%削減を実現した。 事前トレーニングに必要な大規模データセットの有効性に対処するために,2Mイメージサンプルを持つMillid-IRDという高品質で高解像度の画像データセットをキュレートする。 我々はDyNetをオールインワン環境でのデノイング,デライニング,脱ヘイズに有効であり,GFlopsの31.34%,パラメーターの56.75%をベースラインモデルと比較した。 ソースコードとトレーニングされたモデルはhttps://github.com/akshaydudhane16/DyNetで公開されている。

All-in-one image restoration tackles different types of degradations with a unified model instead of having task-specific, non-generic models for each degradation. The requirement to tackle multiple degradations using the same model can lead to high-complexity designs with fixed configuration that lack the adaptability to more efficient alternatives. We propose DyNet, a dynamic family of networks designed in an encoder-decoder style for all-in-one image restoration tasks. Our DyNet can seamlessly switch between its bulkier and lightweight variants, thereby offering flexibility for efficient model deployment with a single round of training. This seamless switching is enabled by our weights-sharing mechanism, forming the core of our architecture and facilitating the reuse of initialized module weights. Further, to establish robust weights initialization, we introduce a dynamic pre-training strategy that trains variants of the proposed DyNet concurrently, thereby achieving a 50% reduction in GPU hours. To tackle the unavailability of large-scale dataset required in pre-training, we curate a high-quality, high-resolution image dataset named Million-IRD having 2M image samples. We validate our DyNet for image denoising, deraining, and dehazing in all-in-one setting, achieving state-of-the-art results with 31.34% reduction in GFlops and a 56.75% reduction in parameters compared to baseline models. The source codes and trained models are available at https://github.com/akshaydudhane16/DyNet.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# アルファ不変性:ニューラルラジアンス場における距離と体積密度の逆スケーリングについて

Alpha Invariance: On Inverse Scaling Between Distance and Volume Density in Neural Radiance Fields ( http://arxiv.org/abs/2404.02155v1 )

ライセンス: Link先を確認
Joshua Ahn, Haochen Wang, Raymond A. Yeh, Greg Shakhnarovich, (参考訳) 3次元シーン次元におけるスケールのあいまいさは、ニューラルレイディアンス場における体積密度の大きさのあいまいさをもたらす。 この性質をα不変性と呼ぶ。 NeRFがアルファ不変性をよりよく維持するために、我々は推奨する 1)ログ空間における距離と体積密度のパラメータ化 2)高線透過性を保証するための離散化に依存しない初期化戦略。 我々はいくつかの人気のある放射場モデルを再検討し、これらのシステムがシーンスケーリングに起因する問題に対処するために様々なヒューリスティックを用いていることを見出した。 私たちは彼らの振る舞いをテストし、レシピをより堅牢なものにします。

Scale-ambiguity in 3D scene dimensions leads to magnitude-ambiguity of volumetric densities in neural radiance fields, i.e., the densities double when scene size is halved, and vice versa. We call this property alpha invariance. For NeRFs to better maintain alpha invariance, we recommend 1) parameterizing both distance and volume densities in log space, and 2) a discretization-agnostic initialization strategy to guarantee high ray transmittance. We revisit a few popular radiance field models and find that these systems use various heuristics to deal with issues arising from scene scaling. We test their behaviors and show our recipe to be more robust.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 言語による任意の3Dオブジェクトのセグメンテーション

Segment Any 3D Object with Language ( http://arxiv.org/abs/2404.02157v1 )

ライセンス: Link先を確認
Seungjun Lee, Yuyang Zhao, Gim Hee Lee, (参考訳) 本稿では,自由形式の言語命令を用いたオープン語彙3Dインスタンスセグメンテーション(OV-3DIS)について検討する。 注釈付き基本カテゴリーのみに依存した初期の作品では、未確認の新規カテゴリーへの限定的な一般化に悩まされていた。 近年の研究では,2次元から3次元への一般化マスクの生成や,意味や幾何学的情報を無視した一般化マスクの投影により,新しいカテゴリーへの一般化性が低下し,準最適性能が向上している。 代わりに、3Dポイントの雲から直接、一般化できるがセマンティックなマスクを生成すると、より優れた結果が得られる。 本稿では,Segment any 3D Object with LanguagE (SOLE)について紹介する。 具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。 さらに,3次元セグメンテーションモデルと様々な言語命令を一致させ,マスクの品質を高めるために,3種類のマルチモーダルアソシエーションを監督として導入する。 我々のSOLEは、ScanNetv2、ScanNet200、Replicaのベンチマークにおいて、従来のメソッドよりも大幅に優れています。 さらに, 言語命令に対するSOLEの汎用性についても検討した。

In this paper, we investigate Open-Vocabulary 3D Instance Segmentation (OV-3DIS) with free-form language instructions. Earlier works that rely on only annotated base categories for training suffer from limited generalization to unseen novel categories. Recent works mitigate poor generalizability to novel categories by generating class-agnostic masks or projecting generalized masks from 2D to 3D, but disregard semantic or geometry information, leading to sub-optimal performance. Instead, generating generalizable but semantic-related masks directly from 3D point clouds would result in superior outcomes. In this paper, we introduce Segment any 3D Object with LanguagE (SOLE), which is a semantic and geometric-aware visual-language learning framework with strong generalizability by generating semantic-related masks directly from 3D point clouds. Specifically, we propose a multimodal fusion network to incorporate multimodal semantics in both backbone and decoder. In addition, to align the 3D segmentation model with various language instructions and enhance the mask quality, we introduce three types of multimodal associations as supervision. Our SOLE outperforms previous methods by a large margin on ScanNetv2, ScanNet200, and Replica benchmarks, and the results are even close to the fully-supervised counterpart despite the absence of class annotations in the training. Furthermore, extensive qualitative results demonstrate the versatility of our SOLE to language instructions.
翻訳日:2024-04-03 15:20:18 公開日:2024-04-02
# 高い周波数のフィルタリングでホワイトボックスの説明が改善

Saliency strikes back: How filtering out high frequencies improves white-box explanations ( http://arxiv.org/abs/2307.09591v3 )

ライセンス: Link先を確認
Sabine Muzellec, Thomas Fel, Victor Boutin, Léo andéol, Rufin VanRullen, Thomas Serre, (参考訳) 属性法は、個々の入力がモデルの意思決定プロセスにどのように貢献するかを評価するための説明可能性法(XAI)のクラスに対応する。 ホワイトボックス法(White-box method)と呼ばれる1種類の帰属法において,有意な制限が認められた。 これらの手法は高効率であるが、高周波ノイズによってしばしば汚染される勾配信号に依存している。 この制限を克服するために、我々は"FORGrad"と呼ばれる新しいアプローチを導入する。 本手法は,各モデルアーキテクチャの固有特性に合わせて最適なカットオフ周波数を用いて,ノイズアーティファクトを効果的にフィルタリングする。 以上の結果から, FORGradは既存のWhite-boxメソッドの性能を継続的に向上させ,より正確かつ計算的に要求される"black-box"メソッドと効果的に競合できることを示した。 我々の研究は、よりシンプルで効率的なホワイトボックス法を説明可能性に適用し、忠実性と計算効率のバランスを改善することを期待している。

Attribution methods correspond to a class of explainability methods (XAI) that aim to assess how individual inputs contribute to a model's decision-making process. We have identified a significant limitation in one type of attribution methods, known as "white-box" methods. Although highly efficient, these methods rely on a gradient signal that is often contaminated by high-frequency noise. To overcome this limitation, we introduce a new approach called "FORGrad". This simple method effectively filters out noise artifacts by using optimal cut-off frequencies tailored to the unique characteristics of each model architecture. Our findings show that FORGrad consistently enhances the performance of already existing white-box methods, enabling them to compete effectively with more accurate yet computationally demanding "black-box" methods. We anticipate that our research will foster broader adoption of simpler and more efficient white-box methods for explainability, offering a better balance between faithfulness and computational efficiency.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# 単一画像からの対話型マルチパーソンの3次元再構築

3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image ( http://arxiv.org/abs/2401.06415v3 )

ライセンス: Link先を確認
Junuk Cha, Hansol Lee, Jaewon Kim, Nhat Nguyen Bao Truong, Jae Shin Yoon, Seungryul Baek, (参考訳) 本稿では,1つの画像からグローバルなコヒーレントなシーン空間上の衣服の多人数インタラクションの形状を再構築する,新しいパイプラインを提案する。 主な課題は、人体の一部が、他者や自己の隠蔽によって単一の視点から見えず、幾何学と身体的不確実性(例えば、浸透)が欠如していることである。 この課題を克服するために、人間の2つの先駆体を完全な3次元形状と表面接触に活用する。 事前に、エンコーダは、欠落した身体部分を持つ人のイメージを潜伏ベクトルに回帰させることを学び、デコーダはこれらのベクトルをデコードして関連する幾何学の3D特徴を生成し、暗黙のネットワークはこれらの特徴を表面正規写像と組み合わせて、完全で詳細な3D人間を再構築する。 本研究では,3次元の人物間の接触の確率分布を出力する画像空間接触検出器を開発した。 我々はこれらの先行技術を用いて、身体のポーズを世界規模で洗練し、シーン空間における多人数の対話を、無浸透で正確に再現することを可能にする。 その結果,本手法は既存の手法と比較して完全で,グローバルに一貫性があり,物理的に妥当であることがわかった。

This paper introduces a novel pipeline to reconstruct the geometry of interacting multi-person in clothing on a globally coherent scene space from a single image. The main challenge arises from the occlusion: a part of a human body is not visible from a single view due to the occlusion by others or the self, which introduces missing geometry and physical implausibility (e.g., penetration). We overcome this challenge by utilizing two human priors for complete 3D geometry and surface contacts. For the geometry prior, an encoder learns to regress the image of a person with missing body parts to the latent vectors; a decoder decodes these vectors to produce 3D features of the associated geometry; and an implicit network combines these features with a surface normal map to reconstruct a complete and detailed 3D humans. For the contact prior, we develop an image-space contact detector that outputs a probability distribution of surface contacts between people in 3D. We use these priors to globally refine the body poses, enabling the penetration-free and accurate reconstruction of interacting multi-person in clothing on the scene space. The results demonstrate that our method is complete, globally coherent, and physically plausible compared to existing methods.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# LLMは人型ウェイフィンディング命令を生成できるか? : プラットフォーム非依存型インストラクション合成に向けて

Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis ( http://arxiv.org/abs/2403.11487v3 )

ライセンス: Link先を確認
Vishnu Sashank Dorbala, Sanjoy Chowdhury, Dinesh Manocha, (参考訳) 本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。 特定のシミュレーションプラットフォーム専用に設計された人間アノテーション付きデータセットに大きく依存する従来のアプローチとは対照的に,本アルゴリズムはLLMを条件付けるためにコンテキスト内学習を用いて,ごく少数の参照を用いて命令を生成する。 LLMに基づく視覚質問応答戦略を用いて,LLMが授業合成に使用する環境に関する詳細な情報を収集する。 我々は、Matterport3D、AI Habitat、ThreeDWorldといった複数のシミュレーションプラットフォームにアプローチを実装し、プラットフォームに依存しない性質を示す。 提案手法をユーザスタディを通じて主観的に評価し,83.3%のユーザが生成した命令が環境の詳細を正確に把握し,人為的な指示に類似した特徴を示すことを観察した。 さらに、生成した命令を用いてREVERIEデータセットに複数のアプローチを施したゼロショットナビゲーションを行い、標準成功指標(SRにおける1%の変更)の基準値と非常に密接な相関を観察し、人間の注釈付きデータを置き換える際に生成された命令の生存可能性の定量化を行う。 我々は最終的に、具体化ナビゲーションポリシーの一般化可能な評価を可能にするためのアプローチの適用性について論じる。 我々の知識を最大限に活用するために、私たちは、学習せずにプラットフォームに依存しない方法で「人間らしい」命令を生成できる最初のLCM駆動型アプローチである。

We present a novel approach to automatically synthesize "wayfinding instructions" for an embodied robot agent. In contrast to prior approaches that are heavily reliant on human-annotated datasets designed exclusively for specific simulation platforms, our algorithm uses in-context learning to condition an LLM to generate instructions using just a few references. Using an LLM-based Visual Question Answering strategy, we gather detailed information about the environment which is used by the LLM for instruction synthesis. We implement our approach on multiple simulation platforms including Matterport3D, AI Habitat and ThreeDWorld, thereby demonstrating its platform-agnostic nature. We subjectively evaluate our approach via a user study and observe that 83.3% of users find the synthesized instructions accurately capture the details of the environment and show characteristics similar to those of human-generated instructions. Further, we conduct zero-shot navigation with multiple approaches on the REVERIE dataset using the generated instructions, and observe very close correlation with the baseline on standard success metrics (< 1% change in SR), quantifying the viability of generated instructions in replacing human-annotated data. We finally discuss the applicability of our approach in enabling a generalizable evaluation of embodied navigation policies. To the best of our knowledge, ours is the first LLM-driven approach capable of generating "human-like" instructions in a platform-agnostic manner, without training.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# 三次元感情認識におけるマルチモーダルフュージョンのための再帰的関節交叉注意法

Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2403.13659v3 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam, (参考訳) マルチモーダル感情認識は近年顕著な進歩を遂げているが、モーダル間の豊かなシナジー的関係の可能性は完全には活用されていない。 本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を提案する。 特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づいて注目重みを計算し,モーダル間の相互関係を同時に捉える。 個々のモダリティの付随する特徴は、より洗練された特徴表現を得るために再帰的なメカニズムで融合モデルへの入力として再び供給される。 我々はまた、個々のモーダルの特徴表現の時間的モデリングを改善するために、時間的畳み込みネットワーク(TCN)についても検討した。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。 音声,視覚,テキスト間の相乗的相互関係を効果的に把握することにより,検証セット(テストセット)上でそれぞれ0.585(0.542)と0.659(0.619)の一致相関係数(CCC)を達成する。 これは、第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティション(ABAW)における、有価値と覚醒値の検証セット(テストセット)において、それぞれ0.24(0.211)と0.20(0.191)を大きく改善したことを示している。

Though multimodal emotion recognition has achieved significant progress over recent years, the potential of rich synergic relationships across the modalities is not fully exploited. In this paper, we introduce Recursive Joint Cross-Modal Attention (RJCMA) to effectively capture both intra-and inter-modal relationships across audio, visual and text modalities for dimensional emotion recognition. In particular, we compute the attention weights based on cross-correlation between the joint audio-visual-text feature representations and the feature representations of individual modalities to simultaneously capture intra- and inter-modal relationships across the modalities. The attended features of the individual modalities are again fed as input to the fusion model in a recursive mechanism to obtain more refined feature representations. We have also explored Temporal Convolutional Networks (TCNs) to improve the temporal modeling of the feature representations of individual modalities. Extensive experiments are conducted to evaluate the performance of the proposed fusion model on the challenging Affwild2 dataset. By effectively capturing the synergic intra- and inter-modal relationships across audio, visual and text modalities, the proposed fusion model achieves a Concordance Correlation Coefficient (CCC) of 0.585 (0.542) and 0.659 (0.619) for valence and arousal respectively on the validation set (test set). This shows a significant improvement over the baseline of 0.24 (0.211) and 0.20 (0.191) for valence and arousal respectively on the validation set (test set) of the valence-arousal challenge of 6th Affective Behavior Analysis in-the-Wild (ABAW) competition.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# ViTによるCNN学習:ドメイン適応のためのクラス固有境界のハイブリッドモデル

Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation ( http://arxiv.org/abs/2403.18360v2 )

ライセンス: Link先を確認
Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi, (参考訳) ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。 彼らは独自の特性を考慮せずに、ドメイン間の分布差をエンコーダとして整列させる。 例えば、ViTはグローバル表現をキャプチャする能力に優れており、CNNはローカル表現をキャプチャする利点がある。 この事実により、私たちは、Explicitly Class-specific Boundaries (ECB)と呼ばれるViTとCNNの両方をフルに活用するハイブリッドな手法を設計しました。 ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。 特に,2つの分類器の出力間の差を最大化することにより,ViTの特性を利用してクラス固有の決定境界を明示的に見つけることで,ソースサポートから離れたターゲットサンプルを検出する。 対照的に、CNNエンコーダクラスタは、2つの分類器の確率間の差を最小限に抑えて、予め定義されたクラス固有の境界に基づいて、ターゲットとなる特徴を目標としている。 最後に、ViTとCNNは相互に知識を交換し、擬似ラベルの品質を改善し、これらのモデルの知識格差を減らす。 従来のDA手法と比較して、当社のECBは優れたパフォーマンスを達成しており、このハイブリッドモデルの有効性を検証しています。 プロジェクトのWebサイトはhttps://dotrannhattuong.github.io/ECB/website/にある。

Most domain adaptation (DA) methods are based on either a convolutional neural networks (CNNs) or a vision transformers (ViTs). They align the distribution differences between domains as encoders without considering their unique characteristics. For instance, ViT excels in accuracy due to its superior ability to capture global representations, while CNN has an advantage in capturing local representations. This fact has led us to design a hybrid method to fully take advantage of both ViT and CNN, called Explicitly Class-specific Boundaries (ECB). ECB learns CNN on ViT to combine their distinct strengths. In particular, we leverage ViT's properties to explicitly find class-specific decision boundaries by maximizing the discrepancy between the outputs of the two classifiers to detect target samples far from the source support. In contrast, the CNN encoder clusters target features based on the previously defined class-specific boundaries by minimizing the discrepancy between the probabilities of the two classifiers. Finally, ViT and CNN mutually exchange knowledge to improve the quality of pseudo labels and reduce the knowledge discrepancies of these models. Compared to conventional DA methods, our ECB achieves superior performance, which verifies its effectiveness in this hybrid model. The project website can be found https://dotrannhattuong.github.io/ECB/website/.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# SemEval Task 1: アフリカ・アジア言語における意味的テキスト関連性

SemEval Task 1: Semantic Textual Relatedness for African and Asian Languages ( http://arxiv.org/abs/2403.18933v3 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Meriem Beloucif, Christine De Kock, Oumaima Hourrane, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Krishnapriya Vishnubhotla, Seid Muhie Yimam, Saif M. Mohammad, (参考訳) セマンティックテキスト関連性(STR)に関する最初の共有タスクを提示する。 以前の共有タスクは、主に意味的類似性に焦点を当てていたが、代わりに、アフリカーンス、アルジェリア語、アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、キンヤルワンダ語、マラティー語、モロッコ語、現代標準アラビア語、パンジャビ語、スペイン語、テルグ語など、14言語にわたる意味的関連性の広範な現象を調査した。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 データセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 参加型システムでは, 文の親密性(意味的関係の程度)によって, 3つの主要なトラックにおいて, 14言語で文対をランク付けするよう求められた。 a) 監督; 監督; 監督 (b)監督なし、及び (c)クロスリンガル。 参加者数は163名。 51の異なるチームから合計70の応募(全タスク)と38のシステム記述書類を受け取りました。 我々は,3つの異なるトラックに対して,最高の性能システムと,最も一般的かつ最も効果的なアプローチについて報告する。

We present the first shared task on Semantic Textual Relatedness (STR). While earlier shared tasks primarily focused on semantic similarity, we instead investigate the broader phenomenon of semantic relatedness across 14 languages: Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by the relatively limited availability of NLP resources. Each instance in the datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. Participating systems were asked to rank sentence pairs by their closeness in meaning (i.e., their degree of semantic relatedness) in the 14 languages in three main tracks: (a) supervised, (b) unsupervised, and (c) crosslingual. The task attracted 163 participants. We received 70 submissions in total (across all tasks) from 51 different teams, and 38 system description papers. We report on the best-performing systems as well as the most common and the most effective approaches for the three different tracks.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# より良いソーシャルメディアエージェントとしての知識境界とペルソナの動的形状

Knowledge Boundary and Persona Dynamic Shape A Better Social Media Agent ( http://arxiv.org/abs/2403.19275v2 )

ライセンス: Link先を確認
Junkai Zhou, Liang Pang, Ya Jing, Jia Gu, Huawei Shen, Xueqi Cheng, (参考訳) パーソナライズされた人為的エージェントの構築は、ソーシャルネットワークのシミュレーションにおいて重要な意味を持つ。 エージェントは、そのペルソナに属さない世界知識を持ち、現在の行動における多様なペルソナ情報の干渉を排除できないため、エージェントのパーソナライズと人格化を減少させる。 上記の問題を解決するために,パーソナライズされた知識と動的ペルソナ情報に基づくソーシャルメディアエージェントを構築した。 パーソナライズされた知識に対して、外部知識ソースを追加し、エージェントのペルソナ情報とマッチングすることにより、エージェントにパーソナライズされた世界知識を与える。 動的ペルソナ情報については、現在の行動情報を用いてエージェントのペルソナ情報を内部的に検索し、現在の行動に対する多様なペルソナ情報の干渉を低減する。 このエージェントをソーシャルメディアに適したものにするために,ペルソナ,計画,行動,記憶,リフレクションの5つの基本モジュールを設計する。 エージェントのインタラクションと検証環境を実現するため,ソーシャルメディアシミュレーションサンドボックスを構築した。 実験による検証では, 自動評価と人的評価により, 構築したエージェントの有効性が示された。

Constructing personalized and anthropomorphic agents holds significant importance in the simulation of social networks. However, there are still two key problems in existing works: the agent possesses world knowledge that does not belong to its personas, and it cannot eliminate the interference of diverse persona information on current actions, which reduces the personalization and anthropomorphism of the agent. To solve the above problems, we construct the social media agent based on personalized knowledge and dynamic persona information. For personalized knowledge, we add external knowledge sources and match them with the persona information of agents, thereby giving the agent personalized world knowledge. For dynamic persona information, we use current action information to internally retrieve the persona information of the agent, thereby reducing the interference of diverse persona information on the current action. To make the agent suitable for social media, we design five basic modules for it: persona, planning, action, memory and reflection. To provide an interaction and verification environment for the agent, we build a social media simulation sandbox. In the experimental verification, automatic and human evaluations demonstrated the effectiveness of the agent we constructed.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# KazParC: Kazakh Parallel Corpus for Machine Translation

KazParC: Kazakh Parallel Corpus for Machine Translation ( http://arxiv.org/abs/2403.19399v2 )

ライセンス: Link先を確認
Rustem Yeshpanov, Alina Polonskaya, Huseyin Atakan Varol, (参考訳) KazParCは、カザフ語、英語、ロシア語、トルコ語にまたがる機械翻訳用に設計された並列コーパスである。 KazParCは、さまざまなドメインをカバーする371,902の並列文のコレクションを含み、人間の翻訳者の助けを借りて開発された。 我々の研究は、Tilmashと呼ばれるニューラルマシン翻訳モデルの開発にも及んでいる。 注目すべきことに、Tilmashのパフォーマンスは、BLEUやchrFといった標準的な評価指標によって測定されるように、Google TranslateやYandex Translateといった業界巨人のパフォーマンスと同等であり、場合によっては同等である。 KazParCとTilmashはどちらも、GitHubリポジトリを通じてCreative Commons Attribution 4.0 International License (CC BY 4.0)の下で、無料でダウンロードできる。

We introduce KazParC, a parallel corpus designed for machine translation across Kazakh, English, Russian, and Turkish. The first and largest publicly available corpus of its kind, KazParC contains a collection of 371,902 parallel sentences covering different domains and developed with the assistance of human translators. Our research efforts also extend to the development of a neural machine translation model nicknamed Tilmash. Remarkably, the performance of Tilmash is on par with, and in certain instances, surpasses that of industry giants, such as Google Translate and Yandex Translate, as measured by standard evaluation metrics, such as BLEU and chrF. Both KazParC and Tilmash are openly available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# eTraM: イベントベースのトラフィック監視データセット

eTraM: Event-based Traffic Monitoring Dataset ( http://arxiv.org/abs/2403.19976v2 )

ライセンス: Link先を確認
Aayush Atul Verma, Bharatesh Chakravarthi, Arpitsinh Vaghela, Hua Wei, Yezhou Yang, (参考訳) イベントカメラは、高い時間的および動的範囲と最小限のメモリ使用量を持ち、様々な分野で応用されている。 しかし、静的なトラフィック監視におけるその可能性はほとんど解明されていない。 この探索を容易にするために、最初のイベントベースのトラフィック監視データセットであるeTraMを紹介します。 eTraMは、様々な照明と気象条件の異なる交通シナリオから10時間のデータを提供する。 2Mのバウンディングボックスアノテーションを提供し、車両から歩行者、マイクロモビリティまで、交通参加者の8つの異なるクラスをカバーしている。 eTraMのユーティリティは、RVT、RED、YOLOv8など、トラフィックの傍受を検出する最先端の手法を使用して評価されている。 我々は、夜間および見えない場面でイベントベースモデルが一般化する能力について定量的に評価する。 本研究は,交通監視にイベントカメラを活用する可能性,研究と応用に新たな道を開くことの可能性を裏付けるものである。 eTraMはhttps://eventbasedvision.github.io/eTraMで利用可能である。

Event cameras, with their high temporal and dynamic range and minimal memory usage, have found applications in various fields. However, their potential in static traffic monitoring remains largely unexplored. To facilitate this exploration, we present eTraM - a first-of-its-kind, fully event-based traffic monitoring dataset. eTraM offers 10 hr of data from different traffic scenarios in various lighting and weather conditions, providing a comprehensive overview of real-world situations. Providing 2M bounding box annotations, it covers eight distinct classes of traffic participants, ranging from vehicles to pedestrians and micro-mobility. eTraM's utility has been assessed using state-of-the-art methods for traffic participant detection, including RVT, RED, and YOLOv8. We quantitatively evaluate the ability of event-based models to generalize on nighttime and unseen scenes. Our findings substantiate the compelling potential of leveraging event cameras for traffic monitoring, opening new avenues for research and application. eTraM is available at https://eventbasedvision.github.io/eTraM
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# 人工ニューラルネットワークを用いた人工神経インタフェースのためのENG信号のリアルタイム分類

Artificial Neural Networks-based Real-time Classification of ENG Signals for Implanted Nerve Interfaces ( http://arxiv.org/abs/2403.20234v2 )

ライセンス: Link先を確認
Antonio Coviello, Francesco Linsalata, Umberto Spagnolini, Maurizio Magarini, (参考訳) 神経病理は、患者の生活を永久に危険にさらすリスクがあるため、臨床環境では高い関連性が高まっている。 患者の回復を支援するために、完全に移植されたデバイスの使用が、最も有望な解決策の1つとして浮上している。 しかしながら、これらのデバイスは、完全に複雑な神経ナノネットワークシステムの一部となるとしても、多くの課題を生じさせる。 本稿では,運動・感覚刺激の分類からなり,その1つに対処する。 この課題は、ラットの坐骨神経で測定された心電図(ENG)信号から4種類の人工ニューラルネットワーク(ANN)を抽出し、様々な感覚刺激を抽出することによって行われる。 各データセットの異なるサイズは, 精度, F1スコア, 予測時間の比較により, リアルタイム分類におけるANNの有効性を解析できると考えられる。 ANNの設計では、ENG信号をMIMO(Multiple-input multiple-output)システムとしてモデル化し、最先端の人工神経インタフェースによる計測を記述している。 これらは、神経活動のナノスケール空間的識別を実現するための多接触カフ電極の使用に基づいている。 MIMO ENG信号モデルも本論文の貢献である。 以上の結果から,ANNはリアルタイムアプリケーションに適しており,100ドルおよび200ドル以上の信号ウィンドウに対して90 %以上のアキュラシーを達成できる。

Neuropathies are gaining higher relevance in clinical settings, as they risk permanently jeopardizing a person's life. To support the recovery of patients, the use of fully implanted devices is emerging as one of the most promising solutions. However, these devices, even if becoming an integral part of a fully complex neural nanonetwork system, pose numerous challenges. In this article, we address one of them, which consists of the classification of motor/sensory stimuli. The task is performed by exploring four different types of artificial neural networks (ANNs) to extract various sensory stimuli from the electroneurographic (ENG) signal measured in the sciatic nerve of rats. Different sizes of the data sets are considered to analyze the feasibility of the investigated ANNs for real-time classification through a comparison of their performance in terms of accuracy, F1-score, and prediction time. The design of the ANNs takes advantage of the modelling of the ENG signal as a multiple-input multiple-output (MIMO) system to describe the measures taken by state-of-the-art implanted nerve interfaces. These are based on the use of multi-contact cuff electrodes to achieve nanoscale spatial discrimination of the nerve activity. The MIMO ENG signal model is another contribution of this paper. Our results show that some ANNs are more suitable for real-time applications, being capable of achieving accuracies over $90\%$ for signal windows of $100$ and $200\,$ms with a low enough processing time to be effective for pathology recovery.
翻訳日:2024-04-03 13:20:15 公開日:2024-04-02
# 神経進化を伴う土地利用計画における効果的な政策の発見

Discovering Effective Policies for Land-Use Planning with Neuroevolution ( http://arxiv.org/abs/2311.12304v5 )

ライセンス: Link先を確認
Risto Miikkulainen, Olivier Francon, Daniel Young, Elliot Meyerson, Clemens Schwingshackl, Jacob Bieker, Hugo Cunha, Babak Hodjat, (参考訳) 森林、都市部、農業など、異なる用途のためにどのように土地が配分されるかは、地球上の炭素収支に大きな影響を与える。 土地利用の変化に関する過去のデータと、関連する炭素排出量と除去のシミュレーションに基づいて、サロゲートモデルを学び、意思決定者が利用できる様々な選択肢を効率的に評価することができる。 進化的探索プロセスは、特定の場所に対する効果的な土地利用政策を発見するために使用できる。 このようなシステムはProject Resilienceプラットフォーム上に構築され、Land-Use HarmonizationデータセットLUH2と簿記モデルBLUEで評価された。 パレートは、炭素の衝突と土地利用の変化の量とを異なる場所にカスタマイズするパレートフロントを生産し、土地利用計画のための潜在的に有用なツールを提供する。

How areas of land are allocated for different uses, such as forests, urban areas, and agriculture, has a large effect on the terrestrial carbon balance, and therefore climate change. Based on available historical data on land-use changes and a simulation of the associated carbon emissions and removals, a surrogate model can be learned that makes it possible to evaluate the different options available to decision-makers efficiently. An evolutionary search process can then be used to discover effective land-use policies for specific locations. Such a system was built on the Project Resilience platform and evaluated with the Land-Use Harmonization dataset LUH2 and the bookkeeping model BLUE. It generates Pareto fronts that trade off carbon impact and amount of land-use change customized to different locations, thus providing a potentially useful tool for land-use planning.
翻訳日:2024-04-03 11:22:19 公開日:2024-04-02
# MMCert:マルチモーダルモデルに対する敵対的攻撃に対する防御の可能性

MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models ( http://arxiv.org/abs/2403.19080v3 )

ライセンス: Link先を確認
Yanting Wang, Hongye Fu, Wei Zou, Jinyuan Jia, (参考訳) 単一のモダリティから入力されるユニモーダルモデルとは異なり、マルチモーダルモデルの入力(マルチモーダル入力と呼ばれる)は、画像、3Dポイント、オーディオ、テキストなどの複数のモダリティからである。 ユニモーダルモデルと同様に、多くの既存研究では、攻撃者がマルチモーダルモデルが誤った予測を行うように、マルチモーダル入力のすべてのモダリティに小さな摂動を加えることができるような、敵の摂動にも弱いことが示されている。 既存の認証された防御は, 実験結果に示すようなマルチモーダルモデルに拡張した場合に, 準最適認証された堅牢性を保証するために設計されている。 本研究は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。 両モードに有界な摂動を持つ任意対向攻撃(例えば、自動運転の文脈では、RGB画像と深度画像の両方において変化画素の数)下でのMMCertの性能の低下を導出する。 我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。 さらに,MMCertを,一様モデルから拡張した最先端の防御技術と比較した。 実験の結果,MMCertはベースラインよりも優れていた。

Different from a unimodal model whose input is from a single modality, the input (called multi-modal input) of a multi-modal model is from multiple modalities such as image, 3D points, audio, text, etc. Similar to unimodal models, many existing studies show that a multi-modal model is also vulnerable to adversarial perturbation, where an attacker could add small perturbation to all modalities of a multi-modal input such that the multi-modal model makes incorrect predictions for it. Existing certified defenses are mostly designed for unimodal models, which achieve sub-optimal certified robustness guarantees when extended to multi-modal models as shown in our experimental results. In our work, we propose MMCert, the first certified defense against adversarial attacks to a multi-modal model. We derive a lower bound on the performance of our MMCert under arbitrary adversarial attacks with bounded perturbations to both modalities (e.g., in the context of auto-driving, we bound the number of changed pixels in both RGB image and depth image). We evaluate our MMCert using two benchmark datasets: one for the multi-modal road segmentation task and the other for the multi-modal emotion recognition task. Moreover, we compare our MMCert with a state-of-the-art certified defense extended from unimodal models. Our experimental results show that our MMCert outperforms the baseline.
翻訳日:2024-04-03 11:22:19 公開日:2024-04-02
# FairRAG:フェアリトリーバル拡張によるフェアヒューマンジェネレーション

FairRAG: Fair Human Generation via Fair Retrieval Augmentation ( http://arxiv.org/abs/2403.19964v2 )

ライセンス: Link先を確認
Robik Shrestha, Yang Zou, Qiuyu Chen, Zhiheng Li, Yusheng Xie, Siqi Deng, (参考訳) 既存のテキスト・画像生成モデルは、トレーニングデータに内在する社会的バイアスを反映または増幅する。 これは、モデルが特定の人口集団に偏っている人間の画像生成に特に関係している。 この問題を解決するための既存の試みは、事前訓練されたモデルの固有の制限によって妨げられ、人口多様性を著しく改善することができない。 本研究では,Fair Retrieval Augmented Generation (FairRAG)について紹介する。FairRAGは,外部画像データベースから取得した参照画像に対して,事前学習した生成モデルを条件付けし,人間の生成における公平性を改善するフレームワークである。 FairRAGは、参照画像をテキスト空間に投影する軽量リニアモジュールによる条件付けを可能にする。 公平性を高めるために、FairRAGは単純なyet- Effective debiasing戦略を適用し、生成過程において多様な人口集団の画像を提供する。 大規模な実験により、FairRAGは人口多様性、画像テキストアライメント、画像の忠実度において既存の手法よりも優れており、推論中に最小の計算オーバーヘッドが生じることが示された。

Existing text-to-image generative models reflect or even amplify societal biases ingrained in their training data. This is especially concerning for human image generation where models are biased against certain demographic groups. Existing attempts to rectify this issue are hindered by the inherent limitations of the pre-trained models and fail to substantially improve demographic diversity. In this work, we introduce Fair Retrieval Augmented Generation (FairRAG), a novel framework that conditions pre-trained generative models on reference images retrieved from an external image database to improve fairness in human generation. FairRAG enables conditioning through a lightweight linear module that projects reference images into the textual space. To enhance fairness, FairRAG applies simple-yet-effective debiasing strategies, providing images from diverse demographic groups during the generative process. Extensive experiments demonstrate that FairRAG outperforms existing methods in terms of demographic diversity, image-text alignment, and image fidelity while incurring minimal computational overhead during inference.
翻訳日:2024-04-03 11:22:19 公開日:2024-04-02
# 光ファイバにおける統合量子通信網と振動検出

Integrated quantum communication network and vibration sensing in optical fibers ( http://arxiv.org/abs/2403.19989v2 )

ライセンス: Link先を確認
Shuaishuai Liu, Yan Tian, Yu Zhang, Zhenguo Lu, Xuyang Wang, Yongmin Li, (参考訳) コミュニケーションとセンシング技術は現代社会の様々な側面において重要な役割を果たしている。 コミュニケーションとセンシングシステムのシームレスな組み合わせが望まれており、近年は大きな関心を集めている。 本稿では、ダウンストリーム量子アクセスネットワーク(DQAN)と光ファイバーの振動センシングを統合するネットワークアーキテクチャを提案し、実証する。 単一レーザ源のサイドモード量子状態上で8人のユーザのキー情報を同時に符号化し、フィルタネットワークで連続的に分離することにより、80kmの単一モードファイバ上で平均1.88*10^4ビット/秒のキーレートで安全かつ効率的なDQANを実現する。 一方、DQANシステムの既存のインフラでは、100Hz,1kHz,10kHzの振動周波数で、空間分解能120m,24m,8mの振動位置をそれぞれ実装している。 我々の統合アーキテクチャは、セキュアな量子通信センサネットワークを構築し、量子通信ネットワークの機能拡張の道を開くための、実用的で費用対効果の高いソリューションを提供します。

Communication and sensing technology play a significant role in various aspects of modern society. A seamless combination of the communication and the sensing systems is desired and have attracted great interests in recent years. Here, we propose and demonstrate a network architecture that integrating the downstream quantum access network (DQAN) and vibration sensing in optical fibers. By encoding the key information of eight users simultaneously on the sidemode quantum states of a single laser source and successively separating them by a filter network, we achieve a secure and efficient DQAN with an average key rate of 1.88*10^4 bits per second over an 80 km single-mode fiber. Meanwhile, the vibration location with spatial resolution of 120 m, 24 m, and 8 m at vibration frequencies of 100 Hz, 1 kHz, and 10 kHz, respectively, is implemented with the existing infrastructure of the DQAN system. Our integrated architecture provides a viable and cost-effective solution for building a secure quantum communication sensor network, and open the way for expanding the functionality of quantum communication networks.
翻訳日:2024-04-03 11:22:19 公開日:2024-04-02